urllibの410HTTPエラー回避方法について

Question

**現在**10000件のURLリストからURLを取り出し、個別にサイト内のテキストをスクレイピングするプログラムをgoogleColabratory構築しています。2000件までは下記のpython1のコードでCSVファイルに書き出し迄できたのですが、10000件のURLではHTTP Error 410: Goneと表示されます。
**やったことと**してはurllibでこのようなエラーが発生することが分かったためpython2のようなプログラムの作成を行いました。しかし、一つのサイトをひたすらスクレイピングする状態になってしまい上手く動作しません。どこをどの様に修正すれば宜しいでしょうか？ご教授よろしくお願いいたします。

```python1
import requests, bs4
import codecs
import re
import csv
import urllib
import time
import pickle
import sys
import lxml.html


with open('***.csv',encoding="utf-8") as csv_file :
 a_test = []
 for urllists in csv.reader(csv_file): 
  a_test.append(urllists[1])
 del a_test[0]
urltitlelist = []
for url_list in a_test:
    html = urllib.request.urlopen(url_list)
    soup = bs4.BeautifulSoup(html, "html.parser")
    title =soup.select('.container')
    for item_elems in title:
       text_elems = item_elems.text
       urltitlelist.append({"urls": url_list,"text": text_elems, })
       print(text_elems)
with open('textdata.csv', 'w', encoding='utf-8') as f:
    fields = ["urls","text"]

    writer = csv.DictWriter(f, fieldnames=fields, quoting=csv.QUOTE_NONNUMERIC)
    writer.writeheader()  # ヘッダー出力
    writer.writerows(urltitlelist)  # データ出力
```

```python2
import requests, bs4
import codecs
import re
import csv
import urllib
import time
import pickle
import sys
import lxml.html
from urllib.request import Request, urlopen
from urllib.error import URLError


with open('***.csv',encoding="utf-8") as csv_file :
 a_test = []
 for urllists in csv.reader(csv_file): 
     a_test.append(urllists[3])
  del a_test[0]
urltitlelist = []
for url_list in a_test:
    html = urllib.request.Request(url_list)
    try: 
        response = urlopen(html)
    except urllib.error.HTTPError as e:
           print('raise HTTPError')
           print(e.code)
           print(e.reason)
    except urllib.error.URLError as e:
           rint('rase URLError')
           print(e.reason)
    else:    
         soup = bs4.BeautifulSoup(html, "html.parser")   
         title =soup.select('.container')
    for item_elems in title:   
        text_elems = item_elems.text
        urltitlelist.append({"urls": url_list,"text": text_elems, })
        print(text_elems)
with open('textdata.csv', 'w', encoding='utf-8') as f:
    # 列の出力順序を規定
    fields = ["urls","text"]

    writer = csv.DictWriter(f, fieldnames=fields, quoting=csv.QUOTE_NONNUMERIC)
    writer.writeheader()  # ヘッダー出力
    writer.writerows(urltitlelist)  # データ出力
```

Answer

具体的なエラーメッセージが、不明ですが...

[410 Gone - MDN Web docs](https://developer.mozilla.org/ja/docs/Web/HTTP/Status/410) に

> HyperText Transfer Protocol (HTTP) の 410 Gone クライエントエラーレスポンスコードは、元のサーバーで利用できなくなっている対象リソースにアクセスしていることを示します。この状態は永久的です。

と説明にあるように 410 のエラーがでるのは、コンテンツを提供しているサーバー側に問題があります。


410 が発生している URL を確認して、その URL に Web ブラウザでアクセスするとどうなりますか？

Web ブラウザでアクセスしても 410 のエラーが出る場合は、存在しない URL でアクセスができない可能性が高いので URL のリストから取り除いてください。

Web ブラウザでは問題なくアクセスできる場合は、何らかのスクレイピング対策等が行われている可能性があります。

また、ローカルPC で、プログラムを実行すると取得できる場合は、そのサイトで、海外からのアクセスが禁止されていたりするのかもしれません。

関連した質問