前提・実現したいこと
TwitterのAPIを用いて、ツイートをクローリングするプログラム作っています。
プログラムを実行することで、ある程度のツイートは取得できるのですが、途中でエラーが出て中断されてしまいます。
該当のソースコード
python
1# coding="utf-8" 2 3from time import sleep 4import json, config #標準のjsonモジュールとconfig.pyの読み込み 5from requests_oauthlib import OAuth1Session #OAuthのライブラリの読み込み 6 7#config.pyには各キーを記載しています。 8 9CK = config.CONSUMER_KEY 10CS = config.CONSUMER_SECRET 11AT = config.ACCESS_TOKEN 12ATS = config.ACCESS_TOKEN_SECRET 13twitter = OAuth1Session(CK, CS, AT, ATS) #認証処理 14 15max_id = -1 16url = 'https://api.twitter.com/1.1/search/tweets.json' 17keyword = '任意の文字列' 18count = 100 19params = {'q' : keyword, 'count' : count, 'max_id' : max_id} 20i=0 21 22while(True): 23 print(max_id) 24 if (max_id != -1): 25 params['max_id'] = max_id - 1 26 req = twitter.get(url, params = params) 27 28 if (req.status_code == 200): #正常に取得できていれば 29 f=open("jp_tweet.txt","a",encoding="utf-8") 30 search_TL = json.loads(req.text) 31 32 if(search_TL['statuses'] == []):#検索結果を全て書き終わったら 33 f.close() 34 print('終了します') 35 break 36 37 for tweet in search_TL['statuses']: 38 tweet_text = tweet['text'] 39 f.write(tweet_text + "\n") 40 i=i+1 41 42 f.close() 43 max_id = search_TL['statuses'][-1]['id'] 44 45 else:#APIの取得制限 46 print('Please wait 15minute.') 47 print(i) 48 sleep(15*60)
発生している問題・エラーメッセージ
プログラムを実行すると、コマンドプロンプト上では以下のような出力が出ます。 エラーコードが出るまでは、ファイルへのtweetの書き込みができています。 C:\Users\user\Documents\twi>python search.py -1 1094242865729814528 1094242865146806272 (以下IDの出力が続く) 1094242777242587136 1094242776764436480 Please wait 15minute. 17913 1094242776764436480 1094242776303071233 (以下IDの出力が続く) 1094242684447780864 1094242683978051584 1094242683420200960 Please wait 15minute. 35808 1094242683420200960 Traceback (most recent call last): File "C:\Users\user\AppData\Local\Programs\Python\Python37\lib\site-packages\urllib3\connectionpool.py", line 600, in urlopen chunked=chunked) File "C:\Users\user\AppData\Local\Programs\Python\Python37\lib\site-packages\urllib3\connectionpool.py", line 384, in _make_request six.raise_from(e, None) File "<string>", line 2, in raise_from File "C:\Users\user\AppData\Local\Programs\Python\Python37\lib\site-packages\urllib3\connectionpool.py", line 380, in _make_request httplib_response = conn.getresponse() File "C:\Users\user\AppData\Local\Programs\Python\Python37\lib\http\client.py", line 1321, in getresponse response.begin() File "C:\Users\user\AppData\Local\Programs\Python\Python37\lib\http\client.py", line 296, in begin version, status, reason = self._read_status() File "C:\Users\user\AppData\Local\Programs\Python\Python37\lib\http\client.py", line 257, in _read_status line = str(self.fp.readline(_MAXLINE + 1), "iso-8859-1") File "C:\Users\user\AppData\Local\Programs\Python\Python37\lib\socket.py", line 589, in readinto return self._sock.recv_into(b) File "C:\Users\user\AppData\Local\Programs\Python\Python37\lib\ssl.py", line 1052, in recv_into return self.read(nbytes, buffer) File "C:\Users\user\AppData\Local\Programs\Python\Python37\lib\ssl.py", line 911, in read return self._sslobj.read(len, buffer) TimeoutError: [WinError 10060] 接続済みの呼び出し先が一定の時間を過ぎても正しく応答しなかったため、接続できませんでした。または接続済みのホストが応答しなかったため、確立された接続は失敗しました。 During handling of the above exception, another exception occurred: Traceback (most recent call last): File "C:\Users\user\AppData\Local\Programs\Python\Python37\lib\site-packages\requests\adapters.py", line 449, in send timeout=timeout File "C:\Users\user\AppData\Local\Programs\Python\Python37\lib\site-packages\urllib3\connectionpool.py", line 638, in urlopen _stacktrace=sys.exc_info()[2]) (以下同様なエラー出力が続く)
補足情報(FW/ツールのバージョンなど)
関係があるかはわかりませんが、dev environment から検索ツイートの期間は無制限を選択しています。
API上の何らかの制限にかかっていると思うのですが、それが何なのかわかりません。どうかお力添えをいただければと思います。

回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2019/02/10 11:36
2019/02/10 11:39