質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.48%

  • Python

    12188questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

  • Twitter

    804questions

    Twitterは、140文字以内の「ツイート」と呼ばれる短文を投稿できるサービスです。Twitter上のほぼ全ての機能に対応するAPIが存在し、その関連サービスが多く公開されています。

ツイッターの文章の収集に関する質問

受付中

回答 1

投稿

  • 評価
  • クリップ 0
  • VIEW 938

moti1001

score 2

ツイッターにおいて、あるワードの検索でヒットしたツイートの文章だけを収集したいです。

下に書いたプログラムでは、お気に入りの数やIDなどの情報も収集していまいます。
これをなんとかツイートの文章だけを収集できないかと考えています。
ヒントや考え方だけでも構いませんので、教えていただけないでしょうか?

ちなみにこのプログラムは「スタバ」のワード検索でヒットした100個のツイートの情報を収集するプログラムです。


 coding:utf-8

from requests_oauthlib import OAuth1Session
from requests.exceptions import ConnectionError, ReadTimeout, SSLError
import json, datetime, time, pytz, re, sys,traceback, pymongo

from pymongo import Connection     # Connection classは廃止されたのでMongoClientに変更 

from pymongo import MongoClient
from collections import defaultdict
import numpy as np

KEYS = { # 自分のアカウントで入手したキーを下記に記載
'consumer_key':'xxx',
'consumer_secret':'xxx',
'access_token':'xxx',
'access_secret':'xxx',
}

twitter = None
connect = None
db      = None
tweetdata = None
meta    = None

def initialize(): # twitter接続情報や、mongoDBへの接続処理等initial処理実行
global twitter, twitter, connect, db, tweetdata, meta
twitter = OAuth1Session(KEYS['consumer_key'],KEYS['consumer_secret'],
KEYS['access_token'],KEYS['access_secret'])

   connect = Connection('localhost', 27017)     # Connection classは廃止されたのでMongoClientに変更 

connect = MongoClient('localhost', 27017)
db = connect.starbucks
tweetdata = db.tweetdata
meta = db.metadata

initialize()

 検索ワードを指定して10件のTweetデータをTwitter REST APIsから取得する

def getTweetData(search_word, max_id, since_id):
global twitter
url = 'https://api.twitter.com/1.1/search/tweets.json'
params = {'q': search_word,
'count':'10',
}

 max_idの指定があれば設定する

if max_id != -1:
params['max_id'] = max_id

 since_idの指定があれば設定する

if since_id != -1:
params['since_id'] = since_id

req = twitter.get(url, params = params)   # Tweetデータの取得

 取得したデータの分解

if req.status_code == 200: # 成功した場合
timeline = json.loads(req.text)
metadata = timeline['search_metadata']
statuses = timeline['statuses']
limit = req.headers['x-rate-limit-remaining'] if 'x-rate-limit-remaining' in req.headers else 0
reset = req.headers['x-rate-limit-reset'] if 'x-rate-limit-reset' in req.headers else 0              
return {"result":True, "metadata":metadata, "statuses":statuses, "limit":limit, "reset_time":datetime.datetime.fromtimestamp(float(reset)), "reset_time_unix":reset}
else: # 失敗した場合
print ("Error: %d" % req.status_code)
return{"result":False, "status_code":req.status_code}

 文字列を日本時間2タイムゾーンを合わせた日付型で返す

def str_to_date_jp(str_date):
dts = datetime.datetime.strptime(str_date,'%a %b %d %H:%M:%S +0000 %Y')
return pytz.utc.localize(dts).astimezone(pytz.timezone('Asia/Tokyo'))

 現在時刻をUNIX Timeで返す

def now_unix_time():
return time.mktime(datetime.datetime.now().timetuple())

-------------繰り返しTweetデータを取得する-------------#

sid=-1
mid = -1 
count = 0

res = None
while(True):    
try:
count = count + 1
sys.stdout.write("%d, "% count)
res = getTweetData(u'スタバ', max_id=mid, since_id=sid)
if res['result']==False:

 失敗したら終了する

print "status_code", res['status_code']
break

if int(res['limit']) == 0:    # 回数制限に達したので休憩

 日付型の列'created_datetime'を付加する

print "Adding created_at field."
for d in tweetdata.find({'created_datetime':{ "$exists": False }},{'_id':1, 'created_at':1}):

print str_to_date_jp(d['created_at'])

tweetdata.update({'_id' : d['_id']}, 
{'$set' : {'created_datetime' : str_to_date_jp(d['created_at'])}})

remove_duplicates()

 待ち時間の計算. リミット+5秒後に再開する

diff_sec = int(res['reset_time_unix']) - now_unix_time()
print "sleep %d sec." % (diff_sec+5)
if diff_sec > 0:
time.sleep(diff_sec + 5)
else:

 metadata処理

if len(res['statuses'])==0:
sys.stdout.write("statuses is none. ")
elif 'next_results' in res['metadata']:

 結果をmongoDBに格納する

meta.insert({"metadata":res['metadata'], "insert_date": now_unix_time()})
for s in res['statuses']:
tweetdata.insert(s)
next_url = res['metadata']['next_results']
pattern = r".*max_id=([0-9]*)\&.*"
ite = re.finditer(pattern, next_url)
for i in ite:
mid = i.group(1)
break
else:
sys.stdout.write("next is none. finished.")
break
except SSLError as (errno, request):
print "SSLError({0}): {1}".format(errno, strerror)
print "waiting 5mins"
time.sleep(5*60)
except ConnectionError as (errno, request):
print "ConnectionError({0}): {1}".format(errno, strerror)
print "waiting 5mins"
time.sleep(5*60)
except ReadTimeout as (errno, request):
print "ReadTimeout({0}): {1}".format(errno, strerror)
print "waiting 5mins"
time.sleep(5*60)
except:
print "Unexpected error:", sys.exc_info()[0]
traceback.format_exc(sys.exc_info()[2])
raise
finally:
info = sys.exc_info()


言語:python2.7
データベース:mongo
テキストエディタ:sublime
PC:mac book air(OS X El capitan)

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • argius

    2016/08/28 20:44

    コード部分は``` ```で囲んで下さい。
    コード部分を選択してから編集画面の上部にある<code>ボタンを押すと自動で囲んでくれます。

    囲まないと、特にPythonの場合は、インデントやコメント行が正しく表示されません。

    キャンセル

  • 退会済みユーザー

    2016/08/29 04:00

    こちらの質問が他のユーザから「やってほしいことだけを記載した丸投げの質問」という指摘を受けました
    「質問を編集する」ボタンから編集を行い、調査したこと・試したことを記入していただくと、回答が得られやすくなります。

回答 1

0

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

同じタグがついた質問を見る

  • Python

    12188questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

  • Twitter

    804questions

    Twitterは、140文字以内の「ツイート」と呼ばれる短文を投稿できるサービスです。Twitter上のほぼ全ての機能に対応するAPIが存在し、その関連サービスが多く公開されています。