質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

89.52%

Python tweepyを使ったプログラムの処理速度をあげたい

解決済

回答 2

投稿

  • 評価
  • クリップ 0
  • VIEW 855

Biginner0131

score 1

前提・実現したいこと

Python tweepyを使ったtwitterフォロワー情報抽出の処理速度をあげたいです。

任意のアカウントのフォロワーについて、以下の情報をCSVに書き出したいと考え、
検索して出てきたものを利用して作成いたしました。

・@以下のID
・アカウント名
・フォロー数
・フォロワー数
・アカウント開設日時
・プロフィールテキスト

無事情報をCSVに書き出すことが出来たのですが、処理速度が遅く、
目標としている100万~200万規模のフォロワー情報を得るには、
10日以上時間がかかる想定です。
遅くとも終日、可能であれば12時間以内に処理を済ませたいと
考えております。

発生している問題・エラーメッセージ

前述の通りエラーは発生していませんが、処理速度が遅く困っています。
作成中のCSVを確認したところ、4000件/1h くらいの速度になっています。

エラーメッセージはありません。

該当のソースコード

import tweepy
import csv

target_id = "xxxxxxxx"

CONSUMER_KEY = "xxxxxxxx"
CONSUMER_SECRET = "xxxxxxxx"
ACCESS_TOKEN = "xxxxxxxx"
ACCESS_TOKEN_SECRET = "xxxxxxxx"
auth = tweepy.OAuthHandler(CONSUMER_KEY, CONSUMER_SECRET)
auth.set_access_token(ACCESS_TOKEN, ACCESS_TOKEN_SECRET)
api = tweepy.API(auth ,wait_on_rate_limit = True)

followers_ids = tweepy.Cursor(api.followers_ids, id = target_id, cursor = -1).items()
followers_ids_list = []
for followers_id in followers_ids:
    followers_ids_list.append(followers_id)

with open('xxxxxxxx.csv', 'a', newline="", encoding='utf-8_sig') as f:
    writer = csv.writer(f)

    for followerId in followers_ids_list:
        followers_detail = []

        try:
            user = api.get_user(followerId)
            userid = user.screen_name
            username = user.name
            friend_num = str(user.friends_count)
            follower_num = str(user.followers_count)
            start_date = str(user.created_at)
            descript = user.description
            # recent_tweet = api.user_timeline(followerId)[0].text
            followers_detail.extend([userid, username, friend_num, follower_num, start_date, descript])
            writer.writerow(followers_detail)

        except Exception as e:
            continue

試したこと

人数によって単位時間あたりの処理件数が変わるかと思い、1万~30万規模まで
試行しましたが、殆ど変わりませんでした。
また、取得情報が多いのかと考え、アカウント名のみで試しましたが、
これも変わりませんでした。
CSVに出力するのをプログラムの外側に出したりもしたのですが、特に効果を
実感することは出来ませんでした。

補足情報(FW/ツールのバージョンなど)

Pythonはver.3.7.4と記載されたものをインストールしています。

当方は学生時代に研究手段として少しRubyをかじった程度の知識しかなく、
Pythonについては殆ど知識がない状態です。
易しく教えて頂けますと幸いです。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 2

checkベストアンサー

+2

https://developer.twitter.com/en/docs/accounts-and-users/follow-search-get-users/api-reference/get-users-show

Requests / 15-min window (user auth)     900

Twitter API が15分に900回までしか受け付けないのでそれが上限です。


コメントに対して

質問のソースの

followers_ids = tweepy.Cursor(api.followers_ids, id = target_id, cursor = -1).items()

for followers_id in followers_ids:


この部分(=followers/ids)に対する実行の制限が「15分に15回」で「API実行1回につき5,000件」までです。 APIリファレンス

target_idで指定されたアカウントのフォロワーが5,000より多い時に、この部分でAPIが複数回実行されます。


たとえば

with open('xxxxxxxx.followers.txt', 'a') as f:
    for user_id in tweepy.Cursor(api.followers_ids, id=target_id, cursor=-1).items():
        print(user_id, file=f)


のようにすれば「15分間に5000件を15回、最大75,000件、IDのみを獲得」になりますね。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2019/08/29 17:49

    ご回答いただきましてありがとうございます。

    上記追記頂いたもので理解することが出来ました。
    "api.followers_ids" と"api.get_user"の2種類がある中で、
    より回数制限の重い後者が優先され、前者の回数に沿わなかったと
    いうことですね。

    頂いたコードを参考にさせていただき、idのみを高速で処理できる
    コードを組み、実行させていただきます。
    それで再び質問させていただきたい事項が出て参りましたら、
    その際にはコードも添えて質問させていただく様に致します。

    ご対応いただきまして、誠にありがとうございました。

    キャンセル

  • 2019/08/29 18:10

    ちょっと勘違いがありました。
    修正したというコードで何が起こっていたのかは想像できませんが、誤解がないように回答を訂正しました。

    キャンセル

  • 2019/09/02 14:48

    細部までご対応いただきましてありがとうございました。
    無事100万人以上のフォロワーIDを抽出することが出来ました。

    キャンセル

+1

プログラムのどの部分の処理に時間がかかっているのでしょうか?

ざっくり見た感じでは、データの取得に時間がかかっていると思われますが、tweepy が利用している Twitter API には、レート制限があるので、あまり早くすることはできないと思います。(早くしたとしても Twitter API が、エラーになってデータを取得できないので無駄な待機時間が増えると思われます。)

Rate Limiting 参照。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2019/08/29 16:38

    ご回答いただきましてありがとうございます。
    tweepyでは詳細情報まで取ると、あまり早くすることが出来ない旨、承知いたしました。

    Python以外では、PHPで同様のコードがネット上で多数公開されていたのですが、
    それを使えばより速く処理を進めることが出来るのでしょうか。
    後学のため、ご回答いただけますと幸いです。

    よろしくお願いいたします。

    キャンセル

  • 2019/08/29 18:31

    tweepy ではなくて、Twitter のサーバー側での制限ですので、何を使っても同じです。

    キャンセル

  • 2019/08/30 11:48

    ご回答いただきましてありがとうございます。
    承知いたしました。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 89.52%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

同じタグがついた質問を見る