質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Twitter

Twitterは、140文字以内の「ツイート」と呼ばれる短文を投稿できるサービスです。Twitter上のほぼ全ての機能に対応するAPIが存在し、その関連サービスが多く公開されています。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

Q&A

解決済

1回答

2763閲覧

tweepyでbotを排除して、tweetを取得したい。

narinko

総合スコア31

Twitter

Twitterは、140文字以内の「ツイート」と呼ばれる短文を投稿できるサービスです。Twitter上のほぼ全ての機能に対応するAPIが存在し、その関連サービスが多く公開されています。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

0グッド

0クリップ

投稿2017/09/18 11:06

編集2017/09/19 05:04

tweepyでtweetを大量に取得しています。その中にbotが含まれています。これを排除したいです。-botや-source:twittbot.netは試しましたが、それでもbotのtweetが紛れ込んできます。強力にbotを排除する方法を教えてください。

tweet = api.search(q = 'あいうえお -bot -source:twittbot.net', count = 100)

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

CHERRY

2017/09/19 02:19 編集

現在、どのようなコードを記載して、排除しているのでしょうか? おそらく、アカウント名や表示名に botがついているアカウントを除外していると思いますが...
narinko

2017/09/19 05:04

ソースコードを追加しました。
guest

回答1

0

ベストアンサー

解答になっていないかもしれませんが、研究者の中でもbot排除はかなり複雑な問題だと聞いたことがあります。

  • 似たような投稿を繰り返しているもの
  • 明らかに文脈が不自然なもの

などを自然言語処理の技術を使って判定して、ユーザーをブラックリストに追加するくらいしか思いつきません。
narinkoさんがおっしゃる通り、それでも"bot"と名前がついているアカウントを削除するのが一番効果的だそうです。

追記
この話題はteratailの範疇を超えている可能性があります。
botを弾くためのライブラリやアルゴリズムなどを探してみてはいかかですか。
おそらく情報が少ないので英語などで検索する必要がありますが。

投稿2017/09/19 05:20

編集2017/09/19 06:12
退会済みユーザー

退会済みユーザー

総合スコア0

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問