🎄teratailクリスマスプレゼントキャンペーン2024🎄』開催中!

\teratail特別グッズやAmazonギフトカード最大2,000円分が当たる!/

詳細はこちら
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Twitter

Twitterは、140文字以内の「ツイート」と呼ばれる短文を投稿できるサービスです。Twitter上のほぼ全ての機能に対応するAPIが存在し、その関連サービスが多く公開されています。

Q&A

解決済

1回答

965閲覧

収集したツイートに正規表現をかけられない

farinelli

総合スコア61

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Twitter

Twitterは、140文字以内の「ツイート」と呼ばれる短文を投稿できるサービスです。Twitter上のほぼ全ての機能に対応するAPIが存在し、その関連サービスが多く公開されています。

0グッド

0クリップ

投稿2019/10/09 09:11

ツイートをリアルタイムで収集しながら、url, 返信, RTを除去したものをテキストファイルとして生成すると同時に,ターミナルに表示させたいと思っています.
しかし,”#該当箇所”と書かれている行でエラーが出たと表示されました.
このエラーは,その行の一行上でstr型に指定する前から同じエラーが出ていました.

sentence = f.write(str(text)) #元々sentence = f.write(text)だった

今回このような指定の仕方をしても同じエラーが出ていることを受けて,別の原因があるのか,あるいは型の指定や正規表現の仕方が悪いのか自分の知識では判断できない状況です.

このエラーが何で,どのような解決策があるのかご教示頂きたいです.
宜しくお願いします.

エラー

Traceback (most recent call last): File "honban2.py", line 56, in <module> stream.sample() File "/Users/macuser/workspaces/jxpress/trendword/.direnv/python-3.7.3/lib/python3.7/site-packages/tweepy/streaming.py", line 449, in sample self._start(is_async) File "/Users/macuser/workspaces/jxpress/trendword/.direnv/python-3.7.3/lib/python3.7/site-packages/tweepy/streaming.py", line 389, in _start self._run() File "/Users/macuser/workspaces/jxpress/trendword/.direnv/python-3.7.3/lib/python3.7/site-packages/tweepy/streaming.py", line 320, in _run six.reraise(*exc_info) File "/Users/macuser/workspaces/jxpress/trendword/.direnv/python-3.7.3/lib/python3.7/site-packages/six.py", line 693, in reraise raise value File "/Users/macuser/workspaces/jxpress/trendword/.direnv/python-3.7.3/lib/python3.7/site-packages/tweepy/streaming.py", line 289, in _run self._read_loop(resp) File "/Users/macuser/workspaces/jxpress/trendword/.direnv/python-3.7.3/lib/python3.7/site-packages/tweepy/streaming.py", line 351, in _read_loop self._data(next_status_obj) File "/Users/macuser/workspaces/jxpress/trendword/.direnv/python-3.7.3/lib/python3.7/site-packages/tweepy/streaming.py", line 323, in _data if self.listener.on_data(data) is False: File "/Users/macuser/workspaces/jxpress/trendword/.direnv/python-3.7.3/lib/python3.7/site-packages/tweepy/streaming.py", line 54, in on_data if self.on_status(status) is False: File "honban2.py", line 40, in on_status sentence = re.sub(r"http\S+", "", sentence) File "/Users/macuser/workspaces/jxpress/trendword/.direnv/python-3.7.3/lib/python3.7/re.py", line 192, in sub return _compile(pattern, flags).sub(repl, string, count) TypeError: expected string or bytes-like object

コード

renshu.py

1import os 2import tweepy 3import redis 4from collections import Counter 5from collections import defaultdict 6import re 7from natto import MeCab 8import codecs 9import sys 10from sklearn.feature_extraction.text import TfidfVectorizer 11import glob 12import pandas as pd 13import numpy as np 14import urllib.request 15from gensim import corpora 16from itertools import chain 17 18#APIのauth部分は省略 19 20class StreamListener(tweepy.StreamListener): 21 def __init__(self): 22 super().__init__() 23 self.count = 0 # 取得したtweet数 24 25 def on_status(self, status): 26 text = str(status.text) 27 #https://www.pytry3g.com/entry/master-Preprocessing#正規表現を使う 28 29 #日本語ツイートをファイルに書き込んでいる + ツイートの数を表示 30 if status.lang == "ja": 31 with open("test.txt", "a", encoding="utf-8") as f: 32 sentence = f.write(str(text)) 33 sentence = re.sub(r"http\S+", "", sentence) #該当箇所 34 sentence = re.sub(r"@(\w+) ", "", sentence) 35 sentence = re.sub(r"(^RT.*)", "", sentence, flags=re.MULTILINE | re.DOTALL) 36 emoji_pattern = re.compile("[" 37 u"\U0001F600-\U0001F64F" 38 u"\U0001F300-\U0001F5FF" 39 u"\U0001F680-\U0001F6FF" 40 u"\U0001F1E0-\U0001F1FF" 41 "]+", flags=re.UNICODE) 42 sentence = emoji_pattern.sub("", sentence) 43 texts = set(sentence) 44 print(texts) 45 46#加工部分は省略 47 48stream = tweepy.Stream(auth=auth, listener=StreamListener()) 49stream.sample()

補足情報(FW/ツールのバージョンなど)

iOS 10.15, Python 3.7.4, Atom

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

pythonのf.write()はファイルに内容を書き込み、書き込んだ文字数を返す関数です。
よって、sentenceには正数型の文字数が格納されているのでしょう。

投稿2019/10/09 09:22

qax

総合スコア622

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

farinelli

2019/10/09 09:40

有難うございます. すみません.確認ですが,「正数型の文字数」と言うのは「整数型の文字列」の間違いではなく文字通り受け取ってよろしいでしょうか? 又,自分は収集したツイートを文字列として変換した上で正規表現,或いはそれ以降の処理を行いたいと考えているのでそこは問題ないと思われるのですが如何でしょうか? もし不備等あれば遠慮なく指摘して頂けますと幸いです.
qax

2019/10/09 09:43 編集

文字通りです。 たとえば、書き込んだのがhogehogeなら8です。
qax

2019/10/09 09:48

現在のコードでは、f.write()の返り値(正数型の文字数)をsentenceにいれています。 その後、sentenceを正規表現にかけているので、エラーがでます。 sentenceにいれるのは、f.write(str(text))ではなく、str(text)ではないでしょうか。
farinelli

2019/10/09 10:09

無事エラーを解消することができました.有難うございます. これにより別の問題が発覚したのですが,それは別の質問とさせていただきます.
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.36%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問