ツイートをリアルタイムで収集しながら、url, 返信, RTを除去したものをテキストファイルとして生成すると同時に,ターミナルに表示させたいと思っています.
しかし,”#該当箇所”と書かれている行でエラーが出たと表示されました.
このエラーは,その行の一行上でstr型に指定する前から同じエラーが出ていました.
sentence = f.write(str(text)) #元々sentence = f.write(text)だった
今回このような指定の仕方をしても同じエラーが出ていることを受けて,別の原因があるのか,あるいは型の指定や正規表現の仕方が悪いのか自分の知識では判断できない状況です.
このエラーが何で,どのような解決策があるのかご教示頂きたいです.
宜しくお願いします.
エラー
Traceback (most recent call last): File "honban2.py", line 56, in <module> stream.sample() File "/Users/macuser/workspaces/jxpress/trendword/.direnv/python-3.7.3/lib/python3.7/site-packages/tweepy/streaming.py", line 449, in sample self._start(is_async) File "/Users/macuser/workspaces/jxpress/trendword/.direnv/python-3.7.3/lib/python3.7/site-packages/tweepy/streaming.py", line 389, in _start self._run() File "/Users/macuser/workspaces/jxpress/trendword/.direnv/python-3.7.3/lib/python3.7/site-packages/tweepy/streaming.py", line 320, in _run six.reraise(*exc_info) File "/Users/macuser/workspaces/jxpress/trendword/.direnv/python-3.7.3/lib/python3.7/site-packages/six.py", line 693, in reraise raise value File "/Users/macuser/workspaces/jxpress/trendword/.direnv/python-3.7.3/lib/python3.7/site-packages/tweepy/streaming.py", line 289, in _run self._read_loop(resp) File "/Users/macuser/workspaces/jxpress/trendword/.direnv/python-3.7.3/lib/python3.7/site-packages/tweepy/streaming.py", line 351, in _read_loop self._data(next_status_obj) File "/Users/macuser/workspaces/jxpress/trendword/.direnv/python-3.7.3/lib/python3.7/site-packages/tweepy/streaming.py", line 323, in _data if self.listener.on_data(data) is False: File "/Users/macuser/workspaces/jxpress/trendword/.direnv/python-3.7.3/lib/python3.7/site-packages/tweepy/streaming.py", line 54, in on_data if self.on_status(status) is False: File "honban2.py", line 40, in on_status sentence = re.sub(r"http\S+", "", sentence) File "/Users/macuser/workspaces/jxpress/trendword/.direnv/python-3.7.3/lib/python3.7/re.py", line 192, in sub return _compile(pattern, flags).sub(repl, string, count) TypeError: expected string or bytes-like object
コード
renshu.py
1import os 2import tweepy 3import redis 4from collections import Counter 5from collections import defaultdict 6import re 7from natto import MeCab 8import codecs 9import sys 10from sklearn.feature_extraction.text import TfidfVectorizer 11import glob 12import pandas as pd 13import numpy as np 14import urllib.request 15from gensim import corpora 16from itertools import chain 17 18#APIのauth部分は省略 19 20class StreamListener(tweepy.StreamListener): 21 def __init__(self): 22 super().__init__() 23 self.count = 0 # 取得したtweet数 24 25 def on_status(self, status): 26 text = str(status.text) 27 #https://www.pytry3g.com/entry/master-Preprocessing#正規表現を使う 28 29 #日本語ツイートをファイルに書き込んでいる + ツイートの数を表示 30 if status.lang == "ja": 31 with open("test.txt", "a", encoding="utf-8") as f: 32 sentence = f.write(str(text)) 33 sentence = re.sub(r"http\S+", "", sentence) #該当箇所 34 sentence = re.sub(r"@(\w+) ", "", sentence) 35 sentence = re.sub(r"(^RT.*)", "", sentence, flags=re.MULTILINE | re.DOTALL) 36 emoji_pattern = re.compile("[" 37 u"\U0001F600-\U0001F64F" 38 u"\U0001F300-\U0001F5FF" 39 u"\U0001F680-\U0001F6FF" 40 u"\U0001F1E0-\U0001F1FF" 41 "]+", flags=re.UNICODE) 42 sentence = emoji_pattern.sub("", sentence) 43 texts = set(sentence) 44 print(texts) 45 46#加工部分は省略 47 48stream = tweepy.Stream(auth=auth, listener=StreamListener()) 49stream.sample()
補足情報(FW/ツールのバージョンなど)
iOS 10.15, Python 3.7.4, Atom
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2019/10/09 09:40
2019/10/09 09:43 編集
2019/10/09 09:48
2019/10/09 10:09