Pythonで正規表現を使って、余計な文字列を削除しようと思ったらこのようなエラーが発生しました。
よろしければ回答お願いします。
TypeError Traceback (most recent call last) <ipython-input-2-14afef8210b9> in <module>() 86 print(f.read()) 87 ---> 88 getMtTweet() 2 frames /usr/lib/python3.7/re.py in sub(pattern, repl, string, count, flags) 192 a callable, it's passed the Match object and must return 193 a replacement string to be used.""" --> 194 return _compile(pattern, flags).sub(repl, string, count) 195 196 def subn(pattern, repl, string, count=0, flags=0): TypeError: expected string or bytes-like object
エラーが出たのはここの部分です。
Python
1def format_text(tweet_data): 2 3 tweet_data=re.sub(r'https?://[\w/:%#$&?()~.=+\-…]+', "", tweet_data) 4 tweet_data=re.sub('RT', "", tweet_data) 5 tweet_data=re.sub('お気に入り', "", tweet_data) 6 tweet_data=re.sub('まとめ', "", tweet_data) 7 tweet_data=re.sub(r'[!-~]', "", tweet_data)#半角記号,数字,英字 8 tweet_data=re.sub(r'[︰-@]', "", tweet_data)#全角記号 9 tweet_data=re.sub('\n', " ", tweet_data)#改行文字 10 11 return tweet_data 12tweet_data=format_text
全体的には、このようなコードです。
Python
1import tweepy 2import csv 3import pprint 4import pandas as pd 5import os 6import time 7import datetime 8import re 9 10#ここはお決まりです。 11consumer_key = '' 12consumer_secret = '' 13access_token = '' 14access_token_secret = '' 15auth = tweepy.OAuthHandler(consumer_key, consumer_secret) 16auth.set_access_token(access_token, access_token_secret) 17api = tweepy.API(auth) 18 19#ツイートを保存するGoogle Driveのディレクトリです。事前に作っておきましょう。 20drive_path = '/content/drive/MyDrive/tweet' 21#学習用のデータセットで必要なツイート数を指定しています。 22max_tweets = 10000 23 24def getMtTweet(): 25 #取得したツイートを格納するための配列 26 tweets = [] 27 num = 0 28 i = 1 29 print('page ' + str(i)) 30 #自分のタイムラインを取得するためuser_timelineを使用します。1リクエストで取得できるツイートの上限数は100です。 31 tweet_data = api.home_timeline(include_rts=False,exclude_replies=True,count=100) 32 format_text(tweet_data) 33 if(len(tweet_data) > 0): 34 for tweet in tweet_data: 35 #データセット用に各ツイートの最後に<|endoftext|>をつけて整形します。 36 tweets.append([tweet.text+"<|endoftext|>"]) 37 num += 1 38 i += 1 39 next_max_id = tweet_data[-1].id 40 while True: 41 print('page ' + str(i)) 42 tweet_data = api.home_timeline(include_rts=False,exclude_replies=True,count=100, max_id=next_max_id-1) 43 format_text(tweet_data) 44 if(len(tweet_data) > 0): 45 next_max_id = tweet_data[-1].id 46 for tweet in tweet_data: 47 tweets.append([tweet.text+"<|endoftext|>"]) 48 num += 1 49 if(num >= max_tweets): 50 break 51 i += 1 52 #Twitter API制限の上限でエラーにならないようにディレイをかけています。 53 time.sleep((15*60)/180) 54 else: 55 break 56 saveTweets(tweets) 57 else: 58 print('zero tweet') 59 60def format_text(tweet_data): 61 62 tweet_data=re.sub(r'https?://[\w/:%#$&?()~.=+\-…]+', "", tweet_data) 63 tweet_data=re.sub('RT', "", tweet_data) 64 tweet_data=re.sub('お気に入り', "", tweet_data) 65 tweet_data=re.sub('まとめ', "", tweet_data) 66 tweet_data=re.sub(r'[!-~]', "", tweet_data)#半角記号,数字,英字 67 tweet_data=re.sub(r'[︰-@]', "", tweet_data)#全角記号 68 tweet_data=re.sub('\n', " ", tweet_data)#改行文字 69 70 return tweet_data 71tweet_data=format_text 72 73def saveTweets(tweets): 74 ut = time.time() 75 #csv使ってますがデータセット用にテキストファイルで保存します。 76 file_path = drive_path+'myTweets_' + str(ut) + '.txt' 77 file = open(file_path, 'w') 78 w = csv.writer(file) 79 w.writerows(tweets) 80 file.close() 81 82 with open(file_path) as f: 83 print(f.read()) 84 85getMtTweet()

回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2021/10/19 14:31