Pythonで正規表現を使ったらエラーが発生したので、解決策をご教授願いたいです。

Pythonで正規表現を使って、余計な文字列を削除しようと思ったらこのようなエラーが発生しました。
よろしければ回答お願いします。

TypeError                                 Traceback (most recent call last)
<ipython-input-2-14afef8210b9> in <module>()
     86       print(f.read())
     87 
---> 88 getMtTweet()

2 frames
/usr/lib/python3.7/re.py in sub(pattern, repl, string, count, flags)
    192     a callable, it's passed the Match object and must return
    193     a replacement string to be used."""
--> 194     return _compile(pattern, flags).sub(repl, string, count)
    195 
    196 def subn(pattern, repl, string, count=0, flags=0):

TypeError: expected string or bytes-like object

エラーが出たのはここの部分です。

Python
1def format_text(tweet_data):
2
3    tweet_data=re.sub(r'https?://[\w/:%#$&?()~.=+\-…]+', "", tweet_data)
4    tweet_data=re.sub('RT', "", tweet_data)
5    tweet_data=re.sub('お気に入り', "", tweet_data)
6    tweet_data=re.sub('まとめ', "", tweet_data)
7    tweet_data=re.sub(r'[!-~]', "", tweet_data)#半角記号,数字,英字
8    tweet_data=re.sub(r'[︰-＠]', "", tweet_data)#全角記号
9    tweet_data=re.sub('\n', " ", tweet_data)#改行文字
10
11    return tweet_data
12tweet_data=format_text

全体的には、このようなコードです。

Python
1import tweepy
2import csv
3import pprint
4import pandas as pd
5import os
6import time
7import datetime
8import re
9
10#ここはお決まりです。
11consumer_key = ''
12consumer_secret = ''
13access_token = ''
14access_token_secret = ''
15auth = tweepy.OAuthHandler(consumer_key, consumer_secret)
16auth.set_access_token(access_token, access_token_secret)
17api = tweepy.API(auth)
18
19#ツイートを保存するGoogle Driveのディレクトリです。事前に作っておきましょう。
20drive_path = '/content/drive/MyDrive/tweet'
21#学習用のデータセットで必要なツイート数を指定しています。
22max_tweets = 10000
23
24def getMtTweet():
25  #取得したツイートを格納するための配列
26  tweets = []
27  num = 0
28  i = 1
29  print('page ' + str(i))
30  #自分のタイムラインを取得するためuser_timelineを使用します。1リクエストで取得できるツイートの上限数は100です。
31  tweet_data = api.home_timeline(include_rts=False,exclude_replies=True,count=100)
32  format_text(tweet_data)
33  if(len(tweet_data) > 0):
34    for tweet in tweet_data:
35      #データセット用に各ツイートの最後に<|endoftext|>をつけて整形します。
36      tweets.append([tweet.text+"<|endoftext|>"])
37      num += 1
38    i += 1
39    next_max_id = tweet_data[-1].id
40    while True:
41      print('page ' + str(i))
42      tweet_data = api.home_timeline(include_rts=False,exclude_replies=True,count=100, max_id=next_max_id-1)
43      format_text(tweet_data)
44      if(len(tweet_data) > 0):
45        next_max_id = tweet_data[-1].id
46        for tweet in tweet_data:
47          tweets.append([tweet.text+"<|endoftext|>"])
48          num += 1
49        if(num >= max_tweets):
50          break
51        i += 1
52        #Twitter API制限の上限でエラーにならないようにディレイをかけています。
53        time.sleep((15*60)/180)
54      else:
55        break
56      saveTweets(tweets)
57  else:
58    print('zero tweet')
59
60def format_text(tweet_data):
61
62    tweet_data=re.sub(r'https?://[\w/:%#$&?()~.=+\-…]+', "", tweet_data)
63    tweet_data=re.sub('RT', "", tweet_data)
64    tweet_data=re.sub('お気に入り', "", tweet_data)
65    tweet_data=re.sub('まとめ', "", tweet_data)
66    tweet_data=re.sub(r'[!-~]', "", tweet_data)#半角記号,数字,英字
67    tweet_data=re.sub(r'[︰-＠]', "", tweet_data)#全角記号
68    tweet_data=re.sub('\n', " ", tweet_data)#改行文字
69
70    return tweet_data
71tweet_data=format_text
72
73def saveTweets(tweets):
74  ut = time.time()
75  #csv使ってますがデータセット用にテキストファイルで保存します。
76  file_path = drive_path+'myTweets_' + str(ut) + '.txt'
77  file = open(file_path, 'w')
78  w = csv.writer(file)
79  w.writerows(tweets)
80  file.close()
81
82  with open(file_path) as f:
83      print(f.read())
84
85getMtTweet()

行動規範の内容に同意します

回答1件

ベストアンサー

TypeErrorなので、おそらく関数の引数の型が文字列になっていないことで発生しているエラーだと思います。
そして引数で使っている値を見るとapi.home_timeline(include_rts=False,exclude_replies=True,count=100)で処理内容からタイムラインを複数取っているのでlist型になっているのではないでしょうか？
type(tweet_data)で変数の型を確認するといいと思います

投稿2021/10/19 14:23

編集2021/10/19 14:24