質問するログイン新規登録
正規表現

正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

1563閲覧

Pythonで正規表現を使ったらエラーが発生したので、解決策をご教授願いたいです。

robotKR

総合スコア32

正規表現

正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2021/10/19 14:05

0

0

Pythonで正規表現を使って、余計な文字列を削除しようと思ったらこのようなエラーが発生しました。
よろしければ回答お願いします。

TypeError Traceback (most recent call last) <ipython-input-2-14afef8210b9> in <module>() 86 print(f.read()) 87 ---> 88 getMtTweet() 2 frames /usr/lib/python3.7/re.py in sub(pattern, repl, string, count, flags) 192 a callable, it's passed the Match object and must return 193 a replacement string to be used.""" --> 194 return _compile(pattern, flags).sub(repl, string, count) 195 196 def subn(pattern, repl, string, count=0, flags=0): TypeError: expected string or bytes-like object

エラーが出たのはここの部分です。

Python

1def format_text(tweet_data): 2 3 tweet_data=re.sub(r'https?://[\w/:%#$&?()~.=+\-…]+', "", tweet_data) 4 tweet_data=re.sub('RT', "", tweet_data) 5 tweet_data=re.sub('お気に入り', "", tweet_data) 6 tweet_data=re.sub('まとめ', "", tweet_data) 7 tweet_data=re.sub(r'[!-~]', "", tweet_data)#半角記号,数字,英字 8 tweet_data=re.sub(r'[︰-@]', "", tweet_data)#全角記号 9 tweet_data=re.sub('\n', " ", tweet_data)#改行文字 10 11 return tweet_data 12tweet_data=format_text

全体的には、このようなコードです。

Python

1import tweepy 2import csv 3import pprint 4import pandas as pd 5import os 6import time 7import datetime 8import re 9 10#ここはお決まりです。 11consumer_key = '' 12consumer_secret = '' 13access_token = '' 14access_token_secret = '' 15auth = tweepy.OAuthHandler(consumer_key, consumer_secret) 16auth.set_access_token(access_token, access_token_secret) 17api = tweepy.API(auth) 18 19#ツイートを保存するGoogle Driveのディレクトリです。事前に作っておきましょう。 20drive_path = '/content/drive/MyDrive/tweet' 21#学習用のデータセットで必要なツイート数を指定しています。 22max_tweets = 10000 23 24def getMtTweet(): 25 #取得したツイートを格納するための配列 26 tweets = [] 27 num = 0 28 i = 1 29 print('page ' + str(i)) 30 #自分のタイムラインを取得するためuser_timelineを使用します。1リクエストで取得できるツイートの上限数は100です。 31 tweet_data = api.home_timeline(include_rts=False,exclude_replies=True,count=100) 32 format_text(tweet_data) 33 if(len(tweet_data) > 0): 34 for tweet in tweet_data: 35 #データセット用に各ツイートの最後に<|endoftext|>をつけて整形します。 36 tweets.append([tweet.text+"<|endoftext|>"]) 37 num += 1 38 i += 1 39 next_max_id = tweet_data[-1].id 40 while True: 41 print('page ' + str(i)) 42 tweet_data = api.home_timeline(include_rts=False,exclude_replies=True,count=100, max_id=next_max_id-1) 43 format_text(tweet_data) 44 if(len(tweet_data) > 0): 45 next_max_id = tweet_data[-1].id 46 for tweet in tweet_data: 47 tweets.append([tweet.text+"<|endoftext|>"]) 48 num += 1 49 if(num >= max_tweets): 50 break 51 i += 1 52 #Twitter API制限の上限でエラーにならないようにディレイをかけています。 53 time.sleep((15*60)/180) 54 else: 55 break 56 saveTweets(tweets) 57 else: 58 print('zero tweet') 59 60def format_text(tweet_data): 61 62 tweet_data=re.sub(r'https?://[\w/:%#$&?()~.=+\-…]+', "", tweet_data) 63 tweet_data=re.sub('RT', "", tweet_data) 64 tweet_data=re.sub('お気に入り', "", tweet_data) 65 tweet_data=re.sub('まとめ', "", tweet_data) 66 tweet_data=re.sub(r'[!-~]', "", tweet_data)#半角記号,数字,英字 67 tweet_data=re.sub(r'[︰-@]', "", tweet_data)#全角記号 68 tweet_data=re.sub('\n', " ", tweet_data)#改行文字 69 70 return tweet_data 71tweet_data=format_text 72 73def saveTweets(tweets): 74 ut = time.time() 75 #csv使ってますがデータセット用にテキストファイルで保存します。 76 file_path = drive_path+'myTweets_' + str(ut) + '.txt' 77 file = open(file_path, 'w') 78 w = csv.writer(file) 79 w.writerows(tweets) 80 file.close() 81 82 with open(file_path) as f: 83 print(f.read()) 84 85getMtTweet()

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

TypeErrorなので、おそらく関数の引数の型が文字列になっていないことで発生しているエラーだと思います。
そして引数で使っている値を見るとapi.home_timeline(include_rts=False,exclude_replies=True,count=100)で処理内容からタイムラインを複数取っているのでlist型になっているのではないでしょうか?
type(tweet_data)で変数の型を確認するといいと思います

投稿2021/10/19 14:23

編集2021/10/19 14:24
Supernove

総合スコア1154

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

robotKR

2021/10/19 14:31

ありがとうございます!! 明日、試してみようと思います!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.30%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問