re.sub()で'$'の削除ができません

前提・実現したいこと

VADERを利用してビットコイン関連のツイートを感情分析をするために、CSVから読み込んだ150万件のテキストの前処理をしている段階です。

発生している問題・エラーメッセージ

いくつかの前処理をする中でTicker Symbol($)の削除だけうまく行きません。
例) '$BTC' → '' としたいの、'$BTC' → '$BTC' のままになってしまいます。
エラーはない状態で、その他の処理はできています。

該当のソースコード

python
1import pandas as pd
2import re
3import nltk
4
5nltk.download('stopwords')
6from nltk.corpus import stopwords
7sw = stopwords.words('english') 
8
9#テキスト前処理
10def clean_up_tweet(txt):
11    # メンション削除
12    txt = re.sub(r'@[A-Za-z0-9_]+', '', txt)
13    # URL削除
14    txt = re.sub(r'https?://[A-Za-z0-9./]+', '', txt)
15    # ハッシュタグ削除
16    txt = re.sub(r'#', '', txt)
17    # ticker symbolの削除(これがうまくいきません)
18    txt = re.sub(r'$[A-Za-z0-9]', '', txt)
19    # 全角スペース、タブ、改行削除
20    txt = re.sub(r'[\u3000\t\n]', '', txt)
21    # 小文字に統一
22    txt = txt.lower()  
23    # 数値の削除
24    txt = re.sub(r'[0-9]', '', txt) 
25    # ストップワードの削除
26    txt = ' '.join([word for word in txt.split() if word not in sw])
27    
28    return txt
29
30df = pd.read_csv('./2021-01_tweet.csv', usecols = ['Tweet'])
31df['Tweet'] = df['Tweet'].apply(clean_up_tweet)
32df.to_csv('./2021-01_tweet2.csv', index=False)

試したこと

txt = re.sub(r'$[A-Za-z0-9]', '', txt)
の部分を、
txt = re.sub(r'$', '', txt)
txt = re.sub('$[A-Za-z0-9]', '', txt)
などに変えてみましたが、結果は変わりませんでした

補足情報（FW/ツールのバージョンなど）

jupyter lab 3.0.16

行動規範の内容に同意します

回答2件

ベストアンサー

txt = re.sub(r'$[A-Za-z0-9]', '', txt)

$は正規表現で行末を表すメタ文字ですのでエスケープが必要です。

Python
1txt = re.sub(r'$[A-Za-z0-9]', '', txt)

しかしこれでは$BTCの$Bにしかマッチしないので置換結果はTCになります。
$と1文字以上の英数字の連続を置換したいなら

Python
1txt = re.sub(r'$[A-Za-z0-9]+', '', txt)

です。1文字以上ではなく0文字以上なら

Python
1txt = re.sub(r'$[A-Za-z0-9]*', '', txt)

です。

投稿2021/09/07 16:08

itagagaki

総合スコア8402

s.f.

2021/09/07 16:16

解決しました。ありがとうございます。

行動規範の内容に同意します

txt = re.sub(r'$[A-Za-z0-9]*', '', txt) ではないのですか？
\ と * を追加しました。

投稿2021/09/07 16:04

kazuma-s

総合スコア8224

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

re.sub()で'$'の削除ができません

前提・実現したいこと

発生している問題・エラーメッセージ

該当のソースコード

試したこと

補足情報（FW/ツールのバージョンなど）

関連した質問