実現したいこと
投稿日時(tweeted_atカラム)とツイート(textカラム)内容が記載されているCSVを読み込んでツイート内容のデータよりハッシュタグとリプライタグを抜き出して新たなカラムを生成したい
環境
python3,7 jupyter notebook
困っていること
pandasのextractを用いてハッシュタグ以降の文字列を抜き出すことには成功しているのですが、リプライのタグも一緒に抜き出されています
書いたコードは以下の通りです
import pandas as pd snsdf = pd.read_csv('twitter.csv') text = snsdf['text'] hashtag = text.str.extract(r'(#.+\s)',expand=True) h = hashtag.rename(columns = {0:'hash'}) h
実行した結果このような結果となりました。
32104行目をみていただければわかるかと思いますが、リプライタグも一緒に抜き出されてしまっています。
ハッシュタグのみを抜き出したいと考えているのですが、正規表現が間違っているのか、やり方がわかりません。
よろしくお願いします。
あなたの回答
tips
プレビュー