前提・実現したいこと
pythonでpandasを使ってcsvを読み込み,
特定の文字列が入ったものを出力したい.
欲しい結果例↓
text1 [pythonの本が2018年12月4日に全国で発売された]
text2 [今日発売の美味しいお肉を食べた.2018年11月29日]
年月日 & 発売が入っているものを抽出したいです.
いらない結果例↓
text3 [土日月の三連休の間に,1周年記念の本を発売します.]
これはキーワードが入っていますがいらない文章になります.
発生している問題・エラーメッセージ
私の理解が不十分で,以前の質問での回答ではあと少し足りなかったです.
以下のコードでは,年,月,日,発売 が入ったテキストは取れますが,
(例)1234年56月78日で90が発売という順番で取るにはどうしたらよろしいでしょうか..
該当のソースコード
python
1import pandas as pd 2def make_dataframe(filename): 3 df = pd.read_csv(filename, encoding='utf-8', na_values='nan') 4 return df 5 6df = make_dataframe('hoge.csv') 7 8df2 = df[df['text'].str.contains('年') & df['text'].str.contains('月') & df['text'].str.contains('日') & df['text'].str.contains('発売')] 9print(df2) 10df2.to_csv('hogee.csv',index=False,columns=df.columns[0:11]) # 指定した列を出力 11
試したこと
色々な正規表現のパターンを調べましたがうまく使えませんでした
補足情報(FW/ツールのバージョンなど)
jupyter notebookを使用しています
回答1件
あなたの回答
tips
プレビュー