以下のような列の揃っていないcsvファイルがあります。
10万行くらいです。
sample.csv
1001,ドラゴンクエスト,スクエアエニックス 20033,集英社,ドラゴンボール 3ドラゴンウォーリアー, 1100, Xカンパニー 4111, ドラゴンの秘宝, LLプロダクション, 山田二郎 5
この中からドラゴンを含む「作品タイトル」のみ抜き出したいです。
↓↓期待する出力結果↓↓
,ドラゴンクエスト, ,ドラゴンボール ドラゴンウォーリアー, , ドラゴンの秘宝,
ですが、
grep -h ,.*ドラゴン.*, ./sample.csv
とすると、当然ですが抽出した文字列を囲っているカンマより外側のカンマまで取り込んでしまいます。
また、一番左端と右端の列に対象の文字列がある場合、抽出できません。
「どのように正規表現を使えば良い」or「他に良い検索方法はある」でしょうか。
また、pandasでの良い方法はありますでしょうか?
pandasでやってみたところ欠損値の扱いや、DataFrame型特有の扱い方などで苦労したので結局探索するところはgrepコマンドの方が早いかなと思いました...
回答2件
あなたの回答
tips
プレビュー