grep, 正規表現「特定の単語を含む文字列で、かつカンマに挟まれている部分だけ抽出」

以下のような列の揃っていないcsvファイルがあります。
10万行くらいです。

sample.csv
1001,ドラゴンクエスト,スクエアエニックス
20033,集英社,ドラゴンボール
3ドラゴンウォーリアー, 1100, Xカンパニー
4111, ドラゴンの秘宝, LLプロダクション, 山田二郎
5

この中からドラゴンを含む「作品タイトル」のみ抜き出したいです。

↓↓期待する出力結果↓↓

,ドラゴンクエスト,
,ドラゴンボール
ドラゴンウォーリアー,
, ドラゴンの秘宝,

ですが、

grep -h ,.*ドラゴン.*, ./sample.csv

とすると、当然ですが抽出した文字列を囲っているカンマより外側のカンマまで取り込んでしまいます。
また、一番左端と右端の列に対象の文字列がある場合、抽出できません。

「どのように正規表現を使えば良い」or「他に良い検索方法はある」でしょうか。

また、pandasでの良い方法はありますでしょうか？
pandasでやってみたところ欠損値の扱いや、DataFrame型特有の扱い方などで苦労したので結局探索するところはgrepコマンドの方が早いかなと思いました...

Y.H.

2019/11/07 10:22

質問に記載されているcsvの例の場合、結果としてどういう出力が欲しいのですか？質問に追記ください。

行動規範の内容に同意します

回答2件

ベストアンサー

ドラゴンを含む「作品タイトル」のみ抜き出したい

sh
1grep -o -h '[^,]*ドラゴン[^,]*' sample.csv
2ドラゴンクエスト
3ドラゴンボール
4ドラゴンウォーリアー
5 ドラゴンの秘宝

（誤り修正：grep o⇒grep -o）

投稿2019/11/07 12:18

編集2019/11/07 14:51

otn

総合スコア86293

TaroNoguchi

2019/11/07 13:41

s/o/-o/gでしょうか。ありがとうございます！無事できました！ P.S. 出力結果から重複を除いて表示などはできますでしょうか？

otn

2019/11/07 13:52

あ、コピペ後に、不要なオプションを削った際の修正ミスです。重複を省くのは、sort -u でしょうか。

TaroNoguchi

2019/11/07 14:07

ありがとうございます！100%望んだ結果になりました！（T ^ T）

ironya

2019/11/21 21:33 編集

これだと、出版社や著者にドラゴンがあって、作品タイトルにドラゴンがない場合も検索されてしまいませんか？カラムの意味を揃えるところからやらないと、作品タイトルに絞って検索結果を得ることはできないと思います。

TaroNoguchi

2019/11/26 06:51

現実問題出版社や著者名に作品タイトルと同じような文字列を含んでるものは全体の数パーセントにも満たないので手作業で解決できました。

ironya

2019/11/26 11:28

>「作品タイトル」のみ抜き出したいです。ではないのですね。

行動規範の内容に同意します

python でのプログラミングしてみました。
a.py

python3
1import re
2import csv
3
4pattern = r".*ドラゴン.*"
5
6file_name = "a.csv"
7with open(file_name) as csvfile:
8    reader = csv.reader(csvfile)
9    for row in reader:
10        # print(', '.join(row))                                                                                                                
11        for item in row:
12            if re.match(pattern, item):
13                print("{}".format(item))