正規表現で該当する部分のみを取り出したい。

以下のようなjsonをreadした文字列(str)データがあります。

...電話 で 話 を し て いる", "id": 291776, "caption": "黒い髪の女性が、携帯電話で話をしている"}, {"image_id": 335824, "tokenized_caption": "4 人 の 男性 が 、 スキー で 滑っ て いる", "id": 291781, "caption": "4人の男性が、スキーで滑っている"}, {"image_id": 16169, "tokenized_caption": "トレンチコート を 着 た 男性 が 凧 を 抱え て いる", "id": 291782, "caption": "トレンチコートを着た男性が凧を抱えている"}, {"image_id": 297919, "tokenized_caption": "青 の 水着 を 着 た 男性 が セイ リング を し て いる", "id": 291783, "caption": "青の水着を着た男性がセイリングをしている"}, {"image_id": 149117, "tokenized_caption": "像 が ピンク色 の おもちゃ で 遊ん で いる", "id": 291788, "caption":...

このうち、captionと名のついたデータの中身だけ取り出したいです。
例：
"caption": "黒い髪の女性が、携帯電話で話をしている"のうちの「黒い髪の女性が、携帯電話で話をしている」の部分

期待する出力例

["黒い髪の女性が、携帯電話で話をしている", "4人の男性が、スキーで滑っている","トレンチコートを着た男性が凧を抱えている"...]

実行したコード

#以下3つとも、resの結果がNoneになる
pattern = r'(?<=\"caption\": \").*?(?=<\")'
# pattern = r'(?<=\"caption\": \")[^\"]*(?=<\")'
# pattern = r'(\"caption\": \")[^\"]*(\")'
res = re.match(pattern, txt)
print(res.groups())

実行環境

colab上で実行しています。

TakaiY

2021/10/06 02:17 編集

jsonとして読み込んでdict(のリスト？)にして取出すのが簡単だと思いますが、そうしない理由がありますか？

ChN

2021/10/06 02:51

すべてが { "id" : int, "image_id" : int, "caption" : str, "tokenized_caption": str, } dictのlistとして取り出すことができるのか不明だったためです。 https://teratail.com/questions/362723 こちらを参考にしました。

TakaiY

2021/10/06 03:20

すでにotnさんから回答出ているとおりにやってみてそれが可能なのであれば、それがベストの方法ですね。もし、それでできない = 元の文字列がjsonでない場合に、しかたないので正規表現使って... のような感じでしょう。

行動規範の内容に同意します

回答2件

ベストアンサー

JSONなのであれば、正規表現じゃなくて、JSONライブラリでパースします。

Python
1import json
2
3json_data = '''
4[
5{"id": 291776, "caption": "黒い髪の女性が、携帯電話で話をしている"},
6{"image_id": 335824, "tokenized_caption": "4 人 の 男性 が 、 スキー で 滑っ て いる", "id": 291781, "caption": "4人の男性が、スキーで滑っている"},
7{"image_id": 16169, "tokenized_caption": "トレンチコート を 着 た 男性 が 凧 を 抱え て いる", "id": 291782, "caption": "トレンチコートを着た男性が凧を抱えている"},
8{"image_id": 297919, "tokenized_caption": "青 の 水着 を 着 た 男性 が セイ リング を し て いる", "id": 291783, "caption": "青の水着を着た男性がセイリングをしている"}
9]
10'''
11
12data = json.loads(json_data)
13
14print([x["caption"] for x in data])

リストの中に"caption"が存在しない物があるならそこのチェックは必要。
#追記
リストの中に"caption"が存在しない要素があった場合に無視するなら、わかりやすいのはこうでしょうか。

Python
1captions = []
2for x in data:
3  if "caption" in x:
4    captions.append(x["caption"])
5
6print(captions)

投稿2021/10/06 02:52

編集2021/10/06 03:34

otn

総合スコア85901

ChN

2021/10/06 02:53

ありがとうございます、リストの中に"caption"が存在しない物がありますが、チェックとはどういうことでしょうか?

otn

2021/10/06 02:59

"caption"というキーが存在するかどうかチェックすると言うことです。 if "caption" in x: 無い場合は、どうしたいんでしょう？無視？

ChN

2021/10/09 02:21

無視で大丈夫です。ありがとうございました！

行動規範の内容に同意します

以下のコードのようなpatternにてsearchまた、先頭以外も取得したい場合はfindallを使うとよいです。

Python
1import re
2
3s = '...電話 で 話 を し て いる", "id": 291776, "caption": "黒い髪の女性が、携帯電話で話をしている"}, {"image_id": 335824, "tokenized_caption": "4 人 の 男性 が 、 スキー で 滑っ て いる", "id": 291781, "caption": "4人の男性が、スキーで滑っている"}, {"image_id": 16169, "tokenized_caption": "トレンチコート を 着 た 男性 が 凧 を 抱え て いる", "id": 291782, "caption": "トレンチコートを着た男性が凧を抱えている"}, {"image_id": 297919, "tokenized_caption": "青 の 水着 を 着 た 男性 が セイ リング を し て いる", "id": 291783, "caption": "青の水着を着た男性がセイリングをしている"}, {"image_id": 149117, "tokenized_caption": "像 が ピンク色 の おもちゃ で 遊ん で いる", "id": 291788, "caption":...'
4
5pattern = r'\"caption\":\s*\"(.*?)\"'
6
7res = re.search(pattern, s)
8print(res.groups()) # ('黒い髪の女性が、携帯電話で話をしている',)
9
10res = re.findall(pattern, s)
11print(res)
12# ['黒い髪の女性が、携帯電話で話をしている', '4人の男性が、スキーで滑っている', 'トレンチコートを着た男性が凧を抱えている', '青の水着を着た男性がセイリングをしている']