tar.gzファイルの一部を学習用に取り出したい。

http://captions.stair.center/download/
こちらのデータセットの日本語解析を行いたいのですが、日本語の部分のデータを取り出すことができません。

データセットの内容

annotation{
"id" : int,
"image_id" : int,
"caption" : str,
"tokenized_caption": str,
}

##やったこと
こちらのデータセットを手元でダウンロードし、手元で展開
stair_captions_v1.2_train_tokenized.json
stair_captions_v1.2_train.json
stair_captions_v1.2_val_tokenized.json
stair_captions_v1.2_val.json

##環境
colabまたはjupyterでこの後解析を行いたいと思っています。

機械学習のデータセットで、一部だけ読み込むような動作と同じだとは思うのですが、あまりうまい記事を調べることができませんでした。初歩的な内容かと思いますが、よろしくお願いします。

行動規範の内容に同意します

回答1件

ベストアンサー

求められているものが何なのかが良くわかりませんが、以下のようなことをすれば中身は取り出せます。

python
1>>> import tarfile
2>>> tar = tarfile.open(name='stair_captions_v1.2.tar.gz', mode='r')
3>>> infos = tar.getmembers()
4>>> print(infos[1].name)
5stair_captions_v1.2_train_tokenized.json
6>>> with tar.extractfile(infos[1]) as f:
7...     txt = f.read().decode()
8...
9>>> print(txt[41122000:41123000])
10電話 で 話 を し て いる", "id": 291776, "caption": "黒い髪の女性が、携帯電話で話をしている"}, {"image_id": 335824, "tokenized_caption": "4 人 の 男性 が 、 スキー で 滑っ て いる", "id": 291781, "caption": "4人の男性が、スキーで滑ってい る"}, {"image_id": 16169, "tokenized_caption": "トレンチコート を 着 た 男性 が 凧 を 抱え て いる", "id": 291782, "caption": "トレンチコートを着た男性が凧を抱えている"}, {"image_id": 297919, "tokenized_caption": "青 の 水着 を 着 た 男性 が セイ リング を し て いる", "id": 291783, "caption": "青の水着を着た男性がセイリングをしている"}, {"image_id": 149117, "tokenized_caption": "像 が ピンク色 の おもちゃ で 遊ん で いる", "id": 291788, "caption": "像がピンク色のおもちゃで遊んでいる"}, {"image_id": 291827, "tokenized_caption": "白い サーフ ボード を 持っ た 男性 が 浅瀬 に 立っ て いる", "id": 291790, "caption": "白いサーフボードを持った男性が浅瀬に立っている"}, {"image_id": 186247, "tokenized_caption": "サンドイッチ に つま ようじ が 1 本 刺さっ て いる", "id": 291793, "caption": "サンドイッチにつまようじが1本刺さっている"}, {"image_id": 35423, "tokenized_caption": "パソコン の 上 の 棚 に モデム が 4 つ 置い て ある", "id": 291794, "caption": "パソコンの上の棚にモデムが4つ置いてある"}, {"image_id": 222964, "tokenized_caption": "ソファー の 上 に パ

投稿2021/10/04 10:11

ppaul

総合スコア24670

ChN

2021/10/06 00:20

ありがとうございます。やりたいこととしては、..."caption": "黒い髪の女性が、携帯電話で話をしている"..のうち、「黒い髪の女性が、携帯電話で話をしている」の部分を取り出すことです。上記を参考に、jsonの部分をstrでtxtとして取り出すことはできたので、 txtを正規表現にかけているのですが、 ``` pattern = r'(?<=\"caption\": \")[^\"]*(?=<\")' res = re.match(pattern, txt) ``` と実行をすると値がNoneになってしまう、という状態です。

ChN

2021/10/06 01:46

読み込みはできたので、ベストアンサーとさせていただきました。

行動規範の内容に同意します