WikipediaのInfoboxのデータを見たいと思い、下記のブログにしたがってコードを動かしました。
https://tech-blog.link-u.co.jp/2018/11/29/wikipedia-dump-scraping/
ただし、11行目の検索ワードを「Single」にしています。
python
1INFOBOX_SEARCH_WORD = 'Infobox Single'
その結果、ローカルに約7GBの.jsonファイルが生成されました。
ファイルの中身は、
python
1json.dump(dict_array, jf, ensure_ascii=False)
から、jsonをテキストにしたファイルが生成されていると理解しています。
中を確認したいと思い、
bash
1head /Users/hacosato/wiki_infobox_Infobox_Single.json
をやってみたところ、
head: Error reading /Users/hacosato/wiki_infobox_Infobox_Single.json
となりました。うまく書き出されていないのでしょうか。
そこで、
Python
1fin =open('/Users/hacosato/test.json', 'rt') 2print(fin.readline()) 3fin.close()
をやってみましたが、重いのかこんどは動きませんでした…。
ほかに中を確認する方法はありますか?
GNU bash, version 3.2.57(1)-release (x86_64-apple-darwin18)
Python 3.6.5
回答3件
あなたの回答
tips
プレビュー