こんな感じでどうでしょうか。
wiki.py
lang
1#!/usr/bin/env python
2# -*- coding: utf-8 -*-
3
4import gzip
5import json
6
7
8def main():
9 # gzipファイルの読み込み
10 f = gzip.open('./jawiki-country.json.gz', 'rb')
11 file_content = f.read()
12 f.close()
13
14 # {"記事タイトル": 記事本文の辞書型} なる辞書を作成
15 article_dict = {}
16 # 1行に1記事が格納されているので、読み込んだテキストを行ごとに分割
17 for line in file_content.splitlines():
18 # 行単位でJSONをパースする
19 line_dict = json.loads(line)
20 article_dict[line_dict['title']] = line_dict
21
22 # 問題20. イギリスの記事を表示する
23 aritcle_of_england = article_dict[u'イギリス']['text']
24 print "----- Answer of Q.20 -----"
25 print aritcle_of_england
26 print
27
28 # 問題21. カテゴリを宣言している行を抽出
29 print "----- Answer of Q.21 -----"
30 for line in aritcle_of_england.splitlines():
31 if line.find('Category') >= 0:
32 print line
33
34
35if __name__ == '__main__':
36 main()
37
実行結果
lang
1$ python wiki.py
2----- Answer of Q.20 -----
3{{redirect|UK}}
4{{基礎情報 国
5|略名 = イギリス
6|日本語国名 = グレートブリテン及び北アイルランド連合王国
7
8(中略)
9
10----- Answer of Q.21 -----
11[[Category:イギリス|*]]
12[[Category:英連邦王国|*]]
13[[Category:G8加盟国]]
14[[Category:欧州連合加盟国]]
15[[Category:海洋国家]]
16[[Category:君主国]]
17[[Category:島国|くれいとふりてん]]
18[[Category:1801年に設立された州・地域]]
19
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2015/03/31 07:21