質問編集履歴
1
コードの追加
test
CHANGED
File without changes
|
test
CHANGED
@@ -12,8 +12,50 @@
|
|
12
12
|
|
13
13
|
return str2
|
14
14
|
|
15
|
+
|
16
|
+
|
17
|
+
if __name__ == '__main__':
|
18
|
+
|
19
|
+
docs = {}
|
20
|
+
|
21
|
+
for line in fileinput.input('-'):
|
22
|
+
|
23
|
+
obj = json.loads(line)
|
24
|
+
|
25
|
+
docs[obj['title']] = obj['text']
|
26
|
+
|
27
|
+
for lines in docs[obj['title']].split('\t'):
|
28
|
+
|
29
|
+
remove_markup(lines)
|
30
|
+
|
31
|
+
line_number = 0 #行数
|
32
|
+
|
33
|
+
allkanji = 0
|
34
|
+
|
35
|
+
line_number += 1
|
36
|
+
|
37
|
+
rkan = re.compile("[一-龥]")
|
38
|
+
|
39
|
+
foundkanji = rkan.findall(lines)
|
40
|
+
|
41
|
+
oneline_kanji = len(foundkanji) / len(lines) #1行ごとの漢字の割合
|
42
|
+
|
43
|
+
allkanji += oneline_kanji
|
44
|
+
|
45
|
+
per = round((allkanji / line_number) * 100, 1)
|
46
|
+
|
47
|
+
print(obj['title'], '\t', per, '%')
|
48
|
+
|
15
49
|
```
|
16
50
|
|
17
|
-
|
51
|
+
|
52
|
+
|
53
|
+
```txt
|
54
|
+
|
55
|
+
{"text": "{{otheruses|主に現代のエジプト・アラブ共和国|古代|古代エジプト}}\n{{基礎情報 国\n|略名 =エジプト\n|日本語国名 =エジプト・アラブ共和国\n|公式国名 ='''{{lang|ar|جمهورية مصر العربية}}'''\n|国旗画像 =Flag of Egypt.svg\n|国章画像 =[[ファイル:Coat_of_arms_of_Egypt.svg|100px|エジプトの国章]]\n|国章リンク =([[エジプトの国章|国章]])\n|標語 =なし\n|位置画像 =Egypt (orthographic projection).svg\n|公用語 =[[アラビア語]]\n|首都 =[[カイロ]]\n|最大都市 =カイロ\n|元首等肩書 =[[近代エジプトの国家元首の一覧|大統領]]\n|元首等氏名 =[[アブドルファッターフ・アッ=シーシー]]\n|首相等肩書 =[[エジプトの首相|首相]]\n|首相等氏名 =[[イブラヒーム・メフレブ]]\n|面積順位 =29\n|面積大きさ =1 E12\n|面積値 =1,001,450\n|水面積率 =0.6%\n|人口統計年 =2011\n|人口順位 =\n|人口大きさ =1 E7\n|人口値 =81,120,000\n|人口密度値 =76\n|GDP統計年元 =2008\n|GDP値元 =8,965億<ref name=\"economy\">IMF Data and Statistics 2009年4月27日閲覧([http://www.imf.org/external/pubs/ft/weo/2009/01/weodata/weorept.aspx?pr.x=77&pr.y=19&sy=2008&ey=2008&scsm=1&ssd=1&sort=country&ds=.&br=1&c=469&s=NGDP%2CNGDPD%2CPPPGDP%2CPPPPC&grp=0&a=])</ref>\n|GDP統計年MER =2008\n|GDP順位MER =49\n|GDP値MER =1,621億<ref name=\"economy\" />\n|GDP統計年 =2008\n|GDP順位 =28\n|GDP値 =4,426億<ref name=\"economy\" />\n|GDP/人 =5,898<ref name=\"economy\" />\n|建国形態 =[[独立]]<br /> - 日付\n|建国年月日 =[[イギリス]]より<br />[[1922年]][[2月28日]]\n|通貨 =[[エジプト・ポンド]] (£)\n|通貨コード =EGP\n|時間帯 =(+2)\n|夏時間 =(+3)\n|国歌名 =我が祖国\n|ISO 3166-1 = EG / EGY\n|ccTLD =[[.eg]]\n|国際電話番号 =20\n|注記 =\n}}\n'''エジプト・アラブ共和国'''(エジプト・アラブきょうわこく)、通称'''エジプト'''は、[[中東]]・[[アフリカ]]の[[共和国]]。[[首都]]は[[カイロ]]。\n\n西に[[リビア]]、南に[[スーダン]]、北東に[[イスラエル]]と隣接し、北は[[地中海]]、東は[[紅海]]に面している。南北に流れる[[ナイル川]]の[[河谷]]と[[三角州|デルタ]]地帯([[ナイル・デルタ]])のほかは、国土の大部分が[[砂漠]]である。ナイル河口の東に地中海と紅海を結ぶ[[スエズ運河]]がある。
|
56
|
+
|
57
|
+
```
|
58
|
+
|
59
|
+
このようなテキストファイルの記事本文の漢字の割合を出すためにリンクなどの余計な文字やマークアップを除去コードを関数で実装したいです
|
18
60
|
|
19
61
|
言語処理100本ノックの27,28あたりを参考にしましたができなかったのでどうかよろしくお願いします
|