編集履歴

回答編集履歴

データ分析コードを追記

2018/11/19 01:59

投稿

スコア38256

test CHANGED Viewed

@@ -100,6 +100,12 @@
+テストデータでの検証結果
+---
 以下、行数２千万、名称種類３０万、コード種類２０万で試した結果です。
 Corei7搭載機で約５分。まあ我慢できるレベルかと。
@@ -154,6 +160,12 @@
+テストデータ作成コード
+---
 なお、サンプルデータは以下のコードで作成しました。
 ```Python
@@ -193,3 +205,105 @@
 print(ROW,NAME,CODE)
 ```
+データ分析コード
+---
+ついでに、データファイルの分析をおこなうコードを作成しました。
+行数や名称,コード(種類)数、名称,コード文字長の最小、最大、平均を出力します。
+```Python
+# データの分析
+# 文字列の最小、最大、合計を保持
+def get_len_info( s, mm):
+    s_len = len(s)
+    mm[2] += s_len
+    if s_len < mm[0]:
+        mm[0] = s_len
+    if s_len > mm[1]:
+        mm[1] = s_len
+# 行 0=名称, 1=コード
+# 列 0=最小, 1=最大, 2=合計
+len_info = [[99999,-1,0],[99999,-1,0]]
+row_cnt,name_set,code_set = 0,set(),set()
+with open('data.csv','r') as f:
+    line = f.readline().strip()
+    while line:
+        line = line.split()
+        name,code = line[0],line[1]
+        line = f.readline().strip()
+        name_set.add(name)
+        code_set.add(code)
+        # 文字列長の最小、最大、合計を保持
+        get_len_info(name,len_info[0])
+        get_len_info(code,len_info[1])
+        row_cnt += 1
+name_cnt,code_cnt = len(name_set),len(code_set)
+print('行数[{}] 名称(種類)数[{}] コード(種類)数[{}]'.format(row_cnt,name_cnt,code_cnt))
+print('名称長 最小[{:.0f}] 最大[{:.0f}] 平均[{:.2f}]'.format( len_info[0][0], len_info[0][1], len_info[0][2]/row_cnt))
+print('コド長 最小[{:.0f}] 最大[{:.0f}] 平均[{:.2f}]'.format( len_info[1][0], len_info[1][1], len_info[1][2]/row_cnt))
+"""
+行数[19996722] 名称(種類)数[300000] コード(種類)数[200000]
+名称長 最小[5] 最大[10] 平均[9.63]
+コド長 最小[5] 最大[10] 平均[9.44]
+"""
+```

コード追記

2018/11/19 01:59

投稿

can110

スコア38256

test CHANGED Viewed

@@ -5,6 +5,98 @@
 提示されているりんご～豆のテストデータにて結果は正しかったので、自信ありませんが大丈夫と思います。多分。
 ポイントとしては、行毎にファイルを読み込むことでメモリを節約しています。
+```Python
+import time
+# コード、名称毎に数え上げ
+dic_cnt = {}# コード毎、名称毎に個数を保持する２重辞書
+            # {コード:{名称:個数, ...}, ...}
+prev = time.time()
+with open('data.csv','r') as f:
+    line = f.readline().strip()
+    while line:
+        line = line.split()
+        name,code = line[0],line[1]
+        line = f.readline().strip()
+        # 始めて出現したコード -> 登録
+        if code not in dic_cnt:
+            dic_cnt[code] = {}
+        # 初めて出現した名称 -> 登録
+        if name not in dic_cnt[code]:
+            dic_cnt[code][name] = 0
+        # 既存の名前の個数をインクリメント
+        for name,count in dic_cnt[code].items():
+            dic_cnt[code][name] += 1
+print('counting done.{:.2f}sec'.format(time.time()-prev))
+prev = time.time()
+# 名称毎に集計
+dic_ret = {}
+for v in dic_cnt.values():
+    for name,cnt in v.items():
+        if name not in dic_ret:
+            dic_ret[name] = 0
+        dic_ret[name] += cnt
+# 結果ファイル出力
+with open('ret.csv','w') as f:
+    for name,cnt in dic_ret.items():
+        f.write('{} {}\n'.format(name,cnt))
+print('sum up done.{:.2f}sec'.format(time.time()-prev))
+prev = time.time()
+```

修正

2018/11/18 14:40

投稿

can110

スコア38256

test CHANGED Viewed

@@ -18,9 +18,9 @@
-実行結果
+以下、実行結果
-```PlainText
+```
 counting done.310.84sec
@@ -30,9 +30,9 @@
-data.csv
+以下、入力データ data.csv 約420MB
-```PlainText
+```
 name27454 code70170
@@ -46,9 +46,9 @@
-ret.csv
+以下、結果データ ret.csv 約5MB
-```PlainText
+```
 name210822 4235