回答率: 85.47%

質問するログイン新規登録

トップ Python 3.xに関する質問データの要素を重複なしで配列化する

編集履歴

回答編集履歴

3

d

2019/05/17 08:47

投稿

スコア21956

test CHANGED Viewed

File without changes

2

d

2019/05/17 08:47

投稿

スコア21956

test CHANGED Viewed

@@ -63,3 +63,49 @@
 こちらの環境では、データ読み込み ～ 集計までの処理をあわせて 10.7 秒かかりました。
+## 別解
+pandas を絡めると遅くなるので、データフレームにこだわらないのであれば、標準ライブラリを使って以下のように集計することもできます。
+こちらのほうが10倍高速です。
+```python
+import json
+from collections import Counter
+with open('train.json') as f:
+    train = json.load(f)
+# 1次元配列にする。
+ingredients = [item for sample in train for item in sample['ingredients']]
+# 集計する。
+cnt = Counter(ingredients).items()
+# ---- ここまでの処理で 952 ms 秒
+for key, value in cnt:
+    print(key, value)
+```

1

d

2019/05/17 08:47

投稿

スコア21956

test CHANGED Viewed

@@ -59,3 +59,7 @@
 Length: 6714, dtype: int64
 ```
+こちらの環境では、データ読み込み ～ 集計までの処理をあわせて 10.7 秒かかりました。