Pythonで大規模のテキストデータを扱おうとしたのですが、量が増えるにつれ、かなり遅くなってしまうのですが解決方法などありますでしょうか?
具体的には以下のように単語をキーにした辞書で、その情報をリストで追加する形を取っています。
プログラムの途中までで出力したところ、辞書のサイズは120000ほど、一度の参照と追加に20msほどかかってしまっています。容量が少なければ0.005msくらいなのでかなり遅くなっていることが分かります。
環境はメモリ16GのCPUがi7で、pythonのバージョンは3.6です。
メモリの使用量は監視していましたが、ベンチマークを測った時では半分も使用していませんでした。
d[word] = d.get(word, []) + [info]
よろしくお願いします。
回答3件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2018/10/27 12:37