回答率: 85.35%

質問するログイン新規登録

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

新規登録して質問してみよう

ただいま回答率: 85.35%

トップメモリリークに関する質問

Q&A

解決済

1回答

2461閲覧

メモリに乗り切らないデータ量のリストを、条件ごとにまとめて分割したい

総合スコア32

0グッド

0クリップ

投稿2020/09/16 12:19

0

0

例として、大量のユーザIDとその人の購買履歴が行ごとに書かれているテキストファイル（IDごとに書かれている行は不定）を読み込んで、ユーザID一つ分だけのデータを個別ファイルへと出力したいと言った状況の時、考えられる処理としては一回リストとしてファイルを読み込み、ユーザIDごとにそのデータのインデックスを取得しランダムアクセスしながらID別のファイルを出力するなどがあると思います。

しかし、全てのデータをリストとして持つことができないほどデータ量が多い場合に、ファイルを分割して読み込むことなく一つのプログラムで処理することは不可能なのでしょうか？

リストなどの重いデータ構造を使わずに可能な方法があれば教えてくださると助かります。

行動規範の内容に同意します

回答1件

0

ベストアンサー

chunksizeを指定してpandasでテキストファイルを読み込む方法があります。
pandas でメモリに乗らない大容量ファイルを上手に扱う

daskモジュールを使用する方法もあります。
PythonでCSVを高速＆省メモリに読みたい
 Dask メモリにのらない大規模なcsvデータの取扱について

投稿2020/09/16 12:28

総合スコア10760

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問

トップメモリリークに関する質問

メモリに乗り切らないデータ量のリストを、条件ごとにまとめて分割したい

関連した質問

同じタグがついた質問を見る

運営からのお知らせ

【ジャック広告の配信について】現在、非ログイン状態のユーザー様に対して一部の地域限定でジャック広告を配信しております。詳細につきましてはteratailブログをご確認ください。 https://blog.teratail.com/entry/jack-ad-202412

過去のお知らせを見る