python 大容量のテキストファイルからDATAFRAMEにデータを取り込みたい（時間はかかっても良いのでメモリを最小限に）

任意のフォルダ内にある同一カラムのtxtファイルを全てdataframeに読み込みたいのですが、
データ容量が大きいせいか、最後のconcat文でメモリーエラーが発生してしまいます。

個人的には、listに読み込んだデータをconcatする際にデータ量が
２倍になってしまっているように考えています。

処理時間が伸びても良いので、例えば、各ファイルの１行ずつを読み込んで、
dataframeに加えていくなど、メモリに優しい処理をアドバイスしてもらえないでしょうか？

セキュリティの都合で.py ファイルは使えません。

txt_files = glob.glob('./origin/*.txt')
list = []

for f in txt_files:
    list.append(pd.read_table(f))
df0 = pd.concat(list)

行動規範の内容に同意します

回答2件

ベストアンサー

以下のように逐次concatすれば、途中は１つ分のテーブルのメモリしか使いません。

Python
1df0 = None
2for f in txt_files:
3    df = pd.read_table(f)
4    if df0 is None:
5        df0 = df
6    else:
7        df0 = pd.concat([df0,df])

投稿2020/07/29 00:47

can110

総合スコア38266

個別にdataframe量産してリストにつっこんで、それとは別に大きいのを作るから重いのでしょうか。
（以下、試してはおりませんが…）
たとえば、下記リンクのようにはなからdataframeに入れ込んでいくとか。

pd.DataFrame({f: pd.read_table(f, index_col=0).squeeze() for f in glob('/path/to/files/*.dat')})

python-pandasで複数ファイルのデータを一度にDataFrameに読み込む

あるいは、別にファイル（json, csv等）作ってそこに追記していくとか。

あとは、この辺がもしかしたら関係あるかもしれません。

DataFrame構築時にカラムの型(dtype)を指定していないと、整数はint64 、小数はfloat64 が勝手に割り当てられます。どんな値も扱えるように、とにかく大きなサイズの型になっています。

Pandas.DataFrameのメモリサイズを削減する（最大で8分の1） [Python]

投稿2020/07/29 00:41

jeanbiego

総合スコア3966

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

python 大容量のテキストファイルからDATAFRAMEにデータを取り込みたい（時間はかかっても良いのでメモリを最小限に）

関連した質問