パイソン3 diff関数メモリーエラー

前提・実現したいこと

パイソン３のdiff関数を活用し、以下のBook1.csvを用いて処理したいのですが、
100万行以上あるcsvデータで
処理するとメモリーエラーになります。

ここに質問の内容を詳しく書いてください。

Book1.csvに以下のファイルが入っています。

日付　品番　在庫
11-1　Ａ　 101
11-1　Ｂ　　82
11-3　Ｂ　　70
11-5　Ａ　　95
11-7　Ａ　　90
11-10　Ａ　　70
11-11　Ｂ　　95
11-17 　Ａ　　150
・　　　・　　・
・　　　・　　・
・　　　・　　・

Book1.csvに以下のようにファイルを更新したいです。

日付　品番　在庫　売り　補充
11-1　Ａ　 101　　0　　 0　　
11-1　Ｂ　　82　　0　　 0
11-3　Ｂ　　70　 12　 0
11-5　Ａ　　95　　6　　 0
11-7　Ａ　　90　　5　　 0
11-10　Ａ　　70　 20 0
11-11　Ｂ　　95 　 0 25　
11-17 　Ａ　　150　 0　　80　
・　　　・　　・
・　　　・　　・
・　　　・　　・

※売り＝在庫(現在)－在庫(一つ前)＞０
※補充＝在庫(現在)－在庫(一つ前)＜０
※品番Aと品番Bは出てくる頻度はばらばらです。

発生している問題・エラーメッセージ

Book1.csvの読み込み、diff関数（差分）、まではうまくいきましたが、
行数が多くてメモリーエラーになります。

該当のソースコード

以下のように書いて100万行あるcsvを処理するとエラーになってしまいます。

diff_ser = df.groupby('品番')['在庫'].diff()
df.loc[diff_ser<0,'売り'] = -diff_ser
df.loc[diff_ser>0,'補充'] = diff_ser
df = df.fillna(0)

行動規範の内容に同意します

回答2件

こちらの質問の質問者と同一の方ですかね？
何故わざわざ名前を変えたのでしょうか？出来れば前の質問にコメントなりのレスポンスをしてから新しい質問を立てていただけたらと思います。

それはさておき
どの箇所でメモリーエラーが起こっているかによりますが、diff() は成功しているとのことですので、

'在庫'、'売り'、'補充'列の型を 'int16' または 'uint16' にする

(現状 '売り','補充'の列の型'float64'なので一列あたりのサイズが 1/4になります。データ範囲が合わない場合は 'int32'としてください )

DataFrameのコピーを作らない (例えば、df = df.fillna(0) を df.fillna(0, inplace=True)) に置き換える）

あたりで動作するのではないでしょうか

具体的には

Python
1# diff のデータ型を int16 にしておく
2diff_ser = df.groupby('品番')['在庫'].diff().fillna(0).astype('int16')
3# 予め 0 で埋めた列を作成（型は int16 を指定）
4df['売り'] = df['補充'] = pd.Series(0, index=diff_ser.index, dtype='int16')
5df.loc[diff_ser<0,'売り'] = -diff_ser
6df.loc[diff_ser>0,'補充'] = diff_ser

あたりでどうでしょうか

投稿2019/02/06 05:28

magichan

総合スコア15898

osamu55

2019/02/06 13:07

回答ありがとうありがとうございます。質問者は同じです。なぜか前のアカウントでログインできず、返信できておらず申し訳ありませんでした。今回の教えていただいたプログラムで書きましたが、まだメモリエラーが出てしまいました。自分でもネットを探してやってみてますが、初心者で分からず、他には方法がございましたら教えていただけませんでしょうか？？

magichan

2019/02/07 00:14

このアプローチでは、回答にも書いたように'在庫'列のデータサイズを予め df['在庫'] = df['在庫'].astype('int16') などと指定して使用サイズを減らしておく。メモリーエラーが起こる前に import gc gc.collect() を行って、強制的にガベージコレクトを動かす。くらいしか手段が残ってないと思いますので、もしそれでも駄目だった場合は違うアプローチを取るべきかと思います。（違うアプローチに関しては、あとで別回等します）

行動規範の内容に同意します

ベストアンサー

別回等です。

pandas.read_csv() にてCSVファイルを読み込む際に chunksize パラメータを渡すことでCSVファイルを指定サイズ毎に読み込むことができます。
また、DataFrame.to_csv() にてCSVファイルに書き出す際にはパラメータに mode='a'　を渡す事で追記モードにて書き出すことができます。
これらの機能を利用して、CSVファイルを部分毎に「読み込み」→「変換」→「書き出し」を繰り返すといった手法をとると良いのではないでしょうか。

Python
1import pandas as pd
2
3prev_df = None
4
5# データを10000行ごとに読み込む
6for chunked_df in pd.read_csv('data.csv', chunksize=10000):
7    #一つ前のチャンクと結合（差分を求める処理を行う為、前のデータも必要となる）
8    df = pd.concat([prev_df, chunked_df])
9
10    diff_ser = df.groupby('品番')['在庫'].diff()
11    df.loc[diff_ser<0,'売り'] = -diff_ser
12    df.loc[diff_ser>0,'補充'] = diff_ser
13    df = df.fillna(0)
14
15    # ２重書き込みを避けるために、前のチャンク部を削除
16    df = df.loc[chunked_df.index]
17
18    if prev_df is None:
19        # 最初のチャンクの場合は通常の書き込み
20        df.to_csv('out.csv')
21    else:
22        # ２つ目移行は追記モードで書き込み（その場合はヘッダも書かない）
23        df.to_csv('out.csv', mode='a', header=None)
24
25    prev_df = chunked_df