14万件のデータが入っているデータフレームを5万件ごとのCSV3つに分割したい

Question

# 前提
Pythonでjupyter notebookでコードを書いている。
ウェブデータをBS4でスクレイピングしてきてPANDASで一つのデータフレームにまとめ
統合したCSVを吐き出している。

そのデータをツールにインポートしようとしたが
1CSV当たりの上限が5万でインポート出来ず。

# やりたいこと
14万行あるデータフレームを5万以下のCSVファイル複数に分割したい。
今後、データ数が15万以上になる可能性があるため、データが15万以上に増えても分割出来るようにしたい。

# 課題
ツールにデータを入れる上で5万件しかインポート出来ない。
しかし、複数のデータを突合した一つのデータフレームは14万行がある。

# 現状
dfという変数名にデータフレーム型で14万のレコードが入っています。
5万以下にまとめて複数しようと試みたが、上手く出せない。

# 分からない事
どのように処理すれば、上のような処理を出来るのか？

Accepted Answer

```python
import pandas as pd

N = 140_000
M = 50_000

# generate dataframe
df = pd.DataFrame({'data': range(N)})
print(f'Num rows of dataframe: {len(df)}')

# split every M rows
df_splitted = [df[M*i:M*(i+1)] for i in range(N//M+1)]
#for i in range(N//M+1):
#  df[M*i:M*(i+1)].to_csv(f'data_{i:02d}.csv', index=False)

# describe each dataframes
for i, dfx in enumerate(df_splitted):
  print(f'dataframe{i} num rows: {len(dfx)}')
  print(f'dataframe{i} head:
 {dfx.head(3)}')
  print(f'dataframe{i} tail:
 {dfx.tail(3)}
')

#
Num rows of dataframe: 140000
dataframe0 num rows: 50000
dataframe0 head:
    data
0     0
1     1
2     2
dataframe0 tail:
         data
49997  49997
49998  49998
49999  49999

dataframe1 num rows: 50000
dataframe1 head:
         data
50000  50000
50001  50001
50002  50002
dataframe1 tail:
         data
99997  99997
99998  99998
99999  99999

dataframe2 num rows: 40000
dataframe2 head:
           data
100000  100000
100001  100001
100002  100002
dataframe2 tail:
           data
139997  139997
139998  139998
139999  139999
```

Answer

linuxでかまわなければ、splitコマンドで14万行のcsvを行数指定で複数ファイルに分割してしまう、というのもありかなと思いました。
https://atmarkit.itmedia.co.jp/ait/articles/1711/24/news016.html

前提

やりたいこと

課題

現状

分からない事

関連した質問