質問をご覧いただきありがとうございます。
情報系の大学に通っている大学生です。
早速質問させていただきます。
<前提>
今、pandasにて作成したデータフレームをエクセルのシートに書き出すプログラムを書いております。
具体的には、下記のプログラムにも示しておりますが、
- データフレームを作成、並びにexcelへ書き出す処理をfor文で100回以上繰り返している
- データフレーム一つ一つは数千行のデータを持っている
となっております。
最終的にはデータフレーム一つに対して、エクセル内の1つのシートに書き出すことを目指しています。
<問題>
ここで問題なのが、今の私のプログラムでは1つのデータフレームを書き出すたびに次のデータフレームを書き終わるまでの時間が大幅(30秒以上)に伸びていることです。そのため、プログラムの実行が7時間経過しても終わらないという問題に直面しています。
そこで、with pd.ExcelWriterを削除して実行時間を計測したところ、1つのデータフレームを書き出すたびに次のデータフレームを書き終わるまでの時間が延びるということがなくなっていることが確認されました。つまり、中身が追加されていくexcelファイルを開いたり閉じたりを繰り返していることが実行時間が伸びていく原因であると考えました。
<質問>
下記プログラムでは、作成したデータフレームを一つずつexcel内に書き出しているため、実行時間の短縮ができていないと考えています。そこで改善案として、作成したデータベースをすぐに出力するのではなくfor文が回り終わるまでlistに追加していき最後にexcelにまとめて書きだすことを考えました。**そこで質問としましては、一度excelを開くだけでリスト内の各要素を、excel内の各シートに書き出すことはできるでしょうか。**可能である場合、コードのサンプルなどを載せていただけると大変助かります。
回答よろしくお願いいたします。
※プログラムはイメージです
python
1# 現在のプログラム(このfor文を何回も繰り返している) 2# 過程を経て作られたデータフレームdata_dfをエクセルに書き出す 3for i in ..... 4 ・ 5 ・ 6 ・ 7 with pd.ExcelWriter('test.xlsx', engine="openpyxl", mode="a") as writer: 8 data_df.to_excel(writer, name = xxx)
環境
windows10
python3.8
メモリ8G

バッドをするには、ログインかつ
こちらの条件を満たす必要があります。