データフレームを順々に処理する際の変数の取り扱いについて

Question

エクセルファイルに入っている数量データを機械学習で予測するために、データの前処理を行っています。
その際、以下のように、Excelファイルからインポートしたデータを順に処理しています。

```
import pandas

input_sheet_df_1 = pandas.ExcelFile(...) # エクセルファイルの読み込み
input_sheet_df_2 = # input_sheet_df_1に対して、解析に使う変数の抽出
input_sheet_df_3 = # input_sheet_df_2に対して、変数名の変更
input_sheet_df_4 = # input_sheet_df_3に対して、変数内の演算
```

ただ、このようにデータを順番に処理すると、変数名がどんどん増えていき、
途中処理を追加した時に番号管理ができなくなってしまいます（変数名称を10、20とすればできなくはないですが、、、）。

また、各データの値も保持したいので、すべてをinput_sheet_dfに上書きすることもできません。
このような場合、どう変数を取り扱っていったらいいでしょうか？
（可能なら、一部の途中処理をスキップできるとさらにうれしいです。）

Accepted Answer

たいしたことではないかもしれませんが、pandas.read_excel()を使えば、parseする必要がないので楽できます。
DataFrameはデータに特化したpandasのオブジェクトなので、使い倒す努力をしたほうが、番号管理という面倒から解放されます。例えば、変数名の変更はDataFrameの列名の変更をするメソッドなどを使えば、新しいものは必要ありません。元に戻す必要があるのであれば、あらかじめ、列名をDataFrameから取り出しておけば済むことです。演算結果も、新たに列名を指定して元のDataFrameに格納しておけば、問題ないでしょう。むしろ、一元的にデータを管理できるので整合性が取りやすくなると思います

Answer

excelのデータをDataFrameとして受け取り、別変数に入れ直したりせずに直接参照する方法を習得するといいと思います。

参考として例えば:
https://datumstudio.jp/blog/1722

Answer

回答というよりコメントなんですが・・・

とりあえず、番号管理はやめませんか。可読性のある変数名にしないと、あとで質問者様ご自身が**「わけわかめ」**になるなるだけです。

あと、`pandas.ExcelFile(...)`は`sheet`でも`DataFrame`ではないはずなので、適切な変数名にしてくださいな。`input_book`とかで良いのでは。

で、そうなると`input_sheet_df_2 = `以降のコメントが何も信じられなくなるので、私にはこれ以上の回答は無理です（一体なにやってるんだろう、想像もつかないな、って感じます。「解析に使う変数の抽出」以前に、まずはparseを呼んで各シートを処理しているはずなんですがねぇ）。

一応他に思いつく助言を書いておくと、計算の中間過程とかはさすがに残さなくても良いのでは。必要なものだけ残せば良いです。その上で、最終的には1つの`DataFrame`にまとめ上げて解析処理に投げつけてあげれば、良いと思います。

関連した質問