現在の作業
データ解析において、Scikit-learnをよく使いますが、機械学習やディープラーニングだと、X_train、X_testなどとデータを分割したり、StandardScalerで正規化したり、DataFrameをarrayに変換したり、などなど、何かとデータを分割や変換したりすることが多いです。
また、解析の結果を解釈するために、正規化の逆変換をしたり、arrayからDataFrameに戻したりなどもしています。
困りごと
このとき「このarrayの元DataFrameってどれだっけ?」、「正規化したデータを元スケールに戻す、StandardScaler()のインスタンスってどれだっけ?」といった事態が発生します。単純な処理なら問題ないのですが、パイプラインが複雑になると、このような前処理の復元作業に時間を要したり、バグの原因になったりしています。
そこで、これらの操作をスムーズに行う工夫点はありますでしょうか?
想定対応
思いつきですが、DataFrame、arrayなどのデータや、StandardScalerなどの変換郡、データの付随情報などをインスタンス化する方法があるのですが、このような操作は一般的でしょうか?
今のところあまり問題は起こっていないのですが、他人の書いたスクリプトで見たことがないもので、何かしら欠点もあるのでは?とも感じています。
もしやられている方、もしくはベターな方法をご存知の方がおりましたらお知恵をいただけたらと思います。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2020/06/24 13:23