回答率: 85.35%

質問するログイン新規登録

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

新規登録して質問してみよう

ただいま回答率: 85.35%

トップ scikit-learnに関する質問

Q&A

解決済

1回答

603閲覧

機械学習やDLにおけるXやyの効率的なハンドリング方法

総合スコア80

0グッド

1クリップ

投稿2020/06/05 02:15

編集2020/06/06 22:56

0

1

現在の作業

データ解析において、Scikit-learnをよく使いますが、機械学習やディープラーニングだと、X_train、X_testなどとデータを分割したり、StandardScalerで正規化したり、DataFrameをarrayに変換したり、などなど、何かとデータを分割や変換したりすることが多いです。

また、解析の結果を解釈するために、正規化の逆変換をしたり、arrayからDataFrameに戻したりなどもしています。

困りごと

このとき「このarrayの元DataFrameってどれだっけ？」、「正規化したデータを元スケールに戻す、StandardScaler()のインスタンスってどれだっけ？」といった事態が発生します。単純な処理なら問題ないのですが、パイプラインが複雑になると、このような前処理の復元作業に時間を要したり、バグの原因になったりしています。

そこで、これらの操作をスムーズに行う工夫点はありますでしょうか？

想定対応

思いつきですが、DataFrame、arrayなどのデータや、StandardScalerなどの変換郡、データの付随情報などをインスタンス化する方法があるのですが、このような操作は一般的でしょうか？

今のところあまり問題は起こっていないのですが、他人の書いたスクリプトで見たことがないもので、何かしら欠点もあるのでは？とも感じています。

もしやられている方、もしくはベターな方法をご存知の方がおりましたらお知恵をいただけたらと思います。

行動規範の内容に同意します

回答1件

0

ベストアンサー

直接の回答ではないのですが参考として
Rですと多種の分析手法を統一した関数、メソッドで実行できるcaretというのがあるのですが、Pythonでは
私は知りません。scikit-learnはちょっと趣が違うようです。

ただ、AutoML的に複数の分析手法を半自動で扱える
https://pycaret.org/
が最近出来ました。手法をまたいで統一的な書き方が出来るようになっているので、ご質問の趣旨とは方向が
ことなるかとは思いますが、参考にはなるかと思います。

投稿2020/06/21 08:24

総合スコア2240

2020/06/24 13:23

ありがとうございます。知らなかった情報なので、ベストアンサーとさせてください！

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問

トップ scikit-learnに関する質問

機械学習やDLにおけるXやyの効率的なハンドリング方法

関連した質問

同じタグがついた質問を見る

運営からのお知らせ

【ジャック広告の配信について】現在、非ログイン状態のユーザー様に対して一部の地域限定でジャック広告を配信しております。詳細につきましてはteratailブログをご確認ください。 https://blog.teratail.com/entry/jack-ad-202412

過去のお知らせを見る