質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.46%
機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

統計

統計は、集団現象を数量で把握することです。また、調査で得られた性質や傾向を数量的に表したデータのことをいいます。

Q&A

1回答

1062閲覧

機械学習モデルを敢えて過学習させてモデルを解釈することで重要な特徴量を見つける考え方は可能か?

natsunatsu

総合スコア11

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

統計

統計は、集団現象を数量で把握することです。また、調査で得られた性質や傾向を数量的に表したデータのことをいいます。

0グッド

0クリップ

投稿2020/12/10 06:07

編集2020/12/11 07:51

今回伺いたい内容がネット上のどこを探しても見当たらなかったため、こちらに質問させて頂きます。この分野の初心者のため的外れな質問かもしれませんがご了承ください。

一般に何らかのデータセットの中身を解釈する際は、統計的な手法を用いて行うと思います。一方でこれを、いわゆる機械学習的な非線形の手法などを用いてinternal cross validationですごく良いスコアが出るような過学習させた学習モデルをあえて構築し、このモデルを近年流行りのExplainable AIで解釈させることで重要な特徴量を見出すというやり方、考え方は可能でしょうか。一般的にこのような考え方がこの分野でどのように捉えられるか分からず、参考文献などがあれば教えて頂きたいです。

この質問の背景ですが、取り組みの大目的はある目的変数(2クラス)にの分類に寄与する特徴量を探し出すことです。統計的な手法を考えましたがそもそもモデルの妥当性などが分からず、クロスバリデーションによる精度評価でその妥当性を評価しようと思いました。以下に具体的な手法やプロセスを書きます。

あるテーブルデータから2クラスを分類するタスクです。まず説明変数の次元数が多かったためWrapper methodによる機械学習的な特徴量選択(具体的には線形SVM)を全体のデータに対して適用し特徴量を減らしました。そして減らした特徴量をもってmulti perceptronによる予測とクロスバリデーションを行ったところ、95%以上の非常に高い判別精度が出ました。そしてこのNNの学習モデルをLIMEなどのXAIで解釈したところ、それらしい特徴量を抽出することが出来ました。このプロトコルが妥当なものかどうか、ご意見・アドバイス等頂ければと思います。

お手数ですがよろしくお願いいたします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

データが学習データのみであれば「過学習」ではないのでその考え方でよいと思います。
あえて「過学習」という言葉を使うのであれば学習し過ぎで、学習データ以外にも適用する可能性がありそれに適さない学習をしてしまうことになるのでよろしくない考え方です。

単に、
・学習データに閉じてそのデータ構造を知りたい
・学習したモデルを他の新たなデータに適用したい

前者ならばありでそれは「過学習」とは呼ばない(あえて「過学習」ではない
後者ならば「過学習」で不可

とういことかと思います。

投稿2021/01/02 04:33

aokikenichi

総合スコア2218

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.46%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問