機械学習モデルを敢えて過学習させてモデルを解釈することで重要な特徴量を見つける考え方は可能か？

今回伺いたい内容がネット上のどこを探しても見当たらなかったため、こちらに質問させて頂きます。この分野の初心者のため的外れな質問かもしれませんがご了承ください。

一般に何らかのデータセットの中身を解釈する際は、統計的な手法を用いて行うと思います。一方でこれを、いわゆる機械学習的な非線形の手法などを用いてinternal cross validationですごく良いスコアが出るような過学習させた学習モデルをあえて構築し、このモデルを近年流行りのExplainable AIで解釈させることで重要な特徴量を見出すというやり方、考え方は可能でしょうか。一般的にこのような考え方がこの分野でどのように捉えられるか分からず、参考文献などがあれば教えて頂きたいです。

この質問の背景ですが、取り組みの大目的はある目的変数（2クラス）にの分類に寄与する特徴量を探し出すことです。統計的な手法を考えましたがそもそもモデルの妥当性などが分からず、クロスバリデーションによる精度評価でその妥当性を評価しようと思いました。以下に具体的な手法やプロセスを書きます。

あるテーブルデータから2クラスを分類するタスクです。まず説明変数の次元数が多かったためWrapper methodによる機械学習的な特徴量選択（具体的には線形SVM）を全体のデータに対して適用し特徴量を減らしました。そして減らした特徴量をもってmulti perceptronによる予測とクロスバリデーションを行ったところ、95%以上の非常に高い判別精度が出ました。そしてこのNNの学習モデルをLIMEなどのXAIで解釈したところ、それらしい特徴量を抽出することが出来ました。このプロトコルが妥当なものかどうか、ご意見・アドバイス等頂ければと思います。

お手数ですがよろしくお願いいたします。