適切なものを一つ
G検定の問いみたいですね。面白い質問に見えます。私は好きです。
正解
圧倒的に、「3.データに含まれる情報の大部分を維持しながらデータを圧縮し、計算効率を向上できる」です。
SKLearnのチートシートを下に掲載しますが、PCAは右下に来る次元削減の技術です。
PCAでは、寄与率の高いものを取り出すことができ、これがそのまま3.の説明になります。
下の図を見るといろいろごちゃごちゃ書いてありますが、PCAの部分について「PCAはともかく、Randomized PCAってなんだ?」と突っ込みたくなります。これに関してはやたかさんの解説が秀逸です。
他がダメな理由
1.データから新たな特徴量を抽出し次元を増やすことで、性能を向上させる」ことができる。
PCAでは効果的な特徴量を抽出できますが、特徴量から別の特徴量に変換する操作はありませんので特徴量は増えません。
2.データから一部の特徴量を選択することで、次元を削減し過学習を防ぐことができる。
確かにPCAで次元を減らすことができ、細かい値がそぎ落とされるため、学習時の過学習は防げるかもしれません。
ただ、PCAは教師なし学習の技術で、いわゆる学習(何かのラベルがあって、ラベルを元に効率よくラベルを回帰したり分類したりという操作)が行われません。なので、2の説明はPCAの説明とほかの教師あり学習の説明をニコイチされた説明でちょっと違和感のある内容になっています。
4.貪欲探索アルゴリズムの一種であり、無関係のノイズを取り除くことで汎化誤差を削減できる。
4.の内容は誤りはなさそうですが、これは「特徴選択」の説明になると思います。PCAは「特徴抽出」の技術であって、使うかどうかの選択はユーザーに任されるので4は不正解です。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2022/01/10 01:43