PCA主成分分析における次元削減手法について　dim errorへの対応方法

Question

PCAによる次元削除について勉強しています。
PCAが最小二乗法によって情報損失量の二乗和の最小を求めて次元削減を行っているというイメージはでき手法についてプログラムを作成しているのですが、以下のデータ設定においての次元削減の手法のプログラミングがわからずエラーが出ております。

x,y,z軸で測定したデータ各200個ずつのデータを一つのデータとしてnpyファイルデータを測定しているデータを読み込んでいます。
pcaをかけて次元削減を目指すことでdeeplearningにおける正答率などの向上をめざしています。

```python
data=np.load("acdata0.npy")
data=np.array(data)
print(data.shape)
#この時点でdataのshapeは(200,3,1)の次元になっております。reshape(3,200)などをかけても(3,200,1)となってしまいdimentionが消せずに困っております。

#このままpcaにかけると
from sklearn import cross_validation, preprocessing,decomposition
pca=decomposition.PCA(n_components=2)
pca.fit(data)


Found array with dim 3. Estimator expected <= 2.
#以上のdimensionのエラーがでます。

#data.ravel()を用いて(600,)の形にすると
pca.fit(data)

Reshape your data either using array.reshape(-1, 1) if your data has a single feature or array.reshape(1, -1) if it contains a single sample.
#ravel()によるreshapeを行うと以上のエラーとなる。
```

おそらく自分の中でのpcaについての考え方が間違っているのだとは思うのですが、xyz各200個のデータ(200,3,1)のデータをravel()などで(600,)の配列にする前にpcaをかけて次元を減らす手法などはございますでしょうか。この問題について何かアドバイスがいただけますと幸いです。

追記

この場合のpcaによる次元削減においては１つのarrayデータにx200個,y200個,z200個のデータが存在しているため、600次元のデータとはなっていると考えています。もしかするとまとめてではなく、x、y,zを各々を抽出してpcaで線形単回帰をおこなっていくべきなのでしょうか。

Accepted Answer

PCAで次元削減を行いたければ**複数のデータ**を入れてあげる必要があります。
50のデータを持っているなら、各データをravelで600次元に変換した結果を`np.vstack`などで積み重ねて`shape=(50, 600)`の配列を作り、それをfitに渡してやる形です。
ただし、テスト用データはPCAのfitからは外した方が厳密には正しく評価できます（検証用データはfit時には一切関わるべきではない）。手元で実験する際には、どうせ大勢に影響はないと割り切るのも手ですが、そういう話があるということは覚えておいてください（「機械学習 leakage」とかで検索すると出てくるはずです）。

---

PCAであれば簡単なものですから、まずは原理を勉強してください。理解して使うことが望ましいです。

関連した質問