pythonを用いた主成分分析（データ有り）

主成分分析での第一主成分、第二主成分が何を表しているのか理解したい。

今回使用したデータをgithub上で公開しているので、
データが必要な方は、git cloneお願いします

git clone https://github.com/kouhei-github/txt_data.git

最後に質問をまとめていますので、1点でもわかる方お答え頂きたいです。
またデータから気付いた点や、自分なりに分析してみた等の意見もあればお願い致します。

困っていること

現在、データ解析の勉強のために、あるサイトの検索順位のアルゴリズムを解析しています。
下記にデータを示します。

データは実際にgit cloneしてみる生データの方が、見やすいかと思います！
下記のコードでdataframeにして確認してください

python3
1# df = pd.read_csv('analyse.txt', index_col=0)

　　　rank　firstpage title_len distance crolling job_date keywords_num_job
job_lenth company_jobs_num
0 6 1 27 7143.010 0 720 0 1520 8
1 9 1 6 2041.890 0 384 0 571 805
... ... ... ... ... ... ... ... ... ...
24872 43 0 21 6467660.000 0 72 0 1011 13
24873 68 0 19 1743.930 1 720 0 608 13

24874 rows × 9 columns

rank: ランキングの順位
firstpage: 1が１page目に表示、0がそれ以外
title_len: タイトルの長さ
distance: 距離
crolling: クローリングかどうか
job_date: その募集をした日付
company_jobs_num: その会社が持っている他の募集
job_lenth：　募集の内容の長さ
keywords_num_job: 検索時にかけるキーワードの数

試したこと

**データを正規化し、自分なりに必要なデータに絞った**のが下記で、

rank	　　title_len	keywords_num_job　job_lenth	　company_jobs_num

0 0.050505 0.337838 0.000 0.176375 0.000014
1 0.080808 0.054054 0.000 0.066257 0.001624
... ... ... ... ... ...
24872 0.424242 0.256757 0.000 0.117313 0.000024
24873 0.676768 0.229730 0.000 0.070550 0.000024

24784rows × 5columns

このデータを、主成分分析(PCA)をかけ,
__第一主成分と第二主成分をplotして、firstpageで散布図を作成__すると

うまくわかれています。
私の解釈として、第一主成分はfirstpage(1page目になれるかどうか)を表していると考えています。
ここでの散布図の分かれ目の0.4とは何を表しているのでしょうか？

次に寄与率をみてみると、
0
PC1 0.623347
PC2 0.231397
PC3 0.070281
PC4 0.040889
PC5 0.034086

第一主成分で、元データの60％を説明できており、第二主成分まで合わせると80%超えています。
また見やすくするために累積寄与率をグラフにすると、下記になります。
![]

最後に「第一主成分と第二主成分における観測変数の寄与度をプロット」すると

このようになります。第一主成分(1page目になれるかどうか)に貢献しているのは、
job_lenth, keywords_num_job, company_jobs_num, title_len
であると私は解釈しています。

しかし、PC1の座標をを見てみると貢献していたとしても　0.0でこの分析が合っているかどうかわかりません。

最後に、質問をまとめますと

1, PC1(第一主成分), PC2(第二主成分)でfirstpageの散布図を示した図の、分かれ目の0.4とは何を表しているのでしょうか？
2, 皆さんの解釈で第二主成分は何を表していると思いますか？
3, この主成分分析はあっているのでしょうか？
4, 最後のグラフの数字(PC1だと-1.0~0.0)は何を示しているのでしょうか？

もし他に、このデータで主成分分析等行って傾向がわかった方コメントしてください。
またコードの公開をして頂けると幸いです。

行動規範の内容に同意します

回答3件

せっかくデータをアップしてあるので試行してみました。処理概要は以下です。

・処理対象は、rbg_nkさんが対象としたものと同一にした。（項目の意味がわかるとやりようがあります）
・データ項目のスケールが異なるのでMinMaxScalarで標準化した。（実装がわからないので、何を使用したのか確証がないが、質問の記載と同じような結果だったのでMinManScalarを使用）
・PCA実行時のオプションパラメータはデフォルト値

得られた結果
・主成分１および２で全体の85％の情報量を保有。主成分３まで含めると90％を超えるので、このあたりまでが主要な情報で以降はノイズと扱っても良さそう。
・主成分１はrankによって表現されている。（符号がマイナスなので値が小さいほどランクが大きい）
・主成分２はtitle_lenによって表現されている。keywords_num_jobおよびjob_lenthも多少影響。各々が何を意味しているかわからないので解釈は保留。ざっくりいうとtitle_lenを意味している。
・firstpageを軸に主成分１の分布をヒストグラムで可視化。その結果、firstpage=1とfirstpage=0は異なる分布を示す。つまり、主成分１（rank）とfirstpageは何らかの関係がある。
・一方、主成分２についてヒストグラムで可視化した結果は、近似した分布を示した。つまり、主成分２（title_len）はfirst_pageと明示的な関係性は見られない。

投稿2020/06/28 05:00

R.Shigemori

総合スコア3376

ベストアンサー

1, PC1(第一主成分), PC2(第二主成分)でfirstpageの散布図を示した図の、分かれ目の0.4とは何を表しているのでしょうか？

第一主成分が0.4ということ以上は表していません。よって、もう少し詳しく解釈するためには第一主成分が何を表しているのかを解釈する必要があります。
主成分分析における主成分は、ざっくりいうと与えられたデータから計算された指標のようなものです。主成分に対して与えられたデータがどの程度影響しているのかは、計算結果のオブジェクトからcomponents_を使って取り出して解釈します。解釈に特段のルールや方法はないようですが、私はcomponents_の絶対値に着目して解釈するようにしています。まず、ゼロ近傍のデータは主成分に影響していないと解釈して残りから解釈します。

例えば。インプットが『身長・体重・座高・腹囲』の主成分分析を行ったとします。結果、第一主成分がすべてプラスでそこそこ大きいのであれば、『カラダの大きさ』という抽象的な概念を表していると解釈します。第二主成分が、身長と座高はマイナス（そこそこ大きい）で、他はゼロ近傍であれば、第二主成分は『縦方向のカラダの大きさ（端的にいうなら身長）』と解釈します。

今回の分析におけるcomponents_がわからないので何とも言えませんので主成分の解釈はできず、結果として0.4が何を意味しているのかもわからないというのが事実のように思われます。

2, 皆さんの解釈で第二主成分は何を表していると思いますか？
上記の通りで、分析が足りていないので何とも言えません。

3, この主成分分析はあっているのでしょうか？
ここでいう『この主成分分析』がどの部分を示しているのかによります。
結論を導くまでの手順や解釈のことを意味しているのであれば、最終ゴールである『あるサイトの検索順位のアルゴリズムを解析』に対して主成分分析の結果がどのようになるのかという仮説次第です。

『第一主成分と第二主成分をplotして、firstpageで散布図を作成』というこれが最終的に得たいもののように思います。言い換えると、そこに至るまでの手順が飛んでいることが結果をどう解釈したらいいのかを悩ませているような気がします。

投稿2020/06/27 22:03

R.Shigemori

総合スコア3376