質問
コレスポンデンス分析(MCA)を用いて各代表地点の降水量と季節の関係を分析したいと考えています。
しかしMCAの出力が一次元になってしまっています。なぜそうなるのかわかる方がいらっしゃると教えていただきたいです。
他のデータでうまくいっているのでデータの方に問題があるのではないかと考えています。
よろしくお願いいたします。
発生している問題・エラーメッセージ
エラーメッセージ plt.scatter(rows[:, 0], rows[:, 1], c='b', marker="None") IndexError: index 1 is out of bounds for axis 1 with size 1
該当のソースコード
Python
1import mca 2import matplotlib.pyplot as plt 3import pandas as pd 4import numpy as np 5 6# クロス集計データ取得 7data = pd.read_table('data_Precipitation_2.csv', sep=',', skiprows=0, index_col=0, header=0) 8print(data) 9# 計算 10mca_counts = mca.MCA(data) 11print(np.shape(mca_counts)) 12print(mca_counts) 13# 結果データ抜き出し 14# 2次元表示のためN=2まで 15rows = mca_counts.fs_r(N=2) # 表側データ 16cols = mca_counts.fs_c(N=2) # 表頭データ 17print(rows) 18print(np.shape(rows),np.shape(cols)) 19# 表側 20plt.scatter(rows[:, 0], rows[:, 1], c='b', marker="None") 21labels = data.index 22for label, x, y in zip(labels, rows[:, 0], rows[:, 1]): 23 plt.annotate(label, xy=(x, y), c="b") 24 25# 表頭 26plt.scatter(cols[:, 0], cols[:, 1], c='r', marker="None") 27labels = data.columns 28for label, x, y in zip(labels, cols[:, 0], cols[:, 1]): 29 plt.annotate(label, xy=(x, y), c="r") 30 31# xy軸 32plt.axhline(0, color='gray') 33plt.axvline(0, color='gray')
### 補足情報(FW/ツールのバージョンなど) 以下のものが用いている表です January February March April May June July August September October November December M/day Sapporo 170.0 112.0 54.5 15.0 66.5 71.0 63.0 233.0 87.5 80.0 82.5 119.0 Sendai 16.0 26.0 71.5 94.0 91.5 175.5 356.0 144.0 114.5 40.5 68.5 26.5 Tokyo 22.5 71.0 110.5 224.5 198.0 64.0 233.0 105.0 310.0 118.0 102.5 56.5 Nagoya 26.0 34.0 84.5 134.5 164.0 117.5 366.5 196.0 260.0 56.0 114.0 25.0 Osaka 20.0 16.5 104.5 116.0 80.0 101.0 174.0 73.5 180.5 92.5 81.5 18.0 Nigata 120.5 109.5 87.5 107.0 89.5 172.5 223.5 280.5 123.0 117.5 171.0 400.0 Hiroshima 12.0 17.0 124.0 150.0 31.0 99.0 319.0 148.0 222.5 22.0 42.0 26.0 Matuyama 38.0 26.0 94.0 147.0 58.0 101.0 255.5 50.0 115.0 46.0 70.5 29.0 Fukuoka 48.0 22.5 109.0 141.5 45.0 138.5 105.5 266.5 217.0 69.0 34.0 36.0 Naha 106.0 186.5 177.5 41.5 601.5 495.5 189.5 138.5 378.5 202.0 269.0 210.5 試しにネットにあるこちらの表を使ってやるとうまくいきました。 Video Jazz Country Rap Pop Opera Low_F High_F Middle_F Color red 4 2 4 4 1 2 2 4 1 orange 3 4 2 2 1 1 0 3 2 yellow 6 4 5 2 3 1 1 3 0 green 2 0 5 1 3 3 3 1 5 blue 2 5 0 1 4 1 2 1 3 purple 3 3 1 0 0 3 0 2 1 white 0 0 0 0 1 4 1 5 3 black 0 2 0 11 1 3 10 1 1 pink 2 1 1 0 2 4 0 2 0 brown 0 1 4 1 6 0 3 0 6
参考情報はCSVフォーマットでアップロードした方が回答率が上がるように思います。
https://github.com/esafak/mca/blob/master/docs/usage.rst
に「Benzecri correction plus thresholding has eliminated 3 of the 6 columns.」とあるので、下記が効果あるかも
mca_counts = mca.MCA(data)
↓ 変更
mca_counts = mca.MCA(data, benzecri=False)
無事にうまくいきました!!ありがとうございます。
また参考URLまで載せていただきありがとうございます。
Benzecri 補正としきい値処理により、6 つの列のうち 3 つが除去されましたとありますが、補正処理されたことによって一列になってしまったという認識で大丈夫でしょうか?
ベストアンサーにしたいので回答よろしくお願いいたします。
あなたの回答
tips
プレビュー