ある５つのデータが与えられた時に判別するためのモデルの作り方について

前提・実現したいこと

地点Aと地点Bにおける5つの測定データから新たに5つの測定データが与えられた時に、そのデータがAなのかBのものなのかを判別できるモデルを作ろうとしています。

以下がサンプルデータで目視でもD2とD4のデータで地点A/Bで顕著なちがいが確認できます。

D2	  D1	  D3	  D4	  D5　    地点	
2.46	1.21	0.87	0.14	1.21	A
2.48	1.20	0.91	0.15	1.03	A
2.45	1.19	0.90	0.14	1.25	A
2.43	1.19	0.86	0.13	1.22	A
2.46	1.19	0.89	0.14	1.24	A
0.34	1.13	0.93	0.52	1.23	B
0.30	1.01	0.58	0.77	1.25	B
0.60	0.81	0.48	0.57	1.25	B
0.52	1.23	0.59	0.53	1.25	B
0.46	1.20	0.85	0.55	1.12	B

発生している問題・エラーメッセージ

Excelで回帰分析をして各データに対する重みを明らかにしようとしましたが、係数は出てもここから判別に向けて何をすればいいのかわからず、困っています。

試したこと

回帰分析で例えば地点AのD2を表す式として以下のように係数は求めましたが、地点ABを組み合わせて回帰分析をすると係数は変わりますし、そもそも５つの新たなデータが与えられた時に判別したいという目的が達成できていません。

地点Aの場合

	係数
切片	-23.29882298
X 値 1	16.42353043
X 値 2	12.13171446
X 値 3	-33.63940812
X 値 4	0.150280146

地点ABを組み合わせた場合

	係数
切片	4.898916806
X 値 1	-0.354494066
X 値 2	0
X 値 3	-4.671124951
X 値 4	-0.561016193

補足情報（FW/ツールのバージョンなど）

excel 16.16.11

行動規範の内容に同意します

回答2件

ベストアンサー

scikit-learnでロジスティック回帰で解くとこんな感じ。

python
1import io
2import numpy as np
3import pandas as pd
4from sklearn.linear_model import LogisticRegression
5from sklearn.preprocessing import LabelEncoder
6
7df = pd.read_csv(io.StringIO("""
8D2    D1    D3    D4    D5　           地点    
92.46    1.21    0.87    0.14    1.21    A
102.48    1.20    0.91    0.15    1.03    A
112.45    1.19    0.90    0.14    1.25    A
122.43    1.19    0.86    0.13    1.22    A
132.46    1.19    0.89    0.14    1.24    A
140.34    1.13    0.93    0.52    1.23    B
150.30    1.01    0.58    0.77    1.25    B
160.60    0.81    0.48    0.57    1.25    B
170.52    1.23    0.59    0.53    1.25    B
180.46    1.20    0.85    0.55    1.12    B
19"""), sep="\s+", engine="python")
20
21target = df["地点"].values
22X = df[["D2", "D1", "D3", "D4", "D5"]].values
23
24le = LabelEncoder()
25y = le.fit_transform(target)
26
27# ロジスティック回帰で学習させる
28clf = LogisticRegression(solver="lbfgs")
29clf.fit(X, y)
30
31# 学習データを予測してみる
32y_pred = clf.predict(X)
33print(le.inverse_transform(y_pred))
34print(clf.predict_proba(X))
35
36# 新データを予測してみる（ダミーの生成が面倒なので、学習データにノイズをまぶして使います）
37rand = np.random.RandomState(seed=0)
38new_data = X + rand.normal(scale=0.5, size=X.shape)
39print(new_data)
40y_pred = clf.predict(new_data)
41print(le.inverse_transform(y_pred))
42print(clf.predict_proba(new_data))
43
44""" =>
45['A' 'A' 'A' 'A' 'A' 'B' 'B' 'B' 'B' 'B']
46[[0.84302938 0.15697062]
47 [0.84791869 0.15208131]
48 [0.84121511 0.15878489]
49 [0.83664303 0.16335697]
50 [0.84311917 0.15688083]
51 [0.14391734 0.85608266]
52 [0.11909916 0.88090084]
53 [0.18311209 0.81688791]
54 [0.1751691  0.8248309 ]
55 [0.16677915 0.83322085]]
56[[ 3.34202617  1.4100786   1.35936899  1.2604466   2.143779  ]
57 [ 1.99136106  1.67504421  0.8343214   0.09839057  1.23529925]
58 [ 2.52202179  1.91713675  1.28051886  0.20083751  1.47193162]
59 [ 2.59683716  1.93703954  0.75742087  0.28653385  0.79295213]
60 [ 1.18350509  1.5168093   1.3222181  -0.23108251  2.37487731]
61 [-0.38718284  1.15287926  0.83640807  1.28638961  1.96467938]
62 [ 0.37747371  1.19908126  0.13610713 -0.22039823  1.07604393]
63 [ 0.67817448  1.42514534  1.08118992  0.37633659  1.09884862]
64 [-0.00427648  0.51999103 -0.2631351   1.5053877   0.99517391]
65 [ 0.24096285  0.57360232  1.23874518 -0.25694892  1.01362986]]
66['A' 'A' 'A' 'A' 'B' 'B' 'B' 'B' 'B' 'B']
67[[0.94045476 0.05954524]
68 [0.73033981 0.26966019]
69 [0.8682963  0.1317037 ]
70 [0.87055769 0.12944231]
71 [0.4697141  0.5302859 ]
72 [0.03840542 0.96159458]
73 [0.16977072 0.83022928]
74 [0.24121152 0.75878848]
75 [0.05158952 0.94841048]
76 [0.15853856 0.84146144]]
77"""