Pythonクラスタリング方法について

Question

### 前提・実現したいこと

![イメージ説明](e74d5aa0a87cba6245c6273231a812ef.png)

現在２種類のタイプの機器があり
上と下でグループ分けをしてそれぞれで単回帰分析をしたいのですが

まずクラスタリングでそれぞれの機器にグループ分けをしたいのですが
kmeansだときれいに分けることができません

グループ分けするよい手法があれば教えてください


### 発生している問題・エラーメッセージ

![イメージ説明](f5ff2087b711ad3db06da7f0dac85eab.png)

### 該当のソースコード

```python
import pandas as pd

url = "https://docs.google.com/spreadsheets/d/e/2PACX-1vSA9NhTNG6rcb1BAdVzC2RYgPPCCd0ryo1YconlDj7TK15IAO8rIi3uY9FzRCkXsj48BO4hWtceriKq/pub?gid=0&single=true&output=csv"

df = pd.read_csv(url)

sns.scatterplot(x='ta', y='m', data=df)
```

### 試したこと

#### KMeans
```python
df1 = df.copy()

from sklearn.cluster import KMeans

kmeans = KMeans(n_clusters=2, random_state=0)

clusters = kmeans.fit(df1)
df1['cluster'] = clusters.labels_

sns.scatterplot(x='ta', y='m', hue='cluster', data=df1)
```
![イメージ説明](e2b2395c12b50c3ac062d8305b8cda6a.png)

#### GaussianMixture
```python
df2 = df.copy()

from sklearn.mixture import GaussianMixture

model = GaussianMixture(n_components=2)
model.fit(df2)
df2['cluster'] = model.predict(df2)

sns.scatterplot(x='ta', y='m', hue='cluster', data=df2)
```
![イメージ説明](7ee8a9a1129e77289039593222a2f45b.png)

#### SpectralClustering

```python
df3 = df.copy()

from sklearn import cluster

spectral = cluster.SpectralClustering(n_clusters=2, eigen_solver='arpack', affinity='nearest_neighbors')

clusters = spectral.fit(df3)

df3['cluster'] = clusters.labels_

sns.scatterplot(x='ta', y='m', hue='cluster', data=df3)
```

![イメージ説明](72b2494b8fffbf8c2194355d3d655215.png)

#### LinearRegression

```python
df4 = df.copy()

from sklearn.linear_model import LinearRegression

lr = LinearRegression()
lr.fit(df4['ta'].values.reshape(-1, 1), df4['m'].values.reshape(-1, 1))
pred_y = lr.predict(df4['ta'].values.reshape(-1, 1)).reshape(-1)
df4['cluster'] = (df4['m'] < pred_y).astype(int)

for name, dfg in df4.groupby('cluster'):
    lr.fit(dfg['ta'].values.reshape(-1, 1), dfg['m'].values.reshape(-1, 1))
    print(name, lr.coef_, lr.intercept_)

sns.scatterplot(x='ta', y='m', hue='cluster', data=df4)
```

![イメージ説明](32a22c50bf19936ab2aa15e0abc9e2e8.png)

### 補足情報（FW/ツールのバージョンなど）

Python3.8
pandas

Accepted Answer

仮に、つねに２タイプでお互いのデータが交差しないという前提であれば
全体の回帰結果を得て、それぞれがその上下どちらかにあるかでクラスタリングすればよいかと思います。
```Python
import pandas as pd
import random
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt
import seaborn as sns

# テストデータ
xs = list(range(10))
y1 = [ 4*x + 0 + random.uniform(-5,5) for x in xs]
y2 = [ 3*x -20 + random.uniform(-3,3) for x in xs]
df = pd.DataFrame({'x':xs*2, 'y':y1+y2})

# 全体の結果からクラスタリング
lr = LinearRegression()
lr.fit(df['x'].values.reshape(-1,1), df['y'].values.reshape(-1,1))
pred_y = lr.predict(df['x'].values.reshape(-1,1)).reshape(-1)
df['c'] = (df['y'] < pred_y).astype(int) # 上 or 下

for name, df2 in df.groupby('c'):
    lr.fit(df2['x'].values.reshape(-1,1), df2['y'].values.reshape(-1,1))
    print(name, lr.coef_, lr.intercept_)
#0 [[3.98516963]] [0.03326308]
#1 [[3.30785385]] [-22.03818755]

sns.scatterplot(x='x', y='y', hue='c', data=df)
plt.show()
```
![イメージ説明](440cb199e6a9e11534845f2338b85d14.png)

Answer

コードはないですが、[RANSAC](https://scikit-learn.org/stable/auto_examples/linear_model/plot_ransac.html)を複数回行うのもありと思います。2回目はOutlierに対してRANSACを行うイメージでしょうか。

前提・実現したいこと

発生している問題・エラーメッセージ

該当のソースコード

試したこと

KMeans

GaussianMixture

SpectralClustering

LinearRegression

補足情報（FW/ツールのバージョンなど）

関連した質問