k-means法を用いた時系列クラスタリングのデータ型について

Question

### 前提・実現したいこと
tslearnを使った時系列データのk-means法によるクラスタリングにおいて、ユークリッド距離からクラスタリングをしたい考えています。
しかしながら、現在、ユークリッド距離からクラスタリングするためのデータの前処理の段階でつまづいています。

ユークリッド距離でクラスタリングする前に、動的時間伸縮法を用いたクラスタリングをしていました。その際には、下のデータ(※1)のように配列内の要素数が異なる場合には”nan”を入れえう前処理をして、クラスタリングしていました。(動的時間伸縮法では、上手く分類出来ませんでしたが、、、)
しかしながら、ユークリッド距離からクラスタリングする際には、空白文字(”nan”)はエラーとなってしまいます

以下のデータ(※１)から、”nan”を取り除いて、ユークリッド距離からクラスタリングを実行できるデータを作成したいです。
理想は、※１のデータのように３次元の配列にしたいのですが、nanを取り除くと要素数が異なってしまう為、現実的には厳しいと思います。。。
他に、何か良い方法がありましたら、教えていただけますでしょうか。
よろしくお願いします。
```
※1　動的時間伸縮法で使用したデータ(shape=(1200, 202, 2))

[[[1978.13506899 1038.26637706]
  [2321.18041226 1106.97860927]
  [2317.69722515 1107.01611793]
  ...
  [          nan           nan]
  [          nan           nan]
  [          nan           nan]]
　　　　　　　　・
　　　　　　　　・
　　　　　　　　・
[[1921.43042307 1049.15807708]
  [2194.87333696 1104.94944899]
  [1920.8201568  1049.00151147]
  ...
  [          nan           nan]
  [          nan           nan]
  [          nan           nan]]]
```

### tslearnを使った時系列データのk-means法によるクラスタリングのコード

```Python
kmeans = TimeSeriesKMeans(n_clusters=5,#クラスタ数
                          metric="euclidean",#ユークリッド距離
                          n_init=5,
                          verbose=True,
                          max_iter_barycenter=100,
                          ) 

pred = kmeans.fit_predict(Points)※
```
※Pointsは、numpy配列(３次元)のデータの予定(理想は※1のデータから”nan”を削除したもの)



### 試したこと

リスト型でデータの前処理も試したが、上手くいかなかった。

### 補足情報（FW/ツールのバージョンなど）環境
Python(3.9)
tslearn(0.5.2)
Jupiternotebook(6.4)

Accepted Answer

こちらの記事が参考になります。

[NumPyの配列ndarrayの欠損値np.nanを含む行や列を削除](https://note.nkmk.me/python-numpy-nan-remove/)

しかし、2次元の例なので、記事の記載そのままでは使えません。質問者様のケースにあてはめるには、以下のように応用すると良いでしょう。3次元の任意の1方向でnanを含む行をまるごと削除することができます。

```Python
import numpy as np

x = np.arange(24, dtype=float).reshape(3, 2, -1)
x[1, 1, 3] = np.nan
x[2, 1, 2] = np.nan
x[2, 1, 3] = np.nan

# x の内容
#[[[ 0.  1.  2.  3.]
#  [ 4.  5.  6.  7.]]
# [[ 8.  9. 10. 11.]
#  [12. 13. 14. nan]]
# [[16. 17. 18. 19.]
#  [20. 21. nan nan]]]

# 0次元方向で nan が存在する部分を削除
y0 = x[~np.isnan(x).any(axis=(1, 2)), :, :]
#[[[0. 1. 2. 3.]
#  [4. 5. 6. 7.]]]

# 1次元方向で nan が存在する部分を削除
y1 = x[:, ~np.isnan(x).any(axis=(2, 0)), :]
#[[[ 0.  1.  2.  3.]]
# [[ 8.  9. 10. 11.]]
# [[16. 17. 18. 19.]]]

# 2次元方向で nan が存在する部分を削除
y2 = x[:, :, ~np.isnan(x).any(axis=(0, 1))]
#[[[ 0.  1.]
#  [ 4.  5.]]
# [[ 8.  9.]
#  [12. 13.]]
# [[16. 17.]
#  [20. 21.]]]

```

前提・実現したいこと

tslearnを使った時系列データのk-means法によるクラスタリングのコード

試したこと

補足情報（FW/ツールのバージョンなど）環境

関連した質問