回答編集履歴
1
微修正
test
CHANGED
@@ -10,7 +10,7 @@
|
|
10
10
|
|
11
11
|
これらは決まった手順で実行できますから、個体データをもとに手作業の計算で実現することもできます。しかし、データ量が多くなると手作業は大変です。コンピュータは、決まりきった手順を高速に、大量の計算でも疲れることなく実行してくれます。ですから、コンピュータにこういった作業をやらせるというのはいい考えです。
|
12
12
|
|
13
|
-
逆に言うと、**何をするかを人間がきちんと決めて教えてやらないと、コンピュータは意味のある結果を出しません**。コンピュータに手順を教える
|
13
|
+
逆に言うと、**何をするかを人間がきちんと決めて教えてやらないと、コンピュータは意味のある結果を出しません**。コンピュータは、自分が実行して出てくる結果になにか意味があるかどうかなんてわかってはいません。人間が、コンピュータに、意味のある結果を出せるような手順を教える必要があります。
|
14
14
|
|
15
15
|
SciPyのマニュアルで、前に述べた手順を実施できる関数は、次のものです。
|
16
16
|
|
@@ -23,7 +23,7 @@
|
|
23
23
|
あとはマニュアルのそれぞれの箇所を読んでいただければわかると思いますが、簡単に説明します。
|
24
24
|
|
25
25
|
- pdist()では`metric`引数の初期値は`'euclidean'`です。ご質問のコードでは、距離行列の距離尺度にユークリッド距離を用いていることになります。
|
26
|
-
- linkage()では、`method`引数の初期値は`'single'`です。マニュアルの説明を見ると、これは最近隣法 (
|
26
|
+
- linkage()では、`method`引数の初期値は`'single'`です。マニュアルの説明を見ると、これは最近隣法 (単連結法) であると考えられます。ご質問のコードで、たとえばウォード法を用いたいのであれば、`method='ward'`のように引数で指定する必要があります。
|
27
27
|
- dendrogram()では、`color_threshold`引数の初期値は`None`で、これは`0.7*max(Z[:,2])`のように計算される値をクラスタ化の閾値とします。「クラスタ化の閾値」という言葉があるのかどうか知りませんが、マニュアルで次のように説明している値です。
|
28
28
|
|
29
29
|
> For brevity, let ****t**** be the `color_threshold`. Colors all the descendent links below a cluster node ****k**** the same color if ****k**** is the first node below the cut threshold ****t****. All links connecting nodes with distances greater than or equal to the threshold are colored blue.
|