Synthetic datasetsについて

Question

**Synthetic datasets**
Our generated datasets are semi-spherical　shaped, in two dimensions. 
This dataset was generated randomly using visual basic code. Fig.11 shows a　sample of them. 

![イメージ説明](973999ba4cb436d66ba185cc9f742c50.png)


論文の中に、上記の記述があり、なぜ作られたデータセットが半球状なのか、どのようにしてデータセットは作られたのかがわかりません。また、Fig.11が何を表していて、横軸と縦軸は何なのかもわかりません。

google scholarなどを利用し、調べたのですが答えが見つかりませんでした。
以下、論文のリンクを添付させていただきます。宜しくお願い致します。

[リンク内容](https://www.researchgate.net/publication/226683377_Efficient_enhanced_k-means_clustering_algorithm)

Accepted Answer

> 論文の中に、上記の記述があり、なぜ作られたデータセットが半球状なのか、どのようにしてデータセットは作られたのかがわかりません。
> また、Fig.11が何を表していて、横軸と縦軸は何なのかもわかりません。

論文の趣旨が「k-mean を改良したアルゴリズムの提案」なので、そのアルゴリズムの性能を人工的に (Synthetic) 作ったデータで評価しましたという話でこのデータセットに特に深い意味はないと思います。
このようなデータセットを作った意図としては、適切にクラスタリングするのがそれなりに難しいデータを用意して、論文で提案している手法で既存よりうまくクラスタリングできることをアピールするためです。

データの特徴を見てみると、2次元空間上に格子状にクラスタが配置されており、各クラスタは半球状に分布する点で構成されています。
クラスタが沢山あって、点が半球状に偏っているので、k平均法でクラスタリングするのが難しそうだなという印象を受けます。

具体的にどのように生成したかはソースコードが公開されていない以上わかりません。
どうしても必要なのであれば、論文作者のメールアドレスが書いてあるので、メールで問い合わせてください。

## 追記

> ・Fig.11で見えている格子状の点はそれぞれがクラスタという認識でよろしいのでしょうか。

格子状の赤○が1つのクラスタなのではないかと思います。(面倒なので、途中までしか○つけていません。)

![イメージ説明](7261e69d4f97f21d316e3edac1e0908a.png)

> Fig.11の縦軸と横軸の数字は何を表しているのでしょうか。

2次元上の点の座標値です。

> ・Fig.12ではFig.11のSynthetic datasetsをどう利用して横軸の値を変化させたのでしょうか。

Synthetic datasets の点の数を変化させたときのアルゴリズムの実行時間を見ているのだと思います。
データセットはプログラムで生成しているので、点の数を変えたりもできそうですね。