観測地点と観測値から局所的最大値を検出するには？

観測地の座標点（経度、緯度、高度）と観測値の4つのカラムが入ったCSVファイルを用いて観測値の局所的最大値検出を行いたいため、下記のような処理手順を考えました。

① 各点に対して全観測点とのユークリッド距離を算出する。
② 各点に対して最近傍点Ｎ個を抽出する。
③ 各点の観測値と最近傍点Ｎ個の観測値を比較する。
→　各点の観測値のほうが大きい場合は局所的最大値とする。

上記の方法で概ね検出はできているのですが、ハイパーパラメーターとなるＮと観測点の数の組み合わせによって検出される個数にブレがでるため、Ｎの指定なしでも精度よく検出できる方法を考えています。（「精度よく」が定義できていないのも問題なのは理解しています）

統計学的な手法を用いれば上手な検出方法もあるのではないかと考えているのですが、やはり閾値となるような値を指定しなければ判定が難しいものなのでしょうか？
また、統計学的にＮを指定する場合はどういった基準で値を選定しているのでしょうか？

fana

2021/06/04 01:45

> やはり閾値となるような値を指定しなければ判定が難しいものなのでしょうか？例えば↓のような一次元のデータ系列があったとして，【どれを「局所的最大値」と見なしたいのか？】というのは話次第だと思うんですよね． -1 0 0 -2 55 50 1070 650 300 311 298 270 273 105 60 404 32 4 5 3 1 1 -1 0 1 0 0 ... なので，その「話次第」な部分についてはどうしても「ハイパーパラメータ」的な要素が必要になるのではないでしょうか．

Ryoooful

2021/06/05 07:31

ありがとうございます。ご回答をいただき、改めて「そりゃそうだよなー」と思いました。やはり「局所的」を定義しなければなりませんよね。ご意見を伺って、少し冷静になったのもありますが、今回のデータ群の特性から観測値のMAX/MINから算出する方法もありかと思いました。もう一度、よりよい方法を探ってみたいと思います。

行動規範の内容に同意します

回答2件

ベストアンサー

Nよりも「ユークリッド距離」の側をパラメータとした方が
その決め方に一応の理由が付けられるような気がします．
（データの分布範囲の広さと「局所的」と考える広さの具合から考えることができるんじゃないかな，と）

投稿2021/06/04 01:30

fana

総合スコア11996

局所的最大値の定義次第ということになりますが、分析結果を他の人に説明するような要素が入るのであれば、あまり複雑な方法を使っても意味がないということになりそうです。

地図をグリッドで区切ってグリッドごとに最大値とかでは駄目ですか？

投稿2021/06/03 14:50

hayataka2049

総合スコア30935

Ryoooful

2021/06/05 07:45

ご回答ありがとうございます。 >分析結果を他の人に説明するような要素が入るのであれば、あまり複雑な方法を使っても意味がないということになりそうです。なるほど。今回、こういった統計処理をするのは初めてだったので参考になります。 >地図をグリッドで区切ってグリッドごとに最大値とかでは駄目ですか？こちらが提供する情報が不足していましたが、今回のデータでは観測点の距離が場合によって変化するので、グリッドの大きさを変更する必要がでてくるのでNと同様のことになってしまいます。 >局所的最大値の定義次第やはり、ここの定義が大事ですよね。もう少しいい方法を考えてみたいと思います。

行動規範の内容に同意します

あなたの回答