データが無い領域の算出アルゴリズムを募集

前提・実現したいこと

次の実験点を計算するアルゴリズムを模索しています。

以下のような実験データ(x1,x2が変数）が手元にあって、
まだデータが無い領域を次に実験する場合、
人間であれば(x1,x2) = (0.4,0.3)あたりを選択すると思います。

（データの範囲：0.00<=x<=1.00、データ区切り：0.01刻み　と仮定）

この次点の決定を機械的にやるにはどうすれば良いか？ということを検討しています。
やり方を考えた（試したこと参照）のですが、
他にもっと賢いやり方が世の中にはあるはず・・・と思い質問させて頂きました。

試したこと

※コードの実装はまだしていません。（pythonを予定）
①実験データに対して一番直径が大きい円を描ける点
②その他（これを募集しています）
（①はfor文で力技で書くしかない？）

補足情報（FW/ツールのバージョンなど）

実運用ではxは10次元ほどを想定しています。
良い方法ご存じでしたらご教示ください（ヒントでも十分です）。

データ（上の例）

	x1	x2
0	0.93	0.68
1	0.49	0.79
2	0.74	0.02
3	0.21	0.03
4	0.03	0.45
5	0.67	0.62
6	0.79	0.11
7	0.72	0.16
8	0.68	0.62
9	0.95	0.91
10	0.67	0.95
11	0.96	0.28
12	0.39	0.69
13	0.33	0.99
14	0.84	0.85
15	0.77	0.95
16	0.78	0.55
17	0.84	0.54
18	0.66	0.66
19	0.71	0.55

jbpb0

2021/05/17 05:16

ベイズ最適化は、いかがでしょうか？ https://book.mynavi.jp/manatee/detail/id=59393

ppaul

2021/05/17 07:44

結果の最適性と、検索プログラムの簡易性と、検索プログラムの処理速度の優先順位はどういう順番ですか？あと、最適な点を一つ見つけて、その次に最適な点を一つ見つける時のN点と、最適なN点を見つけるのでは結果が違いそうですが、前者なのですね。

hhiro45fd

2021/05/17 09:13

>jbpb0様コメントありがとうございます。予測値の標準偏差の大きさが最大の点で抽出、等のやり方をすればベイズ最適化でもできそうです。ただ、2点目以降を見つける場合は観測点が必須と思われるので、（実験→予測→実験・・・とできる系の場合はいけると思われます）その点は留意が必要かと思います。ちょっと計算してみます。

hhiro45fd

2021/05/17 09:21

>ppaul様コメントありがとうございます。 >優先順位 ①検索プログラムの簡易性>②結果の最適性>③検索プログラムの処理速度となります。 >最適な点を一つ見つけて・・・その点記載しておりませんでした。仰られます様に前者と考えておりました。ただ、N点を1回で調べたいとは考えております。（探索(1点)→実験→探索(1点)→・・・ではなく、探索(N点)→実験→実験・・・という感じです）

jbpb0

2021/05/17 10:39

> 2点目以降を見つける場合は観測点が必須と思われるので、（実験→予測→実験・・・とできる系の場合はいけると思われます） https://ohke.hateblo.jp/entry/2018/08/04/230000 の「kappa」を変えれば、同じ測定値のセットから異なる測定候補を作れるので、それでバリエーションを増やしてみたら、いかがでしょうか？ (分散最大点〜期待値最大点の間で、候補をN点作る)

fana

2021/05/18 00:34

> >優先順位 > ①検索プログラムの簡易性>②結果の最適性>③検索プログラムの処理速度既存データ群からの距離などに基づく(x1,x2)の「良さ」を適当に定義する →Nelderらの滑降シンプレックス法　あたりで適当に最適化をやる（処理は遅いけど，最適化処理であって，プログラムがすこぶる簡単，ということで．）

hhiro45fd

2021/05/19 05:24

>jbpb0様昨日苦しみながらとりあえず試してみました。ベイズについて理解が追い付いていない状態ですが・・・（苦笑やってみた感じですが、【良かった点】・UCBでkappaを弄ると、仰られるように良さげな候補が出てきました。【課題】・ベイズ最適化がうまいこと収束しないことが結構あるっぽい（カーネルの作り方に大きく依存するっぽい）・候補N点をどう出すかは頭をひねる必要がありそう（UCB最大から順番に候補点を出したら同じような位置ばっかり算出されました笑）【改善策】・UCBをわざわざ使わなくても、分散最大で獲得関数を定義すれば大丈夫っぽい・カーネルはRBFよりMatternのほうがよさげ・分散のてっぺんだけに候補Nを限定することで、同じような位置からの候補点の算出を防げそうな感じとなりました。結構いけそうです。もうちょっと弄ってみれば実用レベルにはなりそうです。良いアイディア教えていただきましてありがとうございました<(_ _)><(_ _)>

hhiro45fd

2021/05/19 05:34

>fana様コメントありがとうございます。距離ベースでも昨日作ってみました。「良さ」についてはアホみたいに簡単に定義（ここで書くのが恥ずかしいぐらい簡単です）をしましたが、結構うまく働いてくれました。私も最適化で実装できないかなーと初めは探っていたのですが、うまく定式化ができず、いったん手を止めてしまってます。（私が最適化ド素人というのが一番の問題でしょうが・・・）もしお時間ありましたら、定式化についてアドバイスいただけますと幸いです。ソルバーで解けてしまえば正直めちゃくちゃ楽になるなーとは思っています。

hhiro45fd

2021/05/19 06:02 編集

今のところのまとめ【ガウス過程を用いる方法】 ①テストレベルでは少々改善点があるが、実装可能を確認・分散最大で獲得関数を定義すれば大丈夫っぽい・カーネルはRBFよりMatternのほうがよさげ・分散のてっぺんだけに候補Nを限定する【データ間の距離を用いた方法】 ①テストレベルでは実装可能を確認・「良さ」の定義はかなりテキトウでも問題なし ②最適化を用いることができれば、もっと高精度高効率を狙える可能性もあり？【データ密度を用いた方法】 ※未実装

hhiro45fd

2021/05/19 06:12

皆様から色々と案を頂けましたので解決済にしましたが、他コメント等ありましたら追記を是非お願いいたします。

fana

2021/05/19 06:16 編集

> 「良さ」についてはアホみたいに簡単に定義結果の厳密さがそれほど重要でもなさそうに見えますから，最適化の目的関数としては「とにかく既存から離れているほど値が小さくなるような（傾向がある）何か」を与えれば用途的に十分なのではないでしょうか．例えば，２秒で考えたような目的関数「1.0 / (最も近い既存データからの距離+1)」とかでも目的に合うならOKでしょう．（プログラムが簡単という理由で挙げた滑降シンプレックス法とかを使うなら目的関数が微分可能でなくてもよいです．）

hhiro45fd

2021/05/19 07:13

>fana様たびたびコメントありがとうございます。コメントを読みなおして、自分のコードを改めて見直したら、最適化の定式化を気づかぬうちにやってました（失笑（目的関数を設定して、制約条件を設定して、最小化処理していました）今回の件で、最適化ということが教科書的にではなく、体感として少しわかった気がします。アドバイス頂きましてありがとうございました<(_ _)><(_ _)>

行動規範の内容に同意します

回答1件

ベストアンサー

10次元でやるということは、それぞれの軸の範囲を二等分すると全部で210 = 1024個の部分に分かれます。
それぞれの軸の範囲を四等分すると 410 = 1048576の部分に分かれます。
そう考えると、100個とか1000個の実験結果が分かっていても、やるべき場所の方がはるかに多いのではないでしょうか。
簡単に考えるなら、それぞれの軸の範囲を2等分して得られる1024個が尽くされていないならそこからやるので、そのために複雑な計算を行う必要は無いのではないかと思います。

また、hhiro45fdさんの画像のような二次元の場合であっても、次にやるべき場所が必ず(0.4,0.3)にならない場合もあることにご留意ください。
たとえば、これが地図の測量のような問題の場合、(0.4,0.3)の周りの高度にばらつきがなく起伏が少ない大平原であり、(0.8, 0.6)の近くの点にあたりは高度のばらつきが多くグランドキャニオンのような地形であるならば、そのあたりをもっと測量しなければならないということも考えられます。
これは実験の対象や目的次第ですのでhhiro45fdさんの実験では気にしなくて良いのでしょう。

投稿2021/05/18 12:11

ppaul

総合スコア24670

hhiro45fd

2021/05/19 05:52

回答ありがとうございます。前半については仰る通りかと思います。今回の話は「やるべき場所がはるかに多いこと」を具体的に理解するための手段のようなものと考えて頂ければと思います。「どの辺をまだ一番やっていないのか？、ほとんど全部やっていないのか？」それを人間が理解するための方法模索のような感じです。 2等分して・・・という方法は全く考えていませんでした。ちょっと考えてみます。良いアイディア教えていただきましてありがとうございました<(_ _)><(_ _)>

hhiro45fd

2021/05/19 07:47

今のところのまとめ【ガウス過程を用いる方法】 ①テストレベルでは少々改善点があるが、実装可能を確認・分散最大で獲得関数を定義すれば大丈夫っぽい・カーネルはRBFよりMatternのほうがよさげ・分散のてっぺんだけに候補Nを限定する【データ間の距離を用いた方法】 ①テストレベルでは実装可能を確認・「良さ」の定義はかなりテキトウでも問題なし・最適化計算の定式化に則れば、計算方法は自由自在【データ密度を用いた方法】 ※未実装

行動規範の内容に同意します