とある測定器で計測したデータ二乗誤差が最小になる補正係数を計算したい

###実現したいこと
とある測定器で計測したデータ二乗誤差が最小になる補正係数を計算したい

発生している問題

過去にある測定器(以下、Aとする)で測ったデータがあるのですが、測定器のメーカーも型式もわからず困っており、別の測定器(以下、Bとする)で計り直すことになりました。
BでAの測定結果を再現したいのですが、Bの補正係数をAのデータとBのデータの二乗誤差が最小になる係数にしたいです。
最小二乗法を使えば良いのだと思うのですが、線形代数の知識が無く、どのような式にすれば良いのかがわかりません

試したこと

Aのデータ
補正係数がわからない

AAA	BBB	CCC	DDD
0.131743	0.095074	0.051753	0.162071

Bのデータ
補正係数を0.01ずつ加算して測定してみました

補正係数	AAA	BBB	CCC	DDD
0.01	0.020424	0.020402	0.020310	0.020221
0.02	0.020849	0.020804	0.020620	0.020443
0.03	0.021273	0.021206	0.020929	0.020664
0.04	0.021698	0.021608	0.021239	0.020886
0.05	0.022122	0.022009	0.021549	0.021107
0.06	0.022547	0.022411	0.021859	0.021329
0.07	0.022971	0.022813	0.022169	0.021550
0.08	0.023396	0.023215	0.022479	0.021772
0.09	0.023820	0.023617	0.022788	0.021993
0.10	0.024245	0.024019	0.023098	0.022215

fana様

ご回答ありがとうございます。
補正係数を1～10で測定し直してみました

補正係数	a_1	a_2	a_3	a_4
1	0.062445464	0.060188665	0.050982791	0.042145451
2	0.104890929	0.100377329	0.081965581	0.064290903
3	0.147336393	0.140565994	0.112948372	0.086436354
4	0.189781857	0.180754659	0.143931163	0.108581805
5	0.232227321	0.220943323	0.174913953	0.130727256
6	0.274672786	0.261131988	0.205896744	0.152872708
7	0.31711825	0.301320653	0.236879535	0.175018159
8	0.359563714	0.341509317	0.267862326	0.19716361
9	0.402009178	0.381697982	0.298845116	0.219309062
10	0.444454643	0.421886647	0.329827907	0.241454513

単純なy=ax+bの補正モデルのようです。

補足情報（FW/ツールのバージョンなど）

Win10
VSCode
Python3.9.1
pandas1.1.5

toast-uz

2021/02/08 22:28

「平均二乗誤差」という言葉で検索して、 https://aidemy.net/courses/5090/exercises/BJJvch8iIlG などで勉強してみるとよいです。

tiitoi

2021/02/09 01:46 編集

最小二乗法は関係ないのでは? ちなみに機器Aと機器Bで測っている項目の定義、算出方法は同じなのでしょうか？名前がBBBと同じものであっても、2つの機器でその項目の定義、算出方法が異なるのであれば、そもそもBの機器でAの機器の値を再現するのが無理という話になるので、メーカーに問い合わせるなどして情報を集めたほうがいいと思います。

Yukkunn0624

2021/02/09 06:46

>>toast-uz様ありがとうございます、参考にさせて頂きます。 >> tiitoi様 Aの機器については測定結果しか残っておらず、メーカー、型式すべて不明です。申し訳ございませんが、あまり詳しい内容を書くことが出来ないのですが、計測自体は単純な物になるので算出方法等は間違っていないはずです今回Aの測定結果で動いている工作機のキャリブレーションを行うに当り、新たに測定し直すことになったのですが、影響を最小限にしたいので最小二乗法で算出した補正係数を使うという結論に至りました。

fana

2021/02/09 07:41

コレ， AAA～DDDのそれぞれに異なる補正係数値を求めるという話でしょうか？それとも AAA～DDDの全てに単一の補正係数値を用いるという話でしょうか？（回答のコメントにも書きましたが，後者だとしたら，４つ全てをそこそこいい感じに合わせる単一の補正係数というのがなさそうに見えます．）

Yukkunn0624

2021/02/09 09:21

>> fana様単一の補正係数ですおっしゃる通りこの方法が妥当かどうかは別途検討する必要があると考えております

fana

2021/02/09 09:41

測定器Aによる測定値aと，測定器Bによる測定値bとの間の射像（変換する関数） b = f(a) が存在するのだとして，この関数fの形を前提知識から仮定できないと無理そう．

行動規範の内容に同意します

回答1件

ベストアンサー

どのような式にすれば良いのかがわかりません

"AAA"とかだと書くのがだるいので，以下，記号を変えて書く．

測定器Aによる測定データ(AAA～DDD)を { a_1, a_2, a_3, a_4 }，
補正係数をkとするときの測定器Bによる測定値を，{ b_1(k), b_2(k), b_3(k), b_4(k) } と書くことにしよう．

単純に考えれば（４種のデータの重要性に差が無いなら），
E(k) = Σ{ ( a_i - b_i(k))^2 }
を最小化するkを求める話と見える．

４つの関数 b_i(k) をあらかじめ測定値から推定する必要があるだろう．

質問内の表に示された範囲だけ見ると線形に見えるが，
この表に示されている測定値は，測定器Aによる測定データa_iとは値が離れすぎているので，この表の値だけで b_i(k) を推定するべきではない．
もっと広い（a_i の値を含むような）範囲の測定データを収集すべきだろう．

追記されたデータを見るに，どうやら単純に補正係数kだけ調整すればいけるという話では無いように見える．
（データが本当に４個しかないのか，実際にはもっとあるのかはわからないけれども）測定器Aによるi番目の測定データa_iと，それに対応する測定器Bによる測定データb_i(k)との間に，ある関係式

f( a_i; p ) = b_i(k)
（ここで，p は関数fのパラメタ群．）

を仮定し，誤差評価関数

E(k, p) = Σ{ ( f(a_i, p) - b_i(k) )^2 }

を最小化する｛k, p｝を見つけるような話になるのかもしれない．

もしも前提知識から f() のもっともらしい形が仮定できるならば，それでやってみると良いかと．
f()が全く想像もつかないとかいう場合，とりあえずf()をa_iの1次関数としてやってみる→満足いく結果が得られないなら2次関数にしてやってみる→ダメなら3次…　という感じでf()の次数を増やしていく　という方法が考えられるかもしれない．

投稿2021/02/09 01:27

編集2021/02/09 09:59

fana

総合スコア11996

fana

2021/02/09 07:35

（こっちがデータを使うわけじゃないので，具体測定値までを示す必要はないかと思いますが）線形だと分かったならば，あとは補正値を適切に決めればよいでしょう．

fana

2021/02/09 07:38 編集

でも，４つ全てがそこそこ合いそうな単一の補正係数値というのがなさそうにも見える… （→やろうとしていること自体が妥当かどうかは別途考える必要があるかも？）

Yukkunn0624

2021/02/15 02:11

fana様ありがとうございました。検証中ではありますが、ご教示いただいた方法でうまくいきそうです。

fana

2021/02/15 02:32

背景事情はわかりませんが， > 工作機のキャリブレーションとのことですから，とにかく慎重に判断されると良いかと．念のため，以下を述べておきます．この手の「あてはめ」は，データ数が少なすぎると有用な結果を生みにくいです．データの個数に対して自由度が高すぎるモデル式を当てはめてもオーバーフィッティングしただけの結果を得ることになりますので，注意が必要です．本当にデータが数個とかしか存在しないならば，そもそも実用上無理な話となるかもしれません．また，当てはめ計算に用いたデータの存在範囲外に対して，あてはめ結果を用いること（補外的な使い方）は避けるべきです．

行動規範の内容に同意します