画像に関するパラメータの詳細が分かりません

前提

こちらのpythonライブラリを用いてHRNetの手法をベースとしたランドマーク検出を行いたいです。

https://github.com/HRNet/HRNet-Facial-Landmark-Detection

実際に300Wデータセットを用いて学習・テストができることを確認しました。

実現したいこと

300Wデータセットを自前のデータセットに置き換えて学習を行いたいです。

発生している問題

300Wデータセットのアノテーションファイルの中身を自前のデータセットに合わせて置き換えようと思うのですが、
分からないパラメータがあったので質問させていただきます。
image_nameは画像ファイルの名前、original_()x, original()_y, は各ランドマークの座標であることは分かりました。
ただ、scale, center_w, center_h が画像のどの情報のことなのかが分かりませんでした。

例えば afw/397921011_2.jpg は以下のような画像なのですが、画像サイズは1280×960(pixel)でした。

行動規範の内容に同意します

回答1件

ベストアンサー

以下が参考になるかと思います。
what is the mean of "center" and "scale" in face_landmarks_300w_test.csv

投稿2022/07/28 05:43

can110

総合スコア38268

S.S_Japan

2022/07/28 08:13

ご回答ありがとうございます。こちらのページをさっそく確認しました。 scale = max(w, h) / 200 center_w = (x1 + x2) / 2 center_h = (y1 + y2) / 2　を表しており、ここでの w,h は顔のバウンディングボックスの幅と高さ、 x1,y1は顔のバウンディングボックスの左上の座標、 x2,y2は顔のバウンディングボックスの右下の座標、ということだったのですね。

行動規範の内容に同意します