前提・実現したいこと
2値分類において,予測する確率が最も良い2値分類アルゴリズムを教えてください.
一般的な2値分類
一般的な2値分類では正解ラベルに「0」と「1」が割り当てられており,学習モデルが入力データに対する2値の予測値を確率0%~100%で算出します.
そして,算出された確率を見て「50%以上ならば1」「50%未満ならば0」というように分類し,初めて2値分類をするモデルが完成します.
さらに評価の段階では,0と予測した回数と1と予測した回数を集計し,混同行列から正解率を導き出すという流れになっています.
ここでの2値分類
ここでの2値分類は上記で示した一般的な2値分類とほとんど同じですが,異なる点は注目するポイントが予測する「確率」である点です.
例を挙げます.
example
1前提: 2・学習データを学習したモデルAがあり,これからテストデータを用いて評価する段階. 3 4テストデータ全体を通してモデルAが「1である確率は30%」と予測した回数が「100回」あったとします. 5このとき,【モデルが30%と予測したうち】正解ラベルが「1」である回数は「26回」でした. 6すなわち,このモデルAが予測する30%という数値の精度は 26/100=26% ということになります.
この例では,モデルAは「30%」と予測しているにも関わらず,【モデルが30%と予測したうち】の「1」の割合を見ると「26%」となり,30%という予測としては精度が良くない(本当はより30%に近い値が良い)と言えます.
実現したいこと
上記のように,同じ2値分類でも予測した確率を「0」と「1」に丸めて混同行列で評価するのとは違い,予測した確率の確率を計算して評価したいと考えています.
このような評価方法において,最も精度が良くなる2値分類は何でしょうか.
あなたの回答
tips
プレビュー