回答編集履歴

一部修正

2021/09/26 02:01

投稿

toast-uz

スコア3266

answer CHANGED Viewed

@@ -6,4 +6,6 @@
 0. 質問者様がスケールをlogから修正する際に、底を2にしていますが、e（自然対数の底）を使うことが正しいです。
-なお、分類問題の出力を「確率」と解釈するのは注意したほうがよいです。正解ラベル（0または1）に近い推論ができるように学習されただけで、確率的な意味を持つものではありません。
+なお、分類問題の出力を「確率」と解釈するのは注意したほうがよいです。正解ラベル（0または1）に近い推論ができるように学習されただけで、確率的な意味を持つものではありません。
+（元記事を実際に動かしてみましたが、特に、1と3は、jbpb0様のコメントをヒントに、気が付きました）

間違った回答の修正

2021/09/26 02:01

投稿

toast-uz

スコア3266

answer CHANGED Viewed

@@ -1,11 +1,9 @@
-**分類問題の出力は「確率」ではありません。**0や1といった分類正解ラベルに対して、学習や推論で正解ラベルに近い0〜1の値を出力するだけで、そこに「確率」という意味はありません。また、Softmaxは任意の実数を強制的に0〜1に連続的に変換するものです。
+3つ間違いがあります。2つは参照している記事の間違い、1つは質問者様の間違いです。
-今回、質問者様が勘違いされているのは、出力を確率と解釈してしまっていることと、二値分類であるにも関わらず出力を2次元としていることです。クラス0とクラス1それぞれで、Softmaxの結果0〜1の推論値を得ているだけで、そこには確率という意味はありませんので、合計値が=1になる保証はありません。
+0. 記事では、log_sofmaxをdim=0で適用していまが、dim=1が正しいです。こうすることで、多値分類の分類クラス方向に正規化がされた値になります。
-なお、あえて「確率もどき」な解釈をすると、クラス0だと機械学習が考える「確率もどき」と、クラス1だと機械学習が考える「確率もどき」は、互いに関連なく別々の判断である、ということです。すなわち、「クラス0か、と言われるとそのようにも感じるし、クラス1だとも思える・・・」みたいな判断結果もありえる、と解釈するとよいと思います。
+0. これは質問とは直接関係ありませんが、記事では予めデータの標準化がされていません。そのため、精度が悪くなってしまっています。標準化をしてから学習すれば、かなり精度があがります。
-解決法は3つあります。
+0. 質問者様がスケールをlogから修正する際に、底を2にしていますが、e（自然対数の底）を使うことが正しいです。
-0. 確率という意味は考えず、出力の大きい方を正解と採用する。引用されているブログ筆者の考え方ですし、通常の多値分類の取り扱い方でもあります。
+なお、分類問題の出力を「確率」と解釈するのは注意したほうがよいです。正解ラベル（0または1）に近い推論ができるように学習されただけで、確率的な意味を持つものではありません。
-0. 二値分類の基本的なやり方に従い、出力は1次元として、どちらか片方、例えばクラス0側の「確率もどき」であると解釈する。その場合、クラス1の「確率もどき」は、1-出力 です。今回の結果に適用すると、正解率がかなり下がるかもしれませんが、それはモデルがよくないからです。
-0. まったく意味はありませんが、モデルの最終層（Softmaxの次）でL1-normを1にするように正規化する、という方法もありえます。

一部修正

2021/09/26 01:52

投稿

toast-uz

スコア3266

answer CHANGED Viewed

@@ -1,6 +1,6 @@
 **分類問題の出力は「確率」ではありません。**0や1といった分類正解ラベルに対して、学習や推論で正解ラベルに近い0〜1の値を出力するだけで、そこに「確率」という意味はありません。また、Softmaxは任意の実数を強制的に0〜1に連続的に変換するものです。
-今回、質問者様が勘違いされているのは、出力を確率と勘違いされていることと、二値分類であるにも関わらず出力を2次元としていることです。クラス0とクラス1それぞれで、Softmaxの結果0〜1の推論値を得ているだけで、そこには確率という意味はありませんので、合計値が=1になる保証はありません。
+今回、質問者様が勘違いされているのは、出力を確率と解釈してしまっていることと、二値分類であるにも関わらず出力を2次元としていることです。クラス0とクラス1それぞれで、Softmaxの結果0〜1の推論値を得ているだけで、そこには確率という意味はありませんので、合計値が=1になる保証はありません。
 なお、あえて「確率もどき」な解釈をすると、クラス0だと機械学習が考える「確率もどき」と、クラス1だと機械学習が考える「確率もどき」は、互いに関連なく別々の判断である、ということです。すなわち、「クラス0か、と言われるとそのようにも感じるし、クラス1だとも思える・・・」みたいな判断結果もありえる、と解釈するとよいと思います。

一部修正

2021/09/25 23:29

投稿

toast-uz

スコア3266

answer CHANGED Viewed

@@ -2,7 +2,10 @@
 今回、質問者様が勘違いされているのは、出力を確率と勘違いされていることと、二値分類であるにも関わらず出力を2次元としていることです。クラス0とクラス1それぞれで、Softmaxの結果0〜1の推論値を得ているだけで、そこには確率という意味はありませんので、合計値が=1になる保証はありません。
-解決法は2つあります。
+なお、あえて「確率もどき」な解釈をすると、クラス0だと機械学習が考える「確率もどき」と、クラス1だと機械学習が考える「確率もどき」は、互いに関連なく別々の判断である、ということです。すなわち、「クラス0か、と言われるとそのようにも感じるし、クラス1だとも思える・・・」みたいな判断結果もありえる、と解釈するとよいと思います。
+解決法は3つあります。
 0. 確率という意味は考えず、出力の大きい方を正解と採用する。引用されているブログ筆者の考え方ですし、通常の多値分類の取り扱い方でもあります。
-0. 二値分類の基本的なやり方に従い、出力は1次元として、どちらか片方、例えばクラス0側の「確率もどき」であると解釈する。その場合、クラス1の「確率もどき」は、1-出力 です。今回の結果に適用すると、正解率がかなり下がるかもしれませんが、それはモデルがよくないからです。
+0. 二値分類の基本的なやり方に従い、出力は1次元として、どちらか片方、例えばクラス0側の「確率もどき」であると解釈する。その場合、クラス1の「確率もどき」は、1-出力 です。今回の結果に適用すると、正解率がかなり下がるかもしれませんが、それはモデルがよくないからです。
+0. まったく意味はありませんが、モデルの最終層（Softmaxの次）でL1-normを1にするように正規化する、という方法もありえます。

一部修正

2021/09/25 23:24

投稿

toast-uz

スコア3266

answer CHANGED Viewed

@@ -4,5 +4,5 @@
 解決法は2つあります。
-0. 確率という意味は考えず、出力の大きい方を正解と採用する（引用されているブログ筆者の考え方）
+0. 確率という意味は考えず、出力の大きい方を正解と採用する。引用されているブログ筆者の考え方ですし、通常の多値分類の取り扱い方でもあります。
 0. 二値分類の基本的なやり方に従い、出力は1次元として、どちらか片方、例えばクラス0側の「確率もどき」であると解釈する。その場合、クラス1の「確率もどき」は、1-出力 です。今回の結果に適用すると、正解率がかなり下がるかもしれませんが、それはモデルがよくないからです。

一部修正

2021/09/25 23:15

投稿

toast-uz

スコア3266

answer CHANGED Viewed

@@ -2,8 +2,7 @@
 今回、質問者様が勘違いされているのは、出力を確率と勘違いされていることと、二値分類であるにも関わらず出力を2次元としていることです。クラス0とクラス1それぞれで、Softmaxの結果0〜1の推論値を得ているだけで、そこには確率という意味はありませんので、合計値が=1になる保証はありません。
-解決法は3つあります。
+解決法は2つあります。
 0. 確率という意味は考えず、出力の大きい方を正解と採用する（引用されているブログ筆者の考え方）
-0. 二値分類の基本的なやり方に従い、出力は1次元として、どちらか片方、例えばクラス0側の「確率もどき」であると解釈する。その場合、クラス1の「確率もどき」は、1-出力 です。今回の結果に適用すると、正解率がかなり下がるかもしれませんが、それはモデルがよくないからです。
+0. 二値分類の基本的なやり方に従い、出力は1次元として、どちらか片方、例えばクラス0側の「確率もどき」であると解釈する。その場合、クラス1の「確率もどき」は、1-出力 です。今回の結果に適用すると、正解率がかなり下がるかもしれませんが、それはモデルがよくないからです。
-0. 多値分類を2次元に適用して、出力は2次元とするが、多値分類のロス関数であるBCELossを使う。BCELossは、各次元の合計を=1にするようにスケーリングしてくれるだけで、「確率」を求めるものではないことに注意してください。なお、PyTorchでは、Softmax層とBCELossを統合して、BCEWithLogitsLossを使うことを推奨されています。