全体集合があってそれをn個の部分集合に分類する問題で、
部分集合の間に重複がなくて、すべての元がいずれかの部分集合に必ず属すると言えるのがクラス分類問題。
で、それらの部分集合のことをクラスと呼んでいる。
その部分集合が2個しかないのが2クラス問題
その部分集合が3個以上あるのが多クラス問題
部分集合の間に重複があったり、いずれの部分集合に属さない元があるのがラベリング問題。
つまり、「分類する問題」に2種類あって用語を分けている。
全体集合が動物なら、「犬」や「猫」がクラスになる
全体集合が犬なら、「ブルドッグ」「チワワ」「シーズ」「秋田犬」がクラスになる
全体集合が人間で、身分で分類しようという時、「会社員」でもあって「作家」でもあるみたいな人が出てくる。
これを重複を許さないように解こうと思ったらクラス分類問題になって、「会社員」や「作家」はクラスになる。
これを重複を許して解こうと思ったらラベリング問題になって、「会社員」や「作家」はラベルになる。
というのが私の理解です。
ただ、クラス分類問題でも「そのクラスが表現する意味内容」とか「そのクラスの意味内容を表現する呼称」の方を「ラベル」と呼ぶことは往々にしてあるように思います。
例えば映画の批評を分類する問題で、テキストと10段階評価が付いているデータがあるとしましょう。
この2つには相関があるはずだからテキストを見て評価を当てるクラス問題だと思って解くとします。
データを「10段階評価で5以上」と「10段階評価で5未満」の2つのクラスに分割してどちらに属するかを当てる2クラス分類問題として設定しました。
この時10段階評価で5以上のクラスを「ポジ」と、10段階評価で5未満のクラスを「ネガ」と呼んでいる場合、この「ポジ」とか「ネガ」という呼称を(そのクラスの)ラベルと言うことはあるんじゃないでしょうか。
これはクラスでこれはラベル、みたいな線引きを考えるのはおおむね不毛な気がします。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2018/11/28 09:51