回答編集履歴
1
誤字修正
test
CHANGED
@@ -2,10 +2,10 @@
|
|
2
2
|
|
3
3
|
|
4
4
|
|
5
|
-
このアプローチの一番の問題は、学習用データの投票率が確定的なのかということです。今回は複数名のデータを用いているということなので、投票率は確率的なゆらぎ(同じ属性の人を同数集めても投票率は一定の確率で異なってくる)が生じます。よって一番の投票率のクラスと
|
5
|
+
このアプローチの一番の問題は、学習用データの投票率が確定的なのかということです。今回は複数名のデータを用いているということなので、投票率は確率的なゆらぎ(同じ属性の人を同数集めても投票率は一定の確率で異なってくる)が生じます。よって一番の投票率のクラスと次点のクラスの差が数%ぐらいだと確率的なゆらぎによって上下関係が変わってしまうので、バイナリに置き換えてしまうことは性能が出ないモデルになるリスクがあります。
|
6
6
|
|
7
7
|
こうした状況をうまくモデル化したいのであれば、投票率そのものを予測するモデルを構築したほうがいいかと思います。
|
8
8
|
|
9
|
-
アプローチ方法はいくつかあって、単純なものは質問に記載のようなラベルを投票率にした識別モデルにすることかと思います。もう少し凝ったものにしたいのであれば、
|
9
|
+
アプローチ方法はいくつかあって、単純なものは質問に記載のようなラベルを投票率にした識別モデルにすることかと思います。もう少し凝ったものにしたいのであれば、多項分布を仮定した統計モデルを組み入れる方法もあります。
|
10
10
|
|
11
11
|
実は、投票率=[0.3, 0.2, 0.5]という状況であっても10名を対象とした[3,2,5]が出現する確率と20名を対象とした[6,4,10]の出現する確率は異なります。これは後者の場合、[7,3,10]や[5,3,12]といった真の投票率と大体同じだが微妙に異なるケースが[6,4,10]と同じくらいの確率で出現するためで、こうした微妙の違うを確率的なゆらぎとして受け入れた上で真の投票率[0.3,0.2,0.5]の推計を可能とするものが統計モデルを組み入れた推計モデルです。
|