10×10のマインスイーパの座標データと、まだ未開封の1点の座標の中身(爆弾があるか、数字があるか)のデータの2つセットが10000個与えられて、それを機械学習したいです。
分類問題としてKNNで解こうと思ったのですが、特徴量をどうすればいいのか思いつきません。
特徴量を10×10の座標データとし、ラベルを未開封の座標のデータとその中身としてKNNを実行したのですが、再現度recallも精度precisionもほぼ0に近い値しか出せません。
流れとして実装したのは以下です。
訓練データはあらかじめ、未開封の座標データを代入したものを特徴量としました。
1.テストデータから1つ取り出し、座標のデータを特徴量にしラベルを未開封の座標データとその中身とする。
2. 1で作った個体と訓練データの個体とで特徴量の距離が近いものを5個選ぶ
3. その5個の特徴量(10×10の座標データ)の1のラベルで未開封の座標を見て、その座標が爆弾か未開封か安全かを確認する。
4. 5個のうち最も多い座標の種類をテストデータ1の予測ラベルとする。
5. 予測ラベルが実際の1のラベルとあっているかどうかでモデルの精度を確認する。
といった流れで行いました。
特徴量が10×10=100とかなり大きいし、未開封のマスも何らかの対処をしないと2の所で近い距離の座標データを選べていないのかなとおもいましたが、対処法が分かりません。
良い特徴量の設定の仕方と、テストデータと訓練データの良い比較のやり方を教えてほしいです。
自分もあまり理解しておらず読みにくい日本語で申し訳ありません。
回答1件
あなたの回答
tips
プレビュー