GANを用いてテーブルデータの水増し
GANを用いてデータセットの水増しを行おうと考えています.
PythonのライブラリのCTGANを用いてデータの生成自体は上手くいっていますが,分類精度の向上には大きく変化がありません.
精度向上のために,以下のことを試しましたが上手くいっていないので,精度向上のために何かアドバイスがあれば幸いです.
予測のタスクとしては2値分類で,モデルはランダムフォレストを採用しています.
(GAN自体,データセットがある程度必要になると思うので,少量のデータセットの水増しを行うこと自体矛盾している気もしています..)
分類問題の内容と現状
予測のタスクとしては2値分類で,モデルはランダムフォレストを採用しています.
データセットは約1500あり,評価手法としては10分割交差検証を採用しています.
予測精度は73%程度で77%ぐらいまで精度があげれないかなと..
試したこと
- アンサンブル(スタッキング)
- Optunaを用いたチューニング
- 遺伝的アルゴリズムを用いた特徴量選択
- Epoch数の増加(10万回程度)
補足情報(FW/ツールのバージョンなど)
Python3.7, CTGANを現状使用しています.
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2020/09/07 10:28
2020/09/08 00:02