CTGANを用いてテーブルデータの水増し
CTGANを用いてテーブルデータの水増しを行おうと考えています.
ただ,データセットの説明変数間で複雑な依存関係があり,十分にリアルなデータとは言えないデータセットを生成している現状です.
そのため,Generatorに対して何か事前知識を与えることができないかどうか知りたいです.
一例ですが,「身長」の説明変数に対して,「リアルなデータは150cm-190cmの間である」などです.
もちろんGANで学習をする過程である程度実現できますが,
CTGANではおそらく正規分布のようなものにしたがって生成しているので110cmなどの人間にとっては違和感のあるデータを生成してしまいます.
試したこと
学習のEpoch数は増加させましたが,増やしても効果は見られませんでした.
補足情報(FW/ツールのバージョンなど)
ここにより詳細な情報を記載してください。
あなたの回答
tips
プレビュー