Kerasでのディープラーニングでのdata水増しについて

機械学習初心者です。

Titanic生存dataのような目的変数が0 or 1の自分のdataset（csvファイル）に対して、Kerasでディープラーニング（sequential model）を実装して予測を行いました。
サンプル数300くらいのdatasetなのですが、これを単純に4倍にコピーして解析を行うとaccuracyがはねあがりました。

画像のdatasetだとぼかしたり細工を加えてdataを水増しする手法があるようですが、このようなcsvファイルのdataでもこのような手法が許されるのでしょうか？

このような一般論で申し訳ありません。ご教示いただけますと幸いです。

行動規範の内容に同意します

回答1件

ベストアンサー

単純にデータをコピーして水増しした場合、データセットに同じデータが複数含まれることになります。
（今回の例だと四つ同じデータがあることになる）

これを訓練データとテストデータの分割の際にランダムに分けると、訓練データとテストデータに同じデータが含まれることになり、正解率が跳ね上がったように見えますが、訓練時に見たデータを暗記しているだけで、新しいデータへの汎化性能は正確に測れていないことになります。

テーブルデータでも、SMOTEなどのデータ水増し手法が存在しますが、水増ししたデータは訓練のみに用い、評価用データは本来モデルにより予測を行いたいデータ（水増しデータは含めない）にする必要があります。

投稿2019/10/24 13:30

nouken

総合スコア369

gaia2rd

2019/10/24 13:50

さっそくの回答ありがとうございましt。SMOTE勉強してみます。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.36%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

『🎄teratailクリスマスプレゼントキャンペーン2024🎄』開催中！

＼teratail特別グッズやAmazonギフトカード最大2,000円分が当たる！／

Kerasでのディープラーニングでのdata水増しについて

関連した質問