🎄teratailクリスマスプレゼントキャンペーン2024🎄』開催中!

\teratail特別グッズやAmazonギフトカード最大2,000円分が当たる!/

詳細はこちら
Keras

Kerasは、TheanoやTensorFlow/CNTK対応のラッパーライブラリです。DeepLearningの数学的部分を短いコードでネットワークとして表現することが可能。DeepLearningの最新手法を迅速に試すことができます。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

解決済

1回答

707閲覧

Kerasでのディープラーニングでのdata水増しについて

gaia2rd

総合スコア11

Keras

Kerasは、TheanoやTensorFlow/CNTK対応のラッパーライブラリです。DeepLearningの数学的部分を短いコードでネットワークとして表現することが可能。DeepLearningの最新手法を迅速に試すことができます。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

0グッド

0クリップ

投稿2019/10/24 13:20

機械学習初心者です。

Titanic生存dataのような目的変数が0 or 1の自分のdataset(csvファイル)に対して、Kerasでディープラーニング(sequential model)を実装して予測を行いました。
サンプル数300くらいのdatasetなのですが、これを単純に4倍にコピーして解析を行うとaccuracyがはねあがりました。

画像のdatasetだとぼかしたり細工を加えてdataを水増しする手法があるようですが、このようなcsvファイルのdataでもこのような手法が許されるのでしょうか?

このような一般論で申し訳ありません。ご教示いただけますと幸いです。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

単純にデータをコピーして水増しした場合、データセットに同じデータが複数含まれることになります。
(今回の例だと四つ同じデータがあることになる)

これを訓練データとテストデータの分割の際にランダムに分けると、訓練データとテストデータに同じデータが含まれることになり、正解率が跳ね上がったように見えますが、訓練時に見たデータを暗記しているだけで、新しいデータへの汎化性能は正確に測れていないことになります。

テーブルデータでも、SMOTEなどのデータ水増し手法が存在しますが、水増ししたデータは訓練のみに用い、評価用データは本来モデルにより予測を行いたいデータ(水増しデータは含めない)にする必要があります。

投稿2019/10/24 13:30

nouken

総合スコア369

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

gaia2rd

2019/10/24 13:50

さっそくの回答ありがとうございましt。SMOTE勉強してみます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.36%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問