質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

0回答

487閲覧

ホールドアウト法におけるデータオーギュメンテーションの仕方

harug

総合スコア28

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

1クリップ

投稿2023/01/19 08:22

編集2023/01/19 09:09

前提

機械学習におけるデータ生成についてです。

0~24までのクラスがあり、各クラス
[67, 7, 13, 3, 42, 9, 34, 26, 18, 2, 32, 2, 14, 9, 54, 10, 2, 4, 3, 2, 4, 2, 5, 1, 2] (総数 367枚)
枚の画像(物体の輪郭内を白塗りした白黒画像)が含まれているとします。

今のところはこのうち
[54, 5, 9, 2, 34, 7, 27, 21, 15, 1, 26, 2, 12, 7, 44, 8, 2, 3, 2, 2, 3, 2, 4, 1, 2] (総数 295枚)
枚を訓練データとして手作業で分け使用しています。

質問内容

これを不均衡データとして、オーギュメンテーション(ぼかし)による水増しを行う場合、一般的にはどのように水増しを行うのでしょうか。

現在は訓練データを
[54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54, 54] (総数 1350枚)
として、全クラスで同じデータ数になるようにクラス内で水増しを行っています。

しかしこの場合、訓練データの総数は1350枚であるのに対しテストデータは水増ししないので、367 - 295 = 72枚 となり、テストデータが極端に少なくなってしまい、正当に評価できないという心配があります(ちなみに現在はこちらにデータを使用し、精度100%近く出ています)。

訓練データだけをオーギュメンテーションするため、これはしょうがない現象だと思うのですが、この水増しの仕方で本当に大丈夫なのかと思い質問させていただきました。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

can110

2023/01/19 08:34

ほかの質問も含めて「至急」をつけるとむしろ逆効果なので外した方がよいと思います。 (中間発表とかでしょうか)
harug

2023/01/19 08:45

やはりそうですか、ご指摘ありがとうございます。 中間発表間近で自分で調べても分からなかったので質問させていただいております。
can110

2023/01/19 08:58

質問すること自体はぜんぜんかまわないのですが いくつもたてると回答する側もちょっと「おっくう」になりがちですし 質問した側も回答へのレスポンスが大変です。 中間発表では現状の進捗と抱えている問題などをそのまま発表するのでいいかと思います。
harug

2023/01/19 09:11

おっしゃる通りですね。 しかしながら、この問題を解決しないことには発表できるような進捗も出せないような状況で困っています。
can110

2023/01/19 09:15

厳しい意見となりますが「今までなにをやってきたの?」といわれるでしょうね。 ぶっちゃけ中間発表は完璧に準備していたとしても厳しく突っ込まれたり怒られたりする場なので 発表後に指導教官に研究内容を変えること含め相談する手もあります。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだ回答がついていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問