質問するログイン新規登録
機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Q&A

解決済

1回答

5031閲覧

機械学習に使用する数値データの水増しについての質問です.

nanahoshi_0

総合スコア5

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

0グッド

0クリップ

投稿2020/01/28 09:12

0

0

機械学習に使用するデータの水増しについての質問です.

現在,数値データの5クラス分類問題を扱っているのですが,
共同研究先でデータが集まらず,数値データが不足しています.
また,時間もあまり残されていないため,追加のデータは期待できません.

1件あたりの数値データは,30種類の数値で構成されています.
現状では,クラス1が4件,クラス2が5件,クラス3が31件,クラス4が11件,クラス5が3件という状態で,クラス3以外の数値データを20件まで水増ししたいのです.

私が今行っている水増し方法は,各種類の数値データを,クラスごとの最小値と最大値の間で乱数を生成して水増ししています.
しかし,これでよいのか?不適切な方法なのではないか?という不安があります.
ただ,手元にあるデータだけ分類できても仕方がないため,どんなに無理矢理でも,不適切だと思う人がいても,どうしても水増しする必要があります.

ただの数値データの水増し方法はネットで調べても見つからなかったため,
より良い水増し方法をご存知の方がいらっしゃいましたら,教えていただきたく質問致しました.
何卒,よろしくお願い致します.

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

fiveHundred

2020/01/28 12:58

どのようなデータかが分からないので、知識がある人でも回答できないと思います。
nanahoshi_0

2020/01/28 16:15 編集

1件分のデータの具体例は以下の通りです.これを水増ししたいです. 13.48783663 58.81150686 82.04052987 51.94475124 19.1562906 2.740684243 14.31484411 100.655042 0.204043822 7.84461774 4.02436036 1.77395333 3.276286506 8.335806085 34.94756552 6.20702032 35.16706373 2.541717554 2883.9286 13.80216374 17.34532145 71.20042926 21.15683751 13.59408447 231.9068157 270.9129745 6.312298275 11.32768327 20.13278989 0.991219312 お願い致します.
退会済みユーザー

退会済みユーザー

2020/01/28 21:48 編集

データが少ないですがヒストグラムを見る限り正規分布(を含め○○分布)するような感じではなさそうですね(無理やり言うなら自由度10のχ二乗分布のような形?)。もしこういう分布をしそうだ、とかが分かれば挙げてはいかがでしょうか?なければ一様分布扱いの乱数で増強でよさそうですが…
nanahoshi_0

2020/01/29 08:44

データの数値を上から数値1,数値2,数値3,...,数値30とすると,各クラスごとに各数値の上限と下限は,明確ではありませんが,ある程度決まっていそうなデータらしいです.(※あくまで予測) しかし,その疑似的な上限と下限が分からないという状態です. そのような場合,おそらくは数値ごとに正規分布になりそうということでしょうか? また,その上限と下限が不明なため,どう扱うべきかもわからないのですが…
退会済みユーザー

退会済みユーザー

2020/01/29 10:14

上記パラメータは数値1~30だったんですね、回答は長くなりそうなので正規回答欄にまとめます。
guest

回答1

0

ベストアンサー

n数が少ないなりにいくらかデータがあるとのことですので、まずはデータをエクセルの表に入れて、以下のようなまとめ方をしてはいかがでしょうか?

|項目|n=1|n=2|...|平均|標準偏差|最大|最小|
|:--|:--:|:--:|:--:|
|項目1|||||
|項目2|||||
|項目3|||||
|...|||||
|項目30|||||

このあとやることは、項目ごとに(最大-最小)/10くらいのピッチでヒストグラムを作成します。これをエクセルの棒グラフで見れば、どういう分布に似ているかそれなりにわかるはずです。

一様分布っぽい:エクセルのRAND()の値を最大~最小に散るように小細工
正規分布っぽい:エクセルのNORMINV(RAND(), 平均, 標準偏差)の要領で小細工
二峰性分布っぽい:データを適当に仕分けて正規分布を二つ作成するようにして、確率でどちらかに振る

細かいことを言えば、限られたn数で得られた標準偏差は不当に小さくなるはずなので、余裕があるようでしたらそれっぽい情報を調べて少し上積みしたらよいと思います。


何にせよ、もう重々承知かと思いますが、このようなやり方をしてしまうと後から本当の値とやむを得ず水増しした値と区別が全くつかない状態が生じます。このデータを元に後から判断する人や話をする人にやむを得ずこうしました、という旨をよく説明してください。でないと次からデータを出すときに「本当に?」と疑われてしまいますので…

また、データを10倍に水増しするより、n数を1つでもコツコツ増やした方が価値があると思いますので、次回はもう少し時間(計画)に余裕があると良いと思います。

投稿2020/01/29 10:27

退会済みユーザー

退会済みユーザー

総合スコア0

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

nanahoshi_0

2020/01/29 11:07

丁寧な回答をありがとうございます. 私が現状行っているのが一様分布を仮定した水増しとなっており,各クラスごとに数値間に相関がある可能性が高く,そのためクラスごとに水増しをする必要がありましたので,今の方法を少し改良する方向に進んでいこうかと思います.
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.30%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問