機械学習に使用するデータの水増しについての質問です.
現在,数値データの5クラス分類問題を扱っているのですが,
共同研究先でデータが集まらず,数値データが不足しています.
また,時間もあまり残されていないため,追加のデータは期待できません.
1件あたりの数値データは,30種類の数値で構成されています.
現状では,クラス1が4件,クラス2が5件,クラス3が31件,クラス4が11件,クラス5が3件という状態で,クラス3以外の数値データを20件まで水増ししたいのです.
私が今行っている水増し方法は,各種類の数値データを,クラスごとの最小値と最大値の間で乱数を生成して水増ししています.
しかし,これでよいのか?不適切な方法なのではないか?という不安があります.
ただ,手元にあるデータだけ分類できても仕方がないため,どんなに無理矢理でも,不適切だと思う人がいても,どうしても水増しする必要があります.
ただの数値データの水増し方法はネットで調べても見つからなかったため,
より良い水増し方法をご存知の方がいらっしゃいましたら,教えていただきたく質問致しました.
何卒,よろしくお願い致します.
どのようなデータかが分からないので、知識がある人でも回答できないと思います。
1件分のデータの具体例は以下の通りです.これを水増ししたいです.
13.48783663
58.81150686
82.04052987
51.94475124
19.1562906
2.740684243
14.31484411
100.655042
0.204043822
7.84461774
4.02436036
1.77395333
3.276286506
8.335806085
34.94756552
6.20702032
35.16706373
2.541717554
2883.9286
13.80216374
17.34532145
71.20042926
21.15683751
13.59408447
231.9068157
270.9129745
6.312298275
11.32768327
20.13278989
0.991219312
お願い致します.

データが少ないですがヒストグラムを見る限り正規分布(を含め○○分布)するような感じではなさそうですね(無理やり言うなら自由度10のχ二乗分布のような形?)。もしこういう分布をしそうだ、とかが分かれば挙げてはいかがでしょうか?なければ一様分布扱いの乱数で増強でよさそうですが…
データの数値を上から数値1,数値2,数値3,...,数値30とすると,各クラスごとに各数値の上限と下限は,明確ではありませんが,ある程度決まっていそうなデータらしいです.(※あくまで予測)
しかし,その疑似的な上限と下限が分からないという状態です.
そのような場合,おそらくは数値ごとに正規分布になりそうということでしょうか?
また,その上限と下限が不明なため,どう扱うべきかもわからないのですが…

上記パラメータは数値1~30だったんですね、回答は長くなりそうなので正規回答欄にまとめます。

回答1件
あなたの回答
tips
プレビュー