機械学習において配列の長さを変える方法

一次元配列の長さが20万の配列について、長さを変えるやり方は御座いますでしょうか？
やりたいこととしては、ある入力の値に対して一つの値を得たいです。

この配列は実質的にはほとんどが0なので、当初はスクラッチで該当の場所のみ更新をするようにしていましたが、
データ数が1000とか10000になると段々学習がうまくいかなくなってきました。

そこでscikit-learnを使おうと思ったのですが、自分はこのscikit-learnを使うのが初めてでとりあえずモデルはニューラルネットワークを選択しました。
そしてこのニューラルネットワークに入れるためのデータを作ろうとしたのですが、なにぶん配列の長さが20万なので（ちなみにこれは20万次元というのでしょうか？）データ数が20000を超えたところでメモリエラーが起きてしまいました。

これの解決策として自分が今考えているのは
配列を10個くらいで区切ってそれぞれに対して4進数を入れてしまう。（入力の最大が４なので）

または段階的に学習することができるのであれば、そのようにすることも考えたいです。
機械学習初心者なので、お手柔らかに教えて頂きたいです。宜しくお願い致します。

meg_

2021/04/06 01:58

> データ数が20000を超えたところでメモリエラーが起きてしまいました。一度に学習するデータ数を調整すれば良さそうですが、そちらは検討されましたか？ ※問題はメモリエラーなのですよね？

jbpb0

2021/04/06 08:54

こういう方法もあります https://techeten.xyz/1004/ 質問の意味を読み違えていたら、すみません

toast-uz

2021/04/06 09:39

Sparseが答えのように思いますが、20万行の配列（×8バイトで2メガ未満）でメモリエラーというのは、使い方に課題があるように思います。もっと具体的にエラーとなるコードを提示ください。

babbleman

2021/04/06 10:51

回答していただきありがとうございます。 Sparse表現というものがあるのですね。初めて知りました。段階的に学習させることも考えたのですが、自分がスクラッチで実装していたところ、学習させる数が外れ値の方に引っ張られてきてしまう現象が増えてきたように思えてたので、できる限り一度の学習で済ませたいという事がありました。スパース表現についてですが、これは元の情報を保持してくれているのでしょうか？質問で、４進数で区切って学習させると書いたのですが、こちらはよく考えたら、インデックスをつけているだけだなと気づきました。

jbpb0

2021/04/06 11:50

> 一次元配列の長さが20万の配列について > データ数が20000を超えたところでメモリエラーが起きては、一桁の整数が20万個集まってるのが1セットで、それが20000セットある、という意味ですか？

babbleman

2021/04/06 14:56

はい。そのような形となっています。

toast-uz

2021/04/06 15:11

特徴量が20万個あるということでしょうか？うまく学習できるようには、ちょっと思えません。

jbpb0

2021/04/06 23:19 編集

512x512の画像の画素数が約26万個なので、それと同じくらいスパースにしなくても、そのまま全結合ニューラルネットに入れて、メモリーが足りるようにバッチサイズを調整したら、行けないかな？？

babbleman

2021/04/07 22:03

>メモリーが足りるようにバッチサイズを調整したら、行けないかな？？こちらはつまり学習データを例えば100個ずつくらいに区切って学習させるような形になるでしょうか？自分の中で心配なのが、例えば何回かエポックを回した時に、後から学習した方のバッチの方により適合してしまって、全体的な適合がしないのではないかという事を懸念しています。でもこれはまとめて行っても同じ事なのでしょうか？

jbpb0

2021/04/08 05:03

> 学習データを例えば100個ずつくらいに区切って学習させるような形になるでしょうか？そうですミニバッチ学習といって、ビッグデータでは常套手段です https://aizine.ai/glossary-mini-batch/ > 後から学習した方のバッチの方により適合してしまって、全体的な適合がしないのではないかバッチサイズが小さいと、バッチ毎に傾向に偏りが生じて、あるバッチで学習しても、別のバッチではそれが有効ではなくて、学習が行ったり来たりする、ということが起きることがあります https://www.st-hakky-blog.com/entry/2017/11/16/161805 の「バッチサイズを変えて学習させてみた」のグラフを見てください上の青い方は、かなり縦軸が振動してますので、相当な行ったり来たりをしてます下の赤い方は、バッチサイズを大きくしたので、縦軸の振動が減ってます上記の青い方は、振動していても、平均的には改善してますが、振動したまま改善しない場合もありますので、学習を安定させるには、(メモリーエラーが発生しない範囲で)バッチサイズを大きくした方がいいようですバッチサイズともう一つ重要なのは、学習率です下記には、バッチサイズと学習率の比が同じならば、十分に学習した後に最終的に得られる精度は同等になる、と説明されてます https://blog.seishin55.com/entry/2019/05/09/181419 https://ai-scholar.tech/articles/machine-learning/sgd つまり、バッチサイズを十分に大きくできない場合でも、それに合わせて学習率を調整すれば、うまく学習できる可能性がある、ということですメモリーエラーが発生しない範囲でバッチサイズを大きくして、学習が安定しなければ学習率を小さくしてみる、のはいかがでしょうか？？