batch_sizeの調整

機械学習／ディープラーニングにおけるバッチサイズ、イテレーション数、エポック数の決め方の

この幾つかに分けたぞれぞれのサブセットに含まれるデータの数をバッチサイズと呼びます。

を見て、batchsizeは一度に見るサンプルの数であると分かったので(他サイトでも同じような説明がなされていました)、classifier.fit()のbatch_size = 1のパラメータをいじって挙動を見てみるとbatch_size = 1よりもbatch_size = 100の方が学習速度が速く、batch_size = 1000000000にすると学習速度が飛躍的に早くなりました。バッチサイズがサブセットに含まれるデータ数なら、455行しか持たない時点でエラーが起きるはずですし(データセットを超える量のデータを一度に学習している)、そもそも一度に1000000000ものデータを学習するとかなり学習速度が遅くなると予想していたのですが、予想に反して学習速度が速くなりました。これはなぜでしょうか？ちなみに、学習結果であるCorrectはbatch_sizeにかかわらずCorrect=114なので全問正解でした

import pandas as pd

X_train = pd.read_csv("C:\Users\hoge\demo\YouTube_tutorial/xtrain.csv", header=None)
Y_train = pd.read_csv("C:\Users\hoge\demo\YouTube_tutorial/ytrain.csv", header=None)
X_test = pd.read_csv("C:\Users\hoge\demo\YouTube_tutorial/xtest.csv", header=None)
Y_test = pd.read_csv("C:\Users\hoge\demo\YouTube_tutorial/ytest.csv", header=None)
from keras.models import Sequential
from keras.layers import Dense

classifier = Sequential()

classifier.add(Dense(units = 16, activation = 'relu', input_dim = 30))
classifier.add(Dense(units = 8, activation = 'relu'))
classifier.add(Dense(units = 6, activation = 'relu'))
classifier.add(Dense(units = 1, activation = 'sigmoid'))


classifier.compile(optimizer = 'rmsprop', loss = 'binary_crossentropy')

print(X_train.shape)
print(Y_train.shape)
print(X_test.shape)
print(Y_test.shape)

>>> (455, 30)
>>> (455, 1)
>>> (114, 30)
>>> (114, 1)


classifier.fit(X_train, Y_train, batch_size = 1, epochs = 100)
と
classifier.fit(X_train, Y_train, batch_size = 100, epochs = 100)
と
classifier.fit(X_train, Y_train, batch_size = 1000000000, epochs = 100)

Y_pred = classifier.predict(X_test)
Y_pred = [ 1 if y>=0.5 else 0 for y in Y_pred]

total = 0
correct = 0
wrong = 0
for i in Y_pred:
    total=total+1
    if(Y_test.at[i, 0] == Y_pred[i]):
        correct=correct+1
    else:
        wrong=wrong+1
        
print("Total" + str(total))
print("Correct" + str(correct))
print("Wrong" + str(wrong))


>>> Total114
>>> Correct114
>>> Wrong0

試したこと

機械学習／ディープラーニングにおけるバッチサイズ、イテレーション数、エポック数の決め方を見て理解する

行動規範の内容に同意します

回答2件

ベストアンサー

batch_size = 1のパラメータをいじって挙動を見てみるとbatch_size = 1よりもbatch_size = 100の方が学習速度が速く、batch_size = 1000000000にすると学習速度が飛躍的に早くなりました。

GPU で演算を行なう場合、バッチサイズが大きいほうが、GPU とのデータ転送の回数がすくなくなるので、学習速度が早くなります。(GPU は一度に大量のデータを計算するのが得意)
では、単純にバッチサイズを大きくすればいいのかというとそうではなく、以下の点を考慮して適当な値にします。

バッチサイズが大きいほど、GPU の消費メモリが増えるので、大きくしすぎると、メモリ不足でエラーになります。
バッチサイズが大きすぎると、局所解に陥りやすくなり、学習結果が悪くなるかもしれません。

1, 2, ... と全部のバッチサイズを試して結果がいい値にできればいいのですが、ディープラーニングは1回の学習に時間がかかり、何回も試してられないので、通常は16, 32, 64 などの値にします。(2の倍数であることに特に意味はないです。)

バッチサイズがサブセットに含まれるデータ数なら、455行しか持たない時点でエラーが起きるはずですし(データセットを超える量のデータを一度に学習している)、そもそも一度に1000000000ものデータを学習するとかなり学習速度が遅くなると予想していたのですが、予想に反して学習速度が速くなりました。

ライブラリの実装によりますが、データセットのサンプル数より多い数をバッチサイズに指定した場合、「バッチサイズ = データセットのサンプル数」となります。(Pytorch ではそうなってます)
質問の例の場合だと、1000000000 を指定してもサンプルが114個しかないなら batchsize=114 と同じ

追記

その理由はイテレーション数(データセットに含まれるデータが少なくとも1回は学習に用いられるのに必要な学習回数であり、バッチサイズが決まれば自動的に決まる数値)が少なくなることと同義でしょうか。

「学習が早い」の定義について書いていませんでしたが、回答で言っている学習の速さとは、1エポックが完了するのにかかる時間のことを言っています。
例えば、100個のサンプルがあったとしたとき、バッチサイズが5の場合は1エポックが20イテレーション、バッチサイズが20の場合は1エポックが5イテレーションで完了します。
イテレーションのたびにデータを GPU との間で転送する必要があるので、このイテレーションが少ないバッチサイズ20のほうが1エポックにかかる時間が少なくなります。

基本的な質問で恐縮ですが、バッチサイズは一行単位なのでしょうか？すなわち、(455,30)のデータセットに対してバッチサイズ1なら、「バッチサイズはデータポイントのすべての列を含む(一列目から30列目まで)」ということで合っているでしょうか。

1行単位です。
コメントの例で batchsize = 32 なら、1つのミニバッチは (32, 30) の配列になります。

投稿2020/03/10 11:39

編集2020/03/10 15:03

tiitoi

総合スコア21956

esklia

2020/03/10 12:54

ご回答くださりありがとうございます。 >>> GPU で演算を行なう場合、バッチサイズが大きいほうが、GPU とのデータ転送の回数がすくなるなるので、学習速度が早くなります。その理由はイテレーション数(データセットに含まれるデータが少なくとも1回は学習に用いられるのに必要な学習回数であり、バッチサイズが決まれば自動的に決まる数値)が少なくなることと同義でしょうか。 455件のデータセットを1件ずつのサブセットに分ける場合では、イテレーション数は455 (=455/1)となり、455件のサブセットならイテレーション数は1(=455/455)になりますよね。 >>>(私の発言です→) バッチサイズがサブセットに含まれるデータ数なら、455行しか持たない時点でエラーが起きるはずですし基本的な質問で恐縮ですが、バッチサイズは一行単位なのでしょうか？すなわち、(455,30)のデータセットに対してバッチサイズ1なら、「バッチサイズはデータポイントのすべての列を含む(一列目から30列目まで)」ということで合っているでしょうか。

tiitoi

2020/03/10 15:03

追記しました。

esklia

2020/03/11 02:13

追記していただきありがとうございます。学習の定義が1エポックの速さであることやイテレーションのたびにデータを GPU との間で転送する必要があること、また、バッチサイズが一行単位であることが分かり非常に勉強になりました。

行動規範の内容に同意します

バッチサイズは重みの更新の回数に関わってきます。バッチ学習では複数のデータに対する勾配を平均することで、複数回の更新を1回にまとめます。

基本的にはバッチサイズが大きければ大きいほど少ない計算で済みますが、中間結果をメモリに保持しないといけないので記憶領域は多く必要します。

また、学習の良し悪しを考えると一概にバッチがいいとも言いづらい面があります。バッチサイズが小さい方が局所解に捕まりづらいですし、同じエポック数では遅くなると言ってもその分更新回数も増えるので、学習率大きめでエポック数を減らした方が少ない処理コストで同等以上の最適な解が得られるかもしれません。

上述のような理由で、現実には「ほどほどの」バッチサイズが選択されます。どの程度が「ほどほど」なのかについては確固たる理論はないはずなので、経験則で決めることになります。まあ、数倍違ったところでそんな大した差は生じません。

バッチサイズをサンプル総数より多く設定した場合についてですが、実際の挙動は確認していないものの、1回のバッチ学習で済まされると思われます。455行のデータであればそれ以上に増やしても結果は変わらないはずです。

投稿2020/03/10 11:42

hayataka2049

総合スコア30933

esklia

2020/03/10 12:59

ご回答くださりありがとうございます。 >>> 基本的にはバッチサイズが大きければ大きいほど少ない計算で済みますが、中間結果をメモリに保持しないといけないので記憶領域は多く必要します。どちらも一長一短ということですね。勉強になります。 >>> 1回のバッチ学習で済まされると思われます。455行のデータであればそれ以上に増やしても結果は変わらないはずです。ありがとうございます。細かな挙動は現段階で知りえない場合もありますので非常に助かりました。

行動規範の内容に同意します

あなたの回答