質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
Keras

Kerasは、TheanoやTensorFlow/CNTK対応のラッパーライブラリです。DeepLearningの数学的部分を短いコードでネットワークとして表現することが可能。DeepLearningの最新手法を迅速に試すことができます。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

2回答

10691閲覧

batch_sizeの調整

esklia

総合スコア81

Keras

Kerasは、TheanoやTensorFlow/CNTK対応のラッパーライブラリです。DeepLearningの数学的部分を短いコードでネットワークとして表現することが可能。DeepLearningの最新手法を迅速に試すことができます。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

1クリップ

投稿2020/03/10 11:14

編集2020/03/10 11:15

機械学習/ディープラーニングにおけるバッチサイズ、イテレーション数、エポック数の決め方

この幾つかに分けたぞれぞれのサブセットに含まれるデータの数をバッチサイズと呼びます。

を見て、batchsizeは一度に見るサンプルの数であると分かったので(他サイトでも同じような説明がなされていました)、classifier.fit()batch_size = 1のパラメータをいじって挙動を見てみるとbatch_size = 1よりもbatch_size = 100の方が学習速度が速く、batch_size = 1000000000にすると学習速度が飛躍的に早くなりました。バッチサイズがサブセットに含まれるデータ数なら、455行しか持たない時点でエラーが起きるはずですし(データセットを超える量のデータを一度に学習している)、そもそも一度に1000000000ものデータを学習するとかなり学習速度が遅くなると予想していたのですが、予想に反して学習速度が速くなりました。これはなぜでしょうか?ちなみに、学習結果であるCorrectはbatch_sizeにかかわらずCorrect=114なので全問正解でした

import pandas as pd X_train = pd.read_csv("C:\Users\hoge\demo\YouTube_tutorial/xtrain.csv", header=None) Y_train = pd.read_csv("C:\Users\hoge\demo\YouTube_tutorial/ytrain.csv", header=None) X_test = pd.read_csv("C:\Users\hoge\demo\YouTube_tutorial/xtest.csv", header=None) Y_test = pd.read_csv("C:\Users\hoge\demo\YouTube_tutorial/ytest.csv", header=None) from keras.models import Sequential from keras.layers import Dense classifier = Sequential() classifier.add(Dense(units = 16, activation = 'relu', input_dim = 30)) classifier.add(Dense(units = 8, activation = 'relu')) classifier.add(Dense(units = 6, activation = 'relu')) classifier.add(Dense(units = 1, activation = 'sigmoid')) classifier.compile(optimizer = 'rmsprop', loss = 'binary_crossentropy')
print(X_train.shape) print(Y_train.shape) print(X_test.shape) print(Y_test.shape) >>> (455, 30) >>> (455, 1) >>> (114, 30) >>> (114, 1)
classifier.fit(X_train, Y_train, batch_size = 1, epochs = 100) と classifier.fit(X_train, Y_train, batch_size = 100, epochs = 100) と classifier.fit(X_train, Y_train, batch_size = 1000000000, epochs = 100)
Y_pred = classifier.predict(X_test) Y_pred = [ 1 if y>=0.5 else 0 for y in Y_pred] total = 0 correct = 0 wrong = 0 for i in Y_pred: total=total+1 if(Y_test.at[i, 0] == Y_pred[i]): correct=correct+1 else: wrong=wrong+1 print("Total" + str(total)) print("Correct" + str(correct)) print("Wrong" + str(wrong)) >>> Total114 >>> Correct114 >>> Wrong0

試したこと

機械学習/ディープラーニングにおけるバッチサイズ、イテレーション数、エポック数の決め方を見て理解する

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

ベストアンサー

batch_size = 1のパラメータをいじって挙動を見てみるとbatch_size = 1よりもbatch_size = 100の方が学習速度が速く、batch_size = 1000000000にすると学習速度が飛躍的に早くなりました。

GPU で演算を行なう場合、バッチサイズが大きいほうが、GPU とのデータ転送の回数がすくなくなるので、学習速度が早くなります。(GPU は一度に大量のデータを計算するのが得意)
では、単純にバッチサイズを大きくすればいいのかというとそうではなく、以下の点を考慮して適当な値にします。

  • バッチサイズが大きいほど、GPU の消費メモリが増えるので、大きくしすぎると、メモリ不足でエラーになります。
  • バッチサイズが大きすぎると、局所解に陥りやすくなり、学習結果が悪くなるかもしれません。

1, 2, ... と全部のバッチサイズを試して結果がいい値にできればいいのですが、ディープラーニングは1回の学習に時間がかかり、何回も試してられないので、通常は16, 32, 64 などの値にします。(2の倍数であることに特に意味はないです。)

バッチサイズがサブセットに含まれるデータ数なら、455行しか持たない時点でエラーが起きるはずですし(データセットを超える量のデータを一度に学習している)、そもそも一度に1000000000ものデータを学習するとかなり学習速度が遅くなると予想していたのですが、予想に反して学習速度が速くなりました。

ライブラリの実装によりますが、データセットのサンプル数より多い数をバッチサイズに指定した場合、「バッチサイズ = データセットのサンプル数」となります。(Pytorch ではそうなってます)
質問の例の場合だと、1000000000 を指定してもサンプルが114個しかないなら batchsize=114 と同じ

追記

その理由はイテレーション数(データセットに含まれるデータが少なくとも1回は学習に用いられるのに必要な学習回数であり、バッチサイズが決まれば自動的に決まる数値)が少なくなることと同義でしょうか。

「学習が早い」の定義について書いていませんでしたが、回答で言っている学習の速さとは、1エポックが完了するのにかかる時間のことを言っています。
例えば、100個のサンプルがあったとしたとき、バッチサイズが5の場合は1エポックが20イテレーション、バッチサイズが20の場合は1エポックが5イテレーションで完了します。
イテレーションのたびにデータを GPU との間で転送する必要があるので、このイテレーションが少ないバッチサイズ20のほうが1エポックにかかる時間が少なくなります。

基本的な質問で恐縮ですが、バッチサイズは一行単位なのでしょうか?すなわち、(455,30)のデータセットに対してバッチサイズ1なら、「バッチサイズはデータポイントのすべての列を含む(一列目から30列目まで)」ということで合っているでしょうか。

1行単位です。
コメントの例で batchsize = 32 なら、1つのミニバッチは (32, 30) の配列になります。

投稿2020/03/10 11:39

編集2020/03/10 15:03
tiitoi

総合スコア21956

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

esklia

2020/03/10 12:54

ご回答くださりありがとうございます。 >>> GPU で演算を行なう場合、バッチサイズが大きいほうが、GPU とのデータ転送の回数がすくなるなるので、学習速度が早くなります。 その理由はイテレーション数(データセットに含まれるデータが少なくとも1回は学習に用いられるのに必要な学習回数であり、バッチサイズが決まれば自動的に決まる数値)が少なくなることと同義でしょうか。 455件のデータセットを1件ずつのサブセットに分ける場合では、イテレーション数は455 (=455/1)となり、455件のサブセットならイテレーション数は1(=455/455)になりますよね。 >>>(私の発言です→) バッチサイズがサブセットに含まれるデータ数なら、455行しか持たない時点でエラーが起きるはずですし 基本的な質問で恐縮ですが、バッチサイズは一行単位なのでしょうか?すなわち、(455,30)のデータセットに対してバッチサイズ1なら、「バッチサイズはデータポイントのすべての列を含む(一列目から30列目まで)」ということで合っているでしょうか。
tiitoi

2020/03/10 15:03

追記しました。
esklia

2020/03/11 02:13

追記していただきありがとうございます。学習の定義が1エポックの速さであることやイテレーションのたびにデータを GPU との間で転送する必要があること、また、バッチサイズが一行単位であることが分かり非常に勉強になりました。
guest

0

バッチサイズは重みの更新の回数に関わってきます。バッチ学習では複数のデータに対する勾配を平均することで、複数回の更新を1回にまとめます。

基本的にはバッチサイズが大きければ大きいほど少ない計算で済みますが、中間結果をメモリに保持しないといけないので記憶領域は多く必要します。

また、学習の良し悪しを考えると一概にバッチがいいとも言いづらい面があります。バッチサイズが小さい方が局所解に捕まりづらいですし、同じエポック数では遅くなると言ってもその分更新回数も増えるので、学習率大きめでエポック数を減らした方が少ない処理コストで同等以上の最適な解が得られるかもしれません。

上述のような理由で、現実には「ほどほどの」バッチサイズが選択されます。どの程度が「ほどほど」なのかについては確固たる理論はないはずなので、経験則で決めることになります。まあ、数倍違ったところでそんな大した差は生じません。

バッチサイズをサンプル総数より多く設定した場合についてですが、実際の挙動は確認していないものの、1回のバッチ学習で済まされると思われます。455行のデータであればそれ以上に増やしても結果は変わらないはずです。

投稿2020/03/10 11:42

hayataka2049

総合スコア30935

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

esklia

2020/03/10 12:59

ご回答くださりありがとうございます。 >>> 基本的にはバッチサイズが大きければ大きいほど少ない計算で済みますが、中間結果をメモリに保持しないといけないので記憶領域は多く必要します。 どちらも一長一短ということですね。勉強になります。 >>> 1回のバッチ学習で済まされると思われます。455行のデータであればそれ以上に増やしても結果は変わらないはずです。 ありがとうございます。細かな挙動は現段階で知りえない場合もありますので非常に助かりました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問