keras で任意のタイミングで学習を中断させ、中断した epoch から再開する方法

###前提

業務でかなりの量（組み合わせ）のオートエンコーダーの学習を行う予定です。

以下のように、学習中 1epoch毎にモデルを保存（上書き）させていて、
もし学習済、または学習途中のモデルがある場合は、
その結果を使うよう以下のようなコードを書いてみました。

Python
1checkpoint = ModelCheckpoint(filepath = os.path.join(MODEL_DIR, "_model.h5"))
2
3
4(中略)
5
6
7if os.path.isfile(os.path.join(MODEL_DIR, "_model.h5")):    
8    model.load_weights(os.path.join(MODEL_DIR, "_model.h5"))
9
10model.fit(Xtrain, Ytrain,
11          batch_size = BATCH_SIZE, epochs = NUM_EPOCHS,
12          validation_split = 0.2,
13          callbacks = [checkpoint, TensorBoard(log_dir = log_dir)])

###実現したいこと

この状態で強制的に訓練を停止させて再度実行してしまうと
最初から再開することになってしまうのですが
停止させた epoch から再開するにはどうすれば良いでしょうか？

###試したこと
model.fit() に initial_epoch の設定があり
デフォルトが0になっているから最初から再開することになることはわかったのですが、
ここの引数に停止させたときの epoch を後から入力させるのも手間だし、
突発で止まってしまったときはどこで止まったかがわからなくなってしまいます。

止めた時の epoch の情報がモデルデータなどから自動的にわかり、
そのまま実行をすればその epoch から再開できるようなコードの書き方はないでしょうか？

Q71

2019/09/24 14:07

その訓練用のコードには、訓練結果を確認するコードはついていないのでしょうか。訓練結果を確認する＝保存したモデルを読み込む、です。これによって、各パラメータの初期値を変更できます。

Ruthird

2019/09/24 16:29

ご意見すみません。自己解決してしまいましたので、自身がやりたかったことは回答欄に記載しました。訓練結果を見るコードももちろんあるのですが、質問した際は訓練（学習）が終わってない状態の話でしたのでその時点では扱っていませんでした。訓練回数が多くなりそうだったので、途中で停止することを想定していたのですが、モデルを読み込む＝モデルを読み込んで結果を確認するではなく、モデルを読み込む＝モデルを読み込んで訓練を再開する（続行する）方法の質問をしたつもりでした。分かりづらい質問で申し訳ありません。

行動規範の内容に同意します

回答1件

自己解決

長期間放置してしまい申し訳ありません。
その間に回答にたどり着いてしまいました。


for iter in range(STRAT_NUM + 1, NUM_ITERS + 1):

    hist = model.fit(X_train, y_train, batch_size = BATCH_SIZE,
                     initial_epoch = (iter - 1) * NUM_EPOCHS, epochs = iter * NUM_EPOCHS,
                     verbose = ver_num, shuffle = True, validation_data = (X_val, y_val))

と model.fit() を普通に for文中に置いてしまい、
for文中で model.fit() の後に model や weight の保存を行う。
ついでに weight のファイル名を iter から付けるようにする。

この状態で途中で停止した場合に途中から再開すると
initial_epoch に iter が入っており、
iter は START_NUM を weightのファイル名の停止時の iter から読み込むようにすることで
停止させたタイミング(NUM_ITERS毎) から再開することができました。
(初めて学習するときは START_NUM = 0)

確認いただいた皆様、申し訳ありませんでした。

投稿2019/09/24 16:24

Ruthird

総合スコア15