前提・実現したいこと
PytorchのLSTMを使った機械学習をしています。
いくつかのmacがあり、ハードウェアも異なればosバージョン等も若干異なってますが
状況からそれとは違う何かが起きている気がしています。
学習量が少ない場合は、どのマシンで計算しても
小数点以下全てで結果が完全一致しています。
しかし、学習量を増やすと計算途中で結果が変わってきてしまいます。
発生している問題・エラーメッセージ
計算途中でのエラーは発生していません。
学習量を増やしたとき、最初の数エポックでは
LSTMの予測結果は小数点以下含めて完全一致しているのですが
そのまま計算を続けると、ある同じエポックのタイミングで、
全てのマシンで同時に結果がズレはじめます。
該当のソースコード
すみません、どの部分になんの問題があるのか現在は不明です。。
試したこと
少量の学習量でPytorchのLSTM。全てのmacで結果が完全一致で問題は起きません。
学習量を2倍に増やして同じ計算。最初の数エポックまでは結果が完全一致で、
あるタイミングのエポックで、同時に全mac で結果がズレてきます。
なんらかのオーバフローが起きているとか、もしくはpytorchでこのような現象が起きたときに
何か対策することはあるのでしょうか?
補足情報(FW/ツールのバージョンなど)
1台だけpytorch 1.5.1で残りは1.6.0です。
同じ 1.6.0でもここに書いた状況が発生します。
ハードウェアやosバージョン,python環境は細かくなるので記載しませんが
もしそれが必要でしたら記載します。
回答1件
あなたの回答
tips
プレビュー