AWS EC2のDeep Learning AMIを使用してディープラーニングのトレーニングを動かしています。
ある日、トレーニングを動かしたままインスタンスを放置していたところ、トレーニングが最後まで実行されず終了しているのに気づきました。CloudWatchメトリクスを確認したところ、ステータスチェックに失敗していて、勝手に再起動されてしまっているようでした。(再起動されたのが原因でステータスチェックに失敗している??)
経験的にメモリエラーあたりが怪しいかなと思っているのですが、こういったエラーを検知するにはどのログを監視するのがいいのでしょうか。
ここら辺のAWSドキュメントを参考に、CloudWatch Logsで/var/log/messages
のログ監視をしてみましたが、まだインスタンスの再起動が再現できていないため、このログ監視で原因究明できるのかがわかりません。
こうすれば原因究明できるよ、とか、このログ監視しとけ、みたいなアドバイスあれば、ご教授いただけると幸いです。
よろしくお願いいたします。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2019/11/20 10:13
2019/11/20 10:19
2019/11/20 14:21