前提・実現したいこと
機械学習のような分野(プログラミングを行うような分野)とは全く別の分野で研究を行っているド素人の学生です。
画像データが色々とあったので、4クラスを分類するモデルをVGG16のfine-tuningでやって見ようと思って始めました。
https://github.com/kazuki-hayakawa/fine_tuning
コードはこの方のtrain.pyを参考に、自分の環境で動くようにするために書き換えなければならないところにだけ変更を加えています。
発生している問題
学習に利用する画像のサイズを256*256として学習を実行すると、学習の途中で(早い場合はepoch=5,長く回ってもepoch=60ほどで)、PCの電源が落ちて再起動してしまいます。
エラーメッセージ等は表示されず、突然落ちてしまいます。
128*128とサイズを指定して学習を行った場合は問題なく学習が行われます。
試したこと
負荷が大きいのかと思い、GPUの電力やCPUの使用量を制限するようにして実行してみましたが、やはり256*256と指定した場合では電源が落ちてしまいました。
ResNet50で学習した場合、256256ではGPUのメモリが足りなかったため224224で行ったのですが、学習はきちんと行われました。
そもそもの電源容量が足りないのかとも思い、研究室にあった他のPCの1000w電源で試してみましたが、そちらでも同様に学習の途中でPCが落ちてしまいました。
補足情報(FW/ツールのバージョンなど)
Ubuntu18.04
nvidiaドライバー 430.40
CUDA 10.0.13
cuDNN 7.4.2
tensorflow 1.13.1
python 3.6
という環境で行っています。一応、対応しているのもを入れていると思います。
ここで質問することではないかもしれませんが、調べてもなかなか解決しなかった(原因がわからなかった)ので、こちらでお聞きしました。
学習中にPCの電源が落ちてしまう事象の原因で、なにか知るところがあればご教授願いたいと思います。
回答1件
あなたの回答
tips
プレビュー