質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Keras

Kerasは、TheanoやTensorFlow/CNTK対応のラッパーライブラリです。DeepLearningの数学的部分を短いコードでネットワークとして表現することが可能。DeepLearningの最新手法を迅速に試すことができます。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

解決済

1回答

1826閲覧

VGG16でのfine-tuning中にPCの電源が落ちてしまう

saitou_shimeji

総合スコア6

Keras

Kerasは、TheanoやTensorFlow/CNTK対応のラッパーライブラリです。DeepLearningの数学的部分を短いコードでネットワークとして表現することが可能。DeepLearningの最新手法を迅速に試すことができます。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

0グッド

0クリップ

投稿2019/08/28 04:07

前提・実現したいこと

機械学習のような分野(プログラミングを行うような分野)とは全く別の分野で研究を行っているド素人の学生です。
画像データが色々とあったので、4クラスを分類するモデルをVGG16のfine-tuningでやって見ようと思って始めました。

https://github.com/kazuki-hayakawa/fine_tuning
コードはこの方のtrain.pyを参考に、自分の環境で動くようにするために書き換えなければならないところにだけ変更を加えています。

発生している問題

学習に利用する画像のサイズを256*256として学習を実行すると、学習の途中で(早い場合はepoch=5,長く回ってもepoch=60ほどで)、PCの電源が落ちて再起動してしまいます。
エラーメッセージ等は表示されず、突然落ちてしまいます。

128*128とサイズを指定して学習を行った場合は問題なく学習が行われます。

試したこと

負荷が大きいのかと思い、GPUの電力やCPUの使用量を制限するようにして実行してみましたが、やはり256*256と指定した場合では電源が落ちてしまいました。

ResNet50で学習した場合、256256ではGPUのメモリが足りなかったため224224で行ったのですが、学習はきちんと行われました。

そもそもの電源容量が足りないのかとも思い、研究室にあった他のPCの1000w電源で試してみましたが、そちらでも同様に学習の途中でPCが落ちてしまいました。

補足情報(FW/ツールのバージョンなど)

Ubuntu18.04
nvidiaドライバー 430.40
CUDA 10.0.13
cuDNN 7.4.2
tensorflow 1.13.1
python 3.6
という環境で行っています。一応、対応しているのもを入れていると思います。

ここで質問することではないかもしれませんが、調べてもなかなか解決しなかった(原因がわからなかった)ので、こちらでお聞きしました。
学習中にPCの電源が落ちてしまう事象の原因で、なにか知るところがあればご教授願いたいと思います。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

tiitoi

2019/08/28 04:21 編集

毎回落ちるタイミングがランダムとのことですが、排熱は大丈夫でしょうか。なにかのソフトウェアで温度をモニタしてみるといいかもしれません。 (エアコンはつけているか?排熱しずらい場所にPCが置かれていないかどうかなど)
saitou_shimeji

2019/08/28 04:47

ありがとうございます。 落ちるタイミングはランダムですので、たしかに熱が疑わしいのかもしれません。 watch sensors nvidia-smi -l 2 を別窓で表示して学習中に確認もしてみましたが、大体60度前後、高くなったとしても70度には達さないといった感じでした。 素人なものでこのくらいしか熱を確認する手段がわかりませんでした。。。 ただ、落ちてしまってすぐにPCケースを開けて中を確認したところ結構な熱さになっている感覚がありました。
guest

回答1

0

ベストアンサー

オーバークロックして負荷テストしてるときに、設定が甘かったり冷却力が不足してるとそんな感じになります。

詳細はわかりませんが、負荷かけると安定しないマシンなんでしょうね。

投稿2019/08/28 04:29

hayataka2049

総合スコア30933

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

saitou_shimeji

2019/08/28 04:54

ありがとうございます。 PCの負荷と発熱はおそらく比例するとは思うのですが、温度が上がりきる前に処理の負荷に耐えられなくて落ちてしまう…なんてこともあるのでしょうか? またはwatch sensorsやnvidia-smiで表示される温度以外に、何か参考になるものがあったりしますでしょうか。
hayataka2049

2019/08/28 05:08

温度に関係なく落ちることなどもあります。設定とかが悪いと。
hayataka2049

2019/08/28 05:16

CPUの電圧とかメモリ周りとかが怪しい気がしますが、構成わからないのでなんとも。
saitou_shimeji

2019/08/29 00:57

構成や設定によってはこのような事象が発生しても不思議ではないのですね... ありがとうございます.
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問