デスクトップPCでGPUを用いてPytorchで深層学習をしたいと考え環境構築をしていたのですが、
どうしてもtorch.cuda.is_available()でFalseを返してしまいます。
GPUのハードウェア周りの問題なのかドライバーの問題なのかCUDAの問題なのか切り分けができていない状況ですので、
現在のトラブルやエラーについて列挙させて頂きます。
まず前提として、
OS:Windows 10
GPU:GeForce GTX1660
NVIDIAドライバー:対応するGEFORCE GAME READY DRIVER(バージョン461.09)
Pytorch:1.7.1
CUDA:10.2と11.0を試しました
問題
-
ディスプレイの接続先をマザボからグラボに変更すると画面が映らなくなる
-
NVIDIAコントロールパネルをクリックしても開けない
-
デバイスマネージャーからドライバーの状態を確認すると「問題が発生したのでこのデバイスは停止しました。 (コード 43)」と表示されることがある。アンインストールやPC再起動をしているとたまにエラーが表示されないときもある。
-
コマンドプロンプトからnvidia-smiと打ち込むと
NVIDIA-SMI has failed because you are not:
a) running as an administrator or
b) there is not at least one TCC device in the system
とエラーを返します。
- 4.で管理者権限でnvidia-smiを実行すると
Failed to initialize NVML: Unknown Errorと表示されてしまいます。
また、何度かアンインストールと再起動を繰り返していると、たまに
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running. This can also be happening if non-NVIDIA GPU is running as primary display, and NVIDIA GPU is in WDDM mode.
と表示されることもありました。
以上トラブルを列挙させていただきましたが、まとめると
PytorchでGPUを使いたいが、原因がまるで絞れず困っているといった状況です。
よろしくお願いします。
追記:
- PytorchではなくTensorflowでの環境構築を試してみたのですが、
CUDA10.0でtensorflow-gpuを2.4.0と1.15.0の2通り試したところ、ともにimport tensorflowで
ImportError: DLL load failed: ダイナミック リンク ライブラリ (DLL) 初期化ルーチンの実行に失敗しました。
というエラーが発生しました。
調べたところ、PATHの問題であるというサイトが多くあったのでPAThに追加してやり直してみたのですが駄目でした。現在調査中です。
また、2.4.0に関してはtensorflowはそもそも2以降はIntel AVX対応のCPUでしか動かず、私のPCのCPUはPentiumと非対応なので無理なようです。
1.15.0に関しては上記のエラーが表示されるのは2.4.0の場合と同様ですが、追加でいつまでもエラーメッセージが表示され続け、実行中のままになってしまうという現象も起きました。
上記のサイトで確認したところgtx1660がcuda対応の中に載っておらず、もしかしてGPUがそもそもCUDA非対応なのでしょうか?
https://pc.watch.impress.co.jp/docs/column/hothot/1215218.html の様なサイトで書かれているCUDAコアとはまるっきり別の話なのでしょうか?
あなたの回答
tips
プレビュー