RTX A6000を使用しておりますが、下記の環境下(tensorflow-gpu 1.13.1)ではエラーが出てしまいます。
一方、tensorflow-gpuをバーション2.1にすると正常に動きます。
tensorflow-gpuバージョンを1.13.1で動かしたいのですが、RTX A6000では使用できないのでしょうか?
エラー内容、症状
- エラーメッセージにはメモリオーバーフローと記載(たぶん)
- エラーではないがGPUメモリのロードが異常に遅い
確認内容
-
下記サイトのコードを動かして正常に動いているかの確認をしました。
- tensorflow-gpu 1.13.1ではエラーメッセージでて止まります。
- tensorflow-gpu 2.1ではエラーメッセージでずに正常に稼働。
-
GPUやCUDAを認識しているかの動作確認は下記サイトを参考にしました。
TensorFlowでGPU学習させるためにCUDA周りではまったときの対処法
エラーメッセージ
2021-06-17 13:47:01.520738: E tensorflow/stream_executor/cuda/cuda_blas.cc:698] failed to run cuBLAS routine cublasSgemm_v2: CUBLAS_STATUS_EXECUTION_FAILED Traceback (most recent call last): File "shibata-test.py", line 24, in <module> model.fit(x_train, y_train, epochs=5) File "C:\Users\ixs-quadro05\anaconda3\envs\deeplabv3plus\lib\site-packages\tensorflow\python\keras\engine\training.py", line 880, in fit validation_steps=validation_steps) File "C:\Users\ixs-quadro05\anaconda3\envs\deeplabv3plus\lib\site-packages\tensorflow\python\keras\engine\training_arrays.py", line 329, in model_iteration batch_outs = f(ins_batch) File "C:\Users\ixs-quadro05\anaconda3\envs\deeplabv3plus\lib\site-packages\tensorflow\python\keras\backend.py", line 3076, in __call__ run_metadata=self.run_metadata) File "C:\Users\ixs-quadro05\anaconda3\envs\deeplabv3plus\lib\site-packages\tensorflow\python\client\session.py", line 1439, in __call__ run_metadata_ptr) File "C:\Users\ixs-quadro05\anaconda3\envs\deeplabv3plus\lib\site-packages\tensorflow\python\framework\errors_impl.py", line 528, in __exit__ c_api.TF_GetCode(self.status.status)) tensorflow.python.framework.errors_impl.InternalError: Blas GEMM launch failed : a.shape=(32, 512), b.shape=(512, 10), m=32, n=10, k=512 [[{{node dense_1/MatMul}}]] [[{{node loss/mul}}]]
環境
Windows : Windows 10 Pro, バージョン20H2
プロセッサ : Intel(R) Core(TM) i9-10980XE CPU @ 3.00GHz 3.00 GHz
NVIDIAドライバー : R460 U6 (462.31)
--→ファイル名:462.31-quadro-rtx-desktop-notebook-win10-64bit-international-dch-whql.exe
NVIDIA CUDA Toolkit :10.0
--→ファイル名::cuda_10.0.130_411.31_win10.exe
NVIDIA cuDNN:7.4
--→ファイル名:cudnn-10.0-windows10-x64-v7.4.1.5.zip
Anaconda仮想環境内
・python : 3.6.8
・tensorflow-gpu : 1.13.1
*tensorflow-gpuをcondaでインストールするとcudnnなどが自動インストールされるためpipでインストール
(上記でtensorflow-gpu 2.1に変更すると動く!!)
補足
- tensorflow-gpuバージョンを下記に変更しても動きませんでした
1.13.1、1.14.0、1.15.0、2.0.0 - CUDAなどバージョンを下記に変更しても動きません。ただ、tensorflow-gpu 2.1は動きます。
CUDA Toolkit :10.1、cuDNN:7.6 - NVIDIAに問い合わせましたが「tensorflowはオープンソースソフトウェアのため回答できません」とのことです
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。