Docker+GPU+TensorFlow環境構築において、GPUを認識しない（なぜかNvidiaドライバが2つ出現？）

やろうとしていること

Docker+GPU+TensorFlowの実行環境を作ろうと思っています。

対応

GPUを積んだ機体はproxy環境下にあり、ネットワーク設定が困難であったため、GPU非搭載で別ネットワーク下のMacBookでコンテナのイメージを作成し、このイメージをGPU搭載機体(Ubuntu16.04)にコピーしてdocker load→docker runしました。この方法が悪いのか不明ですか、Docker上でGPUを認識しません。そこで、問題の切り分け方法をアドバイスいただけないでしょうか？

問題の想定原因

TensorFlowからGPU認識を確認するコマンドを行ったところ（TensorFlowからGPUが認識できているかを2行コードで確認する）、kernel version 430.64.0 does not match DSO version 410.129.0 -- cannot find working devices in this configurationというErrorがでました。

確認事項等

ホストOS(GPU搭載機体)には、Nvidiaのドライバの430.64をインストールしました（古いバージョンからアップデートしたので、そこが原因かもしれません）。その後本体再起動しています。
ホストコンピュータ上でもコンテナ上でもnvidia-smiコマンドは通り、共にドライバは430.64で認識されます。
nvidiaドライバ、cuda、tensorflow、pythonのバージョンを合わせて導入したつもりです。
GPU利用可能なTensoflowのイメージを利用しても問題が再現しました。
GPUはGeFroce GTX 1080Ti（４枚）となります。

実行ファイル等

DockerFile
1FROM nvidia/cuda:10.0-cudnn7-runtime-ubuntu16.04
2
3RUN apt-get update && apt-get install -y wget curl sudo vim unzip git sudo
4RUN apt update && apt install -y software-properties-common
5
6# PPAからpython3.7インストール
7RUN add-apt-repository ppa:deadsnakes/ppa
8RUN apt update && apt install -y python3.7
9
10# pipのインストール
11RUN curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py
12RUN python3.7 get-pip.py
13RUN pip3 install -U pip
14
15# tensorflow-gpuのインストール
16RUN pip3 install tensorflow-gpu==2.0.0

bash
1$ docker run -it --gpus all tensor_image /bin/bash

python
1from tensorflow.python.client import device_lib
2device_lib.list_local_devices()
3
4# 2021-08-04 06:13:56.206162: I tensorflow/core/platform/cpu_feature_guard.cc:142] Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX2 FMA
5# 2021-08-04 06:13:56.228115: I tensorflow/core/platform/profile_utils/cpu_utils.cc:94] CPU Frequency: 2993095000 Hz
6# 2021-08-04 06:13:56.239632: I tensorflow/compiler/xla/service/service.cc:168] XLA service 0x44c86a0 executing computations on platform Host. Devices:
7# 2021-08-04 06:13:56.239687: I tensorflow/compiler/xla/service/service.cc:175]   StreamExecutor device (0): Host, Default Version
8# 2021-08-04 06:13:56.245282: I tensorflow/stream_executor/platform/default/dso_loader.cc:44] Successfully opened dynamic library libcuda.so.1
9# 2021-08-04 06:13:56.246894: E tensorflow/stream_executor/cuda/cuda_driver.cc:318] failed call to cuInit: CUDA_ERROR_SYSTEM_DRIVER_MISMATCH: system has unsupported display driver / cuda driver combination
10# 2021-08-04 06:13:56.246948: I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:169] retrieving CUDA diagnostic information for host: 89c089af9927
11# 2021-08-04 06:13:56.246968: I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:176] hostname: 89c089af9927
12# 2021-08-04 06:13:56.247069: I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:200] libcuda reported version is: 410.129.0
13# 2021-08-04 06:13:56.247121: I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:204] kernel reported version is: 430.64.0
14# 2021-08-04 06:13:56.247139: E tensorflow/stream_executor/cuda/cuda_diagnostics.cc:313] kernel version 430.64.0 does not match DSO version 410.129.0 -- cannot find working devices in this configuration
15# [name: "/device:CPU:0"
16# device_type: "CPU"
17# memory_limit: 268435456
18# locality {
19# }
20# incarnation: 7504376849925051239
21# , name: "/device:XLA_CPU:0"
22# device_type: "XLA_CPU"
23# memory_limit: 17179869184
24# locality {
25# }
26# incarnation: 11837196615187333375
27# physical_device_desc: "device: XLA_CPU device"
28# ]

コンテナ内でのライブラリパス確認

bash
1$ echo $LD_LIBRARY_PATH 
2# /usr/local/nvidia/lib:/usr/local/nvidia/lib64
3
4ldconfig -p | grep libcuda
5# libcudart.so.10.0 (libc6,x86-64) => /usr/local/cuda-10.0/targets/x86_64-linux/lib/libcudart.so.10.0
6# libcuda.so.1 (libc6,x86-64) => /usr/lib/x86_64-linux-gnu/libcuda.so.1

バージョン等確認

bash
1# ホスト
2$ docker —version
3Docker version 20.10.7, build f0df350
4
5# ホスト
6$ nvidia-container-cli info
7NVRM version:   430.64
8CUDA version:   10.1
9GPU認識されているが省略
10
11# ホスト
12$ ls -lh /usr/lib/x86_64-linux-gnu/libcuda.so*
13ls: '/usr/lib/x86_64-linux-gnu/libcuda.so*' にアクセスできません: そのようなファイルやディレクトリはありません
14
15# コンテナ
16$ ls -lh /usr/lib/x86_64-linux-gnu/libcuda.so*
17lrwxrwxrwx 1 root root  18 Aug  5 05:21 /usr/lib/x86_64-linux-gnu/libcuda.so.1 -> libcuda.so.410.129
18-rw-r--r-- 1 root root 15M Aug 14  2019 /usr/lib/x86_64-linux-gnu/libcuda.so.410.129

lazykyama

2021/08/04 12:52

エラー中に410.129.0という番号が出ているのは、おそらく以下のissueにもある通り、`/usr/local/cuda/compat/` にあるライブラリが参照されているためではないかと思われます。 https://github.com/NVIDIA/nvidia-docker/issues/1256#issuecomment-620088349 ただなぜこれが見えてしまっているかが不明なので、お手数ですが以下の情報を追記頂けますか？ * GPUの種類 (例: GeForce RTX 30xx, V100, など) * コンテナ内での `echo $LD_LIBRARY_PATH` の出力 * 同じくコンテナ内での `ldconfig -p | grep libcuda` の出力また `docker pull tensorflow/tensorflow:2.0.0-gpu-py3` や `docker pull nvcr.io/nvidia/tensorflow:20.01-tf2-py3` などで取得できるTensorFlowのイメージでも同じエラーが出るか、というのは切り分けに役立つかもしれません。

MagMag

2021/08/05 01:24 編集

ありがとうございます。LinuxやDocker自体触り始めレベルでチンプンカンプンなので、大変助かります。コマンドの実施結果は質問文に追記しました。ただ、compatがでてこないということは、今回の件では共通ライブラリ参照の問題ではないということでしょうか？また、GPUはGeForce GTX 1080Ti（4枚搭載）となります。また、Tensorflowのイメージを使っても問題が再現したので、イメージ側の原因ではないようでした。

lazykyama

2021/08/05 03:15

追記ありがとうございます。GPUとドライバの整合性はとれていて、かつTensorFlowのビルド済みイメージでも発生しているとのことなので、おそらく認識されている通りイメージ側の問題というより、インストールされているdockerか、ホスト側の問題と思われます。 Step-by-stepでお願いして申し訳ないですが、念のため以下も確認いただけますか？ * docker自体のバージョンと、nvidia-docker (ないしNVIDIA Container Toolkit) のバージョン * コンテナ内外両方の `ls -lh /usr/lib/x86_64-linux-gnu/libcuda.so*` > 古いバージョンからアップデートしたとのことなので、ホスト側に余計なものが残っているのか、dockerがうまくGPU周りの処理をできていないか、という可能性を疑っています。 (調べる手間が……という場合は、ホスト側のドライバをキレイに入れ直すのがベストかもしれません)

MagMag

2021/08/05 05:26

ありがとうございます。大変助かります。情報追記いたしました。コンテナ内でのls -lhコマンドで、410の数字が出てきたのですが、ここが主原因でしょうか？なお、GPUやドライバは違いますが、同じDockerのバージョン、同じDockerFileを別の機体で実行したら、GPUを認識しました。

行動規範の内容に同意します

回答1件

ベストアンサー

いろいろと追加情報ありがとうございます。結論としては、ドライバをキレイに入れ直していただく必要がありそうです。(後半で言及します)

コンテナ内でのls -lhコマンドで、410の数字が出てきたのですが、ここが主原因でしょうか？

今回のエラーの直接的な原因は、そうだと思われます。
エラーメッセージのとおりコンテナ内で、カーネルモジュールは新しい430が参照されているものの、libcuda.soは410を参照してミスマッチが起きている状況のようです。
コンテナとlibcuda.so、カーネルモジュールについては https://docs.nvidia.com/deploy/cuda-compatibility/ や NVIDIA Container Toolkit (NVIDIA Docker) は何をしてくれるかなどが詳しいです。

前述の通り、古いバージョンからアップデートされる際に意図せず古いlibcuda.soが残った状態かつ、新しいものがうまくインストールできなかったのではないかと思われます。
その影響で、コンテナを起動する際、ホスト側のライブラリ等が適切にコンテナ内へマウントされず、コンテナ内の互換性パッケージが優先されたのではないかと。
(この点で、ホスト側のlibcuda.soがどこにあるのかが謎ではありますが……)

肝心の再インストールについては、現環境が複雑になっているようなので断定できない部分もありますが、基本的には以下の流れで進めていただくイメージです。

現状のドライバをアンインストール
新しいドライバをインストール
(それでもダメなら) 残っている不要なライブラリを探して削除

ドライバのアンインストール手順は、インストールした方法にも依存しますが、例えば以下があります。

apt-get purge *nvidia* や apt-get purge *cuda* (ドライバを apt-get でインストールしていた場合)
nvidia-uninstall コマンドを実行 (手動でインストールした場合)
./NVIDIA-Linux-x86_64-xxx.xxx.run --uninstall を実行 (.run ファイルが残っている場合)

余計なものが残っているかどうかは、ホスト側で ldconfig -p | grep libcuda や nvidia-container-cli list を実行して、意図しないバージョンのlibcuda.soなどが出てくるかどうかで判断できるかもしれません。

ドライバのインストール手順自体は、NVIDIA Docker って今どうなってるの？ (20.09 版) を参考にしていただくのが確実かなと思います。

投稿2021/08/05 14:38

lazykyama

総合スコア58

MagMag

2021/08/06 08:01

ありがとうございます。apt-get purge等で削除してみたのですが、やはり問題が再現したので、今の環境での構築を諦めて、Ubuntuを再インストールしようと思います。Dockerって環境に依存しないのがメリットと思いますが、GPUを使う場合ハードとの紐付けが必要なため、一筋縄ではないということなのでしょうか。いずれにしろ、色々と教えていただきありがとうございました。Ubuntuの再インストールが必要という結果にはなりましたが、問題の切り分けができ、大変助かりました。

行動規範の内容に同意します