teratail header banner
teratail header banner
質問するログイン新規登録

質問編集履歴

6

確認事項追記

2021/08/05 05:22

投稿

MagMag
MagMag

スコア80

title CHANGED
File without changes
body CHANGED
@@ -35,7 +35,7 @@
35
35
  ```
36
36
 
37
37
  ```bash
38
- docker run -it --gpus all tensor_image /bin/bash
38
+ $ docker run -it --gpus all tensor_image /bin/bash
39
39
  ```
40
40
 
41
41
  ```python
@@ -71,10 +71,32 @@
71
71
 
72
72
  ### コンテナ内でのライブラリパス確認
73
73
  ```bash
74
- echo $LD_LIBRARY_PATH
74
+ $ echo $LD_LIBRARY_PATH
75
75
  # /usr/local/nvidia/lib:/usr/local/nvidia/lib64
76
76
 
77
77
  ldconfig -p | grep libcuda
78
78
  # libcudart.so.10.0 (libc6,x86-64) => /usr/local/cuda-10.0/targets/x86_64-linux/lib/libcudart.so.10.0
79
79
  # libcuda.so.1 (libc6,x86-64) => /usr/lib/x86_64-linux-gnu/libcuda.so.1
80
+ ```
81
+
82
+ ### バージョン等確認
83
+ ```bash
84
+ # ホスト
85
+ $ docker —version
86
+ Docker version 20.10.7, build f0df350
87
+
88
+ # ホスト
89
+ $ nvidia-container-cli info
90
+ NVRM version: 430.64
91
+ CUDA version: 10.1
92
+ GPU認識されているが省略
93
+
94
+ # ホスト
95
+ $ ls -lh /usr/lib/x86_64-linux-gnu/libcuda.so*
96
+ ls: '/usr/lib/x86_64-linux-gnu/libcuda.so*' にアクセスできません: そのようなファイルやディレクトリはありません
97
+
98
+ # コンテナ
99
+ $ ls -lh /usr/lib/x86_64-linux-gnu/libcuda.so*
100
+ lrwxrwxrwx 1 root root 18 Aug 5 05:21 /usr/lib/x86_64-linux-gnu/libcuda.so.1 -> libcuda.so.410.129
101
+ -rw-r--r-- 1 root root 15M Aug 14 2019 /usr/lib/x86_64-linux-gnu/libcuda.so.410.129
80
102
  ```

5

確認事項追記

2021/08/05 05:22

投稿

MagMag
MagMag

スコア80

title CHANGED
File without changes
body CHANGED
@@ -11,6 +11,8 @@
11
11
  - ホストOS(GPU搭載機体)には、Nvidiaのドライバの430.64をインストールしました(古いバージョンからアップデートしたので、そこが原因かもしれません)。その後本体再起動しています。
12
12
  - ホストコンピュータ上でもコンテナ上でもnvidia-smiコマンドは通り、共にドライバは430.64で認識されます。
13
13
  - nvidiaドライバ、cuda、tensorflow、pythonのバージョンを合わせて導入したつもりです。
14
+ - GPU利用可能なTensoflowのイメージを利用しても問題が再現しました。
15
+ - GPUはGeFroce GTX 1080Ti(4枚)となります。
14
16
 
15
17
  ### 実行ファイル等
16
18
  ```DockerFile

4

調査コマンド追加

2021/08/05 01:25

投稿

MagMag
MagMag

スコア80

title CHANGED
File without changes
body CHANGED
@@ -65,4 +65,14 @@
65
65
  # incarnation: 11837196615187333375
66
66
  # physical_device_desc: "device: XLA_CPU device"
67
67
  # ]
68
+ ```
69
+
70
+ ### コンテナ内でのライブラリパス確認
71
+ ```bash
72
+ echo $LD_LIBRARY_PATH
73
+ # /usr/local/nvidia/lib:/usr/local/nvidia/lib64
74
+
75
+ ldconfig -p | grep libcuda
76
+ # libcudart.so.10.0 (libc6,x86-64) => /usr/local/cuda-10.0/targets/x86_64-linux/lib/libcudart.so.10.0
77
+ # libcuda.so.1 (libc6,x86-64) => /usr/lib/x86_64-linux-gnu/libcuda.so.1
68
78
  ```

3

誤字修正

2021/08/05 01:20

投稿

MagMag
MagMag

スコア80

title CHANGED
File without changes
body CHANGED
@@ -10,7 +10,7 @@
10
10
  ### 確認事項等
11
11
  - ホストOS(GPU搭載機体)には、Nvidiaのドライバの430.64をインストールしました(古いバージョンからアップデートしたので、そこが原因かもしれません)。その後本体再起動しています。
12
12
  - ホストコンピュータ上でもコンテナ上でもnvidia-smiコマンドは通り、共にドライバは430.64で認識されます。
13
- - nvidiaドライバ、cuda、tensorflow、tensorflowのバージョンを合わせて導入したつもりです。
13
+ - nvidiaドライバ、cuda、tensorflow、pythonのバージョンを合わせて導入したつもりです。
14
14
 
15
15
  ### 実行ファイル等
16
16
  ```DockerFile

2

表題変更

2021/08/04 09:41

投稿

MagMag
MagMag

スコア80

title CHANGED
@@ -1,1 +1,1 @@
1
- Docker+GPU+TensorFlow環境構築において、GPUを認識しない(Nvidiaドライバの不一致?)
1
+ Docker+GPU+TensorFlow環境構築において、GPUを認識しない(なぜかNvidiaドライバが2つ出現?)
body CHANGED
File without changes

1

表題わかりやすくした。

2021/08/04 07:10

投稿

MagMag
MagMag

スコア80

title CHANGED
@@ -1,1 +1,1 @@
1
- Docker+GPU+TensorFlow環境構築において、Nvidiaドライバの不一致が起きる
1
+ Docker+GPU+TensorFlow環境構築において、GPUを認識しない(Nvidiaドライバの不一致?)
body CHANGED
File without changes