質問編集履歴
6
確認事項追記
title
CHANGED
File without changes
|
body
CHANGED
@@ -35,7 +35,7 @@
|
|
35
35
|
```
|
36
36
|
|
37
37
|
```bash
|
38
|
-
docker run -it --gpus all tensor_image /bin/bash
|
38
|
+
$ docker run -it --gpus all tensor_image /bin/bash
|
39
39
|
```
|
40
40
|
|
41
41
|
```python
|
@@ -71,10 +71,32 @@
|
|
71
71
|
|
72
72
|
### コンテナ内でのライブラリパス確認
|
73
73
|
```bash
|
74
|
-
echo $LD_LIBRARY_PATH
|
74
|
+
$ echo $LD_LIBRARY_PATH
|
75
75
|
# /usr/local/nvidia/lib:/usr/local/nvidia/lib64
|
76
76
|
|
77
77
|
ldconfig -p | grep libcuda
|
78
78
|
# libcudart.so.10.0 (libc6,x86-64) => /usr/local/cuda-10.0/targets/x86_64-linux/lib/libcudart.so.10.0
|
79
79
|
# libcuda.so.1 (libc6,x86-64) => /usr/lib/x86_64-linux-gnu/libcuda.so.1
|
80
|
+
```
|
81
|
+
|
82
|
+
### バージョン等確認
|
83
|
+
```bash
|
84
|
+
# ホスト
|
85
|
+
$ docker —version
|
86
|
+
Docker version 20.10.7, build f0df350
|
87
|
+
|
88
|
+
# ホスト
|
89
|
+
$ nvidia-container-cli info
|
90
|
+
NVRM version: 430.64
|
91
|
+
CUDA version: 10.1
|
92
|
+
GPU認識されているが省略
|
93
|
+
|
94
|
+
# ホスト
|
95
|
+
$ ls -lh /usr/lib/x86_64-linux-gnu/libcuda.so*
|
96
|
+
ls: '/usr/lib/x86_64-linux-gnu/libcuda.so*' にアクセスできません: そのようなファイルやディレクトリはありません
|
97
|
+
|
98
|
+
# コンテナ
|
99
|
+
$ ls -lh /usr/lib/x86_64-linux-gnu/libcuda.so*
|
100
|
+
lrwxrwxrwx 1 root root 18 Aug 5 05:21 /usr/lib/x86_64-linux-gnu/libcuda.so.1 -> libcuda.so.410.129
|
101
|
+
-rw-r--r-- 1 root root 15M Aug 14 2019 /usr/lib/x86_64-linux-gnu/libcuda.so.410.129
|
80
102
|
```
|
5
確認事項追記
title
CHANGED
File without changes
|
body
CHANGED
@@ -11,6 +11,8 @@
|
|
11
11
|
- ホストOS(GPU搭載機体)には、Nvidiaのドライバの430.64をインストールしました(古いバージョンからアップデートしたので、そこが原因かもしれません)。その後本体再起動しています。
|
12
12
|
- ホストコンピュータ上でもコンテナ上でもnvidia-smiコマンドは通り、共にドライバは430.64で認識されます。
|
13
13
|
- nvidiaドライバ、cuda、tensorflow、pythonのバージョンを合わせて導入したつもりです。
|
14
|
+
- GPU利用可能なTensoflowのイメージを利用しても問題が再現しました。
|
15
|
+
- GPUはGeFroce GTX 1080Ti(4枚)となります。
|
14
16
|
|
15
17
|
### 実行ファイル等
|
16
18
|
```DockerFile
|
4
調査コマンド追加
title
CHANGED
File without changes
|
body
CHANGED
@@ -65,4 +65,14 @@
|
|
65
65
|
# incarnation: 11837196615187333375
|
66
66
|
# physical_device_desc: "device: XLA_CPU device"
|
67
67
|
# ]
|
68
|
+
```
|
69
|
+
|
70
|
+
### コンテナ内でのライブラリパス確認
|
71
|
+
```bash
|
72
|
+
echo $LD_LIBRARY_PATH
|
73
|
+
# /usr/local/nvidia/lib:/usr/local/nvidia/lib64
|
74
|
+
|
75
|
+
ldconfig -p | grep libcuda
|
76
|
+
# libcudart.so.10.0 (libc6,x86-64) => /usr/local/cuda-10.0/targets/x86_64-linux/lib/libcudart.so.10.0
|
77
|
+
# libcuda.so.1 (libc6,x86-64) => /usr/lib/x86_64-linux-gnu/libcuda.so.1
|
68
78
|
```
|
3
誤字修正
title
CHANGED
File without changes
|
body
CHANGED
@@ -10,7 +10,7 @@
|
|
10
10
|
### 確認事項等
|
11
11
|
- ホストOS(GPU搭載機体)には、Nvidiaのドライバの430.64をインストールしました(古いバージョンからアップデートしたので、そこが原因かもしれません)。その後本体再起動しています。
|
12
12
|
- ホストコンピュータ上でもコンテナ上でもnvidia-smiコマンドは通り、共にドライバは430.64で認識されます。
|
13
|
-
- nvidiaドライバ、cuda、tensorflow、
|
13
|
+
- nvidiaドライバ、cuda、tensorflow、pythonのバージョンを合わせて導入したつもりです。
|
14
14
|
|
15
15
|
### 実行ファイル等
|
16
16
|
```DockerFile
|
2
表題変更
title
CHANGED
@@ -1,1 +1,1 @@
|
|
1
|
-
Docker+GPU+TensorFlow環境構築において、GPUを認識しない(Nvidiaドライバ
|
1
|
+
Docker+GPU+TensorFlow環境構築において、GPUを認識しない(なぜかNvidiaドライバが2つ出現?)
|
body
CHANGED
File without changes
|
1
表題わかりやすくした。
title
CHANGED
@@ -1,1 +1,1 @@
|
|
1
|
-
Docker+GPU+TensorFlow環境構築において、Nvidiaドライバの不一致
|
1
|
+
Docker+GPU+TensorFlow環境構築において、GPUを認識しない(Nvidiaドライバの不一致?)
|
body
CHANGED
File without changes
|