nvidia-smi висит. не может быть убит даже SIGKILL

Я только что закончил тщательную установку последнего диска nvidia на новый экземпляр amazon g2.2xlarge ec2, который я хотел бы использовать для машинного обучения.

Перед установкой cuda и других пакетов я хотел бы убедиться, что драйвер установлен правильно.

Насколько я понимаю, nvidia-smi является инструментом для этой работы.

Команда nvidia-smi, похоже, возвращает результат, когда я не использую никаких опций.

ubuntu@ip-10-220-191-26:~$ nvidia-smi 
Tue Apr  5 05:51:06 2016       
+------------------------------------------------------+                       
| NVIDIA-SMI 352.39     Driver Version: 352.39         |                       
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
Killed

Однако, если я попрошу его отобразить графические процессоры или даже страницу справки, он просто зависнет.

ubuntu@ip-10-220-191-26:~$ nvidia-smi -L

Я даже не могу убить его с помощью SIGKILL. Я должен перезагрузить машину.

ubuntu@ip-10-220-191-26:~$ ps aux | grep smi
ubuntu    3919  0.0  0.0  14120   932 pts/0    D+   05:37   0:00 nvidia-smi -h
ubuntu    3991  0.0  0.0  14120   928 pts/1    D+   05:38   0:00 nvidia-smi -L
ubuntu    4064  0.0  0.0  10460   928 pts/2    S+   05:42   0:00 grep --color=auto smi
ubuntu@ip-10-220-191-26:~$ kill 3919
ubuntu@ip-10-220-191-26:~$ kill 3991
ubuntu@ip-10-220-191-26:~$ ps aux | grep smi
ubuntu    3919  0.0  0.0  14120   932 pts/0    D+   05:37   0:00 nvidia-smi -h
ubuntu    3991  0.0  0.0  14120   928 pts/1    D+   05:38   0:00 nvidia-smi -L
ubuntu    4066  0.0  0.0  10460   932 pts/2    S+   05:43   0:00 grep --color=auto smi

Я не уверен, как отладить эту проблему.

Я просто хотел бы убедиться, что диск правильно установлен и взаимодействует с графическими процессорами.

5
задан 5 April 2016 в 09:01

1 ответ

Возможно, это ошибка графического процессора, поэтому $nvidia-smi зависает. Попробуйте запустить:
$ journalctl -p 3 | grep -i "nvidia"

И просмотрите журналы, чтобы найти сообщение/код ошибки для вашей проблемы.

1
ответ дан 8 December 2020 в 09:41

Другие вопросы по тегам:

Похожие вопросы: