Я только что закончил тщательную установку последнего диска nvidia на новый экземпляр amazon g2.2xlarge ec2, который я хотел бы использовать для машинного обучения.
Перед установкой cuda и других пакетов я хотел бы убедиться, что драйвер установлен правильно.
Насколько я понимаю, nvidia-smi является инструментом для этой работы.
Команда nvidia-smi, похоже, возвращает результат, когда я не использую никаких опций.
ubuntu@ip-10-220-191-26:~$ nvidia-smi
Tue Apr 5 05:51:06 2016
+------------------------------------------------------+
| NVIDIA-SMI 352.39 Driver Version: 352.39 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
Killed
Однако, если я попрошу его отобразить графические процессоры или даже страницу справки, он просто зависнет.
ubuntu@ip-10-220-191-26:~$ nvidia-smi -L
Я даже не могу убить его с помощью SIGKILL. Я должен перезагрузить машину.
ubuntu@ip-10-220-191-26:~$ ps aux | grep smi
ubuntu 3919 0.0 0.0 14120 932 pts/0 D+ 05:37 0:00 nvidia-smi -h
ubuntu 3991 0.0 0.0 14120 928 pts/1 D+ 05:38 0:00 nvidia-smi -L
ubuntu 4064 0.0 0.0 10460 928 pts/2 S+ 05:42 0:00 grep --color=auto smi
ubuntu@ip-10-220-191-26:~$ kill 3919
ubuntu@ip-10-220-191-26:~$ kill 3991
ubuntu@ip-10-220-191-26:~$ ps aux | grep smi
ubuntu 3919 0.0 0.0 14120 932 pts/0 D+ 05:37 0:00 nvidia-smi -h
ubuntu 3991 0.0 0.0 14120 928 pts/1 D+ 05:38 0:00 nvidia-smi -L
ubuntu 4066 0.0 0.0 10460 932 pts/2 S+ 05:43 0:00 grep --color=auto smi
Я не уверен, как отладить эту проблему.
Я просто хотел бы убедиться, что диск правильно установлен и взаимодействует с графическими процессорами.
Возможно, это ошибка графического процессора, поэтому $nvidia-smi
зависает.
Попробуйте запустить:
$ journalctl -p 3 | grep -i "nvidia"
И просмотрите журналы, чтобы найти сообщение/код ошибки для вашей проблемы.