Я делал разработку CUDA некоторое время на Ubuntu 18.04, 4.15.0-46-универсальное ядро, драйвер 410.48 Nvidia и карта GeForce GTX 1060.
Иногда я не могу сделать разработки CUDA больше на Clojure REPL с помощью оберток для JCuda, я получу только ошибки "CUDA_ERROR_UNKNOWN", пока я не перезагружу компьютер. Я подозреваю, что этого не произошло бы, если я буду всегда не забывать высвобождать свои средства CUDA на REPL прежде, чем приостановить компьютер, но я, кажется, продолжаю повторять эту ошибку :(
Странно nvidia-smi
управляйте работами, но когда я попытаюсь работать nvidia-docker run --rm nvidia/cuda:9.0-base nvidia-smi
это распечатывает это сообщение об ошибке и выходы:
docker: Error response from daemon: OCI runtime create failed: container_linux.go:344:
starting container process caused "process_linux.go:424: container init caused \"process_linux.go:407:
running prestart hook 1 caused \\\"error running hook: exit status 1,
stdout: , stderr: exec command: [/usr/bin/nvidia-container-cli --load-kmods configure
--ldconfig=@/sbin/ldconfig.real --device=all --compute --utility --require=cuda>=9.0
--pid=3265 /var/lib/docker/aufs/mnt/a6ddd30bf9b16f4affe5024840625747cf56a7ebee10e5940a90a16770c20190]
\\\\nnvidia-container-cli: initialization error: cuda error: unknown error\\\\n\\\"\"": unknown.
nvidia-smi произвела:
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 410.48 Driver Version: 410.48 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 GeForce GTX 106... Off | 00000000:01:00.0 On | N/A |
| 0% 36C P0 27W / 150W | 894MiB / 6075MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: GPU Memory |
| GPU PID Type Process name Usage |
|=============================================================================|
| 0 6042 G /usr/lib/xorg/Xorg 566MiB |
...
У Вас есть какие-либо подсказки относительно того, как "сбросить" состояние драйвера (что когда-нибудь вызывает это) без перезагрузки? Вход в систему и, кажется, не фиксирует его, и даже который является почти как неудобный, чем полный перезапуск. Я не хотел бы вновь открыть все свои приложения.
На форумах Nvidia кто-то предполагает, что перезагрузка драйвера могла бы покончить с перезапуском.
Вот шаги, которые они упоминают (я не протестировал это):
lsmod | grep nvidia
и rmmod
модули с нулевым количеством использования. Необходимо сделать это в порядке зависимости (столбец на праве показывает модули, что этот драйвер зависит от),modprobe nvidia
перезагружать драйвер.Обратите внимание, что из-за шага 1, можно потерять все открытые приложения (которые зависят от X11). Однако, если Вы устанавливаете свой X11 для не использования графики Nvidia, но Intel интегрировался один, затем необходимо смочь перезагрузить драйвер с минимальным влиянием.
Сообщите нам, работает ли это!