Состояние драйвера Weid cuda после упущения очистить ресурсы прежде, чем приостановить компьютер

Я делал разработку CUDA некоторое время на Ubuntu 18.04, 4.15.0-46-универсальное ядро, драйвер 410.48 Nvidia и карта GeForce GTX 1060.

Иногда я не могу сделать разработки CUDA больше на Clojure REPL с помощью оберток для JCuda, я получу только ошибки "CUDA_ERROR_UNKNOWN", пока я не перезагружу компьютер. Я подозреваю, что этого не произошло бы, если я буду всегда не забывать высвобождать свои средства CUDA на REPL прежде, чем приостановить компьютер, но я, кажется, продолжаю повторять эту ошибку :(

Странно nvidia-smi управляйте работами, но когда я попытаюсь работать nvidia-docker run --rm nvidia/cuda:9.0-base nvidia-smi это распечатывает это сообщение об ошибке и выходы:

docker: Error response from daemon: OCI runtime create failed: container_linux.go:344:
starting container process caused "process_linux.go:424: container init caused \"process_linux.go:407:
running prestart hook 1 caused \\\"error running hook: exit status 1,
stdout: , stderr: exec command: [/usr/bin/nvidia-container-cli --load-kmods configure
--ldconfig=@/sbin/ldconfig.real --device=all --compute --utility --require=cuda>=9.0
--pid=3265 /var/lib/docker/aufs/mnt/a6ddd30bf9b16f4affe5024840625747cf56a7ebee10e5940a90a16770c20190]
\\\\nnvidia-container-cli: initialization error: cuda error: unknown error\\\\n\\\"\"": unknown.

nvidia-smi произвела:

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 410.48                 Driver Version: 410.48                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce GTX 106...  Off  | 00000000:01:00.0  On |                  N/A |
|  0%   36C    P0    27W / 150W |    894MiB /  6075MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|    0      6042      G   /usr/lib/xorg/Xorg                           566MiB |
...

У Вас есть какие-либо подсказки относительно того, как "сбросить" состояние драйвера (что когда-нибудь вызывает это) без перезагрузки? Вход в систему и, кажется, не фиксирует его, и даже который является почти как неудобный, чем полный перезапуск. Я не хотел бы вновь открыть все свои приложения.

1
задан 23 March 2019 в 17:24

1 ответ

На форумах Nvidia кто-то предполагает, что перезагрузка драйвера могла бы покончить с перезапуском.

Вот шаги, которые они упоминают (я не протестировал это):

  1. Остановите все программы с помощью драйвера (особенно X11)
  2. lsmod | grep nvidia и rmmod модули с нулевым количеством использования. Необходимо сделать это в порядке зависимости (столбец на праве показывает модули, что этот драйвер зависит от),
  3. Повторитесь, пока никакие модули ядра Nvidia не будут загружены.
  4. modprobe nvidia перезагружать драйвер.
  5. Перезапустите X11 или независимо от того, что использовало GPU

Обратите внимание, что из-за шага 1, можно потерять все открытые приложения (которые зависят от X11). Однако, если Вы устанавливаете свой X11 для не использования графики Nvidia, но Intel интегрировался один, затем необходимо смочь перезагрузить драйвер с минимальным влиянием.

Сообщите нам, работает ли это!

1
ответ дан 7 December 2019 в 15:06

Другие вопросы по тегам:

Похожие вопросы: