Ошибка при загрузке драйвера NVIDIA и CUDA после переустановки

У меня есть компьютер с:

  • Система: Ubuntu 14.04
  • GPU: NVIDIA GTX1080ti

Приблизительно один год назад я установил систему и затем установил CUDA8.0 с драйверами NVIDIA на этом компьютере. GPU и CUDA работали правильно до сих пор, когда я пытался установить старшую версию CUDA.

Из-за некоторых причин я пытался установить CUDA10.0 для замены, ток установил CUDA8.0. Сначала я удалил старое использование драйверов nvidia-uninstall. И затем удаленный старое использование CUDA /usr/local/cuda-8.0/bin/uninstall_cuda_8.0.pl. После них я установил CUDA10.0 наряду с новым драйвером, с помощью runfile установщика, загруженного с этой страницы. Однако установка была отказавшей. После нескольких неудачных отладок я сдался, удалил новые драйверы и новый CUDA, и переустановите CUDA8.0 с runfile установщиком, загруженным с этой страницы. Установка была успешна. Но я ничего не могу получить о CUDA, запущенном больше, включая pycuda, pyopencl и tensorflow. Все эти пакеты сообщили, что не могут найти устройство GPU.


Обновление:

Я попытался удалить все компоненты NVIDIA sudo apt-get --purge remove nvidia-*, а также nvidia-uninstall и uninstall_cuda_8.0.pl. Но проблема все еще остается. В то время как сообщения об ошибке и системные журналы стали отличающимися. Следующее является журналами существующей системы:


Вот некоторые мои системные журналы:

В Python CLI, pycuda отказавший:

Python 2.7.6 (default, Nov 23 2017, 15:49:48) 
[GCC 4.8.4] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import pycuda.driver as cuda
>>> import pycuda.autoinit
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/usr/local/lib/python2.7/dist-packages/pycuda/autoinit.py", line 5, in <module>
    cuda.init()
pycuda._driver.RuntimeError: cuInit failed: no CUDA-capable device is detected
>>> 

nvidia-smi отчеты:

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 375.26                 Driver Version: 375.26                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  ERR!                Off  | 0000:01:00.0      On |                  N/A |
| 28%   52C    P8    15W / 300W |     43MiB / 11168MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID  Type  Process name                               Usage      |
|=============================================================================|
|    0      1868    G   /usr/lib/xorg/Xorg                              40MiB |
+-----------------------------------------------------------------------------+

dmesg | grep nvidia отчеты:

[    2.370841] nvidia: loading out-of-tree module taints kernel.
[    2.370844] nvidia: module license 'NVIDIA' taints kernel.
[    2.374116] nvidia: module verification failed: signature and/or required key missing - tainting kernel
[    2.380809] nvidia-nvlink: Nvlink Core is being initialized, major device number 242
[    2.383631] nvidia-modeset: Loading NVIDIA Kernel Mode Setting Driver for UNIX platforms  375.26  Thu Dec  8 18:04:14 PST 2016
[    2.385803] [drm] [nvidia-drm] [GPU ID 0x00000100] Loading driver
[    2.717844] init: nvidia-prime main process (1094) terminated with status 127
[    7.447032] nvidia-modeset: Allocated GPU:0 (GPU-3727ccd9-f1fc-78c9-f908-5e1edf205194) @ PCI:0000:01:00.0
[   72.737634] nvidia-uvm: Loaded the UVM driver in 8 mode, major device number 241

nvidia-smi -a отчеты (ОТМЕЧАЮТ что Product Name столбец Unknown Error):

==============NVSMI LOG==============

Timestamp                           : Thu Sep 27 10:16:41 2018
Driver Version                      : 375.26

Attached GPUs                       : 1
GPU 0000:01:00.0
    Product Name                    : Unknown Error
    Product Brand                   : GeForce
    Display Mode                    : Enabled
    Display Active                  : Enabled
    Persistence Mode                : Disabled
    Accounting Mode                 : Disabled
    Accounting Mode Buffer Size     : 1920
    Driver Model
        Current                     : N/A
        Pending                     : N/A
    Serial Number                   : N/A
    GPU UUID                        : GPU-3727ccd9-f1fc-78c9-f908-5e1edf205194
    Minor Number                    : 0
    VBIOS Version                   : 86.02.40.00.2E
    MultiGPU Board                  : No
    Board ID                        : 0x100
    GPU Part Number                 : N/A
    Inforom Version
        Image Version               : G001.0000.01.04
        OEM Object                  : 1.1
        ECC Object                  : N/A
        Power Management Object     : N/A
    GPU Operation Mode
        Current                     : N/A
        Pending                     : N/A
    GPU Virtualization Mode
        Virtualization mode         : None
    PCI
        Bus                         : 0x01
        Device                      : 0x00
        Domain                      : 0x0000
        Device Id                   : 0x1B0610DE
        Bus Id                      : 0000:01:00.0
        Sub System Id               : 0x11117377
        GPU Link Info
            PCIe Generation
                Max                 : 3
                Current             : 1
            Link Width
                Max                 : 16x
                Current             : 16x
        Bridge Chip
            Type                    : N/A
            Firmware                : N/A
        Replays since reset         : 0
        Tx Throughput               : 0 KB/s
        Rx Throughput               : 0 KB/s
    Fan Speed                       : 0 %
    Performance State               : P8
    Clocks Throttle Reasons
        Idle                        : Active
        Applications Clocks Setting : Not Active
        SW Power Cap                : Not Active
        HW Slowdown                 : Not Active
        Sync Boost                  : Not Active
        Unknown                     : Not Active
    FB Memory Usage
        Total                       : 11168 MiB
        Used                        : 43 MiB
        Free                        : 11125 MiB
    BAR1 Memory Usage
        Total                       : 256 MiB
        Used                        : 5 MiB
        Free                        : 251 MiB
    Compute Mode                    : Default
    Utilization
        Gpu                         : 0 %
        Memory                      : 2 %
        Encoder                     : 0 %
        Decoder                     : 0 %
    Ecc Mode
        Current                     : N/A
        Pending                     : N/A
    ECC Errors
        Volatile
            Single Bit            
                Device Memory       : N/A
                Register File       : N/A
                L1 Cache            : N/A
                L2 Cache            : N/A
                Texture Memory      : N/A
                Texture Shared      : N/A
                Total               : N/A
            Double Bit            
                Device Memory       : N/A
                Register File       : N/A
                L1 Cache            : N/A
                L2 Cache            : N/A
                Texture Memory      : N/A
                Texture Shared      : N/A
                Total               : N/A
        Aggregate
            Single Bit            
                Device Memory       : N/A
                Register File       : N/A
                L1 Cache            : N/A
                L2 Cache            : N/A
                Texture Memory      : N/A
                Texture Shared      : N/A
                Total               : N/A
            Double Bit            
                Device Memory       : N/A
                Register File       : N/A
                L1 Cache            : N/A
                L2 Cache            : N/A
                Texture Memory      : N/A
                Texture Shared      : N/A
                Total               : N/A
    Retired Pages
        Single Bit ECC              : N/A
        Double Bit ECC              : N/A
        Pending                     : N/A
    Temperature
        GPU Current Temp            : 43 C
        GPU Shutdown Temp           : 96 C
        GPU Slowdown Temp           : 93 C
    Power Readings
        Power Management            : Supported
        Power Draw                  : 14.68 W
        Power Limit                 : 300.00 W
        Default Power Limit         : 300.00 W
        Enforced Power Limit        : 300.00 W
        Min Power Limit             : 125.00 W
        Max Power Limit             : 330.00 W
    Clocks
        Graphics                    : 240 MHz
        SM                          : 240 MHz
        Memory                      : 405 MHz
        Video                       : 544 MHz
    Applications Clocks
        Graphics                    : N/A
        Memory                      : N/A
    Default Applications Clocks
        Graphics                    : N/A
        Memory                      : N/A
    Max Clocks
        Graphics                    : 1999 MHz
        SM                          : 1999 MHz
        Memory                      : 5505 MHz
        Video                       : 1708 MHz
    Clock Policy
        Auto Boost                  : N/A
        Auto Boost Default          : N/A
    Processes
        Process ID                  : 1868
            Type                    : G
            Name                    : /usr/lib/xorg/Xorg
            Used GPU Memory         : 40 MiB

Я не могу выяснить что случилось с ним, и как решить это. Кто-либо мог помочь мне?

0
задан 26 September 2018 в 22:31

1 ответ

Попробуйте запустить программу cuda от имени пользователя root. Я видел это в дикой природе на машине 14.04 после аналогичных обстоятельств. Это должно исправить это до следующей перезагрузки.

0
ответ дан 27 October 2019 в 09:57

Другие вопросы по тегам:

Похожие вопросы: