Ubuntu 20.04 произвольно «блокируется» - проблемы с USB?

Это на свежей установке Ubuntu 20.04 на моем рабочем столе. Я начал с Ubuntu Server 20.04, затем добавил GNOME для минимальной настройки. Это встроенная система с Ryzen 7 1800x и материнской платой Gigabyte AX370 Gaming 5. Операционная система загружается с диска NVMe в режиме UEFI.

Проблема в том, что иногда моя машина неожиданно зависала. Это происходило и в 18.04, но не так часто (как раз в неделю или около того, но сейчас я уже видел 4 аварии за последний час). Другое отличие состоит в том, что, когда моя система блокируется в 18.04, я все еще буду в состоянии пинговать или SSH в нее, но в 20.04 система вообще отключится от сети. Нет ответов на пинг вообще.

Я проверил dmesg , чтобы увидеть, что могло пойти не так, но я не нашел там ничего, что указывало бы на какие-либо проблемы. Поэтому я посмотрел на сообщения системного журнала, сужаясь до моментов, предшествовавших краху системы, и заметил:

May  3 16:33:39 ubuntu fido_id[37963]: 1-12:1.0: Failed to open report descriptor at '/sys/devices/pci0000:00/0000:00:01.3/0000:02:00.0/usb1/1-12/1-12:1.0/report_descriptor': No such file or directory
May  3 16:33:39 ubuntu kernel: [43202.523116] hid-generic 0003:1B1C:0C04.2991: hiddev0,hidraw0: USB HID v1.11 Device [Corsair Memory, Inc. Integrated USB Bridge] on usb-0000:02:00.0-12/input0
May  3 16:33:39 ubuntu kernel: [43202.532084] hid-generic 0003:1B1C:0C04.2992: hiddev0,hidraw0: USB HID v1.11 Device [Corsair Memory, Inc. Integrated USB Bridge] on usb-0000:02:00.0-12/input0
May  3 16:33:39 ubuntu fido_id[37965]: 1-12:1.0: Failed to open report descriptor at '/sys/devices/pci0000:00/0000:00:01.3/0000:02:00.0/usb1/1-12/1-12:1.0/report_descriptor': No such file or directory
May  3 16:33:39 ubuntu kernel: [43202.541495] hid-generic 0003:1B1C:0C04.2993: hiddev0,hidraw0: USB HID v1.11 Device [Corsair Memory, Inc. Integrated USB Bridge] on usb-0000:02:00.0-12/input0
May  3 16:33:39 ubuntu fido_id[37967]: 1-12:1.0: Failed to open report descriptor at '/sys/devices/pci0000:00/0000:00:01.3/0000:02:00.0/usb1/1-12/1-12:1.0/report_descriptor': No such file or directory
May  3 16:33:39 ubuntu fido_id[37969]: 1-12:1.0: Failed to open report descriptor at '/sys/devices/pci0000:00/0000:00:01.3/0000:02:00.0/usb1/1-12/1-12:1.0/report_descriptor': No such file or directory
May  3 16:33:39 ubuntu fido_id[37971]: 1-12:1.0: Failed to open report descriptor at '/sys/devices/pci0000:00/0000:00:01.3/0000:02:00.0/usb1/1-12/1-12:1.0/report_descriptor': No such file or directory
May  3 16:33:39 ubuntu fido_id[37973]: 1-12:1.0: Failed to open report descriptor at '/sys/devices/pci0000:00/0000:00:01.3/0000:02:00.0/usb1/1-12/1-12:1.0/report_descriptor': No such file or directory
May  3 16:33:39 ubuntu kernel: [43202.601501] hid-generic 0003:1B1C:1C07.2994: hiddev0,hidraw0: USB HID v1.11 Device [                                                ] on usb-0000:02:00.0-13.2/input0
May  3 16:33:39 ubuntu kernel: [43202.606771] hid-generic 0003:1B1C:0C04.2995: hiddev4,hidraw4: USB HID v1.11 Device [Corsair Memory, Inc. Integrated USB Bridge] on usb-0000:02:00.0-12/input0

<... a bunch of invalid characters here...>

Invalid argument
May  3 16:36:06 ubuntu systemd-modules-load[625]: Inserted module 'lp'

Исходя из этого, я считаю, что Недопустимый аргумент - это последняя строка перед тем, как система перестала отвечать ... но это, кажется, не говорит много (если вообще) о проблеме.

ls -al / var / crash показывает, что каталог аварии довольно пустой:

root@ubuntu:~# ls -al /var/crash
total 8
drwxrwxrwt  2 root root 4096 May  3 19:56 .
drwxr-xr-x 15 root root 4096 May  3 03:02 ..

Кроме того, вот еще вывод из free -h , sysctl vm.swappiness и dmidecode -s bios-версия :

root@ubuntu:~# free -h
              total        used        free      shared  buff/cache   available
Mem:           47Gi       1.4Gi        45Gi       3.0Mi       637Mi        45Gi
Swap:          15Gi          0B        15Gi
root@ubuntu:~# sysctl vm.swappiness
vm.swappiness = 60
root@ubuntu:~# dmidecode -s bios-version
F50a

Конфигурация памяти:

  *-memory
       description: System Memory
       physical id: 9
       slot: System board or motherboard
       size: 48GiB
     *-bank:0
          description: DIMM DDR4 Synchronous Unbuffered (Unregistered) 2400 MHz (0.4 ns)
          product: KHX2400C15/8G
          vendor: Kingston
          physical id: 0
          serial: AF2C5F46
          slot: DIMM 0
          size: 8GiB
          width: 64 bits
          clock: 2400MHz (0.4ns)
     *-bank:1
          description: DIMM DDR4 Synchronous Unbuffered (Unregistered) 2400 MHz (0.4 ns)
          product: CMK32GX4M2A2400C16
          vendor: Unknown
          physical id: 1
          serial: 00000000
          slot: DIMM 1
          size: 16GiB
          width: 64 bits
          clock: 2400MHz (0.4ns)
     *-bank:2
          description: DIMM DDR4 Synchronous Unbuffered (Unregistered) 2400 MHz (0.4 ns)
          product: KHX2400C15/8G
          vendor: Kingston
          physical id: 2
          serial: BE2A03A9
          slot: DIMM 0
          size: 8GiB
          width: 64 bits
          clock: 2400MHz (0.4ns)
     *-bank:3
          description: DIMM DDR4 Synchronous Unbuffered (Unregistered) 2400 MHz (0.4 ns)
          product: CMK32GX4M2A2400C16
          vendor: Unknown
          physical id: 3
          serial: 00000000
          slot: DIMM 1
          size: 16GiB
          width: 64 bits
          clock: 2400MHz (0.4ns)

Другая важная вещь, работающая на Система является гостем KVM, работающим под управлением Windows 10, с проходным графическим процессором с VFIO:

09:00.0 VGA compatible controller [0300]: NVIDIA Corporation GP102 [GeForce GTX 1080 Ti] [10de:1b06] (rev a1) (prog-if 00 [VGA controller])
    Subsystem: ASUSTeK Computer Inc. GP102 [GeForce GTX 1080 Ti] [1043:85e5]
    Flags: fast devsel, IRQ 128
    Memory at f4000000 (32-bit, non-prefetchable) [size=16M]
    Memory at c0000000 (64-bit, prefetchable) [size=256M]
    Memory at d0000000 (64-bit, prefetchable) [size=32M]
    I/O ports at e000 [size=128]
    Expansion ROM at f5000000 [disabled] [size=512K]
    Capabilities: [60] Power Management version 3
    Capabilities: [68] MSI: Enable- Count=1/1 Maskable- 64bit+
    Capabilities: [78] Express Legacy Endpoint, MSI 00
    Capabilities: [100] Virtual Channel
    Capabilities: [250] Latency Tolerance Reporting
    Capabilities: [128] Power Budgeting <?>
    Capabilities: [420] Advanced Error Reporting
    Capabilities: [600] Vendor Specific Information: ID=0001 Rev=1 Len=024 <?>
    Capabilities: [900] Secondary PCI Express
    Kernel driver in use: vfio-pci
    Kernel modules: nvidiafb, nouveau, nvidia_drm, nvidia

09:00.1 Audio device [0403]: NVIDIA Corporation GP102 HDMI Audio Controller [10de:10ef] (rev a1)
    Subsystem: ASUSTeK Computer Inc. GP102 HDMI Audio Controller [1043:85e5]
    Flags: fast devsel, IRQ 129
    Memory at f5080000 (32-bit, non-prefetchable) [size=16K]
    Capabilities: [60] Power Management version 3
    Capabilities: [68] MSI: Enable- Count=1/1 Maskable- 64bit+
    Capabilities: [78] Express Endpoint, MSI 00
    Capabilities: [100] Advanced Error Reporting
    Kernel driver in use: vfio-pci
    Kernel modules: snd_hda_intel

Так что же могло быть причиной аварии? Из того, что я могу сказать, это может иметь какое-то отношение к USB-устройствам, но тогда почему вся система блокируется таким образом? И как можно решить проблему?

Спасибо!

Редактировать: после прочтения еще одна вещь, которая может вызвать проблему, может быть состояниями Ризена С6. В настоящее время я проверяю, чтобы изменить настройки BIOS для блока питания на типичный ток , , от до нуля, от до , отключить . и Глобальное управление состояниями C - отключено . Кажется, это работает, но только время покажет ...

Редактировать 2: проблема не в состояниях власти. Однако я сузил проблему до чего-то с помощью IOMMU или KVM / QEMU.

Замораживание происходит только при включенном IOMMU, и моя виртуальная машина Windows (с сквозным устройством PCIe через VFIO) активна. С полностью отключенным IOMMU я работаю> 48 часов без сбоев. Но мне нужно, чтобы виртуальная машина работала, поэтому мне придется продолжить расследование.

2
задан 8 May 2020 в 06:16

2 ответа

Разгон

Если вы разогнали свой ЦП или ОЗУ, восстановите его до нормального состояния.

BIOS

Вы уже не ниже F50a.

Ryzen

Некоторые процессоры Ryzen 7 1800X не работают в Linux. Есть отзыв.

См. https://www.extremetech.com/computing/254750-amd-replaces-ryzen-cpus-users-acted-rare-linux-bug

Память

Уверенность эта память установлена ​​в равных согласованных парах, чтобы система могла использовать перемежение памяти. Используйте sudo lshw -C memory для подтверждения конфигурации. Подтвердите правильную настройку канала A / канала B.

Перейдите на https://www.memtest86.com/ и загрузите / запустите их бесплатный memtest для проверки вашей памяти. Получите хотя бы один полный проход из всех 4/4 тестов, чтобы подтвердить хорошую память. Это может занять много часов.

Обмен

Ваш обмен безумно велик. Я бы уменьшил его до 4G и посмотрю, как это получится.

3
ответ дан 19 June 2020 в 21:43

Это звучит очень похоже на проблему с памятью или напряжение.

Я заметил, что ваша память RAM от двух разных производителей с разными размерами. Кроме того, по выводу конфигурации памяти, которую вы чередуете между воспоминаниями:

Bank1: Kingston 8GB Bank2: без бренда 16 ГБ Банк3: Кингстон 8ГБ Bank4: Unbranded 16GB

Вы должны хранить в одном и том же банке память того же размера и той же марки.

Если подкачка памяти не работает, я бы проверил блок питания. Похоже, у вас там довольно мощный компьютер (на самом деле это почти та же конфигурация, что и у меня: 48 ГБ ОЗУ, Geforce 1080, но у меня Intel 8770k), поэтому вам нужен блок питания, который справится со всем этим.

Если вы посмотрите страницу характеристик для GTX 1080Ti , вы увидите, что только она потребляет 250 Вт. Если вы используете блок питания в диапазоне 300 Вт / 400 Вт (учитывая, что вы используете хороший бренд, более дешевые бренды имеют номинальные значения 600 Вт, 700 Вт, но их фактическая мощность намного ниже), есть большая вероятность, что графическая плата дестабилизирует напряжение всей системы и должен искать более мощный блок питания.

0
ответ дан 19 June 2020 в 21:43

Другие вопросы по тегам:

Похожие вопросы: