Это на свежей установке Ubuntu 20.04 на моем рабочем столе. Я начал с Ubuntu Server 20.04, затем добавил GNOME для минимальной настройки. Это встроенная система с Ryzen 7 1800x и материнской платой Gigabyte AX370 Gaming 5. Операционная система загружается с диска NVMe в режиме UEFI.
Проблема в том, что иногда моя машина неожиданно зависала. Это происходило и в 18.04, но не так часто (как раз в неделю или около того, но сейчас я уже видел 4 аварии за последний час). Другое отличие состоит в том, что, когда моя система блокируется в 18.04, я все еще буду в состоянии пинговать или SSH в нее, но в 20.04 система вообще отключится от сети. Нет ответов на пинг вообще.
Я проверил dmesg
, чтобы увидеть, что могло пойти не так, но я не нашел там ничего, что указывало бы на какие-либо проблемы. Поэтому я посмотрел на сообщения системного журнала, сужаясь до моментов, предшествовавших краху системы, и заметил:
May 3 16:33:39 ubuntu fido_id[37963]: 1-12:1.0: Failed to open report descriptor at '/sys/devices/pci0000:00/0000:00:01.3/0000:02:00.0/usb1/1-12/1-12:1.0/report_descriptor': No such file or directory
May 3 16:33:39 ubuntu kernel: [43202.523116] hid-generic 0003:1B1C:0C04.2991: hiddev0,hidraw0: USB HID v1.11 Device [Corsair Memory, Inc. Integrated USB Bridge] on usb-0000:02:00.0-12/input0
May 3 16:33:39 ubuntu kernel: [43202.532084] hid-generic 0003:1B1C:0C04.2992: hiddev0,hidraw0: USB HID v1.11 Device [Corsair Memory, Inc. Integrated USB Bridge] on usb-0000:02:00.0-12/input0
May 3 16:33:39 ubuntu fido_id[37965]: 1-12:1.0: Failed to open report descriptor at '/sys/devices/pci0000:00/0000:00:01.3/0000:02:00.0/usb1/1-12/1-12:1.0/report_descriptor': No such file or directory
May 3 16:33:39 ubuntu kernel: [43202.541495] hid-generic 0003:1B1C:0C04.2993: hiddev0,hidraw0: USB HID v1.11 Device [Corsair Memory, Inc. Integrated USB Bridge] on usb-0000:02:00.0-12/input0
May 3 16:33:39 ubuntu fido_id[37967]: 1-12:1.0: Failed to open report descriptor at '/sys/devices/pci0000:00/0000:00:01.3/0000:02:00.0/usb1/1-12/1-12:1.0/report_descriptor': No such file or directory
May 3 16:33:39 ubuntu fido_id[37969]: 1-12:1.0: Failed to open report descriptor at '/sys/devices/pci0000:00/0000:00:01.3/0000:02:00.0/usb1/1-12/1-12:1.0/report_descriptor': No such file or directory
May 3 16:33:39 ubuntu fido_id[37971]: 1-12:1.0: Failed to open report descriptor at '/sys/devices/pci0000:00/0000:00:01.3/0000:02:00.0/usb1/1-12/1-12:1.0/report_descriptor': No such file or directory
May 3 16:33:39 ubuntu fido_id[37973]: 1-12:1.0: Failed to open report descriptor at '/sys/devices/pci0000:00/0000:00:01.3/0000:02:00.0/usb1/1-12/1-12:1.0/report_descriptor': No such file or directory
May 3 16:33:39 ubuntu kernel: [43202.601501] hid-generic 0003:1B1C:1C07.2994: hiddev0,hidraw0: USB HID v1.11 Device [ ] on usb-0000:02:00.0-13.2/input0
May 3 16:33:39 ubuntu kernel: [43202.606771] hid-generic 0003:1B1C:0C04.2995: hiddev4,hidraw4: USB HID v1.11 Device [Corsair Memory, Inc. Integrated USB Bridge] on usb-0000:02:00.0-12/input0
<... a bunch of invalid characters here...>
Invalid argument
May 3 16:36:06 ubuntu systemd-modules-load[625]: Inserted module 'lp'
Исходя из этого, я считаю, что Недопустимый аргумент
- это последняя строка перед тем, как система перестала отвечать ... но это, кажется, не говорит много (если вообще) о проблеме.
ls -al / var / crash
показывает, что каталог аварии довольно пустой:
root@ubuntu:~# ls -al /var/crash
total 8
drwxrwxrwt 2 root root 4096 May 3 19:56 .
drwxr-xr-x 15 root root 4096 May 3 03:02 ..
Кроме того, вот еще вывод из free -h
, sysctl vm.swappiness
и dmidecode -s bios-версия
:
root@ubuntu:~# free -h
total used free shared buff/cache available
Mem: 47Gi 1.4Gi 45Gi 3.0Mi 637Mi 45Gi
Swap: 15Gi 0B 15Gi
root@ubuntu:~# sysctl vm.swappiness
vm.swappiness = 60
root@ubuntu:~# dmidecode -s bios-version
F50a
Конфигурация памяти:
*-memory
description: System Memory
physical id: 9
slot: System board or motherboard
size: 48GiB
*-bank:0
description: DIMM DDR4 Synchronous Unbuffered (Unregistered) 2400 MHz (0.4 ns)
product: KHX2400C15/8G
vendor: Kingston
physical id: 0
serial: AF2C5F46
slot: DIMM 0
size: 8GiB
width: 64 bits
clock: 2400MHz (0.4ns)
*-bank:1
description: DIMM DDR4 Synchronous Unbuffered (Unregistered) 2400 MHz (0.4 ns)
product: CMK32GX4M2A2400C16
vendor: Unknown
physical id: 1
serial: 00000000
slot: DIMM 1
size: 16GiB
width: 64 bits
clock: 2400MHz (0.4ns)
*-bank:2
description: DIMM DDR4 Synchronous Unbuffered (Unregistered) 2400 MHz (0.4 ns)
product: KHX2400C15/8G
vendor: Kingston
physical id: 2
serial: BE2A03A9
slot: DIMM 0
size: 8GiB
width: 64 bits
clock: 2400MHz (0.4ns)
*-bank:3
description: DIMM DDR4 Synchronous Unbuffered (Unregistered) 2400 MHz (0.4 ns)
product: CMK32GX4M2A2400C16
vendor: Unknown
physical id: 3
serial: 00000000
slot: DIMM 1
size: 16GiB
width: 64 bits
clock: 2400MHz (0.4ns)
Другая важная вещь, работающая на Система является гостем KVM, работающим под управлением Windows 10, с проходным графическим процессором с VFIO:
09:00.0 VGA compatible controller [0300]: NVIDIA Corporation GP102 [GeForce GTX 1080 Ti] [10de:1b06] (rev a1) (prog-if 00 [VGA controller])
Subsystem: ASUSTeK Computer Inc. GP102 [GeForce GTX 1080 Ti] [1043:85e5]
Flags: fast devsel, IRQ 128
Memory at f4000000 (32-bit, non-prefetchable) [size=16M]
Memory at c0000000 (64-bit, prefetchable) [size=256M]
Memory at d0000000 (64-bit, prefetchable) [size=32M]
I/O ports at e000 [size=128]
Expansion ROM at f5000000 [disabled] [size=512K]
Capabilities: [60] Power Management version 3
Capabilities: [68] MSI: Enable- Count=1/1 Maskable- 64bit+
Capabilities: [78] Express Legacy Endpoint, MSI 00
Capabilities: [100] Virtual Channel
Capabilities: [250] Latency Tolerance Reporting
Capabilities: [128] Power Budgeting <?>
Capabilities: [420] Advanced Error Reporting
Capabilities: [600] Vendor Specific Information: ID=0001 Rev=1 Len=024 <?>
Capabilities: [900] Secondary PCI Express
Kernel driver in use: vfio-pci
Kernel modules: nvidiafb, nouveau, nvidia_drm, nvidia
09:00.1 Audio device [0403]: NVIDIA Corporation GP102 HDMI Audio Controller [10de:10ef] (rev a1)
Subsystem: ASUSTeK Computer Inc. GP102 HDMI Audio Controller [1043:85e5]
Flags: fast devsel, IRQ 129
Memory at f5080000 (32-bit, non-prefetchable) [size=16K]
Capabilities: [60] Power Management version 3
Capabilities: [68] MSI: Enable- Count=1/1 Maskable- 64bit+
Capabilities: [78] Express Endpoint, MSI 00
Capabilities: [100] Advanced Error Reporting
Kernel driver in use: vfio-pci
Kernel modules: snd_hda_intel
Так что же могло быть причиной аварии? Из того, что я могу сказать, это может иметь какое-то отношение к USB-устройствам, но тогда почему вся система блокируется таким образом? И как можно решить проблему?
Спасибо!
Редактировать: после прочтения еще одна вещь, которая может вызвать проблему, может быть состояниями Ризена С6. В настоящее время я проверяю, чтобы изменить настройки BIOS для блока питания
на типичный ток ,
, от до нуля, от
до , отключить
. и Глобальное управление состояниями C
- отключено
. Кажется, это работает, но только время покажет ...
Редактировать 2: проблема не в состояниях власти. Однако я сузил проблему до чего-то с помощью IOMMU или KVM / QEMU.
Замораживание происходит только при включенном IOMMU, и моя виртуальная машина Windows (с сквозным устройством PCIe через VFIO) активна. С полностью отключенным IOMMU я работаю> 48 часов без сбоев. Но мне нужно, чтобы виртуальная машина работала, поэтому мне придется продолжить расследование.
Разгон
Если вы разогнали свой ЦП или ОЗУ, восстановите его до нормального состояния.
BIOS
Вы уже не ниже F50a.
Ryzen
Некоторые процессоры Ryzen 7 1800X не работают в Linux. Есть отзыв.
См. https://www.extremetech.com/computing/254750-amd-replaces-ryzen-cpus-users-acted-rare-linux-bug
Память
Уверенность эта память установлена в равных согласованных парах, чтобы система могла использовать перемежение памяти. Используйте sudo lshw -C memory
для подтверждения конфигурации. Подтвердите правильную настройку канала A / канала B.
Перейдите на https://www.memtest86.com/ и загрузите / запустите их бесплатный memtest для проверки вашей памяти. Получите хотя бы один полный проход из всех 4/4 тестов, чтобы подтвердить хорошую память. Это может занять много часов.
Обмен
Ваш обмен безумно велик. Я бы уменьшил его до 4G и посмотрю, как это получится.
Это звучит очень похоже на проблему с памятью или напряжение.
Я заметил, что ваша память RAM от двух разных производителей с разными размерами. Кроме того, по выводу конфигурации памяти, которую вы чередуете между воспоминаниями:
Bank1: Kingston 8GB Bank2: без бренда 16 ГБ Банк3: Кингстон 8ГБ Bank4: Unbranded 16GB
Вы должны хранить в одном и том же банке память того же размера и той же марки.
Если подкачка памяти не работает, я бы проверил блок питания. Похоже, у вас там довольно мощный компьютер (на самом деле это почти та же конфигурация, что и у меня: 48 ГБ ОЗУ, Geforce 1080, но у меня Intel 8770k), поэтому вам нужен блок питания, который справится со всем этим.
Если вы посмотрите страницу характеристик для GTX 1080Ti , вы увидите, что только она потребляет 250 Вт. Если вы используете блок питания в диапазоне 300 Вт / 400 Вт (учитывая, что вы используете хороший бренд, более дешевые бренды имеют номинальные значения 600 Вт, 700 Вт, но их фактическая мощность намного ниже), есть большая вероятность, что графическая плата дестабилизирует напряжение всей системы и должен искать более мощный блок питания.