Ubuntu 20.04 аварийно завершает работу случайно в разное время. Невозможно указать на конкретное событие.
uname -a
Linux ubuntu 5.11.0-051100-generic #202102142330
SMP Sun Feb 14 23:33:21 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux
Сбой со следующим сигналом:
kernel:[19849.215258] [Hardware Error]: Uncorrected, software restartable error.
kernel:[19849.215259] [Hardware Error]: CPU:22 (19:21:0) MC0_STATUS[-|UE|MiscV|AddrV|-|-|-|-|Poison|-]: 0xbc00080001010135
kernel:[19849.215263] [Hardware Error]: Error Addr: 0x000000076bed1c00
kernel:[19849.215264] [Hardware Error]: IPID: 0x001000b000000000
kernel:[19849.215266] [Hardware Error]: Load Store Unit Ext. Error Code: 1, An ECC error or L2 poison was detected on a data cache read by a load.
kernel:[19849.215269] [Hardware Error]: cache level: L1, tx: DATA, mem-tx: DRD
Информация об оборудовании:
### CPU
Architecture: x86_64
CPU op-mode(s): 32-bit, 64-bit
Byte Order: Little Endian
Address sizes: 48 bits physical, 48 bits virtual
CPU(s): 24
On-line CPU(s) list: 0-23
Thread(s) per core: 2
Core(s) per socket: 12
Socket(s): 1
NUMA node(s): 1
Vendor ID: AuthenticAMD
CPU family: 25
Model: 33
Model name: AMD Ryzen 9 5900X 12-Core Processor
Stepping: 0
Frequency boost: enabled
CPU MHz: 2200.000
CPU max MHz: 6442.4800
CPU min MHz: 2200.0000
### Base Board Information
Manufacturer: ASRock
Product Name: X570 Taichi
### Memory:
G Skill Trident Z Neo DDR4 - 3600Mhz 32GB (2 x 16GB)
Каковы предлагаемые способы определения основной причины? Как мне включить больше журналов или, если журнал уже существует, где я могу их найти и т. Д. Любые указания будут оценены. Спасибо!
На основании предложения @heynnema мне удалось выяснить, что модель модулей DIMM, установленных на моем компьютере, не указана в их списке совместимости. Вот следующие шаги:
Vermeer
sudo lshw -C memory
(это было F4-3600C16-16GTZNC
) *-firmware
description: BIOS
vendor: American Megatrends Inc.
physical id: 0
version: P4.30
date: 04/14/2021
size: 64KiB
capacity: 16MiB
capabilities: pci upgrade shadowing cdboot bootselect socketedrom edd int13floppy1200 int13floppy720 int13floppy2880 int5printscreen int9keyboard int14serial int17printer acpi usb biosbootspecification uefi
*-memory
description: System Memory
physical id: e
slot: System board or motherboard
size: 32GiB
*-bank:0
description: DIMM DDR4 Synchronous Unbuffered (Unregistered) 2133 MHz (0.5 ns)
product: F4-3600C16-16GTZNC
vendor: Unknown
physical id: 0
serial: 00000000
slot: DIMM 0
size: 16GiB
width: 64 bits
clock: 2133MHz (0.5ns)
*-bank:1
description: Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <jaddi27@gmail.com>Language-Team: English (Australia) <en_AU@li.org>MIME-Version: 1.0Content-Type: text/plain; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (build 2d1d5e352f0d063d660df2300e31f66bed027fa5)Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <jaddi27@gmail.com>Language-Team: English (Australia) <en_AU@li.org>MIME-Version: 1.0Content-Type: text/plain; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (build 2d1d5e352f0d063d660df2300e31f66bed027fa5) [empty]
product: Unknown
vendor: Unknown
physical id: 1
serial: Unknown
slot: DIMM 1
*-bank:2
description: DIMM DDR4 Synchronous Unbuffered (Unregistered) 2133 MHz (0.5 ns)
product: F4-3600C16-16GTZNC
vendor: Unknown
physical id: 2
serial: 00000000
slot: DIMM 0
size: 16GiB
width: 64 bits
clock: 2133MHz (0.5ns)
*-bank:3
description: Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <jaddi27@gmail.com>Language-Team: English (Australia) <en_AU@li.org>MIME-Version: 1.0Content-Type: text/plain; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (build 2d1d5e352f0d063d660df2300e31f66bed027fa5)Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <jaddi27@gmail.com>Language-Team: English (Australia) <en_AU@li.org>MIME-Version: 1.0Content-Type: text/plain; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (build 2d1d5e352f0d063d660df2300e31f66bed027fa5) [empty]
product: Unknown
vendor: Unknown
physical id: 3
serial: Unknown
slot: DIMM 1
*-cache:0
description: L1 cache
physical id: 11
slot: L1 - Cache
size: 768KiB
capacity: 768KiB
clock: 1GHz (1.0ns)
capabilities: pipeline-burst internal write-back unified
configuration: level=1
*-cache:1
description: L2 cache
physical id: 12
slot: L2 - Cache
size: 6MiB
capacity: 6MiB
clock: 1GHz (1.0ns)
capabilities: pipeline-burst internal write-back unified
configuration: level=2
*-cache:2
description: L3 cache
physical id: 13
slot: L3 - Cache
size: 64MiB
capacity: 64MiB
clock: 1GHz (1.0ns)
capabilities: pipeline-burst internal write-back unified
configuration: level=3
Технически это не ответ, но...
Ошибка Ошибка ECC или яд L2, обнаруженный в кэше данных, считываемом load
, указывает на проблему с памятью, либо с самой оперативной памятью, либо с кэшем на процессоре. Ни то, ни другое не является хорошим, но вы можете протестировать системную оперативную память с помощью следующего процесса:
Основываясь на отчетах вокруг в Интернете, эта проблема, похоже, наблюдается только с более высокими процессорами AMD Ryzen. Чтение этого длинного потока на сайте сообщества AMD выявило этот интересный бит:
Я заменил память, и компьютер был прочным в течение нескольких дней. Надеюсь, это поможет вам, как это помогло мне. Предыдущая память была памятью Gskill 3600 МГц ... Новая память составляет 3200 от Corsair.
В вашем вопросе не указано, какую память вы установили, но, если это набор модулей с более высокой частотой, может быть что-то между оперативной памятью и процессором, что вызывает нестабильность. Если тест памяти не удался и у вас есть совместимая оперативная память 3200 МГц (даже если это всего лишь один DIMM), Рассмотрите возможность замены и повторного выполнения теста памяти.
BIOS
ASRock X570 Taichi
Текущая версия BIOS P4.30.
ПАМЯТЬ
G Skill Trident Z Neo DDR4 - 3600 МГц, 32 ГБ (2 x 16 ГБ), продукт: F4-3600C16-16GTZNC
12-ядерный процессор AMD Ryzen 9 5900X
Процессоры Ryzen очень требовательны к ОЗУ .
Эти модули DIMM не отображаются в списке поддерживаемых модулей памяти, как показано здесь .
memtest
прошел все тесты.
Когда мы смотрим на sudo lshw -C memory
, мы видим, что модули DIMM могут быть установлены в неправильные гнезда. При использовании двух модулей DIMM одинакового размера их следует устанавливать в слоты A2 и B2. Вот изображение компоновки платы и слотов памяти ... взято из Руководства пользователя по адресу здесь ... так что просто проверьте это ...