Ubuntu 20.04 аварийно завершает работу: обнаружена ошибка ECC или яд L2

Ubuntu 20.04 аварийно завершает работу случайно в разное время. Невозможно указать на конкретное событие.

uname -a 
Linux ubuntu 5.11.0-051100-generic #202102142330 
SMP Sun Feb 14 23:33:21 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux

Сбой со следующим сигналом:

 kernel:[19849.215258] [Hardware Error]: Uncorrected, software restartable error.

 kernel:[19849.215259] [Hardware Error]: CPU:22 (19:21:0) MC0_STATUS[-|UE|MiscV|AddrV|-|-|-|-|Poison|-]: 0xbc00080001010135

 kernel:[19849.215263] [Hardware Error]: Error Addr: 0x000000076bed1c00

 kernel:[19849.215264] [Hardware Error]: IPID: 0x001000b000000000

 kernel:[19849.215266] [Hardware Error]: Load Store Unit Ext. Error Code: 1, An ECC error or L2 poison was detected on a data cache read by a load.

 kernel:[19849.215269] [Hardware Error]: cache level: L1, tx: DATA, mem-tx: DRD

Информация об оборудовании:

### CPU
  Architecture:                    x86_64
  CPU op-mode(s):                  32-bit, 64-bit
  Byte Order:                      Little Endian
  Address sizes:                   48 bits physical, 48 bits virtual
  CPU(s):                          24
  On-line CPU(s) list:             0-23
  Thread(s) per core:              2
  Core(s) per socket:              12
  Socket(s):                       1
  NUMA node(s):                    1
  Vendor ID:                       AuthenticAMD
  CPU family:                      25
  Model:                           33
  Model name:                      AMD Ryzen 9 5900X 12-Core Processor
  Stepping:                        0
  Frequency boost:                 enabled
  CPU MHz:                         2200.000
  CPU max MHz:                     6442.4800
  CPU min MHz:                     2200.0000

### Base Board Information
  Manufacturer: ASRock
  Product Name: X570 Taichi

### Memory:
G Skill Trident Z Neo DDR4 - 3600Mhz 32GB (2 x 16GB)

Каковы предлагаемые способы определения основной причины? Как мне включить больше журналов или, если журнал уже существует, где я могу их найти и т. Д. Любые указания будут оценены. Спасибо!

0
задан 16 June 2021 в 04:09

3 ответа

На основании предложения @heynnema мне удалось выяснить, что модель модулей DIMM, установленных на моем компьютере, не указана в их списке совместимости. Вот следующие шаги:

  1. Посетите список поддерживаемых ЦП на веб-сайте ASRock x570 Taichi . Узнайте основной тип. В моем случае это был Vermeer
  2. . Узнайте модель модулей DIMM, установленных в системе, запустив sudo lshw -C memory (это было F4-3600C16-16GTZNC )
  3. Перейдите к Списку поддерживаемой памяти для Vermeer и посмотрите, поддерживается ли он. К сожалению, его нет в списке! возможно, это причина непоследовательных сбоев. Я опробую поддерживаемую версию модулей DIMM, чтобы увидеть, возникнут ли сбои снова, и соответствующим образом обновлю этот ответ.
 *-firmware
       description: BIOS
       vendor: American Megatrends Inc.
       physical id: 0
       version: P4.30
       date: 04/14/2021
       size: 64KiB
       capacity: 16MiB
       capabilities: pci upgrade shadowing cdboot bootselect socketedrom edd int13floppy1200 int13floppy720 int13floppy2880 int5printscreen int9keyboard int14serial int17printer acpi usb biosbootspecification uefi
  *-memory
       description: System Memory
       physical id: e
       slot: System board or motherboard
       size: 32GiB
     *-bank:0
          description: DIMM DDR4 Synchronous Unbuffered (Unregistered) 2133 MHz (0.5 ns)
          product: F4-3600C16-16GTZNC
          vendor: Unknown
          physical id: 0
          serial: 00000000
          slot: DIMM 0
          size: 16GiB
          width: 64 bits
          clock: 2133MHz (0.5ns)
     *-bank:1
          description: Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <jaddi27@gmail.com>Language-Team: English (Australia) <en_AU@li.org>MIME-Version: 1.0Content-Type: text/plain; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (build 2d1d5e352f0d063d660df2300e31f66bed027fa5)Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <jaddi27@gmail.com>Language-Team: English (Australia) <en_AU@li.org>MIME-Version: 1.0Content-Type: text/plain; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (build 2d1d5e352f0d063d660df2300e31f66bed027fa5) [empty]
          product: Unknown
          vendor: Unknown
          physical id: 1
          serial: Unknown
          slot: DIMM 1
     *-bank:2
          description: DIMM DDR4 Synchronous Unbuffered (Unregistered) 2133 MHz (0.5 ns)
          product: F4-3600C16-16GTZNC
          vendor: Unknown
          physical id: 2
          serial: 00000000
          slot: DIMM 0
          size: 16GiB
          width: 64 bits
          clock: 2133MHz (0.5ns)
     *-bank:3
          description: Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <jaddi27@gmail.com>Language-Team: English (Australia) <en_AU@li.org>MIME-Version: 1.0Content-Type: text/plain; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (build 2d1d5e352f0d063d660df2300e31f66bed027fa5)Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <jaddi27@gmail.com>Language-Team: English (Australia) <en_AU@li.org>MIME-Version: 1.0Content-Type: text/plain; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (build 2d1d5e352f0d063d660df2300e31f66bed027fa5) [empty]
          product: Unknown
          vendor: Unknown
          physical id: 3
          serial: Unknown
          slot: DIMM 1
  *-cache:0
       description: L1 cache
       physical id: 11
       slot: L1 - Cache
       size: 768KiB
       capacity: 768KiB
       clock: 1GHz (1.0ns)
       capabilities: pipeline-burst internal write-back unified
       configuration: level=1
  *-cache:1
       description: L2 cache
       physical id: 12
       slot: L2 - Cache
       size: 6MiB
       capacity: 6MiB
       clock: 1GHz (1.0ns)
       capabilities: pipeline-burst internal write-back unified
       configuration: level=2
  *-cache:2
       description: L3 cache
       physical id: 13
       slot: L3 - Cache
       size: 64MiB
       capacity: 64MiB
       clock: 1GHz (1.0ns)
       capabilities: pipeline-burst internal write-back unified
       configuration: level=3
0
ответ дан 28 July 2021 в 11:28

Технически это не ответ, но...

Ошибка Ошибка ECC или яд L2, обнаруженный в кэше данных, считываемом load, указывает на проблему с памятью, либо с самой оперативной памятью, либо с кэшем на процессоре. Ни то, ни другое не является хорошим, но вы можете протестировать системную оперативную память с помощью следующего процесса:

  1. Перезагрузите систему
  2. Нажмите и удерживайте клавишу Shift, чтобы открыть меню GRUB
  3. Выберите «Ubuntu, memtest86+" и нажмите Enter
    Тест памяти будет выполняться до конца времени или до тех пор, пока вы не нажмете клавишу Esc. Дайте машине выполнить хотя бы одно испытание перед побегом.

Основываясь на отчетах вокруг в Интернете, эта проблема, похоже, наблюдается только с более высокими процессорами AMD Ryzen. Чтение этого длинного потока на сайте сообщества AMD выявило этот интересный бит:

Я заменил память, и компьютер был прочным в течение нескольких дней. Надеюсь, это поможет вам, как это помогло мне. Предыдущая память была памятью Gskill 3600 МГц ... Новая память составляет 3200 от Corsair.

В вашем вопросе не указано, какую память вы установили, но, если это набор модулей с более высокой частотой, может быть что-то между оперативной памятью и процессором, что вызывает нестабильность. Если тест памяти не удался и у вас есть совместимая оперативная память 3200 МГц (даже если это всего лишь один DIMM), Рассмотрите возможность замены и повторного выполнения теста памяти.

2
ответ дан 28 July 2021 в 11:28

BIOS

ASRock X570 Taichi

Текущая версия BIOS P4.30.

ПАМЯТЬ

G Skill Trident Z Neo DDR4 - 3600 МГц, 32 ГБ (2 x 16 ГБ), продукт: F4-3600C16-16GTZNC

12-ядерный процессор AMD Ryzen 9 5900X

Процессоры Ryzen очень требовательны к ОЗУ .

Эти модули DIMM не отображаются в списке поддерживаемых модулей памяти, как показано здесь .

memtest прошел все тесты.

Когда мы смотрим на sudo lshw -C memory , мы видим, что модули DIMM могут быть установлены в неправильные гнезда. При использовании двух модулей DIMM одинакового размера их следует устанавливать в слоты A2 и B2. Вот изображение компоновки платы и слотов памяти ... взято из Руководства пользователя по адресу здесь ... так что просто проверьте это ...

enter image description here

1
ответ дан 28 July 2021 в 11:28

Другие вопросы по тегам:

Похожие вопросы: