Как определить значение сообщений об ошибках ras-mc-ctl?

ras-mc-ctl --errors сообщает о таких результатах, как:

661 2019-08-20 08:42:29 -0400 Ошибка: исправлена ​​фильтрация (некоторые незарегистрированные ошибки в том же регионе) Общий CACHE Уровень-3 Общая ошибка, mcg mcgstatus = 0, mci Corrected_error Состояние ошибки на основе порогового значения: желтый, mcgcap = 0x00000c09, состояние = 0x8c400c400001110b, addr = 0x3334c0000080b06, misc = 0x00b501c0, tsc = 0x0 0 0 0 0 5 0 5 0 5 0 5 0 5 0 5 0 5 0 5 0 5 0 5 0 5 0 5 0 5 0 5 0 5 0 5 0 5 6 0 5 6 0 5 6 0 ]

и чаще:

728 2019-08-31 13:35:59 -0400 ошибка: исправлена ​​фильтрация (некоторые незарегистрированные ошибки в том же регионе) Общий CACHE Уровень-3 Общая ошибка, mcg mcgstatus = 0, mci Corrected_error Состояние ошибки на основе порогового значения: зеленый, Большое количество исправленных ошибок кэша. Система работает, но может вскоре привести к неисправленным ошибкам, mcgcap = 0x00000c09, status = 0x8c2000c00001110b, addr = 0x2b6b100000374cf, misc = 0x0001bdc0, tsc = 0x376c4b0d8828, walltime = 0x5d600006006a6f0a6a0f0e6a0f0e0e0a0e0e0e0e0e0e0e0e0e0e0e0e0e0e0e0e0e0e0e0e0e00000006000 Что на самом деле означают эти сообщения, и что можно / нужно делать с ними?

Дополнительная информация:

  • Это Intel NUC 7i7BNH с 16 ГБ памяти, 500G SSD, и 4K монитор.
  • Он работает под управлением Ubuntu 18.0 с последним «подходящим обновлением».
  • BIOS был обновлен до последней июльской версии.
  • Я не сделал никаких аппаратных изменений.

lshw -C memory показывает:

*-firmware                
    description: BIOS
    vendor: Intel Corp.
    physical id: 0
    version: BNKBL357.86A.0080.2019.0725.1139
    date: 07/25/2019
    size: 64KiB
    capacity: 8128KiB
    capabilities: pci upgrade shadowing cdboot bootselect socketedrom edd int13floppy1200 int13floppy720 int13floppy2880 int5printscreen int14serial int17printer acpi usb biosbootspecification uefi
*-memory
    description: System Memory
    physical id: 28
    slot: System board or motherboard
    size: 16GiB
    *-bank:0
        description: SODIMM DDR4 Synchronous Unbuffered (Unregistered) 2133 MHz (0.5 ns)
        product: CMSO16GX4M1A2133C15
        vendor: AMI
        physical id: 0
        serial: 00000000
        slot: ChannelA-DIMM0
        size: 16GiB
        width: 64 bits
        clock: 2133MHz (0.5ns)
    *-bank:1
        description: [empty]
        physical id: 1
        slot: ChannelB-DIMM0
*-cache:0
    description: L1 cache
    physical id: 2d
    slot: L1 Cache
    size: 128KiB
    capacity: 128KiB
    capabilities: synchronous internal write-back unified
    configuration: level=1
*-cache:1
    description: L2 cache
    physical id: 2e
    slot: L2 Cache
    size: 512KiB
    capacity: 512KiB
    capabilities: synchronous internal write-back unified
    configuration: level=2
*-cache:2
    description: L3 cache
    physical id: 2f
    slot: L3 Cache
    size: 4MiB
    capacity: 4MiB
    capabilities: synchronous internal write-back unified
    configuration: level=3
*-memory UNCLAIMED
    description: Memory controller
    product: Sunrise Point-LP PMC
    vendor: Intel Corporation
    physical id: 1f.2
    bus info: pci@0000:00:1f.2
    version: 21
    width: 32 bits
    clock: 33MHz (30.3ns)
    capabilities: bus_master
    configuration: latency=0
    resources: memory:dc244000-dc247fff

Результаты теста:

Запуск memtest86 дал несколько интересных результатов:

  • Примерно через 5 минут, он отображал логотип Intel и перезагружался.
  • То же самое произошло снова, но мне сначала удалось записать большинство сообщений.
  • В третий раз он прошел полный проход (около 45 минут), а затем снова потерпел крах через несколько минут во втором проходе.
  • Я оставлю это работающим, но я сомневаюсь, что это пройдет через 4 прохода.

Вторая попытка привела к:

Test 4: Addr: 33090D380 Expected 08080808 Actual: 18080808 CPU:2
Test 4: Addr: 33090D38C Expected 08080808 Actual: 08080818 CPU:2
Test 4: Addr: 33090D390 Expected 08080808 Actual: [???]
Test 4: Addr: 33090D394 Expected 08080808 Actual: [???]

Третий раз, который прошел через первый проход, показал:

screenshot

Обратите внимание, что адреса не совпадают с предыдущими (хотя у обоих было 4 ошибки).

0
задан 1 September 2019 в 05:54

1 ответ

Перейдите в https://www.memtest86.com / и загрузите/выполните их свободное memtest для тестирования памяти. Заставьте по крайней мере одну полную передачу всех тестов 4/4 подтверждать хорошую память. Это займет много часов для завершения.

Обновление № 1:

memtest отказавший.

Вы или получили дефектное 16G палка RAM или плохая кэш-память на Вашей материнской плате. Попытайтесь переустановить 16G палка RAM и посмотрите, помогает ли она. К вашему сведению: для оптимальной скорости памяти лучше иметь два 8G палки RAM вместо одной 16G палка RAM. Это также помогает диагностировать проблемы памяти.

Проверка, чтобы удостовериться, что Ваш ЦП не разгоняется, или что память XMP не включена в Вашем BIOS.

Проверка Ваша версия BIOS с sudo dmidecode -s bios-version и затем переходят к веб-сайту производителя и проверке на более новый BIOS.

Обновление № 1:

у Пользователя есть последний BIOS, версия: BNKBL357.86A.0080.2019.0725.1139, дата: 07/25/2019

1
ответ дан 23 October 2019 в 03:49

Другие вопросы по тегам:

Похожие вопросы: