Как я могу узнать что случилось с моей RAM?

Я недавно обновил память в своей машине Ubuntu 16.04 от 4x8 ГБ до 8x8 ГБ. Ритейлер обещал, что новая память будет совместима с моей конфигурацией, однако я заметил это htop иногда показывает полных 64 ГБ памяти, иногда только 48 ГБ или даже 16 ГБ, отличающихся после каждого запуска. Система замораживает пару раз день. После одного такого замораживания я взглянул на системный журнал:

Nov  7 13:08:09 embpc0032 kernel: [ 4524.820086] EDAC MC0: 7 CE memory read error on CPU_SrcID#0_Ha#0_Chan#3_DIMM#1 (channel:3 slot:1 page:0xb382e offset:0x8c0 grain:32 syndrome:0x0 -  OVERFLOW area:DRAM err_code:0001:0091 socket:0 ha:0 channel_mask:8 rank:4)
Nov  7 13:08:10 embpc0032 kernel: [ 4525.812100] EDAC sbridge MC0: HANDLING MCE MEMORY ERROR
Nov  7 13:08:10 embpc0032 kernel: [ 4525.812107] EDAC sbridge MC0: CPU 0: Machine Check Event: 0 Bank 7: cc000b0000010091
Nov  7 13:08:10 embpc0032 kernel: [ 4525.812110] EDAC sbridge MC0: TSC 0 
Nov  7 13:08:10 embpc0032 kernel: [ 4525.812112] EDAC sbridge MC0: ADDR b382fcc0 EDAC sbridge MC0: MISC 14022a286 
Nov  7 13:08:10 embpc0032 kernel: [ 4525.812117] EDAC sbridge MC0: PROCESSOR 0:306e4 TIME 1510056490 SOCKET 0 APIC 0
Nov  7 13:08:10 embpc0032 kernel: [ 4525.820084] EDAC MC0: 44 CE memory read error on CPU_SrcID#0_Ha#0_Chan#3_DIMM#1 (channel:3 slot:1 page:0xb382f offset:0xcc0 grain:32 syndrome:0x0 -  OVERFLOW area:DRAM err_code:0001:0091 socket:0 ha:0 channel_mask:8 rank:4)
Nov  7 13:08:11 embpc0032 kernel: [ 4526.812091] EDAC sbridge MC0: HANDLING MCE MEMORY ERROR
Nov  7 13:08:11 embpc0032 kernel: [ 4526.812098] EDAC sbridge MC0: CPU 0: Machine Check Event: 0 Bank 7: cc0001c000010091
Nov  7 13:08:11 embpc0032 kernel: [ 4526.812101] EDAC sbridge MC0: TSC 0 
Nov  7 13:08:11 embpc0032 kernel: [ 4526.812103] EDAC sbridge MC0: ADDR b382fcc0 EDAC sbridge MC0: MISC 214022a286 
Nov  7 13:08:11 embpc0032 kernel: [ 4526.812108] EDAC sbridge MC0: PROCESSOR 0:306e4 TIME 1510056491 SOCKET 0 APIC 0
Nov  7 13:08:11 embpc0032 kernel: [ 4526.820076] EDAC MC0: 7 CE memory read error on CPU_SrcID#0_Ha#0_Chan#3_DIMM#1 (channel:3 slot:1 page:0xb382f offset:0xcc0 grain:32 syndrome:0x0 -  OVERFLOW area:DRAM err_code:0001:0091 socket:0 ha:0 channel_mask:8 rank:4)
Nov  7 13:08:12 embpc0032 kernel: [ 4527.812083] EDAC sbridge MC0: HANDLING MCE MEMORY ERROR
Nov  7 13:08:12 embpc0032 kernel: [ 4527.812091] EDAC sbridge MC0: CPU 0: Machine Check Event: 0 Bank 7: cc00048000010091
Nov  7 13:08:12 embpc0032 kernel: [ 4527.812093] EDAC sbridge MC0: TSC 0 
Nov  7 13:08:12 embpc0032 kernel: [ 4527.812096] EDAC sbridge MC0: ADDR b382fcc0 EDAC sbridge MC0: MISC 14022a286 
Nov  7 13:08:12 embpc0032 kernel: [ 4527.812101] EDAC sbridge MC0: PROCESSOR 0:306e4 TIME 1510056492 SOCKET 0 APIC 0
Nov  7 13:08:12 embpc0032 kernel: [ 4527.820096] EDAC MC0: 18 CE memory read error on CPU_SrcID#0_Ha#0_Chan#3_DIMM#1 (channel:3 slot:1 page:0xb382f offset:0xcc0 grain:32 syndrome:0x0 -  OVERFLOW area:DRAM err_code:0001:0091 socket:0 ha:0 channel_mask:8 rank:4)
Nov  7 13:08:13 embpc0032 kernel: [ 4528.812100] EDAC sbridge MC0: HANDLING MCE MEMORY ERROR
Nov  7 13:08:13 embpc0032 kernel: [ 4528.812108] EDAC sbridge MC0: CPU 0: Machine Check Event: 0 Bank 7: cc0001c000010091
Nov  7 13:08:13 embpc0032 kernel: [ 4528.812110] EDAC sbridge MC0: TSC 0 
Nov  7 13:08:13 embpc0032 kernel: [ 4528.812112] EDAC sbridge MC0: ADDR b382fcc0 EDAC sbridge MC0: MISC 214022a286 
Nov  7 13:08:13 embpc0032 kernel: [ 4528.812117] EDAC sbridge MC0: PROCESSOR 0:306e4 TIME 1510056493 SOCKET 0 APIC 0

После этого набор Нулевых символов в журнале, замораживании и перезагрузке. Какова могла быть проблема? Что делает channel и slot обратиться к в этом контексте? Это - системная плата квадратического канала (Fujitsu D3128-A2), оборудованная DIMM.

E: Я вскопал руководство:

enter image description here

Действительно ли безопасно сказать это в журнале ошибок, channel:0 slot:0 относился бы к тому, что называют A1 в руководстве? Поскольку в журнале я нашел приблизительно 4 000 ошибок памяти, которые были всеми в slot:1 через три канала, но никогда в slot:0. В то время как вся RAM, которую я купил новый, находится в слотах, которые заканчиваются 2 в руководстве, так мне это похоже на всю ошибочную основу от новых модулей и ни одну от старого.

E: Я приехал для работы сегодня и загрузил компьютер. Это было выводом lshw:

*-memory
      description: System Memory
      physical id: 1e
      slot: System board or motherboard
      size: 16GiB
    *-bank:0
         description: DIMM DDR3 800 MHz (1,2 ns)
         product: HMT41GR7AFR8C
         vendor: Hynix Semiconducto
         physical id: 0
         serial: 50404146
         slot: Node0_Dimm0
         size: 8GiB
         width: 64 bits
         clock: 800MHz (1.2ns)
    *-bank:1
         description: DIMM DDR3 800 MHz (1,2 ns)
         vendor: Undefined
         physical id: 1
         serial: 00000000
         slot: Node0_Dimm1
         size: 8GiB
         width: 64 bits
         clock: 800MHz (1.2ns)
    *-bank:2
         description: DIMM Synchronous [empty]
         product: Dimm2_PartNum
         vendor: Dimm2_Manufacturer
         physical id: 2
         serial: Dimm2_SerNum
         slot: Node0_Dimm2
         width: 64 bits
    *-bank:3
         description: DIMM Synchronous [empty]
         product: Dimm3_PartNum
         vendor: Dimm3_Manufacturer
         physical id: 3
         serial: Dimm3_SerNum
         slot: Node0_Dimm3
         width: 64 bits
    *-bank:4
         description: DIMM Synchronous [empty]
         product: Dimm4_PartNum
         vendor: Dimm4_Manufacturer
         physical id: 4
         serial: Dimm4_SerNum
         slot: Node0_Dimm4
         width: 64 bits
    *-bank:5
         description: DIMM Synchronous [empty]
         product: Dimm5_PartNum
         vendor: Dimm5_Manufacturer
         physical id: 5
         serial: Dimm5_SerNum
         slot: Node0_Dimm5
         width: 64 bits
    *-bank:6
         description: DIMM Synchronous [empty]
         product: Dimm6_PartNum
         vendor: Dimm6_Manufacturer
         physical id: 6
         serial: Dimm6_SerNum
         slot: Node0_Dimm6
         width: 64 bits
    *-bank:7
         description: DIMM Synchronous [empty]
         product: Dimm7_PartNum
         vendor: Dimm7_Manufacturer
         physical id: 7
         serial: Dimm7_SerNum
         slot: Node0_Dimm7
         width: 64 bits

После перезагрузки это было выводом lshw:

*-memory
      description: System Memory
      physical id: 1e
      slot: System board or motherboard
      size: 48GiB
    *-bank:0
         description: DIMM DDR3 1866 MHz (0,5 ns)
         product: HMT41GR7AFR8C
         vendor: Hynix Semiconducto
         physical id: 0
         serial: 50404146
         slot: Node0_Dimm0
         size: 8GiB
         width: 64 bits
         clock: 1866MHz (0.5ns)
    *-bank:1
         description: DIMM DDR3 1866 MHz (0,5 ns)
         vendor: Undefined
         physical id: 1
         serial: 00000000
         slot: Node0_Dimm1
         size: 8GiB
         width: 64 bits
         clock: 1866MHz (0.5ns)
    *-bank:2
         description: DIMM Synchronous [empty]
         product: Dimm2_PartNum
         vendor: Dimm2_Manufacturer
         physical id: 2
         serial: Dimm2_SerNum
         slot: Node0_Dimm2
         width: 64 bits
    *-bank:3
         description: DIMM Synchronous [empty]
         product: Dimm3_PartNum
         vendor: Dimm3_Manufacturer
         physical id: 3
         serial: Dimm3_SerNum
         slot: Node0_Dimm3
         width: 64 bits
    *-bank:4
         description: DIMM DDR3 1866 MHz (0,5 ns)
         product: HMT41GR7AFR8C
         vendor: Hynix Semiconducto
         physical id: 4
         serial: 50404181
         slot: Node0_Dimm4
         size: 8GiB
         width: 64 bits
         clock: 1866MHz (0.5ns)
    *-bank:5
         description: DIMM DDR3 1866 MHz (0,5 ns)
         vendor: Undefined
         physical id: 5
         serial: 00000000
         slot: Node0_Dimm5
         size: 8GiB
         width: 64 bits
         clock: 1866MHz (0.5ns)
    *-bank:6
         description: DIMM DDR3 1866 MHz (0,5 ns)
         product: HMT41GR7AFR8C
         vendor: Hynix Semiconducto
         physical id: 6
         serial: 50404153
         slot: Node0_Dimm6
         size: 8GiB
         width: 64 bits
         clock: 1866MHz (0.5ns)
    *-bank:7
         description: DIMM DDR3 1866 MHz (0,5 ns)
         vendor: Undefined
         physical id: 7
         serial: 00000000
         slot: Node0_Dimm7
         size: 8GiB
         width: 64 bits
         clock: 1866MHz (0.5ns)

Отметьте, как в первый раз, два модуля, которые распознаны, перечислены с другой статистикой, чем после перезагрузки (они - на самом деле 1 866 МГц).

2
задан 10 November 2017 в 18:03

1 ответ

Диагностировать эту проблему...

  1. сначала переустановите все модули памяти
  2. выполните свободный тест памяти memtest86.com
  3. реконфигурируйте модули памяти в корректные слоты
  4. повторно протестируйте тест memtest86

Переустановите:

  • выключите компьютер
  • коснитесь металлического шасси для рассеивания любого статического заряда
  • удалите шнур электропитания
  • снизьте выключатель питания для рассеивания любого заряда, оставленного в источнике питания
  • удалите и переустановите ВСЕ модули памяти

Memtest86:

  • перейдите к memtest86.com и загрузите тест свободной памяти
  • выполните по крайней мере одну полную передачу, больше если у Вас есть время
  • если Вы получаете отказ, то начните удалять 2 модуля памяти за один раз и перетест
  • если Вы не получаете отказ, считайте следующий раздел по конфигурации памяти

Конфигурация:

Чередование памяти является современной техникой для ускорения доступа к памяти. Это требует, чтобы память была настроена с помощью равных пар модулей памяти. Ваша высокопроизводительная система, кажется, имеет 4 канала памяти... A/B/C/D.

Возьмите свои исходные 4 модули памяти и заполните весь модуль 1 положение сначала, затем используйте 4 новых модуля памяти и заполните остающийся модуль 2 положения.

Повторно выполните тест memtest86.

4
ответ дан 2 December 2019 в 02:14

Другие вопросы по тегам:

Похожие вопросы: