Сообщение об ошибке MCE и случайные перезагрузки [закрыто]

Может ли кто-нибудь помочь мне расшифровать точное значение следующего сообщения, которое я нашел в dmesg ?

Jan 28 15:58:17 mint kernel: mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 7: 8c00004000010093
Jan 28 15:58:17 mint kernel: mce: [Hardware Error]: TSC 5159cf02b8 ADDR 529449f80 MISC 2040404086

Их много, но CPU 0: Machine Check: 0 Bank 7: Среди них постоянным является 8c00004000010093 .

Я понимаю, что ЦП обнаруживает аппаратные проблемы, но не понимаю , где .Может, вышла из строя карта памяти на 7-м банке? (У меня 8 банков полностью заселены).

Я нашел другую ветку, где было рекомендовано установить mcelog , но apt не находит пакетов с именем mcelog .


РЕДАКТИРОВАТЬ:

Система завершила один проход memtest и оставалась запускать его на всю ночь. Он оставался твердым как скала.

Вот что показывает / var / log / syslog :

13 сентября 13:40:11 mint ntpd [1462]: отчеты ядра TIME_ERROR: 0x41: Часы не синхронизированы сен 13 13:44:25 ядро ​​mint: [648.820738] mce: [Ошибка оборудования]: регистрируются события проверки компьютера 13 сентября 13:44:25 ядро ​​mint: [648.820770] EDAC sbridge MC0: ОБРАБОТКА ОШИБКИ ПАМЯТИ MCE { {1}} 13 сентября 13:44:25 ядро ​​mint: [648.820778] EDAC sbridge MC0: CPU 0: Событие проверки компьютера: 0 Банк 7: c01fbb4000010093 13 сентября 13:44:25 ядро ​​mint: [648.820778 ] EDAC sbridge MC0: TSC 0 13 сентября 13:44:25 ядро ​​mint: [648.820779] EDAC sbridge MC0: ADDR 0 13 сентября 13:44:25 ядро ​​mint: [648.820780] EDAC sbridge MC0: MISC 0 13 сентября 13:44:25 mint kernel: [648.820786] EDAC sbridge MC0: PROCESSOR 0: 306e4 TIME 1536846265 SOCKET 0 APIC 0

Похоже, это память связанная ошибка, но мне кажется, что при операциях ввода-вывода на дисках система перезагружается.

Машина продолжает случайную перезагрузку. Любая помощь будет очень приветствоваться.

1
задан 13 September 2018 в 16:52

1 ответ

Из комментариев...

Хотя memtest, кажется, работает хорошо, все признаки состоят в том, что у Вас есть неустойчивая проблема памяти с Банком 7: c01fbb4000010093.

Это может быть отказ модуля Оперативной памяти, или опорный отказ модуля Оперативной памяти или слот плохой памяти на Вашей материнской плате.

Если Ваши слоты памяти отождествляются с цифрами банка на логической плате, отмечают модуль памяти в банке 7 с пером маркера черной магии. Предположение, что все Ваши модули памяти являются тем же, выпускает под брендом/делает/моделирует, поворачивает ВСЕ модули памяти ТОЛЬКО ОДИН СЛОТ, такой, что банк модуля Оперативной памяти 7 оказывается в банке 6. Удостоверьтесь, что Вы используете надлежащий ESD основывающиеся методы при обработке модулей RAM. Повторно выполненный memtest, отмечая любые отказы.

Если memtest работает хорошо, то перезагружают система, и если это хорошо работает, Вы решили проблему. Если это приводит к сбою с банком 6 ошибок (или что-либо кроме банка 7), Вы определили модуль плохой памяти.

Модули памяти должны быть установлены/удалены в парах. Один модуль обычно находится на канале A памяти и другом на канале B памяти. Это в целях чередования памяти. Если Вы хотите полностью определить/устранить определенный модуль RAM, удалить его и его чередующегося помощника, перезагрузите систему и перетест.

1
ответ дан 7 December 2019 в 15:14

Другие вопросы по тегам:

Похожие вопросы: