Исключение машинного контроля

Question 1

Я выполняю Сервер Ubuntu на сервере Dell PowerEdge. Я нашел после записи в журнале с сервера dmesg. Dell Pro Поддержка запросил выполнить диагностику Dell DSET. Они не нашли аппаратные проблемы сообщаемыми DSET, и представитель технической поддержки сказал, что это сообщение журнала является проблемой создания отчетов в Ubuntu. Это может быть программной ошибкой в Ubuntu?

Спасибо

Sami

[1457944.748752] sbridge: HANDLING MCE MEMORY ERROR<br>
[1457944.748761] CPU 1: Machine Check Exception: 0 Bank 10: 8c000046000800c1<br>
[1457944.748763] TSC 0 ADDR 2df41c3000 MISC 900080008000c8c PROCESSOR 0:306e4 TIME 1395313612 SOCKET 1 APIC 20<br>
[1457945.659958] EDAC MC1: 1 CE memory scrubbing error on CPU_SrcID#1_Channel#1_DIMM#0 (channel:1 slot:0 page:0x2df41c3 offset:0x0 grain:32 syndrome:0x0 -  area:DRAM err_code:0008:00c1 socket:1 channel_mask:1 rank:0)<br>

Question 2

У меня есть обновление этой проблемы. Наконец проблема была найдена, и причиной был дефектный модуль DIMM. Интересно ни один из диагностических тестов Dell не показал эту проблему.

Question 3

Question 4

По данным Dell, программное обеспечение EDAC на самом деле скрывает ошибку от собственных аппаратных инструментов Dell. Необходимо поместить в черный список модуль, чтобы заставить это проходить.

http://www.dell.com/support/article/us/en/19/SLN283389/EN/

Question 5

Вероятно, связанная с аппаратными средствами ошибка.

Fedora bugzilla. Из комментариев метод в диагностировании:

После большой диагностики и работающий с поддержкой поставщика, кажется, что это - почти наверняка аппаратная проблема с некоторыми версиями X9DR3-LN4 + материнские платы.

проблемный отчет "REV:1.10" о платах как их Версия в 'dmidecode-t основная плата'.

На нашем сайте, более старые платы с Версией "0123456789" не произвели ошибки, и мы заменяем неисправные платы более новыми платами той же модели, Версия "REV:1.20A".

На неисправных материнских платах, ошибки, кажется, проявляют главным образом с более высокой скоростью 2.90 процессора GHz E5-2690 и полный (24 RDIMMM) конфигурации RAM, но мы были в состоянии воспроизвести его с меньшим количеством RDIMMs.

FWIW, memtester не генерировал ошибки; метод, на который я натолкнулся, должен был только осуществить кэш-буфер. Таким образом в системе с 384 ГБ RAM, я распространил 400 ГБ данных в локальной файловой системе, смонтированной в /scratch, и делаю:
while true ; tar cf - /scratch | cat - >/dev/null ; done
(В моих экспериментах, пишущий в/dev/null от tar не работал бы..., "кошка->/dev/null" требовалась.), В то время как это работает, можно проверить ошибочные количества с этим:
cat /sys/devices/system/edac/mc/mc?/ce*count
наблюдаемый Коэффициент ошибок был обычно по крайней мере одной ошибкой MCE в час

Некоторые более возможные проверки, которые можно выполнить: я получаю MCE (Исключение Машинного контроля) ошибки, что это означает?

.

sampie · Answer 1 · 8 October 2019 в 10:18

У меня есть обновление этой проблемы. Наконец проблема была найдена, и причиной был дефектный модуль DIMM. Интересно ни один из диагностических тестов Dell не показал эту проблему.

court3nay · Answer 2 · 8 October 2019 в 10:18

По данным Dell, программное обеспечение EDAC на самом деле скрывает ошибку от собственных аппаратных инструментов Dell. Необходимо поместить в черный список модуль, чтобы заставить это проходить.

http://www.dell.com/support/article/us/en/19/SLN283389/EN/

Rinzwind · Answer 3 · 8 October 2019 в 10:18

Вероятно, связанная с аппаратными средствами ошибка.

Fedora bugzilla. Из комментариев метод в диагностировании:

После большой диагностики и работающий с поддержкой поставщика, кажется, что это - почти наверняка аппаратная проблема с некоторыми версиями X9DR3-LN4 + материнские платы.

проблемный отчет "REV:1.10" о платах как их Версия в 'dmidecode-t основная плата'.

На нашем сайте, более старые платы с Версией "0123456789" не произвели ошибки, и мы заменяем неисправные платы более новыми платами той же модели, Версия "REV:1.20A".

На неисправных материнских платах, ошибки, кажется, проявляют главным образом с более высокой скоростью 2.90 процессора GHz E5-2690 и полный (24 RDIMMM) конфигурации RAM, но мы были в состоянии воспроизвести его с меньшим количеством RDIMMs.

FWIW, memtester не генерировал ошибки; метод, на который я натолкнулся, должен был только осуществить кэш-буфер. Таким образом в системе с 384 ГБ RAM, я распространил 400 ГБ данных в локальной файловой системе, смонтированной в /scratch, и делаю:
while true ; tar cf - /scratch | cat - >/dev/null ; done
(В моих экспериментах, пишущий в/dev/null от tar не работал бы..., "кошка->/dev/null" требовалась.), В то время как это работает, можно проверить ошибочные количества с этим:
cat /sys/devices/system/edac/mc/mc?/ce*count
наблюдаемый Коэффициент ошибок был обычно по крайней мере одной ошибкой MCE в час

Некоторые более возможные проверки, которые можно выполнить: я получаю MCE (Исключение Машинного контроля) ошибки, что это означает?

.

Исключение машинного контроля

3 ответа

Другие вопросы по тегам:

Похожие вопросы: