Я выполняю Сервер Ubuntu на сервере Dell PowerEdge. Я нашел после записи в журнале с сервера dmesg
. Dell Pro Поддержка запросил выполнить диагностику Dell DSET. Они не нашли аппаратные проблемы сообщаемыми DSET, и представитель технической поддержки сказал, что это сообщение журнала является проблемой создания отчетов в Ubuntu. Это может быть программной ошибкой в Ubuntu?
Спасибо
Sami
[1457944.748752] sbridge: HANDLING MCE MEMORY ERROR<br>
[1457944.748761] CPU 1: Machine Check Exception: 0 Bank 10: 8c000046000800c1<br>
[1457944.748763] TSC 0 ADDR 2df41c3000 MISC 900080008000c8c PROCESSOR 0:306e4 TIME 1395313612 SOCKET 1 APIC 20<br>
[1457945.659958] EDAC MC1: 1 CE memory scrubbing error on CPU_SrcID#1_Channel#1_DIMM#0 (channel:1 slot:0 page:0x2df41c3 offset:0x0 grain:32 syndrome:0x0 - area:DRAM err_code:0008:00c1 socket:1 channel_mask:1 rank:0)<br>
У меня есть обновление этой проблемы. Наконец проблема была найдена, и причиной был дефектный модуль DIMM. Интересно ни один из диагностических тестов Dell не показал эту проблему.
По данным Dell, программное обеспечение EDAC на самом деле скрывает ошибку от собственных аппаратных инструментов Dell. Необходимо поместить в черный список модуль, чтобы заставить это проходить.
Вероятно, связанная с аппаратными средствами ошибка.
После большой диагностики и работающий с поддержкой поставщика, кажется, что это - почти наверняка аппаратная проблема с некоторыми версиями X9DR3-LN4 + материнские платы.
проблемный отчет "REV:1.10" о платах как их Версия в 'dmidecode-t основная плата'.
На нашем сайте, более старые платы с Версией "0123456789" не произвели ошибки, и мы заменяем неисправные платы более новыми платами той же модели, Версия "REV:1.20A".
На неисправных материнских платах, ошибки, кажется, проявляют главным образом с более высокой скоростью 2.90 процессора GHz E5-2690 и полный (24 RDIMMM) конфигурации RAM, но мы были в состоянии воспроизвести его с меньшим количеством RDIMMs.
FWIW, memtester не генерировал ошибки; метод, на который я натолкнулся, должен был только осуществить кэш-буфер. Таким образом в системе с 384 ГБ RAM, я распространил 400 ГБ данных в локальной файловой системе, смонтированной в
/scratch
, и делаю:while true ; tar cf - /scratch | cat - >/dev/null ; done
(В моих экспериментах, пишущий в/dev/null от tar не работал бы..., "кошка->/dev/null" требовалась.), В то время как это работает, можно проверить ошибочные количества с этим:
cat /sys/devices/system/edac/mc/mc?/ce*count
наблюдаемый Коэффициент ошибок был обычно по крайней мере одной ошибкой MCE в час
.