Случайные сбои 16.04 LTE из-за неправильного микрокода?

Я использую сервер Dell PowerEdge R430 с Ubuntu 16.04.3 для обработки некоторых чисел Matlab ... по крайней мере, таков план ... система случайным образом падает каждые несколько часов, при этом на холостом ходу и ничего не делая: (

Это удаленная система, и я не могу проверить экран на наличие каких-либо сообщений. Все, что я могу сделать, это включить / выключить питание ИБП, и он возвращается в нормальное состояние (до следующего сбоя). журналы и (в большинстве случаев) ничего очевидного в системных журналах. Иногда (3 из 10 сбоев) в kern.log появляются подобные сообщения:

Dec 21 11:00:17 crc-2c9m9m2-das kernel: [ 3780.762004] INFO: rcu_sched detected stalls on CPUs/tasks:
Dec 21 11:00:17 crc-2c9m9m2-das kernel: [ 3780.762014]    1-...: (1 GPs behind) idle=e29/1/0 softirq=236453/236454 fqs=7446
Dec 21 11:00:17 crc-2c9m9m2-das kernel: [ 3780.762016]    (detected by 2, t=15002 jiffies, g=251301, c=251300, q=9798)
Dec 21 11:00:17 crc-2c9m9m2-das kernel: [ 3780.762020] Task dump for CPU 1:
Dec 21 11:00:17 crc-2c9m9m2-das kernel: [ 3780.762022] swapper/1       R  running task        0     0      1 0x00000008
Dec 21 11:00:17 crc-2c9m9m2-das kernel: [ 3780.762025] Call Trace:
Dec 21 11:00:17 crc-2c9m9m2-das kernel: [ 3780.762035]  ? cpuidle_enter_state+0x12b/0x2d0
Dec 21 11:00:17 crc-2c9m9m2-das kernel: [ 3780.762039]  ? cpuidle_enter_state+0x119/0x2d0
Dec 21 11:00:17 crc-2c9m9m2-das kernel: [ 3780.762042]  ? cpuidle_enter+0x17/0x20
Dec 21 11:00:17 crc-2c9m9m2-das kernel: [ 3780.762047]  ? call_cpuidle+0x23/0x40
Dec 21 11:00:17 crc-2c9m9m2-das kernel: [ 3780.762050]  ? do_idle+0x17f/0x1f0
Dec 21 11:00:17 crc-2c9m9m2-das kernel: [ 3780.762053]  ? cpu_startup_entry+0x71/0x80
Dec 21 11:00:17 crc-2c9m9m2-das kernel: [ 3780.762059]  ? start_secondary+0x154/0x190
Dec 21 11:00:17 crc-2c9m9m2-das kernel: [ 3780.762062]  ? start_cpu+0x14/0x14

Таким образом, я посмотрел на / proc / cpuinfo

processor       : 1
vendor_id       : GenuineIntel
cpu family      : 6
model           : 63
model name      : Intel(R) Xeon(R) CPU E5-2609 v3 @ 1.90GHz
stepping        : 2
microcode       : 0x3a
cpu MHz         : 1489.245
cache size      : 15360 KB
physical id     : 0
siblings        : 6
core id         : 1
cpu cores       : 6
apicid          : 2
initial apicid  : 2
fpu             : yes
fpu_exception   : yes
cpuid level     : 15
wp              : yes
flags           : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx pdpe1gb rdtscp lm constant_tsc arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc aperfmperf pni pclmulqdq dtes64 monitor ds_cpl vmx smx est tm2 ssse3 sdbg fma cx16 xtpr pdcm pcid dca sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand lahf_lm abm epb tpr_shadow vnmi flexpriority ept vpid fsgsbase tsc_adjust bmi1 avx2 smep bmi2 erms invpcid cqm xsaveopt cqm_llc cqm_occup_llc dtherm arat pln pts

Теперь некоторые флаги (например, гиперпоточность) на самом деле не соответствуют спецификации Intel CPU: https://ark.intel.com/products/81897 / Intel-Xeon-Processor-E5-2609-v3-15M-Cache-1_90-ГГц

Возможно ли, что в микрокоде есть ошибка ???

у кого-то еще есть проблемы с Ubuntu, работающим на E5-2609?

Любая помощь очень ценится.

Приветствие

0
задан 22 December 2017 в 02:22

0 ответов

Другие вопросы по тегам:

Похожие вопросы: