Случайные сбои на 16.04 LTE из-за неправильного микрокода?

Я запускаю сервер Dell PowerEdge R430 с ubuntu 16.04.3, чтобы хрустить некоторые номера Matlab ... по крайней мере, это план ... система рушится случайным образом каждые несколько часов, а на холостом ходу и ничего не делает: ([ ! d0]

Это удаленная система, и я не могу проверить экран на наличие каких-либо сообщений. Все, что я могу сделать, это цикл питания через ИБП, и он возвращается в нормальное состояние (до следующего сбоя). журналов сбоев и (в большинстве случаев) ничего не видно в системных журналах. Иногда (3 из 10 аварий) в сообщениях kern.log есть такие сообщения:

Dec 21 11:00:17 crc-2c9m9m2-das kernel: [ 3780.762004] INFO: rcu_sched detected stalls on CPUs/tasks: Dec 21 11:00:17 crc-2c9m9m2-das kernel: [ 3780.762014] 1-...: (1 GPs behind) idle=e29/1/0 softirq=236453/236454 fqs=7446 Dec 21 11:00:17 crc-2c9m9m2-das kernel: [ 3780.762016] (detected by 2, t=15002 jiffies, g=251301, c=251300, q=9798) Dec 21 11:00:17 crc-2c9m9m2-das kernel: [ 3780.762020] Task dump for CPU 1: Dec 21 11:00:17 crc-2c9m9m2-das kernel: [ 3780.762022] swapper/1 R running task 0 0 1 0x00000008 Dec 21 11:00:17 crc-2c9m9m2-das kernel: [ 3780.762025] Call Trace: Dec 21 11:00:17 crc-2c9m9m2-das kernel: [ 3780.762035] ? cpuidle_enter_state+0x12b/0x2d0 Dec 21 11:00:17 crc-2c9m9m2-das kernel: [ 3780.762039] ? cpuidle_enter_state+0x119/0x2d0 Dec 21 11:00:17 crc-2c9m9m2-das kernel: [ 3780.762042] ? cpuidle_enter+0x17/0x20 Dec 21 11:00:17 crc-2c9m9m2-das kernel: [ 3780.762047] ? call_cpuidle+0x23/0x40 Dec 21 11:00:17 crc-2c9m9m2-das kernel: [ 3780.762050] ? do_idle+0x17f/0x1f0 Dec 21 11:00:17 crc-2c9m9m2-das kernel: [ 3780.762053] ? cpu_startup_entry+0x71/0x80 Dec 21 11:00:17 crc-2c9m9m2-das kernel: [ 3780.762059] ? start_secondary+0x154/0x190 Dec 21 11:00:17 crc-2c9m9m2-das kernel: [ 3780.762062] ? start_cpu+0x14/0x14

Таким образом, я посмотрел at / proc / cpuinfo

processor : 1 vendor_id : GenuineIntel cpu family : 6 model : 63 model name : Intel(R) Xeon(R) CPU E5-2609 v3 @ 1.90GHz stepping : 2 microcode : 0x3a cpu MHz : 1489.245 cache size : 15360 KB physical id : 0 siblings : 6 core id : 1 cpu cores : 6 apicid : 2 initial apicid : 2 fpu : yes fpu_exception : yes cpuid level : 15 wp : yes flags : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx pdpe1gb rdtscp lm constant_tsc arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc aperfmperf pni pclmulqdq dtes64 monitor ds_cpl vmx smx est tm2 ssse3 sdbg fma cx16 xtpr pdcm pcid dca sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand lahf_lm abm epb tpr_shadow vnmi flexpriority ept vpid fsgsbase tsc_adjust bmi1 avx2 smep bmi2 erms invpcid cqm xsaveopt cqm_llc cqm_occup_llc dtherm arat pln pts

Теперь некоторые из флагов (например, гиперпоточность) фактически не соответствуют спецификации Intel cpu: https://ark.intel.com/products/81897 / Intel-Xeon-Processor-E5-2609-v3-15M-Cache-1_90-GHz

Возможно ли, что в микрокоде есть ошибка?

Кто-то else имеет проблемы с ubuntu, работающим на E5-2609?

Любая помощь была очень оценена.

Cheers

0
задан 22 December 2017 в 03:22

0 ответов

Другие вопросы по тегам:

Похожие вопросы: