система спонтанно перезагрузки один раз в день

У меня есть совершенно новая система, которая была просто создана несколько дней назад, она имеет 4 Титанов Nvidia X GPU, 8x16 ГБ памяти Gskill DDR4-2400, на материнской плате WS Asus X99-E, под управлением Ubuntu 14.04.

Я ищу способы выяснить то, что вызвало эти случайные перезагрузки, система ничего даже не делала, она просто простаивает..., и это несколько раз уже произошло! Не должно быть никакого перегрева, поскольку ЦП с водяным охлаждением, и у меня есть lm-датчик, который показывает наличие GPU вокруг 35C временный файл на неактивном, и каждый раз, когда системные перезагрузки самом (в то время как я отсутствую), это всегда делает, ничто настолько перегревающееся не должно быть проблемой здесь.

Я сделал last reboot и найденный еще несколькими самоперезагрузками, о которых я не знал, и таким образом, я перешел к моему /var/log/kern.log в надежде видеть что-то информативное. Я нашел, что приблизительно в каждую минуту, этому зарегистрировали это сообщение об ошибке:

AER: Multiple Corrected error received: id=0018
PCIe Bus Error: severity=Corrected, type=Data Link Layer, id=0018(Receiver ID)
device [8086:6f08] error status/mask=00000040/00002000
[6] Bad TLP

и затем прямо перед спонтанной перезагрузкой, следующее зарегистрировано:

\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00
\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00
\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00
\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00
\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00

сопровождаемый журналом перезагрузки:

[0.000000] Initializing cgroup subsys cpuset
[0.000000] Initializing cgroup subsys cpu
...

Что это говорит мне? Или я смотрю на неправильный файл журнала?

1
задан 22 September 2016 в 23:01

3 ответа

это оказывается плохой BIOS Asus!

я озирался онлайн, и кажется, что у людей, у которых есть материнская плата серии (X99) Rampage Asus и высокопроизводительные карты Nvidia, также есть эта спонтанная проблема перезагрузки, и проблема, кажется, окружает плохую BIOS.

Те люди утверждают, что более новая BIOS версии 3xxx вызывает это случайные перезапуски, но если они отступают к версии BIOS 2xxx затем, это стабильно как камень.

Даже при том, что моей материнской платой является Asus (X99-E WS), но не Буйство, но моя BIOS 3101, таким образом, я пытался видеть, могу ли я найти версию BIOS 2xxx для моей материнской платы. В то время как я не мог найти, что отступил к, Asus просто, оказалось, выпустила новую BIOS (v3302) для моей материнской платы ТРИ ДНЯ НАЗАД, я попробовал это, и она хорошо работала без случайных перезапусков в течение 2 дней. Надо надеяться, это устранило проблемы...!

0
ответ дан 7 December 2019 в 15:48

Это, кажется, ошибка ядра. https://bugzilla.kernel.org/show_bug.cgi? id=109691#c2 предлагает выключить AER путем добавления pci=noaer к командной строке ядра в личинке. Вы могли, например, добавить его к /etc/default/grub вокруг строки 12:

GRUB_CMDLINE_LINUX="pci=noaer"

это решает эти проблемы?

1
ответ дан 7 December 2019 в 15:48

У Вас есть проблема с идентификатором 8086:6f08 устройства PCI. В терминале, типе lspci и определяют местоположение строки, содержащей 8086:6f08, и я подозреваю, что это укажет на один из Вашего GPU Nvidia. Если существует четыре отдельных платы, вытяните все кроме одного и посмотрите, продолжаете ли Вы показывать ошибки. Продолжайте добавлять назад GPU, пока он не покажет ошибки. У Вас может быть плохая карта или BIOS/встроенное микропрограммное обеспечение/программное обеспечение GPU, которому нужно обновление. Проверьте сайт Nvidia на это.

редактирование: или lsusb и определяют USB-устройство или контроллер.

Сообщенный мне, как Вы делаете. С наилучшими пожеланиями, Al

0
ответ дан 7 December 2019 в 15:48

Другие вопросы по тегам:

Похожие вопросы: