система самопроизвольно перезагружается один раз в день

У меня есть совершенно новая система, которая была только что построена несколько дней назад, на материнской плате Asus X99-E WS работает 4 графических процессора NVIDIA Titan X, 8x16Gb Gskill DDR4-2400, с Ubuntu 14.04.

Я ищу способы выяснить, что вызвало эти случайные перезагрузки, система даже не делала ничего, она просто сидит без дела ... и это произошло уже несколько раз! Не должно быть перегрева, поскольку процессор охлаждается водой, и у меня есть lm-датчик, который показывает, что графические процессоры имеют температуру около 35C на холостом ходу, и всякий раз, когда система перезагружается (пока я уезжаю), она всегда ничего не делает поэтому перегрев не должен быть проблемой здесь.

Я сделал last reboot и обнаружил еще несколько самоуничтожений, о которых я не знал, и поэтому я пошел к своему /var/log/kern.log в надежде увидеть что-то информативное. Я обнаружил, что примерно каждую минуту он регистрирует это сообщение об ошибке:

AER: Multiple Corrected error received: id=0018
PCIe Bus Error: severity=Corrected, type=Data Link Layer, id=0018(Receiver ID)
device [8086:6f08] error status/mask=00000040/00002000
[6] Bad TLP

, а затем прямо перед спонтанной перезагрузкой записывается следующее:

\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00
\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00
\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00
\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00
\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00

, за которым следует журнал перезагрузки:

[0.000000] Initializing cgroup subsys cpuset
[0.000000] Initializing cgroup subsys cpu
...

Что это говорит мне? Или я смотрю неправильный файл журнала?

1
задан 22 September 2016 в 23:01

2 ответа

Кажется, это ошибка ядра. https://bugzilla.kernel.org/show_bug.cgi?id=109691#c2 предлагает отключить AER, добавив pci=noaer в командную строку ядра в grub. Вы можете, например, добавить его к /etc/default/grub в строке 12:

GRUB_CMDLINE_LINUX="pci=noaer"

Решает ли эти проблемы эти проблемы?

1
ответ дан 23 May 2018 в 05:52
  • 1
    попробует, но я обнаружил, что в моем /var/log/auth.log файле, я получаю это сообщение прямо перед самозагрузкой dbus[986]: [system] Rejected send message, 7 matched rules; type="method_return", sender=":1.40" (uid=0 pid=2206 comm="/usr/sbin/dnsmasq --no-resolv --keep-in-foreground") interface="(unset)" member="(unset)" error name="(unset)" requested_reply="0" destination=":1.5" (uid=0 pid=1084 comm="NetworkManager "), это что-то значит? – Chen-Ping Yu 22 September 2016 в 19:39
  • 2
    Это сообщение dbus не имеет ничего общего с вашей проблемой. Это известный буглет в Ubuntu. Приветствия, Аль – heynnema 23 September 2016 в 09:28

У вас возникла проблема с ID устройства PCI 8086: 6f08. В терминале введите lspci и найдите строку, содержащую 8086: 6f08, и я подозреваю, что она укажет на один из ваших графических процессоров Nvidia. Если есть четыре отдельных карты, потяните все, кроме одного, и посмотрите, продолжаете ли вы показывать ошибки. Продолжайте добавлять обратно GPU, пока не увидите ошибки. У вас может быть плохая карта или BIOS / прошивка GPU / программное обеспечение, которое требуется для обновления. Проверьте сайт Nvidia.

изменить: или lsusb и идентифицировать USB-устройство или контроллер.

Сообщите мне, как вы это делаете. Cheers, Al

0
ответ дан 23 May 2018 в 05:52

Другие вопросы по тегам:

Похожие вопросы: