У меня есть совершенно новая система, которая была только что построена несколько дней назад, на материнской плате Asus X99-E WS работает 4 графических процессора NVIDIA Titan X, 8x16Gb Gskill DDR4-2400, с Ubuntu 14.04.
Я ищу способы выяснить, что вызвало эти случайные перезагрузки, система даже не делала ничего, она просто сидит без дела ... и это произошло уже несколько раз! Не должно быть перегрева, поскольку процессор охлаждается водой, и у меня есть lm-датчик, который показывает, что графические процессоры имеют температуру около 35C на холостом ходу, и всякий раз, когда система перезагружается (пока я уезжаю), она всегда ничего не делает поэтому перегрев не должен быть проблемой здесь.
Я сделал last reboot и обнаружил еще несколько самоуничтожений, о которых я не знал, и поэтому я пошел к своему /var/log/kern.log в надежде увидеть что-то информативное. Я обнаружил, что примерно каждую минуту он регистрирует это сообщение об ошибке:
AER: Multiple Corrected error received: id=0018
PCIe Bus Error: severity=Corrected, type=Data Link Layer, id=0018(Receiver ID)
device [8086:6f08] error status/mask=00000040/00002000
[6] Bad TLP
, а затем прямо перед спонтанной перезагрузкой записывается следующее:
\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00
\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00
\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00
\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00
\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00
, за которым следует журнал перезагрузки:
[0.000000] Initializing cgroup subsys cpuset
[0.000000] Initializing cgroup subsys cpu
...
Что это говорит мне? Или я смотрю неправильный файл журнала?
Кажется, это ошибка ядра. https://bugzilla.kernel.org/show_bug.cgi?id=109691#c2 предлагает отключить AER, добавив pci=noaer в командную строку ядра в grub. Вы можете, например, добавить его к /etc/default/grub в строке 12:
GRUB_CMDLINE_LINUX="pci=noaer"
Решает ли эти проблемы эти проблемы?
У вас возникла проблема с ID устройства PCI 8086: 6f08. В терминале введите lspci и найдите строку, содержащую 8086: 6f08, и я подозреваю, что она укажет на один из ваших графических процессоров Nvidia. Если есть четыре отдельных карты, потяните все, кроме одного, и посмотрите, продолжаете ли вы показывать ошибки. Продолжайте добавлять обратно GPU, пока не увидите ошибки. У вас может быть плохая карта или BIOS / прошивка GPU / программное обеспечение, которое требуется для обновления. Проверьте сайт Nvidia.
изменить: или lsusb и идентифицировать USB-устройство или контроллер.
Сообщите мне, как вы это делаете. Cheers, Al