Ubuntu 16.04 внезапный катастрофический отказ

Я испытываю затруднения при отладке системного катастрофического отказа, который я испытываю.

Признаки:

Без предупреждения, моего пробела поворота мониторов и системы не отвечает ни на какой вход. Компьютером нельзя связаться с по сети также. Оба ping и ssh не работают. Однако компьютер не "выключен". Его вентиляторы все еще гудят, и его световые сигналы все еще освещены. Я видел, что этот катастрофический отказ происходит где угодно от нескольких часов после начальной загрузки к нескольким дням. Я, хотя проблема ушла после 6 дней подряд времени работы, но затем она отказала снова. Когда это происходит, я должен нажать и держать кнопку питания для принуждения "жесткой" перезагрузки. Затем это загружается прекрасный, и кажется, что ничто не неправильно (температурные датчики весь взгляд, хороший также). Кроме того, проблема, кажется, не зависит от ЦП / загрузка GPU. Я могу выполнить ЦП интенсивные процессы без любой проблемы. Ее разрушенный на нескольких ночных заданиях, но его также разрушенный ночами, когда система была просто неактивна.

Таким образом:

  • Пустой экран и никакой ответ на клавиатуру / мышь вводятся
  • Никакой ответ на ssh / не проверяет с помощью ping-запросов сетевой вход.
  • Вентиляторы и светодиодные индикаторы все еще включены и шумят. Содержание кнопки питания действительно вызывает перезагрузку.
  • Я видел время между диапазоном катастрофических отказов от 2 часов до 144 часов. (причем ~6-8 часов являются средним временем).
  • Кажется, не зависит загрузка ЦП. Катастрофический отказ происходит независимо, если система обрабатывает, или бездействовать.

Системные детали

  • Компьютеру приблизительно 7 лет.
  • Я нахожусь на Ubuntu 16.04.1 64-разрядный LTS (версия Gnome)
  • ЦП является Intel(R) Core(TM) i7-2600K CPU 3.40 ГГц
  • GPU является старым NVIDIA Corporation GT200b [GeForce GTX 285]
  • PSU является OCZ500MXSP на 500 Вт
  • 32 ГБ памяти (x4 8GB HyperX)
  • SSD НА 128 ГБ
  • 4 жестких диска на 2 ТБ настроены в программном обеспечении RAID10.

Вывод lspci

00:00.0 Host bridge: Intel Corporation 2nd Generation Core Processor Family DRAM Controller (rev 09)
00:01.0 PCI bridge: Intel Corporation Xeon E3-1200/2nd Generation Core Processor Family PCI Express Root Port (rev 09)
00:01.1 PCI bridge: Intel Corporation Xeon E3-1200/2nd Generation Core Processor Family PCI Express Root Port (rev 09)
00:16.0 Communication controller: Intel Corporation 6 Series/C200 Series Chipset Family MEI Controller #1 (rev 04)
00:19.0 Ethernet controller: Intel Corporation 82579V Gigabit Network Connection (rev 05)
00:1a.0 USB controller: Intel Corporation 6 Series/C200 Series Chipset Family USB Enhanced Host Controller #2 (rev 05)
00:1b.0 Audio device: Intel Corporation 6 Series/C200 Series Chipset Family High Definition Audio Controller (rev 05)
00:1c.0 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 1 (rev b5)
00:1c.1 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 2 (rev b5)
00:1c.3 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 4 (rev b5)
00:1c.4 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 5 (rev b5)
00:1c.6 PCI bridge: Intel Corporation 82801 PCI Bridge (rev b5)
00:1c.7 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 8 (rev b5)
00:1d.0 USB controller: Intel Corporation 6 Series/C200 Series Chipset Family USB Enhanced Host Controller #1 (rev 05)
00:1f.0 ISA bridge: Intel Corporation P67 Express Chipset Family LPC Controller (rev 05)
00:1f.2 SATA controller: Intel Corporation 6 Series/C200 Series Chipset Family SATA AHCI Controller (rev 05)
00:1f.3 SMBus: Intel Corporation 6 Series/C200 Series Chipset Family SMBus Controller (rev 05)
02:00.0 VGA compatible controller: NVIDIA Corporation GT200b [GeForce GTX 285] (rev a1)
04:00.0 USB controller: NEC Corporation uPD720200 USB 3.0 Host Controller (rev 04)
05:00.0 SATA controller: JMicron Technology Corp. JMB362 SATA Controller (rev 10)
06:00.0 USB controller: NEC Corporation uPD720200 USB 3.0 Host Controller (rev 04)
07:00.0 PCI bridge: ASMedia Technology Inc. ASM1083/1085 PCIe to PCI Bridge (rev 01)
08:03.0 FireWire (IEEE 1394): VIA Technologies, Inc. VT6306/7/8 [Fire II(M)] IEEE 1394 OHCI Controller (rev c0)
09:00.0 SATA controller: Marvell Technology Group Ltd. 88SE9172 SATA 6Gb/s Controller (rev 11)

Отладка сделанных шагов:

Я имею, устанавливают мой journalctl, чтобы быть персистентным, таким образом, я могу получить доступ к журналам от предыдущих начальных загрузок. Однако просматривая журналы я не мог найти что-либо, что могло указать на проблему или решение.

Когда я увидел проблему в первый раз, мой первый инстинкт был температурой ЦП. Я устанавливаю системную службу для входа вывода sensors каждые 5 секунд.

Последние несколько строк этого здесь: https://gist.github.com/Erotemic/590699faa04956078f0ecc13f74217d8

Обратите внимание, что последняя линия полна нулевых символов. Я предполагаю что система разрушенный посреди записи в файл.

Температуры все, кажется, в разумных диапазонах. Один из датчиков CPUTIN: -60.0°C имеет постоянная величина-60, который я предполагаю средства, датчик не работает? То же, кажется, верно для нескольких моих вентиляторов. Так, возможно, существует температурная вещь, происходящая это, я не могу обнаружить?

Последние несколько строк системного журнала bfore последний катастрофический отказ: https://gist.github.com/Erotemic/4288a98be973edd8ed20915178122fdc

Его предупреждения датчика показа, но ничто, кажется, (мне) не имеет ненормального значения.

Система стара, таким образом, она имеет смысл, который, возможно, приводит к сбою один из аппаратных компонентов. Однако я затрудняюсь выяснять, какой это. RAM была недавно обновлена (катастрофический отказ происходил перед обновлением), таким образом, я сомневаюсь относительно это. Какие-либо идеи о том, чем это могло быть / как я мог узнать?

1
задан 23 October 2017 в 04:23

0 ответов

Другие вопросы по тегам:

Похожие вопросы: