16.04. Начиная с нескольких месяцев назад (2017 год Q1), не уверен, когда у меня возникают проблемы с нестабильностью на моей машине.
Система представляет собой старый i7 920 на материнской плате Gigabyte EX58-UD5. В настоящее время имеется 24 ГБ оперативной памяти и одна карта GTX980. Я использую последние драйверы nvidia из «графических драйверов» ppa и установлен стек hwe (4.8 ядро и более новый Xorg), но эта проблема возникает с 4,4-й эры (до версии «.2» LTS) и нескольких версии драйвера nvidia. Система была стабильной с 2009 года, и текущая настройка (добавленная текущая генная карта nvidia и дополнительный диск SATA) была от Q2 до 2015 года; Ничего не изменилось в 2017 году. Источник питания - это тепловой сигнал мощностью 1000 Вт и не имеет проблем с нагревом.
Проблема в том, что внезапно экран замерзает, а иногда (не всегда) мышь все еще движется, но медленно, как прыжки из координат. Невозможно также изменить tty с помощью комбинации функциональных клавиш. Но я смог ssh к системе с моего нетбука, находясь в этом состоянии; система все еще работает, на самом деле не заморожена.
Я думаю, может быть полезно отметить, что почти каждый раз (около 98%, но не всегда), это происходит при прокрутке по firefox. Фактически, сначала я обвинял версию 5X Firefox, которая позволяла многопроцессорствовать для вкладок. Это было не так, как я в конце концов узнал; около недели назад начал (попытался) отладить эту проблему, и я увидел это сообщение:
Mar 27 22:17:39 Buda kernel: [ 1841.918831] irq 16: nobody cared (try booting with the "irqpoll" option)
Mar 27 22:17:39 Buda kernel: [ 1841.918836] CPU: 3 PID: 0 Comm: swapper/3 Tainted: P IOE 4.8.0-41-generic #44~16.04.1-Ubuntu
Mar 27 22:17:39 Buda kernel: [ 1841.918837] Hardware name: Gigabyte Technology Co., Ltd. EX58-UD5/EX58-UD5, BIOS F13 01/10/2012
Mar 27 22:17:39 Buda kernel: [ 1841.918838] 0000000000000086 7b4c75c5fc78db31 ffff8d36d72c3e80 ffffffffaa22e043
Mar 27 22:17:39 Buda kernel: [ 1841.918840] ffff8d36d24e8800 ffff8d36d24e88d4 ffff8d36d72c3ea8 ffffffffa9ee2e23
Mar 27 22:17:39 Buda kernel: [ 1841.918842] ffff8d36d24e8800 0000000000000000 0000000000000010 ffff8d36d72c3ee0
Mar 27 22:17:39 Buda kernel: [ 1841.918844] Call Trace:
Mar 27 22:17:39 Buda kernel: [ 1841.918844] <IRQ> [<ffffffffaa22e043>] dump_stack+0x63/0x90
Mar 27 22:17:39 Buda kernel: [ 1841.918851] [<ffffffffa9ee2e23>] __report_bad_irq+0x33/0xc0
Mar 27 22:17:39 Buda kernel: [ 1841.918852] [<ffffffffa9ee31b7>] note_interrupt+0x247/0x290
Mar 27 22:17:39 Buda kernel: [ 1841.918855] [<ffffffffa9ee0174>] handle_irq_event_percpu+0x54/0x80
Mar 27 22:17:39 Buda kernel: [ 1841.918856] [<ffffffffa9ee01de>] handle_irq_event+0x3e/0x60
Mar 27 22:17:39 Buda kernel: [ 1841.918857] [<ffffffffa9ee38b2>] handle_fasteoi_irq+0xa2/0x160
Mar 27 22:17:39 Buda kernel: [ 1841.918859] [<ffffffffa9e302cd>] handle_irq+0x1d/0x30
Mar 27 22:17:39 Buda kernel: [ 1841.918862] [<ffffffffaa69e05b>] do_IRQ+0x4b/0xd0
Mar 27 22:17:39 Buda kernel: [ 1841.918863] [<ffffffffaa69c142>] common_interrupt+0x82/0x82
Mar 27 22:17:39 Buda kernel: [ 1841.918863] <EOI> [<ffffffffaa5198f8>] ? cpuidle_enter_state+0x128/0x2d0
Mar 27 22:17:39 Buda kernel: [ 1841.918869] [<ffffffffaa519ad7>] cpuidle_enter+0x17/0x20
Mar 27 22:17:39 Buda kernel: [ 1841.918870] [<ffffffffa9ec79fa>] call_cpuidle+0x2a/0x50
Mar 27 22:17:39 Buda kernel: [ 1841.918871] [<ffffffffa9ec7dde>] cpu_startup_entry+0x29e/0x350
Mar 27 22:17:39 Buda kernel: [ 1841.918874] [<ffffffffa9e518b1>] start_secondary+0x151/0x190
Mar 27 22:17:39 Buda kernel: [ 1841.918875] handlers:
Mar 27 22:17:39 Buda kernel: [ 1841.918878] [<ffffffffaa465fd0>] usb_hcd_irq
Mar 27 22:17:39 Buda kernel: [ 1841.918879] Disabling IRQ #16
Дело в том, что IRQ 16 отключен. Я проверил, что может использовать IRQ 16:
:~$ lspci -v | grep IRQ
Flags: fast devsel, IRQ 12
Flags: bus master, fast devsel, latency 0, IRQ 16
Flags: bus master, medium devsel, latency 0, IRQ 16
Flags: bus master, medium devsel, latency 0, IRQ 21
Flags: bus master, medium devsel, latency 0, IRQ 18
Flags: bus master, medium devsel, latency 0, IRQ 18
Flags: bus master, fast devsel, latency 0, IRQ 30
Flags: bus master, fast devsel, latency 0, IRQ 24
Flags: bus master, fast devsel, latency 0, IRQ 25
Flags: bus master, fast devsel, latency 0, IRQ 26
Flags: bus master, fast devsel, latency 0, IRQ 27
Flags: bus master, medium devsel, latency 0, IRQ 23
Flags: bus master, medium devsel, latency 0, IRQ 19
Flags: bus master, medium devsel, latency 0, IRQ 18
Flags: bus master, medium devsel, latency 0, IRQ 23
Flags: bus master, 66MHz, medium devsel, latency 0, IRQ 19
Flags: medium devsel, IRQ 7
Flags: bus master, 66MHz, medium devsel, latency 0, IRQ 19
Flags: bus master, fast devsel, latency 0, IRQ 31
Flags: fast devsel, IRQ 17
Flags: bus master, fast devsel, latency 0, IRQ 17
Flags: bus master, fast devsel, latency 0, IRQ 18
Flags: bus master, fast devsel, latency 0, IRQ 28
Flags: bus master, fast devsel, latency 0, IRQ 29
Flags: bus master, medium devsel, latency 32, IRQ 18
И деталь двух устройств, использующих IRQ 16, таков:
00:03.0 PCI bridge: Intel Corporation 5520/5500/X58 I/O Hub PCI Express Root Port 3 (rev 12) (prog-if 00 [Normal decode])
Flags: bus master, fast devsel, latency 0, IRQ 16
Bus: primary=00, secondary=01, subordinate=01, sec-latency=0
I/O behind bridge: 0000b000-0000bfff
Memory behind bridge: f9000000-faffffff
Prefetchable memory behind bridge: 00000000d0000000-00000000efffffff
Capabilities: <access denied>
Kernel driver in use: pcieport
Kernel modules: shpchp
00:1a.0 USB controller: Intel Corporation 82801JI (ICH10 Family) USB UHCI Controller #4 (prog-if 00 [UHCI])
Subsystem: Gigabyte Technology Co., Ltd Motherboard
Flags: bus master, medium devsel, latency 0, IRQ 16
I/O ports at ff00 [size=32]
Capabilities: <access denied>
Kernel driver in use: uhci_hcd
Итак ... i ' ve попытался решить этот конфликт IRQ, изменив настройки BIOS (не нашел параметры настройки IRQ) или черный список модулей ядра («shpchp», поскольку я использую как контроллеры USB, так и PCIE) без успеха.
Затем я начал проверять параметры загрузки ядра. Первая попытка заключалась в использовании опции «irqpoll», которую предложила ошибка. Он ничего не решал, а также начал видеть другие сообщения:
Mar 26 14:17:23 Buda kernel: [ 1988.976483] hpet1: lost 9599 rtc interrupts
Mar 26 14:18:51 Buda kernel: [ 2076.378021] hpet1: lost 9600 rtc interrupts
Mar 26 14:20:11 Buda kernel: [ 2156.670873] hpet1: lost 9600 rtc interrupts
Mar 26 14:21:33 Buda kernel: [ 2238.533442] hpet1: lost 9599 rtc interrupts
Mar 26 14:22:17 Buda kernel: [ 2282.293272] hpet1: lost 9600 rtc interrupts
Mar 26 14:23:06 Buda kernel: [ 2331.292559] hpet1: lost 9600 rtc interrupts
Mar 26 14:24:42 Buda kernel: [ 2427.306337] hpet1: lost 9600 rtc interrupts
Подойдя к нему, я нашел и попробовал несколько других параметров загрузки, все без успеха. Сейчас я использую систему с «acpi = off», и это первый вариант, который «разрешает» конфликт IRQ, поскольку единственным устройством, использующим IRQ16, является USB-контроллер; но я потерял 4 ядра процессора, выполнив это (сейчас я вижу только 4 из 8) и не знаю, что еще я отключу (включен «acpi = off» всего несколько часов назад). [ ! d8]
Я обвинил firefox, затем драйверы nvidia, а затем ждал новый стек kernel + xorg ... ничего не помогло. Я могу работать в течение нескольких часов с обработкой видео или большими задачами с данными или даже без проблем играть в игры AAA в этой системе, а затем переходить к некоторым файлам youtuve или читать новости и получать зависание системы без каких-либо проблем с процессором или высокой температурой. Это также может случиться (и последние недели происходят много) сразу после загрузки, когда я запускаю thunderbird и firefox. Нет сообщений об ошибках приложения в системном журнале, никаких сбоев, только этот неожиданный материал IRQ.
Я здесь прошу помочь диагностировать это. Я не совсем понимаю все данные, которые собираю, и где еще мне нужно искать. Есть ли у кого-нибудь опыт в подобных проблемах? Что еще я могу сделать, чтобы отладить это?
Спасибо заранее.
Через несколько недель после публикации моей проблемы я обнаружил, что это проблема с оборудованием.
Я не знаю, была ли это моя видеокарта или какой-то слот памяти, но она просто не была хорошо связана, вроде бы, свободная. Обычная процедура очистки зафиксировала его.
При этом, если у вас есть аналогичная проблема, вы тоже можете это проверить, но если вам не так повезло, как я был, я боюсь, что это также может это неисправная аппаратная проблема.
Через несколько недель после публикации моей проблемы я обнаружил, что это проблема с оборудованием.
Я не знаю, была ли это моя видеокарта или какой-то слот памяти, но она просто не была хорошо связана, вроде бы, свободная. Обычная процедура очистки зафиксировала его.
При этом, если у вас есть аналогичная проблема, вы тоже можете это проверить, но если вам не так повезло, как я был, я боюсь, что это также может это неисправная аппаратная проблема.
Через несколько недель после публикации моей проблемы я обнаружил, что это проблема с оборудованием.
Я не знаю, была ли это моя видеокарта или какой-то слот памяти, но она просто не была хорошо связана, вроде бы, свободная. Обычная процедура очистки зафиксировала его.
При этом, если у вас есть аналогичная проблема, вы тоже можете это проверить, но если вам не так повезло, как я был, я боюсь, что это также может это неисправная аппаратная проблема.
Через несколько недель после публикации моей проблемы я обнаружил, что это проблема с оборудованием.
Я не знаю, была ли это моя видеокарта или какой-то слот памяти, но она просто не была хорошо связана, вроде бы, свободная. Обычная процедура очистки зафиксировала его.
При этом, если у вас есть аналогичная проблема, вы тоже можете это проверить, но если вам не так повезло, как я был, я боюсь, что это также может это неисправная аппаратная проблема.