16,04 пользователей. С тех пор несколько месяцев назад (Q1 2017 года), не уверенный, когда, у меня есть проблемы inestability с моей машиной.
Система является старым i7 920 на Гигабайте материнская плата EX58-UD5. В настоящее время с 24 ГБ поршня и единственной картой GTX980. Я использую последние драйверы Nvidia из "графических драйверов" ppa и имею установленную стопку hwe (4,8 ядра и более новый Xorg), но эта проблема с 4,4 эр (перед ".2" пересмотр LTS) и несколько версий назад драйвера Nvidia. Система была устойчива с 2009, и текущая установка (добавил текущего генерала карта Nvidia, и дополнительный диск SATA) был с 2015 Q2; ничто не изменилось в 2017. Источник питания составляет 1000 Вт thermaltake, и не имейте никаких проблем тепла.
Проблема: внезапно экранные замораживания, и иногда (не всегда) мышь все еще перемещаются, но медленный, как спрыгивание с координат. Не может также изменить tty с комбинацией функциональных клавиш. Но я смог к ssh к системе от моего нетбука в то время как в этом состоянии; система все еще, не действительно заморожена.
Я предполагаю, что может быть полезно отметить, что почти каждый раз (приблизительно 98%, но не точно всегда), это происходит при прокрутке на Firefox. На самом деле сначала я обвинял некоторых 5X версия Firefox, которая включила многопроцессорную обработку для вкладок. Это не имело место, как я в конечном счете узнаю; приблизительно неделю назад запущенный к (пробуют к) отлаживают эту проблему, и я видел, что это обменивается сообщениями:
Mar 27 22:17:39 Buda kernel: [ 1841.918831] irq 16: nobody cared (try booting with the "irqpoll" option)
Mar 27 22:17:39 Buda kernel: [ 1841.918836] CPU: 3 PID: 0 Comm: swapper/3 Tainted: P IOE 4.8.0-41-generic #44~16.04.1-Ubuntu
Mar 27 22:17:39 Buda kernel: [ 1841.918837] Hardware name: Gigabyte Technology Co., Ltd. EX58-UD5/EX58-UD5, BIOS F13 01/10/2012
Mar 27 22:17:39 Buda kernel: [ 1841.918838] 0000000000000086 7b4c75c5fc78db31 ffff8d36d72c3e80 ffffffffaa22e043
Mar 27 22:17:39 Buda kernel: [ 1841.918840] ffff8d36d24e8800 ffff8d36d24e88d4 ffff8d36d72c3ea8 ffffffffa9ee2e23
Mar 27 22:17:39 Buda kernel: [ 1841.918842] ffff8d36d24e8800 0000000000000000 0000000000000010 ffff8d36d72c3ee0
Mar 27 22:17:39 Buda kernel: [ 1841.918844] Call Trace:
Mar 27 22:17:39 Buda kernel: [ 1841.918844] <IRQ> [<ffffffffaa22e043>] dump_stack+0x63/0x90
Mar 27 22:17:39 Buda kernel: [ 1841.918851] [<ffffffffa9ee2e23>] __report_bad_irq+0x33/0xc0
Mar 27 22:17:39 Buda kernel: [ 1841.918852] [<ffffffffa9ee31b7>] note_interrupt+0x247/0x290
Mar 27 22:17:39 Buda kernel: [ 1841.918855] [<ffffffffa9ee0174>] handle_irq_event_percpu+0x54/0x80
Mar 27 22:17:39 Buda kernel: [ 1841.918856] [<ffffffffa9ee01de>] handle_irq_event+0x3e/0x60
Mar 27 22:17:39 Buda kernel: [ 1841.918857] [<ffffffffa9ee38b2>] handle_fasteoi_irq+0xa2/0x160
Mar 27 22:17:39 Buda kernel: [ 1841.918859] [<ffffffffa9e302cd>] handle_irq+0x1d/0x30
Mar 27 22:17:39 Buda kernel: [ 1841.918862] [<ffffffffaa69e05b>] do_IRQ+0x4b/0xd0
Mar 27 22:17:39 Buda kernel: [ 1841.918863] [<ffffffffaa69c142>] common_interrupt+0x82/0x82
Mar 27 22:17:39 Buda kernel: [ 1841.918863] <EOI> [<ffffffffaa5198f8>] ? cpuidle_enter_state+0x128/0x2d0
Mar 27 22:17:39 Buda kernel: [ 1841.918869] [<ffffffffaa519ad7>] cpuidle_enter+0x17/0x20
Mar 27 22:17:39 Buda kernel: [ 1841.918870] [<ffffffffa9ec79fa>] call_cpuidle+0x2a/0x50
Mar 27 22:17:39 Buda kernel: [ 1841.918871] [<ffffffffa9ec7dde>] cpu_startup_entry+0x29e/0x350
Mar 27 22:17:39 Buda kernel: [ 1841.918874] [<ffffffffa9e518b1>] start_secondary+0x151/0x190
Mar 27 22:17:39 Buda kernel: [ 1841.918875] handlers:
Mar 27 22:17:39 Buda kernel: [ 1841.918878] [<ffffffffaa465fd0>] usb_hcd_irq
Mar 27 22:17:39 Buda kernel: [ 1841.918879] Disabling IRQ #16
Вещь об отключаемом IRQ 16. У меня есть cheched, что могло использовать IRQ 16:
:~$ lspci -v | grep IRQ
Flags: fast devsel, IRQ 12
Flags: bus master, fast devsel, latency 0, IRQ 16
Flags: bus master, medium devsel, latency 0, IRQ 16
Flags: bus master, medium devsel, latency 0, IRQ 21
Flags: bus master, medium devsel, latency 0, IRQ 18
Flags: bus master, medium devsel, latency 0, IRQ 18
Flags: bus master, fast devsel, latency 0, IRQ 30
Flags: bus master, fast devsel, latency 0, IRQ 24
Flags: bus master, fast devsel, latency 0, IRQ 25
Flags: bus master, fast devsel, latency 0, IRQ 26
Flags: bus master, fast devsel, latency 0, IRQ 27
Flags: bus master, medium devsel, latency 0, IRQ 23
Flags: bus master, medium devsel, latency 0, IRQ 19
Flags: bus master, medium devsel, latency 0, IRQ 18
Flags: bus master, medium devsel, latency 0, IRQ 23
Flags: bus master, 66MHz, medium devsel, latency 0, IRQ 19
Flags: medium devsel, IRQ 7
Flags: bus master, 66MHz, medium devsel, latency 0, IRQ 19
Flags: bus master, fast devsel, latency 0, IRQ 31
Flags: fast devsel, IRQ 17
Flags: bus master, fast devsel, latency 0, IRQ 17
Flags: bus master, fast devsel, latency 0, IRQ 18
Flags: bus master, fast devsel, latency 0, IRQ 28
Flags: bus master, fast devsel, latency 0, IRQ 29
Flags: bus master, medium devsel, latency 32, IRQ 18
И деталь этих двух устройств с помощью IRQ 16 является этим:
00:03.0 PCI bridge: Intel Corporation 5520/5500/X58 I/O Hub PCI Express Root Port 3 (rev 12) (prog-if 00 [Normal decode])
Flags: bus master, fast devsel, latency 0, IRQ 16
Bus: primary=00, secondary=01, subordinate=01, sec-latency=0
I/O behind bridge: 0000b000-0000bfff
Memory behind bridge: f9000000-faffffff
Prefetchable memory behind bridge: 00000000d0000000-00000000efffffff
Capabilities: <access denied>
Kernel driver in use: pcieport
Kernel modules: shpchp
00:1a.0 USB controller: Intel Corporation 82801JI (ICH10 Family) USB UHCI Controller #4 (prog-if 00 [UHCI])
Subsystem: Gigabyte Technology Co., Ltd Motherboard
Flags: bus master, medium devsel, latency 0, IRQ 16
I/O ports at ff00 [size=32]
Capabilities: <access denied>
Kernel driver in use: uhci_hcd
Так... я попытался решить, что IRQ "конфликт" путем изменения настроек BIOS (не сделал, нашел опции присвоения IRQ) или модули ядра помещения в черный список ("shpchp", поскольку я использую и USB и контроллеры PCIE) без успеха.
Затем я начал пробовать параметры начальной загрузки ядра. Первая попытка использовала "irqpoll" опцию предложенная ошибка. Это ничего не решило и также начало видеть это другие сообщения:
Mar 26 14:17:23 Buda kernel: [ 1988.976483] hpet1: lost 9599 rtc interrupts
Mar 26 14:18:51 Buda kernel: [ 2076.378021] hpet1: lost 9600 rtc interrupts
Mar 26 14:20:11 Buda kernel: [ 2156.670873] hpet1: lost 9600 rtc interrupts
Mar 26 14:21:33 Buda kernel: [ 2238.533442] hpet1: lost 9599 rtc interrupts
Mar 26 14:22:17 Buda kernel: [ 2282.293272] hpet1: lost 9600 rtc interrupts
Mar 26 14:23:06 Buda kernel: [ 2331.292559] hpet1: lost 9600 rtc interrupts
Mar 26 14:24:42 Buda kernel: [ 2427.306337] hpet1: lost 9600 rtc interrupts
Гугля вокруг, я нашел и попробовал несколько других параметров загрузки, все без успеха. Прямо сейчас я использую систему с "acpi=off", и это - первая опция, которая "разрешает" IRQ "конфликт", поскольку единственное устройство с помощью IRQ16 является контроллером USB; но я потерял 4 ядра процессора путем выполнения этого (я только вижу 4 из 8 прямо сейчас), и не знайте то, что еще я также отключаю (включил "acpi=off" всего несколько часов назад).
Я обвинил Firefox, затем драйверы Nvidia, затем ожидал новой стопки kernel+xorg... ничто не помогло. Я могу работать в течение многих часов с обработкой видеоданных или задачами больших данных или могу даже играть в игры AAA в этой системе без проблем и затем пойти, чтобы видеть некоторый youtuve vid или чтение новостей и получить системное замораживание без любого CPU или проблемы тепла. Это может также происходить (и прошлые недели происходит много) сразу после начальной загрузки, когда я запускаю тандерберд и Firefox. Никакие сообщения об ошибках приложения в системном журнале, никакие катастрофические отказы, просто этот внезапный материал IRQ.
Я здесь обращаюсь за помощью к диагностированию этого. Я не полностью понимаю все данные, которые я собираю, и где еще я должен искать. Есть ли кто-либо с опытом в проблемах этого вида? Что еще я могу сделать для отладки этого?
Заранее спасибо.
Спустя несколько недель после регистрации моей проблемы, я нашел, что это была аппаратная проблема.
я не знаю, была ли это моя видеокарта или некоторый слот памяти, но это не было просто хорошо соединено, не довольно свободно. Общая стандартная программа очистки зафиксировала его.
Тем не менее, если у Вас есть подобная проблема, Вы могли бы проверить на тот также, но если Вы не так удачливы, как я был, я боюсь, что это также, может оказаться, проблема с неисправным оборудованием.