GPU упал с автобуса (почти на каждом загрузке)

  • Устройство: HP Probook 470 G4
  • Встроенный GPU: Intel HD Graphics 620
  • Выделенный GPU: NVIDIA GeForce 930MX

Мой ноутбук только что вернулся из сервисного центра (из-за неисправностей ЦП). Все работало хорошо, прежде чем процессор не удалось. Теперь я установил Ubuntu 20.04 и проприетарные драйверы NVIDIA.

Примечание: Я попробовал каждую версию водителя. Мои GPU поддерживает 390, 418, 430, 435, 440, 450 и 455 . Также есть странная вещь ... когда я устанавливаю 440, APT устанавливает 450. То же самое происходит за 430 и 418. 435 заменяется на 455. В любом случае, вот моя проблема:

Когда я загружаю мой ноутбук, он застрял Черный экран до начала GDM3 . Я даже не могу переключить tty. Только SSH работает. Когда я получил журнал DMESG, я видел это:

[   16.620560] ACPI Warning: \_SB.PCI0.RP01.PXSX._DSM: Argument #4 type mismatch - Found
[Buffer], ACPI requires [Package] (20200528/nsarguments-59)
[   17.126534] r8169 0000:02:00.0 enp2s0: Link is Up - 100Mbps/Full - flow control off
[   17.126546] IPv6: ADDRCONF(NETDEV_CHANGE): enp2s0: link becomes ready
[   18.695141] pcieport 0000:00:1c.0: AER: Uncorrected (Non-Fatal) error received: 0000:00:1c.0
[   18.695154] pcieport 0000:00:1c.0: AER: PCIe Bus Error: severity=Uncorrected (Non-Fatal), type=Transaction Layer, (Requester ID)                     
[   18.695159] pcieport 0000:00:1c.0: AER:   device [8086:9d10] error status/mask=00100000/00010000                                                     
[   18.695161] pcieport 0000:00:1c.0: AER:    [20] UnsupReq               (First)                                                                       
[   18.695164] pcieport 0000:00:1c.0: AER:   TLP Header: 34000000 00000010 00000000 00000000                                                            
[   18.695173] nvidia 0000:01:00.0: AER: can't recover (no error_detected callback)
[   18.695208] pcieport 0000:00:1c.0: AER: device recovery failed
[   18.699191] NVRM: GPU at PCI:0000:01:00: GPU-9fe5f99e-479c-1100-e75b-dc4310990232
[   18.699194] NVRM: Xid (PCI:0000:01:00): 79, pid=1521, GPU has fallen off the bus.                                                                    
[   18.699197] NVRM: GPU 0000:01:00.0: GPU has fallen off the bus.
[   18.699206] NVRM: A GPU crash dump has been created. If possible, please run
               NVRM: nvidia-bug-report.sh as root to collect this data before
               NVRM: the NVIDIA kernel module is unloaded.
[   19.031183] EXT4-fs (dm-3): mounted filesystem with ordered data mode. Opts: (null)
[   19.423191] irq 16: nobody cared (try booting with the "irqpoll" option)
[   19.423195] CPU: 3 PID: 0 Comm: swapper/3 Tainted: P           OE     5.8.0-050800-generic #202008022230
[   19.423195] Hardware name: HP HP ProBook 470 G4/8234, BIOS P85 Ver. 01.37 10/19/2020
[   19.423196] Call Trace:
[   19.423197]  <IRQ>
[   19.423202]  dump_stack+0x70/0x8d
[   19.423205]  __report_bad_irq+0x3a/0xaf
[   19.423206]  note_interrupt.cold+0x8/0x60
[   19.423208]  handle_irq_event+0xaa/0xb1
[   19.423208]  handle_fasteoi_irq+0x7d/0x1c0
[   19.423210]  asm_call_on_stack+0x12/0x20
[   19.423211]  </IRQ>
[   19.423213]  common_interrupt+0xbc/0x160
[   19.423214]  asm_common_interrupt+0x1e/0x40
[   19.423215] RIP: 0010:poll_idle+0x9b/0xb9
[   19.423217] Code: 44 89 e8 41 5c 41 5d 41 5e 41 5f 5d c3 4c 89 f7 48 89 de e8 77 71 dd ff 49 89 c6 b8 c9 00 00 00 49 8b 17 83 e2 08 75 b1 f3 90 <83> e8 01 75 f1 65 8b 3d 59 97 04 63 e8 34 f6 51 ff 4c 29 e0 4c 39
[   19.423217] RSP: 0018:ffffa8f3000ffe10 EFLAGS: 00000246
[   19.423218] RAX: 0000000000000020 RBX: ffff9b8bc05b7500 RCX: 000000000000001f
[   19.423219] RDX: 0000000000000000 RSI: ffff9b8bc05b7500 RDI: ffffffff9df6d760
[   19.423219] RBP: ffffa8f3000ffe38 R08: 0000000485b61e74 R09: 0000000000000001
[   19.423220] R10: 0000000000000003 R11: ffff9b8bc05ab364 R12: 0000000485b61e74
[   19.423221] R13: 0000000000000000 R14: 00000000000007d0 R15: ffff9b8bb5300000
[   19.423223]  cpuidle_enter_state+0x81/0x3f0
[   19.423224]  cpuidle_enter+0x2e/0x40
[   19.423226]  cpuidle_idle_call+0x145/0x200
[   19.423227]  do_idle+0x7a/0xe0
[   19.423228]  cpu_startup_entry+0x20/0x30
[   19.423230]  start_secondary+0xe6/0x100
[   19.423232]  secondary_startup_64+0xb6/0xc0
[   19.423233] handlers:
[   19.423236] [<00000000750c932b>] i801_isr [i2c_i801]
[   19.423237] Disabling IRQ #16

Я всегда могу Sudo Prime-Select Intel && Sudo Systemctl Restart GDM3 Использование SSH, чтобы получить работу диспетчера дисплея, но карта NVIDIA просто не работай.

Примечание: Я не думаю, что это указывает сбой графического процессора. Я могу получить GPU, работая, добавив аргументы загрузки. Например, я попробовал эти:

quiet splash rcutree.rcu_idle_gp_delay=1 acpi_osi=! acpi_osi='Windows 2009' pci=nomsi

Добавление аргументов Исправлена ​​проблема, но только для 1 загрузки . Итак, когда я начал свой ноутбук, все работало нормально, даже приостановить. ГПУ работал, поэтому я знаю, что это не проводит. Также он работает нормально в Windows. Когда я перезагружаю свой ноутбук, он снова застрял на черном экране (да, я обновил GRUB, чтобы сделать изменения постоянными).

NOMSI отключает MSI, но это не решает мою проблему. GPU все еще «падает на автобус», но с разными сообщениями об ошибках (не удалось включить MSI).

Есть ли способ, возможно, отключить ошибки PCIE, чтобы водитель NVIDIA не сбивается? Я действительно думаю, что это врезается, потому что ядро ​​спамена с помощью сообщений об ошибках. Любая помощь была бы очень ценится.

Отредактируйте 1: Я попробовал вариант IrQPoll, но это ничего не исправило ... Странная вещь вот все работает нормально в окнах. Это просто Ubuntu (я могу попробовать другие дистрибутивы при необходимости). Я не могу открыть корпус ноутбука, потому что он будет аннулировать гарантию ремонта.

Редактировать 2: Вывод LSPCI -TV :

-[0000:00]-+-00.0  Intel Corporation Xeon E3-1200 v6/7th Gen Core Processor Host Bridge/DRAM Registers
           +-02.0  Intel Corporation HD Graphics 620
           +-14.0  Intel Corporation Sunrise Point-LP USB 3.0 xHCI Controller
           +-14.2  Intel Corporation Sunrise Point-LP Thermal subsystem
           +-17.0  Intel Corporation Sunrise Point-LP SATA Controller [AHCI mode]
           +-1c.0-[01]----00.0  NVIDIA Corporation GM108M [GeForce 930MX]
           +-1c.4-[02]----00.0  Realtek Semiconductor Co., Ltd. RTL8111/8168/8411 PCI Express Gigabit Ethernet Controller
           +-1c.5-[03]----00.0  Intel Corporation Wireless 7265
           +-1d.0-[04]----00.0  Realtek Semiconductor Co., Ltd. RTS522A PCI Express Card Reader
           +-1f.0  Intel Corporation Sunrise Point-LP LPC Controller
           +-1f.2  Intel Corporation Sunrise Point-LP PMC
           +-1f.3  Intel Corporation Sunrise Point-LP HD Audio-[0000:00]-+-00.0  Intel Corporation Xeon E3-1200 v6/7th Gen Core Processor Host Bridge/DRAM Registers
           +-02.0  Intel Corporation HD Graphics 620
           +-14.0  Intel Corporation Sunrise Point-LP USB 3.0 xHCI Controller
           +-14.2  Intel Corporation Sunrise Point-LP Thermal subsystem
           +-17.0  Intel Corporation Sunrise Point-LP SATA Controller [AHCI mode]
           +-1c.0-[01]----00.0  NVIDIA Corporation GM108M [GeForce 930MX]
           +-1c.4-[02]----00.0  Realtek Semiconductor Co., Ltd. RTL8111/8168/8411 PCI Express Gigabit Ethernet Controller
           +-1c.5-[03]----00.0  Intel Corporation Wireless 7265
           +-1d.0-[04]----00.0  Realtek Semiconductor Co., Ltd. RTS522A PCI Express Card Reader
           +-1f.0  Intel Corporation Sunrise Point-LP LPC Controller
           +-1f.2  Intel Corporation Sunrise Point-LP PMC
           +-1f.3  Intel Corporation Sunrise Point-LP HD Audio
           \-1f.4  Intel Corporation Sunrise Point-LP SMBus
           \-1f.4  Intel Corporation Sunrise Point-LP SMBus
1
задан 31 January 2021 в 17:57

2 ответа

Устройство 1c.0 вызывает проблему ... и AER (Advanced Error Reporting) сообщает об этом ...

       +-1c.0-[01]----00.0  NVIDIA Corporation GM108M [GeForce 930MX]

Хотя, как и вы, я подозреваю аппаратную проблему, в целях тестирования мы можем попробовать это ...

AER

sudo -H gedit / etc / default / grub # редактировать этот файл

Найти:

GRUB_CMDLINE_LINUX_DEFAULT = "тихий всплеск"

Измените его на:

GRUB_CMDLINE_LINUX_DEFAULT = "quiet splash pci = noaer"

Сохраните файл.

sudo update-grub # update GRUB

reboot # перезагрузка компьютера

В противном случае вам нужно будет отправить его обратно в сервисный центр.

0
ответ дан 18 March 2021 в 23:47

Имя пакета в Ubuntu - openbsd-inetd .

$ apt-file search bin/inetd
openbsd-inetd: /usr/sbin/inetd
rlinetd: /usr/sbin/inetd2rlinetd

inetd - это виртуальный пакет, который объясняет, почему вы смогли удалить его, но не удалили этот двоичный файл.

-121--911193-

В /etc/default/locale (или, скорее всего, в выходных данных команды locale ) указано:

LANGUAGE=en_US:sv

Это неправильно. en _ US файлы перевода обычно пусты, так как en _ US является языком оригинала. И когда gettext не находит перевода en _ US для последовательности, он в некоторых случаях возвращается к шведскому.

Измените это на:

LANGUAGE=en_US:en
-121--910990-

Похоже, что это аппаратная проблема. Я не знаю, что не так с графическим процессором, но я думаю, что он неправильно подключен к материнской плате. Я попробую разобрать ноутбук и посмотреть, что не так. Если я не смогу его исправить, я снова отнесу ноутбук в сервисный центр.

Мои тесты:

  • Это не происходило раньше
  • Это тоже началось в Windows сейчас (я получил что-то вроде ошибки 46 в диспетчере устройств)
  • Это происходит не при каждой загрузке. Иногда GPU работает, но прекращает работу при следующем перезапуске, спящем режиме или приостановке.
  • При выборе графического процессора Intel возникают случайные ошибки (> 100 dmesg сообщений в секунду). Удаление графического процессора из ядра (путем записи 1 на /sys/bus/pci/devices/0000: 01: 00.0/remove решает эту проблему без перезагрузки.
0
ответ дан 18 March 2021 в 23:47

Другие вопросы по тегам:

Похожие вопросы: