Аварии при использовании NVidia GPU ("Performance Mode") с проприетарными драйверами при обычной температуре и отсутствии нагрузки/стресса на GPU

Я пытаюсь решить эту проблему самостоятельно (поиск исправлений и вопросов/ответов, предоставленных в аналогичных случаях) уже более года, безрезультатно.

Затронутое устройство - старый ноутбук с 2 GPU: выделенным/дискретным (NVidia) и интегрированным (Intel Graphics).

Описание сбоя

Экран застывает, включая указатель мыши. Появляется новый указатель (который реагирует только на движение мыши). Никакое взаимодействие невозможно (например, команды, сочетания клавиш и "клики"). Через несколько секунд (около 10) все индикаторы на клавиатуре (например, capslock и numlock) начинают включаться и выключаться (с интервалом около 1 секунды), а кулеры ускоряются до, похоже, максимальной скорости. Я никогда не оставлял компьютер в таком состоянии более чем на несколько секунд. Мне приходится принудительно выключать его (удерживать кнопку питания).

Обстоятельства (когда/как это происходит)

Сбой происходит только при выполнении всех следующих критериев:

  1. Выбран выделенный GPU (sudo prime-select nvidia).

1.1. Примечание: в отличие от моего предыдущего опыта (когда достаточно было выйти из системы), для вступления изменений в силу (переключение GPU) систему необходимо перезагрузить.

  1. Графический процессор находится под низкой нагрузкой (или, возможно, вообще без нагрузки).

2.1. Другими словами, это никогда не происходит, когда GPU действительно используется (например, в играх или при просмотре видео).

2.2. Однако это происходит, когда приложение, использующее GPU, свернуто или не "сфокусировано" (например, просмотр файлов, когда игра свернута, или на вкладке браузера идет видео, но она не находится на переднем плане/выбрана).

Дополнительные детали

  1. Произошло как на Ubuntu 18.04 (включая Live, запущенный с USB-устройства), так и на 20.04
  2. НЕ произошло в Windows 7 64-bit (последняя ОС, используемая до перехода на Ubuntu)
  3. Не уверен, произошло ли это при использовании Nouveau драйверов. Тем не менее, о его использовании не может быть и речи по причинам производительности, и это было бы просто обходным решением, а не исправлением.
  4. Произошло с обеими версиями драйверов Nvidia, доступными в разделе Software & Updates - Additional Drivers (или sudo ubuntu-drivers), а именно 340 и 390.
  5. Температуры GPU находятся в соответствующих пределах
  6. Не обнаружено ошибок ни в оперативной памяти (Memtest), ни на HDD
  7. В настройках BIOS отсутствует опция Secure Boot
  8. Целостность загруженного образа и установочного носителя ОС была проверена, причем проверка целостности перед установкой (20. 04) была разрешена при любой возможности
  9. Система всегда обновляется
  10. Режим On-demand не тестировался, так как это было бы просто обходным решением, а не исправлением
  11. Я не пытался (пока) обновить BIOS, но ни одно из обновлений, упомянутых в журналах изменений, похоже, не связано с проблемой (которая, как было сказано ранее, не произошло под Windows 7 64-bit)
  12. Другие версии и дистрибутивы не тестировались
  13. При проверке приложения Logs не было найдено никаких релевантных (я могу ошибаться, конечно) записей. Однако, в конце концов, в нем появилась ошибка, связанная с падением GPU с BUS (что, по идее, должно быть исправлено параметром rcutree. rcu_idle_gp_delay=1, упомянутым ниже)

Попытки исправления

  1. Свежая установка ОС
  2. Переустановка драйверов, включая полное удаление ранее установленных
  3. Установка драйверов Nvidia во время и после установки ОС
  4. Установка Powermizer на Максимальную производительность, как вручную, так и автоматически (с помощью Startup Applications: /usr/bin/nvidia-settings -a "[gpu: 0]/GpuPowerMizerMode=1"), поскольку он не сохраняется после перезагрузки/выключения
  5. Включение режима постоянства с помощью sudo nvidia-persistenced --persistence- mode
  6. Десятки комбинаций (более 40) следующих параметров загрузки в строке GRUB_CMDLINE_LINUX_DEFAULT="" из /etc/default/grub, затем update-grub:

intel_idle. max_cstate=1; ahci.mobile_lpm_policy=1 and ahci.mobile_lpm_policy=; pcie_aspm=off; rcutree. rcu_idle_gp_delay=1; nvidia-drm.modeset=1; acpi_osi='Windows 2009', с и без acpi_osi=!

  1. Отправка ноутбука OEM-производителю для проверки (по словам OEM-производителя, проблем не обнаружено)

Заключительные замечания

Я очень извиняюсь за столь длинный вопрос. Но, после того, как я пытался исправить это "самостоятельно" (используя помощь, оказанную другими другим, конечно) в течение более года, ища многочисленные посты и руководства, я почувствовал, что пришло время попросить помощи у более опытных людей.

Любая помощь будет принята с благодарностью, и я постараюсь предоставить больше деталей, если потребуется.

Большое спасибо за внимание.

0
задан 25 August 2020 в 18:32

1 ответ

На случай, если у кого-то возникнет такая же проблема, я нашел (неэффективное) обходное решение, отличное от использования драйвера Nouveau или переключения на встроенный графический процессор (например, Intel Graphics).

Пока я держу программу, которая нагружает GPU на переднем плане, сбоя не произойдет. Например, оконная игра работает нормально. Игры с очень низкими системными требованиями почему-то не предотвратят сбой.

Это нелепый обходной путь, особенно проблематичный на устройствах с одним дисплеем. Однако после бесчисленных часов поиска, чтения и проб/ошибок (более 50 часов, связанных только с GRUB) я не смог решить эту проблему.

Спасибо всем, кто прочитал мой вопрос.

2
ответ дан 15 December 2020 в 20:19

Другие вопросы по тегам:

Похожие вопросы: