Случайные замораживания на Ubuntu 18.04 с ошибкой: “сторожевой таймер: ОШИБКА: мягкий тупик - CPU#11, застрявший в 22”, сопровождаемых “сторожевым таймером NMI трудный ТУПИК”

Об один раз в неделю, полностью замерзнет мой ПК. Я не могу ssh в него, мышь будет работать в течение нескольких секунд и затем останавливаться, REISUB не работает, единственным решением является "жесткая" перезагрузка.

Я ничто не могу найти значительным подарком ни в каких журналах, но если я, оказывается, нахожусь в виртуальном терминале, когда замораживание происходит, следующие сообщения открываются:

enter image description here

Я искал ту ошибку, но большинство людей, сообщающих этому, кажется, получает ее на начальной загрузке или установке, мой просто случайным образом происходит.

Я выполняю систему двойной загрузки: Windows 10 и Ubuntu 18.04. ЦП AMD Ryzen 7, NVIDIA 1060 6 ГБ GPU.

2
задан 26 October 2018 в 03:16

2 ответа

Из комментариев...

Вы могли бы свериться с AMD, поскольку у них были некоторые отзывы процессора Ryzen из-за проблем Linux. См. этот отчет об ошибках.

Я посмотрел на тот длинный отчет об ошибках, и похоже, что программные продукты - повсеместно... некоторые с удачей... некоторые без. Я связался бы с AMD и видел бы, заменят ли они Ваш процессор.

1
ответ дан 2 December 2019 в 04:41

Если он есть в BIOS материнской платы (у меня материнская плата Asus Prime X370 Pro), попробуйте отключить функцию питания C6 и установить ее с автоматического на руководство.

Существуют параметры ядра, если у вас их нет в BIOS / UEFI. Хотя вам необходимо проверить, подходит ли это для вашей версии ядра, потому что более поздние версии ядра отключили некоторые или все эти функции (CONFIG_RCU_NOCB_CPU_ALL, по сообщениям, исчез, но может быть повторно введен функцией отладки ядра: RCU_NOCB_CPU, который должен быть включен, как и RCU_EXPERT параметр ядра, который включает RCU_NOCB_CPU - без этих параметров ЦП не может быть программного обходного решения).

Итак, в командной строке ядра для 12-поточных процессоров (если вы не можете отключить функциональность C6 в BIOS / UEFI):

rcu_nocbs=0-11

Для 16-поточных процессоров:

rcu_nocbs=0-15

По сути, насколько я понимаю, Linux запрашивает, чтобы система уменьшила напряжение на ЦП слишком велико, и материнская плата позволяет ему это делать, что приводит к блокировке Linux.

Симптомы включают: безответственный ввод с клавиатуры / мыши, все, что находится на экране, там «зависает», и система не отвечает на ssh, хотя все равно будет пинговать. Если звук воспроизводится, то проиграется последняя часть аудиобуфера, повторите 2–3 раза, а затем остановитесь. В / var / log / messages ничего нет. Это может происходить один или два раза в месяц. В совершенно непредсказуемое время - обычно, когда я сижу в сети.

Если можете, попробуйте отключить это в BIOS / UEFI материнской платы, так как оборудование не должно позволять системе понижать мощность до такого низкого уровня. Вариант программного ядра сложен, так как он зависит от изменений ядра.

Эта проблема беспокоила меня в течение многих лет, но я был слишком занят, и мне не хватало времени, чтобы тратить время на ее решение. На этой неделе, после 2,5 часов FSCK, с меня было достаточно. После отключения функций в UEFI проблема больше не повторялась.

3
ответ дан 15 February 2020 в 09:36

Другие вопросы по тегам:

Похожие вопросы: