Я преследовал эту проблему около 6 недель, с тех пор как я обновился до Xenial. Первоначально считалось, что это было случайным, но обнаружение с использованием последовательных USB-адаптеров спровоцировало проблему. Не имело значения, было ли это на борту USB2 или PCI-E USB3 надставной картой. Появятся следующие сообщения на текстовой консоли и / или последовательной консоли (которые я включил для последовательного порта ob-board):
NMI watchdog: Watchdog detected hard LOCKUP on cpu 0
NMI watchdog: Watchdog detected hard LOCKUP on cpu 2
NMI watchdog: Watchdog detected hard LOCKUP on cpu 3
NMI watchdog: Watchdog detected hard LOCKUP on cpu 4
NMI watchdog: Watchdog detected hard LOCKUP on cpu 5
NMI watchdog: Watchdog detected hard LOCKUP on cpu 6
NMI watchdog: Watchdog detected hard LOCKUP on cpu 8
NMI watchdog: Watchdog detected hard LOCKUP on cpu 11
и т. Д.
Машина имеет 16 ядер, и все блокируются быстро, требуя сброса.
Я запускал последнее ядро (linux-image-4.4.0-72-generic). Я попытался 4.8, но был затронут ошибкой MTU (https://bugs.launchpad.net/ubuntu/+source/linux-hwe-edge/+bug/1679823). Я попытался 4.10, но у меня есть какая-то ошибка KVM (я также запускаю несколько виртуальных машин на хосте).
Я попытался заменить память (даже если память ECC), заменив материнскую плату, заменив NIC , все безрезультатно. Я не мог найти никого, кто сообщал бы о блокировке нескольких процессоров, не привязанных к определенному процессу пользовательской области, поэтому я понял, что у меня плохое аппаратное обеспечение.
Я выполнил инструкции по созданию собственного ядра для 4.8 (https://wiki.ubuntu.com/Kernel/BuildYourOwnKernel) и построил linux-image-4.8.0-53-generic. Это зафиксировало мои блокировки, проблемы с MTU и отсутствие паники KVM. Так как я потратил 6 недель на устранение этой проблемы, надеюсь, кто-то найдет это полезным.
Я выполнил инструкции по созданию собственного ядра для 4.8 (https://wiki.ubuntu.com/Kernel/BuildYourOwnKernel) и построил linux-image-4.8.0-53-generic. Это зафиксировало мои блокировки, проблемы с MTU и отсутствие паники KVM. Так как я потратил 6 недель на устранение этой проблемы, надеюсь, кто-то найдет это полезным.