Очевидно, аппаратная проблема включена. GPU № 8 застревает, и я не могу уничтожить приложения с помощью него. Каждое приведенное к таймауту приложение и сообщило о проблеме к управляющей программе (boinc), но кажется, что управляющая программа не могла завершить приложение и даже продолжала присваивать дополнительные задачи дефектному устройству весь из который приведенный к таймауту. Все приложения все еще работают, поскольку я вижу, что %cpu изменяется и иногда изменения значения ОТМЕТКИ КУРСА КОРАБЛЯ, таким образом, я знаю, что они работают, но я мог неправильно читать то, что продолжается. Следующее не работало
jstateson@h110btc:/usr/bin$ boinccmd --quit
can't connect to local host
root@h110btc:/var/lib/boinc/projects# sudo killall -v boinc
boinc: no process found
sudo kill -9 12374
htop показывает действие изменениями % ЦП, но nvidia-smi показывает 0.
От ввода по абсолютному адресу вокруг я считал, что обрабатывает, которые ожидают ввода-вывода, находятся в неопределенности и безразличен, и в конечном счете драйвер на самом деле теряет контакт с GPU, который это, переместился в ад.
Я думал, что была некоторая надежда, поскольку был "R" в столбце статистики, но если nvidia-smi говорит, что "наклон находит устройство перезагрузкой", затем не много может быть сделано. OTOH, в окнах, я иногда вижу незначительный сбой на экране и если я смотрю в конечном счете, регистрируются, я вижу nvkernreset или некоторое такое сообщение, как различные OS'es решают проблемы по-другому.