Мой сервер Ubuntu 16.10 VM в Azure MS (ряд NV6) внезапно имел отклонение по неизвестным причинам (ни одно из моего выполнения), я должен был перезапустить его и когда это возвратилось онлайн, я больше не смог использовать GPU на машине.
Замораживания приложения nvidia-smi.
Команда lspci
урожаи
lspci: Cannot open /sys/bus/pci/devices/7ec1:00:00.0/resource: No such file or directory
И конечно, тот путь (больше?) существует. То, что действительно существует,
$: ls /sys/bus/pci/devices/
0000:00:00.0/ 0000:00:07.0/ 0000:00:07.1/ 0000:00:07.3/ 0000:00:08.0/ b717ec1:00:00.0/
Некоторый поиск с помощью Google привел к нескольким подобным вопросам как мои, многие из которых был спрошен за прошлые 24 часа, как этот.
Это могло бы произойти из-за Ubuntu или Azure, я понятия не имею, который является источником этой проблемы или как решить его.
У кого-либо есть какие-либо идеи?
У меня была та же проблема (использующий экземпляры Azure NC24) и после работы в нем в течение нескольких часов, я нашел это сообщение и решил отправить запрос поддержки Microsoft. Вот то, что они сказали мне:
Канонический, кажется, недавно выпустил ядро 4.4.0-75 для Ubuntu 16.04, и это имеет отрицательный эффект на Tesla GPU на NC-series VMs. Установка 4.4.0-75 повреждений 8.0.61-1 версии драйвера CUDA NVIDIA that’s в настоящее время рекомендуемый для использования в этих системах, приводящих к nvidia-smi, не показывающей адаптеры и lspci возврат ошибки, подобной следующему:
root@pd-nvtest2:~# lspci lspci: Cannot open /sys/bus/pci/devices/2baf:00:00.0/resource: No such file or directory
Они предлагают резервировать диск ОС, работая
apt-get remove linux-image-4.4.0-75-generic
и затем
update-grub
Перезагрузка, и это должно работать! По крайней мере делая, который зафиксировал вывод lspci для меня, я все еще должен был зафиксировать некоторый материал CUDA, но это от более ранних попыток отладки.
Возможно, это вследствие Вас, остановились (освободил) Azure VM и затем запустил VM снова. Согласно [1], изменился аппаратный IP (как gpu, CPU), когда Вы останавливаетесь (освобожденный) и затем запускаете VM снова. Но система Ubuntu не была обновлена для новых аппаратных средств (как gpu, CPU) IP-адрес. Следовательно, lspci скажет, что Вы не можете открыть некоторые аппаратные средства связанная с IP-адресом папка.
На Azure VM это, кажется, проблема с LIS на Azure Обновления RedHat 7.5 LIS для VM, и это должно устранить проблему.
wget https://aka.ms/lis
tar xvzf lis
cd LISISO
sudo ./install.sh
sudo reboot