K20Xm Драйверы TESLA CUDA (nvidia-430, 440 и т. Д.) Не удается установить на Dell T7400 и Dell T7500 под управлением Ubuntu 16.04 LTS

У меня есть две рабочие станции Dell (Dell T7400 и Dell T7500), каждая с 32 ГБ ОЗУ и двумя графическими процессорами nVidia TESLA K20Xm (по одной для каждой машины). Рабочие станции работают под управлением Ubuntu 16.04 LTS.

Я хочу работать с Tensorflow и CUDA 10. 1 или 10,2 (предпочтительно). Однако, несмотря на неоднократные попытки, я не могу заставить работать драйверы nVdia GPU и CUDA.

Драйверы CUDA для Dell T7500 с графическим процессором nVidia TESLA K20Xm Первая машина, T7500, имела графическую карту K20Xm, а также старую графическую карту Quadro FX1800 (хорошо работающую с высоким разрешением). Сначала я проверил контрольный список перед установкой драйверов выпуска -440, чтобы убедиться, что у меня правильная начальная точка. Я загрузил файл запуска (выбрав параметры для ОС и т. Д. С веб-сайта nVidia) и попытался запустить его из сеанса терминала с остановленной службой lightdm. Первоначально он предупреждал, что «предустановочный скрипт не удался», но читая другие форумы, я продолжил через это. Затем он сказал, что обнаружил старый графический процессор Quadro FX1800, но проигнорирует его (я чувствовал это многообещающе, поскольку мне нужно использовать TESLA K20Xm). Я выбрал «да» для установки модуля DKMS, а затем после перезапуска я не смог войти в систему (цикл входа в систему сразу же выводил меня из системы). Большинство форумов сообщают, что петлю входа в систему необходимо исправить, удалив драйверы nVidia или проверив разрешения на .Xautority и .XICEauthority (у обоих были правильные разрешения). Удаление драйверов не решило проблему, мне пришлось удалить все дисплеи диспетчера и пакеты lightdm и переустановить, но затем я остался без драйверов GPU. Я попытался установить файл запуска снова, но после внесения в черный список Nouveau. Графический процессор не работал (nvidia-smi не работал правильно, несмотря на заданный путь), и мои настройки дисплея были очень плохими.

Думая, что, возможно, видеокарта nVidia Quadro FX усугубляет проблему, я заменил это на Видеокарта ATI Radeon («[AMD / ATI] RV710 / M92 [Mobility Radeon HD 4530/4570 / 545v]»). Я установил драйверы Radeon, и он работал нормально (с высоким разрешением), и затем снова попытался установить драйверы -440 через файл запуска. Когда это не удалось, я удалил все и попытался, добавив PPA и установив с помощью apt-get install nvidia-440 и пакетов CUDA, опять же, это не сработало. Я также попробовал «автоматическую установку ubuntu-drivers», но это не сработало. Эта рабочая станция T7500 теперь остается с испорченными пакетами, не установленным графическим процессором и графикой низкого разрешения. Похоже, что в LightDM отсутствуют строки меню и значки.

Драйверы CUDA для Dell T7400 с графическим процессором nVidia TESLA K20Xm Эта рабочая станция T7500 теперь остается с испорченными пакетами, не установленным графическим процессором и графикой низкого разрешения. Похоже, что в LightDM отсутствуют строки меню и значки.

Драйверы CUDA для Dell T7400 с графическим процессором nVidia TESLA K20Xm Эта рабочая станция T7500 теперь остается с испорченными пакетами, не установленным графическим процессором и графикой низкого разрешения. Похоже, что в LightDM отсутствуют строки меню и значки.

Драйверы CUDA для Dell T7400 с графическим процессором nVidia TESLA K20Xm Следующая машина (которая также имеет графический процессор TESLA K20Xm) - это Dell T7400 со старым (но хорошо работающим) nVidia Quadro NVS300 («NVIDIA Corporation GT218 [NVS 300] (rev a2)»). Я попробовал файл запуска установки CUDA-драйверов, в котором, как я понимаю, есть варианты установки драйверов, драйверов cuda, образцов cuda и т. Д. Опять же, сначала я отключил службу lightdm и занес в черный список nouveau. После установки у меня возникли похожие проблемы. Драйверы графики были нарушены. Затем я попытался удалить драйверы графического процессора K20 «nvidia-uninstall» и повторил попытку, но с использованием PPA и сначала драйверов 418, а затем 430, опять же не повезло. Эта рабочая станция также теперь имеет ту же проблему с циклом входа в систему.

Итак, мой вопрос: i) Как правильно установить драйверы GPU nVidia вместе с графической картой (не нарушая драйверы видеокарты, как, понятно, GPU не имеет графического порта). Кроме того, как DKMS работает с драйверами nVidia, и я должен использовать это? (Все, что я понимаю, это то, что он поддерживает сборку ядра, что полезно для будущих обновлений, пересборок ядра).

Эти две машины являются частью кластера, на котором запущен Infiniband без коммутатора, было сложно получить это готов к работе с драйверами Mellanox, поэтому я не хочу переустанавливать Ubuntu 16.04 (также была проделана большая работа / настройка, которую я не хочу делать заново).

Буду признателен за любые предложения, я чувствую, что это не должно быть так сложно!

Джейми

2
задан 5 June 2020 в 19:51

1 ответ

Здесь есть много ответов об установке CUDA, но в основном вы получаете драйверы Nvidia из стандартных репозиториев и избегаете всех бессмысленность зависимости CUDA от этих устаревших драйверов, предлагаемых пакетами run / deb Nvidia, просто взяв файл deb и распаковав его (не устанавливая). Дебеты 10.x просто содержат другие файлы deb, удалите ненужные файлы Nvidia. Затем снова просто распакуйте их все.

Вы должны получить полный набор файлов CUDA (bin и lib) в вашем локальном каталоге без привязки менеджера пакетов. Измените ваш PATH и LD_LIBRARY_PATH, чтобы включить их. Единственное, что вам может понадобиться - это старая версия gcc / g ++, необходимая для CUDA - установите их и просто добавьте ссылки на старые версии в каталоге cuda / bin. НЕ меняйте общесистемный компилятор по умолчанию с альтернативами обновления. Ваша система будет обновлять и поддерживать ядра и драйверы Nvidia без проблем. Вы никогда не получите обновление CUDA, если вы сами не сделаете это явно.

0
ответ дан 19 June 2020 в 21:30

Другие вопросы по тегам:

Похожие вопросы: