CUDA: карта nVidia упала с автобуса

Я начинаю программировать с помощью CUDA, но сталкиваюсь с очень сложной проблемой: через некоторое время системы выдают ошибку:

NVRM: GPU в 0000: 03: 00.0 отвалился от шины [ 1115]

И компьютер должен быть выключен, чтобы снова обнаружить карту nVidia.

Сначала я подумал, что это ошибка в моем коде: если я запускал один и тот же исполняемый файл 1000 раз, первые 200 итераций были в порядке, давая тот же вывод, но затем система выдала вышеупомянутую ошибку, и все Оставшаяся итерация давала ошибки. Затем я взял пример matrixMul из cuda, скомпилировал его и запустил 1000 раз. Та же самая ошибка произошла вокруг итерации 200 !. Это указало мне на проблему с водителем.

Поэтому, к сожалению, безуспешно, я протестировал ту же процедуру с:

  • Несколько драйверов, некоторые старые (которые, как показали результаты Google, могут решить проблему), последние долгоживущие , последние экспериментальные, бета-версии и т. д.
  • Cuda 5 и cuda 4.2 с вышеупомянутыми драйверами
  • Я загрузился только на текст без
  • Я полностью удалил xorgserver
  • Включил постоянный режим.
  • Решения по поиску, предлагаемые на форумах и после поиска в Google.

Ни один из предыдущих работ не работал.

Пожалуйста, помните очень простой тест: я компилирую пример matrixMul (с jusf make) и запускаю исполняемый файл 1000 раз. Я также проверил это на своем MacBook Pro и все прошло хорошо (хотя, конечно, разные SO, карты и т. Д.) Я сейчас не в курсе.

То, что я еще не тестировал:

  • Другая версия ядра.
  • Еще один дистрибутив Linux (отчаянное решение).

Это моя системная информация:

  • Ubuntu 12.04.2
  • Cuda 5
  • Текущая версия драйвера: 313.30 (загружается непосредственно с nvidia)
  • Ядро Ubuntu: 3.2.
  • Версия g ++: 4.6
  • Карта nVidia: Quadro 4000 (GF 100)

Пожалуйста, если у вас есть предложения, дайте мне знать. Заранее спасибо.

2
задан 15 April 2013 в 19:28

0 ответов

Другие вопросы по тегам:

Похожие вопросы: