Я начинаю программировать с помощью CUDA, но сталкиваюсь с очень сложной проблемой: через некоторое время системы выдают ошибку:
NVRM: GPU в 0000: 03: 00.0 отвалился от шины [ 1115]
И компьютер должен быть выключен, чтобы снова обнаружить карту nVidia.
Сначала я подумал, что это ошибка в моем коде: если я запускал один и тот же исполняемый файл 1000 раз, первые 200 итераций были в порядке, давая тот же вывод, но затем система выдала вышеупомянутую ошибку, и все Оставшаяся итерация давала ошибки. Затем я взял пример matrixMul из cuda, скомпилировал его и запустил 1000 раз. Та же самая ошибка произошла вокруг итерации 200 !. Это указало мне на проблему с водителем.
Поэтому, к сожалению, безуспешно, я протестировал ту же процедуру с:
Ни один из предыдущих работ не работал.
Пожалуйста, помните очень простой тест: я компилирую пример matrixMul (с jusf make) и запускаю исполняемый файл 1000 раз. Я также проверил это на своем MacBook Pro и все прошло хорошо (хотя, конечно, разные SO, карты и т. Д.) Я сейчас не в курсе.
То, что я еще не тестировал:
Это моя системная информация:
Пожалуйста, если у вас есть предложения, дайте мне знать. Заранее спасибо.