Ubuntu 16.04 перезагрузки/катастрофические отказы LTS, в то время как рабочие GPU

Я запускаю Ubuntu 16.04 LTS с CUDA 8.0, Tensorflow 1.1.0 и Keras 2.0.6. Система имеет два TitanX GPU, которые я использую для обучения сверточных нейронных сетей. Я выполняю эти процессы на Экране, и единственный сценарий обычно занимает приблизительно два дня для завершения. Однако система обычно отказывает и перезагрузки во время обучения, и я не уверен почему.

Журналы, на которые я смотрел, ни на что не указывают о том, почему системные перезагрузки, и я проверил, чтобы удостовериться, что ни один из компонентов не перегревался.

Какие-либо идеи?

0
задан 9 April 2018 в 06:51

1 ответ

Я смог устранить проблему путем отключения и переустановки всех кабелей PSU в системе. По-видимому, один из них был свободен и вызвал перезагрузку антизащиты от перенапряжения. По-видимому, материнская плата отображает эту информацию на экран, когда это происходит, но я всегда удаленно подключался к серверу каждый раз, когда это произошло, таким образом, я не мог видеть сообщение.

1
ответ дан 30 October 2019 в 03:07

Другие вопросы по тегам:

Похожие вопросы: