Я запускаю Ubuntu 16.04 LTS с CUDA 8.0, Tensorflow 1.1.0 и Keras 2.0.6. Система имеет два TitanX GPU, которые я использую для обучения сверточных нейронных сетей. Я выполняю эти процессы на Экране, и единственный сценарий обычно занимает приблизительно два дня для завершения. Однако система обычно отказывает и перезагрузки во время обучения, и я не уверен почему.
Журналы, на которые я смотрел, ни на что не указывают о том, почему системные перезагрузки, и я проверил, чтобы удостовериться, что ни один из компонентов не перегревался.
Какие-либо идеи?
Я смог устранить проблему путем отключения и переустановки всех кабелей PSU в системе. По-видимому, один из них был свободен и вызвал перезагрузку антизащиты от перенапряжения. По-видимому, материнская плата отображает эту информацию на экран, когда это происходит, но я всегда удаленно подключался к серверу каждый раз, когда это произошло, таким образом, я не мог видеть сообщение.