Система отключается при обучении модели мл

У меня есть система с 4xRTX2080, используемая в основном для обучения модели ML.

Nvidia driver version: 430.26
CUDA Version: 10.2

Я использую расширение удаленной разработки VSCode для удаленного доступа к машине и начала обучения. Использование GPU обычно выше 70% на всех 4 GPU при обучении.

Если я оставлю систему в таком состоянии примерно на 12 часов, соединение ssh будет разорвано, компьютер отключится, но компьютер не выключится. Если я подключу к нему клавиатуру и монитор, на монитор не будет выводиться сигнал, и компьютер не будет реагировать на ввод с клавиатуры.

Для меня очень важно иметь возможность оставить тренировку на более длительные периоды времени, не беспокоясь о том, что компьютер выключится.

Как мне вообще начать отлаживать это?

0
задан 4 September 2019 в 17:00

0 ответов

Другие вопросы по тегам:

Похожие вопросы: