У меня есть система с 4xRTX2080, используемая в основном для обучения модели ML.
Nvidia driver version: 430.26
CUDA Version: 10.2
Я использую расширение удаленной разработки VSCode для удаленного доступа к машине и начала обучения. Использование GPU обычно выше 70% на всех 4 GPU при обучении.
Если я оставлю систему в таком состоянии примерно на 12 часов, соединение ssh будет разорвано, компьютер отключится, но компьютер не выключится. Если я подключу к нему клавиатуру и монитор, на монитор не будет выводиться сигнал, и компьютер не будет реагировать на ввод с клавиатуры.
Для меня очень важно иметь возможность оставить тренировку на более длительные периоды времени, не беспокоясь о том, что компьютер выключится.
Как мне вообще начать отлаживать это?