В прошлом месяце я заметил, что наш Dell PowerEdge T630 (Ubuntu 14.04.3 LTS) сервер перезагружает неожиданно (Jan 29 были ручные перезагрузки):
$cat /var/log/wtmp.report | grep boot | grep -v 'Jan 29'
reboot system boot 3.13.0-77-generi Wed Feb 10 09:00 - 13:59 (04:58)
reboot system boot 3.13.0-76-generi Wed Jan 27 09:01 - 10:47 (2+01:45)
reboot system boot 3.13.0-74-generi Tue Jan 19 10:34 - 10:47 (10+00:13)
reboot system boot 3.13.0-74-generi Wed Jan 13 09:02 - 10:47 (16+01:45)
Так, всех неуказанных перезагрузок они все (за исключением Jan 19), кажется, происходят каждая вторая среда около 9:00 (UTC-6).
Я просмотрел всех обычных подозреваемых (/var/log/kern.log
, /var/log/auth.log
, /var/log/dmesg
, /var/log/syslog
, и т.д.), но не может найти вид причины перезагрузки.
Я выполняю Fail2ban на сервере; каждый раз, когда я делаю ручную перезагрузку, я получу автоматизированное электронное письмо от Fail2ban, говоря, что SSH был остановлен, и затем другая электронная почта, говоря, что это отшатнулось. Интересно достаточно, когда эти неуказанные перезагрузки происходят, я только получаю электронное письмо, говоря, что SSH отшатнулся (то есть, я не добираюсь один о SSH, закрывающемся).
У кого-либо есть какие-либо идеи о том, что могло вызывать это? Этот сервер только используется нами и конечно не продвигается к, он - пределы в любой способности. Сервер выполняет традиционное (Apache) стек LAMP, наряду с SSH и различными другими вещами как Python и что нет.
Я обнаружил, что это была проблема питания, связанная с нашим зданием. PSU, до которого была сцеплена подача, был дефектным и не работал правильно, когда здание пройдет, это - выходящее два раза в неделю мерцание питания. Anywho, покупая новый PSU решил вопрос.