Я использую zenoss для мониторинга около 70 серверов unix и windows в моем офисе. Мы также контролируем все сетевое оборудование и даже термостат в серверной комнате. Большая часть из них - через SNMP. (однако мы используем некоторые пользовательские письменные сценарии для мониторинга производительности некоторых приложений)
Большинство серверов (например, dell и hp) имеют внутренние температурные датчики, которые вы можете запросить с помощью SNMP. Вы также можете отслеживать процессы, использование ЦП, пропускную способность сети и т. Д. Я получаю предупреждения, если серверы отключены, или начнет использовать слишком много CPU, или если критические процессы опускаются.
Серьезно, я не могу достаточно настаивать на таких вещах, как zenoss , hyperic и nagios! бесплатные версии могут контролировать несколько систем, но они также могут просто контролировать один. Они помогают устранить неполадки и выясняют, что сервер делал в 2 часа, когда возникла проблема.