Удаленный сервер кажется мертвым, как устранить неполадки?

У меня удаленно запущен сервер Ubuntu в другом офисе. Он несколько раз умирал, и я не могу понять причину. Это сервер, который запрашивает внешнюю службу через api. Под dead я имею в виду, что он все еще работает, но просто перестает работать. Сеть сервера, кажется, тоже отключена, и сканирование локальной сети не находит ее.

Он находится за офисным маршрутизатором и работает под управлением ядра 18.04 4.15.0-147-generic. Ни у кого на сайте нет учетной записи на этом сервере.

Вот что я пробовал.

  1. последняя перезагрузка результат:
reboot system boot 4.15.0-151-gener Thu Jul 22 14:49  still running
reboot system boot 4.15.0-147-gener Wed Jul 21 15:48  still running
reboot system boot 4.15.0-147-gener Wed Jul 21 14:05 - 15:48 (01:43)
reboot system boot 4.15.0-147-gener Sat Jul 17 18:24 - 15:48 (3+21:24)
reboot system boot 4.15.0-147-gener Thu Jul 15 17:26 - 15:48 (5+22:22)

22 июля, 14:49 была перезагрузкой, которую я попросил у сотрудников на месте. 21 июля произошло отключение электроэнергии.

  1. / var / log / syslog
Jul 22 09:08:50 localhost service_start.sh[946]: INFO:launcher:myjob finish a output for 2.
Jul 22 09:08:50 localhost service_start.sh[946]: INFO:launcJul 22 14:50:05 localhost systemd[1]: Starting Flush Journal to Persistent Storage...
Jul 22 14:50:05 localhost systemd[1]: Started LVM2 metadata daemon.
Jul 22 14:50:05 localhost systemd[1]: Started Load/Save Random Seed.
Jul 22 14:50:05 localhost lvm[443]:   2 logical volume(s) in volume group "localhost-vg" monitored
Jul 22 14:50:05 localhost systemd[1]: Started Set the console keyboard layout.
Jul 22 14:50:05 localhost systemd-modules-load[436]: Inserted module 'iscsi_tcp'

Система отключилась после 22 июля, 09:08:50 . 22 июля, 14:50:05 была перезагрузка, о которой говорилось выше.

Похоже, что система не была перезагружена или завершена, иначе должен быть какой-то журнал, указывающий на это. И в syslog тоже нет журнала системных ошибок.

Есть два пользовательских задания cron, настроенных для запуска каждые 5 и 10 минут, и были записи о запуске cron в системном журнале около 22 июля, 09:05:01 до того, как система перестала работать около 22 июля 09:08:50 .

На объекте нет технических специалистов, и в настоящий момент я могу связаться с сервером только через teamview с другого местного компьютера.

Я запускал htop, и нагрузка на систему была небольшой.

Я сейчас в растерянности. Что еще мне следует проверить во время следующего сеанса teamview?

0
задан 22 July 2021 в 21:02

1 ответ

У вас есть довольно много переменных для описания вашей проблемы, в первую очередь сетевая инфраструктура в том месте, где размещен сервер. Если бы это был мой сервер, первым шагом было бы подключиться к нему по ssh и выполнить следующее:

tail -f /var/log/syslog

Это или мониторинг одного из других файлов журналов может пролить свет на то, что вызывает отсутствие ответа на сервер.

Поскольку вы говорите, что сервер все еще работает, даже если он мертв (неясно, что это значит), это означает потерю сетевого соединения, поэтому я бы сосредоточил свой мониторинг на этом.

Вы можете обнаружить, что самый быстрый способ решить эту проблему - устранить это на месте через локальную сеть.

0
ответ дан 28 July 2021 в 11:15

Другие вопросы по тегам:

Похожие вопросы: