Диагностировать полное зависание сервера Ubuntu 12.04.1 при запуске интенсивной операции ввода-вывода?

В данный момент я пытаюсь перенести данные с программного RAID5 (6 дисков) на программный RAID1. Команда выбора была:

rsync -avxHACPX /mnt/old/ /mnt/new/

Однако, после первых нескольких файлов машина полностью блокируется. Сначала я подумал, что это связано с тем, что диски были подключены с помощью карты расширения USB3, но даже при непосредственном подключении их с помощью SATA ситуация не изменится.

В данный момент я выполняю длинный SMART-тест с использованием smartctl, но это займет много времени. А пока я хотел бы узнать, как диагностировать такую ​​проблему.

Несколько лет назад кто-то мог следить за журналом ядра на одном из терминалов, но, похоже, Ubuntu больше этого не предоставляет. Поскольку в файлах журналов нет ничего полезного (вероятно, потому что они не записываются после возникновения ошибки), я не знаю, как диагностировать такую ​​проблему?

Мой вопрос также более общий вопрос о диагностике такой проблемы , когда я с ней сталкиваюсь. Прямо сейчас единственный шанс, который у меня есть, - записать файлы, которые содержат ошибки, а затем пропустить их при копировании. Но это актуальная задача. На более абстрактном уровне я хотел бы узнать о стратегиях, подобных тому, что я мог сделать в прошлом, наблюдая за консолью ядра.

NB. Сначала я поставил перед вызовом rsync префикс ionice -c 3 nice, но затем, после этого, выдал ошибку и удалил ее. Ошибка возникает независимо от этого.

Дополнительная информация: исходный том - XFS, целевой диск - ext4. Я всегда mount -o ro,remount использую исходный том перед началом операции копирования. Исходный том также является томом LVM2, наложенным поверх программного RAID5 (md).


smartctl -a вывод (отфильтрованный):

# for i in $(blkid |grep '/sd'|cut -b 1-8|sort|uniq); do echo $i;  smartctl -a $i|grep -A 1 '^SMART Error Log Version'; done
/dev/sda
SMART Error Log Version: 1
No Errors Logged
/dev/sdb
SMART Error Log Version: 1
ATA Error Count: 1
/dev/sdc
SMART Error Log Version: 1
No Errors Logged
/dev/sdd
SMART Error Log Version: 1
No Errors Logged
/dev/sde
SMART Error Log Version: 1
No Errors Logged
/dev/sdf
SMART Error Log Version: 1
No Errors Logged
/dev/sdg
SMART Error Log Version: 1
No Errors Logged
/dev/sdh
SMART Error Log Version: 1
No Errors Logged

/dev/sdb - это один из физических дисков, составляющих физический том исходного тома.


Вывод iostat, который вы запросили:

sdc               0.00     3.50    0.00    2.00     0.00    22.00    22.00     0.45  226.00    0.00  226.00  78.00  15.60
sdd              38.50     0.00   86.00    0.00  6982.00     0.00   162.37     0.27    3.14    3.14    0.00   2.95  25.40
sde              39.50     0.00   88.00    0.00  7064.00     0.00   160.55     0.43    4.95    4.95    0.00   4.30  37.80
md1               0.00     0.00  625.00    0.00 34984.00     0.00   111.95     0.00    0.00    0.00    0.00   0.00   0.00
sdf              40.00     0.00   84.50    0.00  6994.00     0.00   165.54     0.40    4.73    4.73    0.00   4.43  37.40
sdg               0.00   107.00    0.00  250.00     0.00 18018.00   144.14     1.29    5.06    0.00    5.06   0.61  15.20
sdh               0.00   107.00  251.00    6.50 16034.00  2434.00   143.44     2.54    9.69    9.74    7.69   0.60  15.40
md6               0.00     0.00    0.50  113.50     2.00  2434.00    42.74     0.00    0.00    0.00    0.00   0.00   0.00
md5               0.00     0.00    0.00    0.00     0.00     0.00     0.00     0.00    0.00    0.00    0.00   0.00   0.00
BIGDISK           0.00     0.00  625.00    0.00 34984.00     0.00   111.95     2.59    4.19    4.19    0.00   0.92  57.80

Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
sda              38.50     0.00   86.50    0.00  6982.00     0.00   161.43     0.40    4.58    4.58    0.00   4.09  35.40
sdb              39.00     0.00   87.00    0.00  6898.00     0.00   158.57     0.38    4.37    4.37    0.00   3.91  34.00
sdc               0.00     0.00    0.00    0.00     0.00     0.00     0.00     0.00    0.00    0.00    0.00   0.00   0.00
sdd              40.50     0.00   86.00    0.00  7028.00     0.00   163.44     0.30    3.51    3.51    0.00   3.16  27.20
sde              37.50     0.00   86.50    0.00  6972.00     0.00   161.20     0.39    4.51    4.51    0.00   4.05  35.00
md1               0.00     0.00  626.50    0.00 34772.00     0.00   111.00     0.00    0.00    0.00    0.00   0.00   0.00
sdf              38.50     0.00   86.50    0.00  7002.00     0.00   161.90     0.42    4.86    4.86    0.00   4.23  36.60
sdg               0.00   470.00    0.00  277.50     0.00 80506.00   580.22    68.39  246.57    0.00  246.57   2.54  70.40
sdh               0.00   459.50  128.50  152.00  8224.00 71834.00   570.82    72.01  256.88    6.66  468.42   2.52  70.80
md6               0.00     0.00    0.00  612.50     0.00 71834.00   234.56     0.00    0.00    0.00    0.00   0.00   0.00
md5               0.00     0.00    0.00    0.00     0.00     0.00     0.00     0.00    0.00    0.00    0.00   0.00   0.00
BIGDISK           0.00     0.00  626.50    0.00 34772.00     0.00   111.00     2.69    4.30    4.30    0.00   0.93  58.20

/dev/sdb - это устройство smartctl, сообщающее с ошибками.

3
задан 12 February 2013 в 07:40

1 ответ

Чтобы ответить на вопрос и дать дополнительные указания другим людям, спотыкающимся об этом. Оказалось, что материнская плата у машины умирает. Некоторые из конденсаторов фактически лопнули.

Извлеченный урок: не исключайте фактические сбои оборудования в таких действительно неудобных случаях.

Кстати: мне удалось спасти все данные из массива RAID5.

0
ответ дан 12 February 2013 в 07:40

Другие вопросы по тегам:

Похожие вопросы: