Первоначально я распознал проблему, когда я хотел смолить свой жесткий диск и затем скопировать файл на 100 ГБ. Между тем я попробовал много вещей, и в основном я вижу, что большое копирование данных вызывает системный сбой. Следующий сценарий с некоторыми файлами в папке atemp1 подведение итогов приблизительно в 1 ГБ используется для показа проблемы:
while (true);
do
cnt=$(($cnt+1))
echo $cnt cp >> cnt.log
cp -dupR atemp1/* atemp2/
top -b -n 1 | head -n 5 >> cnt.log
echo $cnt rm >> cnt.log
rm atemp2/*
done
Таким образом, сценарий ничего не делает, затем всегда копируя то же содержание. При наблюдении некоторых строк файла журнала результат следующие:
%Cpu(s): 3.9 us, 20.5 sy, 0.0 ni, 54.5 id, 20.0 wa, 0.0 hi, 0.6 si, 0.6 st
%Cpu(s): 3.3 us, 23.5 sy, 0.0 ni, 44.8 id, 27.0 wa, 0.0 hi, 0.5 si, 1.0 st
%Cpu(s): 2.2 us, 29.4 sy, 0.0 ni, 26.6 id, 40.0 wa, 0.0 hi, 0.3 si, 1.6 st
%Cpu(s): 2.0 us, 30.3 sy, 0.0 ni, 23.8 id, 42.0 wa, 0.0 hi, 0.3 si, 1.7 st
%Cpu(s): 1.9 us, 30.7 sy, 0.0 ni, 22.4 id, 43.0 wa, 0.0 hi, 0.2 si, 1.7 st
%Cpu(s): 1.8 us, 31.2 sy, 0.0 ni, 20.9 id, 44.0 wa, 0.0 hi, 0.2 si, 1.8 st
%Cpu(s): 1.3 us, 33.4 sy, 0.0 ni, 13.3 id, 50.0 wa, 0.0 hi, 0.2 si, 2.0 st
%Cpu(s): 1.0 us, 34.7 sy, 0.0 ni, 8.9 id, 53.0 wa, 0.0 hi, 0.1 si, 2.2 st
%Cpu(s): 1.0 us, 34.9 sy, 0.0 ni, 7.9 id, 54.0 wa, 0.0 hi, 0.1 si, 2.2 st
%Cpu(s): 0.9 us, 35.0 sy, 0.0 ni, 6.8 id, 55.0 wa, 0.0 hi, 0.1 si, 2.2 st
%Cpu(s): 0.9 us, 35.3 sy, 0.0 ni, 5.5 id, 56.0 wa, 0.0 hi, 0.1 si, 2.2 st
%Cpu(s): 0.7 us, 36.7 sy, 0.0 ni, 3.2 id, 57.0 wa, 0.0 hi, 0.1 si, 2.3 st
Таким образом, wa непрерывно идет вплоть до системных остановок. На самом деле наблюдая вершину на параллельном терминале я вижу, что wa подходит 99.7, пока это не перестало работать. Нет никакого признака ни в каком системном файле журнала, в то время как это происходит. Наконец, я использую набег программного обеспечения, ext4 и LVM. Жесткий диск составляет 4 ТБ каждый. LVM составляет 500 ГБ. Как удаленные файлы и затем скопированные снова я предполагаю, что всегда та же часть жесткого диска используется и что это не дефектный сектор. - Само собой разумеется, что я уже сделал такие проверки. Имеет любого любая подсказка об этой проблеме. Действительно ли это - проблема ядра?
IOWait является метрикой ЦП, измеряя процент времени, которое ЦП неактивен, но ожидающий ввода-вывода для завершения. Странно - возможно иметь здоровую систему почти с 100% iowait или иметь дисковое узкое место с 0% iowait. Так как Ваша система делает только повторяющийся ввод-вывод с Вашим сценарием, не удивительно видеть, что wa приближается к 100%. Это в и себя не является Вашей проблемой. Так как Вы не получаете признаков в системном журнале, который необходимо выполнить, memtest Видят 1 и 2 , и затем проверяют умный состояние на рассматриваемых дисках.
у Вас могли бы также быть изворотливые данные или силовой кабель, идущий в используемый диск (диски).
Дополнительные материалы для чтения: https://serverfault.com/questions/12679/can-anyone-explain-precisely-what-iowait-is
Много позже некоторого значительного времени тестирования я наконец обмениваюсь своими 200 ++ Европейская материнская плата (с ЦП) с < 100 евро один и это работает без проблем. Как побочный эффект также платы Ethernet получают хорошие числа (enp1s0 и enp2s0) вместо ens3 и rename2 прежде. Само собой разумеется то, что старая материнская плата иногда изменяла именование плат Ethernet, которое было аварией, которую я однако мог разрешить с некоторыми установками параметров для начальной загрузки порта Ethernet. - Я не хочу раскрывать название материнской платы, но если у Вас есть подобные проблемы затем, можно связаться со мной.