Я получаю некоторые сбои RAID5 в течение некоторого времени под большой нагрузкой. Мне всегда удавалось принудительно пересобрать массив после перезагрузки, и количество событий между удаленными дисками и непропущенным всегда меньше 20.
После некоторого расследования, я думаю, я понял, что проблема не в самих дисках (они обычно сбрасываются вместе), а в контроллере.
Вот выдержка из журнала dmesg, когда это происходит (в этом случае это произошло при принудительной проверке массива): http://paste.ubuntu.com/6067736/
После такого сбоя оба диска / dev / sde и / dev / sdf кажутся недоступными, так как smartctl -a / dev / sde отказывается от этого:
smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.2.0-37-generic] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net
Vendor: /5:0:0:0
Product:
User Capacity: 600,332,565,813,390,450 bytes [600 PB]
Logical block size: 774843950 bytes
>> Terminate command early due to bad response to IEC mode page
A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.
Даже если Диск 600PB был бы хорош, это просто 1.5TB вместо этого.
У меня есть 3 из дисков raid, которые подключены к портам ATA на материнской плате, и 2 диска подключены к внешнему (PCIex) контроллеру ATA. Из-за сбоев в журнале у меня есть основания полагать, что проблемы возникают с контроллером.
Что я мог сделать, чтобы это исправить? Поменять кабели ATA? Изменить некоторые настройки? Я довольно новичок в Linux.
Данные из smartctl:
Model Family: Western Digital Caviar Green (Adv. Format)
Device Model: WDC WD15EARS-00MVWB0
Serial Number: WD-WMAZA2091111
LU WWN Device Id: 5 0014ee 6ab49271f
Firmware Version: 51.0AB51
sdf выдает такую статистику:
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 171 169 051 Pre-fail Always - 34595
3 Spin_Up_Time 0x0027 253 253 021 Pre-fail Always - 1016
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 78
5 Reallocated_Sector_Ct 0x0033 162 162 140 Pre-fail Always - 735
7 Seek_Error_Rate 0x002e 200 199 000 Old_age Always - 0
9 Power_On_Hours 0x0032 070 070 000 Old_age Always - 22178
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 76
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 43
193 Load_Cycle_Count 0x0032 199 199 000 Old_age Always - 3415
194 Temperature_Celsius 0x0022 118 110 000 Old_age Always - 32
196 Reallocated_Event_Count 0x0032 001 001 000 Old_age Always - 691
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 6
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 2
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 199 189 000 Old_age Offline - 319
Хотя sde не показывает перераспределений или ошибок чтения:
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 253 253 021 Pre-fail Always - 925
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 73
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 070 070 000 Old_age Always - 22178
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 71
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 38
193 Load_Cycle_Count 0x0032 199 199 000 Old_age Always - 3378
194 Temperature_Celsius 0x0022 114 106 000 Old_age Always - 36
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0
[ 1115] Диски действительно зеленые, не думал, что это будет проблемой, когда я их куплю.
Мне кажется странным, что под нагрузкой обычно оба диска просто выпадают из массива. Может ли неисправный диск как-то «каскадно» соединиться с другим на том же контроллере ATA?
В любом случае, мне кажется, мне нужно купить хотя бы один новый диск.
Редактировать: забавно, что я сказал, что обычно оба диска умирают одновременно; после проверки этим утром я только что понял, что только sdf отброшен из массива, и это было довольно долгое время, так как разница четного числа составляет около 4000. В этом случае я предполагаю, что нет смысла пытаться добавить его обратно в массив, я нужно быстро найти запасной.
Ошибки ATA довольно общие, проще отладить ошибки в Linux для отладки.
Есть две основные причины, которые вызывают ошибки ATA:
Это чаще встречается с проблемами с дисками из моего опыта.
Если у вас был кабель для отключения, это может помочь исключить это.
Интересно, что я видел эту проблему на WDC. (Я думаю, что была какая-то прошивка, которая могла адресоваться ей на диске ... Который, я думаю, не позволяет сделать это публично простым.)
Какая модель привода?