Ошибка ATA на массиве RAID5

Question 1

Я получаю некоторые сбои RAID5 в течение некоторого времени под большой нагрузкой. Мне всегда удавалось принудительно пересобрать массив после перезагрузки, и количество событий между удаленными дисками и непропущенным всегда меньше 20.

После некоторого расследования, я думаю, я понял, что проблема не в самих дисках (они обычно сбрасываются вместе), а в контроллере.

Вот выдержка из журнала dmesg, когда это происходит (в этом случае это произошло при принудительной проверке массива): http://paste.ubuntu.com/6067736/

После такого сбоя оба диска / dev / sde и / dev / sdf кажутся недоступными, так как smartctl -a / dev / sde отказывается от этого:

smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.2.0-37-generic] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

Vendor:               /5:0:0:0
Product:              
User Capacity:        600,332,565,813,390,450 bytes [600 PB]
Logical block size:   774843950 bytes
>> Terminate command early due to bad response to IEC mode page
A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.

Даже если Диск 600PB был бы хорош, это просто 1.5TB вместо этого.

У меня есть 3 из дисков raid, которые подключены к портам ATA на материнской плате, и 2 диска подключены к внешнему (PCIex) контроллеру ATA. Из-за сбоев в журнале у меня есть основания полагать, что проблемы возникают с контроллером.

Что я мог сделать, чтобы это исправить? Поменять кабели ATA? Изменить некоторые настройки? Я довольно новичок в Linux.

Данные из smartctl:

Model Family:     Western Digital Caviar Green (Adv. Format)
Device Model:     WDC WD15EARS-00MVWB0
Serial Number:    WD-WMAZA2091111
LU WWN Device Id: 5 0014ee 6ab49271f
Firmware Version: 51.0AB51

sdf выдает такую статистику:

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   171   169   051    Pre-fail  Always       -       34595
  3 Spin_Up_Time            0x0027   253   253   021    Pre-fail  Always       -       1016
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       78
  5 Reallocated_Sector_Ct   0x0033   162   162   140    Pre-fail  Always       -       735
  7 Seek_Error_Rate         0x002e   200   199   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   070   070   000    Old_age   Always       -       22178
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       76
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       43
193 Load_Cycle_Count        0x0032   199   199   000    Old_age   Always       -       3415
194 Temperature_Celsius     0x0022   118   110   000    Old_age   Always       -       32
196 Reallocated_Event_Count 0x0032   001   001   000    Old_age   Always       -       691
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       6
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       2
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   199   189   000    Old_age   Offline      -       319

Хотя sde не показывает перераспределений или ошибок чтения:

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   253   253   021    Pre-fail  Always       -       925
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       73
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   070   070   000    Old_age   Always       -       22178
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       71
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       38
193 Load_Cycle_Count        0x0032   199   199   000    Old_age   Always       -       3378
194 Temperature_Celsius     0x0022   114   106   000    Old_age   Always       -       36
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

[ 1115] Диски действительно зеленые, не думал, что это будет проблемой, когда я их куплю.

Мне кажется странным, что под нагрузкой обычно оба диска просто выпадают из массива. Может ли неисправный диск как-то «каскадно» соединиться с другим на том же контроллере ATA?

В любом случае, мне кажется, мне нужно купить хотя бы один новый диск.

Редактировать: забавно, что я сказал, что обычно оба диска умирают одновременно; после проверки этим утром я только что понял, что только sdf отброшен из массива, и это было довольно долгое время, так как разница четного числа составляет около 4000. В этом случае я предполагаю, что нет смысла пытаться добавить его обратно в массив, я нужно быстро найти запасной.

Question 2

Ошибки ATA довольно общие, проще отладить ошибки в Linux для отладки.

Есть две основные причины, которые вызывают ошибки ATA:

Диски неисправны / зеленые
Проблема связи с диском к процессору / памяти (кабели SATA или разъемы, которые они

Это чаще встречается с проблемами с дисками из моего опыта.

Если у вас есть зеленые накопители, это будет проблемой для природы некоторых накопителей для экономии энергии. Некоторая модель дисков будет вращаться вниз, и когда RAID пытается получить доступ к диску, он помечает его как ошибку ATA, если диски не отвечают вовремя. (Это может быть ложным отрицанием, которое вы не можете сделать.)
Если диск поврежден, вам может потребоваться проверить диск на другом компьютере с помощью инструментов производителя дисков. Это позволит убедиться, что это не соединение, а более глубокий тест привода.

Если у вас был кабель для отключения, это может помочь исключить это.

Интересно, что я видел эту проблему на WDC. (Я думаю, что была какая-то прошивка, которая могла адресоваться ей на диске ... Который, я думаю, не позволяет сделать это публично простым.)

Какая модель привода?

Mhynlo · Answer 1 · 6 September 2013 в 11:50