Ошибка ATA на массиве RAID5

Я получаю некоторые сбои RAID5 в течение некоторого времени под большой нагрузкой. Мне всегда удавалось принудительно пересобрать массив после перезагрузки, и количество событий между удаленными дисками и непропущенным всегда меньше 20.

После некоторого расследования, я думаю, я понял, что проблема не в самих дисках (они обычно сбрасываются вместе), а в контроллере.

Вот выдержка из журнала dmesg, когда это происходит (в этом случае это произошло при принудительной проверке массива): http://paste.ubuntu.com/6067736/

После такого сбоя оба диска / dev / sde и / dev / sdf кажутся недоступными, так как smartctl -a / dev / sde отказывается от этого:

smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.2.0-37-generic] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

Vendor:               /5:0:0:0
Product:              
User Capacity:        600,332,565,813,390,450 bytes [600 PB]
Logical block size:   774843950 bytes
>> Terminate command early due to bad response to IEC mode page
A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.

Даже если Диск 600PB был бы хорош, это просто 1.5TB вместо этого.

У меня есть 3 из дисков raid, которые подключены к портам ATA на материнской плате, и 2 диска подключены к внешнему (PCIex) контроллеру ATA. Из-за сбоев в журнале у меня есть основания полагать, что проблемы возникают с контроллером.

Что я мог сделать, чтобы это исправить? Поменять кабели ATA? Изменить некоторые настройки? Я довольно новичок в Linux.

Данные из smartctl:

Model Family:     Western Digital Caviar Green (Adv. Format)
Device Model:     WDC WD15EARS-00MVWB0
Serial Number:    WD-WMAZA2091111
LU WWN Device Id: 5 0014ee 6ab49271f
Firmware Version: 51.0AB51

sdf выдает такую ​​статистику:

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   171   169   051    Pre-fail  Always       -       34595
  3 Spin_Up_Time            0x0027   253   253   021    Pre-fail  Always       -       1016
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       78
  5 Reallocated_Sector_Ct   0x0033   162   162   140    Pre-fail  Always       -       735
  7 Seek_Error_Rate         0x002e   200   199   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   070   070   000    Old_age   Always       -       22178
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       76
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       43
193 Load_Cycle_Count        0x0032   199   199   000    Old_age   Always       -       3415
194 Temperature_Celsius     0x0022   118   110   000    Old_age   Always       -       32
196 Reallocated_Event_Count 0x0032   001   001   000    Old_age   Always       -       691
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       6
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       2
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   199   189   000    Old_age   Offline      -       319

Хотя sde не показывает перераспределений или ошибок чтения:

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   253   253   021    Pre-fail  Always       -       925
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       73
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   070   070   000    Old_age   Always       -       22178
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       71
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       38
193 Load_Cycle_Count        0x0032   199   199   000    Old_age   Always       -       3378
194 Temperature_Celsius     0x0022   114   106   000    Old_age   Always       -       36
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0
[ 1115] Диски действительно зеленые, не думал, что это будет проблемой, когда я их куплю.

Мне кажется странным, что под нагрузкой обычно оба диска просто выпадают из массива. Может ли неисправный диск как-то «каскадно» соединиться с другим на том же контроллере ATA?

В любом случае, мне кажется, мне нужно купить хотя бы один новый диск.

Редактировать: забавно, что я сказал, что обычно оба диска умирают одновременно; после проверки этим утром я только что понял, что только sdf отброшен из массива, и это было довольно долгое время, так как разница четного числа составляет около 4000. В этом случае я предполагаю, что нет смысла пытаться добавить его обратно в массив, я нужно быстро найти запасной.

0
задан 6 September 2013 в 11:50

1 ответ

Ошибки ATA довольно общие, проще отладить ошибки в Linux для отладки.

Есть две основные причины, которые вызывают ошибки ATA:

  1. Диски неисправны / зеленые
  2. Проблема связи с диском к процессору / памяти (кабели SATA или разъемы, которые они

Это чаще встречается с проблемами с дисками из моего опыта.

  • Если у вас есть зеленые накопители, это будет проблемой для природы некоторых накопителей для экономии энергии. Некоторая модель дисков будет вращаться вниз, и когда RAID пытается получить доступ к диску, он помечает его как ошибку ATA, если диски не отвечают вовремя. (Это может быть ложным отрицанием, которое вы не можете сделать.)
  • Если диск поврежден, вам может потребоваться проверить диск на другом компьютере с помощью инструментов производителя дисков. Это позволит убедиться, что это не соединение, а более глубокий тест привода.

Если у вас был кабель для отключения, это может помочь исключить это.

Интересно, что я видел эту проблему на WDC. (Я думаю, что была какая-то прошивка, которая могла адресоваться ей на диске ... Который, я думаю, не позволяет сделать это публично простым.)

Какая модель привода?

0
ответ дан 6 September 2013 в 11:50

Другие вопросы по тегам:

Похожие вопросы: