Странность сбоев диска, но данные SMART не показывают ничего сомнительного

У меня было три отказа диска за последние десять дней, но когда я смотрю данные SMART для диска, нет ничего особенно примечательного (или мне так кажется). Записи в SYSLOG имеют тип

Jul  5 12:59:28 hp-64 kernel: [ 5123.303656] sd 3:0:0:0: [sda] tag#22 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_TIMEOUT
Jul  5 12:59:28 hp-64 kernel: [ 5123.303671] sd 3:0:0:0: [sda] tag#22 CDB: Write(10) 2a 00 15 c5 48 70 00 00 08 00
Jul  5 12:59:28 hp-64 kernel: [ 5123.303678] blk_update_request: I/O error, dev sda, sector 365250672
Jul  5 12:59:28 hp-64 kernel: [ 5123.303689] EXT4-fs warning (device sda7): ext4_end_bio:330: I/O error -5 writing to inode 7616777 (offset 0 size 0 starting block 45656335)
Jul  5 12:59:28 hp-64 kernel: [ 5123.303695] Buffer I/O error on device sda7, logical block 31739918

и более похожи. Затем он устанавливает / home (там, где происходят ошибки) в режим R / O, хотя и, на мой взгляд, досадно, он не выдает никаких уведомлений, просто позволяет мне сделать вывод из того факта, что я не могу сохранить файлы и т. Д. сгодится. Затем я запустил fsck (фактически после перезагрузки) и исправил различные ошибки (у меня есть список инодов и т. Д.), А затем он снова работает.

Я выполнил краткий тест SMART, он говорит «пройден», и, насколько я понимаю, значения в данных SMART не указывают на какие-либо реальные проблемы, и почти для всех «худшее» совпадает с «нормализованная» фигура. Температура в машине не особенно высокая (в настоящее время 31 градус C).

Секторы, о которых сообщается, что они являются причиной сбоя, не являются численно смежными или даже особенно близкими (но тогда я не уверен, как нумерация связана с физическим носителем).

Я заметил, что первые два сбоя произошли сразу после обновления программного обеспечения, но для номеров 2 и 3 ошибки произошли, когда я получил доступ к Thunderbird (и это, вероятно, имело место для первого); Я не предполагаю, что программное обеспечение имеет какое-либо отношение к ошибкам. Debugfs показывает, что inode, упомянутые в сообщениях, находятся в почтовом ящике TB (я проверил только второй сбой). Вероятно, я выполню более длинный SMART-тест, когда отправлю его, чтобы он мог найти что-то полезное или нет.

Есть ли у кого-нибудь какие-либо предложения или комментарии?

Диск представляет собой WDC WD500 GB, который использовался в течение трех лет (SMART сообщает о включении питания менее 6 месяцев), хотя он был куплен и оставался в его запечатанный пакет, пару лет назад. Я использую Xubuntu 16.04LTS. И это в микросервере HP.

Просто добавлю немного больше информации: примерно двумя неделями ранее у меня произошел серьезный сбой на старом диске Seagate 7200.12 объемом 250 ГБ в той же машине, и теперь у меня есть диск WD 1 ТБ, ожидающий установки. Я подумал, что Seagate, возможно, стал жертвой ошибки прошивки BSY, и попытался исправить ситуацию, но он выдавал 11 щелчков при ускорении, что, похоже, означало постоянную ошибку поиска, и он все еще мертв. Однако я не могу поверить, что это актуально, но это только указывает на мой уровень раздражения на данный момент!

Ваши комментарии приветствуются

добавлены умные результаты:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE

    1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
    3 Spin_Up_Time            0x0027   142   114   021    Pre-fail  Always       -       3891
    4 Start_Stop_Count        0x0032   099   099   000    Old_age   Always       -       1399
    5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
    7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       6
    9 Power_On_Hours          0x0032   095   095   000    Old_age   Always       -       4346
   10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
   11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
   12 Power_Cycle_Count       0x0032   099   099   000    Old_age   Always       -       1399
  192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       32
  193 Load_Cycle_Count        0x0032   173   173   000    Old_age   Always       -       83009
  194 Temperature_Celsius     0x0022   123   107   000    Old_age   Always       -       20
  196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
  197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
  198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
  199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
  200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0
[1112 И «расширенный» тест «завершен без ошибок»

Грэм

1
задан 7 July 2018 в 03:18

0 ответов

Другие вопросы по тегам:

Похожие вопросы: