У меня было три отказа диска за последние десять дней, но когда я смотрю данные SMART для диска, нет ничего особенно примечательного (или мне так кажется). Записи в SYSLOG имеют тип
Jul 5 12:59:28 hp-64 kernel: [ 5123.303656] sd 3:0:0:0: [sda] tag#22 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_TIMEOUT
Jul 5 12:59:28 hp-64 kernel: [ 5123.303671] sd 3:0:0:0: [sda] tag#22 CDB: Write(10) 2a 00 15 c5 48 70 00 00 08 00
Jul 5 12:59:28 hp-64 kernel: [ 5123.303678] blk_update_request: I/O error, dev sda, sector 365250672
Jul 5 12:59:28 hp-64 kernel: [ 5123.303689] EXT4-fs warning (device sda7): ext4_end_bio:330: I/O error -5 writing to inode 7616777 (offset 0 size 0 starting block 45656335)
Jul 5 12:59:28 hp-64 kernel: [ 5123.303695] Buffer I/O error on device sda7, logical block 31739918
и более похожи. Затем он устанавливает / home (там, где происходят ошибки) в режим R / O, хотя и, на мой взгляд, досадно, он не выдает никаких уведомлений, просто позволяет мне сделать вывод из того факта, что я не могу сохранить файлы и т. Д. сгодится. Затем я запустил fsck (фактически после перезагрузки) и исправил различные ошибки (у меня есть список инодов и т. Д.), А затем он снова работает.
Я выполнил краткий тест SMART, он говорит «пройден», и, насколько я понимаю, значения в данных SMART не указывают на какие-либо реальные проблемы, и почти для всех «худшее» совпадает с «нормализованная» фигура. Температура в машине не особенно высокая (в настоящее время 31 градус C).
Секторы, о которых сообщается, что они являются причиной сбоя, не являются численно смежными или даже особенно близкими (но тогда я не уверен, как нумерация связана с физическим носителем).
Я заметил, что первые два сбоя произошли сразу после обновления программного обеспечения, но для номеров 2 и 3 ошибки произошли, когда я получил доступ к Thunderbird (и это, вероятно, имело место для первого); Я не предполагаю, что программное обеспечение имеет какое-либо отношение к ошибкам. Debugfs показывает, что inode, упомянутые в сообщениях, находятся в почтовом ящике TB (я проверил только второй сбой). Вероятно, я выполню более длинный SMART-тест, когда отправлю его, чтобы он мог найти что-то полезное или нет.
Есть ли у кого-нибудь какие-либо предложения или комментарии?
Диск представляет собой WDC WD500 GB, который использовался в течение трех лет (SMART сообщает о включении питания менее 6 месяцев), хотя он был куплен и оставался в его запечатанный пакет, пару лет назад. Я использую Xubuntu 16.04LTS. И это в микросервере HP.
Просто добавлю немного больше информации: примерно двумя неделями ранее у меня произошел серьезный сбой на старом диске Seagate 7200.12 объемом 250 ГБ в той же машине, и теперь у меня есть диск WD 1 ТБ, ожидающий установки. Я подумал, что Seagate, возможно, стал жертвой ошибки прошивки BSY, и попытался исправить ситуацию, но он выдавал 11 щелчков при ускорении, что, похоже, означало постоянную ошибку поиска, и он все еще мертв. Однако я не могу поверить, что это актуально, но это только указывает на мой уровень раздражения на данный момент!
Ваши комментарии приветствуются
добавлены умные результаты:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 142 114 021 Pre-fail Always - 3891
4 Start_Stop_Count 0x0032 099 099 000 Old_age Always - 1399
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 6
9 Power_On_Hours 0x0032 095 095 000 Old_age Always - 4346
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 099 099 000 Old_age Always - 1399
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 32
193 Load_Cycle_Count 0x0032 173 173 000 Old_age Always - 83009
194 Temperature_Celsius 0x0022 123 107 000 Old_age Always - 20
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0
[1112 И «расширенный» тест «завершен без ошибок»
Грэм