SMART - частота ошибок поиска

Question 1

Я читал, что ошибки поиска - это увеличенное количество поисков дорожек, и что счетчик сбрасывается до нуля после фиксированного количества тысяч команд поиска. Это очевидно на некоторых жестких дисках BackBlaze (см. Рисунок 1 ниже).

На рисунке 1 скорость поиска для жесткого диска увеличивается до 234-го дня включительно. Затем счетчик сбрасывается в 235-й день.

Является ли этот инкрементный счет общим временем, затраченным диском на поиск определенного места. фрагмент сохраненных данных?

Кто-нибудь знает, почему этот счетчик сбрасывается и означает ли это что-нибудь? Т.е. сбрасывает ли сброс только счетчик или, возможно, это означает, что скорость поиска дисков восстанавливается до уровня нового на 235 день?

Мне интересно, могу ли я визуализировать частоту ошибок поиска, как показано на рисунке 2. Рисунок 2 (если я правильно понимаю) - это общее время, которое потребовалось накопителю для поиска определенного фрагмента сохраненных данных без остатка счетчика в день 235. Если сброс счетчика не улучшает состояние диска или не влияет на скорость поиска после сброса счетчика, тогда я думаю, что это нормально.

Question 2

Счетчики сбрасываются как одометр. после исчерпания целых чисел. Многие контроллеры устройств будут иметь разные пороговые значения, но счет 0 не означает, что в приводе нет ошибок, точно так же, как транспортное средство с 1 000 010 км пробега не «только что сошло с конвейера».

Если вы хотите построить график, как показано на рисунке 2, вы можете написать небольшую утилиту для сбора данных, которая считывает информацию SMART с вашего устройства хранения и записывает ее в базу данных (или в любом другом месте, где вы сочтете нужным). Пакет smartmontools - это тот пакет, который я обычно использую для отображения информации об устройстве хранения.

Вы можете установить его следующим образом:

Откройте терминал (если он еще не открыт)
Установите пакет smartmontools :
```
 sudo apt install smartmontools 
 
```

Выполните запрос к носителю данных, например, к устройству NVMe:

 sudo smartctl --all / dev / nvme0n1

Это даст вам много информации:

 smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.11.0-17-generic] (локальная сборка) 
Авторские права (C) 2002-20, Брюс Аллен, Кристиан Франке, www.smartmontools.org 
 
 === НАЧАЛО ИНФОРМАЦИОННОГО РАЗДЕЛА === 
Номер модели: SAMSUNG MZVLW512HMJP-000L7 
Серийный номер: S359NX0K103156 
Версия прошивки: 7L7QCXY7 
Идентификатор поставщика / подсистемы PCI: 0x144d 
Идентификатор IEEE OUI: 0x002538 
Общая емкость NVM: 512 110 190 592 [512 ГБ] 
Нераспределенная емкость NVM: 0 {{1} } Идентификатор контроллера: 2 
Версия NVMe: 1.2 
Количество пространств имен: 1 
Пространство имен 1 Размер / емкость: 512 110 190 592 [512 ГБ] 
Использование пространства имен 1: 81 254 830 080 [81,2 ГБ] 
Namesp ace 1 Форматированный LBA Размер: 512 
Пространство имен 1 IEEE EUI-64: 002538 b181b5c4a3 
Местное время: четверг, 27 мая, 21:57:29 2021 JST 
Обновления микропрограмм (0x16) : 3 слота, сброс не требуется 
Дополнительные команды администратора (0x0017): Формат безопасности Frmw_DL Self_Test 
Дополнительные команды NVM (0x001f): Comp Wr_Unc DS_Mngmt Wr_Zero Sav / Sel_Feat 
Атрибуты страницы журнала (0x03): S / H_per_NS Cmd_Eff_Lg 
Предупреждение, комп. Темп. Порог: 69 по Цельсию 
критическое значение. Темп. Порог: 72 Цельсия 
 
Поддерживаемые состояния питания 
St Op Max Active Idle RL RT WL WT Ent_Lat Ex_Lat 
0 + 7.60 Вт - - 0 0 0 0 0 0 
1 + 6,00 Вт - - 1 1 1 1 0 0 
2 + 5,10 Вт - - 2 2 2 2 0 0 
3 - 0,0400 Вт - - 3 3 3 3 210 1500 
4–0.0050W - - 4 4 4 4 2200 6000 
 
Поддерживаемые размеры LBA (NSID 0x1) 
Id Fmt Data Metadt Rel_Perf 
0 + 512 0 0 {{1} } 
 === НАЧАЛО РАЗДЕЛА ДАННЫХ SMART === 
Результат теста SMART для самооценки общего состояния здоровья: ПРОЙДЕН 
 
Информация SMART / Health (журнал NVMe 0x02) 
Критическое предупреждение: 0x00 
Температура: 33 Цельсия 
Доступный запасной элемент: 100% 
Доступный запасной порог: 10% 
Используемый процент: 1 % 
Прочитанных единиц данных: 20 937 566 [10,7 ТБ] 
Записанных единиц данных: 26 780 407 [13,7 ТБ] 
Команды чтения хоста: 359 002 242 
Команды записи хоста: 683 010 154 { {1}} Время загрузки контроллера: 5 130 
Циклов включения: 1027 
Часы работы: 3 812 
Небезопасные отключения: 85 
Ошибки целостности носителей и данных: 0 { {1}} Записи журнала информации об ошибках: 719 
Предупреждение Комп. Температура Время: 0 
Критический комп. Температура Время: 0 
Датчик температуры 1: 33 Цельсия 
Датчик температуры 2: 39 Цельсия 
 
Информация об ошибке (журнал NVMe 0x01, 16 из 64 записей) {{ 1}} Num ErrCount SQId CmdId Status PELoc LBA NSID VS 
0 719 0 0x0008 0x4004 - 0 0 - 
1 718 0 0x0008 0x4004 - 0 0 - 
2 717 0 0x0008 0x4004 - 0 0 - 
3 716 0 0x0008 0x4004 - 0 0 - 
4 715 0 0x0008 0x4004 - 0 0 - 
5 714 0 0x0008 0x4004 - 0 0 - {{1} } 6 713 0 0x0008 0x4004 - 0 0 - 
7 712 0 0x0008 0x4004 - 0 0 - 
8 711 0 0x0008 0x4004 - 0 0 - 
9 710 0 0x0008 0x4004 - 0 0 - 
10 709 0 0x0008 0x4004 - 0 0 - 
11 708 0 0x0008 0x4004 - 0 0 - 
12 707 0 0x0008 0x4004 - 0 0 - 
13 706 0 0x0008 0x4004 - 0 0 - 
14 705 0 0x0008 0x4004 - 0 0 - 
15 704 0 0x0008 0x4004 - 0 0 - 
 ...(48 записей не прочитаны)

Скорее всего, это слишком много информации, поэтому вы можете получить только , количество ошибок будет примерно таким:

 sudo smartctl -l error / dev / nvme0n1

Приведенная выше команда возвращает тот же результат, что и в разделе «Информация об ошибке» предыдущей команды. Обратите внимание, что по умолчанию устройства NVMe возвращают не более 16 записей. Если вы запрашиваете устройство NVMe, у которого есть больше, вы можете указать количество возвращаемых записей следующим образом:

 sudo smartctl -l error, 64 / dev / nvme0n1

Для моего устройства там всего 64 микросхемы флэш-памяти, поэтому я бы добавил ,64 к приведенной выше команде. Вы можете отображать информацию до 256 записей.

Надеюсь, это даст вам массу информации, с которой можно поиграть и отследить.

score 2 · Accepted Answer · 28 July 2021 в 11:35