Я читал, что ошибки поиска - это увеличенное количество поисков дорожек, и что счетчик сбрасывается до нуля после фиксированного количества тысяч команд поиска. Это очевидно на некоторых жестких дисках BackBlaze (см. Рисунок 1 ниже).
На рисунке 1 скорость поиска для жесткого диска увеличивается до 234-го дня включительно. Затем счетчик сбрасывается в 235-й день.
Является ли этот инкрементный счет общим временем, затраченным диском на поиск определенного места. фрагмент сохраненных данных?
Кто-нибудь знает, почему этот счетчик сбрасывается и означает ли это что-нибудь? Т.е. сбрасывает ли сброс только счетчик или, возможно, это означает, что скорость поиска дисков восстанавливается до уровня нового на 235 день?
Мне интересно, могу ли я визуализировать частоту ошибок поиска, как показано на рисунке 2. Рисунок 2 (если я правильно понимаю) - это общее время, которое потребовалось накопителю для поиска определенного фрагмента сохраненных данных без остатка счетчика в день 235. Если сброс счетчика не улучшает состояние диска или не влияет на скорость поиска после сброса счетчика, тогда я думаю, что это нормально.
Счетчики сбрасываются как одометр. после исчерпания целых чисел. Многие контроллеры устройств будут иметь разные пороговые значения, но счет 0 не означает, что в приводе нет ошибок, точно так же, как транспортное средство с 1 000 010 км пробега не «только что сошло с конвейера».
Если вы хотите построить график, как показано на рисунке 2, вы можете написать небольшую утилиту для сбора данных, которая считывает информацию SMART с вашего устройства хранения и записывает ее в базу данных (или в любом другом месте, где вы сочтете нужным). Пакет smartmontools - это тот пакет, который я обычно использую для отображения информации об устройстве хранения.
Вы можете установить его следующим образом:
Откройте терминал (если он еще не открыт)
Установите пакет smartmontools
:
sudo apt install smartmontools
Выполните запрос к носителю данных, например, к устройству NVMe:
sudo smartctl --all / dev / nvme0n1
Это даст вам много информации:
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.11.0-17-generic] (локальная сборка)
Авторские права (C) 2002-20, Брюс Аллен, Кристиан Франке, www.smartmontools.org
=== НАЧАЛО ИНФОРМАЦИОННОГО РАЗДЕЛА ===
Номер модели: SAMSUNG MZVLW512HMJP-000L7
Серийный номер: S359NX0K103156
Версия прошивки: 7L7QCXY7
Идентификатор поставщика / подсистемы PCI: 0x144d
Идентификатор IEEE OUI: 0x002538
Общая емкость NVM: 512 110 190 592 [512 ГБ]
Нераспределенная емкость NVM: 0 {{1} } Идентификатор контроллера: 2
Версия NVMe: 1.2
Количество пространств имен: 1
Пространство имен 1 Размер / емкость: 512 110 190 592 [512 ГБ]
Использование пространства имен 1: 81 254 830 080 [81,2 ГБ]
Namesp ace 1 Форматированный LBA Размер: 512
Пространство имен 1 IEEE EUI-64: 002538 b181b5c4a3
Местное время: четверг, 27 мая, 21:57:29 2021 JST
Обновления микропрограмм (0x16) : 3 слота, сброс не требуется
Дополнительные команды администратора (0x0017): Формат безопасности Frmw_DL Self_Test
Дополнительные команды NVM (0x001f): Comp Wr_Unc DS_Mngmt Wr_Zero Sav / Sel_Feat
Атрибуты страницы журнала (0x03): S / H_per_NS Cmd_Eff_Lg
Предупреждение, комп. Темп. Порог: 69 по Цельсию
критическое значение. Темп. Порог: 72 Цельсия
Поддерживаемые состояния питания
St Op Max Active Idle RL RT WL WT Ent_Lat Ex_Lat
0 + 7.60 Вт - - 0 0 0 0 0 0
1 + 6,00 Вт - - 1 1 1 1 0 0
2 + 5,10 Вт - - 2 2 2 2 0 0
3 - 0,0400 Вт - - 3 3 3 3 210 1500
4–0.0050W - - 4 4 4 4 2200 6000
Поддерживаемые размеры LBA (NSID 0x1)
Id Fmt Data Metadt Rel_Perf
0 + 512 0 0 {{1} }
=== НАЧАЛО РАЗДЕЛА ДАННЫХ SMART ===
Результат теста SMART для самооценки общего состояния здоровья: ПРОЙДЕН
Информация SMART / Health (журнал NVMe 0x02)
Критическое предупреждение: 0x00
Температура: 33 Цельсия
Доступный запасной элемент: 100%
Доступный запасной порог: 10%
Используемый процент: 1 %
Прочитанных единиц данных: 20 937 566 [10,7 ТБ]
Записанных единиц данных: 26 780 407 [13,7 ТБ]
Команды чтения хоста: 359 002 242
Команды записи хоста: 683 010 154 { {1}} Время загрузки контроллера: 5 130
Циклов включения: 1027
Часы работы: 3 812
Небезопасные отключения: 85
Ошибки целостности носителей и данных: 0 { {1}} Записи журнала информации об ошибках: 719
Предупреждение Комп. Температура Время: 0
Критический комп. Температура Время: 0
Датчик температуры 1: 33 Цельсия
Датчик температуры 2: 39 Цельсия
Информация об ошибке (журнал NVMe 0x01, 16 из 64 записей) {{ 1}} Num ErrCount SQId CmdId Status PELoc LBA NSID VS
0 719 0 0x0008 0x4004 - 0 0 -
1 718 0 0x0008 0x4004 - 0 0 -
2 717 0 0x0008 0x4004 - 0 0 -
3 716 0 0x0008 0x4004 - 0 0 -
4 715 0 0x0008 0x4004 - 0 0 -
5 714 0 0x0008 0x4004 - 0 0 - {{1} } 6 713 0 0x0008 0x4004 - 0 0 -
7 712 0 0x0008 0x4004 - 0 0 -
8 711 0 0x0008 0x4004 - 0 0 -
9 710 0 0x0008 0x4004 - 0 0 -
10 709 0 0x0008 0x4004 - 0 0 -
11 708 0 0x0008 0x4004 - 0 0 -
12 707 0 0x0008 0x4004 - 0 0 -
13 706 0 0x0008 0x4004 - 0 0 -
14 705 0 0x0008 0x4004 - 0 0 -
15 704 0 0x0008 0x4004 - 0 0 -
...(48 записей не прочитаны)
Скорее всего, это слишком много информации, поэтому вы можете получить только , количество ошибок будет примерно таким:
sudo smartctl -l error / dev / nvme0n1
Приведенная выше команда возвращает тот же результат, что и в разделе «Информация об ошибке» предыдущей команды. Обратите внимание, что по умолчанию устройства NVMe возвращают не более 16 записей. Если вы запрашиваете устройство NVMe, у которого есть больше, вы можете указать количество возвращаемых записей следующим образом:
sudo smartctl -l error, 64 / dev / nvme0n1
Для моего устройства там всего 64 микросхемы флэш-памяти, поэтому я бы добавил ,64
к приведенной выше команде. Вы можете отображать информацию до 256 записей.
Надеюсь, это даст вам массу информации, с которой можно поиграть и отследить.