Проблемы с SSD: возрастающие ошибки CRC, замораживание, иногда только для чтения

Мой ноутбук SSD капризничает и количество ошибок, взлетел с прошлого раза я отправил.

Действительно ли этот диск неисправен / смерть?
Это идет теперь, и я пишу это на нем - у меня есть все свои сохраненные данные и все, но я все еще не уверен, применимо ли это или нет?

Контакт с производителем не помог многому: они попросили, чтобы я установил Windows и работал, диск проверяют утилиту оттуда или соединяют его как внешний диск к хосту Windows и тестируют его там.
Я сделал обоих, и ни с какими ошибками не встретились.

Я также проверил его с утилитой, которую они обеспечивают (см. снимок экрана ниже). Я затем использовал изображение, которое я сделал с clonezilla для возврата к Ubuntu, и я нашел, что ошибочное количество PHY SATA приближается к 300 ошибкам!

Я также проверил коннекторы, но так как SSD находится в ноутбуке, я не могу изменить кабель (легко).

Это результаты испытаний, сгенерированные утилитой производителя

Test results

И smartctl вывод на Ubuntu, позже:

smartctl 6.5 2016-05-07 r4318 [x86_64-linux-4.14.0-041400-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model:     SPCC Solid State Disk
Serial Number:    XXXXXXXXXX
Firmware Version: S9FM02.8
User Capacity:    120,034,123,776 bytes [120 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Form Factor:      2.5 inches
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ACS-3 (minor revision not indicated)
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Sun Feb 18 02:22:56 2018 EET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                    was never started.
                    Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                    without error or no self-test has ever 
                    been run.
Total time to complete Offline 
data collection:        (   30) seconds.
Offline data collection
capabilities:            (0x7b) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    Offline surface scan supported.
                    Self-test supported.
                    Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                    General Purpose Logging supported.
Short self-test routine 
recommended polling time:    (   1) minutes.
Extended self-test routine
recommended polling time:    (   2) minutes.
Conveyance self-test routine
recommended polling time:    (   2) minutes.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000a   100   100   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0012   100   100   000    Old_age   Always       -       6352
 12 Power_Cycle_Count       0x0012   100   100   000    Old_age   Always       -       2717
168 Unknown_Attribute       0x0012   100   100   000    Old_age   Always       -       0
170 Unknown_Attribute       0x0013   100   100   010    Pre-fail  Always       -       25
173 Unknown_Attribute       0x0000   100   100   000    Old_age   Offline      -       105447539
192 Power-Off_Retract_Count 0x0012   100   100   000    Old_age   Always       -       77
194 Temperature_Celsius     0x0023   070   070   000    Pre-fail  Always       -       30
196 Reallocated_Event_Count 0x0000   100   100   000    Old_age   Offline      -       0
218 Unknown_Attribute       0x0000   100   100   000    Old_age   Offline      -       15431
241 Total_LBAs_Written      0x0012   100   100   000    Old_age   Always       -       6281157

SMART Error Log Version: 1
ATA Error Count: 298 (device log contains only the most recent five errors)
    CR = Command Register [HEX]
    FR = Features Register [HEX]
    SC = Sector Count Register [HEX]
    SN = Sector Number Register [HEX]
    CL = Cylinder Low Register [HEX]
    CH = Cylinder High Register [HEX]
    DH = Device/Head Register [HEX]
    DC = Device Command Register [HEX]
    ER = Error register [HEX]
    ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 298 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 01 01 00 00 00

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ff d5 01 01 00 00 00 ff      00:11:08.077  [VENDOR SPECIFIC]
  ca 00 80 b0 8f 12 e1 00      00:11:08.076  WRITE DMA
  ca 00 80 30 8f 12 e1 00      00:11:08.076  WRITE DMA
  ca 00 80 b0 8e 12 e1 00      00:11:08.075  WRITE DMA
  ca 00 80 30 8e 12 e1 00      00:11:08.074  WRITE DMA

Error 297 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 01 01 00 00 00

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ff d5 01 01 00 00 00 ff      00:11:08.039  [VENDOR SPECIFIC]
  ca 00 80 b0 7c 12 e1 00      00:11:08.038  WRITE DMA
  ca 00 80 30 7c 12 e1 00      00:11:08.038  WRITE DMA
  ca 00 80 b0 7b 12 e1 00      00:11:08.037  WRITE DMA
  ca 00 80 30 7b 12 e1 00      00:11:08.037  WRITE DMA

Error 296 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 01 01 00 00 00

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ff d5 01 01 00 00 00 ff      00:11:07.974  [VENDOR SPECIFIC]
  ca 00 80 b0 48 12 e1 00      00:11:07.973  WRITE DMA
  ca 00 80 30 48 12 e1 00      00:11:07.972  WRITE DMA
  ca 00 80 b0 47 12 e1 00      00:11:07.972  WRITE DMA
  ca 00 80 30 47 12 e1 00      00:11:07.972  WRITE DMA

Error 295 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 01 01 00 00 00

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ff d5 01 01 00 00 00 ff      00:11:07.927  [VENDOR SPECIFIC]
  ca 00 80 b0 2a 12 e1 00      00:11:07.926  WRITE DMA
  ca 00 80 30 2a 12 e1 00      00:11:07.925  WRITE DMA
  ca 00 80 b0 29 12 e1 00      00:11:07.925  WRITE DMA
  ca 00 80 30 29 12 e1 00      00:11:07.924  WRITE DMA

Error 294 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 01 01 00 00 00

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ff d5 01 01 00 00 00 ff      00:11:07.899  [VENDOR SPECIFIC]
  ca 00 80 b0 22 12 e1 00      00:11:07.898  WRITE DMA
  ca 00 80 30 22 12 e1 00      00:11:07.897  WRITE DMA
  ca 00 80 b0 21 12 e1 00      00:11:07.897  WRITE DMA
  ca 00 80 30 21 12 e1 00      00:11:07.896  WRITE DMA

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%      6288         -
# 2  Conveyance offline  Completed without error       00%      6285         -
# 3  Short offline       Completed without error       00%      6285         -
# 4  Extended offline    Completed without error       00%      6283         -
# 5  Extended offline    Completed without error       00%      6283         -
# 6  Short offline       Completed without error       00%      6283         -
# 7  Extended offline    Completed without error       00%      6262         -
# 8  Conveyance offline  Completed without error       00%      6262         -
# 9  Conveyance offline  Completed without error       00%      6262         -
#10  Extended offline    Completed without error       00%      6262         -
#11  Short offline       Completed without error       00%      6262         -
#12  Conveyance offline  Completed without error       00%      6211         -
#13  Extended offline    Completed without error       00%      6211         -
#14  Short offline       Completed without error       00%      6211         -
#15  Short offline       Completed without error       00%      6075         -
#16  Conveyance offline  Completed without error       00%      5564         -
#17  Extended offline    Completed without error       00%      5564         -
#18  Short offline       Completed without error       00%      5564         -
#19  Conveyance offline  Completed without error       00%      5319         -
#20  Short offline       Completed without error       00%      5319         -
#21  Conveyance offline  Completed without error       00%      4403         -

SMART Selective self-test log data structure revision number 0
Note: revision number not 1 implies that no selective self-test has ever been run
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
6
задан 23 February 2018 в 13:36

4 ответа

Замените свой SSD

Люди попробовали много вещей в комментариях, но этот SSD, кажется, имеет некоторые проблемы.

Судя считываниями S.M.A.R.T, Ваш диск не видел, большое действие (~250 включают дни, записанных ~6 ТБ), и Вы говорите, что этому приблизительно 2 года. Это должно хорошо быть в гарантии!

Мой совет

  • скопируйте все Вы данные сразу (хотя Вы говорите, что Вам уже покрыли это),
  • удалите / заменяют SSD (в зависимости от Вашего бюджета, конечно)
  • отправьте диск производителю для замены

Ваш "Тонкий S70" диск должен быть покрыт в соответствии с 5-летней гарантией Кремниевого Питания warranty

Просто отправьте им запрос RMA сюда.

6
ответ дан 23 November 2019 в 07:27

Некоторое время до 11 мая 2017 Вы обновили свое Встроенное микропрограммное обеспечение SSD. Однако новая версия была выпущена в сентябре 2017, и необходимо применить ее с помощью Windows.


Выполненный fstrim отбрасывать неиспользованные блоки в файловой системе:

$ sudo fstrim --verbose --all
/mnt/c: 16 EiB (18446744073709551615 bytes) trimmed
/mnt/e: 16 EiB (18446744073709551615 bytes) trimmed
/: 23.4 GiB (25132920832 bytes) trimmed

В моем случае результаты для разделов Windows 10 /mnt/c и /mnt/e были вне этого мира. Таким образом, я проверил файлы, и никакой вред не был причинен данным.


Выполненный fsck -f на Вашем SSD после начальной загрузки с Живым USB, когда раздел не смонтирован. Другая опция работает fsck -f от личинки - Как к fsck жесткому диску, в то время как жесткий диск размонтирован, с помощью загрузочной карты с интерфейсом USB?.


Как упомянуто в комментариях плохой кабель SATA может вызвать ошибки. Но поскольку этот ответ указывает, свободное соединение может также вызвать ошибки. Для исключения плохого / свободного соединения удалите разъемы из SSD, унесите сжатый воздух по ним и штекерным контактам на диске и твердо переустановите кабели.


Насколько Ваше время стоит?

Последний вопрос состоит в том, насколько Ваше время стоит. Принятие Вы провели 10 часов на эту проблему, которую оно разрабатывает к $5 / час, потому что много совершенно новых SATA на 120 ГБ III SSD могут быть куплены у ebay.com


Февраль 23/2018 обновление

Сегодня вечером я прочитал все другие ответы. В одном ответе говорится для возврата его. Но если Вы делаете и они ничего не находят неправильно, что они просто передадут его обратно, и Вы будете без диска в течение 2 недель к 2 месяцам.

В другом ответе говорится, что smartctl сообщает, что нет ничего неправильно с диском.

В этом ответе я предложил работать fsck -f и Вы ответили, что ни о каких ошибках не сообщили.

Выполненный fsck каждая начальная загрузка

Как компромисс между отрицательным ответом (возвращают его) и положительным ответом (ничто не неправильно), состоял бы в том, чтобы работать мой наклон fsck на каждой начальной загрузке. Если ошибка обнаружена, начальная загрузка приостанавливается, и можно прочитать сообщение об ошибке. Суммировать использование ссылки:

sudo tune2fs -c 1 /dev/sdX

Примечание: замена X с Вашей буквой диска, т.е. a, b, и т.д.

Если после месяца никаких ошибок, измените значение от 1 кому: 30 который типичен для большинства систем, я верю. На типичном SSD fsck будет работать быстро.

Уберите и переустановите кабели SATA

Другие упомянули, что заменили кабель SATA, который проблематичен для ноутбука. Как компромисс рассматривают отключение всех кабелей на стороне диска, использование сжатого воздуха на штекерных и розеточных концах и затем включении кабелей назад твердо.

3
ответ дан 23 November 2019 в 07:27

Нет ничего неправильно с Вашим диском. Вся тестовая передача. Вы просто неправильно истолковываете УМНЫЕ данные.

Во-первых, первый снимок экрана содержит необработанные данные, и Вы не можете сделать никаких выводов об этом. Я понятия не имею, что использует его создателя, думает, что данные были бы кому-либо, но это ничего действительно не означает. Если значимые столбцы не могут быть достигнуты путем прокрутки прямо в окне или чем-то.

Позвольте мне объяснить столбцы в УМНОМ отчете (последний отчет, который Вы отправили).

  • Название атрибута: название метрики
  • Значение: текущее значение, выше лучше. Значения часто вне 100, где 100 = лучше всего, но может использовать любой масштаб, пока выше лучше. Даже если метрика - что-то как "коэффициент ошибок", она нормализована поэтому более высокие значения средние более низкие коэффициенты ошибок.
  • Хуже: худшая наблюдаемая величина, выше лучше.
  • Молотите: если значение опускается ниже этого, это - условие сбоя. В или выше = передача.
  • Тип: какое условие сбоя означало бы для этой метрики.
    • Old_age: эта метрика показательна из возраста/использования диска, не определенной проблемы.
    • Предварительный сбой: эта метрика показательна из потенциальной проблемы с диском, увеличивая шанс сбоя диска.
  • When_failed: Когда этот вводимый вид отказа, если когда-либо
  • Raw_value: внутреннее измерение диска, который способствовал значению - это не полезно для конечного пользователя и ниже или более высокие значения не обязательно указывают лучше или хуже.

Обратиться к некоторым определенным областям отчета:

УМНЫЙ результат испытаний самооценки полного здоровья: ПЕРЕДАННЫЙ

Это отражает, что все передало. Ни одна из измеряемых метрик никогда не вводила состояние отказа.

Журнал "ошибок" относительно типичен для диска. Они не обязательно указывают на неисправимые ошибки или даже проблемы с самим диском; их отчеты неопределенны, таким образом, Вы не можете сказать то, что на самом деле произошло от этого за исключением того, что это было во время передачи DMA в контроллере, но если бы что-нибудь было важно, чтобы это было бы отражено в полном медицинском отчете. В частности, эти могли быть чем-то довольно невинным как записи, которые были отменены в конце контроллера или ОС, запрашивающей некоторую функцию во время загрузки, которую не поддерживает диск, который может быть совершенно нормальным когда возможности измерительного прибора.

Наконец, примечание об ошибках CRC или коэффициентах ошибок: все диски имеют коэффициент ошибок. Диски хранят данные в такой высокой плотности, что определенное число битовых ошибок ожидается и разрабатывается для, при помощи кода с коррекцией ошибок. Код с коррекцией ошибок гарантирует, что определенное число битовых ошибок на блок битов может произойти и быть исправленных 100%. Диск постоянно применяет код с коррекцией ошибок все время, и код с коррекцией ошибок разработан так, чтобы шанс неисправимой ошибки, происходящей случайным образом, был очень низким (как в, значительно менее вероятно, чем победа в лотерее) в хорошо функционирующем диске. Если Вы видите коэффициент ошибок в какой-либо статистике, и ее не рассматривают как никакое грандиозное предприятие, это - потому что это не, это просто будут исправленные ошибки.

2
ответ дан 23 November 2019 в 07:27

Так как Вы имеете, только ПИШУТ ошибки DMA, и короткие и длинные тесты не показывают ошибок.

И начиная с DMA, о Прямом доступе к памяти, попытайтесь узнать, имеет ли BIOS диагностический тест отдельного оборудования, и попробуйте связанные с памятью тесты.

Если не BIOS встроил тест, доступно, посмотрите на сайт поддержки производителей, если офлайновые аппаратные средства диагностика доступны (например: загрузочный файл ISO для записи на CD или карте с интерфейсом USB)

(BTW: CD человечности имеет также диагностику памяти),

Поскольку запись DMA является IO, я попытался бы заменить кабель SATA и посмотреть, если никакие новые коды ошибки не добавляются после этого (продержитесь, каждый здесь 298, но больше может быть добавлено bynow),

0
ответ дан 23 November 2019 в 07:27

Другие вопросы по тегам:

Похожие вопросы: