подозрительное пересеребро шпульки

ZFS на Linux, Ubuntu 16.04LTS. Пул ZFS, raidz1 vdev с дисками на 5x4 ТБ.

Вчера я заметил, что один диск полностью отслаивался. (Слышимый шум от глав, пытающихся сбрасывать, перекалибруйте). Это был тост. Так я офлайн это.

mrenouf@archive:~$ sudo zpool status
  pool: tank
 state: DEGRADED
status: One or more devices has been taken offline by the administrator.
    Sufficient replicas exist for the pool to continue functioning in a
    degraded state.
action: Online the device using 'zpool online' or replace the device with
    'zpool replace'.
  scan: resilvered 2.42G in 0h3m with 0 errors on Thu Apr 20 08:04:09 2017
config:

    NAME                                       STATE     READ WRITE CKSUM
    tank                                       DEGRADED     0     0     0
      raidz1-0                                 DEGRADED     0     0     0
        ata-ST4000DM005-2DP166_ZDH0ZH6V-part2  ONLINE       0     0     0
        ata-ST4000DM005-2DP166_ZDH0Z9EG-part2  ONLINE       0     0     0
        ata-ST4000DM005-2DP166_ZDH0ZJZS-part2  ONLINE       0     0     0
        ata-ST4000DM005-2DP166_ZDH0ZDDJ-part2  ONLINE       0     0     0
        ata-ST4000DM005-2DP166_ZDH0ZJDQ-part2  OFFLINE      0     0     0

errors: No known data errors

Заметка на полях: Почему-part2? FreeNAS сделал это (где этот пул был первоначально создан). Каждый диск имеет раздел подкачки на 2 ГБ перед данными, я решил, что было лучше копировать это на заменяющем диске для симметрии.

Так так или иначе я появляюсь в замене и запускаю пересеребро.

zpool replace tank ata-ST4000DM005-2DP166_ZDH0ZJDQ-part2 /dev/disk/by-id/ata-ST4000DM005-2DP166_ZDH15ZE0-part2

Это "заканчивается" в рекордное время... (после показа оценки в диапазоне 20-х). Я не имею истории от промежуточных шагов, но доверяю мне... Существует ~4TB aollocated в этом пуле.

pool: tank
state: ONLINE
scan: resilvered 2.42G in 0h3m with 0 errors on Thu Apr 20 08:04:09 2017
  config:

    NAME                                       STATE     READ WRITE CKSUM
    tank                                       ONLINE       0     0     0
      raidz1-0                                 ONLINE       0     0     0
        ata-ST4000DM005-2DP166_ZDH0ZH6V-part2  ONLINE       0     0     0
        ata-ST4000DM005-2DP166_ZDH0Z9EG-part2  ONLINE       0     0     0
        ata-ST4000DM005-2DP166_ZDH0ZJZS-part2  ONLINE       0     0     0
        ata-ST4000DM005-2DP166_ZDH0ZDDJ-part2  ONLINE       0     0     0
        ata-ST4000DM005-2DP166_ZDH15ZE0-part2  ONLINE       0     0     0

errors: No known data errors

Я не верю Вам!

Что может вызвать это? Что я делаю теперь? Я не выяснил, как заменить диск собой все же (и вызвать другое пересеребро).

Править:

Я выполняю куст на этом новом "повторно посеребренный":

  pool: tank
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
        attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
        using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub in progress since Thu Apr 20 08:39:31 2017
    12.1G scanned out of 4.29T at 87.7M/s, 14h13m to go
    159M repaired, 0.27% done
config:

        NAME                                       STATE     READ WRITE CKSUM
        tank                                       ONLINE       0     0     0
          raidz1-0                                 ONLINE       0     0     0
            ata-ST4000DM005-2DP166_ZDH0ZH6V-part2  ONLINE       0     0     0
            ata-ST4000DM005-2DP166_ZDH0Z9EG-part2  ONLINE       0     0     0
            ata-ST4000DM005-2DP166_ZDH0ZJZS-part2  ONLINE       0     0     0
            ata-ST4000DM005-2DP166_ZDH0ZDDJ-part2  ONLINE       0     0     0
            ata-ST4000DM005-2DP166_ZDH15ZE0-part2  ONLINE       0     0 20.2K  (repairing)

errors: No known data errors

Это, кажется, останавливается в метке ~12G:

12.4G scanned out of 4.29T at 64.2M/s, 19h25m to go

Затем это просто ОСТАНАВЛИВАЕТСЯ:

  pool: tank
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
        attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
        using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 164M in 0h3m with 0 errors on Thu Apr 20 08:42:50 2017
config:

        NAME                                       STATE     READ WRITE CKSUM
        tank                                       ONLINE       0     0     0
          raidz1-0                                 ONLINE       0     0     0
            ata-ST4000DM005-2DP166_ZDH0ZH6V-part2  ONLINE       0     0     0
            ata-ST4000DM005-2DP166_ZDH0Z9EG-part2  ONLINE       0     0     0
            ata-ST4000DM005-2DP166_ZDH0ZJZS-part2  ONLINE       0     0     0
            ata-ST4000DM005-2DP166_ZDH0ZDDJ-part2  ONLINE       0     0     0
            ata-ST4000DM005-2DP166_ZDH15ZE0-part2  ONLINE       0     0 21.5K

errors: No known data errors

ЧТО? Это даже не просканировало целый пул. Как это может быть сделано? Не было никаких аппаратных ошибок поэтому что, черт возьми, продолжается? Argh.

0
задан 20 April 2017 в 05:43

1 ответ

Необходимо обновить до ZFS на Linux 0.7.0 (моя проблема была устранена с предвыпускной версией 3, доступный здесь ). Следуйте инструкции по компиляции . После установки удостоверьтесь все работавшее путем проверки zfs и spl версий.

modinfo zfs | grep -iw version
modinfo spl | grep -iw version

у меня была та же самая проблема, и это - то, что работало на меня.

1
ответ дан 3 November 2019 в 10:24

Другие вопросы по тегам:

Похожие вопросы: