Неустойчивое повреждение данных, как диагностировать?

TL; DR: Я думал, что у меня была ошибка повреждения данных в покое на 2 SSD, но я думаю, что она после считывает данные. Как я могу диагностировать, где провальная часть?

Мой алгоритм обучения ML открывает тысячи файлов (только для чтения), и вчера один из файлов обнаружился поврежденный. Однако, когда я начал исследовать различия между 3 копиями (1 на каждом из 2 SSD и 1 жесткого диска), вещи стали более странными. Все даты и размеры, подобранные отлично, но md5sums, показали различия в 10 файлах.

Что является еще более странным, после того, как я удостоверился, что все 3 копии были в синхронизации (использующий rsync с контрольной суммой), другой файл на 1 SSD случайным образом показал повреждение. Таким образом, я сравнил md5sum, и это было нечетное из 3 копий. Однако, когда я протестировал его снова 2 минуты спустя, md5sum соответствовал другим 2. Это показывает, что это не повреждение на диске (данные в покое).

Как я иду о выяснении, что перестало работать? Я собираюсь выполнить длинный memtest (который ранее передал, год назад), но я не уверен, что еще я могу сделать.

Спецификации

  • Dell T7500 (A18 BIOS - последний от Dell)
  • 2x Xeon X5675
  • 64 ГБ (ECC на 4x16 ГБ)
  • Диски:
    • Samsung 850 EVO 250 ГБ (SSD FW:EMT03B6Q)
    • Samsung 860 EVO 500 ГБ (SSD FW:RVT01B6Q)
    • WD синие 4 ТБ (жесткий диск FW: 80.00A80)
  • Все 3 диска являются подключением к:
    • Гребень IO плата контроллера SATA III PCIe 2.0 x2 с 4 портами Green, SI-PEX40057 (чипсет Marvell 88SE9230)
    • Используемый, потому что материнская плата является SATA 2.0, и мне была нужна более высокая пропускная способность. Это было единственной картой SATA, которую я мог загрузить от, учитывая ограничения BIOS Dell.

вывод free -h (кэш полон, потому что я просто выполнил новое соответствие md5sums на всех 3 дисках),

          total        used        free      shared  buff/cache   available
Mem:            62G        1.2G        312M         11M         61G         61G
Swap:          2.0G          0B        2.0G

вывод sudo lshw -C memory (Я могу подтвердить, что 4 палки находятся в корректных слотах согласно руководству. МБ DIMM 1 и 2, переходная плата DIMM 1 и 2)

*-firmware
    description: BIOS
    vendor: Dell Inc.
    physical id: 0
    version: A18
    date: 10/15/2018
    size: 64KiB
    capacity: 1984KiB
    capabilities: pci pnp apm upgrade shadowing escd cdboot bootselect edd int13floppytoshiba int13floppy720 int5printscreen int9keyboard int14serial int17printer acpi usb biosbootspecification netboot
*-cache:0
    description: L1 cache
    physical id: 700
    size: 384KiB
    capacity: 384KiB
    capabilities: internal write-back unified
    configuration: level=1
*-cache:1
    description: L2 cache
    physical id: 701
    size: 1536KiB
    capacity: 1536KiB
    capabilities: internal varies unified
    configuration: level=2
*-cache:2
    description: L3 cache
    physical id: 704
    size: 12MiB
    capacity: 12MiB
    capabilities: internal varies unified
    configuration: level=3
*-cache:0
    description: L1 cache
    physical id: 702
    size: 384KiB
    capacity: 384KiB
    capabilities: internal write-back unified
    configuration: level=1
*-cache:1
    description: L2 cache
    physical id: 703
    size: 1536KiB
    capacity: 1536KiB
    capabilities: internal varies unified
    configuration: level=2
*-cache:2
    description: L3 cache
    physical id: 705
    size: 12MiB
    capacity: 12MiB
    capabilities: internal varies unified
    configuration: level=3
*-memory
    description: System Memory
    physical id: 1000
    slot: System board or motherboard
    size: 64GiB
    capabilities: ecc
    configuration: errordetection=multi-bit-ecc
    *-bank:0
       description: DIMM DDR3 1333 MHz (0.8 ns)
       product: 9965516-433.A00LF
       vendor: AMD
       physical id: 0
       serial: CF38EF94
       slot: DIMM 1
       size: 16GiB
       width: 64 bits
       clock: 1333MHz (0.8ns)
    *-bank:1
       description: DIMM DDR3 1333 MHz (0.8 ns)
       product: 9965434-110.A00LF
       vendor: AMD
       physical id: 1
       serial: 2D25C605
       slot: DIMM 2
       size: 16GiB
       width: 64 bits
       clock: 1333MHz (0.8ns)
    *-bank:2
       description: DIMM DDR3 Synchronous [empty]
       vendor: FFFFFFFFFFFF
       physical id: 2
       serial: FFFFFFFF
       slot: DIMM 3
       width: 64 bits
    *-bank:3
       description: DIMM DDR3 Synchronous [empty]
       vendor: FFFFFFFFFFFF
       physical id: 3
       serial: FFFFFFFF
       slot: DIMM 4
       width: 64 bits
    *-bank:4
       description: DIMM DDR3 Synchronous [empty]
       vendor: FFFFFFFFFFFF
       physical id: 4
       serial: FFFFFFFF
       slot: DIMM 5
       width: 64 bits
    *-bank:5
       description: DIMM DDR3 Synchronous [empty]
       vendor: FFFFFFFFFFFF
       physical id: 5
       serial: FFFFFFFF
       slot: DIMM 6
       width: 64 bits
    *-bank:6
       description: DIMM DDR3 1333 MHz (0.8 ns)
       product: 9965434-110.A00LF
       vendor: AMD
       physical id: 6
       serial: 2E25EB05
       slot: RISER DIMM 1
       size: 16GiB
       width: 64 bits
       clock: 1333MHz (0.8ns)
    *-bank:7
       description: DIMM DDR3 1333 MHz (0.8 ns)
       product: 9965434-110.A00LF
       vendor: AMD
       physical id: 7
       serial: 2F25DC05
       slot: RISER DIMM 2
       size: 16GiB
       width: 64 bits
       clock: 1333MHz (0.8ns)
    *-bank:8
       description: DIMM DDR3 Synchronous [empty]
       vendor: FFFFFFFFFFFF
       physical id: 8
       serial: FFFFFFFF
       slot: RISER DIMM 3
       width: 64 bits
    *-bank:9
       description: DIMM DDR3 Synchronous [empty]
       vendor: FFFFFFFFFFFF
       physical id: 9
       serial: FFFFFFFF
       slot: RISER DIMM 4
       width: 64 bits
    *-bank:10
       description: DIMM DDR3 Synchronous [empty]
       vendor: FFFFFFFFFFFF
       physical id: a
       serial: FFFFFFFF
       slot: RISER DIMM 5
       width: 64 bits
    *-bank:11
       description: DIMM DDR3 Synchronous [empty]
       vendor: FFFFFFFFFFFF
       physical id: b
       serial: FFFFFFFF
       slot: RISER DIMM 6
       width: 64 bits

Обновление 1

Диагностика встроенной системы Dell работала без проблемы (я мешал ей делать тесты памяти и сделал их с memtest86 вместо этого).

Законченные тесты 1-8 из memtest86 v4 без проблем.

Я записал сценарий Python для получения словаря всего md5sums в каталоге и выполнил его против 3 копий одновременно (но только 1 потока на диск*). Это нашло 7 новых несоответствий (из 3 000 файлов). Они были о равномерно разделенном среди 3 дисков (таким образом, это не просто проблема с SSD). И когда я возвратился для проверки каждого из 7 нечетных, каждый md5sum теперь соответствовал другим 2.

Текущие идеи:

  • Я думал, что возможно наличие 2/3 рабочие, получающие доступ к файлам на диск одновременно, возможно, было проблемой, но я теперь сделал несколько тестов, которые ошибки все еще разоблачают с последовательным доступом.
  • Карта SATA плоха в некотором роде. Я повторно подключу все 3 диска к материнской плате и запущу тот же тест снова.

Кажется вероятным быть картой SATA, теперь работали 3, передает все 3 диска после соединения их непосредственно к МБ, с несоответствиями 0 md5sum. Похож на карту SATA, облуплено, и предназначенный для мусора.

0
задан 19 March 2020 в 06:04

1 ответ

Из комментариев...

  • Успешно выполнил диагностику встроенной системы Dell

  • Подтвержденный, что BIOS является текущим в версии A18

  • Успешно выполненный memtest без ошибок, память правильно установлена для чередования памяти

  • Реконфигурированный SATA управляет к материнской плате вместо карты SATA PCIe и тестирования

  • Загруженный Samsung Magician и проверит на обновления встроенного микропрограммного обеспечения SSD (1)

(1) сильно подозреваемый мы найдем что-то здесь


От IO Crest 4-port SATA III PCIe 2.0 x2 Controller Card Green, SI-PEX40057 руководство здесь, мы видим специальные инструкции по установке Linux...

Дистрибутивы Linux с версией 2.6.19 ядра и выше включают драйверы ящика входящих сообщений для устройства IDE/ATA. В большинстве дистрибутивов ядро не загружает драйверы для ящика входящих сообщений устройства IDE/ATA по умолчанию. Процедура включения поддержки устройства IDE/ATA в Linux следующие:

Enabling support for IDE/ATA devices during a Clean Installation of Linux
 To enable support during a Clean Installation of Linux:
 1. Boot from the Linux Installation CD/DVD
 2. Select Installation and press Enter
 3. Type the following command into the Boot Options command line:
        ata_generic.all_generic_ide=1
 4. Press Enter to continue with the Linux OS installation

Enabling Support for IDE/ATA Device on an Existing Installation of Linux
 To enable support during a Existing Installation of Linux:
 1. Login as root.
 2. Right-click the Desktop and select Open in Terminal.
 3. Type the following commands:
        ls
        cd/boot/grub
         vim menu.lst
 4. Type the following command at the end of the kernel line for the title 
    paragraph that lists the version information for the Linux distribution.
        ata_generic.all_generic_ide=1
 5. Browse to File and select Save.
 6. Reboot the system for the changes to take effect. 

Обновление № 1:

Подозреваемый дефектная карта SATA PCIe был удален из системы.

0
ответ дан 7 April 2020 в 23:33

Другие вопросы по тегам:

Похожие вопросы: