TL; DR: Я думал, что у меня была ошибка повреждения данных в покое на 2 SSD, но я думаю, что она после считывает данные. Как я могу диагностировать, где провальная часть?
Мой алгоритм обучения ML открывает тысячи файлов (только для чтения), и вчера один из файлов обнаружился поврежденный. Однако, когда я начал исследовать различия между 3 копиями (1 на каждом из 2 SSD и 1 жесткого диска), вещи стали более странными. Все даты и размеры, подобранные отлично, но md5sums, показали различия в 10 файлах.
Что является еще более странным, после того, как я удостоверился, что все 3 копии были в синхронизации (использующий rsync с контрольной суммой), другой файл на 1 SSD случайным образом показал повреждение. Таким образом, я сравнил md5sum, и это было нечетное из 3 копий. Однако, когда я протестировал его снова 2 минуты спустя, md5sum соответствовал другим 2. Это показывает, что это не повреждение на диске (данные в покое).
Как я иду о выяснении, что перестало работать? Я собираюсь выполнить длинный memtest (который ранее передал, год назад), но я не уверен, что еще я могу сделать.
Спецификации
вывод free -h
(кэш полон, потому что я просто выполнил новое соответствие md5sums на всех 3 дисках),
total used free shared buff/cache available
Mem: 62G 1.2G 312M 11M 61G 61G
Swap: 2.0G 0B 2.0G
вывод sudo lshw -C memory
(Я могу подтвердить, что 4 палки находятся в корректных слотах согласно руководству. МБ DIMM 1 и 2, переходная плата DIMM 1 и 2)
*-firmware
description: BIOS
vendor: Dell Inc.
physical id: 0
version: A18
date: 10/15/2018
size: 64KiB
capacity: 1984KiB
capabilities: pci pnp apm upgrade shadowing escd cdboot bootselect edd int13floppytoshiba int13floppy720 int5printscreen int9keyboard int14serial int17printer acpi usb biosbootspecification netboot
*-cache:0
description: L1 cache
physical id: 700
size: 384KiB
capacity: 384KiB
capabilities: internal write-back unified
configuration: level=1
*-cache:1
description: L2 cache
physical id: 701
size: 1536KiB
capacity: 1536KiB
capabilities: internal varies unified
configuration: level=2
*-cache:2
description: L3 cache
physical id: 704
size: 12MiB
capacity: 12MiB
capabilities: internal varies unified
configuration: level=3
*-cache:0
description: L1 cache
physical id: 702
size: 384KiB
capacity: 384KiB
capabilities: internal write-back unified
configuration: level=1
*-cache:1
description: L2 cache
physical id: 703
size: 1536KiB
capacity: 1536KiB
capabilities: internal varies unified
configuration: level=2
*-cache:2
description: L3 cache
physical id: 705
size: 12MiB
capacity: 12MiB
capabilities: internal varies unified
configuration: level=3
*-memory
description: System Memory
physical id: 1000
slot: System board or motherboard
size: 64GiB
capabilities: ecc
configuration: errordetection=multi-bit-ecc
*-bank:0
description: DIMM DDR3 1333 MHz (0.8 ns)
product: 9965516-433.A00LF
vendor: AMD
physical id: 0
serial: CF38EF94
slot: DIMM 1
size: 16GiB
width: 64 bits
clock: 1333MHz (0.8ns)
*-bank:1
description: DIMM DDR3 1333 MHz (0.8 ns)
product: 9965434-110.A00LF
vendor: AMD
physical id: 1
serial: 2D25C605
slot: DIMM 2
size: 16GiB
width: 64 bits
clock: 1333MHz (0.8ns)
*-bank:2
description: DIMM DDR3 Synchronous [empty]
vendor: FFFFFFFFFFFF
physical id: 2
serial: FFFFFFFF
slot: DIMM 3
width: 64 bits
*-bank:3
description: DIMM DDR3 Synchronous [empty]
vendor: FFFFFFFFFFFF
physical id: 3
serial: FFFFFFFF
slot: DIMM 4
width: 64 bits
*-bank:4
description: DIMM DDR3 Synchronous [empty]
vendor: FFFFFFFFFFFF
physical id: 4
serial: FFFFFFFF
slot: DIMM 5
width: 64 bits
*-bank:5
description: DIMM DDR3 Synchronous [empty]
vendor: FFFFFFFFFFFF
physical id: 5
serial: FFFFFFFF
slot: DIMM 6
width: 64 bits
*-bank:6
description: DIMM DDR3 1333 MHz (0.8 ns)
product: 9965434-110.A00LF
vendor: AMD
physical id: 6
serial: 2E25EB05
slot: RISER DIMM 1
size: 16GiB
width: 64 bits
clock: 1333MHz (0.8ns)
*-bank:7
description: DIMM DDR3 1333 MHz (0.8 ns)
product: 9965434-110.A00LF
vendor: AMD
physical id: 7
serial: 2F25DC05
slot: RISER DIMM 2
size: 16GiB
width: 64 bits
clock: 1333MHz (0.8ns)
*-bank:8
description: DIMM DDR3 Synchronous [empty]
vendor: FFFFFFFFFFFF
physical id: 8
serial: FFFFFFFF
slot: RISER DIMM 3
width: 64 bits
*-bank:9
description: DIMM DDR3 Synchronous [empty]
vendor: FFFFFFFFFFFF
physical id: 9
serial: FFFFFFFF
slot: RISER DIMM 4
width: 64 bits
*-bank:10
description: DIMM DDR3 Synchronous [empty]
vendor: FFFFFFFFFFFF
physical id: a
serial: FFFFFFFF
slot: RISER DIMM 5
width: 64 bits
*-bank:11
description: DIMM DDR3 Synchronous [empty]
vendor: FFFFFFFFFFFF
physical id: b
serial: FFFFFFFF
slot: RISER DIMM 6
width: 64 bits
Обновление 1
Диагностика встроенной системы Dell работала без проблемы (я мешал ей делать тесты памяти и сделал их с memtest86 вместо этого).
Законченные тесты 1-8 из memtest86 v4 без проблем.
Я записал сценарий Python для получения словаря всего md5sums в каталоге и выполнил его против 3 копий одновременно (но только 1 потока на диск*). Это нашло 7 новых несоответствий (из 3 000 файлов). Они были о равномерно разделенном среди 3 дисков (таким образом, это не просто проблема с SSD). И когда я возвратился для проверки каждого из 7 нечетных, каждый md5sum теперь соответствовал другим 2.
Текущие идеи:
Кажется вероятным быть картой SATA, теперь работали 3, передает все 3 диска после соединения их непосредственно к МБ, с несоответствиями 0 md5sum. Похож на карту SATA, облуплено, и предназначенный для мусора.
Из комментариев...
Успешно выполнил диагностику встроенной системы Dell
Подтвержденный, что BIOS является текущим в версии A18
Успешно выполненный memtest без ошибок, память правильно установлена для чередования памяти
Реконфигурированный SATA управляет к материнской плате вместо карты SATA PCIe и тестирования
Загруженный Samsung Magician
и проверит на обновления встроенного микропрограммного обеспечения SSD (1)
(1) сильно подозреваемый мы найдем что-то здесь
От IO Crest 4-port SATA III PCIe 2.0 x2 Controller Card Green, SI-PEX40057
руководство здесь, мы видим специальные инструкции по установке Linux...
Дистрибутивы Linux с версией 2.6.19 ядра и выше включают драйверы ящика входящих сообщений для устройства IDE/ATA. В большинстве дистрибутивов ядро не загружает драйверы для ящика входящих сообщений устройства IDE/ATA по умолчанию. Процедура включения поддержки устройства IDE/ATA в Linux следующие:
Enabling support for IDE/ATA devices during a Clean Installation of Linux
To enable support during a Clean Installation of Linux:
1. Boot from the Linux Installation CD/DVD
2. Select Installation and press Enter
3. Type the following command into the Boot Options command line:
ata_generic.all_generic_ide=1
4. Press Enter to continue with the Linux OS installation
Enabling Support for IDE/ATA Device on an Existing Installation of Linux
To enable support during a Existing Installation of Linux:
1. Login as root.
2. Right-click the Desktop and select Open in Terminal.
3. Type the following commands:
ls
cd/boot/grub
vim menu.lst
4. Type the following command at the end of the kernel line for the title
paragraph that lists the version information for the Linux distribution.
ata_generic.all_generic_ide=1
5. Browse to File and select Save.
6. Reboot the system for the changes to take effect.
Обновление № 1:
Подозреваемый дефектная карта SATA PCIe был удален из системы.