100 + ГБ tar.gz файл правильно не извлекают

Я загрузил набор данных на 120 ГБ в tar.gz, использующем Акселератор Загрузки Плюс, и использовал следующую команду для извлечения его:

tar -xvzf train_val2018.tar.gz

Набор данных при извлечении должен содержать немного больше чем 8 142 папки и точно 461 939 файлов изображений.

Когда я открываю извлеченную папку, она действительно содержит части набора данных. Однако огромная часть его отсутствует - это только содержит 3 542 папки и 179 689 файлов.

Используя файловый менеджер или встроенный экстрактор файла GUI для извлечения его на Ubuntu только делает хуже. Я попробовал различные приложения в Windows также, как WinZip, WinRAR, и 7Zip. Ни один из них не работает, но проблема с ними - то, что у них были проблемы памяти с таким большим набором данных.

Файл мог быть поврежден? Файл имеет тот же размер, как они упомянули в веб-сайте набора данных, и я загрузил несколько больших файлов DAP, и я никогда не встречался с проблемой повреждения. Поэтому я хотел бы знать, существует ли некоторое ограничение со встроенным экстрактором или другой проблемой.

Набор данных, к которому я обращаюсь, является Набором данных Конкурса iNaturalist 2018.

0
задан 22 January 2019 в 02:36

2 ответа

Да, от курса это могло быть. И если Вы читаете, у них есть шаг проверки:

Running md5sum train_val2018.tar.gz should produce b1c6952ce38f31868cc50ea72d066cc3

если Вы не хотите сравнивать вручную md5sum, можно создать md5sum-дб файла (имя может быть тем, что Вы любите), содержащий следующее:

b1c6952ce38f31868cc50ea72d066cc3 train_val2018.tar.gz

войдите в папку, сжатый DB и выполнен:

md5sum -c md5sum-db

Если соответствие проверки хеша Вы получите этот вывод:

 train_val2018.tar.gz: OK

еще

train_val2018.tar.gz: FAILED
md5sum: WARNING: 1 computed checksum did NOT match

Другой способ проверить gz файл состоит в том, чтобы использовать тест это:

gunzip -t file.tar.gz

Примечание: этот метод не гарантирует данные, содержавшиеся в целостности архива.

2
ответ дан 26 October 2019 в 12:02

Файл мог быть поврежден?

Да. Тот сайт также обеспечивает инструмент для Вас для проверки. Из ссылки я вижу 4 контрольных суммы, где 1-й - для Вашей загрузки.

md5sum train_val2018.tar.gz should produce b1c6952ce38f31868cc50ea72d066cc3
md5sum train2018.json.tar.gz should produce bfa29d89d629cbf04d826a720c0a68b0
md5sum val2018.json.tar.gz should produce f2ed8bfe3e9901cdefceb4e53cd3775d
md5sum test2018.tar.gz should produce 4b71d44d73e27475eefea68886c7d1b1
md5sum test2018.json.tar.gz should produce fc717a7f53ac72ed8b250221a08a4502

Если Вы получаете другой результат, Ваша загрузка повреждается.

2
ответ дан 26 October 2019 в 12:02

Другие вопросы по тегам:

Похожие вопросы: