Итак, у меня есть дамп в Википедии размером около 10 ГБ, который называется «enwiki-latest-pages-article.xml.bz2». Я пытался распаковать дамп следующих команд в терминале:
tar jxf enwiki-latest-pages-articles.xml.bz2
И
tar xvf enwiki-latest-pages-articles.xml.bz2
Но обе они возвращают следующую ошибку
tar: This does not look like a tar archive
tar: Skipping to next header
Вы не можете использовать эти tar
команда, потому что архив не является .tar.* файл. Для распаковки bzip2 файла используйте следующую команду (это не сохранит исходный .bz2 файл):
bzip2 -d enwiki-latest-pages-articles.xml.bz2
, Если Вы хотите извлечь его и сохранить оригинал, выполните эту команду:
bzip2 -dk enwiki-latest-pages-articles.xml.bz2
Источник: https://superuser.com/questions/480950/how-to-decompress-a-bz2-file
Просто используйте bunzip2
:
bunzip2 enwiki-latest-pages-articles.xml.bz2
И если это gzip
сжатый файл:
gunzip enwiki-latest-pages-articles.xml.gz