То, как загрузить большие сайты несколькими, прервало wget:s?

Я пытаюсь загрузить сайт wget, но сайт является столь большим, что я не могу сделать всего этого сразу. Проблема состоит в том, что сервер всегда сообщает о новом файле и когда я возобновляю, что загрузка wget создает имя файла 1, имя файла 2... и т.д., но я знаю, что файлы не изменились или если они сделали, я не забочусь. Существует ли путь к повороту проверки метки времени, и заставьте wget предположить, что файл с тем же именем является текущим?

0
задан 23 January 2020 в 16:14

1 ответ

Я думаю, что Вы на самом деле спрашиваете, как возобновить прерванные загрузки больших файлов. Для этого для работы сервер должен указать в заголовке, насколько большой файл. Иначе большинство инструментов, это не все, никогда не будет возобновлять загрузку и всегда запускаться с начала, пока они больше не получат битов от сервера. Можно проверить вручную если content-length атрибут указан в заголовке путем выполнения curl -I <url.

Например, мы можем проверить заголовок, который мы получаем для askubuntu логотипа страницы:

$ curl -I https://cdn.sstatic.net/Sites/askubuntu/img/logo.svg

HTTP/2 200 
cache-control: max-age=604800
content-type: image/svg+xml
last-modified: Wed, 22 Jan 2020 23:01:03 GMT
accept-ranges: bytes
date: Thu, 23 Jan 2020 14:30:06 GMT
via: 1.1 varnish
age: 0
x-served-by: cache-mxp19838-MXP
x-cache: MISS
x-cache-hits: 0
x-timer: S1579789807.662934,VS0,VE117
vary: Accept-Encoding
content-length: 11748

В самой нижней части Вы видите content-length: 11748, который включил бы wget возобновлять загрузку, если прервано.

Кроме того, можно использовать ariac вместо wget, который, по-моему, обрабатывает прерванные загрузки лучше.

0
ответ дан 30 January 2020 в 23:31

Другие вопросы по тегам:

Похожие вопросы: