Я пытаюсь загрузить сайт wget, но сайт является столь большим, что я не могу сделать всего этого сразу. Проблема состоит в том, что сервер всегда сообщает о новом файле и когда я возобновляю, что загрузка wget создает имя файла 1, имя файла 2... и т.д., но я знаю, что файлы не изменились или если они сделали, я не забочусь. Существует ли путь к повороту проверки метки времени, и заставьте wget предположить, что файл с тем же именем является текущим?
Я думаю, что Вы на самом деле спрашиваете, как возобновить прерванные загрузки больших файлов. Для этого для работы сервер должен указать в заголовке, насколько большой файл. Иначе большинство инструментов, это не все, никогда не будет возобновлять загрузку и всегда запускаться с начала, пока они больше не получат битов от сервера. Можно проверить вручную если content-length
атрибут указан в заголовке путем выполнения curl -I <url
.
Например, мы можем проверить заголовок, который мы получаем для askubuntu логотипа страницы:
$ curl -I https://cdn.sstatic.net/Sites/askubuntu/img/logo.svg
HTTP/2 200
cache-control: max-age=604800
content-type: image/svg+xml
last-modified: Wed, 22 Jan 2020 23:01:03 GMT
accept-ranges: bytes
date: Thu, 23 Jan 2020 14:30:06 GMT
via: 1.1 varnish
age: 0
x-served-by: cache-mxp19838-MXP
x-cache: MISS
x-cache-hits: 0
x-timer: S1579789807.662934,VS0,VE117
vary: Accept-Encoding
content-length: 11748
В самой нижней части Вы видите content-length: 11748
, который включил бы wget
возобновлять загрузку, если прервано.
Кроме того, можно использовать ariac
вместо wget
, который, по-моему, обрабатывает прерванные загрузки лучше.