wget только загружают index.html в каждой папке

например:

wget -m https://www.kali.org

Никакие предупреждения, никакие ошибки; Что может быть неправильным?

только для получения более сложным я использовал рекомендуемую команду (см. ниже), и вывод (еще) не является удовлетворительным:

wget --recursive --no-clobber --page-requisites --html-extension --convert-links --domains=kali.org www.kali.org
Both --no-clobber and --convert-links were specified, only --convert-links will be used.
URL transformed to HTTPS due to an HSTS policy
--2019-07-04 14:13:38--  https://www.kali.org/
Resolving www.kali.org (www.kali.org)... 192.124.249.10
Connecting to www.kali.org (www.kali.org)|192.124.249.10|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 18714 (18K) [text/html]
Saving to: ‘www.kali.org/index.html.gz’

www.kali.org/index.html.gz      100%[=======================================================>]  18.28K  --.-KB/s    in 0.01s   

2019-07-04 14:13:38 (1.84 MB/s) - ‘www.kali.org/index.html.gz’ saved [18714/18714]

FINISHED --2019-07-04 14:13:38--
Total wall clock time: 0.3s
Downloaded: 1 files, 18K in 0.01s (1.84 MB/s)
Converting links in www.kali.org/index.html.gz... nothing to do.
Converted links in 1 files in 0 seconds.

Но... зеркально отраженный https://www.cnn.com - например,

Ubuntu 19.04
Кодовое название: дискотека

некоторые страницы загружаются как "источник страницы представления":

<!doctype html>
<html lang="en">
<head>
  <meta charset="utf-8">
  <meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1">
  <meta name="viewport" content="initial-scale=1.0, maximum-scale=1.0" />
  <link href='./index.css' rel='stylesheet' type='text/css'>
  <title>crontab.guru - the cron schedule expression editor</title>
  <meta name="description" content="An easy to use editor for crontab schedules.">
  <meta name="google-site-verification" content="QPa8OWuMuIsXgvuvPdfSCxA4ewd2Gs5tTUh0k2crBPE" />
</head>
<body>
<a href="/"><h1>crontab guru</h1></a>
<div class="blurb">
  <div>The quick and simple editor for cron schedule expressions by <a href="https://cronitor.io?utm_source=crontabguru&utm_campaign=cronitor_top" title="Cron job monitoring and observability" rel="nofollow">Cronitor</a></div>
</div>
<div id="content">loading...</div>

и снова древовидный каталог не был загружен.

1
задан 8 July 2019 в 19:42

3 ответа

Если Вы хотите загрузить целый веб-сайт, затем пробуют httrack

    sudo apt install httrack 

Затем выполните его

     httrack --ext-depth=1 http://xyz.com 
0
ответ дан 7 December 2019 в 19:41

Это будет работать, это скопирует веб-сайт локально.

Если, именно это Вы хотите, используйте команду следующим образом:

wget --recursive --no-clobber --page-requisites --html-extension --convert-links --domains=kali.org www.kali.org
  • - рекурсивные средства: загрузите целый сайт.
  • - нет - ударяют средства: не перезаписывайте существующие файлы.
  • - средства необходимого страницы: загрузите все компоненты страницы включая изображения.
  • - дополнительные HTML средства: сохраните страницы как .html файлы.
  • - средства преобразовывать-ссылок: преобразуйте все ссылки для выполнения локально т.е. офлайн.
  • - домены = средства: не переходите по ссылкам вне этого домена.

Для дополнительных материалов для чтения обратитесь к Wget - неинтерактивный сетевой загрузчик

0
ответ дан 7 December 2019 в 19:41

У меня такая же проблема.

Попробуйте эту команду:

wget --wait 1 -x -H -mk http://site.to.mirror/
-2
ответ дан 11 April 2020 в 20:50

Другие вопросы по тегам:

Похожие вопросы: