Я хочу сохранить веб-страницы для чтения в автономном режиме. В настоящее время я сохраняю его, используя firefox
. Для массового сохранения я хочу автоматизировать процесс с помощью скрипта (или как насчет копира веб-сайта, например webhttrack
?). Из терминала я могу сохранить файл .html URL (используя wget URL
), но не могу просмотреть страницу без изображения, .js и т. Д.
Иногда я хочу сохранить пронумерованные страницы, т.е. https://askubuntu.com/posts/1 , https://askubuntu.com/posts/2 , https://askubuntu.com/posts/3 , https://askubuntu.com/posts/4 .. (как отражение) в одном кадре.
Как можно массово сохранить веб-страницы со всеми необходимыми файлами для правильного просмотра?
Существует отличный маленький аддон Firefox под названием ScrapBook
, который будет делать то, что вы хотите. Просто установите его, нажав кнопку Add to Firefox
на веб-сайте дополнения в Mozilla.
Вот ссылка
Вы должны использовать wget, но прочитайте руководство, чтобы узнать, какие именно опции вам нужны.
Обратите особое внимание на параметры, такие как
'- p'
blockquote>
'- page-реквизиты'
Эта опция заставляет Wget загружать все файлы которые необходимы для правильного отображения данной HTML-страницы. Это включает в себя такие вещи, как встроенные изображения, звуки и ссылочные таблицы стилей.или даже
‘- m’
blockquote>
‘--mirror’
Включите параметры, подходящие для зеркалирования. Эта опция включает рекурсию и отметку времени, устанавливает бесконечную глубину рекурсии и сохраняет списки каталогов ftp. В настоящее время он> эквивалентен ‘-r -N -l inf --no-remove-list '.Черт, зацените, если хотите,
'- k'
'--convert-links'
После завершения загрузки преобразуйте ссылки в документе, чтобы сделать их пригодными для локального просмотра. Это влияет не только на видимые гиперссылки, но и на любую часть документа, которая ссылается на внешний контент, такой как встроенные изображения, ссылки на таблицы стилей, гиперссылки на не-HTML контент и т. Д. в чем-то вроде:
wget --mirror -p --convert-links -P ./LOCAL_PATH WWW.WEBSITE.TLD/PATH