Существует ли программное обеспечение (кроме браузера), которое берет несколько страниц, которые были загружены с помощью wget
, отображает их и - что наиболее важно - предлагает быстрый полнотекстовый поиск в формате HTML (не простой текст с тегами, как с Grep)? Должно быть легко установить / настроить.
Для зеркалирования веб-сайта мне нравится использовать httrack
, а не wget
с рекурсивными вариантами поиска .
Описание : HTTrack сохраняет веб-сайты на ваш компьютер (автономный браузер).
HTTrack - это автономная браузерная утилита , позволяющая загружать веб-сайт World Wide из Интернета в локальный каталог, рекурсивно создавать все каталоги, получать HTML, изображения и другие файлы с сервера на ваш компьютер.
HTTrack упорядочивает относительную структуру ссылок исходного сайта . Просто откройте страницу «зеркального» веб-сайта в своем браузере, и вы можете просматривать сайт по ссылке , как если бы вы просматривали ее в Интернете. HTTrack также может обновить существующий зеркальный сайт и возобновить прерванные загрузки. HTTrack полностью настраивается и имеет встроенную справочную систему.
Для установки в терминале:
sudo apt-get install httrack
После того, как вы правильно отразили свой веб-сайт с помощью wget
или чего-либо еще, просто перейдите в корневой каталог загруженных веб-страниц и выполните следующее:
find . -iname "*.htm*" -exec grep -l "WHAT_YOU_ARE_SEARCHING_GOES_HERE" {} + | xargs -d "\n" firefox
Затем Firefox откроет все страницы, содержащие ваш поиск.
(Или немного больше, если ваш поисковый термин присутствует только в HTML-тегах веб-страницы. Если это проблема для вас, то он также может быть решен с помощью другого канала, который отфильтровывает теги HTML. )
Вы можете использовать grep, но перенаправить вывод на веб-страницу, чтобы было понятно, как большинство тегов будут удалены, например:
grep -d recurse 'SEARCH-TERM' /PATH/TO/FOLDER/WITH/WEBPAGE-FILES > OUTPUT.html
Это будет удалите большинство тегов и прочее, хотя они будут обрезаны до отдельных строк, поэтому вы можете использовать опцию -C
, чтобы показать часть контекста результата поиска .:
grep -d recurse -C 5 'SEARCH-TERM' /PATH/TO/FOLDER/WITH/WEBPAGE-FILES > OUTPUT.html
где 5 - это количество строк в каждом направлении, чтобы дать результат поиска больше контекста.
Дополнительные параметры см. В man grep
Действительно, веб-браузер - лучший инструмент для поиска по веб-странице - я не могу думать о чем-то еще
Да, и чтобы убедиться, что вы ищете только веб-страницы (с расширением .htm или .html):
find . -name "*.htm*" -exec grep -d recurse -C 5 'SEARCH-TERM' /PATH/TO/FOLDER/WITH/WEBPAGE-FILES > OUTPUT.html
Кроме того, чтобы улучшить любую загрузку веб-страниц / сайтов с помощью wget
смотри здесь .