Загрузите веб-сайт и сделайте его доступным для поиска

Существует ли программное обеспечение (кроме браузера), которое берет несколько страниц, которые были загружены с помощью wget, отображает их и - что наиболее важно - предлагает быстрый полнотекстовый поиск в формате HTML (не простой текст с тегами, как с Grep)? Должно быть легко установить / настроить.

2
задан 9 December 2013 в 20:38

3 ответа

Для зеркалирования веб-сайта мне нравится использовать httrack, а не wget с рекурсивными вариантами поиска .

Описание : HTTrack сохраняет веб-сайты на ваш компьютер (автономный браузер).

HTTrack - это автономная браузерная утилита , позволяющая загружать веб-сайт World Wide из Интернета в локальный каталог, рекурсивно создавать все каталоги, получать HTML, изображения и другие файлы с сервера на ваш компьютер.

HTTrack упорядочивает относительную структуру ссылок исходного сайта . Просто откройте страницу «зеркального» веб-сайта в своем браузере, и вы можете просматривать сайт по ссылке , как если бы вы просматривали ее в Интернете. HTTrack также может обновить существующий зеркальный сайт и возобновить прерванные загрузки. HTTrack полностью настраивается и имеет встроенную справочную систему.

Для установки в терминале:

sudo apt-get install httrack
0
ответ дан 9 December 2013 в 20:38

После того, как вы правильно отразили свой веб-сайт с помощью wget или чего-либо еще, просто перейдите в корневой каталог загруженных веб-страниц и выполните следующее:

find . -iname "*.htm*" -exec grep -l "WHAT_YOU_ARE_SEARCHING_GOES_HERE" {} + | xargs -d "\n" firefox

Затем Firefox откроет все страницы, содержащие ваш поиск.

(Или немного больше, если ваш поисковый термин присутствует только в HTML-тегах веб-страницы. Если это проблема для вас, то он также может быть решен с помощью другого канала, который отфильтровывает теги HTML. )

0
ответ дан 9 December 2013 в 20:38

Вы можете использовать grep, но перенаправить вывод на веб-страницу, чтобы было понятно, как большинство тегов будут удалены, например:

grep -d recurse 'SEARCH-TERM' /PATH/TO/FOLDER/WITH/WEBPAGE-FILES > OUTPUT.html

Это будет удалите большинство тегов и прочее, хотя они будут обрезаны до отдельных строк, поэтому вы можете использовать опцию -C, чтобы показать часть контекста результата поиска .:

grep -d recurse -C 5 'SEARCH-TERM' /PATH/TO/FOLDER/WITH/WEBPAGE-FILES > OUTPUT.html

где 5 - это количество строк в каждом направлении, чтобы дать результат поиска больше контекста.

Дополнительные параметры см. В man grep

Действительно, веб-браузер - лучший инструмент для поиска по веб-странице - я не могу думать о чем-то еще

Да, и чтобы убедиться, что вы ищете только веб-страницы (с расширением .htm или .html):

find . -name "*.htm*" -exec grep -d recurse -C 5 'SEARCH-TERM' /PATH/TO/FOLDER/WITH/WEBPAGE-FILES > OUTPUT.html

Кроме того, чтобы улучшить любую загрузку веб-страниц / сайтов с помощью wget смотри здесь .

0
ответ дан 9 December 2013 в 20:38

Другие вопросы по тегам:

Похожие вопросы: