Я ищу веб-паука для Ubuntu, подобного этому Webripper - Calluna Software . Вы можете загрузить весь сайт, как вы можете с помощью
wget -r -m example.com
, но функция, которую я ищу, заключается в том, что вы можете ввести поисковый запрос типа «Linux», и он будет искать в Интернете и загружать их. Есть ли в Ubuntu такие программы?
Вы можете использовать Google Alerts для создания своего рода страницы поиска, доставляемой в канал, а затем использовать программу чтения RSS или Thunderbird для их чтения.
Я использую Thunderbird для RSS. Я не знаю, есть ли какие-нибудь программы для чтения RSS, которые могли бы экспортировать канал в простой HTML.
Вы можете попробовать http ripper .
Вот некоторые функции, размещенные на сайте:
blockquote>Free Software (GPL 3) Generic (works with almost every website) Runs on GNU/Linux and Windows Nearly undetectable / blockable by servers Built with python and pygtk
Снимок экрана sup>
Посмотрите учебное пособие от разработчика самого httpripper:
Ссылка для скачивания:
Это работало для меня в Ubuntu 11.10 x64
Сделайте снимок httrack (CLI) или webhttrack (веб-интерфейс), он находится в репозитории вселенной. Я не уверен насчет описанного вами поискового термина, но он предлагает множество легко настраиваемых опций.
http://packages.ubuntu.com/de/oneiric/webhttrack s>
HTTrack Website Copier - автономный браузер бесплатного программного обеспечения (GNU) GPL)
В CPAN Perl есть соответствующие модули. Вам просто нужно немного скриптов на Perl.
В частности, обратите внимание на модуль WWW: Механизация в Модуль WWW: Механизация .