Веб-паук для Ubuntu

Я ищу веб-паука для Ubuntu, подобного этому Webripper - Calluna Software . Вы можете загрузить весь сайт, как вы можете с помощью

wget -r -m example.com

, но функция, которую я ищу, заключается в том, что вы можете ввести поисковый запрос типа «Linux», и он будет искать в Интернете и загружать их. Есть ли в Ubuntu такие программы?

11
задан 10 January 2014 в 18:42

4 ответа

Вы можете использовать Google Alerts для создания своего рода страницы поиска, доставляемой в канал, а затем использовать программу чтения RSS или Thunderbird для их чтения.

Я использую Thunderbird для RSS. Я не знаю, есть ли какие-нибудь программы для чтения RSS, которые могли бы экспортировать канал в простой HTML.

0
ответ дан 10 January 2014 в 18:42

Вы можете попробовать http ripper .

Вот некоторые функции, размещенные на сайте:

Free Software (GPL 3)
Generic (works with almost every website)
Runs on GNU/Linux and Windows
Nearly undetectable / blockable by servers
Built with python and pygtk

http://29a.ch/httpripper/screenshots/2.png Снимок экрана

Посмотрите учебное пособие от разработчика самого httpripper:

Ссылка для скачивания:

Это работало для меня в Ubuntu 11.10 x64

0
ответ дан 10 January 2014 в 18:42

Сделайте снимок httrack (CLI) или webhttrack (веб-интерфейс), он находится в репозитории вселенной. Я не уверен насчет описанного вами поискового термина, но он предлагает множество легко настраиваемых опций.

http://packages.ubuntu.com/de/oneiric/webhttrack

HTTrack Website Copier - автономный браузер бесплатного программного обеспечения (GNU) GPL)

0
ответ дан 10 January 2014 в 18:42

В CPAN Perl есть соответствующие модули. Вам просто нужно немного скриптов на Perl.

В частности, обратите внимание на модуль WWW: Механизация в Модуль WWW: Механизация .

0
ответ дан 10 January 2014 в 18:42

Другие вопросы по тегам:

Похожие вопросы: