программное обеспечение для извлечения веб-страниц и пауки с графическим интерфейсом

Я ищу программу для извлечения электронной почты и данных для создания списка рассылки для конкретных отраслей, я ищу программу с простым графическим интерфейсом, но обладающую широкими возможностями и удобную для использования в Ubuntu.

-2
задан 10 January 2014 в 20:44

1 ответ

Вы можете использовать что-то вроде HTTrack, чтобы сначала создать локальное статическое зеркало сайта. Затем cd в локальное зеркало и grep для адресов электронной почты:

grep -srhwoIiE "[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}" . \
| tr '[:upper:]' '[:lower:]' \
| sort -u

Вероятно, есть более подходящие регулярные выражения для электронных писем (это общеизвестно сложно, потому что RFC электронной почты настолько свободен), но это должно помочь .

0
ответ дан 10 January 2014 в 20:44

Другие вопросы по тегам:

Похожие вопросы: