Получение текста и ссылок от веб-страницы

Question 1

Я хотел бы иметь сценарий, который загружает веб-страницу завихрением, передает его по каналу к w3m, который разделяет его от всего содержания кроме текста и ссылок.

Действительно ли возможно указать для-T опции w3m, больше, чем всего один тип контента и как?

Для разъяснения моего вопроса немного больше вот, пример:

curl --user-agent "Mozilla/4.0" https://askubuntu.com/questions -s | w3m -dump -T text/html

который возвращается, только текст от Спрашивают страницу вопросов Ubuntu, но без ссылок. Если w3m не может сделать этого, там какой-либо другой инструмент, который способен к очистке текста и ссылок одновременно?

Question 2

Ну, после обширного исследования самостоятельно, я предполагаю, нет такого инструмента...

Однако если это имеет значение, я действительно обнаруживал hxnormalize, который сделал запись конкретного сценария, в котором я нуждался, относительно простой вопрос.

Question 3

Question 4

Вы можете использовать lynx -dump . Он будет включать число вроде [16] перед каждой ссылкой, а затем список URL-адресов в конце документа.

Для использования канала вы можете использовать lynx -dump -force_html -stdin . Однако это не будет правильно обрабатывать относительные ссылки, потому что ему неизвестен исходный URL-адрес.

Итак, лучший способ - сделать lynx -dump http: //.../ без отдельного curl .

S.R. · Answer 1 · 7 December 2019 в 15:51

Ну, после обширного исследования самостоятельно, я предполагаю, нет такого инструмента...

Однако если это имеет значение, я действительно обнаруживал hxnormalize, который сделал запись конкретного сценария, в котором я нуждался, относительно простой вопрос.

jpa · Answer 2 · 12 December 2019 в 19:57

Вы можете использовать lynx -dump . Он будет включать число вроде [16] перед каждой ссылкой, а затем список URL-адресов в конце документа.

Для использования канала вы можете использовать lynx -dump -force_html -stdin . Однако это не будет правильно обрабатывать относительные ссылки, потому что ему неизвестен исходный URL-адрес.

Итак, лучший способ - сделать lynx -dump http: //.../ без отдельного curl .

Получение текста и ссылок от веб-страницы

2 ответа

Другие вопросы по тегам:

Похожие вопросы: