Я хотел бы иметь сценарий, который загружает веб-страницу завихрением, передает его по каналу к w3m, который разделяет его от всего содержания кроме текста и ссылок.
Действительно ли возможно указать для-T опции w3m, больше, чем всего один тип контента и как?
Для разъяснения моего вопроса немного больше вот, пример:
curl --user-agent "Mozilla/4.0" https://askubuntu.com/questions -s | w3m -dump -T text/html
который возвращается, только текст от Спрашивают страницу вопросов Ubuntu, но без ссылок. Если w3m не может сделать этого, там какой-либо другой инструмент, который способен к очистке текста и ссылок одновременно?
Ну, после обширного исследования самостоятельно, я предполагаю, нет такого инструмента...
Однако если это имеет значение, я действительно обнаруживал hxnormalize, который сделал запись конкретного сценария, в котором я нуждался, относительно простой вопрос.
Вы можете использовать lynx -dump
. Он будет включать число вроде [16]
перед каждой ссылкой, а затем список URL-адресов в конце документа.
Для использования канала вы можете использовать lynx -dump -force_html -stdin
. Однако это не будет правильно обрабатывать относительные ссылки, потому что ему неизвестен исходный URL-адрес.
Итак, лучший способ - сделать lynx -dump http: //.../
без отдельного curl
.