Как произвести исходный код HTML веб-страницы в файл

Моя цель состоит в том, чтобы произвести источник HTML в файл, я использую w3m для просмотра веб-сайтов от терминала.

При использовании следующей команды на терминале: w3m <url> -dump программа отображает веб-сайт не интерактивным способом, но никакой его источник HTML.

Если Вы открываете веб-сайт с w3m <url>, терминал отобразит сайт и если Вы нажмете v, то затем программа отобразит источник HTML, я пытался написать сценарий этого, но без успеха. Я думал параметр командной строки -dump_source помог бы мне, но единственной вещью, которую я получил, является нечеловеческий контент чтения, я не знаю что -dump_source как предполагалось, возвратился

Вот то, что я попробовал до сих пор:

  • Использовать -T text/html с -dump на терминале, но выводе не сделал измененный
  • Использовать -T text/plain с -dump_source на терминале, надеясь, что нечеловеческий вывод был бы преобразован в простой текст, но никакой успех (я не понял то, что-T используется для, даже после чтения w3m руководство путем ввода man w3m на терминале)
  • Знание, что, нажимая v, в то время как w3m отображает переключатель веб-сайта от содержания веб-страницы до исходного кода HTML, я пытался использовать gdb для присоединения его к w3m, обрабатывает и перенаправляет свой stdin и stdout в мои файлы (input.txt, output.txt), который input.txt содержит единственный v, но я не имел никакого успеха. Выполнение этого на моей тестовой программе работало как ожидалось. Я следовал за тем, что было описано здесь. Если я пишу ls -l /proc/<w3m_pid>/fd, где w3m_pid является моим идентификатором процесса w3m, при помощи которого я добрался ps ax на терминале я вижу, что существует 3 дескрипторов файлов, если я пытаюсь перенаправить третий, катастрофические отказы программы и дисплеи: Ошибка произошла: errorno=25
  • Перенаправление стандартного ввода-вывода с w3m <url> < input.txt > output.txt также не сделал работавший
  • W3M использует привязку клавиш для навигации в сети, это означает, что при нажатии v, нет никакой потребности совершить нападки, входят, терминал не буферизует вход, с помощью gdb присоединенный к процессу w3m, при помощи которого я пытался удалить ее p system ("/bin/stty cooked"), но w3m keybind не сделал измененный.

Мой вопрос: почему перенаправление ввода-вывода с gdb не работает и что я могу сделать для получения исходного кода HTML? w3m имеют опцию произвести исходный код HTML, который я пропускаю, или я должен был бы использовать другую программу?

PS: Мне нужен исходный код HTML для университетской домашней работы с исходным кодом HTML, я могу создать сценарий, чтобы просмотреть веб-сайты и произвести страницу в файл, чем я, как предполагается, использую те выводы с гибким проводом для извлечения информации о помехах о вещах в сети, как: сколько стопка слова появляется в вопросах о языке C? Это - моя идея.

Любые предложения ценились бы.

Версия W3M: 0.5.3+debian-15

Версия GDB: 7.7.1

Версия Ubuntu: 14.04

Заранее спасибо!

1
задан 23 May 2017 в 15:39

1 ответ

Почему Вы не можете использовать curl?

curl web-address > file-source.

произведет исходный код в file

Как это

curl http://askubuntu.com/questions/822139/how-to-output-web-page-html-source-code-into-a-file > source-html
6
ответ дан 3 December 2019 в 06:31

Другие вопросы по тегам:

Похожие вопросы: