На Google Chrome, когда мы переходим к режиму разработки, , щелкают правой кнопкой an HTML по элементу → Копия → элемент Копии , мы можем скопировать содержимое HTML веб-страницы. Ниже пример процедуры, которую я описал:
Моя проблема состоит в том, что, когда я использую wget
для загрузки веб-страницы, я получаю исходный код страницы, включая ее адреса JavaScript и сценарии.
я хотел бы использовать командную строку для загрузки заключительного результата HTML страницы, точно так же, как Google Chrome делает в моем примере. Получение содержимого HTML, которое отображается на странице, было бы полезно для автоматизации извлечения информации от веб-страниц для меня.
это возможный загрузить HTML страницы (не исходный код) использование wget
или другие инструменты командной строки?
Так как у вас установлен Google Chrome , вы можете получить внутреннюю HTML-структуру веб-страницы, запустив в терминале:
google-chrome --headless --dump-dom 'URL' > ~/file.html
заменить URL
с URL-адресом веб-страницы, которую вы хотите. HTML DOM страницы будет сохранена в файл с именем file.html
в домашнем каталоге.