, Как я могу загрузить веб-страницу HTML включая сгенерированное JavaScript содержание от терминала?

На Google Chrome, когда мы переходим к режиму разработки, , щелкают правой кнопкой an HTML по элементу → Копия элемент Копии , мы можем скопировать содержимое HTML веб-страницы. Ниже пример процедуры, которую я описал:

Copying HTML content with Google Chrome

Моя проблема состоит в том, что, когда я использую wget для загрузки веб-страницы, я получаю исходный код страницы, включая ее адреса JavaScript и сценарии.

я хотел бы использовать командную строку для загрузки заключительного результата HTML страницы, точно так же, как Google Chrome делает в моем примере. Получение содержимого HTML, которое отображается на странице, было бы полезно для автоматизации извлечения информации от веб-страниц для меня.

это возможный загрузить HTML страницы (не исходный код) использование wget или другие инструменты командной строки?

16
задан 5 March 2021 в 12:21

1 ответ

Так как у вас установлен Google Chrome , вы можете получить внутреннюю HTML-структуру веб-страницы, запустив в терминале:

google-chrome --headless --dump-dom 'URL' > ~/file.html

заменить URL с URL-адресом веб-страницы, которую вы хотите. HTML DOM страницы будет сохранена в файл с именем file.html в домашнем каталоге.

27
ответ дан 18 March 2021 в 23:29

Другие вопросы по тегам:

Похожие вопросы: