Python Scrapy без брызг

Я пытаюсь очистить веб-сайт, который использует AJAX-запрос для отображения контента.

Я пытался смоделировать вызов AJAX, но он использует разные маркеры в своем cookie каждый раз, когда отправляет запрос, поэтому я получаю ошибку «500» и не могу получить доступ к серверу.

Итак, я выбрал второй вариант (т.е. очистку веб-сайта с помощью заставки), установил его с помощью докера и запускаю на порту 8050.

В http://localhost:8050 у меня есть тест render.html консоль. Я пишу адрес сайта, и когда он должен показывать весь контент (включая тот, что производится с помощью AJAX), он этого не делает!

Я попробовал это в своем проекте с кодами и промежуточным ПО, и все правильно, но это не работает!

Любая помощь будет оценена.

B.t.w .: адрес, который я пытаюсь почистить: http://lastsecond.ir/tours/

1
задан 3 December 2017 в 12:39

1 ответ

Если вы хотите, чтобы это был python, вы можете использовать pygi или pyqt с полной версией в веб-браузерах. Затем введите произвольный JS на странице или проанализируйте дом, как вы предпочитаете. Это полнофункциональный браузер, поэтому он тяжелее некоторых фреймворков - он работает, хотя, если вы не пытаетесь анализировать перезаписи DOM на чем-то, что использует теневой DOM.

0
ответ дан 3 December 2017 в 12:39

Другие вопросы по тегам:

Похожие вопросы: