Веб-очистка - это процесс извлечения конкретной информации из веб-сайтов, которые не предоставляют API или другие методы автоматического поиска данных. Вопросы о том, «Как начать работу со скребком» (например, с Excel VBA), должны быть * тщательно изучены *, поскольку доступны многочисленные примеры функционального кода. Методы очистки веб-страниц включают сторонние приложения, разработку специального программного обеспечения или даже стандартный сбор данных вручную.

Соскреб в сети (также известный как веб-сбор данных , веб-анализ или извлечение веб-данных ) программный метод для извлечения конкретной информации с веб-сайтов.

Программы сканирования веб-страниц имитируют исследование целевого веб-сайта человеком, либо реализуя низкоуровневый HTTP-клиент , запрашивая требуемые HTML-страницы с веб-сайта и извлекая нужные данные из этих страниц, поиск шаблонов в разметке HTML или встраивание полноценного веб-браузера.

Потенциальное использование включает в себя:

  • Получение сравнения цен на товары или акции для сравнения,

  • Очистка и сбор контактов адреса электронной почты,

  • Создание сайта или создание альтернативных внешних интерфейсов для существующего сайта,

  • Коллекция цен на недвижимость или продажи автомобилей статистика,

  • Обнаружение изменения веб-сайта

Практика веб-скрапинга вызвала много споров, поскольку условия использования или авторские права на некоторые веб-сайты и электронные публикации не позволяют определенные виды интеллектуального анализа данных. Хотя очистка веб-страниц сама по себе не является незаконной, могут возникать юридические проблемы, если они совершаются со злонамеренными или плагиатическими намерениями, для обхода системы покупки сайтов, оплаты подписки или других мошеннических или злонамеренных целей.

Были многочисленные случаи судебных исков и других судебных исков против компаний и частных лиц. Прежде чем пытаться извлечь какую-либо информацию с веб-сайта способом, потенциально противоречащим использованию сайта с отступами, важно проявить должную осмотрительность при ознакомлении с применимыми местными и международными законами, а также с условиями обслуживания сайта, авторскими правами, и торговые марки. Дальнейшее обсуждение правовых последствий можно найти в Интернете, включая Wikipedia , Hacker News и Laws.com .

Сканирование в Интернете является компонентом просмотра веб-страниц между несколькими сайтами, индексации информации в Интернете с помощью бота или «паука» и является универсальной техникой, принятой большинством поисковых систем при выполнении запросов на исключение, таких как опубликовал robots.txt файл на сайте.

В отличие от этого, веб-очистка больше фокусируется на преобразовании неструктурированных данных в Интернете, обычно из HTML в структурированную форму, которую можно легче хранить, обрабатывать и анализировать. используя такие инструменты, как база данных или электронная таблица.

Очистка экрана имеет аналогичную цель, но включает в себя программный сбор визуальных данных из источника (в отличие от анализа данных, как в веб-очистке) и первоначально включал чтение памяти терминалов или видеоданных путем подключения терминалов к входному порту другого компьютера.

чаще всего помечается вместе с:

(включая и )
(включая и )
(включая )
➡ < sup>
(включая )
Sup (включая )

(включая )


Заметка о правописании

Глагол пишется , чтобы скрести , или как настоящее причастие ] соскоб , и его не следует путать с с отходами или на слом , то есть отбрасывать то, что вам больше не нужно или не нужно, или не продолжать с планом.


Дополнительная литература: