robots.txt - список вопросов Ubuntu (Убунту) и Linux

Robots.txt (Протокол Исключения Роботов) является текстовым файлом, помещенным в корень домена веб-сайта для предоставления инструкций совместимым поисковым роботам (таким как поисковые роботы поисковой системы) о какой страницы проверить и не проверить, а также другая информация, такая как местоположение Карты сайта. В современных платформах может быть полезно программно генерировать файл. Общие вопросы об Оптимизации поисковой системы являются более соответствующими на Веб-мастерах сайт StackExchange.

Владельцы Website используют файл /robots.txt для предоставления инструкций об их сайте к поисковым роботам; это называют Протоколом Исключения Роботов.

Это работает, любит это: робот хочет к посещениям URL веб-сайта, скажите http://www.example.com/welcome.html. Прежде чем это сделает так, это проверки первых на http://www.example.com/robots.txt, и найдет:

User-agent: * Disallow: /

"User-agent: *" средство этот раздел относится ко всем роботам. "Disallow: /" говорит роботу, что он не должен посещать страницы на сайте.

Существует два важных фактора при использовании /robots.txt:

роботы могут проигнорировать Ваш /robots.txt. Особенно вредоносные роботы, которые сканируют сеть для уязвимостей системы обеспечения безопасности и комбайны адреса электронной почты, используемые спаммерами, не уделят внимания.
файл /robots.txt является общедоступным файлом. Любой видит, какие разделы Вашего сервера Вы не хотите, чтобы роботы использовали, не пытайтесь использовать /robots.txt для сокрытия информации.

Больше информации может быть найдено по http://www.robotstxt.org/.