Файл robots.txt – это файл, который ограничивает доступ поисковым роботам, к содержимому вашего блога или сайта на сервере, частично ограничивая индексацию страниц. Robots.txt – представляет собой текстовой файл с набором определенных инструкций для поисковых систем, с помощью которых можно и нужно запрещать индексацию некоторых каталогов и страниц блога, которые не должны индексироваться. Напомню что индексация – это процесс добавления информации о Вашем сайте или блоге в базу данных поисковой системы.
Все поисковые роботы при заходе на сайт или блог в первую очередь находят файл, отвечающий за индексацию веб – ресурса и, считывая определенные инструкции, после этого следуя инструкциям, прописанным в robots.txt, поисковые роботы добавляют информацию о разрешенных страницах в свою базу данных.
Например, если в файле robots.txt ничего не прописано или не запрещена индексация ненужных каталогов Вашего ресурса, может быть так, что проиндексированных страниц будет больше чем ваших постов и страниц с нужной информацией, заметьте именно с нужной информацией, ведь зачем в индексе поисковой системе должны быть ссылки на ненужные каталоги и страницы Вашего блога? В следствии ресурс может попасть под подозрение. Что бы этого не произошло, не ленимся и прописываем определенные инструкции в файле для запрета индексации ненужных страниц.
Чтобы создать файл robots.txt, нужен простой текстовый файл, который должен находиться в корне сайта, т.е. в http://адрес ресурса/robots.txt. Создаете файл, так же можно найти в интернете готовый файл, отредактируйте его под ваш ресурс и закачиваете по нужному адресу.
Приведу пример на моем файле. Вот инструкции (директивы), прописанные в моем файле:
User-agent – имя поискового робота, (*) – звездочка обозначает имя робота. Вместо звездочки можно написать определенное имя, например Yandex.
Disallow – запрет на индексацию, пишите / и добавляете страницу, которая не должна индексироваться.
Allow – разрешение на индексацию страницы.
Существуют еще такие директивы как Crawl-delay, Request-rate, Visit-time, они нам пока не нужны. В посте описаны только самые важные директивы, т.е. с помощью которых можно запрещать и разрешать индексацию страниц сайта или блога поисковым роботам. Например, можно полностью закрыть доступ к сайту и он не будет виден в поиске, если конечно Вы делаете приватный сайт и не нуждаетесь в том, что бы он был в ПС.
Так же, существует еще файл – Sitemap, который служит прямо противоположной цели, наоборот помогает роботам находить информацию о веб – ресурсе и облегчить доступ к содержимому, но об этом в другой статье.