robots.txt для WordPress.


Если вы задумались о создании служебного файла robots.txt для WordPress, то вы на верном пути. Для чего нужен этот файл? Главная его функция – это управление индексацией сайта посредством передачи директив поисковым системам касательно того, что можно включать в индекс, а что нет. Это первый файл, к которому обращаются поисковые системы, когда они посещают ваш сайт. Если вы не хотите, чтобы поисковики проиндексировали какие-то страницы и разделы, то вам обязательно нужно создать такой текстовый файл и поместить его в корень вашего сайта на WordPress. Убедитесь также, что на файл robots.txt назначены права, позволяющие читать его.

Давайте рассмотрим типичный файл robots.txt. Вот пример для моего сайта:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /page/
Disallow: /wp-content/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /tag/
 
User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /page/
Disallow: /wp-content/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /tag/
Host: poleshuk.ru

Как видите, файл состоит из нескольких блоков, однако, это вовсе не означает, что он может быть точно таким же для вашего сайта. Данный пример является типичным для большинства сайтов на WordPress.

Первая строка User-agent: * означает, что все последующие инструкции в данном блоке относятся ко всем поисковым системам (* означает для всех). Вы также можете заметить, что во втором блоке мы дублируем директивы для Яндекса, так как в конце данного блока мы добавляем строку, указывающую на главное «зеркало» нашего сайта:

Host: poleshuk.ru

Таким образом, мы говорим о том, что нужно индексировать сайт по адресу без www. Обратите внимание, что блоки разделяются пустой строкой.

Такая инструкция применяется только для Яндекса.

Все остальные строки, включающие служебное слово Disallow, содержат разделы и страницы, которые мы не хотим позволять поисковикам индексировать. Как видите, это малоинформативные и служебные разделы, а также разделы, которые создают дублирование контента (например, страницы тегов и т.п.)

Если вы не хотите, чтобы ваш сайт индексировался поисковиками, то вам нужно в robots.txt добавить всего две строчки:

User-agent: *
Disallow: *

По желанию, вы можете добавить в данный файл адрес карты вашего сайта в xml. Сделать это можно таким образом:

Sitemap: http://poleshuk.ru/sitemap.xml

Сервис Яндекс.Вебмастер содержит полезный инструмент для проверки корректности вашего файла robots.txt — http://webmaster.yandex.ua/site/robots.xml

Если какие-либо строки окажутся неверными с точки зрения синтаксиса или будут не понятны поисковой машине, то они будут подсвечены красным цветом.

Также вы можете указать какую-либо страницу и проверить, разрешена ли она для индексации или нет.

Заметьте, что проверка осуществляется только тех директив, которые касаются Яндекса.

Для работы с Google используйте сервис «Инструменты для веб-мастеров», в котором вы сможете найти раздел «Заблокированный URL».





Другие посты

Категория: WordPress

Оставить комментарий