Robots.txt, WordPress и поисковые системы

Сначала немного теории. Итак, файл robots.txt служит для того, чтобы указать поисковым роботам какие страницы вашего блога можно индексировать, а какие нельзя. С помощью robots.txt можно избежать бана за дублирующий контент, исключив его из индекса, избежать взлома или хака много чего еще.
Конечно, существует еще мета тег robots:
<meta name="robots" content="noindex,nofollow" />
Однако, вовсе все поисковые роботы его "послушаются". Вполне возможно, что Яндекс или bing проиндексируют то, что вы хотели скрыть от посторонних глаз. Файл robots.txt в этом отношении универсальный. Можете быть уверены, что поисковый паук не полезет на те страницы, которые вы прикрыли от него.



Просто пропишите в файле robots.txt те страницы блога, которые индексировать нельзя:
User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: /category/*/*
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /*?
Allow: /wp-content/uploads/
Существует возможность создать правила только для определенных роботов. Пример:
User-agent: Googlebot-Image
Disallow:
Allow: /*
Это указание об индексации дано гугловскому роботу по картинкам. В ближайшее время у нас появится статьи о правильном использовании файла robots.txt в блоге на WordPress, а также список "User-agent" для разных поисковых систем, следите за обновлениями!

0 коммент.:

Отправить комментарий