На данный момент на всех моих русскоязычных сайтах стоит следующий robots.txt:
[plain]
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /comments
Disallow: */comments
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Host: tovaroved.info
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /comments
Disallow: */comments
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Sitemap: http://www.vebius.ru/sitemap.xml
[/plain]
На мой взгляд это оптимальный robots.txt на данный момент. Он учитывает все возможные варианты, например то, что плагины могут подгружать свои JS-скрипты и CSS-файлы из папки /wp-content/plugins которые тоже необходимо индексировать поисковикам, чтобы верно определять, оптимизирован ли сайт под мобильные устройства.
Также поисковым роботам запрещается индексировать любые страницы с GET-параметрами, так называемые “вопросики”. Я всегда использую ЧПУ, поэтому на моих сайтах не может быть страниц с параметрами, за исключением тех, что WP создает сам, например страниц с параметрами replytocom, которых одно время у меня было сотни в индексе поисковиков!