Пишем robots.txt
Вчера на меня снизошло озарение. Я написала файл robots.txt к SEOблондинке.
Долго думала и собиралась с мыслями. Очевидная необходимость наступила, когда увидела в Панели вебмастера Яндекса, что на SEOблондинке копятся ошибки, которые выдает робот при индексировании сайта.
Где-то прочитала, что если при индексации сайта будет много ошибок, то это тоже может стать причиной бана сайта Яндексом. С той логики, что робот не может корректно проиндексировать сайт.
Правда это или нет, я не знаю, честно говоря не было желания проверять. Да и меня саму бесили эти ошибки. И вот вчера, основательно полазив по той же самой панели Вебмастера Яндекса, нашла там интересный тестер этого самого файла robots.txt.
В верхнее поле вводишь условия, какие планируешь прописать в robots.txt, в нижнее – ставишь ссылочки. Нажимаешь “Проверить” и смотришь, всё ли индексируется так, как тебе нужно.
Я поступила следующим образом. Скопировала ссылки на ошибки индексации, это оказались ссылки типа:
http://www.seoblondinka.ru/ wp-trackback.php?p*
http://www.seoblondinka.ru/ wp-includes/***.xml
http://www.seoblondinka.ru/ ?cat*
http://www.seoblondinka.ru/ ?tag*
http://www.seoblondinka.ru/ ?paged*
http://www.seoblondinka.ru/ ?page_id*
http://www.seoblondinka.ru/ ?p*
http://www.seoblondinka.ru/?m*
http://www.seoblondinka.ru/ ?feed=rss2
http://www.seoblondinka.ru/ ***/trackback/
http://www.seoblondinka.ru/ xmlrpc.php?rsd
И сделала файл с таким текстом:
User-agent: Yandex
Disallow: /wp-*
Disallow: /?*
Disallow: /*/trackback/
Disallow: /xmlrpc.php?rsd
Sitemap: http://www.seoblondinka.ru/ sitemap.xml.gz
Проверила. Вроде всё нормально. То, что нужно, чтобы индексировалось – робот Яндекса видит. То, что что не нужно – не видит. Залила файл на сайт. Теперь жду переиндексации. Робот заходил ко мне недавно, два дня назад. Поэтому подождать придется какое то время, но это уже мелочи.
На следующие сайты буду сразу делать файл robots.txt. Не такой большой, конечно.
В случае с SEOблондинкой большая часть неправильно проиндексированных ссылок (те, что выделены зеленым), образовалась из-за поздно включенного ЧПУ.
Кстати, забыла сказать, вдруг кто соберется скопировать мой вариант файла. Если у Вас ЧПУ НЕ включено, не копируйте себе ссылки, выделенные зеленым!!! А то вы попросту запретите весь свой сайт к индексации. О_о
Это мне уж так пришлось с файлом извращаться, после двух попыток включения ЧПУ.
2leep.comВедёте блог? Зайдите по ссылке: ShowBlogs.ru – социальная сеть для блоггеров!
Почитать еще записи на тему SEO, продвижения сайтов и ведения блога:
Метки: permalinks, robots.txt, блог, Индексация сайта, панель Вебмастера в Яндексе, постоянные ссылки, ЧПУ, Яндекс

14 Декабрь 2008 в 0:22
Судя по коду, твой robot.txt направлен только на Яндекс. Почему такой выбор? Роботы других поисковиков не интересуют твой блог?
14 Декабрь 2008 в 14:33
SeoEvgeny, совершенно верно, только на Яндекс. В Гугле вроде не наблюдаю ошибок индексации, а остальные поисковики меня мало интересуют. Хотя, возможно, я по незнанию ошибаюсь, не придавая значения остальным.
Это мой первый опыт по написанию robots.txt. Что волновало, то и попыталась учесть. Если знаете более корректный вариант, я с удовольствием выслушаю Ваши рекомендации.
Также спасибо, что зашли и прокомментировали.
26 Декабрь 2008 в 1:01
Замечу, что любая НЕиндексация сайта дает ошибки. Нужно различать лшибки поисковиков “серьезные”, “ошибки-замечания не соответствия принятым нормам”. Например, нет карты сайта – ошибка (вовсе нет, она не обязательна, все и без нее индексируется, кстати, карта не ускоряет, а гарантирует полную индексацию). Запретили что-то в роботе – ошибка; но это всего лишь сообщение поисковика, что индексироваться что-то не будет, вот и всё.
Вот мой:
Sitemap: http://isle-blog.ru/sitemap.xml
# Запрет индексации адресов страниц, файлов и папок следующими роботами
User-agent: *
# Запрет индексации адресов страниц, где есть символы: ? ; & = : ,
Disallow: /search.html*
Disallow: /wp-login.php
Disallow: /*?
Disallow: /*&
Disallow: /*=
Disallow: /*%
# Запрет индексации адресов страниц с расширением: .php, .tpl
Disallow: /*.php$
Disallow: /*.tpl$
# Запрет индексации директорий сайта
Disallow: /tag/
Disallow: /widgets/
Disallow: /profile/
Disallow: /cgi-bin/
Disallow: /wp-includes/
Disallow: /wp-content/
Disallow: /wp-admin/
Disallow: /setlinks_bf9f5/
Disallow: /17399b923efdab48fc8bc55b738caeeb9e29e38d/
Disallow: /date/
Disallow: /plugins/
Disallow: /print/
Disallow: /*/trackback/
Disallow:
# Разрешить индексацию страниц для AdSense
User-agent: Mediapartners-Google*
=======================
Вместо этого:
http://www.seoblondinka.ru/?cat*
http://www.seoblondinka.ru/?tag*
http://www.seoblondinka.ru/?paged*
http://www.seoblondinka.ru/?page_id*
http://www.seoblondinka.ru/?p*
http://www.seoblondinka.ru/?m*
Достаточно это:
Disallow: /*?
Это запрет индексации любого урла, в котором есть символ “?”.
П.С. Роботов лучше не указывать, если это правило не относится к конкретному роботу.
6 Январь 2009 в 23:39
Добрый вечер!
А я пока не занимался файлом роботов.
Хотя, чувствую, придётся.
Кстати, неплохой робот-файл и описание выложил Богдан (Профитхантер).
Что я подметил лично по себе – всего сразу не ухватишь. Особенно, если первый месяц личный блог завёл. Больше настроек, чем статей. На рабочем блоге – проще, там всё настроено, строчи себе да строчи. А в своём – то это не нравится, то это не углядел – в общем, расстройство одно.
С другой стороны, 2 недели искал, как делать директории, чтобы отображались на отдельных страницах – нашёл, частично уже осилил. Так что потеря времени иногда приносит и хороший результат.
Желаю всем вам хорошего нового года, удачи и осуществления самых важных желаний!
6 Январь 2009 в 23:55
ChinaTrader, да всё совершенно точно, как вы написали – больше настроек, чем статей. Прямо в точку!
Потом как начала узнавать-узнавать, так прямо расстраиваться стала даже.. Столько нового каждый день, и ловлю себя на том, что не столько в блог пишу, сколько блог переделываю
))
Я в первую неделю пока ничего не знала – мне казалось всё так просто
Спасибо за пожелания!
Вам всего самого доброго и светлого в наступившем году! И здоровья! ИМХО это самое важное!
10 Февраль 2009 в 1:42
Зайва Игорь Леонидович, а не страшно папки линкфида и сетлинкса светить? Там вроде разрешения 777, а злобных дядек хацкеров полно в нете…
Есть другой способ не пускать туда ботов, а заодно и других посторонних граждан – в .htaccess добавить строчку:
Options -Indexes
16 Февраль 2009 в 1:03
Эх, kutyumov, мне уже ничего не страшно…
Да и рекламку давно в сети давал, кто хочет, пусть предлагают способы “сеошного” слома… Тупые варианты, типа: а давайте сотрем всё с фтп в топку… да и проверил как-то одним сервисом – вирус пишет… ??? на фтп его не нашел… Кстати, очень многие блоги вирусованы, если верить пингаторам на подозрительные яваскрипты и скрытые фреймы… может, это счетчики ?
16 Февраль 2009 в 1:05
Блин, забыл дописать… Что касается робот.тхт, то его чуть ли не любой совтинкой/счетчиком вытащить можно (например, пр-су), да и просто тупо набрать в адресной строке…
29 Апрель 2009 в 14:51
Ну с запретом индексации ? и не включенным ЧПУ это конечно не прикольно вышло. А так более менее грамотно