Привет еще раз дорогие друзья! Сегодня мы поговорим о том, как можно узнать имеет доступ поисковой робот к страницам Вашего ресурса. Другие словами имеет ли он права на доступ к страницам сайта (может ли он индексировать Ваши страницы и затем показывать их в поисковой выдаче).
Запрещать некоторые страницы к индексированию можно по разным причинам: например, для того чтобы избежать дублированного контента и другие причины.
Самый верный вариант для запрета индексации поисковыми системами – это файл robots.txt. Но не забывайте то, что ограничивать доступ можно также и при помощи файла htaccess, а также различных мета-тегов, например noindex.
Бывает такое, что некоторые пользователи, когда составляют файл robots.txt, то они не до конца уверены в своих силах, а именно, они не уверены, что запретили доступ к нужным страницам сайта и наоборот. Чтобы решить данную проблему, нам необходимо анализировать сайт, как боты поисковых систем.
Анализ файла robots.txt в поисковой системе Яндекс
Для этих целей Вам необходимо воспользоваться в вебмастере Яндекс –
Тут все понятно. Необходимо указать хост, на котором располагается файл, затем нажать на кнопку Загрузить и добавить список URL для проверки (разрешены ли они для индексации или же нет). То есть, Вы сможете убедиться: правильно ли обрабатываются все нужные директивы файла, а также узнать разрешены для индексации необходимые страницы или же наоборот.
Посмотреть как видит сайт GoogleBot
Чтобы узнать, разрешены ли для индексации страницы Вашего сайта в поисковой системе Google, нам необходимо воспользоваться похожим сервисов в
Не забывайте также о том, что существует ограничение на просмотр страниц (не более 500 страниц каждые 10 дней). После того, как Вы запросите результат, Вам покажет либо URL разрешен для индексирования (Успешно), либо же нет (запрещен в файле robots.txt).
Также имеется отличная функция, если страница была некоторое время запрещена для индексирования, а затем разрешена, то для ускорения ее индексации можете нажать на кнопку Отправить в индекс. При нажатии на ссылку Запрещено в файле robots.txt или Успешно, то Вы сможете увидеть свою страницу, как ее видит бот от Google (время загрузки страницы, код ответа, различные заголовки и так далее). И не забывайте о том, что вебмастера могут выбирать тип поискового робота, по умолчанию он – ВЕБ, а имеются также:
- Веб
- Для мобильных устройств: XHTML/WML
- Для мобильных устройств: cHTML
- Mobile: Smartphone
Вот примерно такая статья у нас получилась. Теперь Вы с легкостью можете проверить, доступны ли у Вас для индексации страницы или же нет. Это очень важно, ведь поисковые системы могут часто не получать доступ к Вашему сайту или отдельным страницам, а эту проблему стоит устранить как можно быстрее.
Также советуем почитать на PressDev.RU
Короткая ссылка: http://pressdev.ru/?p=3644