Когда Ваш сайт или блог начинается со временем разрастаться, в плане количества страниц на нем, то перед вебмастерами становится проблема, с дубликатами страниц, то есть в индексе поисковых систем появляются дубликаты страниц. И тут сразу же, перед вебмастер может встать вопрос: как удалить эти самые страницы (дублированные) из поисковых систем. В данной статье мы и рассмотрим, как можно избавиться от дублей страниц в поисковых системах Яндекс и Google.
Почему опасны дубликаты страниц в поисковой выдачи?
Если по каким-то причинам, в индекс поисковой системы, попали дубликаты определенного поста, то это может служить вылетом из индекса всего поста или же занижение позиций для данного поста, в поисковой выдачи.
Также можно потерять внешний ссылки на сайт (страницы).
Причины для удаления дубликатов страниц из поисковой выдачи:
Поисковая система не правильно определяет
Определенные страницы, не были закрыты от поисковых роботов в файле robots.txt
Cтатьи потеряли актуальность или же просто устарели
На страницах содержится секретная информация и другое
Как удалить дублированную страницу из поисковой системы Яндекс и Google?
Для этого, мы рассмотрим, как минимум четыре способа.
Первый способ: при помощи файла robots.txt.
В данном файле, мы можем закрыть любую страницу от индексации, в том числе и просто текст. Поэтому, чтобы удалить страницу, необходимо в данном файле написать следующий текст:
Наверное, это самый простой метод, который предполагает просто удаление страницы на сайте, которая не должна находиться в индексе поисковой системы. Ошибка 404, будет показывать то, что материал, на который ведет определенная ссылка, просто не существует. Вам придется лишь дождаться того момента, когда поисковой робот зайдет на Ваш сайт или блог и исключит ее из поисковой выдачи. Но, если Ваш пост, уже был в поисковой выдачи, то его удаление вызовет 404 ошибку, а дубля контента тогда не возникнет.
Четвертый способ: ручное удаление страниц из поисковой выдачи
Для начала, необходимо в файле robots.txt, закрыть страницу от поисковых роботов или же meta-тегом, как говорилось выше, и зайти в панель вебмастера, для удаления страницы, Вам придется указать лишь ее адрес:
как присвоить странице код 404? так и не написали.
User-Agent:*
Disallow:/адрес_вашей_страницы.html
Если в robots.txt вписать страницу с русскими буквами в URL то Проверка покажет, что «Возможно, был использован недопустимый символ» и соответственно ничего у нас не прокатит данным методом. Еще варианты?
А зачем ей присваивать такой код? 404, ее нужно удалить и адресу данной страницы присвоится автоматически код 404, страницы такой просто не будет существовать
а если просто кидает при переходе по ее URL на страницу категории и не выводит код ошибки? а такой страницы в реале нету?
Единственный вариант пока что могу сделать с такой не существующей страницей — прописать редирект 301 на похожий товар либо на главную и надеяться что гугл за месяц 2 удалит этот URL а я хочу это сделать сейчас. Но не знаю как.
Было бы это так просто, я бы тут не спрашивал.
Там нужно выполнить одно из 2-х условий.
Либо 404 либо robots.txt.
по поводу последнего обьяснил, что URL имеет русские буквы, поэтому его в robots.txt прописать нельзя.
Остается 404. Но как это сделать если URL не распознается как ошибка а открывается просто категория?
Можно только 301 редирект замутить.
как присвоить странице код 404? так и не написали.
User-Agent:*
Disallow:/адрес_вашей_страницы.html
Если в robots.txt вписать страницу с русскими буквами в URL то Проверка покажет, что «Возможно, был использован недопустимый символ» и соответственно ничего у нас не прокатит данным методом. Еще варианты?
А зачем ей присваивать такой код? 404, ее нужно удалить и адресу данной страницы присвоится автоматически код 404, страницы такой просто не будет существовать
а если просто кидает при переходе по ее URL на страницу категории и не выводит код ошибки? а такой страницы в реале нету?
Единственный вариант пока что могу сделать с такой не существующей страницей — прописать редирект 301 на похожий товар либо на главную и надеяться что гугл за месяц 2 удалит этот URL а я хочу это сделать сейчас. Но не знаю как.
Через гугл вебмастер можно удалить страницу из индекса
Было бы это так просто, я бы тут не спрашивал.
Там нужно выполнить одно из 2-х условий.
Либо 404 либо robots.txt.
по поводу последнего обьяснил, что URL имеет русские буквы, поэтому его в robots.txt прописать нельзя.
Остается 404. Но как это сделать если URL не распознается как ошибка а открывается просто категория?
Можно только 301 редирект замутить.
еще вариант 410 редирект. Но страницу нужно с ошибкой настраивать + додумается ли гугл удалить такой URL и когда? или лучше все таки 301?