Эксперимент: как поисковые системы учитывают meta name robots

Эксперимент: как поисковые системы учитывают meta name robots
Сегодня я хочу поделиться с вами результатами небольшого эксперимента, целью которого было выяснить, как поисковые системы Яндекс и Google учитывают содержание meta тега robots.   Я думаю, многие из вас встречали «продвинутые» рекомендации по использованию этого тега. Например, часто SEO-гуру советуют исключать из индекса поисковых систем все страницы пагинации кроме главной, при помощи:  <meta name = «robots» content = «noindex, follow»/>  В теории такая директива должна не допустить индексацию страницы, но при этом поисковый робот должен перейти по всем ссылкам и проиндексировать документы с бОльшим уровнем вложенности. Однако на практике такая схема не работает. Описание эксперимента Был создан новый сайт из 9 страниц:  Главная страница; Четыре страницы 2 уровня вложенности; Четыре страницы 3 уровня вложенности;  С каждой страницы 2 уровня вложенности стояла ссылка на страницу 3 уровня вложенности, отличие по УВ2 были только в директивах указанных в meta теге robots:  Страница 1: <meta name = «robots» content = «noindex, nofollow»/> Страница 2: <meta name = «robots» content = «noindex, follow»/> Страница 3: <meta name = «robots» content = «index, nofollow»/> Страница 4: <meta name = «robots» content = «index, follow»/>  У всех страницы 3 уровня вложенности было указано <meta name = «robots» content = «index, follow»/>. Также на этих страниц был размещен уникальный контент. Наглядная схема структуры сайта:  Результат эксперимента На индексацию в Яндекс и Google была отправлена главная страница сайта. С момента индексации прошло уже больше месяца, имеем следующий результат:  По страницам с уровнем вложенности 2 всё ожидаемо: в индекс попали «Страница 3» (index, nofollow) и «Страница 4» (index, follow). По страницам с уровнем вложенности 3 – в индекс попала только страница «page04-1.html», на которую стояла ссылка со «Страница 4» (index, follow). Страница «page02-1.html», на которую стояла ссылка со «Страница 2» (noindex, follow) в индекс не попала.  Индексация в Яндекс:  Индексация в Google:  Вывод по результатам данного эксперимента, я думаю, очевиден – если вы хотите полноценной индексации сайта в Яндекс и Google, то от использования <meta name = «robots» content = «noindex, follow»/> лучше воздержаться. На этом всё, не забываем оставлять лайки и комментарии ?? Update от 18.12.2014: Сергей Кокшаров провел аналогичный эксперимент, у него получились результаты, которые отличаются от приведенных выше, рекомендую ознакомиться. Update от 05.01.2015: Сегодня заметил, что у моего эксперементального сайта увеличилось количество проиндексированных страниц, страница на которую вела ссылка с <meta name = «robots» content = «noindex, follow»/> тоже попала в индекс:  В Яндекс.Вебмастере по данному сайту не отобразилась информация об истории индексирования, но зато есть исторические данные по загруженным страницам:  Судя по скриншоту робот Яндекса добрался до целевой страницы только 29 декабря. Отдельно стоит обратить внимание, что несмотря на индексацию страницы, она все равно не ищется по анкору входящей ссылки по уникальному слову:  В аналогичном случае при <meta name = «robots» content = «index, follow»/> четвертая страница ищется по уникальному слову:  В сухом остатке при использовании <meta name = «robots» content = «noindex, follow»/> имеем замедленную индексацию «глубинных» страниц и не учет анкоров внутренних ссылок.
<!—more—>