Классификация запросов на «информационные» и «коммерческие»

Классификация запросов на «информационные» и «коммерческие»
Летом прошлого года я уже писал о том, как можно определить «коммерческость» запросов, в основе метода была идея – чем больше в топ-10 коммерческих сайтов, тем более коммерческим является запрос. Для проверки является ли сайт коммерческим использовались данные из Яндекс.Бара и Яндекс.Справочника. Данный метод имел сразу несколько недостатков: во-первых оценка происходила на уровне сайта, а не конкретной страницы, таким образом не учитывалось, что на коммерческом сайте может быть информационный документ; во-вторых были проблемы с точностью и полнотой данных – не все коммерческие сайты добавлены в Яндекс.Справочник, а также не все сайты размещенные там являются коммерческими. В последнее время методика определения коммерческих запросов была мной доработана, об этом я рассказывал на онлайн-конференциях MegaIndex и SmartFox, теперь пришло время собрать всю информацию воедино в блоге.   Основная идея осталось прежней – оценить сколько результатов в топ-10 отдано под коммерческие документы, а сколько под информационные. При этом считаем, что:  Коммерческий документ – продает товары и/или услуги конкретного бизнеса, стоящего за сайтом; Информационный документ – ничего не продает, или рекламирует товар стороннего бизнеса.  Сама классификация достаточно спорна, поэтому поясню, что к чему: Если в топе сидит сайт конкретного интернет-магазина с карточкой товара, или строительной фирмы с прайс-листом на услуги, то все просто – это коммерческий документ. Если в топе страница блога, в которой рассказывается как что-то сделать своими руками, при этом никакой информацию о том, что можно купить/заказать товар или услугу – это информационный документ. Однако очень часто в топе можно встретить сайты агрегаторы (zoon.ru), доски объявлений (avito.ru), торговые площадки (market.yandex.ru) и встает вопрос – считать ли их коммерческими? На мой взгляд, если вы продвигаете сайт конкретного бизнеса, то выше описанные типы сайтов стоит относить к информационным. Мысль здесь следующая – если по запросу [q] в топ-10 нет ни одного сайта конкретного бизнеса, то не важно – там блоги и форумы, или доски и агрегаторы, скорее всего сайт конкретного бизнеса в топ-10 вывести не получится. Что оценивать Для того, чтобы понять является ли документ коммерческим, или информационным я предлагаю оценивать следующий набор признаков:  Домен – на мой взгляд удачной практикой будет создание «белых списков», в которые можно занести отдельные домены, чтобы не тратить время на их оценку. Например, все страницы сайта wikipedia.org считать информационными. Маркеры в URL – отдельные фрагменты адресов страниц также можно использовать для оценки, например если в URL встречается «topic», «showforum», «obzor» и т.п, то можно считать данный документ информационным. Анализ контента: наличие на сайте контекстной и/или тизерной рекламы – информационный документ. Сюда также можно отнести наличие ссылки на страницу «Реклама на сайте». Анализ контента: наличие кнопки «Купить», «Заказать», «Корзина» — коммерческий документ; Анализ контента: наличие ссылки на страницу «Прайс», «Цены», «Наши услуги» — коммерческий документ; Осторожно можно учитывать: наличие прямого городского номера телефона, наличие онлайн-консультанта – как свойства коммерческого документа.  Как оценивать семантическое ядро Подразумевается, что семантическое ядро уже есть и по нему вы собрали топ-10 результатов поиска. Если делать выгрузку при помощи Key Collector, то результат имеет вид:  Для примера я решил разобрать семантическое ядро в тематике «пластическая хирургия». Очевидно, что в этой тематике будут как информационные, так и коммерческие запросы. Примерно для 2000 запросов вышло около 9000 уникальных URL, которые встретились в топ-10. Для ускорения процесса оценки имеет смысл сначала проверять быстрые признаки – это фрагменты URL и домены. Проще всего это делать средствами Notepad++, использую поиск по регулярному выражению с чекбоксом «Помечать Закладкой»:  В моем случае, благодаря предварительной фильтрации удалось сразу пометить около 2000 URL. Таким образом получается два списка, первый – страницы, которые определены как информационные, второй – страницы для которых необходимо проверить контент. Анализ содержимого страниц я проводил средствами ZennoPoster, но можно использовать любое другое программное обеспечение, или собственный скрипт. Важный момент, на которой стоит обратить внимание – лучше анализировать не голый HTML, а DOM. На выходе получается таблица, где для каждого URL указано наличие, или отсутствие тех, или иных свойств. Интерпретация результатов – отдельная, не простая задача. Например, если на странице есть контекстная реклама, то данный документ можно не глядя отнести к информационным. С другой стороны, если есть кнопка «Купить» и «Корзина», то документ с большой долей вероятности отнести в группу коммерческих. Однако простое наличие онлайн консультанта, или ссылки на раздел с ценами/услугами может быть не достаточно надёжным признаком коммерческого документа, поэтому имеет смысл опираться на несколько признаков. Вывод: без глаза-алмаза никуда ?? В результате всех этих манипуляций получается Excel таблица, где в первой колонке находится URL, а во второй 0, или 1, в зависимости от того, является ли данный URL информационным, или коммерческим. Когда имеется оценка для каждого URL из топ-10, то можно получить оценку и для самого запроса, просуммировав значения и разделив полученное число на 10. Реализуется все средствами Excel, расписывать долго, если не умеете сделать сами, пишите в комментариях, я скину пример вам на почту. Предлагаю ознакомиться с результат работы в тематике «пластическая хирургия», в колонке A запрос, в колонке B топ-10 в Московской выдачи Яндекса, колонка C – оценка конкретного URL (1 – коммерческий, 0 – не коммерческий). Колонка E – запрос, колонка F – оценка того, на сколько данный запрос является коммерческим, G – геозависимость запроса (для наглядности). Буду рад ответить на вопросы и подписывайтесь на мой канал на YouTube ??
<!—more—>