Россия+7 (495) 960-65-87

Автоматический геотаггинг российских веб-сайтов

Россия+7 (495) 960-65-87
Шрифт:
1 3149

Данная статья рассматривает быстрый, несложный и эффективный способ группировки по географическому признаку большого количества имеющихся в базе данных поисковой системы веб-ресурсов. Согласно данному способу во внимание принимается данные IP-адресов, доменные имена, индекс и код города. Новизна подхода состоит в возможности определения местонахождения по IP-данным (location-by-IP data) и анализа доменного имени. Этот метод предполагает использование инфраструктуры поисковой системы, что позволяет соотносить множество данных, имеющихся в базе с географическим показателем. Эксперимент был проведен над индексом поисковой системы Яндекс, результаты подтвердили эффективность данного метода.

Общие термины
Алгоритмы, дизайн, эксперимент, верификация.
Ключевые слова
Geotagging, географический поиск (GIR)

Введение

Поисковая система Яндекс индексирует все русскоязычные информационные источники, в том числе расположенные на доменах постсоветских стран. Сейчас в базе Яндекс находится более 600 млн. страниц больше, чем с 25 млн. сайтов, из которых почти 95% принадлежит России. Активная интернет-деятельность наблюдается пока только в крупных городах (Москва, Санкт-Петербург), но его стабильное популяризация ведется по всей России и странам СНГ, главным образом в отдаленных регионах. Данный факт значительно увеличивает важность и необходимость географического поиска для поисковой системы.

Вопрос частично находит свое решение в ручном редактировании каталога (http://yaca.yandex.ru). В настоящее время в каталог входит около 87 000 элементов, с прописанными вручную географическими данными; приблизительно у 48 000 элементов присутствуют идентифицирующие реквизиты российских городов. Географический реквизит составляют несколько семантических категорий места нахождения:

•место нахождения провайдера (физический адрес владельца источника);
•место нахождения контента (по географическим составляющим контента);
•территория обслуживания (на какой территории распространены сервисы веб-источника).

Прописанные вручную показатели могут передаваться субдоменам и индивидуальным страницам сайта, это не распространяется только на специфические домены (бесплатные хостинги и публичные домены). Около 140 000 российских сайтов получили географическую маркировку благодаря такой возможности (extended manual classification, EMC). Однако для комплексного исследования автоматических методов географической маркировки проиндексированных сайтов одной базы данных Яндекса недостаточно. EMC используется как верификационный набор для методов, рассматриваемых далее.

Согласно исследуемой области был определен прагматичный подход: методы должны быть эффективными, целесообразными, применимыми для максимального объема доступных данных.

1. Данные и Методы

В литературе можно найти много различных методов по использованию IP-данных о месте нахождения, доменных именах, контенте сайта (ссылки на информацию о расположении, например названия городов, телефонные коды городов, почтовые индексы) в геотаггинге (geotagging). Суть настоящего подхода заключается в наиболее эффективном сочетании множества источников географической информации.

Для регистрации городов было разработано два метода, основывающихся на:
•контенте сайта
•данных сайта (доменное имя, IP- адрес).

Рабочий процесс будет предполагать сочетание этих методов, как показано на Рис.1. Рассчитанные EMC точные (P) и выборочные (R) значения деклассифицированных сайтов, будут представлены для каждого этапа классификации. Пунктирные линии указывают на то, что результаты классификации объединены с исходными данными для последующего процесса, т.о. результаты классификации складываются в процессе работы.

1.Классификатор контент-анализа (CBC). Данный метод предполагает использование не оригинальных документов, а лишь их представления в поисковом индексе. Это не позволяет получить точный адрес страницы, зато увеличивает эффективность работы алгоритма. Были скомпилированы списки почтовых индексов 12 000 географических пунктов России [3] и телефонных кодов 2 000 городов [1] с названиями городов. Разработано два образца запросов. Первый предполагает поиск веб-страницы по почтовому индексу и по названию. Второй - по коду города, названию, элементам адреса (улица, номер телефона). Если с сайта получены некоторые из этих данных, значит, большинство из них относятся к одному и тому же географическому пункту.

2.Классификатор доменных имен (DLC). Данный метод предполагает анализ доменных имен. Во-первых, доменное имя, отражающее транслитерированное название города служит индикатором принадлежности сайта данному городу. Анализ исходных данных позволяет определить «хорошие» варианты транслитерации, например, сайты города Тверь: tver.eparhia.ru, tver.marketcenter.ru, http://www.tver.ru/ www.tver.ru. Во-вторых, это специфичные доменные имена, обычно являются аббревиатурами или уменьшительными названиями городов, например, nsk – Новосибирск, dolgopa – Долгопрудный. Если большинство известных сайтов имеют в доменном имени одинаковое название города, такой домен можно назвать «хорошим».

3.Классификатор иерархии доменного имени (DNHC). Суть метода в определении «хороших» городских доменов, сабдомены, которых могут относиться к тому же городу, например, spb.ru и omskcity.com (Санкт Петербург, Омск). Следует отметить, что DNHC используется дважды (Рис.1).

4.IP-данные о месте нахождения (Loc-by-IP). Предполагается использование внутренней базы данных IPREG, объединяющей IP-адреса хостов с соответствующими географическими пунктами. IPREG скомпилирована из различных регистрационных записей в Интернете. В IPREG собраны только «хорошие» блоки IP адресов.

5.Классификатор IP блоков (IP-blocks). Часто городским сайтам предоставляют хостинг местные провайдеры, которые не всегда состоят в IPREG или подобных базах данных. Поэтому, сайты, принадлежащие одному городу, образуют в адресном пространстве обширные блоки (блоки IP-адресов). Данный метод основан на определение «хороших» обширных блоков, тех в которых большинство известных сайтов принадлежат одному городу.

По данной схеме рабочего процесса можно сопоставить около 1,3 млн. российских сайтов из 2 млн. представленных в базе данных Яндекса.

2. Вычисление

О работе алгоритма с «хорошими» и качественными сайтами можно судить по данным EMC. Для проверки работы алгоритма в напряженных условиях был составлен набор тестовых программ. Методом случайной выборки был составлен список из 1200 сайтов, не больше чем по одному на домен второго уровня. Все сайты данного списка были автоматически промаркированы по городам или отнесены к «нулевому региону» (если город не был определен алгоритмом). Список был передан редакторам каталога Яндекса для ручного тегирования.

Полученные после этого данные позволят разделить набор тестовых программ на три категории:
•локальные сайты;
•«хорошие» сайты, не «замусоренные» (без дорвеев, полностью доработанные, актуальные);
•полное множество сайтов.

Результаты анализа алгоритма для всех этих категорий представлены в Таблице1. В первой колонке находится подмножество локальных сайтов (1). Во второй и третьей колонках автоматически определенный нулевой тег был интерпретирован как «без гео категории». Спорным остается вопрос о критерии дифференциации локальных, глобальных и ненужных сайтов; «нулевой регион» также говорит о том, что использованный метод по определению города оказался неуспешным. В итоге точные (Р) и выборочные(R) значения в данном случае остались практически без изменений.

Таблица 1. Результаты вычислений

  Локальные сайты Локальные + нелокальные сайты Вся выборка (+ ‘мусор’)
число сайтов 72310481200
точные 0,9170,7220,688
выборочные 0,751 0,6960,667
F1 0,8260,7090,677

Заключение

В этой статье мы рассмотрели возможные пути решения вопроса о геотаггировании сайтов. Методы предполагают использование большого количества источников информации, таких как IP-данные о месте нахождения, доменные имена, а также информация по контенту: прямой поиск почтового индекса и кода региона на страницах сайта. Методы функционируют в рамках инфраструктуры поисковой системы, стабильно и качественно соотносят данные поисковика с географическими данными.

Новый подход был разработан для предоставления возможности определить географическое положение сайта по контент-данным в совокупности с IP-адресом. Эта методика геотагирования представляется более точной, по сравнению с традиционными методами, основанными на анализе регистрационных данных в Интернете. Следует отметить заслугу данной методики за значительный вклад в полный анализ доменных имен.

Проделанные вычисления подтверждают приемлемость подхода в интернет-индустрии. Однако, согласно тем же вычислениям, основной трудностью подхода остается определение критериев отличия локальных сайтов от глобальных или национальных. Этот вопрос будет решен в ближайшей перспективе: планируется разработать классификатор сайтов, который будет работать без учета географического контекста.

Авторами доклада выступили специалисты компании Яндекс:
Михаил Маслов – руководитель отдела разработки поисковых сервисов
Алексей Пяллинг – разработчик
Павел Браславский – менеджер проектов отдела веб-поиска .

(Голосов: 5, Рейтинг: 5)
Читайте нас в Telegram - digital_bar

Есть о чем рассказать? Тогда присылайте свои материалы Даше Калинской


Новые 
Новые
Лучшие
Старые
Сообщество
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Отправить отзыв
  • Влад Карпатов
    18
    комментариев
    0
    читателей
    Влад Карпатов
    больше года назад
    Возможно я что-то недопонял, но с помощью данного алгоритма автоматического геотаргетинга классифицируются по регионам только сайты из каталога? И еще возникает такой вопрос: какое время занимает такая классификация, прежде чем сайт будет отнесен к региональным или к "нулевому региону"?
    -
    0
    +
    Ответить
ПОПУЛЯРНЫЕ ОБСУЖДЕНИЯ НА SEONEWS
Google Data Studio: делаем красивые отчеты по контекстной рекламе для клиентов
Светлана Зубрицкая
1
комментарий
0
читателей
Полный профиль
Светлана Зубрицкая - Нужно убрать пробелы между строк и заменить кавычки на вот такие "
#SEOnews14: мы празднуем – вы получаете подарки!
Rizat Sundetov
1
комментарий
0
читателей
Полный профиль
Rizat Sundetov - 14
Как ускорить сайт на WordPress, чтобы получить 100/100 в Google PageSpeed Insights
Георгий
1
комментарий
0
читателей
Полный профиль
Георгий - Все что рекомендуется в этой статье есть у w.tools. Ни разу не пожалел что подключился. Своя CDN сеть, кеш статики и динамики, минификация js\css и кешируемого html, оптимизация всех типов картинок и еще куча всего полезного. Сайт летает и я не знаю проблем. Могу рекомендовать от души.
Война с дубликатами. Как нужно и как не нужно канонизировать URL
Ann Yaroshenko
5
комментариев
0
читателей
Полный профиль
Ann Yaroshenko - Дмитрий, добрый день! Если вы проставили на странице с автозапчастями rel=canonical ( а я вижу в коде, что не проставили) или в HTTP хедере, то бот, как правило: выберит ту страницу главной, которую вы указали в rel=canonical ссылке. Eсли же вы этого не сделали, то бот сам выберит оригинал (алгоритмы, по которым бот это делает, скрыты Googl-ом)
«Аудит, чтобы ты заплакала…», или Что делать, когда получил сторонний аудит сайта
TehotdelSamara@gmail.com
4
комментария
0
читателей
Полный профиль
TehotdelSamara@gmail.com - Артур! Задели своим комментарием "за живое") Абсолютно,... целиком.... и полностью согласны с вами! А именно, с тем, что продажи клиента зависят в первую очередь от клиента, перечисленных вами выше и других факторов! А ещё с тем, что чистое SEO в классическом его понимании зачастую уже не даёт результата в виде роста продаж. Если хотим увеличить продажи - нужно бить по всем фронтам, SEO - только один из них, об этом клиент должен знать и быть предупреждён... Касательно нашей рекомендации смотреть на эффективность по тому, увеличилось ли число и качество заказов или нет - в контексте данной статьи говорится о том, что SEO бывает разное. По большому счёту, результат SEO — это именно привлекаемый поисковый трафик. И этот трафик может быть качественным, целевым или нет. Кроме того, трафик должен расти. Мы говорим о том, что если специалист хорошо проработал семантику, изучил бизнес клиента, исключил фразы с околонулевым спросом и проч., то трафик должен быть целевым, растущим, что значит рост обращений в отдел продаж клиента !при условии! , что само предложение и сайт располагают к тому, чтобы обратиться в отдел продаж клиента. Действительно, современное SEO предполагает учёт значительного количества факторов, в том числе и коммерческих. Без этого и трафика зачастую не будет. Нужно доносить всё это до клиента, включать подобные работы в стоимость по SEO или отдельно. А с "хочу все подряд за 25к в месяц" мы сталкиваемся тоже. Тут только пояснять и подсказывать, давать рекомендации заранее, чтобы клиент заранее был предупреждён о том, что ему требуется сделать параллельно с нашими работами по SEO. И в итоге вся эта деятельность должна привести к росту целевого трафика как на сайт, так и в отдел продаж.
BDD 2019: Как перестать убивать время на сбор и обработку тонны данных для SEO-аудита
Feth
1
комментарий
0
читателей
Полный профиль
Feth - Тот момент, когда от статьи в интернете получаешь больше полезных знаний и навыков, чем от своего начальства. По статьям нетпиковцев можно учебник про SEO уже сшивать, ребята молодцы. Спасибо, что делитесь информацией.
Как вывести сайт в ТОП 10 Google в 2019 году
Анна Макарова
356
комментариев
0
читателей
Полный профиль
Анна Макарова - Сергей, в нашей отрасли много заимствований из английского, иногда с ними быстрее, проще .Но будем стараться ))
Как построить качественный ссылочный профиль на основе конкурентов
Ирина
7
комментариев
0
читателей
Полный профиль
Ирина - Давно сотрудничаю с megaindex.com и считаю данный сервис одним из лучших в сео сегменте рунета да и не только рунета. Пользуюсь их инструментами для аналитики своих работ и выявлению своих и чужих ошибок. Да и ссылочный профиль, как и говорится в данной статье сделать гораздо проще и правильней при помощи как раз мегаиндекса. Добавлю еще что инструмент для поиска конкурентов у мегаиндекса очень удобный и простой в применении.
Как я пытался купить CRM-систему, но мне ее поленились продать
Kristina
1
комментарий
0
читателей
Полный профиль
Kristina - Очень рекомендую CRM-систему польской фирмы Firmao. Все функции настраиваются в соответствии с индивидуальным потребностям компании! Советую попробовать бесплатную демо-версию, чтобы попробовать все необходимые функции, без лишних кнопок и траты дополнительных финансов! :) Сайт: firmao.ru/info
Как улучшить репутацию сайта недвижимости с помощью крауд-маркетинга
Евгений
2
комментария
0
читателей
Полный профиль
Евгений - а у вас какое впечатление от статьи?
ТОП КОММЕНТАТОРОВ
Комментариев
910
Комментариев
834
Комментариев
554
Комментариев
540
Комментариев
483
Комментариев
373
Комментариев
356
Комментариев
262
Комментариев
249
Комментариев
171
Комментариев
156
Комментариев
137
Комментариев
121
Комментариев
105
Комментариев
97
Комментариев
97
Комментариев
96
Комментариев
80
Комментариев
77
Комментариев
69
Комментариев
67
Комментариев
60
Комментариев
59
Комментариев
57
Комментариев
55

Отправьте отзыв!
Отправьте отзыв!