Автоматическое определение тематики

 Идею эту уже раньше озвучивал на форуме searchengines.ru, но в свете последних изменений в Яндексе и возникших идях об учете тематики ссылающегося сайта стоит снова поднять ее из архива.

Итак, насколько возможно автоматическое определение тематики для сайтов? 

Возьмем за основу структурированный каталог, например Яндекс. Каждой конечной тематической рубрике ставим в соответствие взвешенный перечень специфических ключевых слов-маркеров (или фраз). Под взвешенным перечнем подразумевается, что каждое ключевое слово имеет определенный вес в соответствии с глобальной статистикой: частоупотребимые слова - меньший, редкоупотребимые - больший. Такие веса есть у Яндекса.
Затем осуществляется анализ контента всех страниц сайта. В случае если в контенте сайта встречается слово-маркер, то к соответствующему показателю тематичности сайта прибавляется вес слова умноженный на частоту его повторения на сайте. По итогам полного пересчета каждый сайт будет иметь показатели его тематического соответствия каждой отдельной рубрике. В случае, если ни одна из рубрик не выделяется среди других (например каталоги), то сайт считается нетематическим.
Модель достаточно проста для реализации и в тоже время эффективна.

Оставить комментарий