Основы релевантности

Несмотря на столь “громкое” название, это лишь частная попытка рассмотрения такого основополагающего понятия как “релевантность”. Несмотря на это, я попытаюсь наиболее полно раскрыть это понятие, а также то, что непосредственно с ним связано.

Для начала необходимо сформулировать само понятие, чтобы затем, отталкиваясь от него, раскрыть его основные аспекты.

Итак, Релевантность - есть степень соответствия результата поиска заданному запросу. На первый взгляд понятие это более, чем очевидное для большинства. Но это действительно лишь на первый взгляд. На самом деле в этом понятии не учтен один из ключевых элементов, точнее он замаскирован за понятием “запрос”. Этот элемент - пользователь. Именно он задает запрос и ожидает получить определенный результат. Исходя из этого мы можем дать более корректное определение: релевантность - есть степень соответствия результата поиска ожиданиям пользователя, выраженным в форме запроса. И разница между первым и вторым определением - огромна, т.к. в первом случае мы имеем дело с формальной релевантностью, а во втором - с реальной. Из этого мы получаем, что релевантность изначально субъективна, т.е. ориентирована на конкретного пользователя. Но и это определение, на самом деле не является исчерпывающим. Но впрочем, обо всем по порядку.

Если рассмотреть запросы пользователей, то их принято делить на высокочастотные (ВЧ), среднечастотные (СЧ) и низкочастотные (НЧ). Разделение это происходит на основании оценки популярности того или иного запроса в определенной тематике. Но оно же весьма четко соответствует степени абстракции запросов. ВЧ - более абстрактные, НЧ - более конкретные. Большая конкретность НЧ запросов подразумевает более четкое выражение пользователем своих ожиданий, а значит задача сводится только к правильному пониманию запроса и выдачи соответствующего результата. Степень соответствия ожиданиям пользователя в этом случае будет максимальной.

Совершенно иная ситуация в случае ВЧ-запросов. Их высокая степень абстракции не позволяет однозначно определить ожидания пользователя, а значит и предоставить ему релевантный результат. Исходя из этого становится понятным, что принципы формирования результатов поиска по НЧ и ВЧ запросам должны серьезно отличаться.

Далее рассмотрим ВЧ запросы, как самые неоднозначные и трудные в плане формирования результатов поиска. Для рассмотрения возьмем пример. Пользователь вводит запрос “работа”. Что это означает? А это означает, что его может интересовать:

а) поиск работы (сайты по устройству на работу, рекрутинговые агентства)

б) курсовая работа (сайты с рефератами, курсовыми и т.п., услуги по написанию курсовых)

в) удаленная работа (соответствующие ресурсы для фрилансеров)

г) исследования рынка труда

и т.д.

Каждый из этих вариантов подразумевает принципиально разные категории сайтов. И узнать, что именно из этого ищет пользователь, основываясь только на анализе этого запроса мы в принципе не можем. Точнее это дело светлого будущего, когда станет внедряться персонализированный поиск, но пока до этого еще далеко.

Остается только одно - выдавать пользователю все подряд, чтобы он сам выбрал из этого то, что ему требуется. Вопрос только в том, что этого “всего подряд” может быть очень много. И тут может быть 2 варианта:

1) пользователь оказался настойчивым или ему повезло и нужный результат оказался в числе первых. В этом случае он переходит по ссылке и с определенной натяжкой такой результат можно считать релевантным.

2) пользователь не захотел долго искать или нужного результата не было вообще. В этом случае он вводит новый запрос, более точно сформулированый.

И в первом и во втором случае пользователь так или иначе указал - что именно он хотел найти. Со временем происходит накопление статистики в виде данных о переходах по ссылкам выдачи и более точных запросов. Их объединение позволяет получить общую картину распределения ожиданий пользователей. В этом случае можно пренебречь менее значимыми ожиданиями и формировать выдачу таким образом, чтобы учитывались основные. В этом случае выдача будет удовлетворять ожиданиям большинства пользователей, а значит более релевантной. Казалось бы все - проблема решена. Но увы, не все так просто. Самые внимательные наверное уже заметили изъян в ходе рассуждений. Ну а тем, кто не заметил, укажу явно - переходы пользователя по ссылкам в выдаче говорят лишь о том, на какой сайт перешел пользователь, но это не говорит в явном, формализованном виде, что именно он искал. Для этого необходимо проанализировать уже сам сайт (страницу) и попытаться понять, что именно нашел там для себя пользователь. И тут нам на помощь приходит классификация. Именно она позволит нам классифицировать все сайты(страницы) и соотнести их с определенной группой или несколькими группами. Аналогичную классификацию можно провести и для уточняющих запросов. Например запросы, содержащие “купить”, “продать” можно соотвести с коммерческими сайтами, “где найти” - с навигационными и т.д. Таким образом, мы можем выражать ожидания пользователей уже не в виде конкретных запросов, многие из которых могут откровенно дублироваться (куплю слона, продажа слонов), а в виде однозначных классов. Это однозначно позволит улучшить релевантность результатов поиска для большинства пользователей. Но и это далеко не все. Вполне очевидно, что сайты, относящиеся к разным классам, необходимо по разному оценивать при расчете их релевантности.

В этом месте мы сталкиваемся еще с одним понятием релевантности, назовем ее математической, о котором я специально не стал говорит в начале. Эта релевантность является конкретной математической величиной, выражающей степень соответствия выбранного документа по заданному запросу методике ее оценки. Методика в данном случае выступает в роли абстрактного пользователя или даже группы пользователей. Т.е. она играет роль своеобразной модели ожиданий пользователей и их оценок релевантности. И немаловажно заметить, что само соответствие модели и реальных ожиданий пользователей играет весьма важную роль, т.к. ее погрешность значительным образом влияет на итоговую, пользовательскую релевантность, определение которой давалось в самом начале.

После небольшого отступления возвращаемся к классификации документов (сайтов/страниц). Как уже говорил, разные типы сайтов оцениваются пользователями по разному, а значит и соответствующая модель, оценивающая релеватность документов данной группы, будет иметь свои отличия. Это, в свою очередь, означает несовпадение “шкал” оценки релевантности по разным моделям. На этом месте наверное будет вполне уместно попытаться рассмотреть этот вопрос с практической точки зрения.

Пользователь приходит в поисковую систему и задает свой запрос. Поисковая система получает его, анализирует и определяет основные группы документов, наиболее соответствующих ожиданиям пользователя. Далее по каждой группе документов осуществляется первичный отбор документов, содержащих искомое слово в тексте самого документа, либо соответствующего ему анкор-файла. Далее, среди групп отобранных документов, осуществляется расчет релевантности по модели, соответствующей определенной группе. Получаем несколько отранжированных групп, которые затем сливаются в общий список с учетом общих оценок ожиданий пользователя.

Методика слияния сама по себе представляет большой интерес, но в рамках этой статьи не вижу смысла останавливаться на этом подробнее.

Таким образом, на выходе мы получаем единый список документов, отранжированный по тематическим моделям и с учетом ожиданий пользователя. Как видно, приведения “шкал” разных тематических моделей к единой - не потребовалось. И это вполне корректно, т.к. нельзя привести к единой шкале, например, оценки красоты картин и их стоимостей. Более того, попытка такого приведения только ухудшила бы поиск, т.к. нередкими могли быть ситуации, когда сайты одной группы (например коммерческие) вытесняли полностью другие за счет большого значения математической релевантности.

 Резюмируя все вышесказанное отмечу, что понятие релевантности отнюдь не такое простое, как кажется на первый взгляд. И уж тем более нельзя назвать простой задачу ее определения. Поисковые системы должны уметь не только считать математическую релевантность сайта (алгоритмы расчета которой так мечтают узнать оптимизаторы), но и строить точные математические модели ожиданий пользователей (пользовательская релевантность). Большинство оптимизаторов о второй не то, что не думают, а даже не догадываются. А ведь она влияет на результаты поисковой выдачи не в меньшей степени, а может быть и в большей.

 

P.S. Все вышенаписанное является результатом логических умозаключений, а потому может в какой-то степени расходиться с реальностью, либо полностью ей не соответствовать. И даже то, что написано я не могу назвать полным и избыточным. Очень многие моменты затронуты поверхностно, либо обойдены вниманием. Но, как известно, нельзя объять необъятное. А потому материал такой, какой есть, иначе бы просто потерялась сама нить рассуждений.

Впрочем, оценивать все это уже не мне. Спасибо хотя бы за то, что дочитали до конца :)

5 Responses to “Основы релевантности”

  1. РожденныйОсенью пишет:

    Зачем нужен анализ поведения пользователя на сайте ПС для формирования выдачи ВЧ запросов?
    Ожидания пользователей уже известны, если провести классификацию сайтов и использовать статистику СЧ, входящих в ВЧ и не забываем про учет региона.

    Факт клика пользователя на результате даже с натяжкой не может не то, что влиять, а даже относится к релевантонсти.

    Пример. Пользователь ввел запрос клацнул на 4, 5 сайты. Потом через 30 сек. клацнул на 7 и ушел с сайта ПС. Это в равной степени должно повлиять на релевантность всех 3-х сайтов?

  2. aka352 пишет:

    > Ожидания пользователей уже известны
    Они становятся известны только после накопления определенной статистики. Но это не значит, что они останутся константой. Интересы пользователей меняются со временем и под влиянием различных факторов (напр. сезонность).

    > Пользователь ввел запрос клацнул на 4, 5 сайты. Потом через 30 сек. клацнул на 7 и ушел с сайта ПС.
    Это говорит о том, что эти 3 сайта смогли чем-то пользователя заинтересовать. А остальные 7 - нет. Кроме того, о релевантности надо судить не по поведению 1 пользователя, а по накопленой статистике от большого числа пользователей.

  3. РожденныйОсенью пишет:

    Статистика вхождения СЧ в ВЧ вот она
    http://wordstat.yandex.ru/ - “Что искали люди со словом…” и “Что еще искали люди, искавшие…”. Сезонность и регион там уже учтены.

    Понятно, что никакие выводы на основании поведения одного пользователя не делаются.
    То, что пользователь нажал на позицию - это значит, что его устроил сниппет, а не сайт. А вот какие выводы можно сделать о сайте?
    О сайтах 1-3, 6, 8-10 можно сказать, что либо они относятся к подтематике, которая не интересует пользователя, либо это гавносайты, либо у них гавносниппет.
    О сайтах (с натяжкой) 4,5 - то, что они не устроили пользователя или это гавно сайты. Сайт 7 скорей всего был релевантен.

    Но это все не нужно, если ПС научиться отвечать на вопрос, что пользователь нашел для себя на сайте?

  4. Ma-)cTpo пишет:

    Насколько я понял, под математической релевантностью сайта вы понимаете релевантность, описанную в известной формуле С. Людкевича, а под пользовательской - сам смысл запроса, известный только лишь самому пользователю. Как думаете, модели семантики и персонального поиска относятся только к определению пользовательской релевантности?

  5. aka352 пишет:

    Именно так. Но пользовательская релевантность - скорее некая идеальная модель к которой можно стремиться, но никогда нельзя достичь по ряду фундаментальных причин. Поэтому реальная модель поиска будет лишь приближаться к ней за счет использования прямых или косвенных оценок, близких пользователю, но на прежней математической базе. Поэтому классическая формула релевантности, приведенная Людкевичем никогда актуальности не потеряет, а будет лишь наполняться новым содержательным смыслом.

Оставить комментарий