Новые технологии в поиске или старые песни о главном

В своих более ранних публикациях я неоднократно указывал в качестве основного недостатка существующих моделей поиска - их негибкость в оценке запросов, сайтов и, как следствие, неудовлетворительное качество поиска. Говорить еще раз о причинах этого наверное не имеет смысла, гораздо интереснее было бы проследить в будущее развитие поисковых технологий и формализовать новую поисковую модель, которая по моему мнению рано или поздно будет реализована.

Глубоко убежден, что в основе такой модели должны лежать семантические сети.

Для непосвященных поясняю, что семантической сетью является такая сеть, в узлах которой находятся термины (понятия, образы), а связями в сети являются отношения между терминами.

Почему именно они? Только семантическая сеть позволяет оперировать такими понятиями как “смысл запроса” или “смысл документа” без каких-либо оговорок. В настоящий момент этот “смысл” определяется на основе статистических моделей, которые, к сожалению и являются источником той самой “негибкости”, замеряя лишь среднюю температуру по больнице или в лучшем случае по палате, но не способные спуститься на уровень отдельного больного, т.к. статистика изначально способна оперировать лишь множествами данных, а не их отдельными значениями. И в настоящее время идет лишь процесс совершенствования методики анализа статвыборок с целью увеличения разрешающей способности, но, повторюсь, принципиально подход не меняется.

Приведем простой пример. Возьмем любой запрос, содержащий 2 слова, однозначно идентифицирующие предмет поиска, например “металлический ключ”. Введем этот запрос в Яндексе. В результате в выдаче мы видим всего 2 документа, содержащих информацию о предмете поиска. Остальные предлагают нам шкафы для ключей, книги и антикварные вещицы, что однозначно можно расценивать, как низкокачественный результат. Т.е. поисковая система не может определить смысл документа - о ключе он или о шкафе, соответственно выводит все, содержащее нужные ключевые слова.
Теперь попробуем ввести другой запрос - “гаечный глюч”. И о чудо, все 10 сайтов в выдаче релевантны запросу. Что впрочем и логично - данная выдача сформирована оптимизаторами, т.к. запрос уже относится к области коммерческих. И вот тут становится интересно, а если бы не было оптимизаторов, что бы мы получили по этому запросу? Полагаю, что результат был бы не намного лучше, чем у прошлого запроса.

А теперь представим, что семантические сети задействованы в поиске, что это дает? Дает это прежде всего однозначную идентификацию “смысла” запроса и идентификацию “смысла” документа. Поисковик уже понимает - о ключе или о шкафе идет речь в документе. Также он понимает, что раз пользователь ищет металлический ключ, то его интересуют в том числе медные, стальные, железные, латунные и прочие ключи, которые по своей природе являются металлическими, а значит не ограничивается тупым подсчетом веса слова “металлический” в документе. Для поиска уже используется более широкая документная база. Сейчас она расширяется путем использования словарей синонимов, что в приципе можно считать зачатками использования семантических технологий, но именно зачатками.

Другим немаловажным моментом является формирование сниппетов. Не секрет, что они оказывают огромное и порой решающее значение при выборе сайта пользователем, а значит влияя в немалой степени на итоговые оценки качества поиска, т.е. пользователь прежде всего оценивает не сам сайт в выдаче, а его сниппет. О качестве же сниппетов говорить лишний раз не стоит - все и так прекрасно с этим знакомы. Чего например стоит такой сниппет в выдаче по запросу “пластиковые окна”:

Главная страница О компании Продукция и услуги Статьи Расчет и заказ окон Дилерам и строителям Партнеры Гарантия Фотогалерея Контакты. о пластиковых окнах пластиковые окна монтаж окон калькулятор заявка на кредит

Подозреваю, что CTR у такого сайта сильно отличается от соседей по выдаче, причем не в лучшую сторону. А ведь компания предлагает ровно тоже самое, что и остальные. Примечательно, что пользовательское поведение является обратной связью, использующейся для оценки качества поиска и для его корректировок. Таким образом, методики оценки качества поиска, основывающиеся на пользовательском поведении, в некоторой степени оценивают качество формирования сниппетов, а не самой выдачи.

Что же дают нам семантические технологии в этой области? Прежде всего, сниппет из набора не всегда адекватных цитат, выдернутых из контекста превратится в сжатый мини-реферат документа в контексте запроса, сохраняя всю его смысловую нагрузку, а значит позволяя пользователю оценить смысл документа, а возможно и сразу получить необходимую информацию. Последняя возможность еще интересна тем, что будет совершенно автоматической и не требующей дополнительных интеллектуальных затрат по созданию армии всевозможных колдунщиков, которыми поисковики сейчас набивают поиск пытаясь исправить недостатки существующих моделей под девизом: “Не можем найти, так сделаем вручную”. Вообще это все сильно напоминает кустарное производство средних веков. Собственно все современные технологии в поиске можно смело переносить на реалии Средневековья. Санкции к сайтам - Инквизиция; улицы Европы, утопающие в нечистотах из-за отсутствия канализации - дорвеи; поисковики, пишущие “туманные” лицензии на поиск - монархия и т.д., продолжать список соответствий можно бесконечно. Апогеем всего этого, как я считаю, стал Матрикснет, результат работы которого стал настолько непредсказуем, что знать его не могут даже сами разработчики.

Интересно, кто-нибудь из читателей согласился бы, к примеру, ездить на автомобиле, реакцию которого на управляющие воздействия не могут предсказать даже его создатели? Т.е. в норме если вы нажимаете на тормоз, машина должна тормозить. Но в ряде случаев реакция может быть иная, например машина начнет ускоряться. В этом случае напишите нам через форму обратной связи и мы в течение месяца разберемся с этой проблемой, а вы пока научитесь тормозить нажимая на педаль газа, поворачивая одновременно руль вправо. Полагаю, что создание такого автомобиля в принципе было бы абсурдно и невозможно.

Однако в поиске почему-то это считается нормальным и миллионы пользователей должны пользоваться им. Впрочем это наверное в духе российских реалий. Наши автопроизводители тоже любят выпускать бета-версии автомобилей на дороги и тестировать их на потребителях. Хуже в этом плане наверное только китайцы. Впрочем я отклонился от темы.

Возвращаясь к семантическим технологиям и их плюсам невозможно обойти проблематику мусора в индексе: миллионы дорвеев, автоматически синонимизированного и вручную рерайченого говноконтента уже давно плескаются через край чаши Рунета регулярно затапливая выдачу и формируя застойные гниющие болота в переулках низкочастотных запросов. Поисковики плещутся в этом, пытаясь между рерайчеными и синонимизированными копиями статьи из Большой Советской Энциклопедии определить оригинал. Их настойчивости в этом несомненно нелегком труде можно было бы аплодировать стоя в театре абсурда, если бы не хотелось неудержимо рыдать под креслом.

А что же, спросите, предлагают семантические технологии? А они предлагают совершить маленькую революцию в нашем Средневековье - создать канализацию. И когда очередной дорвееписатель отправляет естественную нужду очередной дорвей в сеть, он в нее и попадет, только в канализационную. Семантический анализ документов позволяет абсолютно достоверно выявлять как неестественные, сгенерированные тексты, так и низкокачественный рерайт. Более того, даже документ с хорошим рерайтом может быть и будет определен как копия, т.к. его смысловая часть нисколько не меняется, а именно она является сутью документа, а не использованый набор слов и их относительные веса. Таким образом, мы априрори получаем чистую выдачу по любым запросам, т.к. мусора нет в индексе и быть не может.

В качестве резюме хочется сказать, что я нисколько не сомневаюсь в том, что поисковики ведут разработки в области семантических технологий и рано или поздно модель поиска, использующая их, будет представлена пользователям. Поэтому всем оптимизаторам я предлагаю задуматься уже сейчас над этим. Особенно это касается тех, кто активно использует модное нынче статейное продвижение. И хорошо, если эти статьи действительно качественный копирайт, а если нет? В одночасье можно остаться без всей “качественной” ссылочной массы. Так что в корне неправы те, кто говорят о вечных ссылках, получаемых таким образом. Век этих ссылок может оказаться недолгим, ведь семантические технологии будут внедряться постепенно, по мере их развития. И одним из первых фронтов их внедрения, как мне кажется, будет фронт борьбы с информационным мусором, которого благодаря новым алгоритмам поисковиков накопилось немало. Они его породили, им его и убивать.

2 Responses to “Новые технологии в поиске или старые песни о главном”

  1. old-plutik пишет:

    Давно меня так не радовали статьи из Интернета. Интересные размышления надо сказать. Буду вас читать!
    стиль написания СИЛЬНЫЙ !!!

  2. Xenus пишет:

    Аналитика от Алексея всегда сильна и интересна! Продолжайте, всегда читаю ваши статьи с удовольствием.

Оставить комментарий