Поле битвы - контент

За сегодня второй “боевой” пост :) Что поделать, в основе мира противоположности, а значит постоянная борьба - неотъемлемая его часть.

Итак, контент. Святое понятие для оптимизатора. Основа основ. Кто сказал ссылочное? Молчи, грешный. Ссылочное - от лукавого! Главная ценность - это контент. Даже в Библии написано, что вначале было Слово, т.е. контент. А ссылки уже люди придумали.

Ну довольно лирики. На самом деле речь пойдет о новых поисковых технологиях. Но для начала постулирую: “Будущее за контентом!”. Кто-то хочет поспорить? Правильно, не стоит.

Все нынешние технологии, используемые для оценки релевантности по контенту иначе как убогими назвать нельзя. Но это не вина поисковиков. Все упирается скорее в развитие соответствующих технологий и вычислительную мощность серверов. Сейчас же я хочу рассмотреть ряд факторов, которые в перспективе можно и нужно использовать для оценки контента. Начнем пожалуй…

 

Тематика

Вот не надо улыбаться. Да, уже говорили об этом и неоднократно. Даже скажу больше, скорее всего поисковики уже в той или иной степени определяют тематику документа. Без этого, работа систем контекстной рекламы была бы, мягко говоря, затруднительной. Подходы для определения тематики могут использоваться различные. Самое простое, использовать специальные слова маркеры, однозначно идентифицируемые с определенной тематикой и подсчет числа вхождений таких слов в документ. Развивая эту мысль дальше, можно идентифицировать тематику сайта и, таким образом, разделять узкотематичные сайты и образно говоря, контентные “помойки”.

 

Авторство

Я бы сказал, весьма перспективная технология, которая в определенной степени может заменить ссылочное ранжирование. Вполне очевидно, что у любого документа есть собственный автор. Автор может характеризоваться собственным рейтингом (авторитетностью). Соответственно, все документы одного автора будут иметь его авторитетность. Хотя использование этой технологии не так просто, т.к. есть два принципиальных вопроса:

  1. Как определить автора документа
  2. Как определить рейтинг автора

Но вопросы эти решаемые. Авторство вполне можно определять по стилю документов - технология в науке давно известная. Рейтинговать авторов можно как по числу дубликатов их документов (ведь копируют только интересное), так и по их упоминаемости, в т.ч. ссылочный вес персонального сайта автора и всех копий его документов.

 

Число копий

Об этом факторе я уже писал чуть ранее в заметке “О пользе плагиата”, поэтому подробно останавливаться на этом не буду. Отмечу лишь, что качественный, интересный документ часто копируется, а значит чем больше таких копий, тем лучше/интереснее документ. Разве что потребуется в отдельную группу выделять новости. Копируются они слишком много и зачастую автоматически, без осмысления содержания. Но с их отделением проблем нет уже сейчас.

Также отдельно следует выделить нечеткие копии, когда фрагменты текста документа используются для цитат и просто плагиата.

 

Заимствования

Не секрет, что некоторые авторы ленятся напрягать собственный мозг и прибегают к заимствованиям. Технологии их определения уже достаточно хорошо развиты. Если таковых в тексте слишком много, что превышает некий допустимый порог, то ценность такого документа падает, вплоть до применения отрицательного рейтинга.

Соответственно те документы, из которых делаются заимствования, получают положительный рейтинг.  Но это уже в вопросу о копиях, изложенному выше.

 

Актуальность

Время появления документа также играет немалую роль в оценке его веса. Новые документы имеют максимальную актуальность, а следовательно больший вес, чем старые. Со временем актуальность убывает и соответствующий повышающий коэффициент уменьшается.

 

На этом краткий обзор перспективных технологий завершу. Хотя реальное их число много больше, но к сожалению, их реализация дело далекого будущего. Уже того, что озвучено было бы вполне достаточно, чтобы значительно уменьшить порочное влияние ссылочного ранжирования в чистом виде. Замечу - уменьшить, но не отказаться. Почему ссылочное ранжирование порочно - отдельная тема.

One Response to “Поле битвы - контент”

  1. Ярослав Витязев пишет:

    То, что вы написали про авторство: чем это будет принципиально отличаться от существующего в настоящее время ссылочного ранжирования? По сути, ведь, то же самое: придется определять цитируемость автора, а методы ее определения сводятся все к тому же статистическому анализу связей автора с другими авторами и документами (по сути количество ссылок).

    А если и определять уровень авторитетности авторов по количеству дубликатов созданных ими документов… представляете каким образом тогда спамить выдачу будут? :)

    Вы правы: будущее за контентом, за контентом ценным. А методы поиска будут искать свое продолжение в семантике, в семантических связях. Уже сейчас все идет к этому.

Оставить комментарий