О пользе плагиата

Возможно кого-то удивит такой заголовок статьи. Плагиат у большинства вызывает исключительно негативные эмоции и трудно увидеть в этом явлении какую-то “полезность”. Однако попытаемся…

По традиции, начну со вступления. Как известно, задачу поиска, в общепринятом смысле, можно подразделить на 2 подзадачи:

  1. информационный (тематические материалы, справочная информация и т.д.)
  2. неинформационный (компании, сервисы, товары, услуги и т.д.)

Да простят меня гуру, за подобные вольные трактовки. Я прекрасно понимаю, что в общем случае вся задача поиска это именно информационный поиск. И неинформационного поиска нет. Но в рамках данной статьи буду использовать для наглядности именно такое разделение.

Мне трудно судить о том, насколько сами поисковики разделяют эти два вида поиска и какие подходы используют для этого, но, судя по общей “топорности” применяемых методов, оригинальностью эти подходы не сильно отличаются.
А раз так, то попытаемся самостоятельно разобраться в этом вопросе. Здесь и далее мы будем рассматривать именно задачу информационного поиска (в вышеозвученном контексте).

Для более полного понимания сути вопроса коснемся такого немаловажного понятия как релевантность, а точнее одного из ключевых факторов - ссылочого ранжирования. Не секрет, что ссылочное ранжирование является не просто ключевым фактором оценки релевантности, но скорее определяющим. Современный поиск просто немыслим без его учета.

Но! Именно в этом и кроется, по моему мнению, главная ошибка, когда мы подходим к задаче поиска исключительно информационных материалов. Почему?

Возьмем самого обычного вебмастера. Пусть это будет пресловутый Василий П.. Наш Вася создал свой сайт и наполняет его информацией. Заметьте! Не ссылками, а информацией. Глупо полагать, что Вася будет сидеть днями и ночами пытаясь придумать что-то свое, новое и оригинальное. Скорее всего, большая часть материалов будет заимствоваться по принципу “мне понравилось”. С одной стороны Вася занимается откровенным плагиатом и наносит невосполнимый моральный ущерб правообладателям, которые в свою очередь будут заваливать его гневными письмами с требованием удалить украденное или хотя бы поставить ссылку на первоисточник. Но с другой стороны, Вася выражает этим свою оценку скопированному материалу. Проще говоря, он голосует за него, поднимает его рейтинг, доносит до большего числа людей. И при этом, не обязательно ставит ссылку на первоисточник. Если не полениться и взять любой интересный материал, то в интернете можно найти немало копий или частичных заимствований. Об “интересности” конкретного информационного материала можно судить по соотношению числа копий ко времени, прошедшему с начала его создания.

Таким образом, делаем логичный вывод, что плагиат может использоваться для определения авторитетности, т.е. быть фактором ранжирования. Причем фактором незаменимым, когда речь идет об информационном поиске.

В случае, когда речь идет о неинформационном поиске, например поиск сервисов, то вебмастер естественно не может “скопировать” на свой сайт поисковик, бесплатную почту или брэнд. В этом случае он может только поставить ссылку. И тогда вполне эффективным будет классическое ссылочное ранжирование. Но, повторюсь, в случае информационного поиска, ссылочное ранжирование может быть совершенно необъективно и в каких-то случаях даже вредно.

Правда использование плагиата, как фактора ранжирования, ставит задачу определения первоисточника. Причем, замечу, задача эта в большей степени морально-этического плана, дабы не нарушались авторские права. Но с точки зрения пользователя разницы никакой нет - он в любом случае получает один и тот же материал.
Но нельзя сказать, что эта задача принципиально сложна. Прежде всего, поисковики определяют дату появления каждого документа в индексе. Уже это с большой степенью вероятности позволит определить первоисточник. Если же в индексе за короткий промежуток времени появилось несколько копий, то можно задействовать еще один фактор. Для каждого сайта вводится оценка оригинальности контента. Т.е. соотношение незаимствованных (оригинальных) документов к их общему числу. Т.е. доверие к сайту с высокой оценкой оригинальности будет выше (вот вам еще один фактор ранжирования). И эта же оценка будет определять вес “голоса” данного сайта за данный материал, а значит и за сайт-первоисточник.

Ну и в заключение хочу сказать, что я не вижу принципиальных проблем на пути реализации данного подхода к оценке информационного наполнения сайтов. Вся необходимая информация для этого у поисковых систем есть. И возможно даже какие-то разработки в этом направлении ведутся. Но даже если и так, то они скорее экспериментальные, нежели практические.
Также замечу, что распространена практика перепечатки материалов с разрешения авторов. Формально это не является плагиатом, но методология оценки интересности/авторитетности материала и сайта-первоисточника от этого не меняется.

5 Responses to “О пользе плагиата”

  1. Дмитрий Сергеев пишет:

    Я бы сказал, что определить первоисточник совсем не просто. Ошибки могут быть серьезными и обидными.

    Плагиат — это очень-очень плохо :)

  2. aka352 пишет:

    Да ошибки могут быть, бесспорно. Ничего совершенного не бывает. Но опять же, в данном случае обидной эта ошибка будет с точки зрения автора, а не с точки зрения пользователя, т.к. он в любом случае находит один и тот же документ.

  3. Prokur пишет:

    Дмитрий Сергеев,
    неплохая реализация всего, что тут написано, являетса проект: Яндех Новости. Просто надо сделать, это в более глобальном масштабе

  4. mc Romkin пишет:

    Гениально! Неплохое бы дополнение к ссылочному бы получилось. Особенно понравилась идея определения оригинальности контента на сайте. Идеальная склейка в серпе с фокусом на сайт-источник. Вам надо отправить в Яндекс письмо с предложениями )

  5. cric пишет:

    Идея, я думаю, правильная. Ну вот только, что бы ПС не напутала с первоисточником информации.
    Или например такой пример: у нас на сайте статья, которую мы процитировали и проставили ссылку на источник (то есть на наш сайт), но что будет если она именно с нашего сайта выпадет из индекса, а потом попадет опять. Не посчитает ли ПС, что мы скопировали (если конечно будет ориенироваться не по ссылкам на первоисточник, а по дате попадания в индекс)?
    И еще как именно ставить ссылки на источник:
    http://site.com
    site.com
    ключевик
    источник
    источник: site.com
    и стоит ли повторять ссылку где-то в средине статьи?

Оставить комментарий