Качество контента или как сделать хороший сайт

Итак, настал черед поговорить о качестве контента. Мое личное мнение заключается в том, что именно это направление сейчас является одним из наиболее приоритетных для поисковых систем. Проблема поискового спама сейчас стоит острее, чем когда бы то ни было. И именно автоматизированная оценка содержания сайта способна в значительной степени эту проблему решить.

Возможно кто-то захочет возразить, что качество контента - вещь весьма субъективная и уже тем более об этом никак не может судить машина. Но далее я постараюсь показать, что это не так. Автоматизированная оценка качества контента не только возможна в принципе, но и возможна в современной реализации.

Теперь по порядку.

1) Полнота. Информация, содержащаяся в статье* должна полностью раскрывать тему. Поэтому задача определения полноты сводится к определению наиболее весомого термина(-ов) в статье и анализ наличия семантически близких слов. Например, если самым весомым термином в статье является “кошка”, то также в статье должны присутствовать слова “порода”, “выставка”, “корм” и т.д. А если наиболее частотный термин “породы кошек”, то желательно наличие слов “британская”, “вислоухая”, “персидкая” и т.д.

2) Актуальность. Представленная информация должна быть актуальной, но это относится не ко всем типам информации. Наибольшее значение этот параметр должен иметь для новостных сайтов. Судить об актуальности представленной на сайте информации можно по частоте его обновления, объемах новой информации и ее типе: добавление новых страниц или обновление существующих. Разумеется, все эти факторы работаю в тесной связи с классификатором сайтов. Например, что хорошо для сайта СМИ, необязательно хорошо для интернет-магазина.

3) Адекватность. Можно сделать автоматический генератор текста, который будет удовлетворять количественным признакам качественного, но будет совершенно бредовым с точки зрения человека. Решить эту задачу на 100% без глубокого семантического анализа практически невозможно. В упрощенном виде могу предположить вариант поиска в тексте невозможных или редких семантических конструкций (например, три глагола подряд), избыточное или недостаточное число предлогов,

4) Профессиональность. Согласитесь, статья, написанная на одну и ту же тему профессионалом в этой области и человеком, весьма далеким от нее будут отличаться разительно. Профессиональная статья изобилует специальными терминами (редкоупотребимыми словами с высоким весом), а любительская - поверхностная с преобладанием общеупотребительных слов. Автоматизированная оценка этого параметра более чем реальна.

5) Цитируемость. Только речь не о ссылочной цитируемости, а о текстовой, т.к. мы говорим о качестве контента. Вообще об этом факторе я уже говорил в далеком по интернет-меркам 2006 году в статье “О пользе плагиата”. Суть такова, что определяются копии и цитаты материала, содержащиеся на других ресурсах. Вес, передаваемый таким образом, будет зависеть прежде всего от авторитетности и/или траста цитирующего сайта. Но практическое использование этого фактора упирается в необходимость достоверного определения первоисточника, что на данный момент Яндекс не умеет умеет не очень хорошо. Поэтому его внедрение можно ожидать лишь в ближайшем будущем при релизе одного из последующих “городов” Яндекса.

6) Ну и наконец - ошибки. Орфографические ошибки, опечатки в тексте говорят о невысоком уровне автора текста, а значит и о низком качестве. Не зря ведь Яндекс предлагает в Панели сервис по проверке орфографии :)

Приведенный выше список конечно нельзя назвать полным, т.к. основывается исключительно на личном опыте и умозаключениях, но тем не менее надеюсь окажется полезным оптимизаторам при долговременной работе над продвижением сайта. Также в статье не говорится о решении проблемы рерайта, но полагаю, что эта проблема находится на стыке определения авторства и нечетких копий документа, а не качества.

*Несмотря на то, что я говорю о статье, следует понимать, что все перечисляемые параметры в той же степени актуальны и для анализа сайта в целом.

4 Responses to “Качество контента или как сделать хороший сайт”

  1. It-mutant пишет:

    Качество понятие относительное. И главным мерилом является спрос, который порождается большинством. Поэтому если 1000 человек говорит, что иномарки лучше наших машин, а 10 говорят об обратном - значит действительно, иномарки являются более качественными по отношению к нашим авто. Да, существуют алгоритмы основанные на семантике, но они не достаточно эффективны, требуют огромных словарей, уникальны для каждого языка.. Если смотреть по грамотности - то получится, что люди-практики будут лишены своего хлеба. Сколько ошибок в мануалах и HOW-TO простых сисадминов?? В общем, нельзя судить по этому критерию. Как только вы оффициально введете траст для ранжирования выдачи - сразу начнется копипаст с новых, свежих, уникальных сайтов без траста. Так что пусть уж лучше будет как есть =)

  2. It-mutant пишет:

    Я тут ещё немного подумал, вы неплохо пробежались по свойствам информации, но забыли самое главное свойство информации в инете, без которого она никому не нужна - уникальность +)

  3. aka352 пишет:

    It-mutant, не забыл, уникальность я не отношу к категории качества и о ней говорилось в прошлой статье.

  4. it-mutant пишет:

    Уникальность контента есть прямой показатель хорошего сайта. Я не знаю хороших сайтов с не уникальным контентом (включая способ его представления). Поисковики со мной в этом плане солидарны. Только уникальный контент способствует наращиванию постоянной аудитории сайта и делает его интересным (более ценным).
    Можно конечно и не относить уникальность к категории качества, однако уникальность контента имеет прямое отношение к понятию хороший сайт.
    Поэтому, я подчеркиваю, свойство уникальности для информации в интернете является ключевым - особенно для поисковых машин. (в отличии от классического определения информации и её свойств)

Оставить комментарий