Кластеры Веба

Возникло желание написать о вещах в общем-то тривиальных. Причем настолько, что о них даже незадумываешься, но порой размышления о них дают новые идеи или понимание того, что раньше невозможно было объяснить. Ну и конечно это помогает привести в порядок разрозненные знания, выстроив из них систему. Особенно это не помешало бы начинающим оптимизаторам.

Если представить весь интернет в виде графа, то мы получим достаточно однородную сеть документов со связями (ссылками) между ними. Это его первый уровень и может быть это кого-то удивит, но на нем не существует такого понятия, как сайт. Веб, как структура логическая, состоит из документов, а не сайтов. Сайт - понятие второго уровня. Он является кластером (объединением) множества документов по признаку принадлежности одному домену. И как нетрудно догадаться, признаков объединения документов в кластеры может быть много. Например похожие документы (четкие и нечеткие копии). Это объединение является основой для фильтрации в выдаче одинаковых по содержанию страниц (дублей). Пересекающиеся кластеры доменов и похожих документов являются основой для определения зеркал сайтов и их последующей склейки с соответствующим изменением в структуре Веба.

Узлы второго уровня также связаны между собой, причем их связи проистекают из связей первого. Т.е. вместо ссылок между документами получаем ссылки между сайтами. Логично, что множественные разнонаправленные связи между разными документами, принадлежащими двум сайтам объединяются в две разнонаправленные связи между сайтами ;-)

Интересно? Продолжаем дальше. Кроме первых двух привычных нам уровней могут быть и другие. Например из узлов второго уровня (сайтов) могуть быть получены кластеры аффилированых сайтов: подразделения компании, сайты знакомых людей, ссылочные биржи, ссылкообменники и т.д. Т.е. можно выявить любые “образования” в Вебе. Вопрос лишь в подборе соответствующих признаков кластеризации и формирования связей между кластерами. В общем-то это действительно тривиально. Но более интересные вещи получаются, когда мы предполагаем возможность внесения изменений в базовую структуру Веба, его первый уровень.

Как уже говорилось выше, связями между узлами Веба являются ссылки. Поэтому для начала граф Веба можно сделать взвешеным, т.е. каждой связи (ссылке) установить определенный вес. Тем самым мы автоматически взвешиваем все связи вышерасположеных уровней. Как тут не вспомнить активно обсуждавшуюся в свое время тему о том, что лучше “сквозняк” или “морда” :)

Как уже поняли, первый уровень определяет второй, второй определяет третий и т.д. Но это прямая связь. А что если нам ввести обратную? Предположим, на третьем уровне мы ввели признаки кластеризации сайтов-участников ссылочных бирж: к примеру беспорядочные половые ссылочные связи и/или соотношение входящих/исходящих ссылок. Затем на втором уровне это проецируется в виде характеристик сайтов, снижающих вес входящих/исходящих ссылок с документов сайта на первом уровне.

Но и это далеко не все. Ничто не мешает нам вводить промежуточные уровни, например 1.5: подразделы сайта (отображаются в панели вебмастера) или, к примеру, разделять документы сайта на “невинные” и “замеченые в порочащих связях”. Затем ссылки первого отображаются на второй уровень, участвуя в ссылочном ранжировании, а вторые попадают под непот.

В принципе, применяя логику, можно объяснить практически все явления, с которыми сталкивается каждый оптимизатор. А подключив фантазию можно попробовать себя на поприще поискового предсказательства.

Ну и в заключение хочу пожелать начинающим оптимизаторам почаще заниматься систематизацией собственных знаний, дабы генерировать поменьше уникального, но бессмысленного контента на всем известном форуме.

3 Responses to “Кластеры Веба”

  1. Дмитрий пишет:

    Я, конечно, в data mining и в частности в кластеризации не очень разбираюсь, но мне кажется, объединение кластеров более высокого уровня дает бОльшую ошибку. Соответственно, определение правых и виноватых “сверху вниз” будет менее точным.

  2. aka352 пишет:

    Оно не дает бОльшую ошибку. Оно дает возможность создавать новые абстрактные категории и как следствие - новые методы организации, обработки и поиска информации.

  3. Дмитрий пишет:

    Ну вот я к тому, что неизбежны ошибки вследствии неправильной кластеризации - чем кластер больше, тем вероятнее попадание в него “хорошего сайта”. Например, есть кластер “сайты, продающие ссылки”. В него вполне может попасть мой фотоблог - так как я часто и с охотой ссылаюсь на других, и они на меня тоже, да и дизайн у блогов однотипный - wordpress все-таки. С другой стороны, не используя абстракции более высокого уровня просто невозможно отследить сети аффилированных сайтов, сайты made for sape и т.д. В общем, работы в этом направлении еще много

Оставить комментарий