SimRank - SimRank

SimRank генерал мера сходства, основанный на простой и интуитивно понятной теоретико-графическая модель.SimRank применим в любом домен с объектом к объекту отношения, который измеряет сходство структурного контекста, в котором встречаются объекты, на основе их отношений с другими объектами. Фактически, SimRank - это мера, которая говорит: «два объекта считаются похожими, если на них ссылаются похожие объекты. "Хотя SimRank широко применяется, он может выдавать необоснованные оценки сходства, на которые влияют разные факторы, и может быть решен несколькими способами, такими как введение весового коэффициента доказательств,^[1] вставка дополнительных условий, которые игнорируются SimRank^[2] или используя альтернативы, основанные на PageRank.^[3]

Вступление

Много Приложения требуют меры "сходства" между объектами. Очевидным примером является запрос "найти похожий документ" в традиционных текстовых корпусах или Всемирная паутина.В общем, мера сходства можно использовать для объекты кластера, например, для совместная фильтрация в рекомендательная система, в котором «похожие» пользователи и элементы сгруппированы на основе предпочтений пользователей.

Для определения сходства могут использоваться различные аспекты объектов, обычно в зависимости от домена и соответствующего определения подобия для этого домена. корпус документов может использоваться соответствующий текст, а для совместной фильтрации похожие пользователи могут быть идентифицированы по общим предпочтениям. SimRank - это общий подход, который использует отношения объект-объект, обнаруженные во многих интересующих областях. Интернет, например, две страницы связаны, если есть гиперссылки Подобный подход может быть применен к научным статьям и их цитатам или к любому другому корпусу документов с Перекрестная ссылка В случае рекомендательных систем предпочтения пользователя в отношении элемента представляют собой отношения между пользователем и элементом. Такие домены естественно моделируются как графики, с узлы представляющие объекты и края представляющие отношения.

Интуиция, лежащая в основе алгоритма SimRank, заключается в том, что во многих областях на похожие объекты ссылаются похожие объекты.Точнее, объекты ${displaystyle a}$ и ${displaystyle b}$ считаются подобными, если на них указывают предметы ${displaystyle c}$ и ${displaystyle d}$ соответственно и ${displaystyle c}$ и ${displaystyle d}$ сами похожи. базовый вариант заключается в том, что предметы максимально похожи на самих себя.^[4]

Важно отметить, что SimRank - это общий алгоритм, который определяет только сходство структурного контекста. SimRank применяется к любому домену, в котором существует достаточно релевантных отношений между объектами, чтобы основывать хотя бы некоторое представление о сходстве на отношениях. Очевидно, сходство другого домена. -также важны конкретные аспекты; они могут - и должны сочетаться с реляционным структурно-контекстным сходством для общей меры сходства. веб-страница SimRank можно комбинировать с традиционным текстовым подобием; та же идея применима к научным статьям или другим корпусам документов. Для рекомендательных систем могут быть встроены известные сходства между предметами (например, оба компьютера, одежда и т. д.), а также сходство между пользователями (например, одного пола , тот же уровень расходов). Опять же, эти сходства можно объединить с оценками сходства, которые вычисляются на основе моделей предпочтений, чтобы получить общую меру сходства.

Базовое уравнение SimRank

Для узла ${displaystyle v}$ в ориентированном графе обозначим через ${displaystyle I (v)}$ и ${displaystyle O (v)}$ набор внутренних и внешних соседей ${displaystyle v}$ , соответственно. Отдельные ближайшие соседи обозначаются как ${displaystyle I_ {i} (v)}$ , за ${displaystyle 1leq ileq left | I (v) ight |}$ , а отдельные внешние соседи обозначаются как ${displaystyle O_ {i} (v)}$ , за ${displaystyle 1leq ileq left | O (v) ight |}$ .

Обозначим сходство между объектами ${displaystyle a}$ и ${displaystyle b}$ к ${displaystyle s (a, b) в [0,1]}$ . Следуя предыдущей мотивации, рекурсивное уравнение записывается для ${displaystyle s (a, b)}$ .Если ${displaystyle a = b}$ тогда ${displaystyle s (a, b)}$ определяется как ${displaystyle 1}$ .Иначе,

{displaystyle s (a, b) = {frac {C} {left | I (a) ight | left | I (b) ight |}} sum _ {i = 1} ^ {left | I (a) ight | } sum _ {j = 1} ^ {left | I (b) ight |} s (I_ {i} (a), I_ {j} (b))}

куда ${displaystyle C}$ константа между ${displaystyle 0}$ и ${displaystyle 1}$ Небольшая техническая деталь заключается в том, что либо ${displaystyle a}$ или же ${displaystyle b}$ не может иметь никаких соседей, поскольку нет никакого способа сделать вывод о каком-либо сходстве между ${displaystyle a}$ и ${displaystyle b}$ в этом случае подобие установлено на ${displaystyle s (a, b) = 0}$ , поэтому суммирование в приведенном выше уравнении определяется как ${displaystyle 0}$ когда ${displaystyle I (a) = emptyset}$ или же ${displaystyle I (b) = emptyset}$ .

Матричное представление SimRank

Позволять ${displaystyle mathbf {S}}$ - матрица подобия, элемент которой ${displaystyle [mathbf {S}] _ {a, b}}$ обозначает оценку сходства ${displaystyle s (a, b)}$ , и ${displaystyle mathbf {A}}$ - нормализованная по столбцам матрица смежности, запись которой ${displaystyle [mathbf {A}] _ {a, b} = {frac {1} {| {mathcal {I}} (b) |}}}$ если есть край от ${displaystyle a}$ к ${displaystyle b}$ , и 0 в противном случае. Тогда в матричных обозначениях SimRank можно сформулировать как

{displaystyle {mathbf {S}} = max {Ccdot (mathbf {A} ^ {T} cdot {mathbf {S}} cdot {mathbf {A}}), {mathbf {I}}},}

куда ${displaystyle mathbf {I}}$ является единичной матрицей.

Вычисление SimRank

Решение уравнений SimRank для графа ${displaystyle G}$ можно добраться по итерация к фиксированная точка.Позволять ${displaystyle n}$ быть количеством узлов в ${displaystyle G}$ .Для каждой итерации ${displaystyle k}$ , мы можем оставить ${displaystyle n ^ {2}}$ записи ${displaystyle s_ {k} (*, *)}$ , куда ${displaystyle s_ {k} (a, b)}$ ставит оценку между ${displaystyle a}$ и ${displaystyle b}$ на итерации ${displaystyle k}$ .Мы последовательно вычисляем ${displaystyle s_ {k + 1} (*, *)}$ на основе ${displaystyle s_ {k} (*, *)}$ . Начнем с ${displaystyle s_ {0} (*, *)}$ где каждый ${displaystyle s_ {0} (а, б)}$ это нижняя граница фактического балла SimRank ${displaystyle s (a, b)}$ :

{displaystyle s_ {0} (a, b) = {egin {case} 1 {mbox {}}, {mbox {}} {mbox {if}} a = b {mbox {}}, 0 {mbox {} }, {mbox {}} {mbox {if}} aeq b {mbox {}}. end {case}}}

Вычислить ${displaystyle s_ {k + 1} (а, б)}$ из ${displaystyle s_ {k} (*, *)}$ , мы используем базовое уравнение SimRank, чтобы получить:

{displaystyle s_ {k + 1} (a, b) = {frac {C} {left | I (a) ight | left | I (b) ight |}} сумма _ {i = 1} ^ {left | I (a) право |} сумма _ {j = 1} ^ {left | I (b) ight |} s_ {k} (I_ {i} (a), I_ {j} (b))}

за ${displaystyle aeq b}$ , и ${displaystyle s_ {k + 1} (a, b) = 1}$ за ${displaystyle a = b}$ То есть на каждой итерации ${displaystyle k + 1}$ , обновляем подобие ${displaystyle (a, b)}$ используя оценки сходства соседей ${displaystyle (a, b)}$ из предыдущей итерации ${displaystyle k}$ в соответствии с основным уравнением SimRank. ${displaystyle s_ {k} (*, *)}$ находятся неубывающий в качестве ${displaystyle k}$ увеличивается. ^[4] что ценности сходиться к пределы удовлетворяя основному уравнению SimRank, SimRank оценивает ${displaystyle s (*, *)}$ , т.е. для всех ${displaystyle a, bin V}$ , ${displaystyle lim _ {k o infty} s_ {k} (a, b) = s (a, b)}$ .

Первоначальное предложение SimRank предлагало выбрать коэффициент распада ${displaystyle C = 0,8}$ и фиксированный номер ${displaystyle K = 5}$ итераций для выполнения. Однако недавние исследования ^[5] показали, что данные значения для ${displaystyle C}$ и ${displaystyle K}$ обычно подразумевают относительно низкие точность итеративно вычисленных оценок SimRank. Для обеспечения более точных результатов вычислений в последней статье предлагается либо использовать меньший коэффициент затухания (в частности, ${displaystyle C = 0,6}$ ) или сделать больше итераций.

CoSimRank

CoSimRank - это вариант SimRank с тем преимуществом, что он также имеет локальную формулировку, то есть CoSimRank может быть вычислен для одной пары узлов.^[6] Позволять ${displaystyle mathbf {S}}$ - матрица подобия, элемент которой ${displaystyle [mathbf {S}] _ {a, b}}$ обозначает оценку сходства ${displaystyle s (a, b)}$ , и ${displaystyle mathbf {A}}$ - матрица смежности, нормализованная по столбцам. Тогда в матричных обозначениях CoSimRank можно сформулировать как:

{displaystyle {mathbf {S}} = Ccdot (mathbf {A} ^ {T} cdot {mathbf {S}} cdot {mathbf {A}}) + {mathbf {I}},}

куда ${displaystyle mathbf {I}}$ является единичной матрицей. Чтобы вычислить оценку подобия только одной пары узлов, пусть ${displaystyle p ^ {(0)} (i) = e_ {i}}$ , с ${displaystyle e_ {i}}$ вектор стандартного базиса, т. е. ${displaystyle i}$ -я запись равна 1, а все остальные записи равны 0. Затем CoSimRank можно вычислить в два этапа:

${displaystyle p ^ {(k)} = Ap ^ {(k-1)}}$
${displaystyle s (i, j) = sum _ {k = 0} ^ {infty} C ^ {k} langle p ^ {(k)} (i), p ^ {(k)} (j) угол}$

На первом этапе можно увидеть упрощенную версию Personalized PageRank. Второй шаг суммирует векторное подобие каждой итерации. И матрица, и локальное представление вычисляют одинаковую оценку сходства. CoSimRank также можно использовать для вычисления сходства наборов узлов путем изменения ${displaystyle p ^ {(0)} (я)}$ .

Дальнейшие исследования SimRank

Фогарас и Рач ^[7] предложил ускорить вычисление SimRank за счет вероятностный вычисление с использованием Метод Монте-Карло.
Антонеллис и др.^[8] расширенные уравнения SimRank, чтобы принять во внимание (i) фактор доказательства для узлы инцидентов и (ii) веса звеньев.
Yu et al.^[9] дальнейшее улучшенное вычисление SimRank с помощью мелкозернистой мемоизация метод разделения мелких общих частей на разные частичные суммы.
Чен и Джайлз обсудили ограничения и правильные варианты использования SimRank.^[3]

Запоминание частичных сумм

Лизоркин и др.^[5] предложил три метода оптимизации для ускорения вычисления SimRank:

Выбор основных узлов может исключить вычисление части пар узлов с априори нулевыми оценками.
Запоминание частичных сумм может эффективно сократить повторные вычисления сходства между различными парами узлов путем кэширования части суммирования сходства для последующего повторного использования.
Установка порогового значения подобия позволяет еще больше сократить количество пар узлов, которые необходимо вычислить.

В частности, второе наблюдение запоминания частичных сумм играет первостепенную роль в значительном ускорении вычисления SimRank из ${displaystyle {mathcal {O}} (Kd ^ {2} n ^ {2})}$ к ${displaystyle {mathcal {O}} (Kdn ^ {2})}$ , куда ${displaystyle K}$ - количество итераций, ${displaystyle d}$ - средняя степень графа, а ${displaystyle n}$ количество узлов в графе. Центральная идея запоминания частичных сумм состоит из двух этапов:

Во-первых, частичные суммы свыше ${displaystyle I (a)}$ запоминаются как

{displaystyle {ext {Partial}} _ {I (a)} ^ {s_ {k}} (j) = sum _ {iin I (a)} s_ {k} (i, j), qquad (forall jin I (б))}

а потом ${displaystyle s_ {k + 1} (а, б)}$ итеративно вычисляется из ${displaystyle {ext {Partial}} _ {I (a)} ^ {s_ {k}} (j)}$ в качестве

{displaystyle s_ {k + 1} (a, b) = {frac {C} {| I (a) || I (b) |}} sum _ {jin I (b)} {ext {Partial}} _ {I (a)} ^ {s_ {k}} (j).}

Следовательно, результаты ${displaystyle {ext {Partial}} _ {I (a)} ^ {s_ {k}} (j)}$ , ${displaystyle forall jin I (b)}$ , можно будет повторно использовать позже, когда мы вычислим сходства ${displaystyle s_ {k + 1} (а, *)}$ для данной вершины ${displaystyle a}$ как первый аргумент.

Смотрите также

PageRank

Цитаты

^ И. Антонеллис, Х. Гарсия-Молина и К.-К. Чанг. Simrank ++: перезапись запроса через анализ ссылок на графике кликов. В VLDB '08: Материалы 34-й Международной конференции по очень большим базам данных, страницы 408-421. [1]
^ W. Yu, X. Lin, W. Zhang, L. Chang и J. Pei. Еще проще: эффективная и действенная оценка сходства пар узлов на основе гиперссылок. В VLDB '13: Материалы 39-й Международной конференции по очень большим базам данных, страницы 13-24. [2]
^ ^а ^б Х. Чен и К. Л. Джайлз. «ASCOS ++: асимметричная мера подобия для взвешенных сетей для решения проблемы SimRank». Транзакции ACM при обнаружении знаний из данных (TKDD) 10.2 2015 г.[3]
^ ^а ^б Дж. Дже и Дж. Видом. SimRank: мера структурно-контекстного сходства. В KDD'02: Материалы восьмой международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных, страницы 538-543. ACM Press, 2002. «Архивная копия» (PDF). Архивировано из оригинал (PDF) на 2008-05-12. Получено 2008-10-02.CS1 maint: заархивированная копия как заголовок (связь)
^ ^а ^б Д. Лизоркин, П. Велихов, М. Гринев, Д. Турдаков. Оценка точности и методы оптимизации для вычисления SimRank. В VLDB '08: Материалы 34-й Международной конференции по очень большим базам данных, страницы 422-433. «Архивная копия» (PDF). Архивировано из оригинал (PDF) на 2009-04-07. Получено 2008-10-25.CS1 maint: заархивированная копия как заголовок (связь)
^ С. Роте и Х. Шютце. CoSimRank: гибкая и эффективная мера подобия на основе теории графов. В ACL '14: Материалы 52-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи), страницы 1392-1402. [4]
^ Д. Фогарас и Б. Рач. Масштабирование поиска сходства на основе ссылок. В WWW '05: Материалы 14-й международной конференции по World Wide Web, страницы 641-650, Нью-Йорк, Нью-Йорк, США, 2005. ACM. [5]
^ Антонеллис, Иоаннис, Гектор Гарсия Молина и Чи Чао Чанг. «Simrank ++: переписывание запросов посредством анализа ссылок на графике кликов». Труды VLDB Endowment 1.1 (2008): 408-421. arXiv:0712.0499
^ W. Yu, X. Lin, W. Zhang. На пути к эффективному вычислению SimRank в больших сетях. В ICDE '13: Материалы 29-й Международной конференции IEEE по инженерии данных, страницы 601-612. «Архивная копия» (PDF). Архивировано из оригинал (PDF) на 2014-05-12. Получено 2014-05-09.CS1 maint: заархивированная копия как заголовок (связь)

Источники

Cai, Y .; Cong, G .; Цзя, X .; Liu, H .; He, J .; Lu, J .; Ду, X. (2009-12-01). «Эффективный алгоритм для вычисления сходства на основе каналов в реальных сетях». 2009 Девятая Международная конференция IEEE по интеллектуальному анализу данных: 734–739. Дои:10.1109 / ICDM.2009.136. ISBN 978-1-4244-5242-2.

[simrank_plusplus-1] И. Антонеллис, Х. Гарсия-Молина и К.-К. Чанг. Simrank ++: перезапись запроса через анализ ссылок на графике кликов. В VLDB '08: Материалы 34-й Международной конференции по очень большим базам данных, страницы 408-421. [1]

[2] W. Yu, X. Lin, W. Zhang, L. Chang и J. Pei. Еще проще: эффективная и действенная оценка сходства пар узлов на основе гиперссылок. В VLDB '13: Материалы 39-й Международной конференции по очень большим базам данных, страницы 13-24. [2]

[:0-3] а ^б Х. Чен и К. Л. Джайлз. «ASCOS ++: асимметричная мера подобия для взвешенных сетей для решения проблемы SimRank». Транзакции ACM при обнаружении знаний из данных (TKDD) 10.2 2015 г.[3]

[jeh_widom-4] а ^б Дж. Дже и Дж. Видом. SimRank: мера структурно-контекстного сходства. В KDD'02: Материалы восьмой международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных, страницы 538-543. ACM Press, 2002. «Архивная копия» (PDF). Архивировано из оригинал (PDF) на 2008-05-12. Получено 2008-10-02.CS1 maint: заархивированная копия как заголовок (связь)

[lizorkin-5] а ^б Д. Лизоркин, П. Велихов, М. Гринев, Д. Турдаков. Оценка точности и методы оптимизации для вычисления SimRank. В VLDB '08: Материалы 34-й Международной конференции по очень большим базам данных, страницы 422-433. «Архивная копия» (PDF). Архивировано из оригинал (PDF) на 2009-04-07. Получено 2008-10-25.CS1 maint: заархивированная копия как заголовок (связь)

[cosimrank-6] С. Роте и Х. Шютце. CoSimRank: гибкая и эффективная мера подобия на основе теории графов. В ACL '14: Материалы 52-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи), страницы 1392-1402. [4]

[fogaras_racz-7] Д. Фогарас и Б. Рач. Масштабирование поиска сходства на основе ссылок. В WWW '05: Материалы 14-й международной конференции по World Wide Web, страницы 641-650, Нью-Йорк, Нью-Йорк, США, 2005. ACM. [5]

[8] Антонеллис, Иоаннис, Гектор Гарсия Молина и Чи Чао Чанг. «Simrank ++: переписывание запросов посредством анализа ссылок на графике кликов». Труды VLDB Endowment 1.1 (2008): 408-421. arXiv:0712.0499

[yu_icde13-9] W. Yu, X. Lin, W. Zhang. На пути к эффективному вычислению SimRank в больших сетях. В ICDE '13: Материалы 29-й Международной конференции IEEE по инженерии данных, страницы 601-612. «Архивная копия» (PDF). Архивировано из оригинал (PDF) на 2014-05-12. Получено 2014-05-09.CS1 maint: заархивированная копия как заголовок (связь)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]