Матрица Google - Google matrix
Эта статья поднимает множество проблем. Пожалуйста помоги Улучши это или обсудите эти вопросы на страница обсуждения. (Узнайте, как и когда удалить эти сообщения-шаблоны) (Узнайте, как и когда удалить этот шаблон сообщения)
|
А Матрица Google особый стохастическая матрица что используется Google с PageRank алгоритм. Матрица представляет собой граф с ребрами, представляющими ссылки между страницами. PageRank каждой страницы затем может быть итеративно сгенерирован из матрицы Google с использованием силовой метод. Однако для сходимости степенного метода матрица должна быть стохастической, несводимый и апериодический.
Матрица смежности А и матрица Маркова S
Чтобы создать матрицу Google грамм, мы должны сначала сгенерировать матрицу смежности А который представляет отношения между страницами или узлами.
Предполагая, что есть N страниц, мы можем заполнить А сделав следующее:
- Матричный элемент заполняется 1, если узел есть ссылка на узел , и 0 в противном случае; это матрица смежности ссылок.
- Связанная матрица S соответствующие переходам в Цепь Маркова данной сети построена из А разделив элементы столбца "j" на количество куда это общее количество исходящих ссылок с узлаj ко всем остальным узлам. Столбцы с нулевыми матричными элементами, соответствующие висячим узлам, заменяются постоянным значением 1 / N. Такая процедура добавляет ссылку из каждого приемника, висящего состояния ко всем остальным узлам.
- Теперь по построению сумма всех элементов в любом столбце матрицы S равно единице. Таким образом, матрица S математически корректно определено и принадлежит классу цепей Маркова и классу операторов Перрона-Фробениуса. Что делает S подходит для PageRank алгоритм.
Построение матрицы Google грамм
Тогда окончательная матрица Google G может быть выражена через S в качестве:
По построению сумма всех неотрицательных элементов внутри каждого столбца матрицы равна единице. Числовой коэффициент известен как коэффициент демпфирования.
Обычно S является разреженной матрицей, и для современных направленных сетей она имеет только около десяти ненулевых элементов в строке или столбце, то есть только около 10N умножения необходимы для умножения вектора на матрицуграмм.[2][3]
Примеры матрицы Google
Пример матрицы построение по уравнению (1) в простой сети приведено в статье CheiRank.
Для реальной матрицы Google использует коэффициент демпфирования около 0,85.[2][3][4] Период, термин дает пользователю вероятность случайного перехода на любую страницу. Матрица принадлежит к классу Операторы Перрона-Фробениуса из Цепи Маркова.[2] Примеры структуры матрицы Google показаны на рис. 1 для сети гиперссылок статей Википедии в 2009 г. в мелком масштабе и на рис. 2 для сети Кембриджского университета в 2006 г. в крупном масштабе.
Спектр и собственные состояния грамм матрица
За есть только одно максимальное собственное значение с соответствующим правым собственным вектором, который имеет неотрицательные элементы которое можно рассматривать как стационарное распределение вероятностей.[2] Эти вероятности, упорядоченные по их уменьшающимся значениям, дают вектор PageRank с PageRank используется поиском Google для ранжирования веб-страниц. Обычно во всемирной паутине с . Количество узлов с заданным значением PageRank масштабируется как с показателем .[6][7] Левый собственный вектор при имеет постоянные матричные элементы. С все собственные значения движутся как кроме максимального собственного значения , который остается без изменений.[2] Вектор PageRank зависит от но другие собственные векторы с остаются неизменными из-за их ортогональности постоянному левому вектору при . Разрыв между и другое собственное значение дает быструю сходимость случайного начального вектора к PageRank примерно после 50 умножений на матрица.
В матрица обычно имеет много вырожденных собственных значений (см., например, [6][8]). Примеры спектра собственных значений матрицы Google различных направленных сетей показаны на рис. [5] и фиг.4 с.[8]
Матрица Google может быть также построена для сетей Улама, генерируемых методом Улама [8] для динамических карт. Спектральные свойства таких матриц обсуждаются в [9,10,11,12,13,15].[5][9] В ряде случаев спектр описывается фрактальным законом Вейля [10,12].
Матрица Google может быть построена также для других направленных сетей, например для сети вызова процедур программного обеспечения ядра Linux, представленного в [15]. В этом случае спектр описывается фрактальным законом Вейля с фрактальной размерностью (см. рис. 5 из [9]). Численный анализ показывает, что собственные состояния матрицы локализованы (см. рис. 6 из [9]). Итерация Арнольди Метод позволяет вычислять множество собственных значений и собственных векторов для матриц достаточно большого размера [13].[5][9]
Другие примеры Матрица включает матрицу мозга Google [17] и управление бизнес-процессами [18], см. также.[1] Применение матричного анализа Google к последовательностям ДНК описано в [20]. Такой матричный подход Google позволяет также анализировать взаимосвязь культур посредством ранжирования многоязычных статей Википедии о людях [21]
Исторические заметки
Матрица Google с коэффициентом затухания описывалась следующим образом: Сергей Брин и Ларри Пейдж в 1998 г. [22], см. также статьи по истории PageRank [23], [24].
Смотрите также
- CheiRank
- Итерация Арнольди
- Цепь Маркова
- Оператор трансфера
- Теорема Перрона – Фробениуса
- Поисковые системы
Рекомендации
- ^ а б c Ermann, L .; Чепелянский, А.Д .; Шепелянский, Д. Л. (2011). «К двумерным поисковым системам». Журнал физики А. 45 (27): 275101. arXiv:1106.6215. Bibcode:2012JPhA ... 45A5101E. Дои:10.1088/1751-8113/45/27/275101.
- ^ а б c d е Лэнгвилл, Эми Н.; Мейер, Карл (2006). PageRank Google и не только. Princeton University Press. ISBN 978-0-691-12202-1.
- ^ а б Остин, Дэвид (2008). "Как Google находит вашу иглу в стоге сена Интернета". Столбцы характеристик AMS.
- ^ Закон, Эдит (2008-10-09). "PageRank Лекция 12" (PDF).
- ^ а б c d Frahm, K. M .; Georgeot, B .; Шепелянский, Д. Л. (01.11.2011). «Повсеместное появление PageRank». Журнал физики А. 44 (46): 465101. arXiv:1105.1062. Bibcode:2011JPhA ... 44T5101F. Дои:10.1088/1751-8113/44/46/465101.
- ^ Донато, Дебора; Лаура, Луиджи; Леонарди, Стефано; Миллоцци, Стефано (30 марта 2004). «Крупномасштабные свойства веб-графа» (PDF). Европейский физический журнал B. 38 (2): 239–243. Bibcode:2004EPJB ... 38..239D. CiteSeerX 10.1.1.104.2136. Дои:10.1140 / epjb / e2004-00056-6.
- ^ Пандуранган, Гопал; Рангхаван, Прабхакар; Упфал, Эли (2005). «Использование PageRank для характеристики веб-структуры» (PDF). Интернет-математика. 3 (1): 1–20. Дои:10.1080/15427951.2006.10129114.
- ^ а б c Жоржо, Бертран; Жиро, Оливье; Шепелянский, Дима Л. (25.05.2010). «Спектральные свойства матрицы Google всемирной паутины и других направленных сетей». Физический обзор E. 81 (5): 056109. arXiv:1002.3342. Bibcode:2010PhRvE..81e6109G. Дои:10.1103 / PhysRevE.81.056109. PMID 20866299.
- ^ а б c d е ж Ermann, L .; Чепелянский, А.Д .; Шепелянский, Д. Л. (2011). «Фрактальный закон Вейля для архитектуры ядра Linux». Европейский физический журнал B. 79 (1): 115–120. arXiv:1005.1395. Bibcode:2011EPJB ... 79..115E. Дои:10.1140 / epjb / e2010-10774-7.
- Серра-Капиццано, Стефано (2005). «Джордан каноническая форма матрицы Google: потенциальный вклад в вычисление PageRank». SIAM J. Matrix Anal. Приложение. 27: 305. Дои:10.1137 / s0895479804441407. HDL:11383/1494937.
- Улам, Станислав (1960). Сборник математических задач. Международные трактаты по чистой и прикладной математике. Нью-Йорк: Interscience. п. 73.
- Froyland G .; Падберг К. (2009). «Почти инвариантные множества и инвариантные многообразия - связывающие вероятностные и геометрические описания когерентных структур в потоках». Physica D. 238: 1507. Дои:10.1016 / j.physd.2009.03.002.
- Шепелянский Д.Л .; Жиров О.В. (2010). «Матрица Google, динамические аттракторы и сети Улама». Phys. Ред. E. 81: 036213. arXiv:0905.4162. Дои:10.1103 / Physreve.81.036213.
- Ermann L .; Шепелянский Д.Л. (2010). «Матрица Google и сети перемежаемости карт Улама». Phys. Ред. E. 81: 036221. arXiv:0911.3823. Дои:10.1103 / Physreve.81.036221.
- Ermann L .; Шепелянский Д.Л. (2010). "Метод Улама и фрактальный закон Вейля для операторов Перрона-Фробениуса". Евро. Phys. J. B. 75: 299. arXiv:0912.5083. Дои:10.1140 / epjb / e2010-00144-0.
- Frahm K.M .; Шепелянский Д.Л. (2010). «Метод Улама для стандартной карты Чирикова». Евро. Phys. J. B. 76: 57. arXiv:1004.1349. Дои:10.1140 / epjb / e2010-00190-6.
- Чепелянский, Алексей Д. (2010). «К физическим законам для архитектуры программного обеспечения». arXiv:1003.5455 [cs.SE ].
- Шепелянский Д.Л .; Жиров О.В. (2010). «К матрице мозга Google». Phys. Lett. А. 374: 3206. arXiv:1002.4583. Дои:10.1016 / j.physleta.2010.06.007.
- Abel M .; Шепелянский Д.Л. (2011). «Матрица Google управления бизнес-процессами». Евро. Phys. J. B. 84 (4): 493. arXiv:1009.2631. Bibcode:2011EPJB ... 84..493A. Дои:10.1140 / epjb / e2010-10710-у.
- Кандиа, Вивек; Шепелянский, Дима Л. (2013). "Матричный анализ последовательностей ДНК Google". PLOS ONE. 8 (5): e61519. Дои:10.1371 / journal.pone.0061519. ЧВК 3650020. PMID 23671568.
- Эом, Ён-Хо; Шепелянский, Дима Л. (2013). «Выявление запутанности культур посредством ранжирования статей в многоязычной Википедии». PLOS ONE. 8 (10): e74554. Дои:10.1371 / journal.pone.0074554. ЧВК 3789750. PMID 24098338.
- Brin S .; Пейдж Л. (1998). «Анатомия крупномасштабной гипертекстовой поисковой системы в Интернете». Компьютерные сети и системы ISDN. 30: 107. Дои:10.1016 / с0169-7552 (98) 00110-х.
- Массимо, Франческе (2010). «PageRank: Стоя на плечах гигантов». arXiv:1002.2858 [cs.IR ].
- Винья, Себастьяно (2010). «Спектральный рейтинг» (PDF).