Корреляция рангов - Rank correlation

В статистика, а ранговая корреляция любая из нескольких статистических данных, которые измеряют порядковая ассоциация-отношения между рейтинги разных порядковый переменные или разные рейтинги одной и той же переменной, где «ранжирование» - это присвоение порядковых меток «первый», «второй», «третий» и т. д. различным наблюдениям за конкретной переменной. А коэффициент ранговой корреляции измеряет степень сходства между двумя рейтингами и может использоваться для оценки значение отношения между ними. Например, два общих непараметрический методы значимости, использующие ранговую корреляцию, являются U-критерий Манна – Уитни и Знаковый ранговый тест Вилкоксона.

Контекст

Если, например, одна переменная является идентификатором программы студенческого баскетбола, а другая переменная - идентификатором программы студенческого футбола, можно проверить взаимосвязь между рейтингами в опросах двух типов программ: колледжи с более высоким рейтингом. рейтинговая баскетбольная программа имеет тенденцию иметь более высокий рейтинг футбольной программы? Коэффициент ранговой корреляции может измерить эту взаимосвязь, а мера значимости коэффициента ранговой корреляции может показать, является ли измеренная взаимосвязь достаточно малой, чтобы, вероятно, быть совпадением.

Если существует только одна переменная, идентичность футбольной программы колледжа, но она подлежит двум разным рейтингам в опросах (например, один тренерами и одним спортивными обозревателями), то сходство рейтингов двух разных опросов может быть измерено с помощью коэффициент ранговой корреляции.

Другой пример: в Таблица сопряженности с низкий уровень дохода, средний доход, и высокий доход в строке переменная и уровень образования -нет средней школы, Средняя школа, Университет- в переменной столбца),[1] ранговая корреляция измеряет взаимосвязь между доходом и уровнем образования.

Коэффициенты корреляции

Некоторые из наиболее популярных рангов корреляция статистика включает

  1. Спирмена ρ
  2. Кендалла τ
  3. Γ Гудмана и Краскала
  4. Somers 'D

Возрастающая ранговая корреляция коэффициент подразумевает растущее согласие между рейтингами. Коэффициент находится внутри интервала [−1, 1] и принимает значение:

  • 1, если соответствие между двумя рейтингами идеальное; два рейтинга совпадают.
  • 0, если рейтинги полностью независимы.
  • −1, если расхождение между двумя рейтингами полное; один рейтинг противоположен другому.

Следующий Диаконис (1988), рейтинг можно рассматривать как перестановка из набор объектов. Таким образом, мы можем рассматривать наблюдаемые рейтинги как данные, полученные, когда пространство выборки (идентифицировано) симметричная группа. Затем мы можем ввести метрика, превращая симметрическую группу в метрическое пространство. Разные метрики будут соответствовать разным ранговым корреляциям.

Общий коэффициент корреляции

Кендалл 1970[2] показал, что его (тау) и Спирмена (rho) - частные случаи общего коэффициента корреляции.

Предположим, у нас есть набор объекты, которые рассматриваются в отношении двух свойств, представленных и , формируя наборы ценностей и . Любой паре людей скажите -го и -го мы назначаем -счет, обозначаемый , а -счет, обозначаемый . Единственное требование к этим функциям - они должны быть антисимметричными, поэтому и . (Обратите внимание, что в частности если .) Тогда обобщенный коэффициент корреляции определяется как

Эквивалентно, если все коэффициенты собраны в матрицы и , с участием и , тогда

где это Внутренний продукт Фробениуса и то Норма Фробениуса. В частности, общий коэффициент корреляции - это косинус угла между матрицами и .

Кендалла как частный случай

Если , это ряды -член согласно -качество и -качество соответственно, то можно определить

Сумма - количество согласованных пар минус количество дискордантных пар (см. Коэффициент ранговой корреляции Кендалла тау ). Сумма просто , количество терминов , как есть . Таким образом, в этом случае

Спирмена как частный случай

Если , это ряды -член согласно и -качество соответственно, мы можем просто определить

Суммы и равны, поскольку оба и диапазон от к . Тогда у нас есть:

сейчас же

У нас также есть

и, следовательно

будучи суммой квадратов первых Naturals равно . Таким образом, последнее уравнение сводится к

В дальнейшем

и таким образом, подставив в исходную формулу эти результаты, получим

где разница между рангами.

что точно Коэффициент ранговой корреляции Спирмена .

Рангово-бисериальная корреляция

Джин Гласс (1965) отметил, что бисериал ранга может быть получен из формулы Спирмена. . «Можно вывести коэффициент, определенный на X, дихотомической переменной, и Y, ранжирующей переменной, которая оценивает ро Спирмена между X и Y так же, как бисериал r оценивает r Пирсона между двумя нормальными переменными» (стр. 91). Ранговая бисериальная корреляция была введена девятью годами ранее Эдвардом Кюртоном (1956) как мера ранговой корреляции, когда ранги делятся на две группы.

Формула простой разности Керби

Дэйв Керби (2014) рекомендовал бисериал рангов в качестве меры для ознакомления студентов с ранговой корреляцией, поскольку общую логику можно объяснить на вводном уровне. Бисериал ранга - это корреляция, используемая с U-критерий Манна – Уитни, метод, обычно описываемый на вводных курсах по статистике в колледжах. Данные для этого теста состоят из двух групп; и для каждого члена группы результат оценивается для исследования в целом.

Керби показал, что эту ранговую корреляцию можно выразить двумя понятиями: процент данных, подтверждающих высказанную гипотезу, и процент данных, не подтверждающих ее. Формула простой разности Керби утверждает, что ранговая корреляция может быть выражена как разница между долей благоприятных свидетельств (ж) за вычетом доли неблагоприятных доказательств (ты).

Пример и интерпретация

Чтобы проиллюстрировать вычисления, предположим, что тренер тренирует бегунов на длинные дистанции в течение одного месяца, используя два метода. В группе A 5 бегунов, а в группе B 4 бегуна. Заявленная гипотеза заключается в том, что метод А дает более быстрых бегунов. Гонка для оценки результатов показывает, что бегуны из группы A действительно бегают быстрее, имея следующие ранги: 1, 2, 3, 4 и 6. Таким образом, более медленные бегуны из группы B имеют ранги 5, 7, 8, и 9.

Анализ проводится по парам, определяемым как член одной группы по сравнению с членом другой группы. Например, самый быстрый бегун в исследовании входит в четыре пары: (1,5), (1,7), (1,8) и (1,9). Все четыре пары поддерживают гипотезу, потому что в каждой паре бегун из группы A быстрее бегуна из группы B. Всего насчитывается 20 пар, и 19 пар подтверждают гипотезу. Единственная пара, которая не поддерживает гипотезу, - это двое бегунов с 5-м и 6-м рангами, потому что в этой паре бегун из группы B показал лучшее время. По формуле простой разности Керби 95% данных подтверждают гипотезу (19 из 20 пар), а 5% не поддерживают (1 из 20 пар), поэтому ранговая корреляция составляет r = 0,95 - 0,05 = 0,90 .

Максимальное значение корреляции r = 1, что означает, что 100% пар поддерживают гипотезу. Корреляция r = 0 показывает, что половина пар поддерживает гипотезу, а половина - нет; Другими словами, группы выборки не различаются по рангам, поэтому нет никаких доказательств того, что они происходят из двух разных популяций. Можно сказать, что величина эффекта r = 0 не описывает никакой связи между членством в группе и рангами членов.

Рекомендации

  1. ^ Крускал, Уильям Х. (1958). «Порядковые меры объединения». Журнал Американской статистической ассоциации. 53 (284): 814–861. Дои:10.2307/2281954. JSTOR  2281954.
  2. ^ Кендалл, Морис G (1970). Методы ранговой корреляции (4-е изд.). Грифон. ISBN  9780852641996.

дальнейшее чтение

внешняя ссылка