Коэффициент ранговой корреляции Кендалла - Kendall rank correlation coefficient

В статистика, то Коэффициент ранговой корреляции Кендалла, обычно называемый Коэффициент Кендалла τ (после греческой буквы τ, тау), является статистика используется для измерения порядковая ассоциация между двумя измеренными величинами. А τ тест это непараметрический проверка гипотез для статистической зависимости по коэффициенту τ.

Это мера ранговая корреляция: сходство порядка данных при в рейтинге по каждой из величин. Он назван в честь Морис Кендалл, который разработал его в 1938 году,^[1] хотя Густав Фехнер предложил аналогичную меру в контексте Временные ряды в 1897 г.^[2]

Интуитивно понятно, что корреляция Кендалла между двумя переменными будет высокой, когда наблюдения имеют схожую (или идентичную для корреляции 1) классифицировать (т. е. метка относительного положения наблюдений внутри переменной: 1-я, 2-я, 3-я и т. д.) между двумя переменными, и низкая, когда наблюдения имеют разный (или полностью разный для корреляции -1) ранг между двумя переменными.

Оба Кендалла ${displaystyle au}$ и Спирмена ${displaystyle ho}$ могут быть сформулированы как частные случаи более общий коэффициент корреляции.

Определение

Позволять ${displaystyle (x_ {1}, y_ {1}), ..., (x_ {n}, y_ {n})}$ быть набором наблюдений совместных случайных величин Икс и Y, такие что все значения ( ${displaystyle x_ {i}}$ ) и ( ${displaystyle y_ {i}}$ ) уникальны (связями для простоты пренебрегаем). Любая пара наблюдений ${displaystyle (x_ {i}, y_ {i})}$ и ${displaystyle (x_ {j}, y_ {j})}$ , куда ${displaystyle i$ , как говорят, согласный если порядок сортировки ${displaystyle (x_ {i}, x_ {j})}$ и ${displaystyle (y_ {i}, y_ {j})}$ соглашается: то есть, если оба ${displaystyle x_ {i}> x_ {j}}$ и ${displaystyle y_ {i}> y_ {j}}$ держит или оба ${displaystyle x_ {i}$ и ${displaystyle y_ {i}$ ; в противном случае их называют несогласованный.

Коэффициент Кендалла τ определяется как:

{displaystyle au = {frac {({ext {количество совпадающих пар}}) - ({ext {количество несовместимых пар}})} {n выберите 2}}.}

^[3]

Где ${displaystyle {n choose 2} = {n (n-1) over 2}}$ это биномиальный коэффициент для количества способов выбрать два элемента из n элементов.

Характеристики

В знаменатель - общее количество парных комбинаций, поэтому коэффициент должен быть в диапазоне −1 ≤τ ≤ 1.

Если соответствие между двумя рейтингами идеальное (т. Е. Два рейтинга совпадают), коэффициент имеет значение 1.
Если несоответствие между двумя рейтингами полное (то есть одно ранжирование противоположно другому), коэффициент имеет значение -1.
Если Икс и Y находятся независимый, то можно ожидать, что коэффициент будет примерно равен нулю.
Явное выражение для коэффициента ранга Кендалла: ${displaystyle au = {frac {2} {n (n-1)}} сумма _ {i$ .

Проверка гипотез

Ранговый коэффициент Кендалла часто используется как статистика теста в проверка статистической гипотезы чтобы установить, могут ли две переменные считаться статистически зависимыми. Этот тест непараметрический, так как он не полагается на какие-либо предположения о распределении Икс или же Y или распространение (Икс,Y).

Под нулевая гипотеза независимости от Икс и Y, то выборочное распределение из τ имеет ожидаемое значение нуля. Точное распределение не может быть охарактеризовано в терминах общих распределений, но может быть рассчитано точно для небольших выборок; для больших выборок обычно используют приближение к нормальное распределение, с нулевым средним и дисперсией

{displaystyle {frac {2 (2n + 5)} {9n (n-1)}}}

.^[4]

Учет галстуков

Пара ${displaystyle {(x_ {i}, y_ {i}), (x_ {j}, y_ {j})}}$ как говорят связанный если ${displaystyle x_ {i} = x_ {j}}$ или же ${displaystyle y_ {i} = y_ {j}}$ ; связанная пара не является ни согласованной, ни противоречивой. Когда в данных возникают связанные пары, коэффициент можно изменить несколькими способами, чтобы он оставался в диапазоне [-1, 1]:

Тау-а

Статистика Тау-а проверяет сила ассоциации из перекрестные таблицы. Обе переменные должны быть порядковый. Tau-a не будет делать никаких поправок на связи. Это определяется как:

{displaystyle au _ {A} = {frac {n_ {c} -n_ {d}} {n_ {0}}}}

куда п_c, п_d и п₀ определены, как в следующем разделе.

Тау-б

Статистика Tau-b, в отличие от Tau-a, делает поправки на связи.^[5] Значения Tau-b варьируются от -1 (100% отрицательная ассоциация или идеальная инверсия) до +1 (100% положительная ассоциация или полное совпадение). Нулевое значение указывает на отсутствие ассоциации.

Коэффициент Кендалла Тау-b определяется как:

{displaystyle au _ {B} = {frac {n_ {c} -n_ {d}} {sqrt {(n_ {0} -n_ {1}) (n_ {0} -n_ {2})}}}}

куда

{displaystyle {egin {выровнено} n_ {0} & = n (n-1) / 2 n_ {1} & = sum _ {i} t_ {i} (t_ {i} -1) / 2 n_ { 2} & = sum _ {j} u_ {j} (u_ {j} -1) / 2 n_ {c} & = {ext {Число совпадающих пар}} n_ {d} & = {ext {Число дискордантных пар}} t_ {i} & = {ext {Количество связанных значений в}} i ^ {ext {th}} {ext {группе связей для первого количества}} u_ {j} & = {ext {количество связанных значений в}} j ^ {ext {th}} {ext {группа связей для второго количества}} end {выровнено}}}

Имейте в виду, что некоторые статистические пакеты, например SPSS, используйте альтернативные формулы для вычисления вычислительной эффективности с удвоением «обычного» количества согласованных и несогласованных пар.^[6]

Тау-ц

Tau-c (также называемый Stuart-Kendall Tau-c)^[7] больше подходит, чем Tau-b для анализа данных на основе неквадратных (т.е. прямоугольных) таблицы непредвиденных обстоятельств.^[7]^[8] Поэтому используйте Tau-b, если базовая шкала обеих переменных имеет одинаковое количество возможных значений (до ранжирования), и Tau-c, если они различаются. Например, одна переменная может быть оценена по 5-балльной шкале (очень хорошо, хорошо, средне, плохо, очень плохо), а другая может быть основана на более тонкой 10-балльной шкале.

Коэффициент Кендалла Тау-c определяется как:^[8]

{displaystyle au _ {C} = {гидроразрыв {2 (n_ {c} -n_ {d})} {n ^ {2} {frac {(m-1)} {m}}}}}

куда

{displaystyle {egin {align} n_ {c} & = {ext {Число совпадающих пар}} n_ {d} & = {ext {Число несовпадающих пар}} r & = {ext {Число строк}} c & = {ext {Количество столбцов}} m & = min (r, c) end {выровнено}}}

Тесты значимости

Когда две величины статистически независимы, распределение ${displaystyle au}$ трудно охарактеризовать в терминах известных распределений. Однако для ${displaystyle au _ {A}}$ следующая статистика, ${displaystyle z_ {A}}$ , приблизительно распределена как стандартная норма, когда переменные статистически независимы:

{displaystyle z_ {A} = {3 (n_ {c} -n_ {d}) больше {sqrt {n (n-1) (2n + 5) / 2}}}}

Таким образом, чтобы проверить, являются ли две переменные статистически зависимыми, вычисляется ${displaystyle z_ {A}}$ , и находит кумулятивную вероятность для стандартного нормального распределения при ${displaystyle - | z_ {A} |}$ . Для двустороннего теста умножьте это число на два, чтобы получить п-ценить. Если п-значение ниже заданного уровня значимости, отвергают нулевую гипотезу (на этом уровне значимости) о том, что величины статистически независимы.

Многочисленные корректировки следует добавить в ${displaystyle z_ {A}}$ при учете галстуков. Следующая статистика, ${displaystyle z_ {B}}$ , имеет то же распределение, что и ${displaystyle au _ {B}}$ распределение, и снова приблизительно равно стандартному нормальному распределению, когда величины статистически независимы:

{displaystyle z_ {B} = {n_ {c} -n_ {d} over {sqrt {v}}}}

куда

{displaystyle {egin {array} {ccl} v & = & (v_ {0} -v_ {t} -v_ {u}) / 18 + v_ {1} + v_ {2} v_ {0} & = & n ( n-1) (2n + 5) v_ {t} & = & sum _ {i} t_ {i} (t_ {i} -1) (2t_ {i} +5) v_ {u} & = & sum _ {j} u_ {j} (u_ {j} -1) (2u_ {j} +5) v_ {1} & = & sum _ {i} t_ {i} (t_ {i} -1) sum _ { j} u_ {j} (u_ {j} -1) / (2n (n-1)) v_ {2} & = & sum _ {i} t_ {i} (t_ {i} -1) (t_ { i} -2) sum _ {j} u_ {j} (u_ {j} -1) (u_ {j} -2) / (9n (n-1) (n-2)) end {array}}}

Иногда это называют тестом Манна-Кендалла.^[9]

Алгоритмы

Прямое вычисление числителя ${displaystyle n_ {c} -n_ {d}}$ , включает в себя две вложенные итерации, которые характеризуются следующим псевдокодом:

число: = 0за i: = 2..N делать    за j: = 1 .. (i - 1) делать        число: = число + знак (x [i] - x [j]) × знак (y [i] - y [j])возвращаться число

Хотя этот алгоритм быстро реализуется, он ${displaystyle O (n ^ {2})}$ по сложности и становится очень медленным на больших выборках. Более сложный алгоритм^[10] построенный на Сортировка слиянием алгоритм можно использовать для вычисления числителя в ${displaystyle O (журнал ncdot {n})}$ время.

Начните с сортировки ваших точек данных по первому количеству, ${displaystyle x}$ , и во вторую очередь (среди связей в ${displaystyle x}$ ) по второй величине, ${displaystyle y}$ . При таком первоначальном заказе ${displaystyle y}$ не сортируется, и ядро алгоритма состоит в вычислении количества шагов Пузырьковая сортировка потребуется для сортировки этого начального ${displaystyle y}$ . Расширенный Сортировка слиянием алгоритм, с ${displaystyle O (nlog n)}$ сложность, может применяться для вычисления количества свопов, ${displaystyle S (y)}$ , что потребовалось бы Пузырьковая сортировка Сортировать ${displaystyle y_ {i}}$ . Тогда числитель для ${displaystyle au}$ вычисляется как:

{displaystyle n_ {c} -n_ {d} = n_ {0} -n_ {1} -n_ {2} + n_ {3} -2S (y),}

куда ${displaystyle n_ {3}}$ вычисляется как ${displaystyle n_ {1}}$ и ${displaystyle n_ {2}}$ , но что касается совместных связей в ${displaystyle x}$ и ${displaystyle y}$ .

А Сортировка слиянием разделяет данные для сортировки, ${displaystyle y}$ на две примерно равные половины, ${displaystyle y_ {mathrm {left}}}$ и ${displaystyle y_ {mathrm {right}}}$ , затем сортирует каждую половину рекурсивно, а затем объединяет две отсортированные половины в полностью отсортированный вектор. Количество Пузырьковая сортировка свопы равно:

{displaystyle S (y) = S (y_ {mathrm {left}}) + S (y_ {mathrm {right}}) + M (Y_ {mathrm {left}}, Y_ {mathrm {right}})}

куда ${displaystyle Y_ {mathrm {left}}}$ и ${displaystyle Y_ {mathrm {right}}}$ отсортированные версии ${displaystyle y_ {mathrm {left}}}$ и ${displaystyle y_ {mathrm {right}}}$ , и ${displaystyle M (cdot, cdot)}$ характеризует Пузырьковая сортировка swap-эквивалент для операции слияния. ${displaystyle M (cdot, cdot)}$ вычисляется, как показано в следующем псевдокоде:

функция M (L [1..n], R [1..m]) является    i: = 1 j: = 1 nSwaps: = 0 пока я ≤ п и j ≤ m делать        если R [j] тогда            nSwaps: = nSwaps + n - i + 1 j: = j + 1 еще            я: = я + 1 возвращаться nSwaps

Побочным эффектом описанных выше шагов является то, что в итоге вы получаете отсортированную версию ${displaystyle x}$ и отсортированная версия ${displaystyle y}$ . Таким образом, факторы ${displaystyle t_ {i}}$ и ${displaystyle u_ {j}}$ используется для вычисления ${displaystyle au _ {B}}$ легко получить за один проход линейного времени через отсортированные массивы.

Программные реализации

р базовый пакет статистики реализует тест cor.test (x, y, method = "kendall") в своем пакете "stats" (также cor (x, y, method = "kendall") будет работать, но без возврата p-значения).
За Python, то SciPy библиотека реализует вычисление ${displaystyle au}$ в scipy.stats.kendalltau

Смотрите также

Корреляция
Кендалл тау расстояние
Кендаллс W
Коэффициент ранговой корреляции Спирмена
Гамма Гудмана и Крускала
Оценка Тейла – Сена
U-критерий Манна – Уитни - он эквивалентен коэффициенту корреляции тау Кендалла, если одна из переменных является двоичной.

дальнейшее чтение

Абди, Х. (2007). «Ранговая корреляция Кендалла» (PDF). В Салкинд, Нью-Джерси (ред.). Энциклопедия измерения и статистики. Таузенд-Оукс (Калифорния): Шалфей.
Дэниел, Уэйн В. (1990). "Тау Кендалла". Прикладная непараметрическая статистика (2-е изд.). Бостон: PWS-Kent. С. 365–377. ISBN 978-0-534-91976-4.
Кендалл, Морис; Гиббонс, Джин Дикинсон (1990) [Впервые опубликовано в 1948 году]. Методы ранговой корреляции. Серия книг Чарльза Гриффина (5-е изд.). Оксфорд: Издательство Оксфордского университета. ISBN 978-0195208375.
Бонетт, Дуглас Дж .; Райт, Томас А. (2000). «Требования к размеру выборки для оценки корреляций Пирсона, Кендалла и Спирмена». Психометрика. 65 (1): 23–28. Дои:10.1007 / BF02294183.

внешняя ссылка

[1] Кендалл, М. (1938). «Новая мера ранговой корреляции». Биометрика. 30 (1–2): 81–89. Дои:10.1093 / biomet / 30.1-2.81. JSTOR 2332226.

[2] Крускал, В. (1958). «Порядковые меры объединения». Журнал Американской статистической ассоциации. 53 (284): 814–861. Дои:10.2307/2281954. JSTOR 2281954. МИСТЕР 0100941.

[3] Нельсен, Р. Б. (2001) [1994], «Кендалл тау метрика», Энциклопедия математики, EMS Press

[4] Прохоров, А. (2001) [1994], «Коэффициент Кендалла ранговой корреляции», Энциклопедия математики, EMS Press

[5] Агрести, А. (2010). Анализ порядковых категориальных данных (Второе изд.). Нью-Йорк: Джон Вили и сыновья. ISBN 978-0-470-08289-8.

[IBM-6] IBM (2016). IBM SPSS Statistics 24 Алгоритмы. IBM. п. 168. Получено 31 августа 2017.

[Berry-7] а ^б Берри, К. Дж .; Johnston, J. E .; Zahran, S .; Мильке, П. В. (2009). «Тау-мера эффекта Стюарта для порядковых переменных: некоторые методологические соображения». Методы исследования поведения. 41 (4): 1144–1148. Дои:10.3758 / brm.41.4.1144. PMID 19897822.

[Stuart-8] а ^б Стюарт, А. (1953). «Оценка и сравнение сильных сторон ассоциации в таблицах непредвиденных обстоятельств». Биометрика. 40 (1–2): 105–110. Дои:10.2307/2333101. JSTOR 2333101.

[9] Glen_b. «Отношения между Манн-Кендаллом и Кендаллом Тау-б».

[10] Knight, W. (1966). "Компьютерный метод для расчета Тау Кендалла с разгруппированными данными". Журнал Американской статистической ассоциации. 61 (314): 436–439. Дои:10.2307/2282833. JSTOR 2282833.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

Коэффициент ранговой корреляции Кендалла - Kendall rank correlation coefficient

Содержание

Определение

Характеристики

Проверка гипотез

Учет галстуков

Тау-а

Тау-б

Тау-ц

Тесты значимости

Алгоритмы

Программные реализации

Смотрите также

Рекомендации

дальнейшее чтение

внешняя ссылка