Коэффициент ранговой корреляции Кендалла - Kendall rank correlation coefficient

В статистика, то Коэффициент ранговой корреляции Кендалла, обычно называемый Коэффициент Кендалла τ (после греческой буквы τ, тау), является статистика используется для измерения порядковая ассоциация между двумя измеренными величинами. А τ тест это непараметрический проверка гипотез для статистической зависимости по коэффициенту τ.

Это мера ранговая корреляция: сходство порядка данных при в рейтинге по каждой из величин. Он назван в честь Морис Кендалл, который разработал его в 1938 году,[1] хотя Густав Фехнер предложил аналогичную меру в контексте Временные ряды в 1897 г.[2]

Интуитивно понятно, что корреляция Кендалла между двумя переменными будет высокой, когда наблюдения имеют схожую (или идентичную для корреляции 1) классифицировать (т. е. метка относительного положения наблюдений внутри переменной: 1-я, 2-я, 3-я и т. д.) между двумя переменными, и низкая, когда наблюдения имеют разный (или полностью разный для корреляции -1) ранг между двумя переменными.

Оба Кендалла и Спирмена могут быть сформулированы как частные случаи более общий коэффициент корреляции.

Определение

Позволять быть набором наблюдений совместных случайных величин Икс и Y, такие что все значения () и () уникальны (связями для простоты пренебрегаем). Любая пара наблюдений и , куда , как говорят, согласный если порядок сортировки и соглашается: то есть, если оба и держит или оба и ; в противном случае их называют несогласованный.

Коэффициент Кендалла τ определяется как:

[3]

Где это биномиальный коэффициент для количества способов выбрать два элемента из n элементов.

Характеристики

В знаменатель - общее количество парных комбинаций, поэтому коэффициент должен быть в диапазоне −1 ≤τ ≤ 1.

  • Если соответствие между двумя рейтингами идеальное (т. Е. Два рейтинга совпадают), коэффициент имеет значение 1.
  • Если несоответствие между двумя рейтингами полное (то есть одно ранжирование противоположно другому), коэффициент имеет значение -1.
  • Если Икс и Y находятся независимый, то можно ожидать, что коэффициент будет примерно равен нулю.
  • Явное выражение для коэффициента ранга Кендалла: .

Проверка гипотез

Ранговый коэффициент Кендалла часто используется как статистика теста в проверка статистической гипотезы чтобы установить, могут ли две переменные считаться статистически зависимыми. Этот тест непараметрический, так как он не полагается на какие-либо предположения о распределении Икс или же Y или распространение (Икс,Y).

Под нулевая гипотеза независимости от Икс и Y, то выборочное распределение из τ имеет ожидаемое значение нуля. Точное распределение не может быть охарактеризовано в терминах общих распределений, но может быть рассчитано точно для небольших выборок; для больших выборок обычно используют приближение к нормальное распределение, с нулевым средним и дисперсией

.[4]

Учет галстуков

Пара как говорят связанный если или же ; связанная пара не является ни согласованной, ни противоречивой. Когда в данных возникают связанные пары, коэффициент можно изменить несколькими способами, чтобы он оставался в диапазоне [-1, 1]:

Тау-а

Статистика Тау-а проверяет сила ассоциации из перекрестные таблицы. Обе переменные должны быть порядковый. Tau-a не будет делать никаких поправок на связи. Это определяется как:

куда пc, пd и п0 определены, как в следующем разделе.

Тау-б

Статистика Tau-b, в отличие от Tau-a, делает поправки на связи.[5] Значения Tau-b варьируются от -1 (100% отрицательная ассоциация или идеальная инверсия) до +1 (100% положительная ассоциация или полное совпадение). Нулевое значение указывает на отсутствие ассоциации.

Коэффициент Кендалла Тау-b определяется как:

куда

Имейте в виду, что некоторые статистические пакеты, например SPSS, используйте альтернативные формулы для вычисления вычислительной эффективности с удвоением «обычного» количества согласованных и несогласованных пар.[6]

Тау-ц

Tau-c (также называемый Stuart-Kendall Tau-c)[7] больше подходит, чем Tau-b для анализа данных на основе неквадратных (т.е. прямоугольных) таблицы непредвиденных обстоятельств.[7][8] Поэтому используйте Tau-b, если базовая шкала обеих переменных имеет одинаковое количество возможных значений (до ранжирования), и Tau-c, если они различаются. Например, одна переменная может быть оценена по 5-балльной шкале (очень хорошо, хорошо, средне, плохо, очень плохо), а другая может быть основана на более тонкой 10-балльной шкале.

Коэффициент Кендалла Тау-c определяется как:[8]

куда

Тесты значимости

Когда две величины статистически независимы, распределение трудно охарактеризовать в терминах известных распределений. Однако для следующая статистика, , приблизительно распределена как стандартная норма, когда переменные статистически независимы:

Таким образом, чтобы проверить, являются ли две переменные статистически зависимыми, вычисляется , и находит кумулятивную вероятность для стандартного нормального распределения при . Для двустороннего теста умножьте это число на два, чтобы получить п-ценить. Если п-значение ниже заданного уровня значимости, отвергают нулевую гипотезу (на этом уровне значимости) о том, что величины статистически независимы.

Многочисленные корректировки следует добавить в при учете галстуков. Следующая статистика, , имеет то же распределение, что и распределение, и снова приблизительно равно стандартному нормальному распределению, когда величины статистически независимы:

куда

Иногда это называют тестом Манна-Кендалла.[9]

Алгоритмы

Прямое вычисление числителя , включает в себя две вложенные итерации, которые характеризуются следующим псевдокодом:

число: = 0за i: = 2..N делать    за j: = 1 .. (i - 1) делать        число: = число + знак (x [i] - x [j]) × знак (y [i] - y [j])возвращаться число

Хотя этот алгоритм быстро реализуется, он по сложности и становится очень медленным на больших выборках. Более сложный алгоритм[10] построенный на Сортировка слиянием алгоритм можно использовать для вычисления числителя в время.

Начните с сортировки ваших точек данных по первому количеству, , и во вторую очередь (среди связей в ) по второй величине, . При таком первоначальном заказе не сортируется, и ядро ​​алгоритма состоит в вычислении количества шагов Пузырьковая сортировка потребуется для сортировки этого начального . Расширенный Сортировка слиянием алгоритм, с сложность, может применяться для вычисления количества свопов, , что потребовалось бы Пузырьковая сортировка Сортировать . Тогда числитель для вычисляется как:

куда вычисляется как и , но что касается совместных связей в и .

А Сортировка слиянием разделяет данные для сортировки, на две примерно равные половины, и , затем сортирует каждую половину рекурсивно, а затем объединяет две отсортированные половины в полностью отсортированный вектор. Количество Пузырьковая сортировка свопы равно:

куда и отсортированные версии и , и характеризует Пузырьковая сортировка swap-эквивалент для операции слияния. вычисляется, как показано в следующем псевдокоде:

функция M (L [1..n], R [1..m]) является    i: = 1 j: = 1 nSwaps: = 0 пока я ≤ п и j ≤ m делать        если R [j] тогда            nSwaps: = nSwaps + n - i + 1 j: = j + 1 еще            я: = я + 1 возвращаться nSwaps

Побочным эффектом описанных выше шагов является то, что в итоге вы получаете отсортированную версию и отсортированная версия . Таким образом, факторы и используется для вычисления легко получить за один проход линейного времени через отсортированные массивы.

Программные реализации

  • р базовый пакет статистики реализует тест cor.test (x, y, method = "kendall") в своем пакете "stats" (также cor (x, y, method = "kendall") будет работать, но без возврата p-значения).
  • За Python, то SciPy библиотека реализует вычисление в scipy.stats.kendalltau

Смотрите также

Рекомендации

  1. ^ Кендалл, М. (1938). «Новая мера ранговой корреляции». Биометрика. 30 (1–2): 81–89. Дои:10.1093 / biomet / 30.1-2.81. JSTOR  2332226.
  2. ^ Крускал, В. (1958). «Порядковые меры объединения». Журнал Американской статистической ассоциации. 53 (284): 814–861. Дои:10.2307/2281954. JSTOR  2281954. МИСТЕР  0100941.
  3. ^ Нельсен, Р. Б. (2001) [1994], «Кендалл тау метрика», Энциклопедия математики, EMS Press
  4. ^ Прохоров, А. (2001) [1994], «Коэффициент Кендалла ранговой корреляции», Энциклопедия математики, EMS Press
  5. ^ Агрести, А. (2010). Анализ порядковых категориальных данных (Второе изд.). Нью-Йорк: Джон Вили и сыновья. ISBN  978-0-470-08289-8.
  6. ^ IBM (2016). IBM SPSS Statistics 24 Алгоритмы. IBM. п. 168. Получено 31 августа 2017.
  7. ^ а б Берри, К. Дж .; Johnston, J. E .; Zahran, S .; Мильке, П. В. (2009). «Тау-мера эффекта Стюарта для порядковых переменных: некоторые методологические соображения». Методы исследования поведения. 41 (4): 1144–1148. Дои:10.3758 / brm.41.4.1144. PMID  19897822.
  8. ^ а б Стюарт, А. (1953). «Оценка и сравнение сильных сторон ассоциации в таблицах непредвиденных обстоятельств». Биометрика. 40 (1–2): 105–110. Дои:10.2307/2333101. JSTOR  2333101.
  9. ^ Glen_b. «Отношения между Манн-Кендаллом и Кендаллом Тау-б».
  10. ^ Knight, W. (1966). "Компьютерный метод для расчета Тау Кендалла с разгруппированными данными". Журнал Американской статистической ассоциации. 61 (314): 436–439. Дои:10.2307/2282833. JSTOR  2282833.

дальнейшее чтение

внешняя ссылка