Коэффициент ранговой корреляции Кендалла - Kendall rank correlation coefficient
В статистика, то Коэффициент ранговой корреляции Кендалла, обычно называемый Коэффициент Кендалла τ (после греческой буквы τ, тау), является статистика используется для измерения порядковая ассоциация между двумя измеренными величинами. А τ тест это непараметрический проверка гипотез для статистической зависимости по коэффициенту τ.
Это мера ранговая корреляция: сходство порядка данных при в рейтинге по каждой из величин. Он назван в честь Морис Кендалл, который разработал его в 1938 году,[1] хотя Густав Фехнер предложил аналогичную меру в контексте Временные ряды в 1897 г.[2]
Интуитивно понятно, что корреляция Кендалла между двумя переменными будет высокой, когда наблюдения имеют схожую (или идентичную для корреляции 1) классифицировать (т. е. метка относительного положения наблюдений внутри переменной: 1-я, 2-я, 3-я и т. д.) между двумя переменными, и низкая, когда наблюдения имеют разный (или полностью разный для корреляции -1) ранг между двумя переменными.
Оба Кендалла и Спирмена могут быть сформулированы как частные случаи более общий коэффициент корреляции.
Определение
Позволять быть набором наблюдений совместных случайных величин Икс и Y, такие что все значения () и () уникальны (связями для простоты пренебрегаем). Любая пара наблюдений и , куда , как говорят, согласный если порядок сортировки и соглашается: то есть, если оба и держит или оба и ; в противном случае их называют несогласованный.
Коэффициент Кендалла τ определяется как:
Где это биномиальный коэффициент для количества способов выбрать два элемента из n элементов.
Характеристики
В знаменатель - общее количество парных комбинаций, поэтому коэффициент должен быть в диапазоне −1 ≤τ ≤ 1.
- Если соответствие между двумя рейтингами идеальное (т. Е. Два рейтинга совпадают), коэффициент имеет значение 1.
- Если несоответствие между двумя рейтингами полное (то есть одно ранжирование противоположно другому), коэффициент имеет значение -1.
- Если Икс и Y находятся независимый, то можно ожидать, что коэффициент будет примерно равен нулю.
- Явное выражение для коэффициента ранга Кендалла: .
Проверка гипотез
Ранговый коэффициент Кендалла часто используется как статистика теста в проверка статистической гипотезы чтобы установить, могут ли две переменные считаться статистически зависимыми. Этот тест непараметрический, так как он не полагается на какие-либо предположения о распределении Икс или же Y или распространение (Икс,Y).
Под нулевая гипотеза независимости от Икс и Y, то выборочное распределение из τ имеет ожидаемое значение нуля. Точное распределение не может быть охарактеризовано в терминах общих распределений, но может быть рассчитано точно для небольших выборок; для больших выборок обычно используют приближение к нормальное распределение, с нулевым средним и дисперсией
- .[4]
Учет галстуков
Пара как говорят связанный если или же ; связанная пара не является ни согласованной, ни противоречивой. Когда в данных возникают связанные пары, коэффициент можно изменить несколькими способами, чтобы он оставался в диапазоне [-1, 1]:
Тау-а
Статистика Тау-а проверяет сила ассоциации из перекрестные таблицы. Обе переменные должны быть порядковый. Tau-a не будет делать никаких поправок на связи. Это определяется как:
куда пc, пd и п0 определены, как в следующем разделе.
Тау-б
Статистика Tau-b, в отличие от Tau-a, делает поправки на связи.[5] Значения Tau-b варьируются от -1 (100% отрицательная ассоциация или идеальная инверсия) до +1 (100% положительная ассоциация или полное совпадение). Нулевое значение указывает на отсутствие ассоциации.
Коэффициент Кендалла Тау-b определяется как:
куда
Имейте в виду, что некоторые статистические пакеты, например SPSS, используйте альтернативные формулы для вычисления вычислительной эффективности с удвоением «обычного» количества согласованных и несогласованных пар.[6]
Тау-ц
Tau-c (также называемый Stuart-Kendall Tau-c)[7] больше подходит, чем Tau-b для анализа данных на основе неквадратных (т.е. прямоугольных) таблицы непредвиденных обстоятельств.[7][8] Поэтому используйте Tau-b, если базовая шкала обеих переменных имеет одинаковое количество возможных значений (до ранжирования), и Tau-c, если они различаются. Например, одна переменная может быть оценена по 5-балльной шкале (очень хорошо, хорошо, средне, плохо, очень плохо), а другая может быть основана на более тонкой 10-балльной шкале.
Коэффициент Кендалла Тау-c определяется как:[8]
куда
Тесты значимости
Когда две величины статистически независимы, распределение трудно охарактеризовать в терминах известных распределений. Однако для следующая статистика, , приблизительно распределена как стандартная норма, когда переменные статистически независимы:
Таким образом, чтобы проверить, являются ли две переменные статистически зависимыми, вычисляется , и находит кумулятивную вероятность для стандартного нормального распределения при . Для двустороннего теста умножьте это число на два, чтобы получить п-ценить. Если п-значение ниже заданного уровня значимости, отвергают нулевую гипотезу (на этом уровне значимости) о том, что величины статистически независимы.
Многочисленные корректировки следует добавить в при учете галстуков. Следующая статистика, , имеет то же распределение, что и распределение, и снова приблизительно равно стандартному нормальному распределению, когда величины статистически независимы:
куда
Иногда это называют тестом Манна-Кендалла.[9]
Алгоритмы
Прямое вычисление числителя , включает в себя две вложенные итерации, которые характеризуются следующим псевдокодом:
число: = 0за i: = 2..N делать за j: = 1 .. (i - 1) делать число: = число + знак (x [i] - x [j]) × знак (y [i] - y [j])возвращаться число
Хотя этот алгоритм быстро реализуется, он по сложности и становится очень медленным на больших выборках. Более сложный алгоритм[10] построенный на Сортировка слиянием алгоритм можно использовать для вычисления числителя в время.
Начните с сортировки ваших точек данных по первому количеству, , и во вторую очередь (среди связей в ) по второй величине, . При таком первоначальном заказе не сортируется, и ядро алгоритма состоит в вычислении количества шагов Пузырьковая сортировка потребуется для сортировки этого начального . Расширенный Сортировка слиянием алгоритм, с сложность, может применяться для вычисления количества свопов, , что потребовалось бы Пузырьковая сортировка Сортировать . Тогда числитель для вычисляется как:
куда вычисляется как и , но что касается совместных связей в и .
А Сортировка слиянием разделяет данные для сортировки, на две примерно равные половины, и , затем сортирует каждую половину рекурсивно, а затем объединяет две отсортированные половины в полностью отсортированный вектор. Количество Пузырьковая сортировка свопы равно:
куда и отсортированные версии и , и характеризует Пузырьковая сортировка swap-эквивалент для операции слияния. вычисляется, как показано в следующем псевдокоде:
функция M (L [1..n], R [1..m]) является i: = 1 j: = 1 nSwaps: = 0 пока я ≤ п и j ≤ m делать если R [j]тогда nSwaps: = nSwaps + n - i + 1 j: = j + 1 еще я: = я + 1 возвращаться nSwaps
Побочным эффектом описанных выше шагов является то, что в итоге вы получаете отсортированную версию и отсортированная версия . Таким образом, факторы и используется для вычисления легко получить за один проход линейного времени через отсортированные массивы.
Программные реализации
- р базовый пакет статистики реализует тест
cor.test (x, y, method = "kendall")
в своем пакете "stats" (такжеcor (x, y, method = "kendall")
будет работать, но без возврата p-значения). - За Python, то SciPy библиотека реализует вычисление в
scipy.stats.kendalltau
Смотрите также
- Корреляция
- Кендалл тау расстояние
- Кендаллс W
- Коэффициент ранговой корреляции Спирмена
- Гамма Гудмана и Крускала
- Оценка Тейла – Сена
- U-критерий Манна – Уитни - он эквивалентен коэффициенту корреляции тау Кендалла, если одна из переменных является двоичной.
Рекомендации
- ^ Кендалл, М. (1938). «Новая мера ранговой корреляции». Биометрика. 30 (1–2): 81–89. Дои:10.1093 / biomet / 30.1-2.81. JSTOR 2332226.
- ^ Крускал, В. (1958). «Порядковые меры объединения». Журнал Американской статистической ассоциации. 53 (284): 814–861. Дои:10.2307/2281954. JSTOR 2281954. МИСТЕР 0100941.
- ^ Нельсен, Р. Б. (2001) [1994], «Кендалл тау метрика», Энциклопедия математики, EMS Press
- ^ Прохоров, А. (2001) [1994], «Коэффициент Кендалла ранговой корреляции», Энциклопедия математики, EMS Press
- ^ Агрести, А. (2010). Анализ порядковых категориальных данных (Второе изд.). Нью-Йорк: Джон Вили и сыновья. ISBN 978-0-470-08289-8.
- ^ IBM (2016). IBM SPSS Statistics 24 Алгоритмы. IBM. п. 168. Получено 31 августа 2017.
- ^ а б Берри, К. Дж .; Johnston, J. E .; Zahran, S .; Мильке, П. В. (2009). «Тау-мера эффекта Стюарта для порядковых переменных: некоторые методологические соображения». Методы исследования поведения. 41 (4): 1144–1148. Дои:10.3758 / brm.41.4.1144. PMID 19897822.
- ^ а б Стюарт, А. (1953). «Оценка и сравнение сильных сторон ассоциации в таблицах непредвиденных обстоятельств». Биометрика. 40 (1–2): 105–110. Дои:10.2307/2333101. JSTOR 2333101.
- ^ Glen_b. «Отношения между Манн-Кендаллом и Кендаллом Тау-б».
- ^ Knight, W. (1966). "Компьютерный метод для расчета Тау Кендалла с разгруппированными данными". Журнал Американской статистической ассоциации. 61 (314): 436–439. Дои:10.2307/2282833. JSTOR 2282833.
дальнейшее чтение
- Абди, Х. (2007). «Ранговая корреляция Кендалла» (PDF). В Салкинд, Нью-Джерси (ред.). Энциклопедия измерения и статистики. Таузенд-Оукс (Калифорния): Шалфей.
- Дэниел, Уэйн В. (1990). "Тау Кендалла". Прикладная непараметрическая статистика (2-е изд.). Бостон: PWS-Kent. С. 365–377. ISBN 978-0-534-91976-4.
- Кендалл, Морис; Гиббонс, Джин Дикинсон (1990) [Впервые опубликовано в 1948 году]. Методы ранговой корреляции. Серия книг Чарльза Гриффина (5-е изд.). Оксфорд: Издательство Оксфордского университета. ISBN 978-0195208375.
- Бонетт, Дуглас Дж .; Райт, Томас А. (2000). «Требования к размеру выборки для оценки корреляций Пирсона, Кендалла и Спирмена». Психометрика. 65 (1): 23–28. Дои:10.1007 / BF02294183.