Основная тенденция - Central tendency

В статистика, а основная тенденция (или же мера центральной тенденции) является центральным или типичным значением для распределение вероятностей.[1] Его также можно назвать центр или же место расположения распределения. В просторечии меры центральной тенденции часто называют средние. Период, термин основная тенденция датируется концом 1920-х гг.[2]

Наиболее распространенными показателями центральной тенденции являются среднее арифметическое, то медиана, а Режим. Средняя тенденция может быть рассчитана либо для конечного набора значений, либо для теоретического распределения, такого как нормальное распределение. Иногда авторы используют центральную тенденцию для обозначения «тенденции количественного данные группироваться вокруг какой-то центральной ценности ".[2][3]

Центральная тенденция распределения обычно противопоставляется его разброс или же изменчивость; дисперсия и центральная тенденция - часто характеризующие свойства распределений. Анализ может судить о том, имеют ли данные сильную или слабую центральную тенденцию, основываясь на ее дисперсии.

Меры

Следующее может применяться к одномерным данным. В зависимости от обстоятельств может оказаться целесообразным преобразовать данные перед вычислением центральной тенденции. Примеры - возведение значений в квадрат или логарифм. Подходит ли преобразование и каким оно должно быть, во многом зависит от анализируемых данных.

Среднее арифметическое или просто, иметь в виду
сумма всех измерений, деленная на количество наблюдений в наборе данных.
Медиана
среднее значение, отделяющее верхнюю половину от нижней половины набора данных. Медиана и мода - единственные меры центральной тенденции, которые можно использовать для порядковые данные, в котором значения ранжируются относительно друг друга, но не измеряются абсолютно.
Режим
наиболее частое значение в наборе данных. Это единственная мера центральной тенденции, которую можно использовать с номинальные данные, которым присвоены чисто качественные категории.
Среднее геометрическое
то пй корень продукта значений данных, где есть п из этих. Эта мера действительна только для данных, которые измеряются по строго положительной шкале.
Гармоническое среднее
то взаимный среднего арифметического обратных величин значений данных. Эта мера также действительна только для данных, которые измеряются по строго положительной шкале.
Среднее арифметическое взвешенное
среднее арифметическое, которое включает взвешивание определенных элементов данных.
Усеченное среднее или же усеченное среднее
среднее арифметическое значений данных после отбрасывания определенного количества или пропорции наивысшего и самого низкого значений данных.
Межквартильное среднее
усеченное среднее значение на основе данных в межквартильный размах.
Средний диапазон
среднее арифметическое максимального и минимального значений набора данных.
Midhinge
среднее арифметическое первого и третьего квартили.
Тримеан
взвешенное среднее арифметическое медианы и двух квартилей.
Winsorized среднее
среднее арифметическое, в котором крайние значения заменяются значениями, близкими к медиане.

Любое из вышеперечисленного может применяться к каждому измерению многомерных данных, но результаты могут не быть инвариантными по отношению к поворотам многомерного пространства. Кроме того, есть

Геометрическая медиана
что минимизирует сумму расстояний до точек данных. Это то же самое, что и медиана применительно к одномерным данным, но это не то же самое, что получение медианы каждого измерения независимо. Это не инвариантно к разному масштабированию различных измерений.
Квадратичное среднее (часто известный как среднеквадратичное значение )
полезен в технике, но не часто используется в статистике. Это связано с тем, что это не лучший индикатор центра распределения, когда распределение включает отрицательные значения.
Симплициальная глубина
вероятность того, что случайно выбранный симплекс с вершинами из данного распределения будет содержать данный центр
Медиана Тьюки
точка со свойством, что каждое содержащее ее полупространство также содержит много точек выборки

Решения вариационных задач

Некоторые меры центральной тенденции можно охарактеризовать как решение вариационной задачи в смысле вариационное исчисление, а именно минимизация отклонения от центра. То есть, учитывая меру статистическая дисперсия, требуется такая мера центральной тенденции, которая минимизирует отклонения: такая, чтобы отклонение от центра было минимальным среди всех вариантов выбора центра. В остальном «рассеяние предшествует местонахождению». Эти меры изначально определены в одном измерении, но могут быть обобщены для нескольких измерений. Этот центр может быть уникальным, а может и не быть. В смысле Lп пробелы, соответствие:

Lпразбрососновная тенденция
L0коэффициент вариацииРежим[а]
L1среднее абсолютное отклонениемедиана (геометрическая медиана )[b]
L2стандартное отклонениеиметь в виду (центроид )[c]
Lмаксимальное отклонениесредний диапазон[d]

Связанные функции называются п-нормы: соответственно 0- "норма", 1-норма, 2-норма и ∞-норма. Функция, соответствующая L0 пробел не является нормой, поэтому его часто называют в кавычках: 0- «норма».

В уравнениях для заданного (конечного) набора данных Икс, задуманный как вектор Икс = (Икс1,…,Иксп), разброс вокруг точки c это "расстояние" от Икс к постоянному вектору c = (c,…,c) в п-норма (нормированная на количество баллов п):

За п = 0 и р = ∞ эти функции определяются взятием пределов соответственно как п → 0 и п → ∞. За п = 0 предельные значения 00 = 0 и а0 = 0 или же а ≠ 0, поэтому разница становится просто равенством, поэтому 0-норма учитывает количество неравный точки. За п = ∞ преобладает наибольшее число, и поэтому ∞-норма является максимальной разницей.

Уникальность

Значение (L2 центр) и среднечастотный (L центр) уникальны (если они существуют), а медиана (L1 центр) и режим (L0 center) в целом не уникальны. Это можно понять с точки зрения выпуклость связанных функций (принудительные функции ).

2-норма и ∞-норма равны строго выпуклый, и, таким образом (посредством выпуклой оптимизации) минимизатор уникален (если он существует) и существует для ограниченных распределений. Таким образом, стандартное отклонение относительно среднего значения ниже, чем стандартное отклонение относительно любой другой точки, а максимальное отклонение относительно среднего диапазона ниже, чем максимальное отклонение относительно любой другой точки.

1-норма не строго выпуклый, тогда как строгая выпуклость необходима для обеспечения уникальности минимизатора. Соответственно, медиана (в смысле минимизации) в общем случае не уникальна, и фактически любая точка между двумя центральными точками дискретного распределения минимизирует среднее абсолютное отклонение.

0- «норма» не является выпуклой (следовательно, не нормой). Соответственно и мода не уникальна - например, в равномерном распределении любой точка - это режим.

Кластеризация

Вместо одной центральной точки можно запросить несколько точек, чтобы минимизировать отклонения от этих точек. Это ведет к кластерный анализ, где каждая точка в наборе данных кластеризуется с ближайшим «центром». Чаще всего использование 2-нормы обобщает среднее значение на k-средства кластеризации, а использование 1-нормы обобщает (геометрическую) медиану на kкластеризация медианы. Использование 0-нормы просто обобщает режим (наиболее распространенное значение) на использование k наиболее распространенные ценности как центры.

В отличие от одноцентровой статистики, эта многоцентровая кластеризация, как правило, не может быть вычислена в выражение в закрытой форме, а вместо этого должны быть вычислены или аппроксимированы итерационный метод; один общий подход алгоритмы ожидания – максимизации.

Информационная геометрия

Понятие «центр» как минимизирующее отклонение можно обобщить в информационная геометрия как распределение, которое минимизирует расхождение (обобщенное расстояние) от набора данных. Самый частый случай - это оценка максимального правдоподобия, где оценка максимального правдоподобия (MLE) максимизирует правдоподобие (минимизирует ожидаемые неожиданный ), которую можно интерпретировать геометрически, используя энтропия для измерения вариации: MLE минимизирует перекрестная энтропия (эквивалентно, относительная энтропия, Расходимость Кульбака – Лейблера).

Простой пример этого - для центра номинальных данных: вместо использования режима (единственный однозначный "центр") часто используется эмпирическая мераРаспределение частоты разделенный на размер образца ) как «центр». Например, учитывая двоичные данные, скажем орла или решки, если набор данных состоит из 2 орлов и 1 решки, то режим - "орел", но эмпирическая мера - 2/3 орла, 1/3 решки, что минимизирует перекрестную энтропию (общая неожиданность ) из набора данных. Эта перспектива также используется в регрессивный анализ, куда наименьших квадратов находит решение, минимизирующее расстояния от него, и аналогично в логистическая регрессия, оценка максимального правдоподобия минимизирует неожиданность (информационное расстояние).

Связь между средним, медианным и модой

За унимодальные распределения известны и точны следующие оценки:[4]

куда μ это среднее, ν это медиана, θ это режим, и σ стандартное отклонение.

Для каждого распределения[5][6]

Смотрите также

Примечания

  1. ^ В отличие от других мер, режим не требует наличия какой-либо геометрии в наборе и, таким образом, применяется одинаково в одном измерении, в нескольких измерениях или даже для категориальные переменные.
  2. ^ Медиана определяется только в одном измерении; геометрическая медиана - это многомерное обобщение.
  3. ^ Среднее значение может быть определено одинаково для векторов в нескольких измерениях и для скаляров в одном измерении; многомерную форму часто называют центроидом.
  4. ^ В нескольких измерениях средний диапазон можно определить по координатам (взять средний диапазон каждой координаты), хотя это не является обычным явлением.

Рекомендации

  1. ^ Вайсберг Х.Ф. (1992) Центральная тенденция и изменчивость, Серия статей Университета Сейдж о количественных приложениях в социальных науках, ISBN  0-8039-4007-6 стр.2
  2. ^ а б Upton, G .; Кук, И. (2008) Оксфордский статистический словарь, ОУП ISBN  978-0-19-954145-4 (запись для "центральной тенденции")
  3. ^ Додж, Ю. (2003) Оксфордский словарь статистических терминов, ОУП для Международный Статистический Институт. ISBN  0-19-920613-9 (запись для "центральной тенденции")
  4. ^ Джонсон Н.Л., Роджерс К.А. (1951) "Проблема моментов для одномодальных распределений". Анналы математической статистики, 22 (3) 433–439
  5. ^ Hotelling H, Solomons LM (1932) Пределы меры асимметрии. Annals Math Stat 3, 141–114
  6. ^ Гарвер (1932) О пределах меры асимметрии. Энн Математическая статистика 3 (4) 141–142