Асимметрия - Skewness

Пример распределения с ненулевой (положительной) асимметрией. Эти данные взяты из экспериментов по выращиванию ростков пшеницы.

В теория вероятности и статистика, перекос является мерой асимметрии распределение вероятностей из настоящий -значен случайная переменная о его значении. Значение асимметрии может быть положительным, нулевым, отрицательным или неопределенным.

Для одномодальный распределения, отрицательный перекос обычно указывает на то, что хвост находится в левой части распределения, а положительный перекос указывает, что хвост находится справа. В случаях, когда один хвост длинный, а другой толстый, перекос не подчиняется простому правилу. Например, нулевое значение означает, что хвосты по обе стороны от среднего в целом уравновешиваются; это верно для симметричного распределения, но также может быть верно и для асимметричного распределения, когда один хвост длинный и тонкий, а другой короткий, но толстый.

Вступление

Рассмотрим два распределения на рисунке ниже. На каждом графике значения на правой стороне распределения сужаются иначе, чем значения на левой стороне. Эти сужающиеся стороны называются хвосты, и они предоставляют визуальные средства для определения того, какой из двух видов асимметрии имеет распределение:

  1. отрицательный перекос: Левый хвост длиннее; масса раздачи сосредоточена в правой части рисунка. Распределение называется скошенный влево, левый хвост, или же перекос влево, несмотря на то, что сама кривая кажется перекошенной или наклоненной вправо; оставили вместо этого относится к вытягиванию левого хвоста и, часто, к среднему смещению влево от типичного центра данных. Скошенное влево распределение обычно выглядит как правый изгиб.[1]
  2. положительный перекос: Правый хвост длиннее; масса раздачи сосредоточена в левой части рисунка. Распределение называется наклоненный вправо, правый хвост, или же перекошено вправо, несмотря на то, что сама кривая кажется перекошенной или наклоненной влево; верно вместо этого относится к вытягиванию правого хвоста и, часто, к среднему смещению вправо от типичного центра данных. Распределение с отклонением вправо обычно выглядит как левый изгиб.[1]

Диаграммы отрицательного и положительного перекоса (английский) .svg

Асимметрия в ряду данных иногда может наблюдаться не только графически, но и при простой проверке значений. Например, рассмотрим числовую последовательность (49, 50, 51), значения которой равномерно распределены вокруг центрального значения 50. Мы можем преобразовать эту последовательность в отрицательно искаженное распределение, добавив значение намного ниже среднего, что, вероятно, является отрицательный выброс, например (40, 49, 50, 51). Следовательно, среднее значение последовательности становится 47,5, а медиана - 49,5. На основе формулы непараметрический перекос, определяется как перекос отрицательный. Точно так же мы можем сделать последовательность положительно искаженной, добавив значение, намного превышающее среднее, что, вероятно, является положительным выбросом, например (49, 50, 51, 60), где среднее значение равно 52,5, а медиана - 50,5.

Как упоминалось ранее, унимодальное распределение с нулевым значением асимметрии не означает, что это распределение обязательно симметрично. Однако симметричное унимодальное или мультимодальное распределение всегда имеет нулевую асимметрию.

Пример асимметричного распределения с нулевой асимметрией. Этот рисунок служит контрпримером, что нулевая асимметрия не обязательно означает симметричное распределение. (Асимметрия рассчитывалась по моментному коэффициенту асимметрии Пирсона.)

Отношение среднего и медианы

Асимметрия не связана напрямую с отношением между средним и медианой: распределение с отрицательным перекосом может иметь среднее значение больше или меньше медианы, а также для положительного перекоса.[2]

Общая взаимосвязь среднего и медианного значений при разном искаженном одномодальном распределении

В старом понимании непараметрический перекос, определяется как куда это иметь в виду, это медиана, и это стандартное отклонение, асимметрия определяется в терминах этого отношения: положительный / правый непараметрический перекос означает, что среднее значение больше, чем (справа) медианы, а отрицательный / левый непараметрический перекос означает, что среднее значение меньше (слева) от медианы. медиана. Однако современное определение асимметрии и традиционное непараметрическое определение не всегда имеют один и тот же знак: хотя они совпадают для некоторых семейств распределений, они различаются в некоторых случаях, и их объединение вводит в заблуждение.

Если распределение симметричный, то среднее значение равно медиане, и распределение имеет нулевую асимметрию.[3] Если распределение одновременно симметрично и одномодальный, то иметь в виду = медиана = Режим. Это случай подбрасывания монеты или серии 1, 2, 3, 4, ... Обратите внимание, однако, что обратное неверно в целом, т.е. нулевая асимметрия не означает, что среднее значение равно медиане.

В статье журнала 2005 г. указывается:[2]

Многие учебники учат практическому правилу, согласно которому среднее значение находится справа от медианы при наклоне вправо и слева от медианы при наклоне слева. Это правило с удивительной частотой не работает. Это может потерпеть неудачу в мультимодальные распределения, или в дистрибутивах, где один хвост длинный но другой тяжелый. Однако чаще всего это правило не работает в дискретных распределениях, где площади слева и справа от медианы не равны. Такое распределение не только противоречит учебным отношениям между средним, медианой и перекосом, но и противоречит интерпретации медианы в учебниках.

Распределение взрослых жителей по домохозяйствам США

Например, в распределении взрослых жителей по домохозяйствам в США перекос вправо. Однако, поскольку в большинстве случаев меньше или равно моду, которая также является медианной, среднее значение находится в более тяжелом левом хвосте. В результате не удалось применить эмпирическое правило, согласно которому среднее значение находится справа от медианы при правом перекосе.[2]

Определение

Моментный коэффициент асимметрии Пирсона

Асимметрия случайной величины Икс третий стандартизированный момент , определяется как:[4][5]

куда μ это среднее, σ это стандартное отклонение, E - оператор ожидания, μ3 третий центральный момент, и κт являются т-го кумулянты. Иногда его называют Моментный коэффициент асимметрии Пирсона,[5] или просто моментный коэффициент асимметрии,[4] но не следует путать с другой статистикой асимметрии Пирсона (см. ниже). Последнее равенство выражает асимметрию в терминах отношения третьего кумулянта κ3 в 1.5 степени второго кумулянта κ2. Это аналогично определению эксцесс как четвертый кумулянт, нормированный на квадрат второго кумулянта. Асимметрия также иногда обозначается Skew [Икс].

Если σ конечно, μ также конечна, и асимметрия может быть выражена через нецентральный момент E [Икс3], расширив предыдущую формулу,

Примеры

Асимметрия может быть бесконечной, как когда

где третьи кумулянты бесконечны, или когда

где третий кумулянт не определен.

Примеры распределений с конечной асимметрией включают следующее.

Асимметрия образца

Для образца п ценности, естественный метод моментов оценка асимметрии популяции[6]

куда это выборочное среднее, s это стандартное отклонение выборки, а числитель м3 образец третий центральный момент.

Еще одно распространенное определение асимметрия образца является[6][7]

куда является единственной симметричной несмещенной оценкой третьего кумулянт и - симметричная несмещенная оценка второго кумулянта (т. е. выборочная дисперсия ). Этот скорректированный стандартизованный коэффициент момента Фишера – Пирсона версия найдена в Excel и несколько статистических пакетов, включая Minitab, SAS и SPSS.[8]

В целом коэффициенты и оба предвзятые оценки асимметрии населения ; их ожидаемые значения могут даже иметь знак, противоположный истинной асимметрии. (Например, смешанное распределение, состоящее из очень тонких гауссиан с центрами -99, 0,5 и 2 с весами 0,01, 0,66 и 0,33, имеет асимметрию около -9,77, но в выборке из 3, имеет ожидаемое значение около 0,32, поскольку обычно все три выборки находятся в положительной части распределения, которое искажено в другую сторону.) Тем не менее, и каждый из них, очевидно, имеет правильное математическое ожидание, равное нулю, для любого симметричного распределения с конечным третьим моментом, включая нормальное распределение.

В предположении, что основная случайная величина нормально распространяется, можно показать, что , т.е. его распределение сходится к нормальному распределению со средним значением 0 и дисперсией 6. Дисперсия асимметрии случайной выборки размера п из нормального распределения[9][10]

Примерная альтернатива - 6 /п, но это неточно для небольших выборок.

В нормальных образцах имеет меньшую дисперсию двух оценок, с

где в знаменателе

- (смещенный) второй центральный момент образца.[6]

Приложения

Асимметрия - это описательная статистика, которую можно использовать вместе с гистограмма и нормальный квантильный график для характеристики данных или распределения.

Асимметрия указывает направление и относительную величину отклонения распределения от нормального.

При ярко выраженной асимметрии стандартные процедуры статистического вывода, такие как доверительный интервал поскольку среднее значение будет не только неверным в том смысле, что истинный уровень охвата будет отличаться от номинального (например, 95%) уровня, но они также приведут к неравным вероятностям ошибки на каждой стороне.

Асимметрия может использоваться для получения приблизительных вероятностей и квантилей распределений (например, стоимость под риском в финансах) через Расширение Корниш-Фишера.

Многие модели предполагают нормальное распределение; т.е. данные симметричны относительно среднего. У нормального распределения асимметрия равна нулю. Но на самом деле точки данных могут не быть идеально симметричными. Итак, понимание асимметрии набора данных указывает на то, будут ли отклонения от среднего положительными или отрицательными.

К-квадрат Д'Агостино это добродетель тест на нормальность на основе асимметрии образца и эксцесса образца.

Другие меры асимметрии

Сравнение иметь в виду, медиана и Режим из двух логнормальные распределения с одинаковыми медианами и разными перекосами.

Были использованы другие меры асимметрии, включая более простые вычисления, предложенные Карл Пирсон[11] (не путать с моментным коэффициентом асимметрии Пирсона, см. выше). Эти другие меры:

Первый коэффициент асимметрии Пирсона (асимметрия моды)

Асимметрия моды Пирсона,[12] или первый коэффициент асимметрии, определяется как

иметь в видуРежим/стандартное отклонение.

Второй коэффициент асимметрии Пирсона (медианная асимметрия)

Медианная асимметрия Пирсона или второй коэффициент асимметрии,[13][14] определяется как

3 (иметь в видумедиана )/стандартное отклонение.

Это простое кратное непараметрический перекос.

Квантильные меры

Мера асимметрии Боули (с 1901 г.),[15][16] также называемый Коэффициент Юла (с 1912 г.)[17][18] определяется как:

.

При записи как , легче увидеть, что числитель - это разница между средним значением верхнего и нижнего квартилей (мера местоположения) и медианой (другая мера местоположения), а знаменатель - это полумежквартильный размах (Q3-Q1) / 2, что для симметричных распределений является СУМАСШЕДШИЙ Мера разброс.

Другие названия этой меры - мера асимметрии Гальтона,[19] индекс Юла – Кендалла[20] и квартильной асимметрии,[21]

Более общая формулировка функции асимметрии была описана Groeneveld, R.A. и Meeden, G. (1984):[22][23][24]

куда F это кумулятивная функция распределения. Это приводит к соответствующей общей мере асимметрии[23] определяется как супремум этого в диапазоне 1/2 ≤ты <1. Другой показатель можно получить, интегрировав числитель и знаменатель этого выражения.[22] Функция γ(ты) удовлетворяет −1 ≤γ(ты) ≤ 1 и корректно определен, не требуя наличия каких-либо моментов распределения.[22] Меры асимметрии на основе квантилей на первый взгляд легко интерпретировать, но они часто показывают значительно большие вариации выборки, чем методы, основанные на моментах. Это означает, что часто выборки из симметричного распределения (например, равномерного распределения) случайно имеют большую квантильную асимметрию.

Мера асимметрии Боули равна γ (ты) оценивается в ты = 3/4. Мера асимметрии Келли использует ты = 0.1.[25]

Коэффициент Греневельда и Медена

Греневельд и Меден предложили в качестве альтернативной меры асимметрии[22]

куда μ это среднее, ν - медиана, | ... | это абсолютная величина, и E() - оператор ожидания. Это тесно связано по форме с Второй коэффициент асимметрии Пирсона.

L-моменты

Использование L-моменты вместо моментов обеспечивает меру асимметрии, известную как L-асимметрия.[26]

Асимметрия расстояния

Значение асимметрии, равное нулю, не означает, что распределение вероятностей является симметричным. Таким образом, существует потребность в другой мере асимметрии, обладающей этим свойством: такая мера была введена в 2000 году.[27] Это называется асимметрия расстояния и обозначается dSkew. Если Икс случайная величина, принимающая значения в d-мерное евклидово пространство, Икс имеет конечное ожидание, Икс' является независимой идентично распределенной копией Икс, и обозначает норму в евклидовом пространстве, то простой мера асимметрии относительно параметра местоположения θ равно

и dSkew (Икс): = 0 для Икс = θ (с вероятностью 1). Асимметрия расстояния всегда находится между 0 и 1, равна 0 тогда и только тогда, когда Икс диагонально симметрична относительно θ (Икс и 2θ−Икс имеют такое же распределение вероятностей) и равняется 1 тогда и только тогда, когда X является константой c () с вероятностью единица.[28] Таким образом, существует простой последовательный статистический тест диагональной симметрии на основе асимметрия выборочного расстояния:

Medcouple

В медицинская пара - масштабно-инвариантная робастная мера асимметрии с точка разрушения 25%.[29] Это медиана значений функции ядра

взяты на себя все пары такой, что , куда это медиана образец . Его можно рассматривать как медианное значение всех возможных мер квантильной асимметрии.

Смотрите также

Рекомендации

Цитаты

  1. ^ а б Сьюзан Дин, Барбара Илловски «Описательная статистика: асимметрия и среднее значение, медиана и мода», Сайт Connexions
  2. ^ а б c фон Хиппель, Пол Т. (2005). «Среднее, медиана и перекос: исправление правила из учебника». Журнал статистики образования. 13 (2).
  3. ^ «1.3.5.11. Меры перекоса и эксцесса». NIST. Получено 18 марта 2012.
  4. ^ а б «Меры формы: асимметрия и эксцесс», 2008–2016 гг., Стэн Браун, Oak Road Systems
  5. ^ а б Моментный коэффициент асимметрии Пирсона, FXSolver.com
  6. ^ а б c Joanes, D. N .; Гилл, К. А. (1998). «Сравнение мер асимметрии и эксцесса образца». Журнал Королевского статистического общества, серия D. 47 (1): 183–189. Дои:10.1111/1467-9884.00122.
  7. ^ Доан, Дэвид П. и Лори Э. Сьюард. «Измерение асимметрии: забытая статистика». Журнал статистики образования 19.2 (2011): 1-18. (Стр.7)
  8. ^ Доан Д.П., Сьюард Л. Е. (2011) J Stat Educ 19 (2)
  9. ^ Дункан Крамер (1997) «Фундаментальная статистика для социальных исследований». Рутледж. ISBN  9780415172042 (стр.85)
  10. ^ Kendall, M.G .; Стюарт, А. (1969) Расширенная теория статистики, том 1: теория распределения, третье издание, Гриффин. ISBN  0-85264-141-9 (Пример 12.9)
  11. ^ «Архивная копия» (PDF). Архивировано из оригинал (PDF) 5 июля 2010 г.. Получено 9 апреля 2010.CS1 maint: заархивированная копия как заголовок (связь)
  12. ^ Вайсштейн, Эрик В. "Асимметрия режима Пирсона". MathWorld.
  13. ^ Вайсштейн, Эрик В. «Коэффициенты асимметрии Пирсона». MathWorld.
  14. ^ Доан, Дэвид П .; Сьюард, Лори Э. (2011). "Измерение асимметрии: забытая статистика?" (PDF). Журнал статистики образования. 19 (2): 1–18. Дои:10.1080/10691898.2011.11889611.
  15. ^ Боули, А. Л. (1901). Элементы статистики, П.С. King & Son, Лондон. Или в более позднем издании: BOWLEY, AL. «Элементы статистики, 4-е издание (Нью-Йорк, Чарльз Скрибнер)» (1920).
  16. ^ Кенни Дж. Ф. и Сохраняя ES (1962) Математика статистики, Pt. 1, 3-е изд., Ван Ностранд, (стр. 102).
  17. ^ Йоль, Георгий Удный. Введение в теорию статистики. C. Griffin, limited, 1912 год.
  18. ^ Groeneveld, Ричард A (1991). «Подход функции влияния к описанию асимметрии распределения». Американский статистик. 45 (2): 97–102. Дои:10.2307/2684367. JSTOR  2684367.
  19. ^ Джонсон, Н. Л., Коц, С. и Балакришнан, Н. (1994) п. 3 и стр. 40
  20. ^ Уилкс Д.С. (1995) Статистические методы в атмосферных науках, стр. 27. Academic Press. ISBN  0-12-751965-3
  21. ^ Вайсштейн, Эрик В. "Асимметрия". mathworld.wolfram.com. Получено 21 ноября 2019.
  22. ^ а б c d Groeneveld, R.A .; Миден, Г. (1984). «Измерение асимметрии и эксцесса». Статистик. 33 (4): 391–399. Дои:10.2307/2987742. JSTOR  2987742.
  23. ^ а б Макгилливрей (1992)
  24. ^ Хинкли Д.В. (1975) "О степенных преобразованиях симметрии", Биометрика, 62, 101–111
  25. ^ ШИЛО. Pubudu Thilan. «Прикладная статистика I: Глава 5: Меры асимметрии» (PDF). Университет Рухуны. п. 21.
  26. ^ Хоскинг, Дж. (1992). «Моменты или L-моменты? Пример сравнения двух мер формы распределения». Американский статистик. 46 (3): 186–189. Дои:10.2307/2685210. JSTOR  2685210.
  27. ^ Секели, Г.Дж. (2000). «Предпредельные и постпредельные теоремы для статистики», В кн .: Статистика 21 века (ред. К. Р. Рао and G. J. Szekely), Dekker, New York, pp. 411–422.
  28. ^ Секели, Дж. Дж. И Мори, Т. Ф. (2001) "Характеристическая мера асимметрии и ее применение для проверки диагональной симметрии", Коммуникации в статистике - теория и методы 30/8&9, 1633–1639.
  29. ^ Г. Брис; М. Юбер; А. Стройф (ноябрь 2004 г.). «Надежная мера перекоса». Журнал вычислительной и графической статистики. 13 (4): 996–1017. Дои:10.1198 / 106186004X12632.

Источники

  • Джонсон, Нидерланды; Коц, S; Балакришнан, Н. (1994). Непрерывные одномерные распределения. 1 (2-е изд.). Вайли. ISBN  0-471-58495-9.
  • MacGillivray, HL (1992). "Свойства формы семейств g- и h- и Джонсона". Коммуникации в статистике - теория и методы. 21 (5): 1244–1250. Дои:10.1080/03610929208830842.
  • Премаратне, Г., Бера, А. К. (2001). Регулировка тестов на асимметрию и эксцесс для неправильных характеристик распределения. Рабочий документ № 01-0116, Иллинойский университет. Готовится к публикации в Comm in Statistics, Simulation and Computing. 2016 1-15
  • Премаратне, Г., Бера, А. К. (2000). Моделирование асимметрии и чрезмерного эксцесса в данных возврата запасов. Рабочий документ отдела исследований № 00-0123, Иллинойский университет.
  • Меры асимметрии распределения Вейбулла

внешняя ссылка