Непараметрический перекос - Википедия - Nonparametric skew
В статистика и теория вероятности, то непараметрический перекос это статистика иногда используется с случайные переменные что взять настоящий значения.[1][2] Это мера перекос случайной величины распределение - то есть тенденция распределения "наклоняться" в ту или иную сторону иметь в виду. Его расчет не требует каких-либо знаний о форме основного распределения - отсюда и название непараметрический. У него есть некоторые желательные свойства: он равен нулю для любого симметричное распределение; на него не влияет шкала сдвиг; и он одинаково хорошо выявляет как левый, так и правый перекос. В некоторых статистические образцы было показано, что это меньше мощный[3] чем обычные меры асимметрии при обнаружении отклонений численность населения из нормальность.[4]
Характеристики
Определение
Непараметрический перекос определяется как
где иметь в виду (µ), медиана (ν) и стандартное отклонение (σ) населения имеют свои обычные значения.
Характеристики
Непараметрический перекос составляет одну треть от Коэффициент асимметрии Пирсона 2 и лежит между -1 и +1 для любого распределения.[5][6] Этот диапазон подразумевается тем фактом, что среднее значение находится в пределах одного стандартного отклонения от любой медианы.[7]
Под аффинное преобразование переменной (Икс), значение S не меняется, за исключением возможного изменения знака. В символах
куда а ≠ 0 и б константы и S( Икс ) - непараметрический перекос переменной Икс.
Более точные границы
Границы этой статистики (± 1) были уточнены Маджиндаром.[8] кто показал, что это абсолютная величина ограничен
с
и
куда Икс случайная величина с конечным отклонение, E() - оператор ожидания, а Pr() - вероятность наступления события.
Когда п = q = 0,5 абсолютное значение этой статистики ограничено 1. При п = 0,1 и п = 0,01, абсолютное значение статистики ограничено 0,6 и 0,199 соответственно.
Расширения
Также известно, что[9]
куда ν0 любая медиана и E(.) это оператор ожидания.
Было показано, что
куда Иксq это qth квантиль.[7] Квантили лежат между 0 и 1: медиана (квантиль 0,5) имеет q = 0,5. Это неравенство также использовалось для определения меры асимметрии.[10]
Это последнее неравенство было еще более обостренным.[11]
Было опубликовано еще одно расширение для распределения с конечным средним:[12]
Оценки в этой последней паре неравенств достигаются, когда и для фиксированных номеров а < б.
Конечные образцы
Для конечной выборки с размером выборки п ≥ 2 с Икср это рth статистика заказов, м выборочное среднее и s в стандартное отклонение выборки с поправкой на степени свободы,[13]
Замена р с п / 2 дает результат, соответствующий медиане выборки:[14]
куда а медиана выборки.
Статистические тесты
Хотеллинг и Соломонс рассмотрели распределение тестовой статистики[5]
куда п размер выборки, м выборочное среднее, а медиана выборки и s стандартное отклонение выборки.
Статистические испытания D предположили, что проверяемая нулевая гипотеза заключается в том, что распределение является симметричным.
Гаствирт оценил асимптотику отклонение из п−1/2D.[15] Если распределение является унимодальным и симметричным относительно 0, асимптотическая дисперсия находится между 1/4 и 1. Допущение консервативной оценки (приравнивание дисперсии к 1) может привести к истинному уровню значимости значительно ниже номинального.
Предполагая, что основное распределение является симметричным, Кабилио и Масаро показали, что распределение S асимптотически нормально.[16] Асимптотическая дисперсия зависит от основного распределения: для нормального распределения асимптотическая дисперсия S√п составляет 0,5708 ...
Предполагая, что лежащее в основе распределение симметрично, рассматривая распределение значений выше и ниже медианы, Чжэн и Гаствирт утверждали, что[17]
куда п размер выборки, распределяется как t распределение.
Связанная статистика
Мира изучила распределение разницы между средним и медианным значением.[18]
куда м выборочное среднее и а это медиана. Если основное распределение симметрично γ1 сам по себе асимптотически нормален. Эта статистика была ранее предложена Бонферрони.[19]
Предполагая симметричное базовое распределение, модификация S изучал Мяо, Гель и Гаствирт, которые изменили стандартное отклонение для создания своей статистики.[20]
куда Икся - значения выборки, || это абсолютная величина и сумма берется по всем п примерные значения.
Статистика теста была
Масштабированная статистика Т√п асимптотически нормально со средним нулем для симметричного распределения. Его асимптотическая дисперсия зависит от основного распределения: предельные значения для нормального распределения var (Т√п) = 0,5708 ... и для t распределение с тремя степени свободы, var (Т√п) = 0.9689...[20]
Значения для индивидуальных распределений
Симметричные распределения
За симметричные распределения вероятностей значение непараметрического перекоса равно 0.
Асимметричные распределения
Он положителен для распределений с уклоном вправо и отрицателен для распределений с уклоном влево. Абсолютные значения ≥ 0,2 указывают на заметную асимметрию.
Может быть трудно определить S для некоторых дистрибутивов. Обычно это происходит потому, что закрытая форма для медианы неизвестна: примеры таких распределений включают гамма-распределение, обратное распределение хи-квадрат, то обратное гамма-распределение и масштабированное обратное распределение хи-квадрат.
Следующие значения для S известны:
- Бета-распределение: 1 < α < β куда α и β - параметры распределения, то в хорошем приближении[21]
- Если 1 < β < α то позиции α и β перевернуты в формуле. S всегда <0.
- Биномиальное распределение: разнится. Если среднее значение целое число тогда S = 0. Если среднее не целое число S может иметь знак или быть нулевым.[22] Он ограничен ± min {max {п, 1 − п }, бревное2 } / σ куда σ - стандартное отклонение биномиального распределения.[23]
- Распределение заусенцев:
- Распределение Бирнбаума – Сондерса:
- куда α - параметр формы и β - параметр местоположения.
- Распределение хи-квадрат: Несмотря на то что S ≥ 0 его значение зависит от количества степени свободы (k).
- Экспоненциальное распределение с двумя параметрами:[24]
- Здесь S всегда> 0.
- F распределение с п и п степени свободы ( п > 4 ):[25]
- Распределение фреше: Дисперсия этого распределения определяется только для α > 2.
- Гамма-распределение: Медиана может быть определена только приблизительно для этого распределения.[26] Если параметр формы α ≥ 1, то
- куда β > 0 - параметр скорости. Здесь S всегда> 0.
- Обобщенное нормальное распределение версия 2
- S всегда <0.
- Обобщенное распределение Парето: S определяется только тогда, когда параметр формы ( k ) <1/2. S <0 для этого распределения.
- куда γ является Постоянная Эйлера.[27]
- Распределение Кумарасвами
- Логистическая дистрибуция (Распределение Фиска): Пусть β быть параметром формы. Дисперсия и среднее значение этого распределения определяются только тогда, когда β > 2. Для упрощения обозначений пусть б = β / π.
- Стандартное отклонение не существует для значений б > 4,932 (приблизительно). Для значений, для которых определено стандартное отклонение, S > 0.
- Логнормальное распределение: Со средним ( μ ) и дисперсия ( σ2 )
- Распределение Lomax: S определяется только для α > 2
- Распределение Парето: за α > 2 где α - параметр формы распределения,
- и S всегда> 0.
- куда λ - параметр распределения.[28]
- куда k - параметр формы распределения. Здесь S всегда> 0.
История
В 1895 г. Пирсон впервые предложил измерять асимметрию путем стандартизации разницы между средним и Режим,[29] давая
куда μ, θ и σ - среднее значение, мода и стандартное отклонение распределения соответственно. Оценки режима генеральной совокупности на основе данных выборки могут быть трудными, но разница между средним значением и модой для многих распределений примерно в три раза превышает разницу между средним и медианным значением.[30] который предложил Пирсону второй коэффициент асимметрии:
куда ν - медиана распределения. Боули в 1901 г. в этой формуле был исключен фактор 3, что привело к непараметрической статистике перекоса.
Связь между медианой, средним значением и модой впервые была отмечена Пирсоном, когда он исследовал свои распределения типа III.
Связь между средним, медианным и модой
Для произвольного распределения мода, медиана и среднее значение могут появляться в любом порядке.[31][32][33]
Был проведен анализ некоторых соотношений между средним, медианным, модой и стандартным отклонением.[34] и эти отношения накладывают некоторые ограничения на знак и величину непараметрического перекоса.
Простым примером, иллюстрирующим эти отношения, является биномиальное распределение с п = 10 и п = 0.09.[35] На графике это распределение имеет длинный правый хвост. Среднее значение (0,9) находится слева от медианы (1), но перекос (0,906), определенный третьим стандартизированным моментом, положительный. Напротив, непараметрический перекос составляет -0,110.
Правило Пирсона
Правило, согласно которому для некоторых распределений разница между средним значением и модой в три раза больше, чем между средним значением и медианой, принадлежит Пирсону, который обнаружил его, исследуя свои распределения типа 3. Его часто применяют к слегка асимметричным распределениям, которые напоминают нормальное распределение, но это не всегда верно.
В 1895 году Пирсон заметил, что то, что сейчас известно как гамма-распределение что отношение[29]
куда θ, ν и µ - мода, медиана и среднее значение распределения соответственно были приблизительно верными для распределений с большим параметром формы.
Дудсон в 1917 году доказал, что медиана находится между модой и средним значением для умеренно искаженных распределений с конечными четвертыми моментами.[36] Эта связь сохраняется для всех Распределения Пирсона и все эти распределения имеют положительный непараметрический перекос.
Дудсон также отметил, что для этого семейства распределений с хорошим приближением
куда θ, ν и µ - мода, медиана и среднее значение распределения соответственно. Приближение Дудсона было дополнительно исследовано и подтверждено Холдейн.[37] Холдейн отметил, что выборки с идентичными и независимыми вариациями с третьим кумулянт имел выборку означает, что подчиняется соотношению Пирсона для больших размеров выборки. Холдейн требовал выполнения ряда условий для этих отношений, включая наличие Расширение Эджворта и уникальность как медианы, так и моды. В этих условиях он обнаружил, что мода и медиана сходятся к 1/2 и 1/6 третьего момента соответственно. Этот результат был подтвержден Холлом в более слабых условиях с использованием характеристические функции.[38]
Отношения Дудсона изучали Кендалл и Стюарт в логнормальное распределение для которого они нашли точные отношения, близкие к нему.[39]
Холл также показал, что для распределения с правильно меняющимися хвостами и показателем α который[требуется разъяснение ][38]
Унимодальные распределения
Гаусс показал в 1823 г., что для одномодальное распределение[40]
и
куда ω - среднеквадратичное отклонение от режима.
Для большого класса унимодальных распределений, которые имеют положительный перекос, мода, медиана и среднее падают в указанном порядке.[41] И наоборот, для большого класса унимодальных распределений, которые имеют отрицательный перекос, среднее значение меньше медианы, которая, в свою очередь, меньше, чем мода. В символах этих положительно скошенных одномодальных распределений
и для этих отрицательно скошенных одномодальных распределений
Этот класс включает важные распределения F, бета и гамма.
Это правило не выполняется для унимодального распределения Вейбулла.[42]
Для унимодального распределения известны и точны следующие оценки:[43]
куда μ,ν и θ - среднее значение, медиана и мода соответственно.
Средняя граница ограничивает непараметрический перекос унимодального распределения примерно до ± 0,775.
состояние ван Цвета
Следующее неравенство,
куда θ, ν и µ - мода, медиана и среднее значение распределения соответственно, выполняется, если
куда F это кумулятивная функция распределения распределения.[44] С тех пор эти условия были обобщены.[33] и распространен на дискретные распределения.[45] Любое распределение, для которого это верно, имеет либо нулевой, либо положительный непараметрический перекос.
Примечания
Порядок перекоса
В 1964 году ван Цвет предложил ряд аксиом для упорядочивания мер асимметрии.[46] Непараметрический перекос не удовлетворяет этим аксиомам.
Закон Бенфорда
Закон Бенфорда представляет собой эмпирический закон о распределении цифр в списке чисел. Было высказано предположение, что случайные переменные из распределений с положительным непараметрическим перекосом будут подчиняться этому закону.[47]
Связь с коэффициентом Боули
Эта статистика может быть получена из коэффициента асимметрии Боули.[48]
где Qя - i-й квартиль распределения.
Хинкли обобщил это[49]
куда лежит между 0 и 0,5. Коэффициент Боули - частный случай с равно 0,25.
Греневельд и Меден[50] удалили зависимость от путем интегрирования по ней.
Знаменатель - это мера дисперсии. Заменяя знаменатель на стандартное отклонение, мы получаем непараметрический перекос.
Рекомендации
- ^ Арнольд BC, Греневельд Р.А. (1995) Измерение асимметрии относительно моды. Американский статистик 49 (1) 34–38 DOI: 10.1080 / 00031305.1995.10476109
- ^ Rubio F.J .; Сталь M.F.J. (2012) «О преобразовании Маршалла – Олкина как механизме перекоса». Вычислительная статистика и анализ данных Препринт
- ^ Табор Дж. (2010) Исследование исследовательской задачи: Тестирование асимметрии - исследование различных статистических данных тестов и их способности обнаруживать асимметрию. J Stat Ed 18: 1–13
- ^ Доан, Дэвид П .; Сьюард, Лори Э. (2011). "Измерение асимметрии: забытая статистика?" (PDF). Журнал статистики образования. 19 (2).
- ^ а б Hotelling H, Solomons LM (1932) Пределы меры асимметрии. Annals Math Stat 3, 141–114
- ^ Гарвер (1932) О пределах меры асимметрии. Энн Математическая статистика 3 (4) 141–142
- ^ а б O’Cinneide CA (1990) Среднее значение находится в пределах одного стандартного отклонения от любой медианы. Amer Statist 44, 292–293.
- ^ Majindar KN (1962) "Улучшенные оценки меры асимметрии". Анналы математической статистики, 33, 1192–1194 Дои:10.1214 / aoms / 1177704482
- ^ Маллоуз CCC, Рихтер Д. (1969) "Неравенства типа Чебышева, связанные с условными ожиданиями". Анналы математической статистики, 40:1922–1932
- ^ Дзюбинска Р., Шинал Д. (1996) О функциональных мерах асимметрии. Applicationes Mathematicae 23 (4) 395–403
- ^ Дхармадхикари SS (1991) Границы квантилей: комментарий к О'Синнейде. The Am Statist 45: 257-58.
- ^ Гилат Д., Хилл Т.П. (1993) Функции определения местоположения квантилей и расстояние между средним и квантилями. Statistica Neerlandica 47 (4) 279–283 DOI: 10.1111 / j.1467-9574.1993.tb01424.x [1]
- ^ Дэвид Х.А. (1991) Среднее минус медиана: комментарий к О'Синнейду. The Am Statist 45: 257
- ^ Джоардер А.Х., Лараджи А. (2004) Некоторые неравенства в описательной статистике. Серия технических отчетов TR 321
- ^ Gastwirth JL (1971) "О знаковом тесте на симметрию". Журнал Американской статистической ассоциации 66:821–823
- ^ Cabilio P, Masaro J (1996) «Простой тест симметрии относительно неизвестной медианы». Канандский статистический журнал - Revue Canadienne De Statistique, 24:349–361
- ^ Чжэн Т., Гаствирт Дж. (2010) «О тестах начальной загрузки симметрии относительно неизвестной медианы». Журнал науки о данных, 8(3): 413–427
- ^ Мира А. (1999) "Тест на симметрию без распределения, основанный на мере Бонферрони", Журнал прикладной статистики, 26:959–972
- ^ Бонферрони CE (1930) Общие элементы статистики. Сибер, Фиренце
- ^ а б Мяо В, Гель YR, Gastwirth JL (2006) «Новый тест симметрии относительно неизвестной медианы». В: Hsiung A, Zhang C-H, Ying Z, ред. Случайное блуждание, последовательный анализ и связанные темы - Праздничный сбор в честь Юань-Ши Чоу. World Scientific; Сингапур
- ^ Керман Дж. (2011) "Приближение в закрытой форме для медианы бета-распределения". arXiv:1111.0433v1
- ^ Каас Р., Бурман Дж. М. (1980) Среднее значение, медиана и мода в биномиальных распределениях. Statistica Neerlandica 34 (1) 13–18
- ^ Хамза К. (1995) «Наименьшая равномерная верхняя граница расстояния между средним и медианой биномиального и пуассоновского распределений». Статистика и вероятностные письма, 23 (1) 21–25
- ^ а б c d http://web.ipac.caltech.edu/staff/fmasci/home/statistics_refs/UsefulDistributions.pdf
- ^ Террелл Г.Р. (1986) "Правило Пирсона для выборочных медиан". Технический отчет 86-2[требуется полная цитата ]
- ^ Banneheka BMSG, Ekanayake GEMUPD (2009) Новая точечная оценка медианы гамма-распределения. Viyodaya J Science 14: 95–103
- ^ Фергюсон Т. «Асимптотическое совместное распределение выборочного среднего и выборочного квантиля», Не опубликовано
- ^ Чой К.П. (1994) "О медианах гамма-распределений и уравнении Рамануджана". Proc Amer Math Soc 121 (1) 245–251
- ^ а б Пирсон К. (1895) Вклад в математическую теорию эволюции – II. Отклонение от однородного материала. Фил Транс Рой Soc A. 186: 343–414
- ^ Стюарт А., Орд Дж. К. (1994) Продвинутая теория статистики Кендалла. Том 1. Теория распределения.. 6-е издание. Эдвард Арнольд, Лондон
- ^ Связь между средним, медианным, модой и стандартным отклонением в унимодальном распределении
- ^ фон Хиппель, Пол Т. (2005) «Среднее, медиана и перекос: исправление правила из учебника», Журнал статистики образования, 13(2)
- ^ а б Дхармадхикари SW, Joag-dev K (1983) Среднее значение, медиана, режим III. Statistica Neerlandica, 33: 165–168.
- ^ Снизу, Х. (2002, 2006) «Связь между средним, медианным, модой и стандартным отклонением в унимодальном распределении» Персональная страница
- ^ Малая Л.М. (2005)."Письмо редактору" , [комментарий к фон Хиппелю (2005)]. Журнал статистики образования 13(2).
- ^ Дудсон А.Т. (1917) «Связь моды, медианы и среднего в частотных функциях». Биометрика, 11 (4) 425–429 Дои:10.1093 / biomet / 11.4.425
- ^ Холдейн Дж. Б.С. (1942) «Режим и медиана почти нормального распределения с заданными кумулянтами». Биометрика, 32: 294–299
- ^ а б Холл П. (1980) "О предельном поведении моды и медианы суммы независимых случайных величин". Анналы вероятности 8: 419–430
- ^ Кендалл М.Г., Стюарт А. (1958) Продвинутая теория статистики. p53 Vol 1. Griffin. Лондон
- ^ Гаусс К.Ф. Theoria Combinationis Observationum Erroribus Minimis Obnoxiae. Парс приор. Pars Posterior. Дополнение. Теория наименее подверженной ошибкам комбинации наблюдений. Первая часть. Часть вторая. Добавка. 1995. Перевод Г.В. Стюарт. Classics in Applied Mathematics Series, Общество промышленной и прикладной математики, Филадельфия
- ^ MacGillivray HL (1981) Среднее, медианное, неравенство мод и асимметрия для класса плотностей. Aust J Stat 23 (2) 247–250
- ^ Греневельд Р.А. (1986) Асимметрия для семьи Вейбуллов. Statistica Neerlandica 40: 135–140
- ^ Джонсон Н.Л., Роджерс К.А. (1951) "Проблема моментов для одномодальных распределений". Анналы математической статистики, 22 (3) 433–439
- ^ van Zwet W.R. (1979) "Среднее, медиана, мода II". Statistica Neerlandica 33(1) 1–5
- ^ Абдус Б., Теодореску Р. (1998) Среднее значение, медиана, режим IV. Statistica Neerlandica. 52 (3) 356–359
- ^ ван Цвет, W.R. (1964) "Выпуклые преобразования случайных величин". Математический центр тракт, 7, Mathematisch Centrum, Амстердам
- ^ Дурчи К., Хиллисон В., Пачини С. (2004) Эффективное использование закона Бенфорда для помощи в обнаружении мошенничества в бухгалтерских данных. J Судебно-бухгалтерский учет 5: 17–34
- ^ Боули А.Л. (1920) Элементы статистики. Нью-Йорк: сыновья Чарльза Скрибнера
- ^ Хинкли Д.В. (1975) О степенных преобразованиях симметрии. Биометрика 62: 101–111
- ^ Гроеневельд Р.А., Меден Г. (1984) Измерение асимметрии и эксцесса. Статистик, 33: 391–399.