Гистограмма - Histogram

Гистограмма
Гистограмма приходов за минуту.svg
Один из Семь основных инструментов качества
Впервые описаноКарл Пирсон
ЦельЧтобы примерно оценить распределение вероятностей данной переменной, отображая частоту наблюдений, происходящих в определенных диапазонах значений.

А гистограмма приближенное представление распределение числовых данных. Впервые он был представлен Карл Пирсон.[1] Чтобы построить гистограмму, первым делом нужно "мусорное ведро " (или же "ведро ") диапазон значений - то есть разделите весь диапазон значений на серию интервалов - а затем подсчитайте, сколько значений попадает в каждый интервал. Бины обычно указываются как последовательные, неперекрывающиеся интервалы переменной. Бины (интервалы) должны быть смежными и часто (но не обязательно) равного размера.[2]

Если бункеры одинакового размера, над контейнером возводится прямоугольник с высотой, пропорциональной частота - количество ящиков в каждой ячейке. Гистограмма также может быть нормализованный для отображения «относительных» частот. Затем он показывает долю случаев, которые попадают в каждую из нескольких категории, с суммой высот, равной 1.

Однако бункеры не обязательно должны быть одинаковой ширины; в этом случае возведенный прямоугольник определяется как имеющий площадь пропорционально частоте случаев в корзине.[3] Вертикальная ось - это не частота, а плотность частоты- количество наблюдений на единицу переменной по горизонтальной оси. Примеры переменной ширины ячеек показаны в данных бюро переписи ниже.

Поскольку соседние интервалы не оставляют промежутков, прямоугольники гистограммы касаются друг друга, чтобы указать, что исходная переменная является непрерывной.[4]

Гистограммы дают приблизительное представление о плотности основного распределения данных, и часто для оценка плотности: оценка функция плотности вероятности базовой переменной. Общая площадь гистограммы, используемой для плотности вероятности, всегда нормализуется к 1. Если длина интервалов на Икс-оси равны 1, тогда гистограмма идентична относительная частота участок.

Гистограмму можно рассматривать как упрощенную оценка плотности ядра, который использует ядро для сглаживания частот по ячейкам. Это дает плавнее функция плотности вероятности, которая в целом будет более точно отражать распределение базовой переменной. Оценка плотности может быть нанесена на график в качестве альтернативы гистограмме и обычно отображается в виде кривой, а не набора прямоугольников. Тем не менее гистограммы предпочтительны в приложениях, когда необходимо моделировать их статистические свойства. Коррелированное изменение оценки плотности ядра очень сложно описать математически, в то время как это просто для гистограммы, где каждый интервал изменяется независимо.

Альтернативой ядерной оценке плотности является средняя смещенная гистограмма,[5]который быстро вычисляется и дает гладкую оценку плотности кривой без использования ядер.

Гистограмма - одна из семь основных инструментов контроля качества.[6]

Гистограммы иногда путают с гистограммами. Гистограмма используется для непрерывные данные, где ячейки представляют собой диапазоны данных, а гистограмма график категориальных переменных. Некоторые авторы рекомендуют, чтобы на гистограммах были промежутки между прямоугольниками, чтобы прояснить различие.[7][8]

Примеры

Это данные для гистограммы справа, используя 500 элементов:

Пример histogram.png
КорзинаСчитать
От −3,5 до −2,519
От −2,5 до −1,5132
От −1,5 до −0,51109
От -0,5 до 0,49180
От 0,5 до 1,49132
От 1,5 до 2,4934
От 2,5 до 3,494

Для описания паттернов гистограммы используются следующие слова: «симметричный», «наклон влево» или «вправо», «одномодальный», «бимодальный» или «мультимодальный».

Чтобы узнать о них больше, рекомендуется построить график данных с использованием нескольких интервалов разной ширины. Вот пример чаевых, даваемых в ресторане.

В Бюро переписи населения США обнаружили, что 124 миллиона человек работают вне дома.[9] Используя их данные о времени, затраченном на поездки на работу, в таблице ниже показано абсолютное количество людей, которые ответили, что время в пути «не менее 30, но менее 35 минут» выше, чем цифры для категорий выше и ниже. Вероятно, это связано с тем, что люди округляют указанное время в пути.[нужна цитата ] Проблема представления значений как несколько произвольно округленные числа - обычное явление при сборе данных от людей.[нужна цитата ]

Гистограмма времени в пути (на работу), перепись США 2000 года. Площадь под кривой равна общему количеству случаев. На этой диаграмме используется значение Q / ширина из таблицы.
Данные в абсолютных числах
ИнтервалШиринаКоличествоКоличество / ширина
054180836
55136872737
105186183723
155196343926
205179813596
25571901438
305163693273
3553212642
4054122824
45159200613
60306461215
9060343557

Эта гистограмма показывает количество случаев на единичный интервал как высоту каждого блока, чтобы площадь каждого блока была равна количеству людей в опросе, которые попадают в его категорию. Площадь под кривой представляет общее количество случаев (124 миллиона). Гистограмма этого типа показывает абсолютные числа с Q в тысячах.

Гистограмма времени в пути (на работу), перепись США 2000 года. Площадь под кривой равна 1. На этой диаграмме используются значения Q / total / width из таблицы.
Данные по пропорциям
ИнтервалШиринаКоличество (Q)Q / всего / ширина
0541800.0067
55136870.0221
105186180.0300
155196340.0316
205179810.0290
25571900.0116
305163690.0264
35532120.0052
40541220.0066
451592000.0049
603064610.0017
906034350.0005

Эта гистограмма отличается от первой только тем, что вертикальный шкала. Площадь каждого блока - это доля от общей суммы, которую представляет каждая категория, а общая площадь всех полосок равна 1 (дробь означает «все»). Отображаемая кривая представляет собой простой оценка плотности. Эта версия показывает пропорции и также известна как гистограмма единичной площади.

Другими словами, гистограмма представляет распределение частот с помощью прямоугольников, ширина которых представляет интервалы классов, а площади пропорциональны соответствующим частотам: высота каждого - это средняя плотность частот для интервала. Интервалы помещены вместе, чтобы показать, что данные, представленные гистограммой, хоть и являются исключительными, но также являются смежными. (Например, на гистограмме можно иметь два соединительных интервала 10,5–20,5 и 20,5–33,5, но не два соединительных интервала 10,5–20,5 и 22,5–32,5. Пустые интервалы представлены как пустые и не пропущенные.)[10]

Математическое определение

Обычная и совокупная гистограммы одних и тех же данных. Показанные данные представляют собой случайную выборку из 10000 точек нормального распределения со средним значением 0 и стандартным отклонением 1.

В более общем математическом смысле гистограмма - это функция мя который подсчитывает количество наблюдений, которые попадают в каждую из непересекающихся категорий (известных как мусорные ведра), тогда как график гистограммы - это просто один из способов представления гистограммы. Таким образом, если мы положим п быть общим количеством наблюдений и k - общее количество бинов, гистограмма мя соответствует следующим условиям:

Накопительная гистограмма

Кумулятивная гистограмма - это отображение, которое подсчитывает совокупное количество наблюдений во всех интервалах до указанного интервала. То есть кумулятивная гистограмма Mя гистограммы мj определяется как:

Количество бункеров и ширина

Не существует «наилучшего» количества ячеек, и разные размеры ячеек могут выявить разные особенности данных. Данные группировки не моложе Graunt работы в 17 веке, но не было дано никаких систематических указаний[11] до того как Осетровые 'Работа в 1926 году.[12]

Использование более широких интервалов с низкой плотностью базовых точек данных снижает шум из-за случайности выборки; Использование более узких интервалов с высокой плотностью (так что сигнал заглушает шум) дает большую точность оценки плотности. Таким образом, изменение ширины бина в гистограмме может быть полезным. Тем не менее, бункеры одинаковой ширины широко используются.

Некоторые теоретики пытались определить оптимальное количество интервалов, но эти методы обычно делают сильные предположения о форме распределения. В зависимости от фактического распределения данных и целей анализа может потребоваться разная ширина бина, поэтому для определения подходящей ширины обычно необходимы эксперименты. Однако существуют различные полезные рекомендации и практические правила.[13]

Количество бункеров k можно назначить напрямую или рассчитать исходя из предложенной ширины бункерачас в качестве:

Фигурные скобки указывают на функция потолка.

Выбор квадратного корня

который извлекает квадратный корень из числа точек данных в выборке (используется гистограммами Excel и многими другими) и округляется до следующего целое число.[14]


Формула Стерджеса

Формула Стерджеса[12] выводится из биномиального распределения и неявно предполагает приблизительно нормальное распределение.

Он неявно основывает размеры бункеров на диапазоне данных и может плохо работать, еслип <30, потому что количество интервалов будет небольшим - менее семи - и вряд ли будет хорошо отражать тенденции в данных. Он также может работать плохо, если данные не распределяются нормально.

Правило Райса

Правило риса [15] представлена ​​как простая альтернатива правилу Стерджеса.

Формула Доана

Формула Доана[16] представляет собой модификацию формулы Стерджеса, которая пытается улучшить ее производительность при использовании нестандартных данных.

куда расчетный 3-й момент-перекос распределения и

Нормальное эталонное правило Скотта

куда это образец стандартное отклонение. Нормальное эталонное правило Скотта[17] оптимален для случайных выборок нормально распределенных данных в том смысле, что минимизирует интегрированную среднеквадратичную ошибку оценки плотности.[11]

Выбор Фридмана-Диакониса

В Правило Фридмана-Диакониса является:[18][11]

который основан на межквартильный размах, обозначаемый IQR. Он заменяет 3,5σ правила Скотта на 2 IQR, что менее чувствительно, чем стандартное отклонение к выбросам в данных.

Минимизация расчетной квадратичной ошибки перекрестной проверки

Этот подход минимизации интегрированной среднеквадратичной ошибки из правила Скотта может быть обобщен за пределы нормальных распределений с помощью перекрестной проверки с исключением одного:[19][20]

Здесь, это количество точек данных в kth bin и выбирая значение час что сводит к минимуму J минимизирует интегрированную среднеквадратичную ошибку.

Выбор Симадзаки и Шиномото

Выбор основан на минимизации оценочного L2 функция риска[21]

куда и - средняя и смещенная дисперсия гистограммы с шириной интервала , и .

Регулируемая ширина бункера

Вместо того, чтобы выбирать равномерно расположенные бункеры, для некоторых приложений предпочтительнее изменять ширину бункера. Это позволяет избежать мусорных баков с низким счетчиком. Обычный случай - выбрать равновероятные бункеры, где ожидается, что количество выборок в каждой ячейке будет примерно одинаковым. Ячейки могут быть выбраны в соответствии с некоторым известным распределением или могут быть выбраны на основе данных так, чтобы каждая ячейка имела образцы. При построении гистограммы плотность частоты используется для зависимой оси. Хотя все интервалы имеют примерно одинаковую площадь, высота гистограммы приблизительно соответствует распределению плотности.

Для равновероятных ящиков предлагается следующее правило количества ячеек:[22]

Такой выбор бункеров мотивирован максимизацией мощности Критерий хи-квадрат Пирсона проверка того, действительно ли бункеры содержат одинаковое количество образцов. Более конкретно, для данного доверительного интервала рекомендуется выбрать от 1/2 до 1 раза следующее уравнение:[23]

Где это пробит функция. Следуя этому правилу для дал бы между и ; коэффициент 2 выбран как легко запоминающееся значение из этого широкого оптимума.

Замечание

Хорошая причина, по которой количество ящиков должно быть пропорционально следующее: предположим, что данные получены как независимые реализации ограниченного распределения вероятностей с гладкой плотностью. Тогда гистограмма остается столь же «неровной», как и стремится к бесконечности. Если - это «ширина» распределения (например, стандартное отклонение или межквартильный диапазон), тогда количество единиц в ячейке (частота) порядка и относительный стандартная ошибка в порядке . По сравнению со следующим интервалом относительное изменение частоты порядка при условии, что производная плотности отлична от нуля. Эти двое имеют одинаковый порядок, если в порядке , так что в порядке . Этот простой выбор кубического корня также можно применить к ячейкам с непостоянной шириной.

Гистограмма и функция плотности для Гамбель раздача [24]

Приложения

Смотрите также

Рекомендации

  1. ^ Пирсон, К. (1895). "Вклад в математическую теорию эволюции. II. Косые вариации в однородном материале". Философские труды Королевского общества A: математические, физические и инженерные науки. 186: 343–414. Bibcode:1895RSPTA.186..343P. Дои:10.1098 / рста.1895.0010.
  2. ^ Howitt, D .; Крамер, Д. (2008). Введение в статистику в психологии (Четвертое изд.). Прентис Холл. ISBN  978-0-13-205161-3.
  3. ^ Freedman, D .; Pisani, R .; Первес, Р. (1998). Статистика (Третье изд.). W. W. Norton. ISBN  978-0-393-97083-8.
  4. ^ Чарльз Стангор (2011) "Методы исследования поведенческих наук". Уодсворт, Cengage Learning. ISBN  9780840031976.
  5. ^ Дэвид В. Скотт (декабрь 2009 г.). «Усредненная гистограмма со смещением». Междисциплинарные обзоры Wiley: вычислительная статистика. 2:2 (2): 160–164. Дои:10.1002 / wics.54.
  6. ^ Нэнси Р. Тейг (2004). «Семь основных инструментов качества». Набор инструментов качества. Милуоки, Висконсин: Качество американского общества. п. 15. Получено 2010-02-05.
  7. ^ Наоми, Роббинс. «Гистограмма - это НЕ гистограмма». Forbes.com. Forbes. Получено 31 июля 2018.
  8. ^ М. Эйлин Магнелло (декабрь 2006 г.). «Карл Пирсон и истоки современной статистики: эластик становится статистиком». Новозеландский журнал истории и философии науки и техники. 1 том. OCLC  682200824.
  9. ^ Перепись населения США 2000 г..
  10. ^ Дин, С., и Илловски, Б. (19 февраля 2009 г.). Описательная статистика: гистограмма. Получено с веб-сайта Connexions: http://cnx.org/content/m16298/1.11/
  11. ^ а б c Скотт, Дэвид В. (1992). Многомерная оценка плотности: теория, практика и визуализация. Нью-Йорк: Джон Вили.CS1 maint: ref = harv (связь)
  12. ^ а б Стерджес, Х.А. (1926). «Выбор класса». Журнал Американской статистической ассоциации. 21 (153): 65–66. Дои:10.1080/01621459.1926.10502161. JSTOR  2965501.
  13. ^ например § 5.6 «Оценка плотности», В. Н. Венейблс и Б. Д. Рипли, Современная прикладная статистика с S (2002), Springer, 4-е издание. ISBN  0-387-95457-0.
  14. ^ «Одномерный EXCEL: гистограмма».
  15. ^ Обучение онлайн-статистике: мультимедийный курс обучения (http://onlinestatbook.com/ ). Руководитель проекта: Дэвид М. Лейн, Университет Райса (глава 2 «Графические распределения», раздел «Гистограммы»)
  16. ^ Доан Д.П. (1976) Классификация эстетических частот. Американский статистик, 30: 181–183.
  17. ^ Скотт, Дэвид В. (1979). «Об оптимальных и основанных на данных гистограммах». Биометрика. 66 (3): 605–610. Дои:10.1093 / biomet / 66.3.605.
  18. ^ Фридман, Дэвид; Диаконис, П. (1981). "На гистограмме как оценщик плотности: L2 теория " (PDF). Zeitschrift für Wahrscheinlichkeitstheorie und Verwandte Gebiete. 57 (4): 453–476. CiteSeerX  10.1.1.650.2473. Дои:10.1007 / BF01025868. S2CID  14437088.
  19. ^ Вассерман, Ларри (2004). Вся статистика. Нью-Йорк: Спрингер. п. 310. ISBN  978-1-4419-2322-6.
  20. ^ Стоун, Чарльз Дж. (1984). «Правило выбора асимптотически оптимальной гистограммы» (PDF). Материалы конференции в Беркли в честь Ежи Неймана и Джека Кифера.
  21. ^ Shimazaki, H .; Шиномото, С. (2007). «Метод выбора размера ячейки временной гистограммы». Нейронные вычисления. 19 (6): 1503–1527. CiteSeerX  10.1.1.304.6404. Дои:10.1162 / neco.2007.19.6.1503. PMID  17444758. S2CID  7781236.
  22. ^ Джек Принс; Дон МакКормак; Ди Михельсон; Карен Хоррелл. «Тест согласия по критерию хи-квадрат». Электронный справочник статистических методов NIST / SEMATECH. NIST / SEMATECH. п. 7.2.1.1. Получено 29 марта 2019.
  23. ^ Мур, Дэвид (1986). «3». В Д'Агостино, Ральф; Стивенс, Майкл (ред.). Методы соответствия. Нью-Йорк, Нью-Йорк, США: Marcel Dekker Inc., стр. 70. ISBN  0-8247-7487-6.
  24. ^ Калькулятор вероятностных распределений и функций плотности
  25. ^ Иллюстрация гистограмм и функций плотности вероятности

дальнейшее чтение

  • Ланкастер, Х. Введение в медицинскую статистику. Джон Уайли и сыновья. 1974 г. ISBN  0-471-51250-8

внешняя ссылка