Коробчатый сюжет - Box plot

Рис. 1. Ящичковая диаграмма данных из Эксперимент Майкельсона-Морли

В описательная статистика, а коробчатый сюжет или ящик это метод графического изображения групп числовых данных через их квартили. Коробчатые диаграммы также могут иметь линии, выходящие из прямоугольников (усы), что указывает на изменчивость за пределами верхнего и нижнего квартилей, отсюда и термины заговор с ящиком и усами и диаграмма коробки и усов. Выбросы могут быть нанесены как отдельные точки. непараметрический: они отображают вариации в образцах статистическая совокупность без каких-либо предположений об основных статистическое распределение (хотя диаграмма Тьюки предполагает симметрию усов и нормальность их длины). Расстояние между различными частями коробки указывает степень разброс (распространение) и перекос в данных и показать выбросы. Помимо самих точек, они позволяют визуально оценить различные L-оценки, в частности межквартильный размах, середина, ассортимент, средний диапазон, и Trimean. Коробчатые диаграммы можно рисовать как по горизонтали, так и по вертикали. Бокс-диаграммы получили свое название от прямоугольника посередине.

История коробчатого сюжета

Range-bar был представлен Мэри Элеонора Спир в 1952 г.[1] и снова в 1969 году.[2] График коробки и усов был впервые представлен в 1970 году. Джон Тьюки, который позже опубликовал на эту тему в 1977 году.[3]

Элементы коробчатого сюжета

Рисунок 2. Коробчатая диаграмма с усами от минимума до максимума.
Рис. 3. Та же коробчатая диаграмма с усами с максимальным IQR 1,5.

Коробчатая диаграмма - это стандартизированный способ отображения набора данных на основе пятизначное резюме: минимум, максимум, медиана выборки, а также первый и третий квартили.

Минимум : самая низкая точка данных без каких-либо выбросов.

Максимум : самая большая точка данных без каких-либо выбросов.

Средний (Q2 / 50-й процентиль) : среднее значение набора данных.

Первый квартиль (Q1 / 25-й процентиль) : также известен как нижний квартиль qп(0,25) - это медиана нижней половины набора данных.

Третий квартиль (Q3 / 75-й процентиль) : также известен как верхний квартиль qп(0,75) - это медиана верхней половины набора данных.[4]

Важным элементом, используемым для построения прямоугольной диаграммы путем определения минимальных и максимальных возможных значений данных, но не являющихся частью вышеупомянутой пятизначной сводки, является межквартильный диапазон или IQR, обозначенный ниже:

Межквартильный размах (IQR) : расстояние между верхним и нижним квартилями.

Коробчатая диаграмма состоит из двух частей, прямоугольника и набора усов, показанных на рисунке 2. Самая низкая точка - это минимум набора данных, а самая высокая точка - максимум набора данных. Коробка взята из Q1 к Q3 с горизонтальной линией посередине для обозначения медианы.

Тот же набор данных также может быть представлен в виде прямоугольной диаграммы, показанной на Рисунке 3. Сверху верхнего квартиля измеряется расстояние, в 1,5 раза превышающее IQR, и проводится усы до самой большой наблюдаемой точки из набора данных, которая попадает в этот расстояние. Точно так же расстояние, в 1,5 раза превышающее IQR, измеряется ниже нижнего квартиля, и усы протягиваются до нижней наблюдаемой точки из набора данных, которая попадает в это расстояние. Все остальные наблюдаемые точки отображаются как выбросы.[5]

Тем не менее, усы могут представлять несколько возможных альтернативных значений, среди которых:

Любые данные, не включенные между усами, должны быть нанесены как выброс с точкой, маленьким кружком или звездочкой, но иногда этого не делается.

Некоторые коробчатые диаграммы включают дополнительный символ для представления среднего значения данных.[6][7]

На некоторых коробчатых диаграммах на каждом усе перед концом наносится перекрестие.

Редко коробчатые диаграммы могут быть представлены вообще без усов.

Из-за этой изменчивости уместно описать соглашение, используемое для усов и выбросов, в подписи к графику.

Необычные процентили 2%, 9%, 91%, 98% иногда используются для штриховки усов и концов усов, чтобы показать семизначное резюме. Если данные нормально распределенный, места семи отметок на прямоугольной диаграмме будут расположены на одинаковом расстоянии.

Вариации

Рис. 4. Диаграммы с четырьмя коробками, с надрезами и без них и переменной шириной.

Поскольку математик Джон В. Тьюки популяризировав этот тип отображения визуальных данных в 1969 году, было описано несколько вариаций традиционной прямоугольной диаграммы. Двумя наиболее распространенными являются прямоугольные диаграммы переменной ширины и прямоугольные диаграммы с надрезом (см. Рисунок 4).

Графики ящиков переменной ширины иллюстрируют размер каждой группы, данные которой отображаются, путем создания ширины ящика пропорциональной размеру группы. Популярное соглашение - сделать ширину прямоугольника пропорциональной квадратному корню из размера группы.[8]

На прямоугольных диаграммах с надрезом применяется «надрез» или сужение прямоугольника вокруг медианы. Вырезы полезны, поскольку предлагают приблизительное представление о значении разницы медиан; если выемки двух прямоугольников не перекрываются, это свидетельствует о статистически значимой разнице между медианами.[8] Ширина зазубрин пропорциональна межквартильному диапазону (IQR) выборки и обратно пропорциональна квадратному корню из размера выборки. Однако существует неопределенность относительно наиболее подходящего множителя (так как он может варьироваться в зависимости от схожести дисперсий выборок).[8] Одно соглашение - использовать .[9]

Скорректированные коробчатые диаграммы предназначены для асимметричные распределения. Они полагаются на медицинская пара статистика асимметрии.[10] Для среднего значения MC длины верхних и нижних усов соответственно определены как

Для симметричных распределений медпара будет равна нулю, и это сводится к диаграмме Тьюки с равными длинами усов для обоих усов.

Другие виды сюжетов, такие как скрипичные сюжеты и bean-графики могут показать разницу между одномодальным и мультимодальный дистрибутивов, разница, которую нельзя увидеть с исходной коробчатой ​​диаграммой.[11]

Примеры)

Пример без выбросов

Рисунок 5. Сгенерированный рисунок прямоугольной диаграммы нашего примера слева без выбросов.

В течение дня измерялись почасовые измерения температуры в градусах Фаренгейта. Записанные значения перечислены в следующем порядке: 57, 57, 57, 58, 63, 66, 66, 67, 67, 68, 69, 70, 70, 70, 70, 72, 73, 75, 75, 76, 76, 78, 79, 81.

Ящичковая диаграмма данных может быть создана путем вычисления пяти соответствующих значений: минимума, максимума, медианы, первого квартиля и третьего квартиля.

Минимум - это наименьшее количество из набора. В этом случае минимальная дневная температура составляет 57 ° F.

Максимум - это наибольшее количество набора. В этом случае максимальная дневная температура составляет 81 ° F.

Медиана - это «средний» номер упорядоченного набора. Это означает, что ровно 50% элементов меньше медианы и 50% элементов больше медианы. Медиана этого заказанного набора составляет 70 ° F.

Значение первого квартиля - это число, которое отмечает одну четверть упорядоченного набора. Другими словами, ровно 25% элементов меньше первого квартиля и ровно 75% элементов больше. Значение первого квартиля можно легко определить, найдя «среднее» число между минимумом и медианой. Для почасовой температуры "среднее" число между 57 ° F и 70 ° F составляет 66 ° F.

Значение третьего квартиля - это число, обозначающее три четверти упорядоченного набора. Другими словами, ровно 75% элементов меньше первого квартиля и 25% элементов больше. Значение третьего квартиля можно легко определить, найдя «среднее» число между медианой и максимумом. Для почасовой температуры "среднее" число между 70 ° F и 81 ° F составляет 75 ° F.

Межквартильный размах, или IQR, можно рассчитать:

Следовательно,

1.5 IQR выше третьего квартиля:

1,5IQR ниже первого квартиля:

Верхний ус на прямоугольной диаграмме - это самый большой номер набора данных, меньший 1,5IQR выше третьего квартиля. Здесь 1,5IQR выше третьего квартиля составляет 88,5 ° F, а максимальное - 81 ° F. Следовательно, верхний ус нарисован на максимальном значении 81 ° F.

Точно так же нижний ус на прямоугольной диаграмме - это наименьший номер набора данных, превышающий 1,5IQR ниже первого квартиля. Здесь 1,5IQR ниже первого квартиля составляет 52,5 ° F, а минимальное - 57 ° F. Таким образом, нижний ус нарисован при минимальном значении 57 ° F.

Пример с выбросами

Рис. 6. Сгенерированная коробчатая диаграмма нашего примера слева с выбросами.

Выше приведен пример без выбросов. Вот дополнительный пример с выбросами:

Заказанный набор: 52, 57, 57, 58, 63, 66, 66, 67, 67, 68, 69, 70, 70, 70, 70, 72, 73, 75, 75, 76, 76, 78, 79 , 89.

В этом примере изменяются только первый и последний номер. Медиана, третий квартиль и первый квартиль остаются прежними.

В этом случае максимальное значение составляет 89 ° F, а на 1,5IQR выше третьего квартиля - 88,5 ° F. Максимальное значение больше 1,5IQR плюс третий квартиль, поэтому максимальное значение является выбросом. Следовательно, верхний ус нарисован с максимальным значением, меньшим, чем 1,5IQR, над третьим квартилем, который составляет 79 ° F.

Точно так же минимум составляет 52 ° F, а IQR на 1,5 ниже первого квартиля составляет 52,5 ° F. Минимальное значение меньше 1,5IQR минус первый квартиль, поэтому минимум также является выбросом. Следовательно, нижние усы отображаются при наименьшем значении, превышающем 1,5IQR, ниже первого квартиля, который составляет 57 ° F.

В случае больших наборов данных

Общее уравнение для вычисления эмпирических квантилей

Используя приведенный выше пример с 24 точками данных, что означает п = 24, можно также вычислить медианное значение, первый и третий квартили математически и визуально.

Медиана :

Первый квартиль :

Третий квартиль :

Визуализация

Рисунок 7. Коробчатая диаграмма и функция плотности вероятности (pdf) нормального N (0,1σ2) Население

Ящичная диаграмма позволяет быстро графически исследовать один или несколько наборов данных. Коробчатые диаграммы могут показаться более примитивными, чем гистограмма или оценка плотности ядра но у них есть некоторые преимущества. Они занимают меньше места и поэтому особенно полезны для сравнения распределений между несколькими группами или наборами данных (см. Пример на рисунке 1). Выбор количество и ширина ящиков методы могут сильно повлиять на внешний вид гистограммы, а выбор полосы пропускания может сильно повлиять на внешний вид оценки плотности ядра.

Поскольку рассмотрение статистического распределения является более обычным делом, чем рассмотрение прямоугольного графика, сравнение прямоугольного графика с функцией плотности вероятности (теоретическая гистограмма) для нормального N (0,σ2) распределение может быть полезным инструментом для понимания коробчатой ​​диаграммы (рисунок 7).

Рисунок 8. Коробчатые диаграммы, отображающие перекос

Смотрите также

использованная литература

  1. ^ Копье, Мэри Элеонора (1952). Графическая статистика. Макгроу Хилл. п. 166.
  2. ^ Копье, Мэри Элеонора. (1969). Практические методы построения графиков. Нью-Йорк: Макгроу-Хилл. ISBN  0070600104. OCLC  924909765.
  3. ^ Уикхэм, Стрыевски, Хэдли, Лиза (29 ноября 2011 г.). «40 лет коробчатому сюжету» (PDF). Получено 11 декабря, 2019.
  4. ^ Холмс, Александр; Ильловски, Барбара; Дин, Сьюзан. «Вводная бизнес-статистика». OpenStax.
  5. ^ Деккинг, Ф. (2005). Современное введение в вероятность и статистику. Springer. стр.234 –238. ISBN  1-85233-896-2.
  6. ^ Фригге, Майкл; Хоглин, Дэвид С .; Иглевич, Борис (февраль 1989 г.). «Некоторые реализации коробчатого графика». Американский статистик. 43 (1): 50–54. Дои:10.2307/2685173. JSTOR  2685173.
  7. ^ Marmolejo-Ramos, F .; Тиан, С. (2010). «Коробчатая диаграмма смещения. Коробчатая диаграмма, основанная на существенной сводной статистике вокруг среднего». Международный журнал психологических исследований. 3 (1): 37–46. Дои:10.21500/20112084.823.
  8. ^ а б c Макгилл, Роберт; Тьюки, Джон У.; Ларсен, Уэйн А. (февраль 1978 г.). «Вариации коробчатых сюжетов». Американский статистик. 32 (1): 12–16. Дои:10.2307/2683468. JSTOR  2683468.
  9. ^ «R: Статистика коробчатой ​​диаграммы». R руководство. Получено 26 июн 2011.
  10. ^ Юбер, М.; Вандервирен, Э. (2008). «Скорректированный коробчатый график для искаженного распределения». Вычислительная статистика и анализ данных. 52 (12): 5186–5201. CiteSeerX  10.1.1.90.9812. Дои:10.1016 / j.csda.2007.11.008.
  11. ^ Уикхэм, Хэдли; Стрыевский, Лиза (2011). «40 лет коробчатому сюжету» (PDF).

дальнейшее чтение

внешние ссылки