Стратифицированная выборка - Stratified sampling

Стратифицированная случайная выборка

В статистика, стратифицированная выборка это метод отбор проб из численность населения который может быть разделенный в субпопуляции.

Пример стратифицированной выборки

В статистические обзоры, когда субпопуляции в общей популяции различаются, может быть полезно провести выборку каждой субпопуляции (страты) независимо. Стратификация - это процесс разделения населения на однородные подгруппы перед выборкой. Страты должны определять разделение населения. То есть должно быть вместе исчерпывающей и взаимоисключающий: каждый элемент в популяции должен быть отнесен к одной и только одной страте. потом простая случайная выборка применяется внутри каждого слоя. Цель состоит в том, чтобы повысить точность образца за счет уменьшения ошибка выборки. Это может произвести средневзвешенное значение который имеет меньшую изменчивость, чем среднее арифметическое из простая случайная выборка населения.

В вычислительная статистика стратифицированная выборка - это метод уменьшение дисперсии когда Методы Монте-Карло используются для оценки статистики населения по известной совокупности.[1]

Предположим, что нам нужно оценить среднее количество голосов за каждого кандидата на выборах. Предположим, что в стране 3 города: в городе A 1 миллион заводских рабочих, в городе B 2 миллиона служащих, а в городе C 3 миллиона пенсионеров. Мы можем выбрать случайную выборку размером 60 по всему населению, но есть некоторая вероятность, что полученная случайная выборка плохо сбалансирована по этим городам и, следовательно, является смещенной, что вызывает значительную ошибку в оценке. Вместо этого, если мы выберем случайную выборку из 10, 20 и 30 из городов A, B и C соответственно, тогда мы сможем произвести меньшую ошибку в оценке для того же общего размера выборки. Этот метод обычно используется, когда популяция не является однородной группой.

Стратегии стратифицированной выборки

  1. Пропорциональное распределение использует фракция отбора проб в каждой страте пропорционально общей численности населения. Например, если население состоит из п всего лиц, м из них мужчины и ж женский (а где м + ж = п), то относительный размер двух выборок (Икс1 = м / п мужчины Икс2 = ж / п женщины) должны отражать эту пропорцию.
  2. Оптимальное размещение (или же непропорциональное распределение) - Доля выборки каждой страты пропорциональна как пропорции (как указано выше), так и стандартное отклонение распределения переменной. Большие выборки отбираются в стратах с наибольшей изменчивостью, чтобы получить наименьшую возможную общую дисперсию выборки.

Реальный пример использования стратифицированной выборки - политическая опрос. Если респондентам необходимо отразить разнообразие населения, исследователь будет специально стремиться включить участников из различных групп меньшинств, таких как раса или религия, на основе их пропорциональности к общей численности населения, как указано выше. Таким образом, стратифицированное обследование может претендовать на то, чтобы быть более репрезентативным для населения, чем обследование простая случайная выборка или же систематический отбор проб.

Преимущества

Причины использования стратифицированной выборки, а не простая случайная выборка включают[2]

  1. Если измерения внутри слоев имеют более низкое стандартное отклонение, стратификация дает меньшую ошибку в оценке.
  2. Для многих приложений измерения становятся более управляемыми и / или дешевле, когда совокупность сгруппирована по стратам.
  3. Часто желательно иметь оценки популяционных параметров для групп внутри населения.

Если плотность населения сильно различается в пределах региона, стратифицированная выборка гарантирует, что оценки могут быть сделаны с одинаковой точностью в разных частях региона, и что сравнения субрегионов могут быть выполнены с одинаковой точностью. статистическая мощность. Например, в Онтарио обследование, проводимое по всей провинции, может использовать большую долю выборки на менее населенном севере, поскольку разница в численности населения между севером и югом настолько велика, что фракция выборки, основанная на выборке провинции в целом, может привести к сбору только одного горстка данных с севера.

Недостатки

Стратифицированная выборка бесполезна, когда совокупность не может быть полностью разделена на непересекающиеся подгруппы. Это было бы неправильным применением техники, чтобы сделать размеры выборки подгрупп пропорциональными количеству данных, доступных от подгрупп, а не масштабировать размеры выборки до размеров подгрупп ( или их отклонений, если известно, что они значительно различаются - например, с помощью F Тест ). Считается, что данные, представляющие каждую подгруппу, имеют одинаковую важность, если предполагаемое различие между ними требует стратифицированной выборки. Если дисперсия подгрупп значительно различается и данные необходимо стратифицировать по дисперсии, невозможно одновременно сделать размер выборки каждой подгруппы пропорциональным размеру подгруппы в общей совокупности. Чтобы узнать об эффективном способе разделения ресурсов выборки между группами, различающимися по средствам, дисперсии и стоимости, см. "оптимальное распределение" Проблема стратифицированной выборки в случае неизвестных априорных классов (соотношение субпопуляций во всей популяции) может иметь пагубное влияние на эффективность любого анализа набора данных, например классификация.[3] В связи с этим минимаксный коэффициент дискретизации может использоваться, чтобы сделать набор данных устойчивым в отношении неопределенности в базовом процессе генерации данных.[3]

Объединение субстратов для обеспечения достаточного количества может привести к Парадокс Симпсона, где тенденции, которые фактически существуют в разных группах данных, исчезают или даже меняются местами при объединении групп.

Средняя и стандартная ошибка

Среднее значение и дисперсия стратифицированной случайной выборки определяются как:[2]

куда,

количество слоев
сумма размеров всех слоев
размер пласта
выборочное среднее по страте
количество наблюдений в страте
стандартное отклонение выборки страты

Обратите внимание, что термин () / (), что равно (1 - / ), это поправка на конечную популяцию и должны быть выражены в «единицах выборки». Вышеупомянутая поправка на конечную популяцию дает:

где = / это вес населения страты .

Распределение размера выборки

Для стратегии пропорционального распределения размер выборки в каждой страте берется пропорционально размеру страты. Предположим, что в компании есть следующие сотрудники:[4]

  • мужчин, полная занятость: 90
  • мужчин, неполный рабочий день: 18
  • женщина, полная занятость: 9
  • женщины, неполный рабочий день: 63
  • всего: 180

и нас просят взять выборку из 40 сотрудников, стратифицированных по вышеуказанным категориям.

Первый шаг - вычислить процентное соотношение каждой группы от общей суммы.

  • % мужчин, работающих полный рабочий день = 90 ÷ 180 = 50%
  • % мужчин, неполный рабочий день = 18 ÷ 180 = 10%
  • % женщин, работающих полный день = 9 ÷ 180 = 5%
  • % женщин, неполный рабочий день = 63 ÷ 180 = 35%

Это говорит нам о том, что из нашей выборки из 40,

  • 50% (20 человек) должны быть мужчинами, работающими полный рабочий день.
  • 10% (4 человека) должны быть мужчинами, работающими неполный рабочий день.
  • 5% (2 человека) должны составлять женщины, работающие полный рабочий день.
  • 35% (14 человек) должны составлять женщины, работающие неполный рабочий день.

Еще один простой способ без вычисления процента - это умножить размер каждой группы на размер выборки и разделить на общую численность населения (размер всего персонала):

  • мужчины, полный рабочий день = 90 × (40 ÷ 180) = 20
  • мужчины, неполный рабочий день = 18 × (40 ÷ 180) = 4
  • женщины, дневная форма = 9 × (40 ÷ 180) = 2
  • женщины, неполный рабочий день = 63 × (40 ÷ 180) = 14

Смотрите также

Рекомендации

  1. ^ Ботев, З .; Риддер, А. (2017). «Снижение дисперсии». Wiley StatsRef: Справочник по статистике в Интернете: 1–6. Дои:10.1002 / 9781118445112.stat07975. ISBN  9781118445112.
  2. ^ а б «6.1 Как использовать стратифицированную выборку | STAT 506». onlinecourses.science.psu.edu. Получено 2015-07-23.
  3. ^ а б Шахрох Исфахани, Мохаммад; Догерти, Эдвард Р. (2014). «Влияние раздельной выборки на точность классификации». Биоинформатика. 30 (2): 242–250. Дои:10.1093 / биоинформатика / btt662. PMID  24257187.
  4. ^ Хант, Невилл; Тиррелл, Сидней (2001). «Стратифицированная выборка». Веб-страница Университета Ковентри. Архивировано из оригинал 13 октября 2013 г.. Получено 12 июля 2012.

дальнейшее чтение

  • Сэрндал, Карл-Эрик; и другие. (2003). «Стратифицированная выборка». Выборка при помощи модели. Нью-Йорк: Спрингер. С. 100–109. ISBN  0-387-40620-4.