Выборочное обследование - Cluster sampling

Выборочное обследование

Выборочное обследование это отбор проб план, используемый, когда взаимно однородные, но внутренне неоднородные группы очевидны в статистическая совокупность. Часто используется в маркетинговое исследование. В этом плане выборки все население разделено на эти группы (известные как кластеры) и простая случайная выборка из групп выбирается. Затем производится выборка элементов в каждом кластере. Если отбираются все элементы в каждом кластере выборки, то это называется «одноэтапным» планом выборки кластера. Если в каждой из этих групп выбирается простая случайная подвыборка элементов, это называется «двухэтапным» планом кластерной выборки. Общей мотивацией кластерной выборки является сокращение общего количества интервью и затрат при желаемой точности. Для фиксированного размера выборки ожидаемая случайная ошибка меньше, когда большая часть вариации в популяции присутствует внутри групп, а не между группами.

Элементы кластера

В идеале популяция внутри кластера должна быть как можно более гетерогенной, но между кластерами должна быть однородность. Каждый кластер должен представлять собой мелкомасштабное представление всего населения. Кластеры должны быть взаимоисключающими и в совокупности исчерпывающими. Затем для любых соответствующих кластеров используется метод случайной выборки, чтобы выбрать, какие кластеры включить в исследование. При одноэтапной выборке кластеров выбираются все элементы из каждого из выбранных кластеров. При двухэтапной кластерной выборке метод случайной выборки применяется к элементам из каждого из выбранных кластеров.

Основное отличие кластерной выборки от стратифицированная выборка заключается в том, что при кластерной выборке кластер обрабатывается как единица выборки, поэтому выборка выполняется для совокупности кластеров (по крайней мере, на первом этапе). При стратифицированной выборке выборка выполняется по элементам в каждой страте. При стратифицированной выборке случайная выборка отбирается из каждой страты, тогда как в кластерной выборке выбираются только выбранные кластеры. Распространенной мотивацией кластерной выборки является снижение затрат за счет повышения эффективности выборки. Это контрастирует со стратифицированной выборкой, где мотивация заключается в повышении точности.

Существует также многоступенчатая кластерная выборка, где проводится не менее двух этапов отбора элементов из кластеров.

Когда кластеры разного размера

Без изменения оцениваемого параметра выборка кластеров является несмещенной, если кластеры примерно одинакового размера. В этом случае параметр вычисляется путем объединения всех выбранных кластеров. Когда кластеры имеют разный размер, есть несколько вариантов:

Один из методов состоит в том, чтобы выбрать кластеры, а затем обследовать все элементы в этом кластере. Другой метод - это двухэтапный метод выборки фиксированной доли единиц (будь то 5% или 50% или другое количество, в зависимости от соображений стоимости) из каждого из выбранных кластеров. Если полагаться на выборку, взятую из этих вариантов, можно получить объективную оценку. Однако размер выборки больше не фиксируется заранее. Это приводит к более сложной формуле для стандартной ошибки оценщика, а также к проблемам с оптикой плана исследования (поскольку анализ мощности и оценки затрат часто относятся к конкретному размеру выборки).

Третье возможное решение - использовать вероятность пропорциональна размеру выборки. В этом плане выборки вероятность выбора кластера пропорциональна его размеру, так что большой кластер имеет большую вероятность выбора, чем маленький кластер. Преимущество здесь состоит в том, что когда кластеры выбираются с вероятностью, пропорциональной размеру, в каждом кластере выборки должно быть проведено одинаковое количество интервью, чтобы каждая из выбранных единиц имела одинаковую вероятность выбора.

Приложения кластерной выборки

Пример кластерной выборки: отбор проб по площади или же выборка географического кластера. Каждый кластер - это географическая область. Поскольку обследование географически рассредоточенного населения может быть дорогостоящим, большая экономия, чем простая случайная выборка, может быть достигнута путем группирования нескольких респондентов в пределах локальной территории в кластер. Обычно необходимо увеличить общий размер выборки для достижения эквивалентной точности в оценщики, но экономия средств может сделать такое увеличение размера выборки возможным.

Кластерная выборка используется для оценки высокой смертности в таких случаях, как: войны, голод и Стихийные бедствия.[1]

Преимущество

  • Может быть дешевле, чем другие планы выборочного контроля - например, меньше командировочных, административных расходов.
  • Осуществимость: этот план выборки учитывает большие популяции. Поскольку эти группы очень большие, использование любого другого плана выборки будет очень дорогостоящим.
  • Экономия: при использовании этого метода значительно сокращаются две основные проблемы, связанные с расходами, то есть поездка и листинг. Например: сбор исследовательской информации о каждом домохозяйстве в городе будет очень дорогостоящим, тогда как сбор информации о различных кварталах города будет более экономичным. Здесь будут значительно сокращены затраты на поездки и листинг.
  • Пониженная вариабельность: в редком случае отрицательный внутриклассовая корреляция между субъектами внутри кластера оценщики, полученные с помощью кластерной выборки, дадут более точные оценки, чем данные, полученные из простая случайная выборка (т.е. эффект дизайна будет меньше 1). Это не обычный сценарий.

Основное использование: когда выборка всех элементов недоступна, мы можем прибегнуть только к кластерной выборке.

Недостаток

  • Выше ошибка выборки, что может быть выражено эффект дизайна: отношение между дисперсией оценки, полученной из выборок кластерного исследования, и дисперсией оценки, полученной из выборки субъектов в равной степени надежной, случайно выбранный некластерное исследование.[2] Чем больше внутриклассовая корреляция между субъектами в кластере, тем хуже становится эффект дизайна (т.е. чем больше он получается от 1. Это указывает на большее ожидаемое увеличение дисперсии оценки). Другими словами, чем больше неоднородности между кластерами и больше однородности между субъектами внутри кластера, тем менее точными становятся наши оценки. Это связано с тем, что в таких случаях нам лучше отобрать как можно больше кластеров и обойтись небольшой выборкой субъектов из каждого кластера (т.е. двухэтапная кластерная выборка).
  • Сложность. Кластерная выборка более сложна и требует большего внимания к тому, как планировать и как анализировать (т. Е .: учитывать веса субъектов при оценке параметров, доверительных интервалов и т. Д.)

Подробнее о кластерной выборке

Двухэтапная кластерная выборка

Двухэтапная кластерная выборка, простой случай многоступенчатый отбор проб, получается путем выбора выборок кластеров на первом этапе, а затем выборки элементов из каждого кластера. Рассмотрим популяцию N кластеры в целом. На первом этапе п кластеры отбираются обычным методом кластерной выборки. На втором этапе простая случайная выборка обычно используется.[3] Он используется отдельно в каждом кластере, и количество элементов, выбранных из разных кластеров, не обязательно равно. Общее количество кластеров N, количество выбранных кластеров п, а количество элементов из выбранных кластеров должно быть заранее определено разработчиком обследования. Двухэтапная кластерная выборка направлена ​​на минимизацию затрат на обследование и в то же время контроль неопределенности, связанной с интересующими оценками.[4] Этот метод можно использовать в здравоохранении и социальных науках. Например, исследователи использовали двухэтапную кластерную выборку для создания репрезентативной выборки иракского населения для проведения обследований смертности.[5] Отбор проб с помощью этого метода может быть быстрее и надежнее, чем при использовании других методов, поэтому сейчас этот метод используется часто.

Вывод при небольшом количестве кластеров

Методы кластерной выборки могут привести к значительному смещению при работе с небольшим количеством кластеров. Например, может возникнуть необходимость сгруппировать на уровне штата или города единицы, которые могут быть небольшими и фиксированными по количеству. В методах микроэконометрии для панельных данных часто используются короткие панели, что аналогично тому, как несколько наблюдений на кластер и много кластеров. Проблему малых кластеров можно рассматривать как проблему случайных параметров.[6] Хотя точечные оценки можно достаточно точно оценить, если количество наблюдений на кластер достаточно велико, нам нужно количество кластеров для вступления в силу асимптотики. Если количество кластеров невелико, оценочная матрица ковариации может быть смещена вниз.[7]

Небольшое количество кластеров представляет собой риск при наличии последовательной корреляции или при наличии внутриклассовой корреляции, как в контексте Моултона. При наличии небольшого количества кластеров мы склонны недооценивать серийную корреляцию между наблюдениями, когда происходит случайный шок, или внутриклассовую корреляцию в условиях Моултона.[8] Несколько исследований подчеркнули последствия серийной корреляции и выдвинули на первый план проблему малых кластеров.[9][10]

В рамках фактора Моултона интуитивное объяснение проблемы малых кластеров может быть получено из формулы для фактора Моултона. Для простоты предположим, что количество наблюдений на кластер зафиксировано на п. Ниже, обозначает ковариационную матрицу с поправкой на кластеризацию, обозначает ковариационную матрицу без поправки на кластеризацию, а ρ обозначает внутриклассовую корреляцию:

Отношение в левой части показывает, насколько нескорректированный сценарий переоценивает точность. Таким образом, высокое число означает сильное смещение оцененной ковариационной матрицы в сторону уменьшения. Небольшую проблему кластера можно интерпретировать как большое n: когда данные фиксированы и количество кластеров мало, количество данных в кластере может быть большим. Отсюда следует, что вывод, когда количество кластеров невелико, не будет иметь правильного покрытия.[8]

Было предложено несколько решений проблемы малых кластеров. Можно использовать кластерно-устойчивую матрицу дисперсии со скорректированным смещением, вносить корректировки T-распределения или использовать методы начальной загрузки с асимптотическими уточнениями, такие как процентиль-t или дикий бутстрап, которые могут привести к улучшенному выводу конечной выборки.[7] Кэмерон, Гелбах и Миллер (2008) предоставляют микросимуляторы для различных методов и обнаруживают, что «дикий» бутстрап хорошо работает в условиях небольшого числа кластеров.[11]

Смотрите также

Рекомендации

  1. ^ Дэвид Браун, Исследование утверждает, что число погибших в Ираке достигло 655000 человек, Вашингтон Пост, Среда, 11 октября 2006 г. Проверено 14 сентября 2010 г.
  2. ^ Керри и Блэнд (1998). Примечания к статистике: коэффициент внутрикластерной корреляции при рандомизации кластера. Британский медицинский журнал, 316, 1455–1460.
  3. ^ Ахмед, Сайфуддин (2009). Методы выборочных обследований (PDF). Университет Джона Хопкинса и Сайфуддин Ахмед.
  4. ^ Даниэль Пфефферманн; К. Радхакришна Рао (2009). Справочник по статистике Том 29A Выборочные исследования: теория, методы и выводы. Elsevier B.V. ISBN  978-0-444-53124-7.
  5. ^ Л.П. Голуэй; Натаниэль Белл; Al S SAE; Эми Акопиан; Гилберт Бернхэм; Авраам Флаксман; Вильям М. Вайс; Джули Раджаратнам; Тим К. Такаро (27 апреля 2012 г.). «Двухэтапный метод кластерной выборки с использованием данных о населении с привязкой к сетке, ГИС и изображений Google EarthTM в обследовании смертности населения в Ираке». Международный журнал географии здоровья. 11: 12. Дои:10.1186 / 1476-072X-11-12. ЧВК  3490933. PMID  22540266.
  6. ^ Кэмерон А. С. и П. К. Триведи (2005): Микроэконометрика: методы и приложения. Издательство Кембриджского университета, Нью-Йорк.
  7. ^ а б Кэмерон, С. и Д. Л. Миллер (2015): Практическое руководство по кластерно-устойчивому выводу. Журнал людских ресурсов 50 (2), стр. 317–372.
  8. ^ а б Angrist, J.D. и J.-S. Пишке (2009): В основном безвредная эконометрика. Спутник эмпирика. Издательство Принстонского университета, Нью-Джерси.
  9. ^ Бертран, М., Э. Дюфло и С. Муллайнатан (2004): Насколько мы должны доверять оценкам разницы в разностях? Ежеквартальный журнал экономики 119 (1), стр. 249–275.
  10. ^ Кезди, Г. (2004): Надежная оценка стандартной ошибки в панельных моделях с фиксированным эффектом. Венгерский статистический обзор 9, стр. 95–116.
  11. ^ Кэмерон, К., Дж. Гелбах и Д. Л. Миллер (2008): Улучшения на основе начальной загрузки для вывода с помощью кластеризованных ошибок. Обзор экономики и статистики 90, стр. 414–427.