Ошибка покрытия - Coverage error

Все цветные кружки включены в целевую совокупность. Круги зеленого и оранжевого цветов включены в рамку образца. Зеленые кружки - это случайно сгенерированная выборка из выборки. Фрейм выборки включает избыточный охват, потому что Джон и Джек - одно и то же лицо, но он включен во фрейм выборки несколько раз. Основа выборки включает неполный охват, потому что не вся целевая группа населения включена в основу выборки.

Ошибка покрытия это тип ошибка, не связанная с выборкой[1] это происходит, когда нет однозначного соответствия между целевой совокупностью и рамкой выборки, из которой взята выборка.[2] Это может привести к смещению оценок, рассчитанных с использованием данных опроса.[3] Например, исследователь может пожелать изучить мнения зарегистрированных избирателей (целевого населения), позвонив в места проживания, указанные в телефонном справочнике (основа выборки). Недостаточный охват может возникнуть, если не все избиратели указаны в телефонном справочнике. Избыточный охват может произойти, если у некоторых избирателей будет более одного указанного номера телефона. Предвзятость также может возникнуть, если некоторые номера телефонов, указанные в справочнике, не принадлежат зарегистрированным избирателям.[4] В этом примере неполный охват, чрезмерный охват и систематическая ошибка из-за включения незарегистрированных избирателей в основу выборки являются примерами ошибки охвата.

Обсуждение

Ошибка покрытия - это один из видов Общая ошибка опроса что может произойти в выборка обследования. В выборке опроса основа выборки это список единиц выборки, из которых берутся выборки целевой совокупности.[3] Ошибка охвата возникает, когда есть различия между целевой группой населения и рамкой выборки.[5]

Например, предположим, что исследователь использует Twitter, чтобы определить мнение избирателей США о недавних действиях президента США. Хотя целевая аудитория исследователя - избиратели из США, она использует список пользователей Twitter в качестве основы выборки. Поскольку не все избиратели являются пользователями Twitter, и поскольку не все пользователи Twitter являются избирателями, будет несоответствие между целевой группой населения и рамкой выборки, что может привести к смещенным результатам опроса, поскольку демографические данные и мнения Twitter, использующих избирателей, могут быть нерепрезентативными. целевой группы избирателей.[4]

Неполный охват возникает, когда основа выборки не включает всех членов целевой группы. В предыдущем примере избиратели недостаточно защищены, потому что не все избиратели являются пользователями Twitter. С другой стороны, избыточный охват возникает, когда некоторые члены целевой группы чрезмерно представлены в структуре выборки. В предыдущем примере возможно, что у некоторых пользователей более одной учетной записи Twitter, и они с большей вероятностью будут включены в опрос, чем пользователи Twitter, имеющие только одну учетную запись.[4]

Продольные исследования особенно подвержены неполному охвату, поскольку популяция, изучаемая при продольном обследовании, может со временем меняться.[6] Например, исследователь может захотеть изучить взаимосвязь между буквенными оценками, получаемыми третьеклассниками в конкретном школьном округе, и заработной платой, которую эти же дети получают, когда становятся взрослыми. В этом случае исследователя интересуют все третьеклассники района, которые вырастают взрослыми (целевая группа). Ее основа выборки могла бы быть списком третьеклассников школьного округа (основа выборки). Со временем вполне вероятно, что исследователь потеряет из виду некоторых детей, использованных в первоначальном исследовании, так что ее выборка взрослых больше не соответствует структуре выборки детей, использованных в исследовании.

Способы количественной оценки ошибки покрытия

Для количественной оценки и исправления ошибок покрытия использовалось множество различных методов. Часто используемые методы уникальны для конкретных агентств и организаций. Например, Бюро переписи населения США разработало модели с использованием файла последовательности доставки почтовой службы США, адресных данных IRS 1040, коммерчески доступных подсчетов потерь права выкупа и других данных для разработки моделей, способных прогнозировать неполный учет по блокам переписи. Бюро переписи населения сообщило о некоторых успешных попытках сопоставить такие модели с нулевым раздутым отрицательным биномом или Нулевой надутый Распределения Пуассона (ZIP).[7]

Другой метод количественной оценки ошибки покрытия использует метить и отбивать методология.[8] В методологии «пометки и повторной поимки» образец берется непосредственно из популяции, маркируется и повторно вводится в популяцию. Позже из совокупности берется другая выборка (повторный сбор), и доля ранее отмеченных выборок используется для оценки фактического размера совокупности. Этот метод может быть расширен до определения достоверности основы выборки путем взятия выборки непосредственно из целевой совокупности, а затем взятия другой выборки из основы данных для оценки неполного охвата.[9] Например, предположим, что была проведена перепись. После завершения переписи можно было составить случайные выборки из совокупности для повторного подсчета.[8]

Способы уменьшить ошибку покрытия

Один из способов уменьшить ошибку охвата - полагаться на несколько источников либо для построения выборки, либо для сбора информации. Это называется смешанным режимом. Например, студенты Университета штата Вашингтон провели опросы студентов, построив образец фрейма, используя как почтовые адреса, так и адреса электронной почты.[5]

В другом примере смешанного подхода перепись 2010 года в США в основном основывалась на ответах по почте, а затем для опроса лиц, не ответивших на вопросы, были задействованы полевые интервьюеры. Таким образом, Выездные интервьюеры могли определить, существует ли еще конкретный адрес или все еще занят. Такой подход имел дополнительное преимущество в виде снижения затрат, поскольку большинство людей отвечали по почте и не требовали выезда на места.[8][5]

Пример: перепись 2010 г.

Бюро переписи населения США готовит и поддерживает главный файл адресов, содержащий около 144,9 миллиона адресов, которые оно использует в качестве основы выборки для десятилетней переписи населения США и других обследований. Несмотря на усилия примерно 111 105 представителей на местах и ​​расходы в размере почти полмиллиарда долларов, бюро переписи все же обнаружило значительное количество адресов, которые не попали в главный файл адресов.[7]

Контроль за охватом (CFU) и проверка на местах (FV) были операциями Бюро переписи, проведенными с целью улучшения переписи 2010 года с использованием данных переписи 2000 года в качестве основы. Эти операции были предназначены для устранения следующих типов ошибок покрытия: не считая тех, кто должен был быть подсчитан; подсчет тех, кого не следовало считать; и подсчет тех, кто должен был быть посчитан, но чье местонахождение было определено ошибочно. Ошибки в охвате переписи населения США потенциально могут привести к недопредставлению групп людей в правительстве. Особую озабоченность вызывают «дифференциальные неполные подсчеты», которые недооценивают целевые демографические группы. Хотя усилия CFU и FV повысили точность переписи 2010 г., было рекомендовано провести дополнительные исследования для решения вопроса о дифференциальном недоучете.[10]

Смотрите также

использованная литература

  1. ^ Салант, Присцилла и Дон А. Диллман. «Как провести собственное исследование: ведущий профессионал предоставит вам проверенные методы для получения надежных результатов». (1995)
  2. ^ Рыболовство, NOAA (21.02.2019). "Обзор статистики обзора | Рыболовство NOAA". www.fisheries.noaa.gov. Получено 2019-02-24.
  3. ^ а б Шеаффер, Ричард Л. 1996. Раздел 5 Обучающей выборки опросов, Рональд С. Фексо, Уильям Д. Калсбек, Шэрон Л. Лор, Ричард Л. Шеффер, Фриц Дж. Шойрен, Элизабет А. Стасны. Американский статистик 50: 4 (ноябрь 1996 г.), стр. 335–337. (на jstor )
  4. ^ а б c Шеаффер, Ричард Л. (2012). Выборка элементарного обследования (7-е, студенческое изд.). Бостон, Массачусетс: Брукс / Коул. ISBN  0840053614. OCLC  732960076.
  5. ^ а б c Диллман, Дон А .; Смит, Джолин Д .; Кристиан, Лия Мелани. Интернет, телефон, почта и смешанные опросы: индивидуальный метод разработки (Четвертое изд.). Хобокен. ISBN  9781118921302. OCLC  878301194.
  6. ^ Линн, Питер (2009). Методология лонгитюдных опросов. Чичестер, Великобритания: John Wiley & Sons. ISBN  9780470743911. OCLC  317116422.
  7. ^ а б Бюро переписи населения США. «Выбор предикторов ошибок покрытия модели». www.census.gov. Получено 2019-02-24.
  8. ^ а б c Biemer, Paul P .; де Леу, Эдит Дезире; Экман, Стефани; Эдвардс, Брэд; Кройтер, фрауке; Либерг, Ларс (ред.). Общая ошибка опроса на практике. Хобокен, Нью-Джерси. ISBN  9781119041689. OCLC  971891428.
  9. ^ Бюро переписи населения США. «Модели ошибок охвата для данных переписей и обследований». www.census.gov. Получено 2019-02-24.
  10. ^ Перепись 2010 года: последующие меры должны уменьшить количество ошибок в охвате, но необходимо определить влияние на демографические группы: отчет для запрашивающих в Конгрессе. Правительство США Счетная палата. 2010 г. OCLC  721261877.