Списочное удаление - Listwise deletion

В статистика, удаление по списку это метод обработки отсутствующие данные. В этом методе вся запись исключается из анализа, если отсутствует какое-либо одно значение.[1]:6

Пример

Например, рассмотрим следующую анкету, на которую ответили 10 испытуемых:

ПредметВозрастПолДоход
129M$40,000
245M$36,000
381M--отсутствующий--
422--отсутствующий--$16,000
541M$98,000
633F$60,000
722F$24,000
8--отсутствующий--F$81,000
933F$55,000
1045F$80,000

Исследователь надеется модель доход (зависимая переменная ) на основе возраста и пола (независимые переменные). Используя удаление по списку, исследователь удалял субъектов 3, 4 и 8 из списка. образец перед выполнением любого дальнейшего анализа.

Проблемы с удалением по списку

Списочное удаление влияет статистическая мощность проведенных испытаний.[2][3] Статистическая мощность частично зависит от большого размера выборки. Поскольку удаление по списку исключает данные с пропущенными значениями, оно сокращает выборку, которая подвергается статистическому анализу.

Удаление по списку также проблематично, если причина отсутствия данных не может быть случайным (т.е. вопросы в анкеты с целью извлечения конфиденциальной информации.[3] Из-за метода большая часть данных субъектов будет исключена из анализа, в результате чего останется предвзятость в выводах данных. Например, анкета может включать вопросы об истории употребления наркотиков респондентами, текущем доходе или сексуальных убеждениях. Многие из испытуемых в выборке могут не отвечать из-за навязчивого характера вопросов, но могут ответить на все остальные вопросы. Удаление по списку исключает этих респондентов из анализа. Это может создать предвзятость, поскольку участники, которые разглашают эту информацию, могут иметь другие характеристики, чем участники, которые этого не делают. Множественное вменение - это альтернативный метод работы с отсутствующими данными, который пытается устранить эту систематическую ошибку.

По сравнению с другими методами

Хотя удаление по списку имеет свои проблемы, оно предпочтительнее многих других методов обработки недостающих данных.[1]:7 В некоторых случаях это может быть даже наименее проблемный метод.[1]:6 В следующей таблице представлены некоторые сравнения списковых удалений с другими методами:

МетодСравнение
Попарное удалениеНеоднозначное определение размера выборки вызывает систематическую ошибку в оценке стандартные ошибки и статистика тестов.[1]:9
Фиктивная переменная корректированиеПроизводит предвзятые оценки коэффициентов.[4]

Рекомендации

  1. ^ а б c d Эллисон, П. Д. (2001). Отсутствующие данные. Серия документов Sage University о количественных приложениях в социальных науках. 07-136. Таузенд-Оукс, Калифорния: Сейдж.
  2. ^ Рот, П. Л. (1994). «Недостающие данные: концептуальный обзор для прикладных психологов». Психология персонала. 47 (3): 537–559. Дои:10.1111 / j.1744-6570.1994.tb01736.x.
  3. ^ а б Олинский, А .; Chen, S .; Харлоу, Л. (2003). «Сравнительная эффективность методов вменения недостающих данных при моделировании структурных уравнений». Европейский журнал операционных исследований. 151 (1): 53–79. Дои:10.1016 / S0377-2217 (02) 00578-7.
  4. ^ Джонс, М. П. (1996). «Индикатор и методы стратификации для пропущенных независимых переменных в множественной линейной регрессии». J. Amer. Статист. Доц. 91 (433): 222–230. Дои:10.1080/01621459.1996.10476680. Цитируется Allison (2001), стр. 10.