Отсутствующие данные - Missing data

В статистика, отсутствующие данные, или же недостающие значения, возникают, когда нет данные ценить хранится для Переменная в наблюдение. Отсутствующие данные являются обычным явлением и могут существенно повлиять на выводы, которые можно сделать на основе данных.

Отсутствие данных может произойти из-за отсутствия ответа: информация не предоставляется ни по одному, ни по нескольким элементам, ни по всей единице («теме»). Некоторые вопросы с большей вероятностью вызовут отказ от ответа, чем другие: например, вопросы о частных предметах, таких как доход. Потертость это тип упущений, который может иметь место в лонгитюдных исследованиях - например, при изучении развития, когда измерение повторяется через определенный период времени. Пропуск происходит, когда участники выбывают до окончания теста и одно или несколько измерений отсутствуют.

Данные часто отсутствуют в исследованиях в экономика, социология, и политическая наука потому что правительства или частные организации предпочитают не предоставлять или не сообщают критическую статистику,[1] или потому что информация недоступна. Иногда отсутствующие значения вызваны исследователем, например, когда сбор данных выполняется неправильно или при вводе данных допущены ошибки.[2]

Эти формы отсутствия могут быть разных типов, что по-разному влияет на достоверность выводов исследования: полное отсутствие случайным образом, отсутствие случайного отсутствия и отсутствие случайного отсутствия. С отсутствующими данными можно обращаться так же, как цензурированные данные.

Типы

Понимание причин отсутствия данных важно для правильной обработки оставшихся данных. Если значения отсутствуют полностью случайным образом, выборка данных, вероятно, все еще репрезентативна для генеральной совокупности. Но если значения систематически отсутствуют, анализ может быть необъективным. Например, при исследовании связи между IQ и доходом, если участники с IQ выше среднего, как правило, пропускают вопрос `` Какова ваша зарплата? '', Анализ, который не учитывает это случайное отсутствие (модель MAR ( см. ниже)) могут ошибочно не обнаружить положительной связи между IQ и зарплатой. Из-за этих проблем методологи обычно рекомендуют исследователям разработать исследования, чтобы свести к минимуму возникновение пропущенных значений.[2] Для подробного описания механизма недостающих данных можно использовать графические модели.[3][4]

На графике показаны распределения вероятностей оценок ожидаемой интенсивности депрессии среди населения. Число случаев составляет 60. Пусть истинная популяция будет стандартизированным нормальным распределением, а вероятность отсутствия ответа будет логистической функцией интенсивности депрессии. Вывод: чем больше данных отсутствует (MNAR), тем более предвзятые оценки. Мы недооцениваем степень депрессии среди населения.

Полностью отсутствует случайно

Значения в наборе данных отсутствует случайно (MCAR) если события, которые приводят к отсутствию какого-либо конкретного элемента данных, не зависят как от наблюдаемых переменных, так и от ненаблюдаемых параметров, представляющих интерес, и происходят полностью случайно.[5] Когда данные являются MCAR, анализ данных является беспристрастным; однако данные редко являются MCAR.

В случае MCAR отсутствие данных не связано с какой-либо переменной исследования: таким образом, участники с полностью наблюдаемыми данными фактически представляют собой случайную выборку всех участников, которым назначено конкретное вмешательство. При использовании MCAR предполагается, что случайное назначение обработок сохраняется, но на практике это обычно нереально сильное предположение.[6]

Отсутствует случайно

Отсутствует случайно (MAR) возникает, когда отсутствие данных не является случайным, а может быть полностью объяснено переменными, по которым имеется полная информация.[7] Поскольку MAR - это предположение, которое невозможно проверить статистически, мы должны полагаться на его обоснованность.[8] Примером может служить то, что мужчины реже заполняют анкету о депрессии, но это не имеет ничего общего с их уровнем депрессии после учета мужской принадлежности. В зависимости от метода анализа эти данные могут вызывать систематическую ошибку в анализе из-за условной пустоты клеток (мужская, очень сильная депрессия может иметь нулевые записи). Однако, если параметр оценивается с максимальной вероятностью полной информации, MAR предоставит асимптотически несмещенные оценки.[нужна цитата ]

Отсутствует не случайно

Отсутствует не случайно (MNAR) (также известный как неотвечаемый неответ) - это данные, которые не относятся ни к MAR, ни к MCAR (т.е. значение отсутствующей переменной связано с причиной ее отсутствия).[5] Если продолжить предыдущий пример, это произойдет, если мужчины не заполнили анкету о депрессии. потому что об их уровне депрессии.

Методы работы с недостающими данными

Отсутствие данных снижает репрезентативность выборки и, следовательно, может исказить выводы о генеральной совокупности. Вообще говоря, есть три основных подхода к обработке недостающих данных: (1) Вменение- где значения заполняются вместо отсутствующих данных, (2) упущение- где образцы с недействительными данными исключаются из дальнейшего анализа и (3) анализ- путем прямого применения методов, на которые не влияют отсутствующие значения. В одном систематическом обзоре, посвященном предотвращению и обработке недостающих данных для исследований исходов, ориентированных на пациента, были определены 10 стандартов, необходимых для предотвращения и обработки недостающих данных. К ним относятся стандарты дизайна исследования, проведения исследования, анализа и отчетности.[9]

В некоторых практических приложениях экспериментаторы могут контролировать уровень пропущенных значений и предотвращать пропущенные значения перед сбором данных. Например, в компьютерных анкетах часто невозможно пропустить вопрос. На вопрос нужно ответить, иначе нельзя переходить к следующему. Таким образом, отсутствующие значения из-за участника исключаются с помощью этого типа вопросника, хотя этот метод может быть запрещен советом по этике, наблюдающим за исследованием. При проведении опросов обычно предпринимаются многочисленные попытки связаться с каждым человеком в выборке, часто отправляя письма, чтобы попытаться убедить тех, кто решил не участвовать, изменить свое мнение.[10]:161–187 Однако такие методы могут как помочь, так и навредить с точки зрения уменьшения негативных выводов из-за отсутствия данных, поскольку люди, которые хотят, чтобы их уговорили участвовать после первоначального отказа или отсутствия дома, вероятно, будут значительно отличаться от тех, кто людей, которые все равно откажутся или останутся недоступными после дополнительных усилий.[10]:188–198

В ситуациях, когда вероятны пропущенные значения, исследователю часто советуют планировать использование методов анализа данных, которые крепкий к отсутствию. Анализ является надежным, если мы уверены, что незначительные или умеренные нарушения ключевых допущений метода не дадут значительных результатов или не дадут никаких результатов. предвзятость, или искажение выводов о населении.

Вменение

Немного анализ данных методы не устойчивы к отсутствию и требуют "заполнения" или вменять недостающие данные. Рубин (1987) утверждал, что повторение вменения даже несколько раз (5 или меньше) значительно улучшает качество оценки.[2] Для многих практических целей 2 или 3 вменения отражают большую часть относительной эффективности, которая может быть получена с помощью большего числа вменений. Однако слишком малое количество вменений может привести к значительной потере статистическая мощность, и некоторые ученые теперь рекомендуют от 20 до 100 и более.[11] Любой анализ множественно-вмененных данных должен повторяться для каждого из вмененных наборов данных, а в некоторых случаях соответствующие статистические данные должны быть сравнительно сложными.[2]

В алгоритм максимизации ожидания - это подход, при котором значения статистики, которые были бы вычислены, если бы был доступен полный набор данных, оцениваются (условно) с учетом структуры отсутствующих данных. В этом подходе значения для отдельных недостающих элементов данных обычно не вменяются.

Интерполяция (пример: билинейная интерполяция)

В математической области численного анализа интерполяция представляет собой метод построения новых точек данных в диапазоне дискретного набора известных точек данных.

При сравнении двух парных выборок с отсутствующими данными статистический тест, который использует все доступные данные без необходимости вменения, является t-критерием частично перекрывающихся выборок.[12] Это справедливо при нормальных условиях и при условии, что MCAR

Частичное удаление

Методы, которые включают сокращение данных, доступных для набора данных без пропущенных значений, включают:

Полный анализ

Методы, которые полностью учитывают всю доступную информацию без искажений, возникающих в результате использования вмененных значений, как если бы они действительно наблюдались:

Частичная идентификация также могут быть использованы методы.[15]

Модельные методы

Методы, основанные на моделях, часто с использованием графиков, предлагают дополнительные инструменты для тестирования отсутствующих типов данных (MCAR, MAR, MNAR) и для оценки параметров в условиях отсутствия данных. Например, тест на опровержение MAR / MCAR гласит:

Для любых трех переменных X, Y, и Z куда Z полностью соблюдается и Икс и Y частично соблюдается, данные должны удовлетворять:.

На словах наблюдаемая часть Икс не должны зависеть от статуса отсутствия Y, условно для каждого значения ZНесоблюдение этого условия означает, что проблема относится к категории MNAR.[16]

(Примечание: эти тесты необходимы для MAR на основе переменных, которая представляет собой небольшую вариацию MAR на основе событий.[17][18][19])

Когда данные попадают в категорию MNAR, доступны методы для последовательной оценки параметров, когда в модели выполняются определенные условия.[3]Например, если Y объясняет причину отсутствия в Икс и Y сам по себе имеет пропущенные значения, совместное распределение вероятностей из Икс и Y все еще можно оценить, если отсутствие Y случайным образом, оценка в этом случае будет:

куда и обозначают наблюдаемые части соответствующих переменных.

Различные структуры модели могут давать разные оценки и разные процедуры оценки, если возможна последовательная оценка. Предыдущая оценка требует первой оценки от полных данных и умножая их на оценивается по делам, в которых Y соблюдается независимо от статуса Икс. Более того, чтобы получить непротиворечивую оценку, важно, чтобы первый член был в отличие от .

Во многих случаях методы, основанные на моделях, позволяют модельной структуре пройти опровержение.[19]Любая модель, которая подразумевает независимость между частично наблюдаемой переменной Икс и индикатор отсутствия другой переменной Y (т.е. ), условный могут быть представлены на следующий тест опровержения:.

Наконец, оценки, которые возникают из этих методов, выводятся в закрытой форме и не требуют итеративных процедур, таких как максимизация ожидания, которые подвержены локальным оптимумам.[20]

Особый класс проблем возникает, когда вероятность пропуска зависит от времени. Например, в базах данных о травмах вероятность потери данных о результате травмы зависит от дня после травмы. В этих случаях различные нестационарные Цепь Маркова прилагаются модели.[21]

Смотрите также

Рекомендации

  1. ^ Месснер С.Ф. (1992). «Изучение последствий представления ошибочных данных для межнационального исследования убийств». Журнал количественной криминологии. 8 (2): 155–173. Дои:10.1007 / bf01066742. S2CID  133325281.
  2. ^ а б c d Рука, Дэвид Дж .; Адер, Герман Дж .; Мелленберг, Гидеон Дж. (2008). Консультации по методам исследования: помощник консультанта. Хейзен, Нидерланды: Йоханнес ван Кессель. С. 305–332. ISBN  978-90-79418-01-5.
  3. ^ а б Мохан, Картика; Перл, Иудея; Тиан, Джин (2013). Достижения в системах обработки нейронной информации 26. С. 1277–1285.
  4. ^ Карванен, Юха (2015). «Дизайн исследования в причинных моделях». Скандинавский статистический журнал. 42 (2): 361–377. arXiv:1211.2958. Дои:10.1111 / sjos.12110. S2CID  53642701.
  5. ^ а б Полит Д. Ф. Бек CT (2012). Медсестринское исследование: создание и оценка доказательств для сестринской практики, 9-е изд.. Филадельфия, США: Wolters Klower Health, Lippincott Williams & Wilkins.
  6. ^ Дэн (2012-10-05). «О биостатистике и клинических исследованиях». Архивировано из оригинал 15 марта 2016 г.. Получено 13 мая 2016.
  7. ^ «Архивная копия». В архиве из оригинала от 10.09.2015. Получено 2015-08-01.CS1 maint: заархивированная копия как заголовок (связь)
  8. ^ Литтл, Родерик Дж. А .; Рубин, Дональд Б. (2002), Статистический анализ с отсутствующими данными (2-е изд.), Wiley.
  9. ^ Ли, Тяньцзин; Хатфлесс, Сьюзен; Scharfstein, Daniel O .; Дэниелс, Майкл Дж .; Хоган, Джозеф В .; Little, Roderick J.A .; Рой, Джейсон А .; Закон, Эндрю Х .; Дикерсин, Кей (2014). «Следует применять стандарты для предотвращения и обработки недостающих данных для исследования результатов, ориентированных на пациента: систематический обзор и консенсус экспертов». Журнал клинической эпидемиологии. 67 (1): 15–32. Дои:10.1016 / j.jclinepi.2013.08.013. ЧВК  4631258. PMID  24262770.
  10. ^ а б Ступ, И.; Billiet, J .; Koch, A .; Фитцджеральд Р. (2010). Снижение количества неответов на опросы: уроки, извлеченные из Европейского социального исследования. Оксфорд: Wiley-Blackwell. ISBN  978-0-470-51669-0.
  11. ^ Graham J.W .; Ольховский А.Е .; Гилрит Т.Д. (2007). «Сколько вменений действительно необходимо? Некоторые практические пояснения теории множественных вменений». Профилактическая наука. 8 (3): 208–213. CiteSeerX  10.1.1.595.7125. Дои:10.1007 / s11121-007-0070-9. PMID  17549635. S2CID  24566076.
  12. ^ Деррик, B; Русь, Б; Toher, D; Белый, П (2017). «Статистика тестов для сравнения средних значений для двух выборок, включающих как парные, так и независимые наблюдения». Журнал современных прикладных статистических методов. 16 (1): 137–157. Дои:10.22237 / jmasm / 1493597280.
  13. ^ Чечик, Гал; Хейтц, Гереми; Элидан, Гал; Аббель, Питер; Коллер, Дафна (01.06.2008). «Классификация неполных данных по максимальной марже» (PDF). Системы обработки нейронной информации: 233–240.
  14. ^ Чечик, Гал; Хейтц, Гереми; Элидан, Гал; Аббель, Питер; Коллер, Дафна (01.06.2008). «Классификация данных с максимальной маржой при отсутствии функций». Журнал исследований в области машинного обучения. 9: 1–21. ISSN  1532-4435.
  15. ^ Укротитель, Эли (2010). «Частичная идентификация в эконометрике». Ежегодный обзор экономики. 2 (1): 167–195. Дои:10.1146 / annurev.economics.050708.143401.
  16. ^ Мохан, Картика; Жемчуг, Иудея (2014). «О тестируемости моделей с недостающими данными». Труды AISTAT-2014, готовятся к печати..
  17. ^ Дарвиче, Аднан (2009). Моделирование и рассуждение с помощью байесовских сетей. Издательство Кембриджского университета.
  18. ^ Potthoff, R.F .; Tudor, G.E .; Pieper, K.S .; Хассельблад, В. (2006). «Можно ли оценить, отсутствуют ли случайным образом недостающие данные в медицинских исследованиях?». Статистические методы в медицинских исследованиях. 15 (3): 213–234. Дои:10.1191 / 0962280206sm448oa. PMID  16768297. S2CID  12882831.
  19. ^ а б Перл, Иудея; Мохан, Картика (2013). Восстанавливаемость и возможность проверки отсутствующих данных: введение и сводка результатов (PDF) (Технический отчет). Департамент компьютерных наук UCLA, R-417.
  20. ^ Mohan, K .; Van den Broeck, G .; Чой, А .; Перл, Дж. (2014). «Эффективный метод изучения параметров байесовской сети на основе неполных данных». Представлено на семинаре по каузальному моделированию и машинному обучению, ICML-2014.
  21. ^ Mirkes, E.M .; Coats, T.J .; Levesley, J .; Горбань, А. (2016). «Обработка недостающих данных в большом наборе медицинских данных: тематическое исследование неизвестных исходов травм». Компьютеры в биологии и медицине. 75: 203–216. arXiv:1604.00627. Bibcode:2016arXiv160400627M. Дои:10.1016 / j.compbiomed.2016.06.004. PMID  27318570. S2CID  5874067. В архиве из оригинала от 05.08.2016.

дальнейшее чтение

  • Acock AC (2005), «Работа с пропущенными значениями», Журнал брака и семьи, 67 (4): 1012–28, Дои:10.1111 / j.1741-3737.2005.00191.x, заархивировано из оригинал на 2013-01-05
  • Эллисон, Пол Д. (2001), Отсутствующие данные, Издательство SAGE
  • Буза-Эррера, Карлос Н. (2013), Обработка отсутствующих данных при выборке ранжированного набора, Springer
  • Эндерс, Крейг К. (2010), Прикладной анализ отсутствующих данных, Guilford Press
  • Грэм, Джон В. (2012), Отсутствующие данные, Springer
  • Моленбергс, Герт; Фитцморис, Гарретт; Kenward, Майкл G .; Циатис, Анастасиос; Verbeke, Geert, eds. (2015), Справочник по методологии отсутствия данных, Чепмен и Холл
  • Рагхунатан, Trivellore (2016), Анализ недостающих данных на практике, Чепмен и Холл
  • Литтл, Родерик Дж. А .; Рубин, Дональд Б. (2002), Статистический анализ с отсутствующими данными (2-е изд.), Wiley
  • Циатис, Анастасиос А. (2006), Полупараметрическая теория и недостающие данные, Springer
  • Ван ден Брок Дж., Каннингем С.А., Экелс Р., Хербст К. (2005), «Очистка данных: обнаружение, диагностика и редактирование отклонений от нормы», PLOS Медицина, 2 (10): e267, Дои:10.1371 / journal.pmed.0020267, ЧВК  1198040, PMID  16138788, S2CID  5667073
  • Сарате Л.Е., Ногейра Б.М., Сантос Т.Р., Сонг М.А. (2006). «Методы восстановления недостающей ценности в несбалансированных базах данных: применение в маркетинговой базе данных с огромным количеством недостающих данных». Международная конференция IEEE по системам, человеку и кибернетике, 2006 г. SMC '06. 3. С. 2658–2664. Дои:10.1109 / ICSMC.2006.385265.

внешняя ссылка

Фон

Программного обеспечения