Цензура (статистика) - Censoring (statistics)
В статистика, цензура это состояние, в котором ценить из измерение или же наблюдение известно лишь частично.
Например, предположим, что проводится исследование, чтобы измерить влияние препарата на смертность. В таком исследовании может быть известно, что возраст человека на момент смерти равен по меньшей мере 75 лет (но может и больше). Такая ситуация может возникнуть, если человек выбыл из исследования в возрасте 75 лет или если человек в настоящее время жив в возрасте 75 лет.
Цензура также происходит, когда значение выходит за пределы диапазона измерительный инструмент. Например, весы для ванной могут весить не более 140 кг (310 фунтов). Если человек весом 160 кг (350 фунтов) взвешивается с помощью весов, наблюдатель будет знать только то, что вес человека составляет не менее 140 кг (310 фунтов).
Проблема цензурированных данных, в которых наблюдаемое значение некоторой переменной частично известно, связана с проблемой отсутствующие данные, где наблюдаемое значение некоторой переменной неизвестно.
Цензуру не следует путать с связанной идеей усечение. При цензурировании наблюдения приводят либо к знанию точного применимого значения, либо к знанию того, что значение находится в пределах интервал. При усечении наблюдения никогда не приводят к значениям за пределами заданного диапазона: значения в генеральной совокупности за пределами диапазона никогда не видны или никогда не записываются, если они видны. Обратите внимание, что в статистике усечение - это не то же самое, что округление.
Типы
- Левая цензура - точка данных ниже определенного значения, но неизвестно насколько.
- Интервальная цензура - точка данных находится где-то в интервале между двумя значениями.
- Правильная цензура - точка данных выше определенного значения, но неизвестно на сколько.
- Цензура I типа происходит, если в эксперименте задано количество субъектов или элементов, и эксперимент останавливается в заданное время, после чего любые оставшиеся субъекты подвергаются цензуре справа.
- Цензура II типа возникает, если в эксперименте задано количество субъектов или элементов, и останавливается, когда определенное количество не удается; остальные предметы затем подвергаются цензуре справа.
- Случайный (или же неинформативный) цензура это когда у каждого объекта есть время цензуры, статистически независимый их времени отказа. Наблюдаемое значение - это минимум времени цензуры и времени отказа; субъекты, у которых время отказа больше, чем время их цензуры, подвергаются цензуре справа.
Интервальная цензура может иметь место, когда для наблюдения за значением требуются последующие действия или проверки. Левая и правая цензура являются частными случаями интервальной цензуры, с началом интервала в нуле или концом на бесконечности соответственно.
Методы оценки для использования данных, подвергнутых цензуре слева, различаются, и не все методы оценки могут быть применимы или наиболее надежны для всех наборов данных.[1]
Распространенное заблуждение относительно данных временного интервала - классифицировать как оставил цензуру интервалы, время начала которых неизвестно. В этих случаях мы имеем нижнюю границу времени интервал, таким образом, данные цензура справа (несмотря на то, что отсутствующая начальная точка находится слева от известного интервала, если рассматривать его как временную шкалу!).
Анализ
Для обработки цензурированных данных могут использоваться специальные методы. Тесты с определенным временем отказа кодируются как фактические отказы; Цензурированные данные кодируются в соответствии с типом цензуры и известным интервалом или пределом. Специальное программное обеспечение (часто надежность ориентированный) может провести оценка максимального правдоподобия для сводной статистики, доверительных интервалов и т. д.
Эпидемиология
Одна из первых попыток анализа статистической проблемы, связанной с цензурированными данными, была Даниэль Бернулли анализ 1766 г. оспа данные о заболеваемости и смертности, чтобы продемонстрировать эффективность вакцинация.[2] Ранняя статья для использования Оценка Каплана – Мейера для оценки цензурированных затрат был Quesenberry et al. (1989),[3] однако Lin et al. сочли этот подход недействительным.[4] если все пациенты не накапливали затраты с помощью общей детерминированной функции ставки с течением времени, они предложили альтернативный метод оценки, известный как оценка Lin.[5]
Испытание срока службы
Надежность Тестирование часто состоит из проведения тестирования элемента (при определенных условиях) для определения времени, которое требуется для возникновения сбоя.
- Иногда отказ запланирован и ожидается, но не происходит: ошибка оператора, неисправность оборудования, аномалия теста и т. Д. Результатом теста было не желаемое время до отказа, но его можно (и нужно) использовать как время до отказа. прекращение. Использование цензурированных данных непреднамеренно, но необходимо.
- Иногда инженеры планируют программу тестирования таким образом, чтобы по истечении определенного времени или количества отказов все остальные тесты прекращались. Это время ожидания обрабатывается как данные, подвергнутые цензуре справа. Использование цензурированных данных является преднамеренным.
Анализ данных повторных тестов включает в себя как время до отказа для элементов, которые не прошли проверку, так и время завершения теста для тех, которые не прошли проверку.
Цензурированная регрессия
Более ранняя модель для цензурированная регрессия, то Модель Tobit, был предложен Джеймс Тобин в 1958 г.[6]
Вероятность
В вероятность представляет собой вероятность или плотность вероятности того, что наблюдалось, рассматриваемое как функция параметров в предполагаемой модели. Предположим, нас интересует время выживания, , но мы не наблюдаем для всех . Вместо этого мы наблюдаем
- , с и если действительно наблюдается, и
- , с и если все, что мы знаем, это то длиннее, чем .
Когда называется время цензуры.[7]
Если все времена цензуры - известные константы, то вероятность равна
куда = функция плотности вероятности, оцененная при ,
и = вероятность того, что больше, чем , называется функция выживания.
Это можно упростить, задав функция опасности, мгновенная сила смертности, как
так
- .
потом
- .
Для экспоненциальное распределение, это становится еще проще, потому что степень опасности , постоянна, и . Потом:
- ,
куда .
Отсюда легко вычисляем , то оценка максимального правдоподобия (MLE) из , следующее:
- .
потом
- .
Мы устанавливаем это значение на 0 и решаем для получить:
- .
Эквивалентно среднее время до отказа является:
- .
Это отличается от стандартного MLE для экспоненциальное распределение в этом случае любые цензурированные наблюдения учитываются только в числителе.
Смотрите также
- Анализ данных
- Вменение (статистика)
- Взвешивание обратной вероятности
- Смещение выборки
- Арифметика насыщенности
- Анализ выживаемости
- Winsorising
Рекомендации
- ^ Хелсель, Д. (2010). "Много шума почти из ничего: включение недетектов в науку". Анналы гигиены труда. 54 (3): 257–262. Дои:10.1093 / annhyg / mep092. PMID 20032004.
- ^ Бернулли, Д. (1766). "Essai d'une nouvelle analysis de la mortalité causée par la petite vérole". Mem. Математика. Phy. Акад. Рой. Sci. Париж, перепечатано в Bradley (1971) 21 и Blower (2004)
- ^ Quesenberry, C.P., Jr .; и другие. (1989). «Анализ выживаемости госпитализированных пациентов с синдромом приобретенного иммунодефицита». Американский журнал общественного здравоохранения. 79 (12): 1643–1647. Дои:10.2105 / AJPH.79.12.1643. ЧВК 1349769. PMID 2817192.
- ^ Lin, D. Y .; и другие. (1997). «Оценка медицинских затрат по неполным данным наблюдения». Биометрия. 53 (2): 419–434. Дои:10.2307/2533947. JSTOR 2533947. PMID 9192444.
- ^ Wijeysundera, H.C .; и другие. (2012). «Методы оценки затрат на здравоохранение с использованием цензурированных данных: обзор для исследователя медицинских услуг». Клинико-экономика и исследования результатов. 4: 145–155. Дои:10.2147 / CEOR.S31552. ЧВК 3377439. PMID 22719214.
- ^ Тобин, Джеймс (1958). «Оценка отношений для ограниченных зависимых переменных» (PDF). Econometrica. 26 (1): 24–36. Дои:10.2307/1907382. JSTOR 1907382.
- ^ Лу Тянь, Построение вероятности, вывод для параметрических распределений выживаемости (PDF), Викиданные Q98961801.
дальнейшее чтение
- Блоуер, С. (2004), Д. Бернулли "«Попытка нового анализа смертности от оспы и преимуществ вакцинации для ее предотвращения» (PDF). Архивировано из оригинал (PDF) на 2017-08-08. Получено 2019-06-25. (146 KiB )", Обзоры медицинской вирусолологии, 14: 275–288
- Брэдли, Л. (1971). Прививка от оспы: математический спор в восемнадцатом веке. Ноттингем. ISBN 0-902031-23-6.
- Манн, Н.; и другие. (1975). Методы статистического анализа данных о надежности и сроке службы. Нью-Йорк: Вили. ISBN 047156737X.
- Багдонавичюс В., Круопис Дж., Никулин М.С. (2011), «Непараметрические тесты для цензурированных данных», Лондон, ISTE / WILEY,ISBN 9781848212893.
внешняя ссылка
- «Справочник по инженерной статистике», НИСТ / СЕМАТЭК, г. [1]