Уровень ложного обнаружения - False discovery rate

В коэффициент ложного обнаружения (FDR) представляет собой метод концептуализации скорости ошибки типа I в нулевая гипотеза тестирование при проведении множественные сравнения. Процедуры контроля FDR предназначены для контроля ожидается доля «открытий» (отклонено нулевые гипотезы ), которые являются ложными (неправильные отклонения нуля).[1] Процедуры контроля FDR обеспечивают менее строгий контроль ошибок типа I по сравнению с частота ошибок в семье (FWER) контрольные процедуры (такие как Коррекция Бонферрони ), которые контролируют вероятность хотя бы один Ошибка типа I. Таким образом, процедуры контроля FDR имеют больше мощность, за счет увеличения числа ошибок типа I.[2]

История

Технологические мотивации

Считается, что современное широко распространенное использование FDR является результатом и мотивируется развитием технологий, которые позволили собирать и анализировать большое количество различных переменных у нескольких людей (например, уровень экспрессии каждого из 10 000 различных генов). в 100 разных лицах).[3] К концу 1980-х и 1990-х годов развитие "высокопроизводительных" наук, таких как геномика, позволяет быстро получать данные. Это, в сочетании с ростом вычислительной мощности, позволило беспрепятственно выполнять сотни и тысячи статистические тесты по заданному набору данных. Технология микрочипы был прототипическим примером, поскольку он позволял одновременно тестировать тысячи генов на предмет дифференциальной экспрессии в двух биологических условиях.[4]

Поскольку высокопроизводительные технологии стали обычным явлением, технологические и / или финансовые ограничения побудили исследователей собирать наборы данных с относительно небольшими размерами выборки (например, несколько человек, проходящих тестирование) и большим количеством переменных, измеряемых на выборку (например, тысячи уровней экспрессии генов). В этих наборах данных слишком мало измеренных переменных показали статистическую значимость после классической коррекции для нескольких тестов со стандартными множественные процедуры сравнения. Это создало потребность во многих научных сообществах отказаться от FWER и нескорректированное тестирование множественных гипотез для других способов выделения и ранжирования в публикациях тех переменных, которые демонстрируют заметные эффекты для отдельных лиц или методов лечения, которые в противном случае были бы отклонены как несущественные после стандартной коррекции для нескольких тестов. В ответ на это были предложены различные коэффициенты ошибок, которые стали широко использоваться в публикациях, которые менее консервативны, чем FWER отмечая возможно заслуживающие внимания наблюдения.

Литература

Концепция FDR была формально описана Йоав Бенджамини и Йозеф Хохберг в 1995 г.[1] (Процедура BH ) как менее консервативный и, возможно, более подходящий подход для выявления немногих важных из множества проверенных тривиальных эффектов. FDR оказал особое влияние, поскольку он был первой альтернативой FWER, получившей широкое признание во многих научных областях (особенно в науках о жизни, от генетики до биохимии, онкологии и наук о растениях).[3] В 2005 году статья Бенджамини и Хохберга 1995 года была названа одной из 25 наиболее цитируемых статистических статей.[5]

До введения в 1995 г. концепции FDR в статистической литературе рассматривались различные предшественники. В 1979 году Холм предложил Процедура Холма,[6] пошаговый алгоритм управления FWER, по крайней мере, столь же мощный, как хорошо известный Регулировка Бонферрони. Этот пошаговый алгоритм сортирует п-значения и последовательно отвергает гипотезы, начиная с наименьшего п-ценности.

Бенджамини (2010)[3] сказал, что частота ложных открытий, а также статья Бенджамини и Хохберга (1995), возникла в двух статьях, касающихся множественного тестирования:

  • Первая статья написана Шведер и Spjotvoll (1982)[7] кто предложил построить ранжированный п-значения и оценка количества истинных нулевых гипотез () через наглаженную линию, начиная с наибольшего п-ценности. В п-значения, которые отклоняются от этой прямой, должны соответствовать ложным нулевым гипотезам. Позднее эта идея была преобразована в алгоритм и включала оценку в такие процедуры, как Бонферрони, Хольм или Хохберг.[8] Эта идея тесно связана с графической интерпретацией процедуры BH.
  • Вторая статья написана Бранко Соричем (1989).[9] который ввел терминологию «открытие» в контексте проверки множественных гипотез. Сорик использовал ожидаемое количество ложных открытий, разделенное на количество открытий. как предупреждение о том, что «большая часть статистических открытий может быть ошибочной». Это привело Бенджамини и Хохберга к мысли, что подобная частота ошибок, а не просто предупреждение, может служить достойной целью для контроля.

Бенджамини и Хохберг доказали, что процедура BH позволяет контролировать FDR в ходе независимых испытаний в 1995 году.[1] В 1986 г. Р. Дж. Саймс предложил ту же процедуру, что и "Процедура Саймса ", чтобы контролировать FWER в слабом смысле (согласно нулевой гипотезе пересечения), когда статистика независима.[10]

Определения

Основываясь на определениях ниже, мы можем определить Q как доля ложных открытий среди открытий (отклонений нулевой гипотезы):

.

где это количество ложных открытий и количество истинных открытий.

В коэффициент ложного обнаружения (FDR) тогда просто:[1]

где это ожидаемое значение из . Цель - удерживать FDR ниже заданного порога. q. Избежать деление на ноль, определяется как 0, когда . Формально, .[1]

Классификация нескольких тестов гипотез

В следующей таблице определены возможные результаты при проверке нескольких нулевых гипотез. Предположим, у нас есть число м нулевых гипотез, обозначаемых: ЧАС1ЧАС2, ..., ЧАСм.Используя статистический тест, мы отклоняем нулевую гипотезу, если тест объявлен значимым. Мы не отклоняем нулевую гипотезу, если тест несущественен. Суммируя каждый тип результата по всем ЧАСя дает следующие случайные величины:

Нулевая гипотеза верна (H0)Верна альтернативная гипотеза (HА)Всего
Тест объявлен значимымVSр
Тест объявлен несущественнымUТ
Всегом

В м гипотезы проверки которых верны нулевые гипотезы, р - наблюдаемая случайная величина, а S, Т, U, и V ненаблюдаемы случайные переменные.

Контрольные процедуры

Настройки для многих процедур таковы, что у нас есть проверены нулевые гипотезы и их соответствующие п-значения. Перечислим эти п-значения в порядке возрастания и обозначим их . Процедура, которая начинается с небольшого п-значение до большого будет называться повышающей процедурой. Аналогичным образом, в «понижающей» процедуре мы переходим от большой соответствующей тестовой статистики к меньшей.

Процедура Бенджамини – Хохберга

В Процедура Бенджамини – Хохберга (Процедура повышения BH) контролирует FDR на уровне .[1] Это работает следующим образом:

  1. Для данного найдите самый большой k такой, что
  2. Отклонить нулевую гипотезу (т. Е. Заявить об открытиях) для всех за .

Геометрически это соответствует построению против. k (на у и Икс оси соответственно), проводя линию через начало координат с наклоном , и объявление открытий для всех точек слева до последней точки, находящейся ниже линии, включительно.

Процедура BH действительна, когда м тесты независимый, а также в различных сценариях зависимости, но не универсально.[11] Он также удовлетворяет неравенству:

Если оценка вставляется в процедуру BH, больше не гарантируется достижение управления FDR на желаемом уровне.[3] В оценщике могут потребоваться корректировки, и было предложено несколько модификаций.[12][13][14][15]

Обратите внимание, что среднее для этих м тесты , Среднее (FDR ) или MFDR, с поправкой на м независимые или положительно коррелированные тесты (см. AFDR ниже). Выражение MFDR здесь для единственного пересчитанного значения и не является частью метода Бенджамини и Хохберга.

Процедура Бенджамини – Йекутиели

В Бенджамини – Йекутиели процедура контролирует частоту ложного обнаружения при произвольных предположениях о зависимости.[11] Это уточнение изменяет порог и находит самый большой k такой, что:

  • Если тесты независимы или положительно коррелированы (как в процедуре Бенджамини – Хохберга):
  • При произвольной зависимости:

В случае отрицательной корреляции можно аппроксимировать с помощью Константа Эйлера – Маскерони.

Используя MFDR и формулы выше, скорректированный MFDR или AFDR - это минимальное (среднее) за м зависимые тесты .

Другой способ решения проблемы зависимости - это самозагрузка и повторная рандомизация.[4][16][17]

Характеристики

Адаптивный и масштабируемый

Использование процедуры множественности, которая контролирует критерий FDR: адаптивный и масштабируемый. Это означает, что управление FDR может быть очень разрешительным (если данные подтверждают это) или консервативным (действуя близко к контролю FWER для разреженных проблем) - все в зависимости от количества проверенных гипотез и уровня значимости.[3]

Критерий FDR адаптируется так что одно и то же количество ложных открытий (V) будет иметь разные последствия в зависимости от общего количества открытий (R). Это контрастирует с частота ошибок в семье критерий. Например, при проверке 100 гипотез (скажем, 100 генетических мутаций или SNP для ассоциации с некоторым фенотипом в некоторой популяции):

  • Если мы сделаем 4 открытия (R), то наличие 2 из них ложных открытий (V) часто очень дорого обходится. В то время как,
  • Если мы сделаем 50 открытий (R), то наличие 2 из них ложных открытий (V) часто не очень дорого обходится.

Критерий FDR: масштабируемый в том, что одна и та же пропорция ложных открытий от общего числа открытий (Q) остается разумной для разного числа общих открытий (R). Например:

  • Если мы сделаем 100 открытий (R), имея 5 из них ложных открытий () может быть не очень затратным.
  • Точно так же, если мы сделаем 1000 открытий (R), причем 50 из них будут ложными (как и раньше, ) все еще может быть не очень затратным.

Зависимость между тестовой статистикой

Управление FDR с использованием процедуры линейного повышения BH на уровне q имеет несколько свойств, связанных со структурой зависимости между тестовой статистикой м нулевые гипотезы, которые исправляются. Если статистика теста:

  • Независимый:[11]
  • Независимые и непрерывные:[1]
  • Положительный иждивенец:[11]
  • В общем случае:[11] , где это Константа Эйлера – Маскерони.

Доля верных гипотез

Если все нулевые гипотезы верны (), затем управляя FDR на уровне q гарантирует контроль над FWER (это также называется "слабый контроль над FWER" ): , просто потому, что событие отклонения хотя бы одной истинной нулевой гипотезы это именно событие , и событие это именно событие (когда , по определению).[1] Но если есть какие-то истинные открытия () тогда FWER ≥ FDR. В этом случае будет возможность улучшить обнаружительную способность. Это также означает, что любая процедура, управляющая FWER, также будет управлять FDR.

Связанные понятия

Открытию FDR предшествовали и последовали многие другие типы ошибок. К ним относятся:

  • PCER (частота ошибок при сравнении ) определяется как: . Индивидуальная проверка каждой гипотезы на уровне α гарантирует, что (это тестирование без поправки на множественность)
  • FWERчастота ошибок в семье ) определяется как: . Есть многочисленные процедуры, которые контролируют FWER.
  • (Хвостовая вероятность пропорции ложного открытия), предложенная Леманом и Романо, ван дер Лааном и др.,[нужна цитата ] определяется как: .
  • (также называемый обобщенный FDR Саркаром в 2007 г.[18][19]) определяется как: .
  • доля ложных открытий среди открытий ", предложенная Сориком в 1989 г.,[9] и определяется как: . Это смесь ожиданий и реализаций, и есть проблема контроля над .[1]
  • (или Fdr) использовали Бенджамини и Хохберг,[3] и позже названный "Fdr" Эфроном (2008) и ранее.[20] Это определяется как: . Этот коэффициент ошибок нельзя строго контролировать, потому что он равен 1, когда .
  • использовали Бенджамини и Хохберг,[3] и позже названный "pFDR" Стори (2002).[21] Это определяется как: . Этот коэффициент ошибок нельзя строго контролировать, потому что он равен 1, когда .
  • Коэффициент ложного превышения (хвостовая вероятность FDP), определяемый как:[22]
  • (Взвешенный FDR). С каждой гипотезой i связан вес , веса отражают важность / цену. W-FDR определяется как: .
  • FDCR (Ставка стоимости ложного обнаружения). Исходя из Статистическое управление процессами: с каждой гипотезой i связана стоимость и с гипотезой пересечения стоимость . Мотивация заключается в том, что остановка производственного процесса может повлечь за собой фиксированные затраты. Это определяется как:
  • PFER (частота ошибок в семье) определяется как: .
  • FNR (Ложные показатели невыявления) по Саркару; Дженовезе и Вассерман[нужна цитата ] определяется как:
  • определяется как:
  • Локальный fdr определяется как:

Уровень ложного покрытия

В коэффициент ложного покрытия (FCR) в некотором смысле является аналогом FDR доверительный интервал. FCR указывает среднюю частоту ложного покрытия, а именно непокрытия истинных параметров, среди выбранных интервалов. FCR обеспечивает одновременное покрытие на уровень для всех параметров, рассматриваемых в задаче. Интервалы с вероятностью одновременного охвата 1 − q могут контролировать FCR, чтобы он был ограничен q. Существует множество процедур FCR, таких как: выборка Бонферрони - корректировка Бонферрони,[нужна цитата ] Скорректированные КИ, выбранные по ЧД (Benjamini and Yekutieli (2005)),[23] Байесовский FCR (Yekutieli (2008)),[нужна цитата ] и другие байесовские методы.[24]

Байесовские подходы

Была установлена ​​связь между FDR и байесовским подходом (включая эмпирические байесовские методы),[20][25][26] пороговые коэффициенты вейвлетов и выбор модели,[27][28][29][30] и обобщая доверительный интервал в процент ложных заявлений о покрытии (FCR).[23]

Количество ложноположительных результатов в отдельных значимых тестах

Колкухун (2014)[31] использовали термин «уровень ложного обнаружения» для обозначения вероятности того, что статистически значимый результат был ложноположительным. Это было частью исследования вопроса «как следует интерпретировать значение P, найденное в единственном объективном тесте значимости». В последующей работе[32][33] Колкухун назвал то же самое риск ложноположительных результатов, а не частоту ложных открытий, чтобы избежать путаницы с использованием последнего термина в связи с проблемой множественных сравнений. Описанные выше методы работы с множественными сравнениями направлены на управление частотой ошибок первого типа. Результатом их применения является получение (скорректированного) значения P. Следовательно, результат может быть неверно истолкован, как и любое другое значение Р.

Смотрите также

Рекомендации

  1. ^ а б c d е ж грамм час я Бенджамини, Йоав; Хохберг, Йосеф (1995). «Контроль ложного обнаружения: практичный и эффективный подход к множественному тестированию» (PDF). Журнал Королевского статистического общества, серия B. 57 (1): 289–300. Г-Н  1325392.
  2. ^ Шаффер Дж. П. (1995) Проверка множественных гипотез, Annual Review of Psychology 46: 561-584, Ежегодные обзоры
  3. ^ а б c d е ж грамм Бенджамини, Ю. (2010). «Обнаружение ложного уровня обнаружения». Журнал Королевского статистического общества, серия B. 72 (4): 405–416. Дои:10.1111 / j.1467-9868.2010.00746.x.
  4. ^ а б Стори, Джон Д .; Тибширани, Роберт (2003). «Статистическая значимость для полногеномных исследований». Труды Национальной академии наук. 100 (16): 9440–9445. Bibcode:2003ПНАС..100.9440С. Дои:10.1073 / пнас.1530509100. ЧВК  170937. PMID  12883005.
  5. ^ Ryan, T. P .; Вудалл, У. Х. (2005). «Наиболее цитируемые статистические статьи». Журнал прикладной статистики. 32 (5): 461. Дои:10.1080/02664760500079373. S2CID  109615204.
  6. ^ Холм, С. (1979). «Простая процедура последовательного множественного отбора». Скандинавский статистический журнал. 6 (2): 65–70. JSTOR  4615733. Г-Н  0538597.
  7. ^ Schweder, T .; Spjøtvoll, E. (1982). «Графики P-значений для одновременной оценки множества тестов». Биометрика. 69 (3): 493. Дои:10.1093 / biomet / 69.3.493.
  8. ^ Hochberg, Y .; Бенджамини, Ю. (1990). «Более мощные процедуры для тестирования множественной значимости». Статистика в медицине. 9 (7): 811–818. Дои:10.1002 / sim.4780090710. PMID  2218183.
  9. ^ а б Сорич, Бранко (июнь 1989 г.). «Статистические« открытия »и оценка размера эффекта». Журнал Американской статистической ассоциации. 84 (406): 608–610. Дои:10.1080/01621459.1989.10478811. JSTOR  2289950.
  10. ^ Саймс, Р. Дж. (1986). «Улучшенная процедура Бонферрони для множественных тестов значимости». Биометрика. 73 (3): 751–754. Дои:10.1093 / biomet / 73.3.751.
  11. ^ а б c d е Бенджамини, Йоав; Екутиели, Даниэль (2001). «Контроль ложного обнаружения при множественном тестировании в зависимости» (PDF). Анналы статистики. 29 (4): 1165–1188. Дои:10.1214 / aos / 1013699998. Г-Н  1869245.
  12. ^ Стори, J.D .; Тейлор, Дж. Э .; Зигмунд, Д. (2004). «Сильный контроль, консервативная оценка баллов и одновременная консервативная устойчивость ложных показателей обнаружения: единый подход». Журнал Королевского статистического общества, серия B. 66: 187–205. Дои:10.1111 / j.1467-9868.2004.00439.x.
  13. ^ Benjamini, Y .; Krieger, A. M .; Екутиели Д. (2006). «Адаптивные линейные повышающие процедуры, контролирующие частоту ложного обнаружения». Биометрика. 93 (3): 491. Дои:10.1093 / biomet / 93.3.491.
  14. ^ Гаврилов, Ю .; Benjamini, Y .; Саркар, С. К. (2009). «Адаптивная процедура понижения с проверенным контролем FDR при независимости». Анналы статистики. 37 (2): 619. arXiv:0903.5373. Дои:10.1214 / 07-AOS586. S2CID  16913244.
  15. ^ Blanchard, G .; Рокейн, Э. (2008). «Два простых достаточных условия для управления FDR». Электронный статистический журнал. 2: 963–992. arXiv:0802.1406. Дои:10.1214 / 08-EJS180. S2CID  16662020.
  16. ^ Екутиели Д., Бенджамини Ю. (1999). «Процедура управления частотой ложного обнаружения на основе повторной выборки для зависимой тестовой статистики». J. Statist. Planng Inf. 82 (1–2): 171–196. Дои:10.1016 / S0378-3758 (99) 00041-5.
  17. ^ van der Laan, M.J .; Дудуа, С. (2007). Множественные процедуры тестирования с приложениями к геномике. Нью-Йорк: Спрингер.
  18. ^ Саркар, Санат К. «Повышающие процедуры, управляющие обобщенным FWER и обобщенным FDR». Анналы статистики (2007): 2405-2420.
  19. ^ Саркар, Санат К. и Венге Го. «Об общем уровне ложных открытий». Анналы статистики (2009): 1545-1565.
  20. ^ а б Ефрон Б (2008). «Микроматрицы, эмпирический Байес и модель двух групп». Статистическая наука. 23: 1–22. arXiv:0808.0603. Дои:10.1214 / 07-STS236. S2CID  8417479.
  21. ^ Стори, Джон Д. (2002). «Прямой подход к показателям ложных открытий» (PDF). Журнал Королевского статистического общества, серия B. 64 (3): 479–498. CiteSeerX  10.1.1.320.7131. Дои:10.1111/1467-9868.00346.
  22. ^ Бенджамини, Ю. (2010).«Одновременный и выборочный вывод: текущие успехи и будущие проблемы». Биометрический журнал. 52 (6): 708–721. Дои:10.1002 / bimj.200900299. PMID  21154895.
  23. ^ а б Бенджамини Y, Yekutieli Y (2005). «Уровень ложного обнаружения, контролирующий доверительные интервалы для выбранных параметров». Журнал Американской статистической ассоциации. 100 (469): 71–80. Дои:10.1198/016214504000001907. S2CID  23202143.
  24. ^ Zhao, Z .; Джин Хван, Дж. Т. (2012). «Эмпирический байесовский уровень ложного охвата, контролирующий доверительные интервалы». Журнал Королевского статистического общества, серия B. 74 (5): 871–891. Дои:10.1111 / j.1467-9868.2012.01033.x.
  25. ^ Стори, Джон Д. (2003). «Уровень положительных ложных открытий: байесовская интерпретация и q-значение» (PDF). Анналы статистики. 31 (6): 2013–2035. Дои:10.1214 / aos / 1074290335.
  26. ^ Эфрон, Брэдли (2010). Крупномасштабный вывод. Издательство Кембриджского университета. ISBN  978-0-521-19249-1.
  27. ^ Абрамович Ф, Бенджамини Й, Донохо Д., Джонстон И.М. (2006). «Адаптация к неизвестной разреженности путем контроля ложного обнаружения». Анналы статистики. 34 (2): 584–653. arXiv:математика / 0505374. Bibcode:2005математика ...... 5374A. Дои:10.1214/009053606000000074. S2CID  7581060.
  28. ^ Донохо Д., Джин Дж (2006). «Асимптотическая минимаксность порога ложного обнаружения для разреженных экспоненциальных данных». Анналы статистики. 34 (6): 2980–3018. arXiv:математика / 0602311. Bibcode:2006математика ...... 2311D. Дои:10.1214/009053606000000920. S2CID  9080115.
  29. ^ Бенджамини Ю., Гаврилов Ю. (2009). «Простая процедура прямого выбора, основанная на контроле скорости ложного обнаружения». Анналы прикладной статистики. 3 (1): 179–198. arXiv:0905.2819. Bibcode:2009arXiv0905.2819B. Дои:10.1214 / 08-AOAS194. S2CID  15719154.
  30. ^ Донохо Д., Джин Дж. С. (2004). «Повышенная критика за обнаружение разреженных гетерогенных смесей». Анналы статистики. 32 (3): 962–994. arXiv:математика / 0410072. Bibcode:2004математика ..... 10072D. Дои:10.1214/009053604000000265. S2CID  912325.
  31. ^ Колкухун, Дэвид (2015). "Расследование ложных открытий и неправильного толкования п-значения". Королевское общество открытой науки. 1 (3): 140216. arXiv:1407.5296. Bibcode:2014RSOS .... 140216C. Дои:10.1098 / rsos.140216. ЧВК  4448847. PMID  26064558.
  32. ^ Колкухун, Дэвид. «Проблема с p-значениями». Эон. Журнал Aeon. Получено 11 декабря 2016.
  33. ^ Колкухун, Дэвид (2017). «Воспроизводимость исследований и неправильная интерпретация p-значений». Королевское общество открытой науки. 4 (12): 171085. Дои:10.1098 / rsos.171085. ЧВК  5750014. PMID  29308247.

внешняя ссылка