Рандомизированный эксперимент - Randomized experiment

Блок-схема четырех этапов (включение, распределение вмешательств, последующее наблюдение и анализ данных) параллельного рандомизированного исследования двух групп, измененная из CONSORT 2010 Заявление[1]

В наука, рандомизированные эксперименты являются эксперименты которые обеспечивают наибольшую надежность и достоверность статистических оценок эффектов лечения. Вывод на основе рандомизации особенно важен в экспериментальная конструкция И в выборка обследования.

Обзор

В статистической теории дизайн экспериментов, рандомизация включает случайное распределение экспериментальных единиц по лечебные группы. Например, если в эксперименте сравнивается новое лекарство со стандартным лекарством, тогда пациентов следует распределить либо на новое лекарство, либо на стандартный контроль лекарств с помощью рандомизации.

Рандомизированное экспериментирование нет случайно. Рандомизация снижает предвзятость путем уравнивания других факторов, которые не были явно учтены в плане эксперимента (согласно закон больших чисел ). Рандомизация также дает игнорируемые замыслы, которые ценны в модель -основан статистические выводы, особенно Байесовский или же вероятность -основан. При планировании экспериментов самым простым способом сравнения лечения является «полностью рандомизированный дизайн». Некоторое "ограничение на рандомизацию" может произойти с блокировка и эксперименты с трудноизменяемыми факторами; дополнительные ограничения на рандомизацию могут возникать, когда полная рандомизация невозможна или когда желательно уменьшить отклонение оценщиков выбранных эффектов.

Рандомизация лечения в клинические испытания ставят этические проблемы. В некоторых случаях рандомизация сокращает терапевтические возможности как для врача, так и для пациента, поэтому рандомизация требует: клиническое равновесие относительно лечения.

Рандомизированные контролируемые эксперименты онлайн

Веб-сайты могут проводить рандомизированные контролируемые эксперименты [2] создать цикл обратной связи.[3] Ключевые различия между офлайн-экспериментами и онлайн-экспериментами включают:[3][4]

  • Ведение журнала: взаимодействия пользователей могут надежно регистрироваться.
  • Количество пользователей: крупные сайты, такие как Amazon, Bing / Microsoft и Google, проводят эксперименты, на каждом из которых более миллиона пользователей.
  • Количество одновременных экспериментов: на крупных сайтах проводятся десятки перекрывающихся или одновременных экспериментов.[5]
  • Роботы, будь то поисковые роботы из достоверных источников или вредоносных интернет-боты.[требуется разъяснение ]
  • Возможность наращивать эксперименты с низких процентов до более высоких.
  • Скорость / производительность существенно влияют на ключевые показатели.[3][6]
  • Возможность использовать предэкспериментальный период как A / A-тест для уменьшения дисперсии.[7]

История

Контролируемый эксперимент, по-видимому, был предложен в ветхозаветной книге Даниила. Царь Навуходоносор предложил некоторым израильтянам съесть «ежедневное количество еды и вина со стола царя». Даниил предпочитал вегетарианскую диету, но чиновник был обеспокоен тем, что король «увидит, что ты выглядишь хуже, чем другие молодые люди твоего возраста? Тогда король заберет мою голову из-за тебя». Затем Даниил предложил следующий управляемый эксперимент: «Испытайте своих слуг в течение десяти дней. Дайте нам ничего, кроме овощей для еды и воды для питья. Затем сравните нашу внешность с внешностью молодых людей, которые едят царскую пищу, и относитесь к своим слугам соответственно. с тем, что вы видите ". (Даниил 1, 12–13).[8][9]

Рандомизированные эксперименты были институционализированы в психологии и образовании в конце XVIII века, после изобретения рандомизированных экспериментов К. С. Пирс.[10][11][12][13]Помимо психологии и образования, рандомизированные эксперименты были популяризированы Р.А. Фишер в его книге Статистические методы для научных работников, который также ввел дополнительные принципы экспериментального дизайна.

Статистическая интерпретация

В Причинная модель Рубина предоставляет общий способ описания рандомизированного эксперимента. В то время как причинно-следственная модель Рубина обеспечивает основу для определения причинных параметров (т. Е. Влияния рандомизированного лечения на результат), анализ экспериментов может принимать различные формы. Чаще всего рандомизированные эксперименты анализируются с использованием ANOVA, t-тест студента, регрессивный анализ, или аналогичный статистический тест.

Эмпирические доказательства того, что рандомизация имеет значение

Эмпирические различия между рандомизированными и нерандомизированными исследованиями,[14] а также между адекватно и неадекватно рандомизированными испытаниями обнаружить трудно.[15][16]

Смотрите также

Рекомендации

  1. ^ Шульц К.Ф., Альтман Д.Г., Мохер Д.; для CONSORT Group (2010). «Заявление CONSORT 2010: обновленное руководство по составлению отчетов о рандомизированных исследованиях в параллельных группах». BMJ. 340: c332. Дои:10.1136 / bmj.c332. ЧВК  2844940. PMID  20332509.CS1 maint: несколько имен: список авторов (связь)
  2. ^ Кохави, Рон; Лонгботэм, Роджер (2015). «Контролируемые онлайн-эксперименты и A / B-тесты» (PDF). В Саммуте, Клод; Уэбб, Джефф (ред.). Энциклопедия машинного обучения и интеллектуального анализа данных. Springer. стр., чтобы появиться.
  3. ^ а б c Кохави, Рон; Лонгботэм, Роджер; Соммерфилд, Дэн; Хенне, Рэндал М. (2009). «Контролируемые эксперименты в сети: обзор и практическое руководство». Интеллектуальный анализ данных и обнаружение знаний. 18 (1): 140–181. Дои:10.1007 / s10618-008-0114-1. ISSN  1384-5810.
  4. ^ Кохави, Рон; Дэн, Алекс; Фраска, Брайан; Лонгботэм, Роджер; Уокер, Тоби; Сюй Я (2012). "Надежные контролируемые эксперименты в Интернете: объяснение пяти загадочных результатов". Материалы 18-й конференции ACM SIGKDD по открытию знаний и интеллектуальному анализу данных.
  5. ^ Кохави, Рон; Дэн Алекс; Фраска Брайан; Уокер Тоби; Сюй Я; Нильс Польманн (2013). Крупномасштабные онлайн-контролируемые эксперименты. Материалы 19-й конференции ACM SIGKDD по открытию знаний и интеллектуальному анализу данных. 19. Чикаго, Иллинойс, США: ACM. С. 1168–1176. Дои:10.1145/2487575.2488217.
  6. ^ Кохави, Рон; Дэн Алекс; Лонгботэм Роджер; Сюй Я (2014). Семь практических правил для экспериментаторов веб-сайтов. Материалы 20-й конференции ACM SIGKDD по открытию знаний и интеллектуальному анализу данных. 20. Нью-Йорк, Нью-Йорк, США: ACM. С. 1857–1866. Дои:10.1145/2623330.2623341.
  7. ^ Дэн, Алекс; Сюй, Я; Кохави, Рон; Уокер, Тоби (2013). «Повышение чувствительности онлайн-контролируемых экспериментов за счет использования данных до эксперимента». WSDM 2013: Шестая международная конференция ACM по веб-поиску и интеллектуальному анализу данных.
  8. ^ Neuhauser, D; Диаз, М. (2004). «Даниил: использование Библии для обучения методам улучшения качества». Качество и безопасность в здравоохранении. 13 (2): 153–155. Дои:10.1136 / qshc.2003.009480. ЧВК  1743807. PMID  15069225.
  9. ^ Ангрист, Джошуа; Пишке Йорн-Штеффен (2014). Освоение показателей: путь от причины к следствию. Издательство Принстонского университета. п. 31.
  10. ^ Чарльз Сандерс Пирс и Джозеф Джастроу (1885). "О небольших различиях в ощущениях". Воспоминания Национальной академии наук. 3: 73–83. http://psychclassics.yorku.ca/Peirce/small-diffs.htm
  11. ^ Взлом, Ян (Сентябрь 1988 г.). «Телепатия: истоки рандомизации в экспериментальном дизайне». Исида. 79 (3): 427–451. Дои:10.1086/354775. JSTOR  234674. МИСТЕР  1013489.
  12. ^ Стивен М. Стиглер (Ноябрь 1992 г.). «Исторический взгляд на статистические концепции в психологии и образовательных исследованиях». Американский журнал образования. 101 (1): 60–70. Дои:10.1086/444032.
  13. ^ Труди Дехуэ (декабрь 1997 г.). «Обман, эффективность и случайные группы: психология и постепенное возникновение дизайна случайных групп» (PDF). Исида. 88 (4): 653–673. Дои:10.1086/383850. PMID  9519574.
  14. ^ Англемайер А., Хорват Х. Т., Беро Л. (апрель 2014 г.). «Результаты здравоохранения, оцененные с помощью обсервационных исследований, по сравнению с результатами, оцененными в рандомизированных исследованиях». Кокрановская база данных Syst Rev. 4 (4): MR000034. Дои:10.1002 / 14651858.MR000034.pub2. PMID  24782322.
  15. ^ Odgaard-Jensen J, Vist G, et al. (Апрель 2011 г.). «Рандомизация для защиты от систематической ошибки отбора в медицинских исследованиях». Кокрановская база данных Syst Rev (4): MR000012. Дои:10.1002 / 14651858.MR000012.pub3. ЧВК  7150228. PMID  21491415.
  16. ^ Ховик Дж, Мебиус А (2014). «В поисках оправдания парадоксу непредсказуемости». Испытания. 15: 480. Дои:10.1186/1745-6215-15-480. ЧВК  4295227. PMID  25490908.