Рандомизированный эксперимент

В науке рандомизированные эксперименты — это эксперименты , которые позволяют получить наибольшую надежность и обоснованность статистических оценок эффектов лечения. Выводы, основанные на рандомизации, особенно важны при планировании экспериментов и выборке обследований .

Обзор [ править ]

В статистической теории планирования экспериментов рандомизация предполагает случайное распределение экспериментальных единиц по группам лечения . Например, если в ходе эксперимента новый препарат сравнивается со стандартным препаратом, то пациентов следует распределить либо на новый препарат, либо на стандартный контрольный препарат с использованием рандомизации.

Рандомизированные эксперименты не являются случайными. Рандомизация уменьшает систематическую ошибку за счет уравнивания других факторов, которые не были явно учтены при планировании эксперимента (согласно закону больших чисел ). Рандомизация также приводит к созданию игнорируемых планов , которые полезны для моделей на основе статистических выводов , особенно байесовских или основанных на правдоподобии . При планировании экспериментов простейшим методом сравнения методов лечения является «полностью рандомизированный план». Некоторое «ограничение рандомизации» может возникнуть при блокировке и экспериментах с трудноизменяемыми факторами; дополнительные ограничения на рандомизацию могут возникнуть, когда полная рандомизация невозможна или когда желательно уменьшить дисперсию оценок выбранных эффектов.

Рандомизация лечения в клинических исследованиях создает этические проблемы. В некоторых случаях рандомизация уменьшает терапевтические возможности как для врача, так и для пациента, поэтому рандомизация требует клинического равновесия в отношении лечения.

Онлайн рандомизированные эксперименты контролируемые

Веб-сайты могут проводить рандомизированные контролируемые эксперименты. ^[2] чтобы создать петлю обратной связи. ^[3] Ключевые различия между офлайн-экспериментами и онлайн-экспериментами включают в себя: ^[3]^[4]

Ведение журнала: действия пользователя могут надежно регистрироваться.
Количество пользователей: крупные сайты, такие как Amazon, Bing/Microsoft и Google, проводят эксперименты, каждый из которых насчитывает более миллиона пользователей.
Количество одновременных экспериментов: на крупных площадках проводятся десятки перекрывающихся или одновременных экспериментов. ^[5]
Роботы, будь то веб-сканеры из достоверных источников или вредоносные интернет-боты . ^{[ нужны разъяснения ]}
Возможность наращивать эксперименты с низких процентов до более высоких.
Скорость/производительность оказывает существенное влияние на ключевые показатели. ^[3]^[6]

Возможность использовать период перед экспериментом в качестве теста A/A для уменьшения дисперсии. ^[7]

История [ править ]

Контролируемый эксперимент, по-видимому, был предложен в Ветхом Завете в Книге Даниила. Царь Навуходоносор предложил некоторым израильтянам съедать «ежедневное количество еды и вина с царского стола». Дэниел предпочитал вегетарианскую диету, но чиновник был обеспокоен тем, что король «увидит, что ты выглядишь хуже, чем другие молодые люди твоего возраста? Тогда король отрубит мне голову из-за тебя». Затем Даниил предложил следующий контролируемый эксперимент: «Испытайте своих слуг в течение десяти дней. Не давайте нам ничего, кроме овощей в пищу и воды для питья. Затем сравните наш внешний вид с внешним видом юношей, которые едят царскую пищу, и относитесь к своим слугам соответственно. с тем, что ты видишь». (Даниил 1, 12–13). ^[8]^[9]

Рандомизированные эксперименты были официально закреплены в психологии и образовании в конце восемнадцатого века, после изобретения рандомизированных экспериментов К.С. Пирсом . ^[10]^[11]^[12]^[13]За пределами психологии и образования рандомизированные эксперименты были популяризированы Р. А. Фишером в его книге «Статистические методы для научных работников» , в которой также были представлены дополнительные принципы планирования экспериментов.

Статистическая интерпретация

обеспечивает Причинная модель Рубина общий способ описания рандомизированного эксперимента. Хотя причинная модель Рубина обеспечивает основу для определения причинных параметров (т.е. влияния рандомизированного лечения на результат), анализ экспериментов может принимать различные формы. Модель предполагает, что для каждой единицы исследования существует два потенциальных результата: результат, если единица получает лечение, и результат, если единица не получает лечения. Разница между этими двумя потенциальными результатами известна как эффект лечения, который представляет собой причинное влияние лечения на результат. Чаще всего рандомизированные эксперименты анализируются с использованием ANOVA , t-критерия Стьюдента , регрессионного анализа или аналогичного статистического теста . Модель также учитывает потенциальные мешающие факторы, которые могут повлиять как на лечение, так и на результат. Контролируя эти мешающие факторы, модель помогает гарантировать, что любой наблюдаемый эффект лечения действительно является причинным, а не просто результатом других факторов, которые коррелируют как с лечением, так и с результатом.

Причинная модель Рубина представляет собой полезную основу для понимания того, как оценить причинный эффект лечения, даже когда существуют мешающие переменные, которые могут повлиять на результат. Эта модель определяет, что причинным эффектом лечения является разница в результатах, которые наблюдались бы для каждого человека, если бы он получил лечение и если бы он не получил лечение. На практике невозможно наблюдать оба потенциальных результата для одного и того же человека, поэтому для оценки причинного эффекта с использованием данных эксперимента используются статистические методы.

что рандомизация имеет значение того , Эмпирические доказательства

Эмпирические различия между рандомизированными и нерандомизированными исследованиями, ^[14]^{[ нужно обновить ]} и между адекватно и неадекватно рандомизированными исследованиями было трудно обнаружить. ^[15]^[16]

См. также [ править ]

Ссылки [ править ]

^ Шульц К.Ф., Альтман Д.Г., Мохер Д.; для группы CONSORT (2010 г.). «Заявление CONSORT 2010: обновленные рекомендации по отчетности о рандомизированных исследованиях в параллельных группах» . БМЖ . 340 : с332. дои : 10.1136/bmj.c332 . ПМЦ 2844940 . ПМИД 20332509 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ Кохави, Рон; Лонгботэм, Роджер (2015). «Контролируемые онлайн-эксперименты и A/B-тесты» (PDF) . В Саммуте, Клод; Уэбб, Джефф (ред.). Энциклопедия машинного обучения и интеллектуального анализа данных . Спрингер. с., чтобы появиться.
^ Jump up to: Перейти обратно: ^а ^б ^с Кохави, Рон; Лонгботэм, Роджер; Соммерфилд, Дэн; Хенне, Рэндал М. (2009). «Контролируемые эксперименты в сети: обзор и практическое руководство» . Интеллектуальный анализ данных и обнаружение знаний . 18 (1): 140–181. дои : 10.1007/s10618-008-0114-1 . ISSN 1384-5810 .
^ Кохави, Рон; Дэн, Алекс; Фраска, Брайан; Лонгботэм, Роджер; Уокер, Тоби; Сюй Я (2012). «Надежные онлайн-контролируемые эксперименты: объяснение пяти загадочных результатов» . Материалы 18-й конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных .
^ Кохави, Рон; Дэн Алекс; Фраска Брайан; Уокер Тоби; Сюй Я; Нильс Польманн (2013). «Крупномасштабные онлайн-контролируемые эксперименты». Материалы 19-й международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . Том. 19. Чикаго, Иллинойс, США: ACM. стр. 1168–1176. дои : 10.1145/2487575.2488217 . ISBN 9781450321747 . S2CID 13224883 . {{cite book}}: CS1 maint: дата и год ( ссылка )
^ Кохави, Рон; Дэн Алекс; Лонгботэм Роджер; Сюй Я (2014). «Семь практических правил для экспериментаторов веб-сайтов» . Материалы 20-й международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . Том. 20. Нью-Йорк, Нью-Йорк, США: ACM. стр. 1857–1866. дои : 10.1145/2623330.2623341 . ISBN 9781450329569 . S2CID 207214362 . {{cite book}}: CS1 maint: дата и год ( ссылка )
^ Дэн, Алекс; Сюй, Я; Кохави, Рон; Уокер, Тоби (2013). «Повышение чувствительности онлайн-контролируемых экспериментов за счет использования предэкспериментальных данных» . WSDM 2013: Шестая международная конференция ACM по веб-поиску и интеллектуальному анализу данных .
^ Нойхаузер, Д; Диас, М (2004). «Даниил: использование Библии для обучения методам улучшения качества» . Качество и безопасность в здравоохранении . 13 (2): 153–155. дои : 10.1136/qshc.2003.009480 . ПМК 1743807 . ПМИД 15069225 .
^ Ангрист, Джошуа; Пишке Йорн-Штеффен (2014). Освоение «Метрики: путь от причины к следствию» . Издательство Принстонского университета. п. 31.
^ Чарльз Сандерс Пирс и Джозеф Джастроу (1885 г.). «О малых различиях в ощущениях» . Мемуары Национальной академии наук . 3 : 73–83. http://psychclassics.yorku.ca/Peirce/small-diffs.htm
^ Хакерство, Ян (сентябрь 1988 г.). «Телепатия: истоки рандомизации в экспериментальном дизайне». Исида . 79 (3): 427–451. дои : 10.1086/354775 . JSTOR 234674 . МР 1013489 . S2CID 52201011 .
^ Стивен М. Стиглер (ноябрь 1992 г.). «Исторический взгляд на статистические концепции в психологии и исследованиях в области образования». Американский журнал образования . 101 (1): 60–70. дои : 10.1086/444032 . S2CID 143685203 .
^ Труди Деуэ (декабрь 1997 г.). «Обман, эффективность и случайные группы: психология и постепенное возникновение конструкции случайных групп» (PDF) . Исида . 88 (4): 653–673. дои : 10.1086/383850 . ПМИД 9519574 . S2CID 23526321 .
^ Энглмайер А., Хорват Х.Т., Беро Л. (апрель 2014 г.). «Результаты оказания медицинской помощи, оцененные с помощью наблюдательных исследований, в сравнении с результатами, оцененными в рандомизированных исследованиях» . Cochrane Database Syst Rev. 2014 (4): MR000034. дои : 10.1002/14651858.MR000034.pub2 . ПМЦ 8191367 . ПМИД 24782322 .
^ Одгаард-Йенсен Дж., Вист Дж. и др. (апрель 2011 г.). «Рандомизация для защиты от систематической ошибки отбора в медицинских исследованиях» . Cochrane Database Syst Rev. 2015 (4): MR000012. дои : 10.1002/14651858.MR000012.pub3 . ПМК 7150228 . ПМИД 21491415 .
^ Хоуик Дж., Мебиус А. (2014). «В поисках оправдания парадокса непредсказуемости» . Испытания . 15 : 480. дои : 10.1186/1745-6215-15-480 . ПМК 4295227 . ПМИД 25490908 .

Калинский, Тадеуш и Кагеяма, Санпей (2000). Блочные конструкции: подход рандомизации, Том I : Анализ . Конспект лекций по статистике. Том. 150. Нью-Йорк: Springer-Verlag. ISBN 978-0-387-98578-7 .
Калинский, Тадеуш и Кагеяма, Санпей (2003). Блочные конструкции: подход к рандомизации, Том II : Проектирование . Конспект лекций по статистике. Том. 170. Нью-Йорк: Springer-Verlag. ISBN 978-0-387-95470-7 .
Хакерство, Ян (сентябрь 1988 г.). «Телепатия: истоки рандомизации в экспериментальном дизайне». Исида . 79 (3): 427–451. дои : 10.1086/354775 . JSTOR 234674 . МР 1013489 . S2CID 52201011 .
Хинкельманн, Клаус; Кемпторн, Оскар (2008). Планирование и анализ экспериментов, Том I: Введение в планирование экспериментов (второе изд.). Уайли. ISBN 978-0-471-72756-9 . МР 2363107 .
Кемпторн, Оскар (1992). «Интервенционные эксперименты, рандомизация и умозаключения» . На малайском Гоше и Прамоде К. Патхаке (ред.). Актуальные проблемы статистического вывода - очерки в честь Д. Басу . Конспект лекций Института математической статистики - Серия монографий. Хейворд, Калифорния: Институт математической статистики. стр. 13–31. дои : 10.1214/lnms/1215458836 . ISBN 978-0-940600-24-9 . МР 1194407 .

[Schulz-2010-1] Шульц К.Ф., Альтман Д.Г., Мохер Д.; для группы CONSORT (2010 г.). «Заявление CONSORT 2010: обновленные рекомендации по отчетности о рандомизированных исследованиях в параллельных группах» . БМЖ . 340 : с332. дои : 10.1136/bmj.c332 . ПМЦ 2844940 . ПМИД 20332509 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )

[2] Кохави, Рон; Лонгботэм, Роджер (2015). «Контролируемые онлайн-эксперименты и A/B-тесты» (PDF) . В Саммуте, Клод; Уэбб, Джефф (ред.). Энциклопедия машинного обучения и интеллектуального анализа данных . Спрингер. с., чтобы появиться.

[surveyarticle-3] Jump up to: Перейти обратно: ^а ^б ^с Кохави, Рон; Лонгботэм, Роджер; Соммерфилд, Дэн; Хенне, Рэндал М. (2009). «Контролируемые эксперименты в сети: обзор и практическое руководство» . Интеллектуальный анализ данных и обнаружение знаний . 18 (1): 140–181. дои : 10.1007/s10618-008-0114-1 . ISSN 1384-5810 .

[puzzlingResults-4] Кохави, Рон; Дэн, Алекс; Фраска, Брайан; Лонгботэм, Роджер; Уокер, Тоби; Сюй Я (2012). «Надежные онлайн-контролируемые эксперименты: объяснение пяти загадочных результатов» . Материалы 18-й конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных .

[ExPScale-5] Кохави, Рон; Дэн Алекс; Фраска Брайан; Уокер Тоби; Сюй Я; Нильс Польманн (2013). «Крупномасштабные онлайн-контролируемые эксперименты». Материалы 19-й международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . Том. 19. Чикаго, Иллинойс, США: ACM. стр. 1168–1176. дои : 10.1145/2487575.2488217 . ISBN 9781450321747 . S2CID 13224883 . {{cite book}}: CS1 maint: дата и год ( ссылка )

[ExPRulesOfThumb-6] Кохави, Рон; Дэн Алекс; Лонгботэм Роджер; Сюй Я (2014). «Семь практических правил для экспериментаторов веб-сайтов» . Материалы 20-й международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . Том. 20. Нью-Йорк, Нью-Йорк, США: ACM. стр. 1857–1866. дои : 10.1145/2623330.2623341 . ISBN 9781450329569 . S2CID 207214362 . {{cite book}}: CS1 maint: дата и год ( ссылка )

[cuped-7] Дэн, Алекс; Сюй, Я; Кохави, Рон; Уокер, Тоби (2013). «Повышение чувствительности онлайн-контролируемых экспериментов за счет использования предэкспериментальных данных» . WSDM 2013: Шестая международная конференция ACM по веб-поиску и интеллектуальному анализу данных .

[8] Нойхаузер, Д; Диас, М (2004). «Даниил: использование Библии для обучения методам улучшения качества» . Качество и безопасность в здравоохранении . 13 (2): 153–155. дои : 10.1136/qshc.2003.009480 . ПМК 1743807 . ПМИД 15069225 .

[9] Ангрист, Джошуа; Пишке Йорн-Штеффен (2014). Освоение «Метрики: путь от причины к следствию» . Издательство Принстонского университета. п. 31.

[10] Чарльз Сандерс Пирс и Джозеф Джастроу (1885 г.). «О малых различиях в ощущениях» . Мемуары Национальной академии наук . 3 : 73–83. http://psychclassics.yorku.ca/Peirce/small-diffs.htm

[11] Хакерство, Ян (сентябрь 1988 г.). «Телепатия: истоки рандомизации в экспериментальном дизайне». Исида . 79 (3): 427–451. дои : 10.1086/354775 . JSTOR 234674 . МР 1013489 . S2CID 52201011 .

[12] Стивен М. Стиглер (ноябрь 1992 г.). «Исторический взгляд на статистические концепции в психологии и исследованиях в области образования». Американский журнал образования . 101 (1): 60–70. дои : 10.1086/444032 . S2CID 143685203 .

[13] Труди Деуэ (декабрь 1997 г.). «Обман, эффективность и случайные группы: психология и постепенное возникновение конструкции случайных групп» (PDF) . Исида . 88 (4): 653–673. дои : 10.1086/383850 . ПМИД 9519574 . S2CID 23526321 .

[14] Энглмайер А., Хорват Х.Т., Беро Л. (апрель 2014 г.). «Результаты оказания медицинской помощи, оцененные с помощью наблюдательных исследований, в сравнении с результатами, оцененными в рандомизированных исследованиях» . Cochrane Database Syst Rev. 2014 (4): MR000034. дои : 10.1002/14651858.MR000034.pub2 . ПМЦ 8191367 . ПМИД 24782322 .

[15] Одгаард-Йенсен Дж., Вист Дж. и др. (апрель 2011 г.). «Рандомизация для защиты от систематической ошибки отбора в медицинских исследованиях» . Cochrane Database Syst Rev. 2015 (4): MR000012. дои : 10.1002/14651858.MR000012.pub3 . ПМК 7150228 . ПМИД 21491415 .

[16] Хоуик Дж., Мебиус А. (2014). «В поисках оправдания парадокса непредсказуемости» . Испытания . 15 : 480. дои : 10.1186/1745-6215-15-480 . ПМК 4295227 . ПМИД 25490908 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

v т и Планирование экспериментов
Scientific method	Scientific experiment Statistical design Control Internal and external validity Experimental unit Blinding Optimal design: Bayesian Random assignment Randomization Restricted randomization Replication versus subsampling Sample size
Treatment and blocking	Treatment Effect size Contrast Interaction Confounding Orthogonality Blocking Covariate Nuisance variable
Models and inference	Linear regression Ordinary least squares Bayesian Random effect Mixed model Hierarchical model: Bayesian Analysis of variance (Anova) Cochran's theorem Manova (multivariate) Ancova (covariance) Compare means Multiple comparison
Designs Completely randomized	Factorial Fractional factorial Plackett–Burman Taguchi Response surface methodology Polynomial and rational modeling Box–Behnken Central composite Block Generalized randomized block design (GRBD) Latin square Graeco-Latin square Orthogonal array Latin hypercube Repeated measures design Crossover study Randomized controlled trial Sequential analysis Sequential probability ratio test
Glossary Category Mathematics portal Statistical outline Statistical topics