Рандомизированный эксперимент

В науке рандомизированные эксперименты — это эксперименты , которые позволяют получить наибольшую надежность и достоверность статистических оценок эффектов лечения. Выводы, основанные на рандомизации, особенно важны при планировании экспериментов и выборке обследований .

Обзор

В статистической теории планирования экспериментов рандомизация предполагает случайное распределение экспериментальных единиц по группам лечения . Например, если в ходе эксперимента новый препарат сравнивается со стандартным препаратом, то пациентов следует распределить либо на новый препарат, либо на стандартный контрольный препарат с использованием рандомизации.

Рандомизированные эксперименты не являются случайными. Рандомизация уменьшает систематическую ошибку за счет уравнивания других факторов, которые не были явно учтены при планировании эксперимента (согласно закону больших чисел ). Рандомизация также приводит к созданию игнорируемых планов , которые полезны для моделей на основе статистических выводов , особенно байесовских или основанных на правдоподобии . При планировании экспериментов простейшим методом сравнения методов лечения является «полностью рандомизированный план». Некоторое «ограничение рандомизации» может возникнуть при блокировке и экспериментах с трудноизменяемыми факторами; дополнительные ограничения на рандомизацию могут возникнуть, когда полная рандомизация невозможна или когда желательно уменьшить дисперсию оценок выбранных эффектов.

Рандомизация лечения в клинических исследованиях создает этические проблемы. В некоторых случаях рандомизация сокращает терапевтические возможности как для врача, так и для пациента, поэтому рандомизация требует клинического равновесия в отношении лечения.

Онлайн-рандомизированные контролируемые эксперименты

Веб-сайты могут проводить рандомизированные контролируемые эксперименты ^[2] чтобы создать петлю обратной связи. ^[3] Ключевые различия между офлайн-экспериментами и онлайн-экспериментами включают в себя: ^[3]^[4]

Ведение журнала: действия пользователя могут надежно регистрироваться.
Количество пользователей: крупные сайты, такие как Amazon, Bing/Microsoft и Google, проводят эксперименты, каждый из которых насчитывает более миллиона пользователей.
Количество одновременных экспериментов: на крупных площадках проводятся десятки перекрывающихся или одновременных экспериментов. ^[5]
Роботы, будь то веб-сканеры из достоверных источников или вредоносные интернет-боты . ^{[ нужны разъяснения ]}
Возможность наращивать эксперименты с низких процентов до более высоких.
Скорость/производительность оказывает существенное влияние на ключевые показатели. ^[3]^[6]

Возможность использовать период перед экспериментом в качестве теста A/A для уменьшения дисперсии. ^[7]

История

Контролируемый эксперимент, по-видимому, был предложен в Ветхом Завете в Книге Даниила. Царь Навуходоносор предложил некоторым израильтянам съедать «ежедневное количество еды и вина с царского стола». Даниэль предпочитал вегетарианскую диету, но чиновник был обеспокоен тем, что король «увидит, что ты выглядишь хуже, чем другие молодые люди твоего возраста? Тогда король отрубит мне голову из-за тебя». Затем Даниил предложил следующий контролируемый эксперимент: «Испытайте своих слуг в течение десяти дней. Не давайте нам ничего, кроме овощей в пищу и воды для питья. Затем сравните наш внешний вид с внешним видом юношей, которые едят царскую пищу, и относитесь к своим слугам соответственно. с тем, что ты видишь». (Даниил 1, 12–13). ^[8]^[9]

Рандомизированные эксперименты были официально закреплены в психологии и образовании в конце восемнадцатого века, после изобретения рандомизированных экспериментов К.С. Пирсом . ^[10]^[11]^[12]^[13] Помимо психологии и образования, рандомизированные эксперименты были популяризированы Р. А. Фишером в его книге «Статистические методы для научных работников» , в которой также были представлены дополнительные принципы планирования экспериментов.

Статистическая интерпретация

обеспечивает Причинная модель Рубина общий способ описания рандомизированного эксперимента. Хотя причинная модель Рубина обеспечивает основу для определения причинных параметров (т.е. влияния рандомизированного лечения на результат), анализ экспериментов может принимать различные формы. Модель предполагает, что для каждой единицы исследования существует два потенциальных результата: результат, если единица получает лечение, и результат, если единица не получает лечения. Разница между этими двумя потенциальными результатами известна как эффект лечения, который представляет собой причинное влияние лечения на результат. Чаще всего рандомизированные эксперименты анализируются с использованием ANOVA , t-критерия Стьюдента , регрессионного анализа или аналогичного статистического теста . Модель также учитывает потенциальные мешающие факторы, которые могут повлиять как на лечение, так и на результат. Контролируя эти мешающие факторы, модель помогает гарантировать, что любой наблюдаемый эффект лечения действительно является причинным, а не просто результатом других факторов, которые коррелируют как с лечением, так и с результатом.

Причинная модель Рубина — это полезная основа для понимания того, как оценить причинный эффект лечения, даже когда существуют мешающие переменные, которые могут повлиять на результат. Эта модель определяет, что причинным эффектом лечения является разница в результатах, которые наблюдались бы для каждого человека, если бы он получил лечение и если бы он не получил лечение. На практике невозможно наблюдать оба потенциальных результата для одного и того же человека, поэтому для оценки причинного эффекта с использованием данных эксперимента используются статистические методы.

Эмпирические доказательства того, что рандомизация имеет значение

Эмпирические различия между рандомизированными и нерандомизированными исследованиями, ^[14]^{[ нужно обновить ]} и между адекватно и неадекватно рандомизированными исследованиями было трудно обнаружить. ^[15]^[16]

Объяснение рандомизации в ориентированном ациклическом графе (DAG)

Рандомизация является краеугольным камнем многих научных утверждений. Рандомизация означает, что мы можем устранить мешающие факторы. Допустим, мы изучаем влияние A на B. Тем не менее, существует множество ненаблюдаемых величин U , которые потенциально влияют на B и искажают нашу оценку результата. Чтобы объяснить такого рода проблемы, статистики или эконометрики в настоящее время используют ориентированный ациклический граф . ^{[ нужно обновить ]}

См. также

Ссылки

^ Шульц К.Ф., Альтман Д.Г., Мохер Д.; для группы CONSORT (2010 г.). «Заявление CONSORT 2010: обновленные рекомендации по отчетности о рандомизированных исследованиях в параллельных группах» . БМЖ . 340 : с332. дои : 10.1136/bmj.c332 . ПМЦ 2844940 . ПМИД 20332509 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ Кохави, Рон; Лонгботэм, Роджер (2015). «Контролируемые онлайн-эксперименты и A/B-тесты» (PDF) . В Саммуте, Клод; Уэбб, Джефф (ред.). Энциклопедия машинного обучения и интеллектуального анализа данных . Спрингер. с., чтобы появиться.
^ Jump up to: ^а ^б ^с Кохави, Рон; Лонгботэм, Роджер; Соммерфилд, Дэн; Хенне, Рэндал М. (2009). «Контролируемые эксперименты в сети: обзор и практическое руководство» . Интеллектуальный анализ данных и обнаружение знаний . 18 (1): 140–181. дои : 10.1007/s10618-008-0114-1 . ISSN 1384-5810 .
^ Кохави, Рон; Дэн, Алекс; Фраска, Брайан; Лонгботэм, Роджер; Уокер, Тоби; Сюй Я (2012). «Надежные контролируемые онлайн-эксперименты: объяснение пяти загадочных результатов» . Материалы 18-й конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных .
^ Кохави, Рон; Дэн Алекс; Фраска Брайан; Уокер Тоби; Сюй Я; Нильс Польманн (2013). «Крупномасштабные онлайн-контролируемые эксперименты». Материалы 19-й международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . Том. 19. Чикаго, Иллинойс, США: ACM. стр. 1168–1176. дои : 10.1145/2487575.2488217 . ISBN 9781450321747 . S2CID 13224883 .
^ Кохави, Рон; Дэн Алекс; Лонгботэм Роджер; Сюй Я (2014). «Семь практических правил для экспериментаторов веб-сайтов» . Материалы 20-й международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . Том. 20. Нью-Йорк, Нью-Йорк, США: ACM. стр. 1857–1866. дои : 10.1145/2623330.2623341 . ISBN 9781450329569 . S2CID 207214362 .
^ Дэн, Алекс; Сюй, Я; Кохави, Рон; Уокер, Тоби (2013). «Повышение чувствительности онлайн-контролируемых экспериментов за счет использования предэкспериментальных данных» . WSDM 2013: Шестая международная конференция ACM по веб-поиску и интеллектуальному анализу данных .
^ Нойхаузер, Д; Диас, М (2004). «Даниил: использование Библии для обучения методам улучшения качества» . Качество и безопасность в здравоохранении . 13 (2): 153–155. дои : 10.1136/qshc.2003.009480 . ПМК 1743807 . ПМИД 15069225 .
^ Ангрист, Джошуа; Пишке Йорн-Штеффен (2014). Освоение «Метрики: путь от причины к следствию» . Издательство Принстонского университета. п. 31.
^ Чарльз Сандерс Пирс и Джозеф Джастроу (1885 г.). «О малых различиях в ощущениях» . Мемуары Национальной академии наук . 3 : 73–83. http://psychclassics.yorku.ca/Peirce/small-diffs.htm
^ Хакерство, Ян (сентябрь 1988 г.). «Телепатия: истоки рандомизации в экспериментальном дизайне». Исида . 79 (3): 427–451. дои : 10.1086/354775 . JSTOR 234674 . МР 1013489 . S2CID 52201011 .
^ Стивен М. Стиглер (ноябрь 1992 г.). «Исторический взгляд на статистические концепции в психологии и исследованиях в области образования». Американский журнал образования . 101 (1): 60–70. дои : 10.1086/444032 . S2CID 143685203 .
^ Труди Деуэ (декабрь 1997 г.). «Обман, эффективность и случайные группы: психология и постепенное возникновение конструкции случайных групп» (PDF) . Исида . 88 (4): 653–673. дои : 10.1086/383850 . ПМИД 9519574 . S2CID 23526321 .
^ Энглмайер А., Хорват Х.Т., Беро Л. (апрель 2014 г.). «Результаты оказания медицинской помощи, оцененные с помощью наблюдательных исследований, в сравнении с результатами, оцененными в рандомизированных исследованиях» . Cochrane Database Syst Rev. 2014 (4): MR000034. дои : 10.1002/14651858.MR000034.pub2 . ПМЦ 8191367 . ПМИД 24782322 .
^ Одгаард-Йенсен Дж., Вист Дж. и др. (апрель 2011 г.). «Рандомизация для защиты от систематической ошибки отбора в медицинских исследованиях» . Cochrane Database Syst Rev. 2015 (4): MR000012. дои : 10.1002/14651858.MR000012.pub3 . ПМК 7150228 . ПМИД 21491415 .
^ Хоуик Дж., Мебиус А. (2014). «В поисках оправдания парадокса непредсказуемости» . Испытания . 15 : 480. дои : 10.1186/1745-6215-15-480 . ПМЦ 4295227 . ПМИД 25490908 .

Калинский, Тадеуш и Кагеяма, Санпей (2000). Блочные конструкции: подход рандомизации, Том I : Анализ . Конспект лекций по статистике. Том. 150. Нью-Йорк: Springer-Verlag. ISBN 978-0-387-98578-7 .
Калинский, Тадеуш и Кагеяма, Санпей (2003). Блочные конструкции: подход к рандомизации, Том II : Проектирование . Конспект лекций по статистике. Том. 170. Нью-Йорк: Springer-Verlag. ISBN 978-0-387-95470-7 .
Хакерство, Ян (сентябрь 1988 г.). «Телепатия: истоки рандомизации в экспериментальном дизайне». Исида . 79 (3): 427–451. дои : 10.1086/354775 . JSTOR 234674 . МР 1013489 . S2CID 52201011 .
Хинкельманн, Клаус; Кемпторн, Оскар (2008). Планирование и анализ экспериментов, Том I: Введение в планирование экспериментов (второе изд.). Уайли. ISBN 978-0-471-72756-9 . МР 2363107 .
Кемпторн, Оскар (1992). «Интервенционные эксперименты, рандомизация и умозаключения» . На малайском Гоше и Прамоде К. Патхаке (ред.). Актуальные проблемы статистического вывода - очерки в честь Д. Басу . Конспект лекций Института математической статистики - Серия монографий. Хейворд, Калифорния: Институт математической статистики. стр. 13–31. дои : 10.1214/lnms/1215458836 . ISBN 978-0-940600-24-9 . МР 1194407 .

[Schulz-2010-1] Шульц К.Ф., Альтман Д.Г., Мохер Д.; для группы CONSORT (2010 г.). «Заявление CONSORT 2010: обновленные рекомендации по отчетности о рандомизированных исследованиях в параллельных группах» . БМЖ . 340 : с332. дои : 10.1136/bmj.c332 . ПМЦ 2844940 . ПМИД 20332509 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )

[2] Кохави, Рон; Лонгботэм, Роджер (2015). «Контролируемые онлайн-эксперименты и A/B-тесты» (PDF) . В Саммуте, Клод; Уэбб, Джефф (ред.). Энциклопедия машинного обучения и интеллектуального анализа данных . Спрингер. с., чтобы появиться.

[surveyarticle-3] Jump up to: ^а ^б ^с Кохави, Рон; Лонгботэм, Роджер; Соммерфилд, Дэн; Хенне, Рэндал М. (2009). «Контролируемые эксперименты в сети: обзор и практическое руководство» . Интеллектуальный анализ данных и обнаружение знаний . 18 (1): 140–181. дои : 10.1007/s10618-008-0114-1 . ISSN 1384-5810 .

[puzzlingResults-4] Кохави, Рон; Дэн, Алекс; Фраска, Брайан; Лонгботэм, Роджер; Уокер, Тоби; Сюй Я (2012). «Надежные контролируемые онлайн-эксперименты: объяснение пяти загадочных результатов» . Материалы 18-й конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных .

[ExPScale-5] Кохави, Рон; Дэн Алекс; Фраска Брайан; Уокер Тоби; Сюй Я; Нильс Польманн (2013). «Крупномасштабные онлайн-контролируемые эксперименты». Материалы 19-й международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . Том. 19. Чикаго, Иллинойс, США: ACM. стр. 1168–1176. дои : 10.1145/2487575.2488217 . ISBN 9781450321747 . S2CID 13224883 .

[ExPRulesOfThumb-6] Кохави, Рон; Дэн Алекс; Лонгботэм Роджер; Сюй Я (2014). «Семь практических правил для экспериментаторов веб-сайтов» . Материалы 20-й международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . Том. 20. Нью-Йорк, Нью-Йорк, США: ACM. стр. 1857–1866. дои : 10.1145/2623330.2623341 . ISBN 9781450329569 . S2CID 207214362 .

[cuped-7] Дэн, Алекс; Сюй, Я; Кохави, Рон; Уокер, Тоби (2013). «Повышение чувствительности онлайн-контролируемых экспериментов за счет использования предэкспериментальных данных» . WSDM 2013: Шестая международная конференция ACM по веб-поиску и интеллектуальному анализу данных .

[8] Нойхаузер, Д; Диас, М (2004). «Даниил: использование Библии для обучения методам улучшения качества» . Качество и безопасность в здравоохранении . 13 (2): 153–155. дои : 10.1136/qshc.2003.009480 . ПМК 1743807 . ПМИД 15069225 .

[9] Ангрист, Джошуа; Пишке Йорн-Штеффен (2014). Освоение «Метрики: путь от причины к следствию» . Издательство Принстонского университета. п. 31.

[10] Чарльз Сандерс Пирс и Джозеф Джастроу (1885 г.). «О малых различиях в ощущениях» . Мемуары Национальной академии наук . 3 : 73–83. http://psychclassics.yorku.ca/Peirce/small-diffs.htm

[11] Хакерство, Ян (сентябрь 1988 г.). «Телепатия: истоки рандомизации в экспериментальном дизайне». Исида . 79 (3): 427–451. дои : 10.1086/354775 . JSTOR 234674 . МР 1013489 . S2CID 52201011 .

[12] Стивен М. Стиглер (ноябрь 1992 г.). «Исторический взгляд на статистические концепции в психологии и исследованиях в области образования». Американский журнал образования . 101 (1): 60–70. дои : 10.1086/444032 . S2CID 143685203 .

[13] Труди Деуэ (декабрь 1997 г.). «Обман, эффективность и случайные группы: психология и постепенное возникновение конструкции случайных групп» (PDF) . Исида . 88 (4): 653–673. дои : 10.1086/383850 . ПМИД 9519574 . S2CID 23526321 .

[14] Энглмайер А., Хорват Х.Т., Беро Л. (апрель 2014 г.). «Результаты оказания медицинской помощи, оцененные с помощью наблюдательных исследований, в сравнении с результатами, оцененными в рандомизированных исследованиях» . Cochrane Database Syst Rev. 2014 (4): MR000034. дои : 10.1002/14651858.MR000034.pub2 . ПМЦ 8191367 . ПМИД 24782322 .

[15] Одгаард-Йенсен Дж., Вист Дж. и др. (апрель 2011 г.). «Рандомизация для защиты от систематической ошибки отбора в медицинских исследованиях» . Cochrane Database Syst Rev. 2015 (4): MR000012. дои : 10.1002/14651858.MR000012.pub3 . ПМК 7150228 . ПМИД 21491415 .

[16] Хоуик Дж., Мебиус А. (2014). «В поисках оправдания парадокса непредсказуемости» . Испытания . 15 : 480. дои : 10.1186/1745-6215-15-480 . ПМЦ 4295227 . ПМИД 25490908 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

v т и Планирование экспериментов
Научный метод	Научный эксперимент Статистический дизайн Контроль Внутренняя и внешняя валидность Экспериментальная установка Ослепление Оптимальный дизайн : байесовский Случайное задание Рандомизация Ограниченная рандомизация Репликация против субдискретизации Размер выборки
Уход и блокировка	Уход Размер эффекта Контраст Взаимодействие Сбивающий с толку Ортогональность Блокировка Ковариата Неприятная переменная
Модели и вывод	Линейная регрессия Обычные наименьшие квадраты Байесовский Случайный эффект Смешанная модель Иерархическая модель: Байесианская Дисперсионный анализ (Anova) Теорема Кокрена Манова ( многовариантная ) Анкова ( ковариация ) Сравнить средства Множественное сравнение
Дизайны Полностью рандомизированный	Факториал Дробный факториал Плакетт-Берман Тагучи Методология поверхности реагирования Полиномиальное и рациональное моделирование Бокс – Бенкен Центральный композит Блокировать Обобщенный рандомизированный блочный дизайн (GRBD) Латинская площадь Греко-латинская площадь Ортогональный массив Латинский гиперкуб Проектирование повторяющихся мер Перекрестное исследование Рандомизированное контролируемое исследование Последовательный анализ Последовательный тест отношения вероятностей
Глоссарий Категория Математический портал Статистическая схема Статистические темы