План экспериментов ( DOE или DOX ), также известный как план эксперимента или план эксперимента , — это план любой задачи, целью которой является описание и объяснение изменения информации в условиях, которые, как предполагается, отражают это изменение. Этот термин обычно ассоциируется с экспериментами , в которых план вводит условия, которые непосредственно влияют на вариацию, но может также относиться к плану квазиэкспериментов , в которых естественные для наблюдения выбираются условия, влияющие на вариацию.
В своей простейшей форме эксперимент направлен на предсказание результата путем внесения изменения в предварительные условия, которые представлены одной или несколькими независимыми переменными , также называемыми «входными переменными» или «переменными-предикторами». Обычно предполагается, что изменение одной или нескольких независимых переменных приведет к изменению одной или нескольких зависимых переменных , также называемых «выходными переменными» или «переменными отклика». В плане эксперимента можно также определить контрольные переменные , которые необходимо поддерживать постоянными, чтобы внешние факторы не влияли на результаты. Планирование эксперимента включает не только выбор подходящих независимых, зависимых и контрольных переменных, но и планирование проведения эксперимента в статистически оптимальных условиях с учетом ограничений доступных ресурсов. Существует несколько подходов к определению набора расчетных точек (уникальных комбинаций настроек независимых переменных), которые будут использоваться в эксперименте.
Основные проблемы при планировании экспериментов включают установление достоверности , надежности и воспроизводимости . Например, эти проблемы можно частично решить, тщательно выбрав независимую переменную, уменьшив риск ошибки измерения и обеспечив достаточно подробную документацию метода. Связанные с этим проблемы включают достижение соответствующего уровня статистической мощности и чувствительности .
Правильно спланированные эксперименты расширяют знания в области естественных, социальных наук и техники, а методология разработки экспериментов признана ключевым инструментом в успешной реализации структуры «Качество через дизайн » (QbD). [1] Другие приложения включают маркетинг и разработку политики. Изучение планирования экспериментов является важной темой метанауки .
Чарльз С. Пирс случайным образом распределил добровольцев на слепое чтобы исследование с повторными измерениями, оценить их способность различать вес. [5] [6] [7] [8] Эксперимент Пирса вдохновил других исследователей в области психологии и образования, которые в 1800-х годах развили исследовательскую традицию рандомизированных экспериментов в лабораториях и специализированных учебниках. [5] [6] [7] [8]
Использование последовательности экспериментов, где план каждого из них может зависеть от результатов предыдущих экспериментов, включая возможное решение о прекращении экспериментов, находится в рамках последовательного анализа , области, которая была впервые разработана. [12] в Абрахамом Вальдом контексте последовательной проверки статистических гипотез. [13] Герман Чернофф написал обзор оптимальных последовательных проектов. [14] в то время как адаптивный дизайн был исследован С. Заксом. [15] Одним из конкретных типов последовательной конструкции является «двурукий бандит», обобщенный до многорукого бандита , ранняя работа над которым была проведена Гербертом Роббинсом в 1952 году. [16]
Методику планирования экспериментов предложил Рональд Фишер в своих новаторских книгах: «Планирование полевых экспериментов» (1926) и «План экспериментов» (1935). Большая часть его новаторской работы была связана с применением статистических методов в сельском хозяйстве. В качестве обыденного примера он описал, как проверить о том, что женщина пробует чай гипотезу : некая женщина могла отличить только по вкусу, было ли сначала помещено в чашку молоко или чай. Эти методы нашли широкое применение в биологических, психологических и сельскохозяйственных исследованиях. [17]
Сравнение
В некоторых областях исследований невозможно провести независимые измерения в соответствии с прослеживаемым метрологическим стандартом . Сравнение методов лечения гораздо более ценно и обычно предпочтительнее, и часто сравнивается с научным контролем или традиционным лечением, которое действует в качестве базового уровня.
Случайное распределение — это процесс случайного распределения людей по группам или разным группам в эксперименте, так что каждый человек из популяции имеет одинаковые шансы стать участником исследования. Случайное распределение людей по группам (или условиям внутри группы) отличает строгий «настоящий» эксперимент от наблюдательного исследования или «квазиэксперимента». [18] Существует обширная математическая теория, которая исследует последствия распределения единиц лечения с помощью какого-либо случайного механизма (например, таблиц случайных чисел или использования устройств рандомизации, таких как игральные карты или игральные кости). Случайное назначение единиц лечения имеет тенденцию смягчать смешивание , в результате чего эффекты, вызванные факторами, отличными от лечения, кажутся результатом лечения.
Риски, связанные со случайным распределением (например, серьезный дисбаланс ключевой характеристики между экспериментальной группой и контрольной группой), поддаются расчету и, следовательно, могут быть снижены до приемлемого уровня путем использования достаточного количества экспериментальных единиц. Однако если популяция разделена на несколько субпопуляций, которые каким-то образом различаются, и исследование требует, чтобы каждая субпопуляция была одинаковой по размеру, можно использовать стратифицированную выборку. Таким образом, рандомизируются единицы в каждой субпопуляции, а не вся выборка. Результаты эксперимента можно надежно обобщить с экспериментальных единиц на более крупную статистическую совокупность единиц только в том случае, если экспериментальные единицы представляют собой случайную выборку из более крупной совокупности; вероятная ошибка такой экстраполяции зависит, среди прочего, от размера выборки.
Измерения обычно подвержены изменениям и неопределенности измерений ; таким образом, они повторяются и воспроизводятся полные эксперименты, чтобы помочь выявить источники вариаций, лучше оценить истинные эффекты лечения, еще больше повысить надежность и достоверность эксперимента, а также расширить существующие знания по этой теме. [19] Однако перед началом репликации эксперимента должны быть выполнены определенные условия: исходный вопрос исследования был опубликован в рецензируемом журнале или широко цитировался, исследователь независим от исходного эксперимента, исследователь должен сначала попытаться воспроизвести оригинальные результаты с использованием исходных данных, и в описании должно быть указано, что проведенное исследование является повторным исследованием, в котором пытались максимально строго следовать исходному исследованию. [20]
Блокировка (справа) Блокирование – это неслучайное расположение экспериментальных единиц в группы (блоки), состоящие из единиц, схожих между собой. Блокирование уменьшает количество известных, но нерелевантных источников различий между единицами и, таким образом, позволяет повысить точность оценки источника изучаемых различий.
Ортогональность касается форм сравнения (контрасты), которые могут быть законно и эффективно проведены. Контрасты могут быть представлены векторами, а наборы ортогональных контрастов некоррелированы и независимо распределены, если данные нормальные. Из-за этой независимости каждое ортогональное лечение предоставляет различную информацию другим. Если есть Т- обработки и ортогональные контрасты Т -1, вся информация, которую можно получить в ходе эксперимента, можно получить из набора контрастов.
Многофакторные эксперименты
Использование многофакторных экспериментов вместо однофакторного метода. Они эффективны при оценке эффектов и возможных взаимодействий нескольких факторов (независимых переменных). Анализ планирования эксперимента построен на основе дисперсионного анализа — набора моделей, которые разделяют наблюдаемую дисперсию на компоненты в зависимости от того, какие факторы эксперимент должен оценить или проверить.
Вес восьми предметов измеряется с помощью чашечных весов и набора эталонных гирь. При каждом взвешивании измеряется разница в весе между объектами в левой чашке и любыми объектами в правой чашке путем добавления калиброванных гирь к более легкой чашке до тех пор, пока весы не придут в равновесие. Каждое измерение имеет случайную погрешность . Средняя ошибка равна нулю; стандартные отклонения распределения вероятностей ошибок - одно и то же число σ при разных взвешиваниях; ошибки при разных взвешиваниях независимы . Обозначим истинные веса через
Мы рассмотрим два разных эксперимента:
Взвесьте каждый предмет на одной чашке, оставив другую пустой. Пусть X i будет измеренным весом объекта для i = 1,..., 8.
Выполните восемь взвешиваний в соответствии со следующим графиком — матрицей взвешивания :
Пусть Y i — измеренная разность для i = 1,..., 8. Тогда оценочное значение веса θ 1 равно
Аналогичные оценки можно найти и для веса других предметов:
Вопрос планирования эксперимента заключается в следующем: какой эксперимент лучше?
оценки X 1 θ 1 равна σ Дисперсия 2 если мы воспользуемся первым экспериментом. Но если мы воспользуемся вторым экспериментом, дисперсия приведенной выше оценки составит σ 2 /8. Таким образом, второй эксперимент дает нам в 8 раз большую точность оценки одного элемента и оценивает все элементы одновременно с той же точностью. То, что достигается во втором эксперименте с восемью предметами, потребует 64 взвешиваний, если предметы взвешиваются отдельно. Однако обратите внимание, что оценки предметов, полученные во втором эксперименте, имеют ошибки, коррелирующие друг с другом.
Использование двойного слепого дизайна может предотвратить систематические ошибки , которые могут привести к ложноположительным результатам на этапе сбора данных . При использовании двойного слепого метода участников случайным образом распределяют по экспериментальным группам, но исследователь не знает, какие участники к какой группе принадлежат. Следовательно, исследователь не может повлиять на реакцию участников на вмешательство. [25]
P-хакинг можно предотвратить путем предварительной регистрации исследований, при которой исследователи должны отправить свой план анализа данных в журнал, в котором они хотят опубликовать свою статью, еще до того, как они начнут сбор данных, поэтому никакие манипуляции с данными невозможны. [29] [30]
Другой способ предотвратить это — использовать двойной слепой дизайн на этапе анализа данных, сделав исследование тройным слепым, когда данные отправляются аналитику данных, не имеющему отношения к исследованию, который шифрует данные, чтобы не было возможности чтобы знать, к каким участникам принадлежат, прежде чем они потенциально будут исключены как выбросы. [25]
План эксперимента или рандомизированное клиническое исследование требует тщательного рассмотрения нескольких факторов перед фактическим проведением эксперимента. [32] План эксперимента — это составление подробного плана эксперимента перед его проведением. Некоторые из следующих тем уже обсуждались в разделе «Принципы планирования эксперимента»:
Сколько факторов имеет проект, и являются ли уровни этих факторов фиксированными или случайными?
Нужны ли условия контроля и какими они должны быть?
Проверка манипуляции: действительно ли манипуляция сработала?
Каковы фоновые переменные?
Каков размер выборки? Сколько единиц необходимо собрать, чтобы эксперимент был обобщаемым и имел достаточную мощность ?
Какова значимость взаимодействия между факторами?
Каково влияние отсроченных эффектов существенных факторов на результаты?
Как изменения в ответах влияют на показатели самоотчета?
Насколько осуществимо повторное использование одних и тех же измерительных приборов в одних и тех же учреждениях в разное время с пост-тестом и последующими тестами?
А как насчет использования предварительного тестирования прокси?
Должен ли клиент/пациент, исследователь или даже аналитик данных быть слеп к условиям?
Какова целесообразность последующего применения разных условий к одним и тем же единицам?
Сколько факторов управления и шума следует принимать во внимание?
Независимая переменная исследования часто имеет много уровней или разные группы. В настоящем эксперименте исследователи могут иметь экспериментальную группу, в которой реализуется их интервенционная проверка гипотезы, и контрольную группу, которая имеет все те же элементы, что и экспериментальная группа, но без интервенционного элемента. Таким образом, когда все остальное, за исключением одного вмешательства, остается неизменным, исследователи могут с некоторой уверенностью подтвердить, что именно этот элемент и вызвал наблюдаемое изменение. В некоторых случаях наличие контрольной группы неэтично. Иногда эту проблему решают с использованием двух разных экспериментальных групп. В некоторых случаях независимыми переменными невозможно манипулировать, например, при проверке разницы между двумя группами, страдающими разными заболеваниями, или при проверке разницы между полами (очевидно, это переменные, к которым было бы сложно или неэтично отнести участников). В таких случаях можно использовать квазиэкспериментальный план.
В чистом плане эксперимента исследователь манипулирует независимой (прогностической) переменной, то есть каждый участник исследования выбирается случайным образом из совокупности, и каждому выбранному участнику случайным образом назначаются условия независимой переменной. Только когда это будет сделано, можно с высокой вероятностью подтвердить, что причина различий в переменных результата вызвана разными условиями. Поэтому исследователям следует, когда это возможно, отдавать предпочтение экспериментальному плану перед другими типами планов. Однако природа независимой переменной не всегда позволяет манипулировать ею. В таких случаях исследователи должны помнить о том, что нельзя подтверждать причинную атрибуцию, если их конструкция этого не позволяет. Например, в планах наблюдения участники не распределяются по условиям случайным образом, и поэтому, если есть различия, обнаруженные в переменных результата между условиями, вполне вероятно, что существует что-то иное, чем различия между условиями, что вызывает различия в результатах, что is – третья переменная. То же самое касается исследований с корреляционным дизайном (Adér & Mellenbergh, 2008).
Лучше всего, чтобы процесс находился под разумным статистическим контролем до проведения запланированных экспериментов. Когда это невозможно, правильное блокирование, репликация и рандомизация позволяют тщательно провести запланированные эксперименты. [33] Чтобы контролировать неприятные переменные, исследователи в качестве дополнительных мер вводят контрольные проверки . Исследователи должны гарантировать, что неконтролируемые воздействия (например, восприятие достоверности источника) не искажают результаты исследования. Проверка манипуляции является одним из примеров контрольной проверки. Проверки манипулирования позволяют исследователям изолировать основные переменные, чтобы усилить подтверждение того, что эти переменные работают по плану.
Одним из наиболее важных требований к планированию экспериментальных исследований является необходимость устранения влияния ложных , промежуточных и предшествующих переменных . В самой базовой модели причина (X) приводит к следствию (Y). Но может быть третья переменная (Z), которая влияет на (Y), а X может вообще не быть истинной причиной. Говорят, что Z является ложной переменной и ее необходимо контролировать. То же самое верно для промежуточных переменных (переменная между предполагаемой причиной (X) и следствием (Y)), а также предшествующих переменных (переменная, предшествующая предполагаемой причине (X), которая является истинной причиной). Когда задействована третья переменная, но она не контролируется, отношение называется отношением нулевого порядка . В большинстве практических применений экспериментальных исследований существует несколько причин (X1, X2, X3). В большинстве проектов одновременно манипулируют только одной из этих причин.
Некоторые эффективные схемы оценки нескольких основных эффектов были независимо и почти последовательно найдены Раджем Чандрой Босом и К. Кишеном в 1940 году в Индийском статистическом институте , но оставались малоизвестными до тех пор, пока планы Плакетта-Бермана не были опубликованы в журнале Biometrika в 1946 году. В то же время Ч.Р. Рао представил концепцию ортогональных массивов в качестве экспериментального проекта. Эта концепция сыграла центральную роль в разработке методов Тагучи Геничи Тагучи , которая произошла во время его визита в Индийский статистический институт в начале 1950-х годов. Его методы были успешно применены и приняты промышленными предприятиями Японии и Индии, а затем, хотя и с некоторыми оговорками, были приняты промышленностью США.
В 1950 году Гертруда Мэри Кокс и Уильям Джеммел Кокран опубликовали книгу «Экспериментальные планы», которая на долгие годы стала основным справочником по планированию экспериментов для статистиков.
Учебники Д. Монтгомери, Р. Майерса и Г. Бокса/У. Hunter/JS Hunter охватили несколько поколений студентов и практиков. [35] [36] [37] [38] [39] Кроме того, продолжаются дискуссии о планировании экспериментов в контексте построения моделей статических или динамических моделей, также известных как идентификация системы . [40] [41]
Законы и этические соображения исключают некоторые тщательно разработанные эксперименты на людях. Правовые ограничения зависят от юрисдикция . Ограничения могут включать институциональные наблюдательные советы , информированное согласие и конфиденциальность, затрагивающая как клинические (медицинские) исследования, так и поведенческие и социальные эксперименты. [42] Например, в области токсикологии проводятся эксперименты. на лабораторных животных с целью определения безопасных пределов воздействия для людей . [43] Балансировкаограничениями являются взгляды из медицинской области. [44] Что касается рандомизации пациентов, «...если никто не знает, какая терапия лучше, не существует этического необходимо использовать ту или иную терапию». (стр. 380). экспериментальный план: «... явно неэтично помещать испытуемых рискуют собрать данные в плохо спланированном исследовании, когда такая ситуация можно легко избежать...» (с. 393).
^ Пирс, Чарльз Сандерс (1887). «Иллюстрации логики науки». Открытый суд (10 июня 2014 г.). ISBN 0812698495 .
^ Пирс, Чарльз Сандерс (1883). «Теория вероятного вывода». В К.С. Пирсе (ред.), Исследования по логике, проведенные сотрудниками Университета Джонса Хопкинса (стр. 126–181). Литтл, Браун и компания (1883)
^ Закс, С. (1996) «Адаптивные проекты для параметрических моделей». В: Гош С. и Рао ЧР (ред.) (1996). «Планирование и анализ экспериментов», Статистический справочник , том 13. Северная Голландия. ISBN 0-444-82061-2 . (стр. 151–180)
^ Миллер, Джеффри (2000). Брачный разум: как сексуальный выбор повлиял на эволюцию человеческой природы , Лондон: Хейнеман, ISBN 0-434-00741-2 (также Doubleday, ISBN 0-385-49516-1 ) «Для биологов он был архитектором «современного синтеза», который использовал математические модели для интеграции менделевской генетики с теориями отбора Дарвина. Для психологов Фишер был изобретателем различных статистических тестов, которые до сих пор Предполагалось, что Фишер будет использоваться, когда это возможно, в психологических журналах. Для фермеров Фишер был основателем экспериментальных сельскохозяйственных исследований, спасших миллионы людей от голода с помощью программ рационального селекции сельскохозяйственных культур». стр.54.
^ Кресвелл, JW (2008), Образовательные исследования: планирование, проведение и оценка количественных и качественных исследований (3-е издание) , Аппер-Сэддл-Ривер, Нью-Джерси: Прентис-Холл. 2008, с. 300. ISBN 0-13-613550-1
^ Симмонс, Джозеф; Лейф Нельсон; Ури Симонсон (ноябрь 2011 г.). «Ложноположительная психология: нераскрытая гибкость в сборе и анализе данных позволяет представить все что угодно как значимое». Психологическая наука . 22 (11): 1359–1366. дои : 10.1177/0956797611417632 . ISSN 0956-7976 . ПМИД 22006061 .
^ Адер, Мелленберг и Хэнд (2008) «Консультирование по методам исследования: спутник консультанта»
^ Бисгаард, С. (2008) «Должен ли процесс находиться под статистическим контролем перед проведением запланированных экспериментов?», Quality Engineering , ASQ, 20 (2), стр. 143–176
^ Бокс, Джордж Э.П.; Хантер, Уильям Г.; Хантер, Дж. Стюарт (2005). Статистика для экспериментаторов: дизайн, инновации и открытия (2-е изд.). Хобокен, Нью-Джерси: Уайли. ISBN 978-0471718130 .
^ Сполл, Дж. К. (2010). «Факторный дизайн для эффективного экспериментирования: создание информативных данных для идентификации системы». Журнал IEEE Control Systems . 30 (5): 38–53. дои : 10.1109/MCS.2010.937677 . S2CID 45813198 .
^ Мур, Дэвид С.; Нотц, Уильям И. (2006). Статистика: концепции и противоречия (6-е изд.). Нью-Йорк: WH Freeman. стр. Глава 7: Этика данных. ISBN 9780716786368 .
Пирс, CS (1877–1878), «Иллюстрации логики науки» (серия), Popular Science Monthly , тт. 12–13. Соответствующие отдельные документы:
(Март 1878 г.), «Доктрина шансов», Popular Science Monthly , т. 12, мартовский выпуск, стр. 604–615 . Интернет-архив Эпринт .
(апрель 1878 г.), «Вероятность индукции», Popular Science Monthly , т. 12, стр. 705–718 . Интернет-архив Эпринт .
(июнь 1878 г.), «Порядок природы», Popular Science Monthly , т. 13, стр. 203–217 . Интернет-архив Эпринт .
(август 1878 г.), «Дедукция, индукция и гипотеза», Popular Science Monthly , т. 13, стр. 470–482 . Интернет-архив Эпринт .
(1883), «Теория вероятного вывода», Исследования по логике , стр. 126–181 , Little, Brown and Company. (Перепечатано в 1983 г., издательство John Benjamins Publishing Company, ISBN 90-272-3271-7 )
Arc.Ask3.Ru Номер скриншота №: f6b38144d28280140b3aeba062eac412__1720053600 URL1:https://arc.ask3.ru/arc/aa/f6/12/f6b38144d28280140b3aeba062eac412.html Заголовок, (Title) документа по адресу, URL1: Design of experiments - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)