Ограниченная рандомизация

В статистике и, в частности , ограниченная рандомизация происходит при планировании экспериментов в контексте рандомизированных экспериментов и рандомизированных контролируемых исследований . Ограниченная рандомизация позволяет избежать интуитивно неправильного распределения лечения по экспериментальным единицам, сохраняя при этом теоретические преимущества рандомизации. ^[1]^[2] Например, в клиническом исследовании нового предлагаемого лечения ожирения по сравнению с контролем экспериментатор хотел бы избежать результатов рандомизации, в которой новое лечение назначалось только самым тяжелым пациентам.

Эту концепцию представил Фрэнк Йейтс (1948). ^{[ нужна полная цитата ]} и Уильям Дж. Юден (1972) ^{[ нужна полная цитата ]} «как способ избежать плохих пространственных моделей лечения в запланированных экспериментах». ^[3]

Пример вложенных данных

Рассмотрим пакетный процесс, в каждом запуске которого используются 7 пластин монитора. План также предусматривает измерение переменной отклика на каждой пластине в каждом из 9 объектов. Организация плана выборки имеет иерархическую или вложенную структуру: прогон партии — самый верхний уровень, второй уровень — отдельная пластина, а третий уровень — участок на пластине.

Общий объем данных, генерируемых за один пакетный запуск, составит 7 · 9 = 63 наблюдения. Один из подходов к анализу этих данных — вычислить среднее значение всех этих точек, а также их стандартное отклонение и использовать эти результаты в качестве ответов для каждого прогона.

Анализ данных, предложенный выше, не является абсолютно неверным, но при этом теряется информация, которую можно было бы получить в противном случае. Например, сайт 1 на пластине 1 физически отличается от сайта 1 на пластине 2 или на любой другой пластине. То же самое справедливо для любого из сайтов на любой из вафлей. Аналогично, пластина 1 в прогоне 1 физически отличается от пластины 1 из прогона 2 и так далее. Чтобы описать эту ситуацию, говорят, что сайты вложены в пластины, а пластины вложены в прогоны.

Как следствие такого вложения, существуют ограничения на рандомизацию, которая может произойти в эксперименте. Этот вид ограниченной рандомизации всегда создает вложенные источники вариаций. Примерами вложенных вариаций или ограниченной рандомизации, обсуждаемыми на этой странице, являются схемы с разделенными диаграммами и полосовыми диаграммами .

Цель эксперимента с этим типом плана отбора проб обычно состоит в том, чтобы уменьшить изменчивость, обусловленную участками на пластинах и пластинах внутри серий (или партий) в процессе. Участки на пластинах и пластины внутри партии становятся источниками нежелательных изменений, и исследователь стремится сделать систему устойчивой к этим источникам — другими словами, в таком эксперименте пластины и участки можно рассматривать как факторы шума.

Поскольку пластины и сайты представляют собой нежелательные источники вариаций и поскольку одной из целей является снижение чувствительности процесса к этим источникам вариаций, разумным подходом является рассмотрение пластин и сайтов как случайных эффектов при анализе данных. Другими словами, вложенная вариация часто является еще одним способом обозначения вложенных случайных эффектов или вложенных источников шума. Если факторы «пластины» и «места» рассматривать как случайные эффекты, то можно оценить компонент дисперсии, обусловленный каждым источником вариаций, посредством анализа дисперсии . После получения оценок компонентов дисперсии исследователь может определить крупнейший источник вариаций в экспериментируемом процессе, а также определить величины других источников вариаций по отношению к самому крупному источнику.

Вложенные случайные эффекты

Если эксперимент или процесс имеет вложенные вариации, эксперимент или процесс имеет несколько источников случайных ошибок , влияющих на его результаты. Наличие вложенных случайных эффектов в модели — это то же самое, что наличие вложенных вариаций в модели.

Проекты с разделенным графиком

Планы с разделенными графиками возникают, когда во время эксперимента происходит определенный тип ограниченной рандомизации. Простой факторный эксперимент может привести к типу плана с разделенным графиком из-за того, как эксперимент фактически проводился.

Во многих промышленных экспериментах часто возникают три ситуации:

некоторые из представляющих интерес факторов могут быть «трудно изменить», в то время как остальные факторы легко изменить. В результате порядок, в котором выполняются комбинации воздействий для эксперимента, определяется порядком этих «трудноизменяемых» факторов.
экспериментальные единицы обрабатываются вместе как партия для одного или нескольких факторов в конкретной комбинации лечения.
экспериментальные единицы обрабатываются индивидуально, одна за другой, для одной и той же комбинации лечения без сброса настроек факторов для этой комбинации лечения.

Экспериментальные примеры с разделенным графиком

Эксперимент, проведенный в одной из трех вышеперечисленных ситуаций, обычно приводит к созданию плана с разделенным графиком. Рассмотрим эксперимент по изучению гальванопокрытия алюминия (неводного) на медные полоски. Интересуют три фактора: ток (А); температура раствора (Т); и концентрацию раствора покрывающего агента (S). Скорость нанесения покрытия является измеренным ответом. Всего для эксперимента доступно 16 медных полосок. Комбинации лечения, которые необходимо применить (в ортогональном масштабе), перечислены ниже в стандартном порядке (т. е. они не были рандомизированы):

Ортогонально масштабированные комбинации лечения от 2 ³ полный факториал
Текущий	Температура	Концентрация
−1	−1	−1
−1	−1	+1
−1	+1	−1
−1	+1	+1
+1	−1	−1
+1	−1	+1
+1	+1	−1
+1	+1	+1

Пример: некоторые факторы, которые трудно изменить

Рассмотрите возможность проведения эксперимента при первом условии, указанном выше, при этом концентрацию факторного раствора покрывающего агента (S) трудно изменить. Поскольку этот фактор трудно варьировать, экспериментатор хотел бы рандомизировать комбинации воздействий так, чтобы коэффициент концентрации раствора имел минимальное количество изменений. Другими словами, рандомизация серий лечения несколько ограничивается уровнем фактора концентрации раствора.

В результате комбинации лечения могут быть рандомизированы, так что сначала выполняются те серии лечения, которые соответствуют одному уровню концентрации (-1). Каждая медная полоска имеет индивидуальное покрытие, то есть в раствор помещается только одна полоска за раз для данной комбинации процедур. После завершения четырех прогонов с низким уровнем концентрации раствора раствор меняют на высокий уровень концентрации (1) и проводят оставшиеся четыре прогона эксперимента (где опять каждая полоска наносится индивидуально).

После завершения одного полного повтора эксперимента выполняется второй повтор с набором из четырех медных полосок, обработанных для заданного уровня концентрации раствора перед изменением концентрации и обработкой оставшихся четырех полосок. Обратите внимание, что уровни остальных двух факторов все еще могут быть рандомизированы. Кроме того, уровень концентрации, который запускается первым в ходе репликации, также может быть рандомизирован.

Проведение эксперимента таким образом приводит к созданию схемы с разделенным графиком . Концентрация раствора известна как всего графика коэффициент , а факторы подграфика — это ток и температура раствора.

более одного размера В схеме с разделенным графиком имеется экспериментальная единица . В этом эксперименте экспериментальная единица одного размера представляет собой отдельную медную полоску. Обработкой или факторами, которые применялись к отдельным полоскам, являются температура раствора и сила тока (эти факторы менялись каждый раз, когда в раствор помещали новую полоску). Другой экспериментальный блок, или большего размера, представляет собой набор из четырех медных полосок. Обработкой или фактором, который был применен к набору из четырех полосок, является концентрация раствора (этот фактор был изменен после обработки четырех полосок). Экспериментальная единица меньшего размера называется экспериментальной единицей подграфика , а экспериментальная единица большего размера называется единицей всего сюжета .

В этом эксперименте имеется 16 экспериментальных единиц подсюжета. Температура раствора и ток являются факторами подграфика в этом эксперименте. В этом эксперименте есть четыре экспериментальных блока с целым сюжетом. Концентрация раствора является фактором всего сюжета в этом эксперименте. Поскольку существует два размера экспериментальных единиц, в модели есть два члена ошибки: один соответствует ошибке всего графика или экспериментальной единице всего графика, а другой соответствует ошибке подграфика или экспериментальной единице подграфика.

Таблица ANOVA для этого эксперимента будет выглядеть частично следующим образом:

Частичная таблица ANOVA
Источник	ДФ
Репликация	1
Концентрация	1
Ошибка (весь график) = Rep × Conc	1
Температура	1
Репутация × Температура	1
Текущий	1
Представитель × ток	1
Температура × Конц.	1
Реп × Температура × Конц.	1
Температура × Ток	1
Повтор × Температура × Ток	1
Ток × Конц.	1
Повтор × Ток × Концентрация	1
Температура × Ток × Концентрация	1
Ошибка (подграфик) = Rep × Temp × Current × Conc	1

Первые три источника относятся к уровню всего сюжета, а следующие 12 — к подсюжету. Обычный вероятностный график из 12 оценок терминов подграфиков можно использовать для поиска статистически значимых терминов.

Пример: пакетный процесс

Рассмотрим проведение эксперимента при втором условии, указанном выше (т.е. периодическом процессе), при котором четыре медные полоски помещаются в раствор одновременно. Ток заданного уровня может быть приложен к отдельной полоске в растворе. Те же 16 комбинаций лечения (повторные 2 ³ факториал) запускаются так же, как и в первом сценарии. Однако способ проведения эксперимента будет иным. Существует четыре комбинации обработки температуры и концентрации раствора: (-1, -1), (-1, 1), (1, -1), (1, 1). Экспериментатор случайным образом выбирает один из этих четырех методов лечения, который следует применить первым. В раствор помещают четыре медные полоски. Две из четырех полосок случайным образом назначены на низкий уровень тока. Остальные две полоски назначены на высокий уровень тока. Выполняют покрытие и измеряют реакцию. Выбирают вторую комбинацию температуры и концентрации обработки и выполняют ту же процедуру. Это делается для всех четырех комбинаций температуры/концентрации.

Проведение эксперимента таким образом также приводит к созданию разделенного графика, в котором коэффициенты всего графика теперь представляют собой концентрацию раствора и температуру раствора, а фактор подграфика является текущим.

В этом эксперименте экспериментальная единица одного размера снова представляет собой отдельную медную полоску. Обработка или фактор, примененный к отдельным полоскам, являются текущими (этот фактор менялся каждый раз для разных полосок в растворе). Другой экспериментальный блок, или большего размера, снова представляет собой набор из четырех медных полосок. Обработками или факторами, которые применялись к набору из четырех полосок, являются концентрация раствора и температура раствора (эти факторы были изменены после обработки четырех полосок).

Экспериментальную единицу меньшего размера снова называют экспериментальной единицей подучастка. В этом эксперименте имеется 16 экспериментальных единиц подсюжета. Текущий является фактором подграфика в этом эксперименте.

Экспериментальная единица большего размера представляет собой экспериментальную единицу всего участка. В этом эксперименте имеется четыре экспериментальных блока всего графика, а концентрация раствора и температура раствора являются факторами всего графика в этом эксперименте.

Существует два размера экспериментальных единиц, и в модели есть два члена ошибки: один, который соответствует ошибке всего графика или экспериментальной единице всего графика, и один, который соответствует ошибке подграфика или экспериментальной единице подграфика.

ANOVA для этого эксперимента выглядит частично следующим образом:

Частичная таблица ANOVA
Источник	ДФ
Концентрация	1
Температура	1
Ошибка (весь график) = Конц × Температура	1
Текущий	1
Конц × Ток	1
Температура × Ток	1
Конц × Температура × Ток	1
Ошибка (подсюжет)	8

Первые три источника происходят с уровня всего сюжета, а следующие 5 — с уровня подсюжета. Поскольку существует 8 степеней свободы для термина ошибки подграфика, эту MSE можно использовать для проверки каждого эффекта, включающего ток.

Пример: экспериментальные единицы обрабатываются индивидуально

Рассмотрите возможность проведения эксперимента по третьему сценарию, указанному выше. В растворе одновременно находится только одна медная полоска. Однако две полоски, одна при низком токе, а другая при высоком, обрабатываются одна за другой при одинаковых настройках температуры и концентрации. После обработки двух полосок концентрация меняется, а температура устанавливается на другую комбинацию. Две полоски снова обрабатываются одна за другой при этой температуре и концентрации. Этот процесс продолжается до тех пор, пока не будут обработаны все 16 медных полос.

Проведение эксперимента таким образом также приводит к построению разделенного графика, в котором коэффициентами всего графика снова являются концентрация раствора и температура раствора, а коэффициент подграфика является текущим. В этом эксперименте экспериментальная единица одного размера представляет собой отдельную медную полоску. Обработка или фактор, примененный к отдельным полоскам, являются текущими (этот фактор менялся каждый раз для разных полосок в растворе). Другой экспериментальный блок большего размера представляет собой набор из двух медных полосок. Обработками или факторами, которые применялись к паре из двух полосок, являются концентрация раствора и температура раствора (эти факторы были изменены после обработки двух полосок). Экспериментальная единица меньшего размера называется экспериментальной единицей подучастка.

В этом эксперименте имеется 16 экспериментальных единиц подсюжета. Текущий является фактором подграфика в эксперименте. В этом эксперименте восемь полномасштабных экспериментальных единиц. Концентрация раствора и температура раствора являются важными факторами графика. В модели есть два члена ошибки: один соответствует ошибке всего графика или экспериментальной единице всего графика, а другой соответствует ошибке подграфика или экспериментальной единице подграфика.

ANOVA для этого (третьего) подхода частично выглядит следующим образом:

Частичная таблица ANOVA
Источник	ДФ
Концентрация	1
Температура	1
Конц*Темп.	1
Ошибка (весь сюжет)	4
Текущий	1
Конц × Ток	1
Температура × Ток	1
Конц × Температура × Ток	1
Ошибка (подсюжет)	4

Первые четыре термина берутся из анализа всего графика, а следующие 5 терминов — из анализа подграфика. Обратите внимание, что у нас есть отдельные члены ошибок как для всего графика, так и для эффектов подграфика, каждый из которых основан на 4 степенях свободы.

Как видно из этих трех сценариев, одним из основных отличий планов с разделенными графиками от простых факторных планов является количество экспериментальных единиц разного размера в эксперименте. Планы с разделенными графиками имеют более одного размера экспериментальной единицы, т. е. более одного члена ошибки. Поскольку эти планы включают разные размеры экспериментальных единиц и разные дисперсии, стандартные ошибки различных сравнений средних включают одну или несколько дисперсий. Выбор подходящей модели для схемы разделенного участка предполагает возможность определить каждый размер экспериментальной единицы. Способ определения экспериментальной единицы относительно структуры плана (например, полностью рандомизированный план по сравнению с рандомизированным полным блочным планом ) и структуры лечения (например, полный 2-разрядный план). ³ факториал, половинная дробь разрешения V, двусторонняя структура лечения с контрольной группой и т. д.). В результате наличия экспериментальной установки более одного размера подходящей моделью, используемой для анализа планов разделения участков, является смешанная модель .

Если данные эксперимента анализируются только с одним ошибочным термином, используемым в модели, из результатов можно сделать вводящие в заблуждение и недействительные выводы.

Ленточные планы

Подобно плану с разделенной диаграммой, план с полосовой диаграммой может возникнуть, если во время эксперимента произошла некоторая ограниченная рандомизация. Простой факторный план может привести к построению полосовой диаграммы в зависимости от того, как проводился эксперимент. Схемы полосовых диаграмм часто являются результатом экспериментов, которые проводятся в течение двух или более этапов процесса, в которых каждый этап процесса является периодическим процессом, т. е. для завершения каждой комбинации обработок в эксперименте требуется более одного этапа обработки, при этом экспериментальные единицы обрабатываются вместе в каждом процессе. шаг. Как и в случае с разделенным графиком, дизайн с полосовым графиком приводит к тому, что рандомизация в эксперименте каким-либо образом ограничена. В результате ограниченной рандомизации, которая имеет место в схемах полосовых диаграмм, существует несколько размеров экспериментальных единиц. Таким образом, существуют разные члены ошибок или разные отклонения ошибок, которые используются для проверки факторов, представляющих интерес в проекте. Традиционный план полосовой диаграммы предполагает три размера экспериментальных единиц.

Пример полосового графика: два шага и три факторные переменные

Рассмотрим следующий пример из полупроводниковой промышленности. Эксперимент требует этапа имплантации и этапа отжига. Как на этапе отжига, так и на этапе имплантации необходимо проверить три фактора. Процесс имплантации предполагает установку 12 пластин в партии, и имплантация одной пластины при заданном наборе условий нецелесообразна и не представляет собой экономичное использование имплантатора. Печь отжига вмещает до 100 пластин.

Настройки двухуровневого факторного плана для трех факторов на этапе имплантации обозначены (A, B, C), а двухуровневого факторного плана для трех факторов на этапе отжига обозначены (D, E, F). ). Также присутствуют эффекты взаимодействия между факторами имплантата и факторами отжига. Таким образом, этот эксперимент содержит экспериментальные единицы трех размеров, каждая из которых имеет уникальный член ошибки для оценки значимости эффектов.

Чтобы придать реальный физический смысл каждой из экспериментальных единиц в приведенном выше примере, рассмотрим каждую комбинацию этапов имплантации и отжига как отдельную пластину. Сначала партия из восьми пластин проходит этап имплантации. Комбинация лечения 3 с факторами A, B и C является первой процедурой имплантации. Эта обработка имплантатом применяется ко всем восьми пластинам одновременно. После завершения первой обработки имплантатом имплантируется еще один набор из восьми пластин с лечебной комбинацией 5 факторов A, B и C. Это продолжается до тех пор, пока не будет имплантирована последняя партия из восьми пластин с лечебной комбинацией 6 факторов A, B и C. C. После того, как все восемь комбинаций обработки факторов имплантата были проработаны, начинается этап отжига. Первой комбинацией обработки отжигом, которую необходимо провести, является комбинация обработки 5 факторов D, E и F. Эту комбинацию обработки отжигом применяют к набору из восьми пластин, причем каждая из этих восьми пластин происходит из одной из восьми комбинаций обработки имплантатом. После отжига этой первой партии пластин вторая партия отжига применяется ко второй партии из восьми пластин, причем эти восемь пластин получаются из каждой из восьми комбинаций обработки имплантатом. Это продолжается до тех пор, пока последняя партия из восьми пластин не будет имплантирована определенной комбинацией факторов D, E и F.

Проведение эксперимента таким образом приводит к построению полосовой диаграммы с экспериментальными единицами трех размеров. Набор из восьми пластин, имплантированных вместе, представляет собой экспериментальную единицу для факторов имплантации A, B и C и для всех их взаимодействий. Для факторов имплантата имеется восемь экспериментальных единиц. Другой набор из восьми пластин отжигается вместе. Этот другой набор из восьми пластин представляет собой экспериментальную установку второго размера и экспериментальную установку для факторов отжига D, E и F, а также для всех их взаимодействий. Экспериментальная установка третьего размера представляет собой одну пластину. Это экспериментальная установка для всех эффектов взаимодействия между факторами имплантата и факторами отжига.

Фактически, приведенное выше описание схемы полосовой диаграммы представляет собой один блок или одну копию этого эксперимента. Если эксперимент не содержит репликации, а модель имплантата содержит только основные эффекты и двухфакторные взаимодействия, член трехфакторного взаимодействия A*B*C (1 степень свободы) обеспечивает погрешность для оценки эффектов в пределах экспериментальный блок имплантатов. Вызов аналогичной модели для экспериментальной установки отжига дает член трехфакторного взаимодействия D*E*F для члена ошибки (1 степень свободы) для эффектов внутри экспериментальной установки отжига.

См. также

Ссылки

^ Додж, Ю. (2006). Оксфордский словарь статистических терминов . ОУП. ISBN 978-0-19-920613-1 .
^ Гранди, премьер-министр; Хили, MJR «Ограниченная рандомизация и квазилатинские квадраты». Журнал Королевского статистического общества, серия B. 12 : 286–291.
^ Бейли, РА (1987). «Ограниченная рандомизация: практический пример». Журнал Американской статистической ассоциации . 82 (399): 712–719. дои : 10.1080/01621459.1987.10478487 . JSTOR 2288775 .

«Как я могу учесть вложенные вариации (ограниченную рандомизацию)?» . (США) Национальный институт стандартов и технологий: Лаборатория информационных технологий . Проверено 26 марта 2012 г.

Дальнейшее чтение

Более подробное обсуждение этих проектов и соответствующих процедур анализа см.:

Милликен, Джорджия; Джонсон, Делавэр (1984). Анализ беспорядочных данных . Том. 1. Нью-Йорк: Ван Ностранд Рейнхольд.
Миллер, А. (1997). «Конфигурация полосового графика дробных факториалов». Технометрика . 39 (2): 153–161. дои : 10.2307/1270903 . JSTOR 1270903 .

Внешние ссылки

Примеры всех моделей ANOVA и ANCOVA с тремя факторами обработки, включая рандомизированный блок, разделенный график, повторные измерения и латинские квадраты, а также их анализ в R.

Эта статья включает общедоступные материалы Национального института стандартов и технологий.

[1] Додж, Ю. (2006). Оксфордский словарь статистических терминов . ОУП. ISBN 978-0-19-920613-1 .

[2] Гранди, премьер-министр; Хили, MJR «Ограниченная рандомизация и квазилатинские квадраты». Журнал Королевского статистического общества, серия B. 12 : 286–291.

[ref1-3] Бейли, РА (1987). «Ограниченная рандомизация: практический пример». Журнал Американской статистической ассоциации . 82 (399): 712–719. дои : 10.1080/01621459.1987.10478487 . JSTOR 2288775 .

[1]

[2]

[3]

v т и Планирование экспериментов
Научный метод	Научный эксперимент Статистический дизайн Контроль Внутренняя и внешняя валидность Экспериментальная установка Ослепление Оптимальный дизайн : байесовский Случайное задание Рандомизация Ограниченная рандомизация Репликация против субдискретизации Размер выборки
Уход и блокировка	Уход Размер эффекта Контраст Взаимодействие Сбивающий с толку Ортогональность Блокировка Ковариата Неприятная переменная
Модели и вывод	Линейная регрессия Обычные наименьшие квадраты Байесовский Случайный эффект Смешанная модель Иерархическая модель: Байесианская Дисперсионный анализ (Anova) Теорема Кокрена Манова ( многовариантная ) Анкова ( ковариация ) Сравнить средства Множественное сравнение
Дизайны Полностью рандомизированный	Факториал Дробный факториал Плакетт-Берман Тагучи Методология поверхности реагирования Полиномиальное и рациональное моделирование Бокс – Бенкен Центральный композит Блокировать Обобщенный рандомизированный блочный дизайн (GRBD) Латинская площадь Греко-латинская площадь Ортогональный массив Латинский гиперкуб Проектирование повторяющихся мер Перекрестное исследование Рандомизированное контролируемое исследование Последовательный анализ Последовательный тест отношения вероятностей
Глоссарий Категория Математический портал Статистическая схема Статистические темы