Анализ Йейтса

В статистике — анализ Йейтса это подход к анализу данных, полученных в результате спланированного эксперимента , в котором факторный план использовался . Полные и дробно-факторные планы часто используются в экспериментах, предназначенных для инженерных и научных приложений. В этих схемах каждому фактору присваивается два уровня, обычно называемые низким и высоким уровнями и обозначаемые «-» и «+». Для вычислительных целей коэффициенты масштабируются таким образом, что низкому уровню присваивается значение -1, а высокому уровню присваивается значение +1.

Полный факторный план содержит все возможные комбинации низких/высоких уровней для всех факторов. Дробный факторный план содержит тщательно выбранное подмножество этих комбинаций. Критерий выбора подмножеств подробно обсуждается в статье о дробных факторных планах .

Формализованный Фрэнком Йейтсом , анализ Йейтса использует особую структуру этих планов для получения оценок наименьших квадратов для факторных эффектов для всех факторов и всех соответствующих взаимодействий. Анализ Йейтса можно использовать для ответа на следующие вопросы:

Каков ранжированный список факторов?
Какова степень согласия (измеряемая остаточным стандартным отклонением) для различных моделей?

Математические детали анализа Йейтса приведены в главе 10 книги Бокса, Хантера и Хантера (1978).

Анализ Йейтса обычно дополняется рядом графических методов, таких как график средних значений DOE и контурный график DOE («DOE» означает «планирование экспериментов»).

Орден Йейтса

Перед выполнением анализа Йейтса данные следует расположить в «порядке Йейтса». То есть, учитывая k факторов, k ^й столбец состоит из 2 ^{( к - 1)} знак минус (т.е. низкий уровень фактора), за которым следуют 2 ^{( к - 1)} знаки плюс (т.е. высокий уровень фактора). Например, для полного факторного плана с тремя факторами матрица плана имеет вид

---

+--

-+-

++-

--+

+-+

-++

+++

Чтобы лучше понять и использовать приведенную выше таблицу знаков, один из методов детализации факторов и комбинаций методов лечения называется современной нотацией. Обозначение представляет собой сокращение, которое возникает в результате взятия индексов каждой комбинации лечения, преобразования их в показатели степени, а затем оценки результирующего выражения и использования его в качестве нового имени комбинации лечения. Обратите внимание: хотя имена очень похожи на алгебраические выражения, это просто имена, и никаких новых значений не присваивается. Если взять трехфакторную двухуровневую модель сверху, в порядке Йейтса переменные ответа будут следующими:

$a_{0}b_{0}c_{0},a_{1}b_{0}c_{0},a_{0}b_{1}c_{0},a_{1}b_{1}c_{0},a_{0}b_{0}c_{1},a_{1}b_{0}c_{1},a_{0}b_{1}c_{1},a_{1}b_{1}c_{1}$

что в современных обозначениях становится:

$1,a,b,ab,c,ac,bc,abc$

в котором очевидно, что показатели степени в современных именах обозначений являются просто индексами первых (обратите внимание, что все, что возведено в нулевую степень, равно 1, а все, что возведено в первую степень, является самим собой). Затем каждая переменная ответа присваивается по строкам приведенной выше таблице. Таким образом, первая строка предназначена для $1$ , вторая строка предназначена для $a$ , и так далее. Знаки в каждом столбце представляют собой знаки, которые должна принимать каждая переменная отклика при расчете оценок эффекта для этого фактора.

Определение порядка Йейтса для дробного факторного плана требует знания мешающей структуры дробного факторного плана.

Выход

Анализ Йейтса дает следующий результат.

Идентификатор фактора (из заказа Йейтса). Конкретный идентификатор будет варьироваться в зависимости от программы, используемой для создания анализа Йейтса. Например, Dataplot использует следующее для трехфакторной модели.

1 = коэффициент 1

2 = коэффициент 2

3 = коэффициент 3

12 = взаимодействие фактора 1 и фактора 2

13 = взаимодействие фактора 1 и фактора 3

23 = взаимодействие фактора 2 и фактора 3

123 = взаимодействие факторов 1, 2 и 3

Ранжированный список важных факторов. То есть влияние факторов оценивалось методом наименьших квадратов в порядке от наибольшего по величине (наиболее значимого) до наименьшего по величине (наименее значимого).

Чтобы определить величины, переменные отклика сначала располагаются в порядке Йейтса, как описано в вышеупомянутом разделе выше. Затем члены попарно добавляются и вычитаются, чтобы определить следующий столбец. Точнее, учитывая значения переменных ответа (поскольку они должны были быть получены непосредственно из эксперимента) в порядке Йейтса, первые два члена складываются, и эта сумма теперь является первым членом в новом столбце. Затем добавляются следующие два термина, и это второй термин в новом столбце. Поскольку термины добавляются попарно, половина нового столбца теперь заполнена и должна полностью состоять из попарных сумм данных. Вторая половина столбца находится аналогично, только берутся попарные разности, где первое слагаемое вычитается из второго, третье из четвертого и так далее. Так завершается колонка. Если потребуются дополнительные столбцы, тот же процесс повторяется, только с использованием нового столбца. Другими словами, n-й столбец генерируется из (n-1)-го столбца (Бергер и др. называют этот процесс «Йейтсинг данных»). В $2^{k}$ При проектировании потребуются k столбцов, а последний столбец — это столбец, используемый для расчета оценок эффекта.

для Значение t оценок влияния отдельных факторов. Значение t вычисляется как

t={\frac {e}{s_{e}}}

где e — предполагаемый факторный эффект, а s _e — стандартное отклонение оцененного факторного эффекта.

Остаточное стандартное отклонение, возникающее в результате модели только с одним членом. То есть остаточное стандартное отклонение от модели

{\textrm {response}}={\textrm {constant}}+0.5X_{i}

где X _i — оценка i ^й фактор или эффект взаимодействия.

Совокупное остаточное стандартное отклонение, полученное в результате модели, использующей текущий термин плюс все условия, предшествующие этому термину. То есть,

{\textrm {response}}={\textrm {constant}}+0.5\mathrm {(all\ effect\ estimates\ down\ to\ and\ including\ the\ effect\ of\ interest)}

Он состоит из монотонно уменьшающегося набора остаточных стандартных отклонений (что указывает на лучшее соответствие по мере увеличения количества членов в модели). Первое кумулятивное остаточное стандартное отклонение относится к модели

{\textrm {response}}={\textrm {constant}}

где константа представляет собой общее среднее значение переменной отклика. Последнее накопленное остаточное стандартное отклонение относится к модели.

{\textrm {response}}={\textrm {constant}}+0.5\mathrm {(all\ factor\ and\ interaction\ estimates)}

Эта последняя модель будет иметь остаточное стандартное отклонение, равное нулю.

Пример

(Адаптировано из Бергера и др., глава 9) Допустим, было проведено исследование, в котором кто-то продает какой-то товар по почте и пытается определить влияние трех факторов (почтовые расходы, цена продукта, размер конверта) на скорость отклика людей (что то есть, будут ли они покупать товар). Каждый фактор имеет два уровня: для почтовых расходов (обозначается A) они являются третьим классом (низким) и первым классом (высоким), для цены продукта (обозначается B) низкий уровень составляет 9,95 доллара США, а верхний уровень - 12,95 доллара США, и для размер конверта (обозначен C), нижний уровень — № 10, верхний уровень — 9x12. В результате эксперимента получены следующие данные. Обратите внимание, что доля ответивших выражена как доля людей, ответивших на опрос (положительно и отрицательно) для каждой комбинации лечения.

Частота ответа на комбинацию лечения
Комбинация лечения	Скорость ответа
1	0.062
а	0.074
б	0.010
аб	0.020
с	0.057
и	0.082
до нашей эры	0.024
абв	0.027

Выделив на данный момент фактор A (почтовые расходы) для расчета, общая оценка для A должна также учитывать влияние на него взаимодействия B и C. Четыре условия для расчета:

a –1, оценка A при низких значениях B и C
ab – b, оценка A с высоким B и низким C
ac – c, оценка A с низким B и высоким C
abc – bc, оценка A при высоких значениях B и C

Общая оценка представляет собой сумму этих четырех слагаемых, разделенную на четыре. Другими словами, оценка A равна

$E_{a}=(a+ab+ac+abc-1-b-c-bc)/4$

где сумма была переставлена так, чтобы все положительные члены были сгруппированы вместе, а отрицательные - вместе для удобства просмотра. В порядке Йейтса сумма записывается как

$E_{a}=(-1+a-b+ab-c+ac-bc+abc)/4$

Оценки для B и C можно определить аналогичным образом. Расчет эффектов взаимодействия также аналогичен, но отклики усредняются по всем остальным неучтенным эффектам.

Таблица знаков для расчета оценок эффекта для трехуровневого двухфакторного факторного плана. Адаптировано из Berger et al., гл. 9

Полная таблица признаков трехфакторного двухуровневого плана приведена справа. И факторы (столбцы), и комбинации лечения (строки) записаны в порядке Йейтса. Ценность расположения суммы в порядке Йейтса теперь очевидна, поскольку для получения оценок эффекта для каждой комбинации лечения необходимо изменить только знаки в соответствии с таблицей. Обратите внимание, что столбцы A, B и C такие же, как и в матрице дизайна в приведенном выше разделе заказов Йейтса. Заметьте также, что столбцы эффектов взаимодействия можно получить, взяв скалярное произведение столбцов отдельных факторов (т. е. умножив столбцы поэлементно, чтобы получить еще один столбец той же длины). Обратите внимание, что все суммы необходимо разделить на 4, чтобы получить фактическую оценку эффекта, как показано ранее. Используя эту таблицу, оценки эффекта рассчитываются как:

Оценка эффекта для комбинации лечения
Комбинация лечения	Оценка эффекта
А	0.0125
Б	–0.0485
АБ	–0.0060
С	0.0060
переменного тока	0.0015
до нашей эры	0.0045
АВС	–0.0050

Положительное значение означает, что увеличение фактора приводит к увеличению скорости ответа, а отрицательное значение означает, что то же самое увеличение фактора фактически приводит к снижению скорости ответа. Однако обратите внимание, что эти эффекты еще не были признаны статистически значимыми, а лишь то, что они влияют на скорость ответа для каждого фактора. Статистическая значимость должна быть установлена с помощью других методов, таких как дисперсионный анализ (ANOVA) .

Дополнительную информацию можно найти в Berger et al., глава 9.

Оценки параметров по мере добавления условий

В большинстве случаев аппроксимации методом наименьших квадратов коэффициенты модели для ранее добавленных членов изменяются в зависимости от того, что было добавлено последовательно. Например, коэффициент X ₁ может меняться в зависимости от того, X ₂ включен ли в модель термин . Это не тот случай, когда конструкция ортогональна, как в случае 2 ³ полный факторный дизайн. Для ортогональных планов оценки ранее включенных членов не меняются при добавлении дополнительных членов. Это означает, что ранжированный список оценок эффектов одновременно служит оценками коэффициентов наименьших квадратов для все более усложняющихся моделей.

Выбор и проверка модели

Из приведенных выше результатов Йейтса можно определить потенциальные модели анализа Йейтса. Важным компонентом анализа Йейтса является выбор лучшей модели из доступных потенциальных моделей. На приведенном выше шаге перечислены все потенциальные модели. Из этого списка мы хотим выбрать наиболее подходящую модель. Для этого необходимо сбалансировать следующие две цели.

Мы хотим, чтобы модель включала все важные факторы.
Мы хотим, чтобы модель была экономной. То есть модель должна быть максимально простой.

Короче говоря, мы хотим, чтобы наша модель включала все важные факторы и взаимодействия и опускала неважные факторы и взаимодействия. Обратите внимание, что одного только остаточного стандартного отклонения недостаточно для определения наиболее подходящей модели, поскольку оно всегда будет уменьшено за счет добавления дополнительных факторов. Вместо этого для определения важных факторов используются семь критериев. Эти семь критериев не все одинаково важны, и они не будут давать идентичные подмножества, и в этом случае необходимо извлечь согласованное подмножество или взвешенное согласованное подмножество. На практике некоторые из этих критериев могут применяться не во всех ситуациях, а у некоторых аналитиков могут быть дополнительные критерии. Эти критерии даны в качестве полезных рекомендаций. Аналитики Mosts сосредоточат внимание на тех критериях, которые они считают наиболее полезными.

Практическая значимость эффектов
Порядок величины эффектов
Статистическая значимость эффектов
Вероятностные графики эффектов
График Юдена средних значений
Практическая значимость остаточного стандартного отклонения
Статистическая значимость остаточного стандартного отклонения

Первые четыре критерия ориентированы на величину эффекта с тремя числовыми критериями и одним графическим критерием. Пятый критерий ориентирован на средние значения. Последние два критерия ориентированы на остаточное стандартное отклонение модели. После выбора предварительной модели величина ошибки должна соответствовать предположениям для одномерного процесса измерения. То есть модель должна быть проверена путем анализа остатков.

Графическое представление

Некоторые аналитики могут предпочесть более графическое представление результатов Йейтса. В частности, могут быть полезны следующие графики:

упорядоченных данных График
График упорядоченных абсолютных эффектов
График совокупного остаточного стандартного отклонения

Связанные методы

Ссылки

Коробка, ГЭП; Хантер, В.Г.; Хантер, Дж. С. (1978). Статистика для экспериментаторов: введение в проектирование, анализ данных и построение моделей . Джон Уайли и сыновья. ISBN 0-471-09315-7 .
Кнут, Дональд Эрвин (1997), Получисловые алгоритмы , Искусство компьютерного программирования, том. 2 (3-е изд.), Аддисон-Уэсли . Здесь: секта. 4.3.4.
Койвисто, Микко (январь 2004 г.), Алгоритмы суммы произведений для анализа генетических рисков (докторская диссертация), Серия кафедры CS. Паб. А, том. A-2004-1, Хельсинкский университет, ISBN 952-10-1578-0 . Здесь: с. 45, 96–103.
Йейтс, Ф. (1937), Планирование и анализ факторных экспериментов (Технические коммуникации), том. 35, Харпенден, Англия: Бюро почв Содружества . Здесь: с. 66-67.
Бергер, Пол Д.; Маурер, Роберт Э.; Челли, Джована Б. (30 ноября 2017 г.). «9». Введение в экспериментальный дизайн . СпрингерЛинк. стр. 295–342. дои : 10.1007/978-3-319-64583-4_1 . ISBN 978-3-319-64583-4 .

Эта статья включает общедоступные материалы Национального института стандартов и технологий.

Внешние ссылки

Йейтс-анализ