Jump to content

Новый многодиапазонный тест Дункана

В статистике , новый тест множественного диапазона Дункана ( MRT ) представляет собой процедуру множественного сравнения разработанную Дэвидом Б. Дунканом в 1955 году. MRT Дункана принадлежит к общему классу процедур множественного сравнения, которые используют диапазона стьюдентизированную статистику q r для сравнения наборов средних значений.

Дэвид Б. Дункан разработал этот тест как модификацию метода Стьюдента-Ньюмана-Кейлса , которая будет иметь большую эффективность. МРТ Дункана особенно защищает от ложноотрицательных ошибок (типа II) за счет повышенного риска ложноположительных ошибок (типа I) . Тест Дункана обычно используется в агрономии и других сельскохозяйственных исследованиях.

Результатом теста является набор подмножеств средних, в каждом из которых обнаружено, что средние значения существенно не отличаются друг от друга.

За этим тестом часто следует методология Compact Letter Display (CLD) , которая делает результаты такого теста гораздо более доступными для аудитории, не связанной со статистикой.

Определение

[ редактировать ]

Предположения:
1. Выборка наблюдаемых средних , которые были получены независимо от n нормальных популяций с использованием «истинных» средних значений, соответственно.
2. Распространенная стандартная ошибка . Эта стандартная ошибка неизвестна, но доступна обычная оценка , который не зависит от наблюдаемых средств и основан на ряде степеней свободы , обозначаемых . (Точнее, , обладает свойством, распространяется как с степени свободы, независимо от выборочных средних).

Точное определение теста:

Разница между любыми двумя средними в наборе из n средних значительна при условии, что диапазон каждого подмножества, содержащего данные средние, значим в соответствии с проверка диапазона уровней, где , и - количество средств в рассматриваемом подмножестве.

Исключение: Единственное исключение из этого правила состоит в том, что никакое различие между двумя средними значениями не может быть объявлено значимым, если оба рассматриваемых средства содержатся в подмножестве средних, имеющем незначительный диапазон.

Процедура

[ редактировать ]

Процедура состоит из серии попарных сравнений средних значений. Каждое сравнение выполняется на уровне значимости. , определяемый количеством средних, разделяющих два сравниваемых средних ( для разделяющие средства). Тесты выполняются последовательно, где результат теста определяет, какой тест будет выполняться следующим.

Испытания проводятся в следующем порядке: самый большой минус самый маленький, самый большой минус второй по величине, до самого большого минус второй по величине; затем второй по величине минус самый маленький, второй по величине минус второй по величине и так далее, заканчивая вторым по величине минус самым маленьким.

За одним исключением, указанным ниже, каждое различие является значимым, если оно превышает соответствующий кратчайший значимый диапазон; в противном случае это не имеет существенного значения. Где самый короткий значимый диапазон — это значимый стьюдентизированный диапазон , умноженный на стандартную ошибку. Самый короткий значимый диапазон будет обозначаться как , где это число означает в подмножестве. Единственным исключением из этого правила является то, что никакое различие между двумя средствами не может быть объявлено значимым, если оба рассматриваемых средства содержатся в подмножестве средств, имеющем незначительный диапазон.

Алгоритм проведения теста следующий:

       1.Rank the sample means, largest to smallest.
       2. For each  sample mean, largest to smallest, do the following:
       2.1 for each sample mean, (denoted ), for smallest up to .
       2.1.1 compare  to critical value ,
       2.1.2 if  does not exceed the critical value, the subset  is declared not significantly different:
               2.1.2.1 Go to next iteration of loop 2.
       2.1.3 Otherwise, keep going with loop 2.1

Критические значения

[ редактировать ]

В тесте множественных диапазонов Дункана используется стьюдентизированное распределение диапазонов для определения критических значений для сравнения средних значений. Обратите внимание, что различные сравнения между средними могут различаться по уровням значимости, поскольку уровень значимости зависит от размера рассматриваемого подмножества средних.

Обозначим как квантиль распределения стьюдентизированного диапазона с p-наблюдениями и степени свободы для второго образца (дополнительную информацию см. в стьюдентизированном диапазоне). Обозначим как стандартизированное критическое значение, определяемое правилом:

Если р=2

Еще

Кратчайший критический диапазон (фактическое критическое значение испытания) рассчитывается как: . Для ->∞, существует таблица для точного значения Q (см. ссылку). Здесь необходимо сделать предостережение: обозначения для Q и R не одинаковы во всей литературе, где Q иногда обозначается как кратчайший значимый интервал, а R как значимый квантиль для распределения стьюдентизированного диапазона (в статье Дункана 1955 года оба обозначения используются в разных вариантах). части).

Числовой пример

[ редактировать ]

Рассмотрим на примере 5 средств лечения:

Лечение Т1 Т2 Т3 Т4 Т5
Средства лечения 9.8 15.4 17.6 21.6 10.8
Классифицировать 5 3 2 1 4


Со стандартной ошибкой , и (степени свободы для оценки стандартной ошибки). Используя известную таблицу для Q, можно достичь значений :




Теперь мы можем получить значения кратчайшего значимого диапазона по формуле:

Достижение:




Затем проверяются наблюдаемые различия между средними значениями, начиная с наибольшего и наименьшего, которые сравниваются с наименее значимым диапазоном. Затем вычисляется разница наибольшего и второго наименьшего значений и сравнивается с наименее значимой разницей. .

Если наблюдаемая разница превышает соответствующий кратчайший значимый диапазон, мы приходим к выводу, что рассматриваемая пара средних значений существенно отличается. Если наблюдаемая разница меньше соответствующего кратчайшего значимого диапазона, все различия, имеющие одно и то же верхнее среднее значение, считаются незначительными во избежание противоречий (различия, имеющие одно и то же верхнее среднее значение, короче по своей конструкции).

В нашем случае сравнение даст:












Мы видим, что существуют значительные различия между всеми парами методов лечения, кроме (T3,T2) и (T5,T1). График, подчеркивающий те средние значения, которые существенно не отличаются, показан ниже:
Т1 Т5 Т2 Т3 Т4

Уровни защиты и значимости на основе степеней свободы

[ редактировать ]

Новый многодиапазонный тест, предложенный Дунканом, использует специальные уровни защиты, основанные на степенях свободы . Позволять быть уровнем защиты для проверки значимости разницы между двумя средними значениями; то есть вероятность того, что значительная разница между двумя средними значениями не будет обнаружена, если средние значения совокупности равны. Дункан рассуждает, что у человека есть p-1 степеней свободы для тестирования p-рангового среднего, и, следовательно, можно проводить p-1 независимые тесты, каждый из которых имеет уровень защиты. . Следовательно, общий уровень защиты равен:

где

то есть вероятность того, что не будет обнаружено существенных различий при проведении независимых тестов p-1, каждый на уровне защиты. , является , при условии, что все p средних значений популяции равны. В общем: разница между любыми двумя средними в наборе из n средних значительна при условии, что диапазон каждого подмножества, содержащего данные средние, значим в соответствии с – тест диапазона уровней, где p — количество средних значений в рассматриваемом подмножестве.

Для , уровень защиты можно свести в таблицу для различных значений r следующим образом:

Уровень защиты вероятность ложного отклонения
р=2 0.95 0.05
р=3 0.903 0.097
р=4 0.857 0.143
р=5 0.815 0.185
р=6 0.774 0.226
р=7 0.735 0.265

Обратите внимание, что хотя в этой процедуре используется стьюдентизированный диапазон , его коэффициент ошибок не основан ни на экспериментальной основе (как у Тьюки), ни на основе персравнений. Многодиапазонный тест Дункана не контролирует частоту семейных ошибок . Дополнительную информацию см. в разделе «Критика».

Процедура множественного сравнения Дункана Байеса

[ редактировать ]

Дункан (1965) также предложил первую байесовскую процедуру множественного сравнения для парных сравнений средних в односторонней схеме. Эта процедура множественного сравнения отличается от описанной выше.

Байесовский MCP Дункана обсуждает различия между средними упорядоченной группы, где рассматриваемая статистика представляет собой попарное сравнение (эквивалент не определен для свойства подмножества, имеющего «значительно отличающееся» свойство).

Дункан смоделировал последствия равенства двух или более средних, используя аддитивные функции потерь внутри и между парными сравнениями . Если предположить одну и ту же функцию потерь при парных сравнениях, нужно указать только одну константу K, и это указывает на относительную серьезность ошибок типа I и типа II в каждом парном сравнении.

Исследование, проведенное Джульеттой Поппер Шаффер (1998), показало, что метод, предложенный Дунканом, модифицированный для обеспечения слабого контроля FWE и использующий эмпирическую оценку дисперсии генеральных средних, имеет хорошие свойства как с точки зрения Байеса, так и с точки зрения Байеса. с точки зрения частотности, как метод с минимальным риском и с хорошей средней мощностью.

Кроме того, результаты указывают на значительное сходство как по риску, так и по средней мощности между модифицированной процедурой Дункана и Бенджамини и Хохберга (1995) процедурой контроля частоты ложных открытий с таким же слабым контролем ошибок на уровне семейства.

критиковали тест Дункана как слишком либеральный Многие статистики, включая Генри Шеффе и Джона В. Тьюки , . Дункан утверждал, что более либеральная процедура была бы уместна, потому что в реальной практике глобальная нулевая гипотеза H 0 = «Все средства равны» часто ложна, и поэтому традиционные статистики чрезмерно защищают вероятно ложную нулевую гипотезу от ошибок типа I. По мнению Дункана, необходимо корректировать уровни защиты для различных сравнений p-средних в соответствии с обсуждаемой проблемой. Пример, обсуждаемый Дунканом в его статье 1955 года, представляет собой сравнение многих средних значений (т. е. 100), когда нас интересуют только сравнения двух средних и трех средних, а также общие сравнения p-средних (решение о том, есть ли какая-то разница между p-средства) не представляют особого интереса (например, если p равно 15 или более). Многодиапазонный тест Дункана очень «либерален» с точки зрения ошибок I рода. Следующий пример покажет, почему:

Предположим, что по-настоящему заинтересован, как предположил Дункан, только в правильном ранжировании подмножеств размером 4 или ниже. Предположим также, что выполняется простое попарное сравнение с уровнем защиты . Учитывая общий набор из 100 средних, давайте посмотрим на нулевые гипотезы теста:

Есть нулевые гипотезы для правильного ранжирования каждых двух средних. Уровень значимости каждой гипотезы

Есть нулевые гипотезы для правильного ранжирования каждых трех средних. Уровень значимости каждой гипотезы

Есть нулевые гипотезы для правильного ранжирования каждых 4 средних. Уровень значимости каждой гипотезы

Как мы видим, у теста есть две основные проблемы, касающиеся ошибок I рода:

  1. Тесты Дункана основаны на процедуре Ньюмана-Кейлса , которая не защищает коэффициент семейных ошибок (хотя и защищает альфа-уровень для каждого сравнения).
  2. Тест Дункана намеренно повышает уровни альфа ( коэффициент ошибок типа I ) на каждом этапе процедуры Ньюмана-Кейлса (уровни значимости ).

Поэтому рекомендуется не использовать описанную процедуру.

Позже Дункан разработал тест Дункана-Уоллера, основанный на байесовских принципах. Он использует полученное значение F для оценки априорной вероятности нулевой гипотезы истинности .

Разные подходы к проблеме

[ редактировать ]

Если кто-то все еще желает решить проблему поиска подобных подмножеств групповых средних, в литературе можно найти другие решения.

Тест диапазона Тьюки обычно используется для сравнения пар средних значений. Эта процедура контролирует частоту семейных ошибок в строгом смысле.

Другое решение — выполнить t-критерий Стьюдента для всех пар средних, а затем использовать процедуру FDR Controlling (чтобы контролировать ожидаемую долю неправильно отклоненных нулевых гипотез ).

Другие возможные решения, которые не включают проверку гипотез, но приводят к разделению подмножеств, включают кластеризацию и иерархическую кластеризацию . Эти решения отличаются от подхода, представленного в этом методе:

  • Основываясь на расстоянии/плотности, а не на распределении.
  • Требуется большая группа средств для получения значимых результатов или работа со всем набором данных.
  • Дункан, Д.Б. (1955). «Несколько диапазонов и несколько F-тестов». Биометрия . 11 (1): 1–42. дои : 10.2307/3001478 . JSTOR   3001478 .
  • Шаффер, Джульетта Поппер (1999). «Полубайесовское исследование байесовской процедуры множественного сравнения Дункана». Журнал статистического планирования и выводов . 82 (1–2): 197–213. дои : 10.1016/S0378-3758(99)00042-7 .
  • Берри, Дональд А.; Хохберг, Йосеф (1999). «Байесовский взгляд на множественные сравнения». Журнал статистического планирования и выводов . 82 (1–2): 215–227. дои : 10.1016/S0378-3758(99)00044-0 .
  • Парсад, Раджендер. «Процедуры множественного сравнения» (Документ). IASRI, Библиотечная авеню, Нью-Дели 110012.
Таблицы для использования диапазона и стьюдентизированного диапазона при проверке гипотез
  • Х. Леон Хартер, Шампейн, Иллинойс; Н. Балакришнан, Университет Макмастера, Гамильтон, Онтарио, Канада; Твердый переплет – опубликовано 27 октября 1997 г.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 664282ef94b284a256997d0e5ff28133__1710858180
URL1:https://arc.ask3.ru/arc/aa/66/33/664282ef94b284a256997d0e5ff28133.html
Заголовок, (Title) документа по адресу, URL1:
Duncan's new multiple range test - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)