Jump to content

Тест на перестановку

Тест на перестановку (также называемый тестом повторной рандомизации или тестом перестановки) — это точный статистический тест гипотез, в котором используется доказательство от противного .Тест на перестановку включает в себя две или более выборки. Нулевая гипотеза состоит в том, что все выборки происходят из одного и того же распределения. . В соответствии с нулевой гипотезой распределение тестовой статистики получается путем расчета всех возможных значений тестовой статистики при возможных перестановках наблюдаемых данных. Таким образом, тесты на перестановку являются формой повторной выборки .

Тесты на перестановки можно понимать как тестирование суррогатных данных , при котором суррогатные данные в соответствии с нулевой гипотезой получаются путем перестановок исходных данных. [1]

Другими словами, метод, с помощью которого лечение распределяется между субъектами в экспериментальном плане, отражается в анализе этого плана. Если метки взаимозаменяемы при нулевой гипотезе, то полученные тесты дают точные уровни значимости; см. также возможность замены . Затем на основе тестов можно получить доверительные интервалы. Эта теория возникла на основе работ Рональда Фишера и Э. Дж. Питмана 1930-х годов.

Перестановочные тесты не следует путать со рандомизированными тестами . [2]

Метод [ править ]

Анимация теста перестановки, вычисляемого на наборах из 4 и 5 случайных значений. 4 значения красного цвета взяты из одного распределения, а 5 значений синего цвета — из другого; мы хотели бы проверить, различны ли средние значения двух распределений. Гипотеза состоит в том, что среднее значение первого распределения выше среднего значения второго; нулевая гипотеза состоит в том, что обе группы выборок взяты из одного и того же распределения. Существует 126 различных способов поместить 4 значения в одну группу и 5 в другую (9-выберите-4 или 9-выберите-5). Из них один соответствует исходной маркировке, а остальные 125 представляют собой «перестановки», которые генерируют гистограмму средних разностей. показано. Значение p гипотезы оценивается как доля перестановок, которые дают разницу, большую или большую, чем разница средних значений исходных выборок. В этом примере нулевую гипотезу нельзя отвергнуть на уровне p = 5% .

Чтобы проиллюстрировать основную идею теста перестановки, предположим, что мы собираем случайные величины и для каждой особи из двух групп и чьи выборочные средние значения и , и что мы хотим знать, и происходят из того же дистрибутива. Позволять и быть размером выборки, собранной из каждой группы. Тест на перестановку предназначен для определения того, достаточно ли велика наблюдаемая разница между выборочными средними, чтобы на некотором уровне значимости отвергнуть нулевую гипотезу H. что данные, взятые из взяты из того же распределения, что и данные, полученные из .

Тест проходит следующим образом. Сначала рассчитывается разница средних между двумя выборками: это наблюдаемое значение тестовой статистики, .

Далее наблюдения групп и объединяются, а разница в выборочных средних рассчитывается и регистрируется для каждого возможного способа разделения объединенных значений на две группы по размеру. и (т.е. для каждой перестановки групповых меток A и B). Набор этих рассчитанных различий представляет собой точное распределение возможных различий (для этой выборки) при нулевой гипотезе о том, что групповые метки взаимозаменяемы (т. е. назначаются случайным образом).

Одностороннее значение p теста рассчитывается как доля выборочных перестановок, в которых разница в средних значениях превышала . Двустороннее значение p теста рассчитывается как доля выборочных перестановок, в которых абсолютная разница была больше, чем .Многие реализации тестов перестановок требуют, чтобы сами наблюдаемые данные учитывались как одна из перестановок, чтобы p-значение перестановки никогда не было равно нулю. [3]

В качестве альтернативы, если единственная цель теста — отвергнуть или не отвергнуть нулевую гипотезу, можно отсортировать записанные различия, а затем наблюдать, если содержится в середине % из них, для некоторого уровня значимости . Если это не так, мы отвергаем гипотезу об идентичных кривых вероятности на уровень значимости.

Для парных выборок необходимо применить тест парной перестановки.

с параметрическими Связь тестами

Тесты на перестановку — это подмножество непараметрической статистики . Предполагая, что наши экспериментальные данные получены на основе данных, измеренных в двух группах лечения, метод просто генерирует распределение средних различий в предположении, что две группы не различаются с точки зрения измеряемой переменной. Исходя из этого, затем используется наблюдаемая статистика ( выше), чтобы увидеть, в какой степени эта статистика является особенной, т. е. вероятность наблюдения величины такого значения (или большего), если метки лечения были просто рандомизированы после лечения.

В отличие от тестов перестановок, распределения, лежащие в основе многих популярных «классических» статистических тестов, таких как t -test , F -test , z -test и χ 2 тест , получены из теоретических распределений вероятностей . Точный критерий Фишера является примером широко используемого параметрического теста для оценки связи между двумя дихотомическими переменными. Когда размеры выборки очень велики, критерий хи-квадрат Пирсона даст точные результаты. Для небольших выборок нельзя предположить, что эталонное распределение хи-квадрат дает правильное описание распределения вероятностей тестовой статистики, и в этой ситуации использование точного критерия Фишера становится более подходящим.

Тесты на перестановку существуют во многих ситуациях, когда параметрические тесты отсутствуют (например, при построении оптимального теста, когда потери пропорциональны размеру ошибки, а не ее квадрату). Все простые и многие относительно сложные параметрические тесты имеют соответствующую версию теста перестановок, которая определяется с использованием той же статистики теста, что и параметрический тест, но получает значение p из распределения перестановок этой статистики для конкретной выборки, а не из теоретического распределение, полученное на основе параметрического предположения. Например, таким образом можно построить перестановку t -test , перестановку тест ассоциации, перестановочная версия теста Али для сравнения дисперсий и так далее.

Основным недостатком перестановочных тестов является то, что они

  • Может требовать больших вычислительных ресурсов и может потребовать «собственного» кода для трудновычислимой статистики. Это необходимо переписывать для каждого случая.
  • В основном используются для определения значения p. Инверсия теста для получения доверительных областей/интервалов требует еще большего объема вычислений.


Преимущества [ править ]

Критерии перестановки существуют для любой тестовой статистики, независимо от того, известно ли ее распределение. Таким образом, каждый всегда свободен в выборе статистики, которая лучше всего различает гипотезу и альтернативу и которая минимизирует потери.

Тесты перестановки можно использовать для анализа несбалансированных проектов. [4] и для объединения зависимых тестов на смеси категориальных, порядковых и метрических данных (Песарин, 2001). [ нужна ссылка ] . Их также можно использовать для анализа качественных данных, которые были обработаны количественно (т. е. преобразованы в числа). Тесты перестановок могут быть идеальными для анализа квантованных данных, которые не удовлетворяют статистическим предположениям, лежащим в основе традиционных параметрических тестов (например, t-тестов, ANOVA). [5] см . ПЕРМАНОВА .

До 1980-х годов бремя создания эталонного распределения было непосильным, за исключением наборов данных с небольшим размером выборки.

С 1980-х годов появление относительно недорогих быстрых компьютеров и разработка новых сложных алгоритмов определения путей, применимых в особых ситуациях, сделали применение методов перестановочного тестирования практичным для решения широкого круга задач. Он также инициировал добавление опций точного теста в основные пакеты статистического программного обеспечения и появление специализированного программного обеспечения для выполнения широкого спектра точных тестов с одной и несколькими переменными и расчета «точных» доверительных интервалов на основе тестов.

Ограничения [ править ]

Важным предположением, лежащим в основе теста перестановки, является то, что наблюдения можно обменивать при нулевой гипотезе. Важным следствием этого предположения является то, что тесты на разницу в местоположении (например, t-критерий перестановки) требуют равной дисперсии при условии нормальности. В этом отношении классический перестановочный t-критерий имеет ту же слабость, что и классический t-критерий Стьюдента ( проблема Беренса-Фишера ). Эту проблему можно решить так же, как классический t-критерий был расширен для обработки неравных дисперсий: используя статистику Уэлча с поправкой Саттертуэйта на степени свободы. [6] Третьей альтернативой в этой ситуации является использование теста на основе начальной загрузки . Статистик Филип Гуд объясняет разницу между тестами перестановок и бутстрап-тестами следующим образом: «Перестановки проверяют гипотезы, касающиеся распределений; бутстрапы проверяют гипотезы, касающиеся параметров. В результате бутстрап влечет за собой менее строгие предположения». [7] Бутстрап-тесты не являются точными. В некоторых случаях тест на перестановку, основанный на правильно стьюдентизированной статистике, может быть асимптотически точным, даже если предположение об обменности нарушается. [8] Тесты на основе Bootstrap могут проверять нулевую гипотезу. и, следовательно, подходят для проведения проверки эквивалентности .

Тестирование Монте-Карло [ править ]

Асимптотически эквивалентный тест на перестановку может быть создан, когда существует слишком много возможных упорядочений данных, чтобы обеспечить полный перебор удобным способом. Это делается путем создания эталонного распределения методом выборки Монте-Карло , при котором берется небольшая (по отношению к общему числу перестановок) случайная выборка из возможных повторов.Осознание того, что это можно применить к любому перестановочному тесту в любом наборе данных, стало важным прорывом в области прикладной статистики. Самые ранние известные ссылки на этот подход — Иден и Йейтс (1933) и Двасс (1957). [9] [10] Этот тип теста на перестановку известен под разными названиями: тест на приблизительную перестановку , тест на перестановку Монте-Карло или тест на случайную перестановку . [11]

После случайных перестановок, можно получить доверительный интервал для значения p на основе биномиального распределения, см. Доверительный интервал биномиальной пропорции . Например, если после случайных перестановок, значение p оценивается как , то 99% доверительный интервал для истинного (тот, который получится в результате перебора всех возможных перестановок) равен .

С другой стороны, цель оценки p-значения чаще всего состоит в том, чтобы решить, является ли , где порог, при котором нулевая гипотеза будет отклонена (обычно ). В приведенном выше примере доверительный интервал говорит нам только о том, что существует примерно 50% вероятность того, что значение p меньше 0,05, т.е. совершенно неясно, следует ли отклонять нулевую гипотезу на уровне .

Если только важно знать, для данного , логично продолжать моделирование до тех пор, пока не будет выполнено утверждение можно установить, является ли оно истинным или ложным с очень низкой вероятностью ошибки. Учитывая границу о допустимой вероятности ошибки (вероятности обнаружить, что когда на самом деле или наоборот), вопрос о том, сколько перестановок сгенерировать, можно рассматривать как вопрос о том, когда прекратить генерировать перестановки, основываясь на результатах моделирования, чтобы гарантировать, что вывод (который либо является или ) верно с вероятностью не менее . ( обычно выбирается чрезвычайно малым, например, 1/1000.) Для достижения этой цели были разработаны правила остановки. [12] который может быть реализован с минимальными дополнительными вычислительными затратами. Фактически, в зависимости от истинного базового значения p часто оказывается, что количество требуемых симуляций чрезвычайно мало (например, всего 5, а часто и не превышает 100), прежде чем решение может быть принято с виртуальной уверенностью.

Примеры тестов [ править ]

См. также [ править ]

Литература [ править ]

Оригинальные ссылки:

  • Фишер, Р.А. (1935) План экспериментов , Нью-Йорк: Хафнер
  • Питман, EJG (1937) «Критерии значимости, которые можно применять к выборкам из любой популяции», Приложение Королевского статистического общества , 4: 119–130 и 225–32 (части I и II). JSTOR   2984124 JSTOR   2983647
  • Питман, EJG (1938). «Критерии значимости, которые можно применять к выборкам из любой совокупности. Часть III. Критерий дисперсионного анализа». Биометрика . 29 (3–4): 322–335. дои : 10.1093/biomet/29.3-4.322 .

Современные ссылки:

Вычислительные методы:

тестов перестановки Текущие исследования

Ссылки [ править ]

  1. ^ Мур, Джейсон Х. «Начальная настройка, тестирование перестановок и метод суррогатных данных». Физика в медицине и биологии 44.6 (1999): L11.
  2. ^ Онгена, Патрик (30 октября 2017 г.), Бергер, Вэнс В. (ред.), «Тесты рандомизации или тесты перестановки? Историческое и терминологическое уточнение» , Рандомизация, маскирование и сокрытие распределения (1-е изд.), Бока-Ратон , Флорида: Чепмен и Холл/CRC, стр. 209–228, doi : 10.1201/9781315305110-14 , ISBN.  978-1-315-30511-0 , получено 8 октября 2021 г.
  3. ^ Фипсон, Белинда; Смит, Гордон К. (2010). «P-значения перестановок никогда не должны быть равны нулю: вычисление точных p-значений, когда перестановки выбираются случайным образом». Статистические приложения в генетике и молекулярной биологии . 9 (1): Статья 39. arXiv : 1603.05766 . дои : 10.2202/1544-6115.1585 . ПМИД   21044043 . S2CID   10735784 .
  4. ^ «Приглашенные статьи» (PDF) . Журнал современных прикладных статистических методов . 1 (2): 202–522. Осень 2011 г. Архивировано из оригинала (PDF) 5 мая 2003 г.
  5. ^ Коллингридж, Дэйв С. (11 сентября 2012 г.). «Букварь по квантовому анализу данных и тестированию перестановок». Журнал исследований смешанных методов . 7 (1): 81–97. дои : 10.1177/1558689812454457 . S2CID   124618343 .
  6. ^ Янссен, Арнольд (1997). «Студентизированные тесты перестановок для гипотез, не связанных с Iid, и обобщенная проблема Беренса-Фишера». Статистика и вероятностные буквы . 36 (1): 9–21. дои : 10.1016/s0167-7152(97)00043-6 .
  7. ^ Хорошо, Филипп И. (2005). Методы повторной выборки: Практическое руководство по анализу данных (3-е изд.). Биркхойзер. ISBN  978-0817643867 .
  8. ^ Чунг, EY; Романо, JP (2013). «Точные и асимптотически устойчивые тесты перестановок» . Анналы статистики . 41 (2): 487–507. arXiv : 1304.5939 . дои : 10.1214/13-AOS1090 .
  9. ^ Иден, Т; Йейтс, Ф. (1933). «О достоверности z-критерия Фишера применительно к реальному примеру ненормальных данных. (С пятью текстовыми цифрами.)» . Журнал сельскохозяйственной науки . 23 (1): 6–17. дои : 10.1017/S0021859600052862 . S2CID   84802682 . Проверено 3 июня 2021 г.
  10. ^ Двасс, Мейер (1957). «Модифицированные тесты рандомизации для непараметрических гипотез» . Анналы математической статистики . 28 (1): 181–187. дои : 10.1214/aoms/1177707045 . JSTOR   2237031 .
  11. ^ Томас Э. Николс , Эндрю П. Холмс (2001). «Непараметрические перестановочные тесты для функциональной нейровизуализации: учебник с примерами» (PDF) . Картирование человеческого мозга . 15 (1): 1–25. дои : 10.1002/hbm.1058 . hdl : 2027.42/35194 . ПМЦ   6871862 . ПМИД   11747097 .
  12. ^ Ганди, Аксель (2009). «Последовательная реализация тестов Монте-Карло с равномерно ограниченным риском повторной выборки». Журнал Американской статистической ассоциации . 104 (488): 1504–1511. arXiv : math/0612488 . дои : 10.1198/jasa.2009.tm08368 . S2CID   15935787 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: ada7c3cb3d93c646312251f906c1852e__1717695720
URL1:https://arc.ask3.ru/arc/aa/ad/2e/ada7c3cb3d93c646312251f906c1852e.html
Заголовок, (Title) документа по адресу, URL1:
Permutation test - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)