Тест парной разницы
Тест парных различий , более известный как парное сравнение , представляет собой тип теста местоположения , который используется при сравнении двух наборов парных измерений , чтобы оценить, различаются ли их средние значения совокупности . Тест парных разностей предназначен для ситуаций, когда существует зависимость между парами измерений (в этом случае тест, предназначенный для сравнения двух независимых выборок, не подойдет). Это применимо к дизайну внутрисубъектного исследования, т. е. к исследованию, в котором одна и та же группа субъектов подвергается обоим сравниваемым условиям.
Конкретные методы проведения парных разностных тестов включают t-критерий для парных выборок , парный Z-критерий , знаково-ранговый критерий Уилкоксона. [1] и другие.
Использование для уменьшения дисперсии
[ редактировать ]Парные разностные тесты для уменьшения дисперсии представляют собой особый тип блокировки . Чтобы проиллюстрировать эту идею, предположим, что мы оцениваем эффективность препарата для лечения высокого уровня холестерина. В рамках нашего исследования мы набираем 100 субъектов и измеряем уровень холестерина у каждого субъекта. Затем всех испытуемых лечат препаратом в течение шести месяцев, после чего у них снова измеряют уровень холестерина. Наш интерес заключается в том, оказывает ли препарат какое-либо влияние на средние уровни холестерина, о чем можно судить путем сравнения измерений после лечения с измерениями до лечения.
Ключевой вопрос, который мотивирует использовать парный тест на различия, заключается в том, что, если в исследовании нет очень строгих критериев входа, вполне вероятно, что субъекты будут существенно отличаться друг от друга до начала лечения. Важные исходные различия между субъектами могут быть связаны с их полом, возрастом, статусом курения, уровнем активности и диетой.
Существует два естественных подхода к анализу этих данных:
- При «неспарном анализе» данные обрабатываются так, как если бы в исследование фактически было включено 200 субъектов с последующим случайным распределением 100 субъектов в каждую из экспериментальной и контрольной групп. Группа лечения в непарном дизайне будет рассматриваться как аналогичная измерениям после лечения в парном дизайне, а контрольная группа будет рассматриваться как аналогичная измерениям до лечения. Затем мы могли бы рассчитать выборочные средние значения в группах пациентов, получавших и не получавших лечение, и сравнить эти средние значения друг с другом.
- При «анализе парных различий» мы сначала вычитаем значение до лечения из значения после лечения для каждого субъекта, а затем сравниваем эти различия с нулем.
Если рассматривать только средства, парный и непарный подходы дают одинаковый результат. Чтобы убедиться в этом, пусть Y i 1 , Y i 2 будут наблюдаемыми данными для i й пара, и пусть D i = Y i 2 - Y i 1 . Также пусть , Y 1 и Y 2 обозначают соответственно выборочные средние значения D i D , Y i 1 и Y i 2 . Переставив термины, мы увидим, что
где n — количество пар. Таким образом, средняя разница между группами не зависит от того, организуем ли мы данные в виде пар.
Хотя средняя разница одинакова для парных и непарных статистических данных, их уровни статистической значимости могут сильно различаться, поскольку дисперсию непарной статистики легко переоценить. Дисперсия D равна
где σ 1 и σ 2 — стандартные отклонения совокупности данных Y i 1 и Y i 2 соответственно. Таким образом, дисперсия D существует положительная корреляция будет ниже, если внутри каждой пары . Такая корреляция очень распространена при повторных измерениях, поскольку обработка не влияет на многие факторы, влияющие на сравниваемую величину. Например, если уровни холестерина связаны с возрастом, влияние возраста приведет к положительной корреляции между уровнями холестерина, измеренными у субъектов, при условии, что продолжительность исследования невелика по сравнению с различиями в возрасте в выборке.
Мощность парного Z-теста
[ редактировать ]Предположим, мы используем Z-тест для анализа данных, где дисперсия данных до и после лечения σ 1 2 и σ 2 2 известны (ситуация с t-тестом аналогична). Непарная статистика Z-теста:
Мощность непарного одностороннего теста, проведенного на уровне α = 0,05, можно рассчитать следующим образом:
где S — стандартное отклонение D , Φ — стандартная нормальная кумулятивная функция распределения , а δ = E Y 2 − E Y 1 — истинный эффект лечения. Константа 1,645 — это 95-й процентиль стандартного нормального распределения, определяющий область отклонения теста.
По аналогичному расчету мощность парного Z-теста равна
Сравнивая выражения мощности парного и непарного тестов, можно увидеть, что парный тест имеет большую мощность, пока
Это условие выполняется всякий раз, когда , внутрипарная корреляция положительна.
Модель случайных эффектов для парного тестирования
[ редактировать ]Следующая статистическая модель полезна для понимания теста парных разностей.
где α i — случайный эффект , который распределяется между двумя значениями в паре, а ε ij — случайный шумовой термин, который независим во всех точках данных. Постоянные значения µ 1 , µ 2 являются ожидаемыми значениями двух сравниваемых измерений, и нас интересует δ = µ 2 − µ 1 .
В этой модели α i улавливает «стабильные искажающие факторы», которые оказывают одинаковое влияние на измерения до и после лечения. Когда мы вычитаем, чтобы сформировать D i , α i сокращается, поэтому не вносит вклад в дисперсию. Внутрипарная ковариация равна
Это неотрицательное значение, поэтому оно приводит к лучшей производительности теста парных различий по сравнению с тестом непарных, если только α i не является постоянным по i , и в этом случае парные и непарные тесты эквивалентны.
Говоря менее математическим языком, непарный тест предполагает, что данные в двух сравниваемых группах независимы. Это предположение определяет форму дисперсии D . Однако если для каждого субъекта проводятся два измерения, маловероятно, что эти два измерения будут независимыми. Если два измерения у испытуемого положительно коррелируют, непарный тест завышает дисперсию D , что делает его консервативным тестом в том смысле, что фактическая вероятность ошибки типа I будет ниже номинального уровня с соответствующей потерей статистической мощности. . В редких случаях данные могут иметь отрицательную корреляцию внутри субъектов, и в этом случае непарный тест становится антиконсервативным. Парный тест обычно применяют при повторных измерениях у одних и тех же испытуемых, поскольку он имеет правильный уровень независимо от корреляции измерений внутри пар.
Использование для уменьшения путаницы
[ редактировать ]Другое применение тестирования парных различий возникает при сравнении двух групп в наборе данных наблюдений с целью изолировать эффект одного интересующего фактора от эффектов других факторов, которые могут играть роль. Например, предположим, что учителя применяют один из двух разных подходов, обозначенных «А» и «Б», к преподаванию определенной математической темы. Нас может интересовать, различаются ли результаты учащихся на стандартизированном тесте по математике в зависимости от подхода к обучению. Если учителя могут свободно применять подход А или подход Б, вполне возможно, что учителя, чьи ученики уже хорошо успевают по математике, предпочтут метод А (или наоборот). В этой ситуации простое сравнение средних результатов учащихся, обучающихся по подходам А и Б, скорее всего, покажет разницу, но эта разница частично или полностью обусловлена ранее существовавшими различиями между двумя группами учащихся. В этой ситуации базовые способности учащихся служат смешивающая переменная , поскольку они связаны как с результатом (результатами стандартизированного теста), так и с назначением лечения в соответствии с подходом А или подходом Б.
Можно уменьшить, но не обязательно устранить, влияние смешивающих переменных, сформировав «искусственные пары» и выполнив тест на парные различия. Эти искусственные пары создаются на основе дополнительных переменных, которые, как считается, играют роль искажающих факторов. При объединении в пары учащихся, чьи значения смешивающих переменных схожи, большая часть разницы в интересующем значении (например, в баллах по стандартизированному тесту в примере, рассмотренном выше) обусловлена фактором интереса, а меньшая часть обусловлена к сбивающему с толку. Формирование искусственных пар для проверки парных различий является примером общего подхода к уменьшению эффектов смешения при проведении сравнений с использованием данных наблюдений, называемых сопоставлением . [2] [3] [4]
В качестве конкретного примера предположим, что мы наблюдаем результаты тестов X учащихся по стратегиям обучения A и B , и каждый студент имеет либо «высокий», либо «низкий» уровень математических знаний до того, как будут реализованы две стратегии обучения. Однако мы не знаем, какие студенты относятся к «высокой» категории, а какие — к «низкой». Средние результаты тестов населения в четырех возможных группах равны а доля студентов в группах где п HA + p HB + p LA + p LB = 1 .
«Разница в лечении» среди студентов в «высокой» группе составляет μ HA – μ HB а разница в лечении среди студентов в «низкой» группе – μ LA – μ LB. , В целом возможно, что две стратегии обучения могут различаться в любом направлении или не обнаруживать различий, а эффекты могут различаться по величине или даже по знаку между «высокими» и «низкими» группами. Например, если бы стратегия Б превосходила стратегию А для хорошо подготовленных учащихся, а стратегия А превосходила бы стратегию Б для плохо подготовленных учащихся, то два различия в подходах имели бы противоположные знаки.
Поскольку мы не знаем базовые уровни учащихся, ожидаемое значение среднего результата теста X A среди учащихся в группе А представляет собой среднее значение баллов на двух базовых уровнях:
и аналогичным образом средний балл по тесту X B среди студентов в группе B равен
Таким образом, ожидаемое значение наблюдаемой разницы в лечении D = X A − X B равно
Разумная нулевая гипотеза состоит в том, что эффект от лечения отсутствует ни в «высоких», ни в «низких» группах студентов, так что μ HA = μ HB и μ LA = μ LB . Согласно этой нулевой гипотезе, ожидаемое значение D будет равно нулю, если
и
Это условие утверждает, что отнесение учащихся к группам стратегии обучения A и B не зависит от их математических знаний до того, как стратегии обучения будут реализованы. Если это так, базовые математические знания не являются помехой, и наоборот, если базовые математические знания являются помехой, ожидаемое значение D обычно будет отличаться от нуля. Если ожидаемое значение D при нулевой гипотезе не равно нулю, то ситуация, когда мы отвергаем нулевую гипотезу, может быть связана либо с фактическим дифференциальным эффектом между стратегиями обучения A и B , либо с отсутствием независимости. при отнесении студентов к группам А и Б (даже при полном отсутствии эффекта от стратегии обучения).
Этот пример показывает, что если мы проводим прямое сравнение между двумя группами при наличии искажающих факторов, мы не знаем, связано ли какое-либо наблюдаемое различие с самой группировкой или с каким-то другим фактором. Если мы можем объединить учащихся в пары по точному или предполагаемому показателю их базовых математических способностей, тогда мы сравниваем учащихся только «в пределах строк» таблицы средних значений, приведенной выше. Следовательно, если нулевая гипотеза верна, ожидаемое значение D будет равно нулю, а уровни статистической значимости имеют свою предполагаемую интерпретацию.
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Деррик, Б; Броуд, А; Тохер, Д; Уайт, П. (2017). «Влияние экстремального наблюдения на дизайн парных выборок» . Metodološki Zvezki - Достижения методологии и статистики . 14 (2): 1–17.
- ^ Рубин, Дональд Б. (1973). «Сопоставление для устранения систематической ошибки в наблюдательных исследованиях». Биометрия . 29 (1): 159–183. дои : 10.2307/2529684 . JSTOR 2529684 .
- ^ Андерсон, Даллас В.; Киш, Лесли; Корнелл, Ричард Г. (1980). «О стратификации, группировке и сопоставлении». Скандинавский статистический журнал . 7 (2). Издательство Блэквелл: 61–66. JSTOR 4615774 .
- ^ Куппер, Лоуренс Л.; Карон, Джон М.; Кляйнбаум, Дэвид Г.; Моргенштерн, Хэл; Льюис, Дональд К. (1981). «Сопоставление эпидемиологических исследований: соображения обоснованности и эффективности». Биометрия . 37 (2): 271–291. CiteSeerX 10.1.1.154.1197 . дои : 10.2307/2530417 . JSTOR 2530417 . ПМИД 7272415 .
Внешние ссылки
[ редактировать ]- Относительное измерение и его обобщение при принятии решений: почему парные сравнения играют центральную роль в математике для измерения нематериальных факторов - Аналитическая иерархия/сетевой процесс (Томас Л. Саати)
- Оценка попарного сравнения последовательностей
- Парное сравнение (Филиппо А. Салустри)