Jump to content

Тест парной разницы

Тест парных различий , более известный как парное сравнение , представляет собой тип теста местоположения , который используется при сравнении двух наборов парных измерений , чтобы оценить, различаются ли их средние значения совокупности . Тест парных разностей предназначен для ситуаций, когда существует зависимость между парами измерений (в этом случае тест, предназначенный для сравнения двух независимых выборок, не подойдет). Это применимо к дизайну внутрисубъектного исследования, т. е. к исследованию, в котором одна и та же группа субъектов подвергается обоим сравниваемым условиям.

Конкретные методы проведения парных разностных тестов включают t-критерий для парных выборок , парный Z-критерий , знаково-ранговый критерий Уилкоксона. [1] и другие.

Использование для уменьшения дисперсии

[ редактировать ]

Парные разностные тесты для уменьшения дисперсии представляют собой особый тип блокировки . Чтобы проиллюстрировать эту идею, предположим, что мы оцениваем эффективность препарата для лечения высокого уровня холестерина. В рамках нашего исследования мы набираем 100 субъектов и измеряем уровень холестерина у каждого субъекта. Затем всех испытуемых лечат препаратом в течение шести месяцев, после чего у них снова измеряют уровень холестерина. Наш интерес заключается в том, оказывает ли препарат какое-либо влияние на средние уровни холестерина, о чем можно судить путем сравнения измерений после лечения с измерениями до лечения.

Ключевой вопрос, который мотивирует использовать парный тест на различия, заключается в том, что, если в исследовании нет очень строгих критериев входа, вполне вероятно, что субъекты будут существенно отличаться друг от друга до начала лечения. Важные исходные различия между субъектами могут быть связаны с их полом, возрастом, статусом курения, уровнем активности и диетой.

Существует два естественных подхода к анализу этих данных:

  • При «неспарном анализе» данные обрабатываются так, как если бы в исследование фактически было включено 200 субъектов с последующим случайным распределением 100 субъектов в каждую из экспериментальной и контрольной групп. Группа лечения в непарном дизайне будет рассматриваться как аналогичная измерениям после лечения в парном дизайне, а контрольная группа будет рассматриваться как аналогичная измерениям до лечения. Затем мы могли бы рассчитать выборочные средние значения в группах пациентов, получавших и не получавших лечение, и сравнить эти средние значения друг с другом.
  • При «анализе парных различий» мы сначала вычитаем значение до лечения из значения после лечения для каждого субъекта, а затем сравниваем эти различия с нулем.

Если рассматривать только средства, парный и непарный подходы дают одинаковый результат. Чтобы убедиться в этом, пусть Y i 1 , Y i 2 будут наблюдаемыми данными для i й пара, и пусть D i = Y i 2 - Y i 1 . Также пусть , Y 1 и Y 2 обозначают соответственно выборочные средние значения D i D , Y i 1 и Y i 2 . Переставив термины, мы увидим, что

где n — количество пар. Таким образом, средняя разница между группами не зависит от того, организуем ли мы данные в виде пар.

Хотя средняя разница одинакова для парных и непарных статистических данных, их уровни статистической значимости могут сильно различаться, поскольку дисперсию непарной статистики легко переоценить. Дисперсия D равна

где σ 1 и σ 2 — стандартные отклонения совокупности данных Y i 1 и Y i 2 соответственно. Таким образом, дисперсия D существует положительная корреляция будет ниже, если внутри каждой пары . Такая корреляция очень распространена при повторных измерениях, поскольку обработка не влияет на многие факторы, влияющие на сравниваемую величину. Например, если уровни холестерина связаны с возрастом, влияние возраста приведет к положительной корреляции между уровнями холестерина, измеренными у субъектов, при условии, что продолжительность исследования невелика по сравнению с различиями в возрасте в выборке.

Мощность парного Z-теста

[ редактировать ]

Предположим, мы используем Z-тест для анализа данных, где дисперсия данных до и после лечения σ 1 2 и σ 2 2 известны (ситуация с t-тестом аналогична). Непарная статистика Z-теста:

Мощность непарного одностороннего теста, проведенного на уровне α = 0,05, можно рассчитать следующим образом:

где S — стандартное отклонение D , Φ — стандартная нормальная кумулятивная функция распределения , а δ = E Y 2 − E Y 1 — истинный эффект лечения. Константа 1,645 — это 95-й процентиль стандартного нормального распределения, определяющий область отклонения теста.

По аналогичному расчету мощность парного Z-теста равна

Сравнивая выражения мощности парного и непарного тестов, можно увидеть, что парный тест имеет большую мощность, пока

Это условие выполняется всякий раз, когда , внутрипарная корреляция положительна.

Модель случайных эффектов для парного тестирования

[ редактировать ]

Следующая статистическая модель полезна для понимания теста парных разностей.

где α i случайный эффект , который распределяется между двумя значениями в паре, а ε ij — случайный шумовой термин, который независим во всех точках данных. Постоянные значения µ 1 , µ 2 являются ожидаемыми значениями двух сравниваемых измерений, и нас интересует δ = µ 2 µ 1 .

В этой модели α i улавливает «стабильные искажающие факторы», которые оказывают одинаковое влияние на измерения до и после лечения. Когда мы вычитаем, чтобы сформировать D i , α i сокращается, поэтому не вносит вклад в дисперсию. Внутрипарная ковариация равна

Это неотрицательное значение, поэтому оно приводит к лучшей производительности теста парных различий по сравнению с тестом непарных, если только α i не является постоянным по i , и в этом случае парные и непарные тесты эквивалентны.

Говоря менее математическим языком, непарный тест предполагает, что данные в двух сравниваемых группах независимы. Это предположение определяет форму дисперсии D . Однако если для каждого субъекта проводятся два измерения, маловероятно, что эти два измерения будут независимыми. Если два измерения у испытуемого положительно коррелируют, непарный тест завышает дисперсию D , что делает его консервативным тестом в том смысле, что фактическая вероятность ошибки типа I будет ниже номинального уровня с соответствующей потерей статистической мощности. . В редких случаях данные могут иметь отрицательную корреляцию внутри субъектов, и в этом случае непарный тест становится антиконсервативным. Парный тест обычно применяют при повторных измерениях у одних и тех же испытуемых, поскольку он имеет правильный уровень независимо от корреляции измерений внутри пар.

Использование для уменьшения путаницы

[ редактировать ]

Другое применение тестирования парных различий возникает при сравнении двух групп в наборе данных наблюдений с целью изолировать эффект одного интересующего фактора от эффектов других факторов, которые могут играть роль. Например, предположим, что учителя применяют один из двух разных подходов, обозначенных «А» и «Б», к преподаванию определенной математической темы. Нас может интересовать, различаются ли результаты учащихся на стандартизированном тесте по математике в зависимости от подхода к обучению. Если учителя могут свободно применять подход А или подход Б, вполне возможно, что учителя, чьи ученики уже хорошо успевают по математике, предпочтут метод А (или наоборот). В этой ситуации простое сравнение средних результатов учащихся, обучающихся по подходам А и Б, скорее всего, покажет разницу, но эта разница частично или полностью обусловлена ​​ранее существовавшими различиями между двумя группами учащихся. В этой ситуации базовые способности учащихся служат смешивающая переменная , поскольку они связаны как с результатом (результатами стандартизированного теста), так и с назначением лечения в соответствии с подходом А или подходом Б.

Можно уменьшить, но не обязательно устранить, влияние смешивающих переменных, сформировав «искусственные пары» и выполнив тест на парные различия. Эти искусственные пары создаются на основе дополнительных переменных, которые, как считается, играют роль искажающих факторов. При объединении в пары учащихся, чьи значения смешивающих переменных схожи, большая часть разницы в интересующем значении (например, в баллах по стандартизированному тесту в примере, рассмотренном выше) обусловлена ​​фактором интереса, а меньшая часть обусловлена к сбивающему с толку. Формирование искусственных пар для проверки парных различий является примером общего подхода к уменьшению эффектов смешения при проведении сравнений с использованием данных наблюдений, называемых сопоставлением . [2] [3] [4]

В качестве конкретного примера предположим, что мы наблюдаем результаты тестов X учащихся по стратегиям обучения A и B , и каждый студент имеет либо «высокий», либо «низкий» уровень математических знаний до того, как будут реализованы две стратегии обучения. Однако мы не знаем, какие студенты относятся к «высокой» категории, а какие — к «низкой». Средние результаты тестов населения в четырех возможных группах равны а доля студентов в группах где п HA + p HB + p LA + p LB = 1 .

«Разница в лечении» среди студентов в «высокой» группе составляет μ HA μ HB а разница в лечении среди студентов в «низкой» группе – μ LA μ LB. , В целом возможно, что две стратегии обучения могут различаться в любом направлении или не обнаруживать различий, а эффекты могут различаться по величине или даже по знаку между «высокими» и «низкими» группами. Например, если бы стратегия Б превосходила стратегию А для хорошо подготовленных учащихся, а стратегия А превосходила бы стратегию Б для плохо подготовленных учащихся, то два различия в подходах имели бы противоположные знаки.

Поскольку мы не знаем базовые уровни учащихся, ожидаемое значение среднего результата теста X A среди учащихся в группе А представляет собой среднее значение баллов на двух базовых уровнях:

и аналогичным образом средний балл по тесту X B среди студентов в группе B равен

Таким образом, ожидаемое значение наблюдаемой разницы в лечении D = X A X B равно

Разумная нулевая гипотеза состоит в том, что эффект от лечения отсутствует ни в «высоких», ни в «низких» группах студентов, так что μ HA = μ HB и μ LA = μ LB . Согласно этой нулевой гипотезе, ожидаемое значение D будет равно нулю, если

и

Это условие утверждает, что отнесение учащихся к группам стратегии обучения A и B не зависит от их математических знаний до того, как стратегии обучения будут реализованы. Если это так, базовые математические знания не являются помехой, и наоборот, если базовые математические знания являются помехой, ожидаемое значение D обычно будет отличаться от нуля. Если ожидаемое значение D при нулевой гипотезе не равно нулю, то ситуация, когда мы отвергаем нулевую гипотезу, может быть связана либо с фактическим дифференциальным эффектом между стратегиями обучения A и B , либо с отсутствием независимости. при отнесении студентов к группам А и Б (даже при полном отсутствии эффекта от стратегии обучения).

Этот пример показывает, что если мы проводим прямое сравнение между двумя группами при наличии искажающих факторов, мы не знаем, связано ли какое-либо наблюдаемое различие с самой группировкой или с каким-то другим фактором. Если мы можем объединить учащихся в пары по точному или предполагаемому показателю их базовых математических способностей, тогда мы сравниваем учащихся только «в пределах строк» ​​таблицы средних значений, приведенной выше. Следовательно, если нулевая гипотеза верна, ожидаемое значение D будет равно нулю, а уровни статистической значимости имеют свою предполагаемую интерпретацию.

См. также

[ редактировать ]
  1. ^ Деррик, Б; Броуд, А; Тохер, Д; Уайт, П. (2017). «Влияние экстремального наблюдения на дизайн парных выборок» . Metodološki Zvezki - Достижения методологии и статистики . 14 (2): 1–17.
  2. ^ Рубин, Дональд Б. (1973). «Сопоставление для устранения систематической ошибки в наблюдательных исследованиях». Биометрия . 29 (1): 159–183. дои : 10.2307/2529684 . JSTOR   2529684 .
  3. ^ Андерсон, Даллас В.; Киш, Лесли; Корнелл, Ричард Г. (1980). «О стратификации, группировке и сопоставлении». Скандинавский статистический журнал . 7 (2). Издательство Блэквелл: 61–66. JSTOR   4615774 .
  4. ^ Куппер, Лоуренс Л.; Карон, Джон М.; Кляйнбаум, Дэвид Г.; Моргенштерн, Хэл; Льюис, Дональд К. (1981). «Сопоставление эпидемиологических исследований: соображения обоснованности и эффективности». Биометрия . 37 (2): 271–291. CiteSeerX   10.1.1.154.1197 . дои : 10.2307/2530417 . JSTOR   2530417 . ПМИД   7272415 .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 3a5d463bde6c800f3ecb49a2f3de23a7__1713322920
URL1:https://arc.ask3.ru/arc/aa/3a/a7/3a5d463bde6c800f3ecb49a2f3de23a7.html
Заголовок, (Title) документа по адресу, URL1:
Paired difference test - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)