Размер эффекта

Из Википедии, бесплатной энциклопедии

В статистике размер эффекта — это величина, измеряющая силу связи между двумя переменными в совокупности, или оценка этой величины на основе выборки. Оно может относиться к значению статистики, рассчитанному на основе выборки данных , значению параметра для гипотетической совокупности или к уравнению, которое определяет, как статистика или параметры приводят к значению размера эффекта. [1] Примеры величины эффекта включают корреляцию между двумя переменными, [2] коэффициент регрессии в регрессии, средняя разница или риск возникновения определенного события (например, сердечного приступа). Размеры эффекта дополняют проверку статистических гипотез и играют важную роль в анализе мощности , планировании размера выборки и в метаанализе . Группа методов анализа данных, касающихся величины эффекта, называется оценочной статистикой .

Размер эффекта является важным компонентом при оценке убедительности статистического утверждения и является первым элементом (величиной) критериев MAGIC . Стандартное отклонение размера эффекта имеет решающее значение, поскольку оно указывает, насколько неопределенность включена в измерение. Слишком большое стандартное отклонение сделает измерение практически бессмысленным. В метаанализе, целью которого является объединение нескольких величин эффекта, неопределенность в величине эффекта используется для взвешивания размеров эффекта, поэтому крупные исследования считаются более важными, чем небольшие исследования. Неопределенность размера эффекта рассчитывается по-разному для каждого типа размера эффекта, но обычно требуется знать только размер выборки исследования ( N ) или количество наблюдений ( n ) в каждой группе.

Сообщение о размерах эффекта или его оценках (оценка эффекта [EE], оценка эффекта) считается хорошей практикой при представлении результатов эмпирических исследований во многих областях. [3] [4] Сообщение о величине эффекта облегчает интерпретацию важности результата исследования, в отличие от его статистической значимости . [5] Размеры эффекта особенно важны в социальных науках и медицинских исследованиях размер эффекта лечения (где важен ).

Величина эффекта может измеряться в относительном или абсолютном выражении. По относительной величине эффекта две группы напрямую сравниваются друг с другом, например, по отношению шансов и относительным рискам . Для абсолютных размеров эффекта большее абсолютное значение всегда указывает на более сильный эффект. Многие типы измерений могут быть выражены как абсолютные или относительные, и их можно использовать вместе, поскольку они передают разную информацию. Видная рабочая группа в исследовательском сообществе психологов дала следующую рекомендацию:

Всегда указывайте величину эффекта для основных исходов... Если единицы измерения имеют смысл на практическом уровне (например, количество выкуриваемых сигарет в день), то мы обычно предпочитаем нестандартизированную меру (коэффициент регрессии или среднюю разницу) стандартизированной мере. ( р или д ). [3]

Обзор [ править ]

Размеры эффекта выборки совокупности и

Как и в статистической оценке , истинный размер эффекта отличается от наблюдаемого размера эффекта. Например, чтобы измерить риск заболевания в популяции (размер эффекта популяции), можно измерить риск внутри выборки этой популяции (размер эффекта выборки). Соглашения для описания истинных и наблюдаемых размеров эффекта следуют стандартной статистической практике: один из распространенных подходов заключается в использовании греческих букв, таких как ρ [rho], для обозначения параметров популяции и латинских букв, таких как r, для обозначения соответствующей статистики. Альтернативно, над параметром совокупности можно поместить «шляпу» для обозначения статистики, например, с помощью являющаяся оценкой параметра .

Как и в любой статистической ситуации, размеры эффекта оцениваются с ошибкой выборки и могут быть смещены, если используемый оценщик размера эффекта не соответствует способу отбора данных и способу проведения измерений. Примером этого является предвзятость публикации , которая возникает, когда ученые сообщают о результатах только тогда, когда предполагаемые размеры эффекта велики или статистически значимы. В результате, если многие исследователи проводят исследования с низкой статистической мощностью, сообщаемые размеры эффекта будут иметь тенденцию превышать истинные (популяционные) эффекты, если таковые имеются. [6] Другой пример, когда размеры эффекта могут быть искажены, — это эксперимент с несколькими испытаниями, где расчет размера эффекта основан на усредненном или агрегированном ответе по всем испытаниям. [7]

Исследования меньшего размера иногда показывают другие, часто более крупные, размеры эффекта, чем более крупные исследования. Это явление известно как эффект небольшого исследования, который может сигнализировать о предвзятости публикации. [8]

Связь со статистикой тестирования [ править ]

Размеры эффекта на основе выборки отличаются от тестовой статистики , используемой при проверке гипотез, тем, что они оценивают силу (величину), например, очевидной взаимосвязи, а не назначают уровень значимости , отражающий, может ли величина наблюдаемой взаимосвязи быть обусловлена на случайность. Размер эффекта не определяет напрямую уровень значимости, и наоборот. При достаточно большом размере выборки ненулевое статистическое сравнение всегда будет показывать статистически значимый результат, если только размер эффекта совокупности не равен точно нулю (и даже там оно будет демонстрировать статистическую значимость с частотой используемой ошибки типа I). Например, выборочный коэффициент корреляции Пирсона , равный 0,01, является статистически значимым, если размер выборки равен 1000. Сообщение только о значимом p значении из этого анализа может ввести в заблуждение, если корреляция 0,01 слишком мала, чтобы представлять интерес для конкретного приложения.

Стандартизированные и нестандартизированные эффекта размеры

Термин « размер эффекта» может относиться к стандартизированной мере эффекта (например, r , Коэна d или отношение шансов ) или к нестандартизированной мере (например, разнице между групповыми средними значениями или нестандартизированными коэффициентами регрессии). Стандартизированные меры размера эффекта обычно используются, когда:

  • метрики изучаемых переменных не имеют внутреннего значения (например, балл в личностном тесте по произвольной шкале),
  • результаты нескольких исследований объединяются,
  • некоторые или все исследования используют разные шкалы, или
  • желательно передать величину эффекта относительно изменчивости популяции.

В метаанализе стандартизированные размеры эффекта используются в качестве общей меры, которую можно рассчитать для разных исследований, а затем объединить в общую сводку.

Интерпретация [ править ]

Следует ли интерпретировать величину эффекта как малую, среднюю или большую, зависит от ее основного контекста и ее практического определения. Обычные критерии Коэна: маленький , средний или большой. [9] почти повсеместно распространены во многих областях, хотя Коэн [9] предупредил:

«Термины «малый», «средний» и «большой» относятся не только друг к другу, но и к области поведенческой науки или, более конкретно, к конкретному содержанию и методу исследования, используемому в любом конкретном исследовании. ...Перед лицом этой относительности существует определенный риск, присущий предложению традиционных операционных определений этих терминов для использования в анализе власти в такой разнообразной области исследований, как наука о поведении. Тем не менее, этот риск принимается, поскольку считается, что существует нечто большее. получить, чем потерять, путем предоставления общей общепринятой системы отсчета, которую рекомендуется использовать только тогда, когда нет лучшей основы для оценки индекса ES». (стр. 25)

В двух примерах макета Савиловский [10] пришел к выводу: «Основываясь на текущих результатах исследований в прикладной литературе, кажется целесообразным пересмотреть эмпирические правила для размеров эффекта», принимая во внимание предостережения Коэна, и расширил описания, включив в них очень маленькие , очень большие и огромные . Те же стандарты де-факто могут быть разработаны и для других планировок.

длина [11] отмеченный «средним» размером эффекта, «вы выберете одно и то же n независимо от точности или надежности вашего инструмента, а также от узости или разнообразия ваших объектов. Очевидно, что здесь игнорируются важные соображения. Исследователи должны интерпретировать существенные значимость их результатов путем их обоснования в значимом контексте или путем количественной оценки их вклада в знания, а описания величины эффекта Коэна могут быть полезны в качестве отправной точки». [5] Аналогичным образом, в отчете, спонсируемом Министерством образования США, говорится: «Широко распространенное неизбирательное использование общих малых, средних и больших значений величины эффекта Коэна для характеристики величины эффекта в областях, к которым его нормативные значения не применимы, таким образом, также неуместно и вводит в заблуждение». [12]

Они предположили, что «подходящими нормами являются нормы, основанные на распределении размеров эффекта для сопоставимых показателей результатов от сопоставимых вмешательств, нацеленных на сопоставимые выборки». Таким образом, если исследование в области, где большинство вмешательств являются незначительными, дало небольшой эффект (по критериям Коэна), эти новые критерии назвали бы его «большим». По теме см. парадокс Абельсона и парадокс Савиловского. [13] [14] [15]

Типы [ править ]

Известно от 50 до 100 различных мер величины эффекта. Многие величины эффекта разных типов могут быть преобразованы в другие типы, поскольку многие из них оценивают разделение двух распределений, поэтому они математически связаны. Например, коэффициент корреляции можно преобразовать в d Коэна и наоборот.

Семейство корреляций: размеры эффекта на основе «объяснения дисперсии» [ править ]

Эти величины эффекта оценивают величину дисперсии внутри эксперимента, которая «объясняется» или «учитывается» моделью эксперимента ( Объясненная вариация ).

Пирсона R корреляции коэффициент или

Корреляция Пирсона , часто обозначаемая r и введенная Карлом Пирсоном , широко используется в качестве величины эффекта , когда доступны парные количественные данные; например, если бы кто-то изучал взаимосвязь между массой тела при рождении и продолжительностью жизни. Коэффициент корреляции также можно использовать, когда данные являются двоичными. Пирсона Величина r может варьироваться от -1 до 1, где -1 указывает на идеальную отрицательную линейную связь, 1 указывает на идеальную положительную линейную связь, а 0 указывает на отсутствие линейной связи между двумя переменными. Коэн дает следующие рекомендации для социальных наук: [9] [16]

Размер эффекта р
Маленький 0.10
Середина 0.30
Большой 0.50
Коэффициент детерминации ( r 2 или Р 2 ) [ редактировать ]

Соответствующий размер эффекта равен r 2 , коэффициент детерминации (также называемый R 2 или « r -squared»), рассчитываемый как квадрат корреляции Пирсона r . В случае парных данных это мера доли дисперсии, общей для двух переменных, и она варьируется от 0 до 1. Например, при r 0,21 коэффициент детерминации равен 0,0441, что означает, что 4,4% дисперсия любой переменной используется совместно с другой переменной. р 2 всегда положителен, поэтому не передает направление корреляции между двумя переменными.

Эта-квадрат ( η 2 ) [ редактировать ]

Эта-квадрат описывает соотношение дисперсии, объясняемое в зависимой переменной предиктором при контроле других предикторов, что делает его аналогом r 2 . Эта-квадрат — это смещенная оценка дисперсии, объясняемой моделью в совокупности (он оценивает только размер эффекта в выборке). Эта оценка имеет ту же слабость, что и r 2 что каждая дополнительная переменная будет автоматически увеличивать значение η 2 . Кроме того, он измеряет объясненную дисперсию выборки, а не генеральной совокупности, а это означает, что он всегда будет переоценивать размер эффекта, хотя смещение становится меньше по мере увеличения выборки.

Омега-квадрат ( ω 2 ) [ редактировать ]

Менее смещенная оценка дисперсии, объясняемой в совокупности, - это ω. 2 [17]

Эта форма формулы ограничена анализом между субъектами с одинаковыми размерами выборки во всех ячейках. [17] Поскольку он менее смещен (хотя и не несмещен ), ω 2 предпочтительнее η 2 ; однако расчеты для комплексного анализа могут быть более неудобными. Обобщенная форма оценки была опубликована для межсубъектного и внутрисубъектного анализа, повторных измерений, экспериментов со смешанным дизайном и рандомизированным блочным дизайном. [18] Кроме того, методы расчета частичных ω 2 для отдельных факторов и комбинированных факторов в планах, содержащих до трех независимых переменных. [18]

Коэна Ф 2 [ редактировать ]

Коэна Ф 2 — это одна из нескольких мер величины эффекта, которые можно использовать в контексте F-теста для ANOVA или множественной регрессии . Величина смещения (переоценка размера эффекта для ANOVA) зависит от смещения основного измерения дисперсии, объясняемого (например, R 2 , 2 , ой 2 ).

ж 2 Мера размера эффекта для множественной регрессии определяется как:

где Р 2 это квадрат множественной корреляции .

Аналогично, ф 2 можно определить как:

или
для моделей, описываемых этими мерами размера эффекта. [19]

The мера размера эффекта для последовательной множественной регрессии, а также общая для моделирования PLS [20] определяется как:

где Р 2 A — это дисперсия, учитываемая набором одной или нескольких независимых переменных A , а R 2 AB учитываемая A и другим набором одной или нескольких представляющих интерес независимых переменных B. — это объединенная дисперсия , По соглашению f 2 размеры эффекта , , и называются малыми , средними и большими соответственно. [9]

Коэна также можно найти для факторного дисперсионного анализа (ANOVA), работающего в обратном направлении, используя:

В сбалансированном дизайне (эквивалентные размеры выборки по группам) дисперсионного анализа соответствующий параметр генеральной совокупности является

где μ j обозначает среднее значение совокупности в пределах j й группа всех K групп, а σ — эквивалентные стандартные отклонения населения внутри каждой группы. SS — это сумма квадратов в ANOVA.

Коэна Вопрос [ править ]

Другая мера, которая используется с корреляционными различиями, — это q Коэна. Это разница между двумя коэффициентами регрессии Пирсона, преобразованными Фишером. В символах это

где r 1 и r 2 — сравниваемые регрессии. Ожидаемое значение q равно нулю, а его дисперсия равна

где N 1 и N 2 — количество точек данных в первой и второй регрессии соответственно.

Семейство различий: размеры эффекта основаны на различиях между средними . значениями

Исходный размер эффекта, относящийся к сравнению двух групп, по своей сути рассчитывается как разница между двумя средними значениями. Однако для облегчения интерпретации принято стандартизировать величину эффекта; Различные соглашения по статистической стандартизации представлены ниже.

Стандартизированная разница средняя

Графики гауссовских плотностей, иллюстрирующие различные значения d Коэна.

Размер эффекта (популяции) θ, основанный на средних значениях, обычно учитывает стандартизированную среднюю разницу (SMD) между двумя популяциями. [21] : 78 

где 1 основанное — среднее значение для одной популяции, 2 на одной — среднее значение для другой популяции, а σ — стандартное отклонение, или обеих популяциях.

В практических условиях значения совокупности обычно неизвестны и должны быть оценены на основе выборочной статистики. Несколько версий размеров эффекта, основанных на средних значениях, различаются в зависимости от того, какая статистика используется.

Эта форма размера эффекта напоминает вычисление статистики t -критерия с тем критическим отличием, что статистика t -критерия включает в себя коэффициент . Это означает, что для данного размера эффекта уровень значимости увеличивается с размером выборки. В отличие от статистики t -критерия, размер эффекта направлен на оценку параметра совокупности и не зависит от размера выборки.

Значения SMD от 0,2 до 0,5 считаются малыми, от 0,5 до 0,8 — средними, а более 0,8 — большими. [22]

Коэн Д [ править ]

Коэна d определяется как разница между двумя средними значениями, деленная на стандартное отклонение данных, т.е.

Джейкоб Коэн определил s , объединенное стандартное отклонение , как (для двух независимых выборок): [9] : 67 

где дисперсия для одной из групп определяется как
и аналогично для другой группы.

В таблице ниже содержатся дескрипторы величин от d = 0,01 до 2,0, первоначально предложенные Коэном (который предостерегал от того, чтобы значения стали стандартами де-факто, призывая к гибкости интерпретации) и расширенные Савиловским. [10]

Размер эффекта д Ссылка
Очень маленький 0.01 [10]
Маленький 0.20 [9]
Середина 0.50 [9]
Большой 0.80 [9]
Очень большой 1.20 [10]
Огромный 2.0 [10]

Другие авторы выбирают несколько иное вычисление стандартного отклонения, ссылаясь на « d Коэна », где знаменатель без «-2». [23] [24] : 14 

Коэна Это определение « d назвали оценкой максимального правдоподобия . » Хеджес и Олкин [21] Хеджеса и оно связано с g масштабным коэффициентом (см. ниже).

Используя две парные выборки, мы смотрим на распределение разностных оценок. В этом случае s — это стандартное отклонение этого распределения разностных оценок. Это создает следующую связь между t-статистикой для проверки разницы в средних значениях двух групп и d Коэна :

и

Коэн d часто используется при оценке размера выборки для статистического тестирования. Коэна Меньшее значение d указывает на необходимость увеличения размера выборки, и наоборот, что впоследствии может быть определено вместе с дополнительными параметрами желаемого уровня значимости и статистической мощности . [25]

Для парных выборок Коэн предполагает, что рассчитанное d на самом деле равно d', что не дает правильного ответа для определения мощности теста, и что прежде чем искать значения в предоставленных таблицах, его следует скорректировать на r, как в следующую формулу: [26]

Гласс' Д [ править ]

В 1976 году Джин В. Гласс предложил оценку размера эффекта, которая использует только стандартное отклонение второй группы. [21] : 78 

Вторую группу можно рассматривать как контрольную группу, и Гласс утверждал, что если бы несколько курсов лечения сравнивались с контрольной группой, было бы лучше использовать только стандартное отклонение, вычисленное на основе контрольной группы, чтобы размеры эффекта не различались при равных средних значениях. и разные вариации.

При правильном предположении о равных дисперсиях генеральной совокупности объединенная оценка σ является более точной.

Хеджес г [ править ]

Hedges'g в , предложенный Ларри Хеджесом 1981 году, [27] похож на другие меры, основанные на стандартизированной разнице [21] : 79 

где объединенное стандартное отклонение рассчитывается как:

Однако в качестве оценки размера эффекта популяции θ он является смещенным . Тем не менее, это смещение можно приблизительно исправить умножением на коэффициент

Хеджес и Олкин ссылаются на эту менее смещенную оценку. как д , [21] Коэна но это не то же самое, что d . Точная форма поправочного коэффициента J () включает гамма-функцию [21] : 104 
Существуют также многоуровневые варианты g Хеджеса, например, для использования в кластерных рандомизированных контролируемых исследованиях (CRT). [28] ЭЛТ предполагают рандомизацию кластеров, таких как школы или классы, в зависимости от различных условий и часто используются в исследованиях в области образования.

, среднеквадратичный эффект Ψ стандартизированный

Аналогичным оценщиком размера эффекта для множественных сравнений (например, ANOVA ) является стандартизированный среднеквадратический эффект Ψ: [19]

где k — количество групп в сравнениях.

По сути, это представляет собой комплексную разницу всей модели, скорректированную среднеквадратическим значением, аналогично d или g .

Кроме того, было представлено обобщение для многофакторных планов. [19]

Распределение размеров эффекта в зависимости от средств [ править ]

При условии, что данные распределены по Гауссу в масштабированном масштабе Хеджеса g , , следует нецентральному t -распределению с параметром нецентральности и ( n 1 + n 2 − 2) степеней свободы. Аналогично, масштабированная Δ Гласса распределяется с n 2 - 1 степенями свободы.

Из распределения можно вычислить математическое ожидание и дисперсию размеров эффекта.

В некоторых случаях используются аппроксимации дисперсии на больших выборках. Одно из предположений относительно дисперсии несмещенной оценки Хеджеса: [21] : 86 

Другие показатели [ править ]

Расстояние Махаланобиса (D) представляет собой многомерное обобщение d Коэна, которое учитывает взаимосвязи между переменными. [29]

семейство: размеры эффекта для ассоциаций между категориальными Категориальное переменными

  

  

Фи ( φ ) Крамера V ( φ c )

Обычно используемыми мерами связи для теста хи-квадрат являются коэффициент Фи и ( V Крамера . иногда называемый фи Крамера и обозначаемый как φ c ) Phi связана с коэффициентом точечной бисериальной корреляции Коэна и d и оценивает степень связи между двумя переменными (2 × 2). [30] V Крамера может использоваться с переменными, имеющими более двух уровней.

Фи можно вычислить, найдя квадратный корень из статистики хи-квадрат, разделенный на размер выборки.

Аналогичным образом, V Крамера вычисляется путем извлечения квадратного корня из статистики хи-квадрат, деленного на размер выборки и длину минимального измерения ( k — меньшее из числа строк r или столбцов c ).

φ c - это взаимная корреляция двух дискретных переменных [31] и может быть вычислен для любого значения r или c . Однако, поскольку значения хи-квадрат имеют тенденцию увеличиваться с увеличением количества ячеек, чем больше разница между r и c , тем более вероятно, что V будет стремиться к 1 без убедительных доказательств значимой корреляции.

Омега Коэна ( ω ) [ править ]

Другой мерой величины эффекта, используемой в тестах хи-квадрат, является омега Коэна ( ). Это определяется как

где p 0 i — доля i й ячейка под H 0 , p 1 i — доля i й ячейка под H 1 и m — количество ячеек.

В «Статистическом анализе мощности для поведенческих наук» (1988, стр. 224–225) Коэн дает следующее общее руководство по интерпретации омеги (см. таблицу ниже), но предостерегает от ее «возможной неуместности в любом данном существенном контексте» и советует использовать вместо этого контекстно-зависимое суждение.

Размер эффекта
Маленький 0.10
Середина 0.30
Большой 0.50

Коэффициент шансов [ править ]

Отношение шансов (OR) — еще один полезный размер эффекта. Это уместно, когда исследовательский вопрос фокусируется на степени связи между двумя двоичными переменными . Например, рассмотрим исследование правописания. В контрольной группе два ученика сдают урок на каждого, кто не сдал экзамен, поэтому шансы на успешную сдачу составляют два к одному (или 2/1 = 2). В экспериментальной группе на каждого не сдавшего экзамен шесть студентов сдают экзамен, поэтому шансы на успешную сдачу составляют шесть к одному (или 6/1 = 6). Величину эффекта можно рассчитать, заметив, что шансы на успех в экспериментальной группе в три раза выше, чем в контрольной группе (поскольку 6, разделенное на 2, равно 3). Коэна Следовательно, отношение шансов равно 3. Статистика отношения шансов находится в другом масштабе, чем d Коэна, , поэтому эта цифра «3» не сравнима с d равным 3.

Относительный риск

Относительный риск (RR), также называемый коэффициентом риска , представляет собой просто риск (вероятность) события относительно некоторой независимой переменной. Эта мера размера эффекта отличается от отношения шансов тем, что она сравнивает вероятности вместо шансов , но асимптотически приближается к последнему для малых вероятностей. Используя приведенный выше пример, вероятность прохождения теста для участников контрольной группы и группы лечения составляет 2/3 (или 0,67) и 6/7 (или 0,86) соответственно. Размер эффекта можно рассчитать так же, как указано выше, но вместо этого использовать вероятности. Следовательно, относительный риск равен 1,28. Поскольку использовались довольно большие вероятности успешного исхода, существует большая разница между относительным риском и отношением шансов. Если бы неудача ) использовалась в качестве события (а не прохождения (меньшая вероятность) , разница между двумя показателями размера эффекта не была бы такой большой.

Хотя обе меры полезны, они имеют разное статистическое применение. В медицинских исследованиях отношение шансов обычно используется для исследований «случай-контроль» , поскольку обычно оцениваются шансы, а не вероятности. [32] Относительный риск обычно используется в рандомизированных контролируемых исследованиях и когортных исследованиях , но относительный риск способствует переоценке эффективности вмешательств. [33]

Разница в рисках

( Разница риска RD), иногда называемая абсолютным снижением риска, представляет собой просто разницу в риске (вероятности) события между двумя группами. Это полезная мера в экспериментальных исследованиях, поскольку РД показывает, в какой степени экспериментальное вмешательство меняет вероятность события или результата. Используя приведенный выше пример, вероятность прохождения теста для участников контрольной группы и группы лечения составляет 2/3 (или 0,67) и 6/7 (или 0,86) соответственно, и поэтому величина эффекта RD составляет 0,86 − 0,67 = 0,19 (или 0,19). 19%). RD является лучшим показателем для оценки эффективности вмешательств. [33]

Коэн ч [ править ]

Коэна Одной из мер, используемых в анализе мощности при сравнении двух независимых пропорций, является h . Это определяется следующим образом

где p 1 и p 2 — пропорции двух сравниваемых образцов, а arcsin — преобразование арксинуса.

Вероятность превосходства [ править ]

Чтобы легче объяснить значение размера эффекта людям, не связанным со статистикой, размер эффекта на общем языке, как следует из названия, был разработан для передачи его на простом английском языке. Он используется для описания различий между двумя группами и был предложен и назван Кеннетом МакГроу и С.П. Вонгом в 1992 году. [34] Они использовали следующий пример (о росте мужчин и женщин): «В любой случайной паре молодых взрослых мужчин и женщин вероятность того, что мужчина будет выше женщины, равна 0,92, или, проще говоря, в 92 из 100 свиданий вслепую среди молодых людей, мужчина будет выше женщины", [34] при описании популяционной ценности размера эффекта общего языка.

Размер эффекта для порядковых данных [ править ]

Дельта Клиффа или , первоначально разработанный Норманом Клиффом для использования с порядковыми данными, [35] [ сомнительно ] является мерой того, насколько часто значения в одном распределении превышают значения во втором распределении. Важно отметить, что он не требует каких-либо предположений о форме или распространении двух распределений.

Примерная смета дан кем-то:

где два распределения имеют размер и с предметами и , соответственно, и — это скобка Айверсона , которая равна 1, если содержимое истинно, и 0, если ложно.

линейно связана со статистикой Манна – Уитни U ; однако он фиксирует направление разницы в своем знаке. Учитывая Манн-Уитни , является:

помощью нецентральности Доверительные интервалы с параметров

Доверительные интервалы стандартизированных величин эффекта, особенно Коэна и , полагайтесь на вычисление доверительных интервалов параметров нецентральности ( ncp ). Общий подход к построению доверительного интервала ncp состоит в том, чтобы найти критические значения ncp , соответствующие наблюдаемой статистике хвостовым квантилям α /2 и (1 − α /2). Пакет SAS и R MBESS предоставляет функции для поиска критических значений ncp .

t -критерий для определения разницы средних значений одной группы или двух связанных групп [ править ]

Для одной группы M обозначает среднее значение выборки, μ — среднее значение генеральной совокупности, SD — стандартное отклонение выборки, σ — стандартное отклонение генеральной совокупности, а n — размер выборки группы. Значение t используется для проверки гипотезы о разнице между средним значением и базовым уровнем μ baseline . Обычно μ базовая линия равна нулю. В случае двух родственных групп одна группа создается на основе различий в паре выборок, а SD и σ обозначают стандартные отклонения выборки и популяции, а не внутри исходных двух групп.

и Коэна

это точечная оценка

Так,

t -критерий для определения разницы средних между двумя независимыми группами [ править ]

n 1 или n 2 — соответствующие размеры выборки.

в которой

и Коэна

это точечная оценка

Так,

Односторонний тест ANOVA для определения разницы средних между несколькими группами независимыми

Односторонний тест ANOVA применяет нецентральное F-распределение . В то время как при данном стандартном отклонении населения , тот же тестовый вопрос применим к нецентральному распределению хи-квадрат .

Для каждого j -го образца внутри i -й группы X i , j обозначим

Пока,

Итак, оба ncp ( s ) из F и приравнивать

В случае для K независимых групп одинакового размера общий размер выборки равен N := n · K .

t - критерий для пары независимых групп является частным случаем одностороннего дисперсионного анализа. Заметим, что параметр нецентральности F не сравним с параметром нецентральности соответствующего т . На самом деле, , и .

См. также [ править ]

Ссылки [ править ]

  1. ^ Келли, Кен; Проповедник, Кристофер Дж. (2012). «О размере эффекта». Психологические методы . 17 (2): 137–152. дои : 10.1037/a0028086 . ПМИД   22545595 . S2CID   34152884 .
  2. ^ Розенталь, Роберт, Х. Купер и Л. Хеджес. «Параметрические меры величины эффекта». Справочник по синтезу исследований 621 (1994): 231–244. ISBN   978-0871541635
  3. ^ Перейти обратно: а б Уилкинсон, Лиланд (1999). «Статистические методы в психологических журналах: рекомендации и пояснения». Американский психолог . 54 (8): 594–604. дои : 10.1037/0003-066X.54.8.594 . S2CID   428023 .
  4. ^ Накагава, Шиничи; Катхилл, Иннес С. (2007). «Размер эффекта, доверительный интервал и статистическая значимость: практическое руководство для биологов». Биологические обзоры Кембриджского философского общества . 82 (4): 591–605. дои : 10.1111/j.1469-185X.2007.00027.x . ПМИД   17944619 . S2CID   615371 .
  5. ^ Перейти обратно: а б Эллис, Пол Д. (2010). Основное руководство по размерам эффекта: статистическая мощность, метаанализ и интерпретация результатов исследований . Издательство Кембриджского университета. ISBN  978-0-521-14246-5 . [ нужна страница ]
  6. ^ Бренд А, Брэдли М.Т., Бест Л.А., Стойка Дж. (2008). «Точность оценок величины эффекта на основе опубликованных психологических исследований» (PDF) . Перцептивные и моторные навыки . 106 (2): 645–649. дои : 10.2466/PMS.106.2.645-649 . ПМИД   18556917 . S2CID   14340449 . Архивировано из оригинала (PDF) 17 декабря 2008 г. Проверено 31 октября 2008 г.
  7. ^ Бренд А, Брэдли МТ, Лучший Лос-Анджелес, Стойка Дж (2011). «Множественные испытания могут дать преувеличенные оценки величины эффекта» (PDF) . Журнал общей психологии . 138 (1): 1–11. дои : 10.1080/00221309.2010.520360 . ПМИД   21404946 . S2CID   932324 .
  8. ^ Стерн, Джонатан AC; Гаваган, Дэвид; Эггер, Матиас (1 ноября 2000 г.). «Публикации и связанная с ними предвзятость в метаанализе: сила статистических тестов и распространенность в литературе» . Журнал клинической эпидемиологии . 53 (11): 1119–1129. дои : 10.1016/S0895-4356(00)00242-0 . ISSN   0895-4356 . ПМИД   11106885 .
  9. ^ Перейти обратно: а б с д Это ж г час Коэн, Джейкоб (1988). Статистический анализ мощности для поведенческих наук . Рутледж. ISBN  978-1-134-74270-7 .
  10. ^ Перейти обратно: а б с д Это Савиловский, С (2009). «Новые практические правила размера эффекта» . Журнал современных прикладных статистических методов . 8 (2): 467–474. дои : 10.22237/jmasm/1257035100 . http://digitalcommons.wayne.edu/jmasm/vol8/iss2/26/
  11. ^ Рассел В. Лент. «Java-апплеты для повышения мощности и размера выборки» . Отделение математических наук Колледжа свободных искусств или Университета Айовы . Проверено 8 октября 2008 г.
  12. ^ Липси, штат Вашингтон; и другие. (2012). Перевод статистического представления последствий образовательных вмешательств в более легко интерпретируемые формы (PDF) . США: Департамент образования США, Национальный центр исследований в области специального образования, Институт педагогических наук, NCSER, 2013–3000.
  13. ^ Савиловский, СС (2005). «Парадокс Абельсона и эксперимент Майкельсона-Морли» . Журнал современных прикладных статистических методов . 4 (1): 352. дои : 10.22237/jmasm/1114907520 .
  14. ^ Савиловский, С.; Савиловский Дж.; Гриссом, Р.Дж. (2010). «Размер эффекта». В Ловрике, М. (ред.). Международная энциклопедия статистических наук . Спрингер.
  15. ^ Савиловский, С. (2003). «Деконструкция аргументов против проверки гипотез» . Журнал современных прикладных статистических методов . 2 (2): 467–474. дои : 10.22237/jmasm/1067645940 .
  16. ^ Коэн, Дж (1992). «Энергетический праймер». Психологический вестник . 112 (1): 155–159. дои : 10.1037/0033-2909.112.1.155 . ПМИД   19565683 .
  17. ^ Перейти обратно: а б Табачник, Б.Г. и Фиделл, Л.С. (2007). Глава 4: «Наведение порядка в своих действиях. Проверка данных перед анализом», с. 55 В Б.Г. Табачнике и Л.С. Фиделле (ред.), Использование многомерной статистики , пятое издание. Бостон: Pearson Education, Inc. / Аллин и Бэкон.
  18. ^ Перейти обратно: а б Олейник, С.; Альгина, Дж. (2003). «Обобщенная статистика в квадратах эта и омега: меры величины эффекта для некоторых распространенных планов исследований» (PDF) . Психологические методы . 8 (4): 434–447. дои : 10.1037/1082-989x.8.4.434 . ПМИД   14664681 . S2CID   6931663 . Архивировано из оригинала (PDF) 10 июня 2010 г. Проверено 24 октября 2011 г.
  19. ^ Перейти обратно: а б с Штайгер, Дж. Х. (2004). «За пределами F-теста: доверительные интервалы размера эффекта и тесты близкого соответствия в дисперсионном и контрастном анализе» (PDF) . Психологические методы . 9 (2): 164–182. дои : 10.1037/1082-989x.9.2.164 . ПМИД   15137887 .
  20. ^ Волосы, Дж.; Хульт, ТМ; Рингл, К.М. и Сарстедт, М. (2014) Учебник по моделированию структурных уравнений частичных наименьших квадратов (PLS-SEM) , Sage, стр. 177–178. ISBN   1452217440
  21. ^ Перейти обратно: а б с д Это ж г Ларри В. Хеджес и Ингрэм Олкин (1985). Статистические методы метаанализа . Орландо: Академическая пресса . ISBN  978-0-12-336380-0 .
  22. ^ Андраде, Читтаранджан (22 сентября 2020 г.). «Средняя разница, стандартизированная средняя разница (SMD) и их использование в метаанализе» . Журнал клинической психиатрии . 81 (5). дои : 10.4088/JCP.20f13681 . eISSN   1555-2101 . ПМИД   32965803 . S2CID   221865130 . Значения SMD 0,2–0,5 считаются малыми, значения 0,5–0,8 считаются средними, а значения > 0,8 считаются большими. В психофармакологических исследованиях, в которых сравниваются независимые группы, статистически значимые SMD почти всегда находятся в диапазоне от малого до среднего. Большие SMD удается получить редко.
  23. ^ Роберт Э. МакГрат; Грегори Дж. Мейер (2006). «Когда размеры эффекта не совпадают: случай r и d» (PDF) . Психологические методы . 11 (4): 386–401. CiteSeerX   10.1.1.503.754 . дои : 10.1037/1082-989x.11.4.386 . ПМИД   17154753 . Архивировано из оригинала (PDF) 8 октября 2013 г. Проверено 30 июля 2014 г.
  24. ^ Хартунг, Иоахим; Кнапп, Гвидо; Синха, Бимал К. (2008). Статистический метаанализ с приложениями . Джон Уайли и сыновья. ISBN  978-1-118-21096-3 .
  25. ^ Кенни, Дэвид А. (1987). «Глава 13» (PDF) . Статистика для социальных и поведенческих наук . Маленький, Браун. ISBN  978-0-316-48915-7 .
  26. ^ Коэн 1988 , с. 49.
  27. ^ Ларри В. Хеджес (1981). «Теория распределения для оценки величины эффекта Гласса и связанных с ней оценок». Журнал образовательной статистики . 6 (2): 107–128. дои : 10.3102/10769986006002107 . S2CID   121719955 .
  28. ^ Хеджес, Л.В. (2011). Величина эффекта в трехуровневых кластерно-рандомизированных экспериментах. Журнал образовательной и поведенческой статистики, 36 (3), 346–380.
  29. ^ Дель Джудиче, Марко (18 июля 2013 г.). «Многомерные опасения: является ли D достоверной мерой групповых и половых различий?» . Эволюционная психология . 11 (5): 147470491301100. doi : 10.1177/147470491301100511 .
  30. ^ Аарон Б., Кромри Дж. Д. и Феррон Дж. М. (1998, ноябрь). Приравнивание индексов величины эффекта на основе r и d: проблемы с общепринятой формулой. Доклад, представленный на ежегодном собрании Флоридской ассоциации исследований в области образования, Орландо, Флорида. (Служба воспроизведения документов ERIC № ED433353)
  31. ^ Шескин, Дэвид Дж. (2003). Справочник по параметрическим и непараметрическим статистическим процедурам (Третье изд.). ЦРК Пресс. ISBN  978-1-4200-3626-8 .
  32. ^ Дикс Дж (1998). «Когда отношения шансов могут вводить в заблуждение? Отношения шансов следует использовать только в исследованиях «случай-контроль» и логистическом регрессионном анализе . БМЖ . 317 (7166): 1155–6. дои : 10.1136/bmj.317.7166.1155a . ПМЦ   1114127 . ПМИД   9784470 .
  33. ^ Перейти обратно: а б Стегенга, Дж. (2015). «Измерение эффективности» . Исследования по истории и философии биологических и биомедицинских наук . 54 : 62–71. дои : 10.1016/j.shpsc.2015.06.003 . ПМИД   26199055 .
  34. ^ Перейти обратно: а б Макгроу, нокаут, Вонг С.П. (1992). «Статистика размера общего языкового эффекта». Психологический вестник . 111 (2): 361–365. дои : 10.1037/0033-2909.111.2.361 .
  35. ^ Клифф, Норман (1993). «Статистика доминирования: порядковый анализ для ответа на порядковые вопросы». Психологический вестник . 114 (3): 494–509. дои : 10.1037/0033-2909.114.3.494 .

Дальнейшее чтение [ править ]

Внешние ссылки [ править ]

Дальнейшие пояснения