Тест на эквивалентность
Тесты эквивалентности — это различные тесты гипотез, используемые для получения статистических выводов на основе наблюдаемых данных. В этих тестах нулевая гипотеза определяется как эффект, достаточно большой, чтобы считаться интересным, определяемый границей эквивалентности. Альтернативной гипотезой является любой эффект, который менее экстремальный, чем указанная граница эквивалентности. Наблюдаемые данные статистически сравниваются с границами эквивалентности. Если статистический тест показывает, что наблюдаемые данные являются неожиданными, при условии, что истинные эффекты, по крайней мере, столь же экстремальны, как и границы эквивалентности, можно использовать подход Неймана-Пирсона к статистическим выводам, чтобы отклонить размеры эффекта, превышающие границы эквивалентности, с заранее заданным пределом эквивалентности. Коэффициент ошибок 1-го типа .
Тестирование эквивалентности берет свое начало в области клинических испытаний . [1] Одно из приложений, известное как исследование не меньшей эффективности, используется для демонстрации того, что новый препарат, который дешевле доступных альтернатив, работает так же хорошо, как и существующий препарат. По сути, тесты эквивалентности состоят из расчета доверительного интервала вокруг наблюдаемой величины эффекта и отклонения эффектов, более экстремальных, чем граница эквивалентности, когда доверительный интервал не перекрывается с границей эквивалентности. В двусторонних тестах указываются как верхняя, так и нижняя границы эквивалентности. В исследованиях не меньшей эффективности, целью которых является проверка гипотезы о том, что новый метод лечения не хуже существующих, указывается только нижняя граница эквивалентности.

Тесты эквивалентности могут выполняться в дополнение к тестам значимости нулевой гипотезы. [2] [3] [4] [5] Это могло бы предотвратить распространенные неверные интерпретации значений p, превышающих уровень альфа, как подтверждение отсутствия истинного эффекта. Кроме того, тесты эквивалентности могут выявить эффекты, которые статистически значимы, но практически незначимы, когда эффекты статистически отличны от нуля, но также статистически меньше, чем любой размер эффекта, который считается целесообразным (см. первый рисунок). [6] Тесты на эквивалентность первоначально использовались в таких областях, как фармацевтика, часто в исследованиях биоэквивалентности. Однако эти тесты можно применять к любому случаю, когда исследовательский вопрос спрашивает, являются ли средние значения двух наборов оценок практически или теоретически эквивалентными. Таким образом, анализ эквивалентности стал широко использоваться практически во всех областях медицинских исследований. Кроме того, в области психологии стали использовать тесты на эквивалентность, особенно в клинических исследованиях. Однако это не означает, что анализ эквивалентности должен ограничиваться клиническими испытаниями, и применение этих тестов может происходить в ряде областей исследований. В связи с этим недавно были введены тесты на эквивалентность при оценке измерительных устройств. [7] [8] искусственный интеллект [9] а также физиология упражнений и спортивная наука. [10] Существует несколько тестов для анализа эквивалентности; однако в последнее время значительное внимание привлекла процедура двусторонних t-тестов (TOST). Как указано ниже, этот подход представляет собой адаптацию широко известного t-критерия.
Процедура ТОСТ
[ редактировать ]Очень простой подход к проверке эквивалентности — это процедура «двух односторонних t-тестов» (TOST). [11] В процедуре TOST верхняя (Δ U ) и нижняя (–Δ L ) границы эквивалентности определяются на основе наименьшего интересующего размера эффекта (например, положительной или отрицательной разницы d = 0,3). Проверяются две составные нулевые гипотезы: H 01 : Δ ≤ –Δ L и H 02 : Δ ≥ Δ U . Когда оба этих односторонних теста могут быть статистически отвергнуты, мы можем заключить, что –Δ L < Δ < Δ U или что наблюдаемый эффект попадает в границы эквивалентности и статистически меньше, чем любой эффект, который считается стоящим и считается практически эквивалентным». [12] Также были разработаны альтернативы процедуре ТОСТ. [13] Недавняя модификация TOST делает этот подход возможным в случаях повторных измерений и оценки нескольких переменных. [14]
Сравнение t-теста и теста эквивалентности
[ редактировать ]Критерий эквивалентности можно получить с помощью t-критерия . [7] Рассмотрим t-критерий на уровне значимости α t-критерий с мощностью 1-β t-критерий для соответствующего размера эффекта d r . Если Δ=d r, а также α экв.-критерий =β t-критерий и β экв.-критерий =α t-критерий совпадают, т.е. типы ошибок (тип I и тип II) меняются местами между t-критерием и тест эквивалентности, то t-критерий даст те же результаты, что и тест эквивалентности. Чтобы добиться этого для t-критерия, необходимо либо правильно выполнить расчет размера выборки, либо необходимо скорректировать уровень значимости t-критерия α t-критерия , называемый так называемым пересмотренным t-критерием . [7] Оба подхода имеют трудности на практике, поскольку планирование размера выборки основано на непроверяемых предположениях о стандартном отклонении, а пересмотренный t-критерий приводит к численным проблемам. [7] Сохранив поведение теста, эти ограничения можно устранить с помощью теста эквивалентности.
На рисунке ниже показано визуальное сравнение теста эквивалентности и t-критерия, когда на расчет размера выборки влияют различия между априорным стандартным отклонением. и стандартное отклонение выборки , что является распространенной проблемой. Использование теста эквивалентности вместо t-критерия дополнительно гарантирует, что α -эквивалентный тест является ограниченным, чего не делает t-критерий в случае, если при этом ошибка второго рода становится произвольно большой. С другой стороны, имея приводит к тому, что t-критерий оказывается более строгим, чем d r, указанный при планировании, что может случайно наказать источник выборки (например, производителя устройства). Это делает тест эквивалентности более безопасным в использовании.

См. также
[ редактировать ]- Bootstrap (статистическое) тестирование
Литература
[ редактировать ]- Уокер, Эстебан; Новацки, Эми С. (февраль 2011 г.). «Понимание тестирования эквивалентности и не меньшей эффективности» . Журнал общей внутренней медицины . 26 (2): 192–6. дои : 10.1007/s11606-010-1513-8 . ПМК 3019319 . ПМИД 20857339 .
Ссылки
[ редактировать ]- ^ Снапинн, Стивен М. (2000). «Испытания не меньшей эффективности» . Текущие контролируемые исследования в области сердечно-сосудистой медицины . 1 (1): 19–21. дои : 10.1186/CVM-1-1-019 . ПМК 59590 . ПМИД 11714400 .
- ^ Роджерс, Джеймс Л.; Ховард, Кеннет И.; Весси, Джон Т. (1993). «Использование тестов значимости для оценки эквивалентности между двумя экспериментальными группами». Психологический вестник . 113 (3): 553–565. дои : 10.1037/0033-2909.113.3.553 . ПМИД 8316613 .
- ^ Статистика применительно к клиническим испытаниям (4-е изд.). Спрингер. 2009. ISBN 978-1402095221 .
- ^ Пьяджо, Джильда; Эльбурн, Диана Р.; Альтман, Дуглас Г.; Покок, Стюарт Дж.; Эванс, Стивен Дж.В.; CONSORT Group, для (8 марта 2006 г.). «Отчеты о рандомизированных исследованиях не меньшей эффективности и эквивалентности» (PDF) . ДЖАМА . 295 (10): 1152–60. дои : 10.1001/jama.295.10.1152 . ПМИД 16522836 .
- ^ Пиантадоси, Стивен (28 августа 2017 г.). Клинические испытания: методологическая перспектива (Третье изд.). Джон Уайли и сыновья. п. 8.6.2. ISBN 978-1-118-95920-6 .
- ^ Лейкенс, Даниэль (05 мая 2017 г.). «Тест на эквивалентность» . Социальная психология и наука о личности . 8 (4): 355–362. дои : 10.1177/1948550617697177 . ПМК 5502906 . ПМИД 28736600 .
- ^ Jump up to: а б с д и Зиберт, Майкл; Элленбергер, Дэвид (10 апреля 2019 г.). «Валидация автоматического подсчета пассажиров: введение теста эквивалентности, индуцированного t-тестом» . Транспорт . 47 (6): 3031–3045. arXiv : 1802.03341 . дои : 10.1007/s11116-019-09991-9 . ISSN 0049-4488 .
- ^ Шнельбах, Тереза (2022). Анализ гидравлических данных с использованием Python . doi : 10.26083/tuprints-00022026 .
- ^ Ян, Нико; Зиберт, Майкл (2022). «Разработка нейронного автоматического счетчика пассажиров» . Инженерные применения искусственного интеллекта . 114 . arXiv : 2203.01156 . дои : 10.1016/j.engappai.2022.105148 .
- ^ Маццолари, Рафаэле; Порчелли, Симона; Бишоп, Дэвид Дж.; Лейкенс, Даниэль (март 2022 г.). «Мифы и методологии: использование тестов эквивалентности и не меньшей эффективности для интервенционных исследований в физиологии упражнений и спортивной науке» . Экспериментальная физиология . 107 (3): 201–212. дои : 10.1113/EP090171 . ISSN 0958-0670 . ПМИД 35041233 . S2CID 246051376 .
- ^ Шуирманн, Дональд Дж. (1 декабря 1987 г.). «Сравнение процедуры двух односторонних тестов и энергетического подхода для оценки эквивалентности средней биодоступности» . Журнал фармакокинетики и биофармацевтики . 15 (6): 657–680. дои : 10.1007/BF01068419 . ISSN 0090-466X . ПМИД 3450848 . S2CID 206788664 .
- ^ Лейкенс, Даниэль (май 2017 г.). «Тесты эквивалентности: практическое руководство по t-тестам, корреляциям и метаанализу» . Социальная психология и наука о личности . 8 (4): 355–362. дои : 10.1177/1948550617697177 . ISSN 1948-5506 . ПМК 5502906 . ПМИД 28736600 .
- ^ Веллек, Стефан (2010). Проверка статистических гипотез об эквивалентности и не меньшей эффективности . Чепмен и Холл/CRC. ISBN 978-1439808184 .
- ^ Роуз, Эванджелин М.; Мэтью, Томас; Косс, Дерек А.; Лор, Бернард; Омланд, Кевин Э. (2018). «Новый статистический метод проверки эквивалентности: применение к песне восточной синей птицы мужского и женского пола». Поведение животных . 145 : 77–85. дои : 10.1016/j.anbehav.2018.09.004 . ISSN 0003-3472 . S2CID 53152801 .