Jump to content

Тест на эквивалентность

Тесты эквивалентности — это различные тесты гипотез, используемые для получения статистических выводов на основе наблюдаемых данных. В этих тестах нулевая гипотеза определяется как эффект, достаточно большой, чтобы считаться интересным, определяемый границей эквивалентности. Альтернативной гипотезой является любой эффект, который менее экстремальный, чем указанная граница эквивалентности. Наблюдаемые данные статистически сравниваются с границами эквивалентности. Если статистический тест показывает, что наблюдаемые данные являются неожиданными, при условии, что истинные эффекты, по крайней мере, столь же экстремальны, как и границы эквивалентности, можно использовать подход Неймана-Пирсона к статистическим выводам, чтобы отклонить размеры эффекта, превышающие границы эквивалентности, с заранее заданным пределом эквивалентности. Коэффициент ошибок 1-го типа

Тестирование эквивалентности берет свое начало в области клинических испытаний . [1] Одно из приложений, известное как исследование не меньшей эффективности, используется для демонстрации того, что новый препарат, который дешевле доступных альтернатив, работает так же хорошо, как и существующий препарат. По сути, тесты эквивалентности состоят из расчета доверительного интервала вокруг наблюдаемой величины эффекта и отклонения эффектов, более экстремальных, чем граница эквивалентности, когда доверительный интервал не перекрывается с границей эквивалентности. В двусторонних тестах указываются как верхняя, так и нижняя границы эквивалентности. В исследованиях не меньшей эффективности, целью которых является проверка гипотезы о том, что новый метод лечения не хуже существующих, указывается только нижняя граница эквивалентности.

Средние различия (черные квадраты) и 90% доверительные интервалы (горизонтальные линии) с границами эквивалентности ΔL = -0,5 и ΔU = 0,5 для четырех комбинаций результатов испытаний, которые статистически эквивалентны или нет и статистически отличны от нуля или нет. Модель A статистически эквивалентна, модель B статистически отличается от 0, модель C практически незначима, а модель D неубедительна (ни статистически не отличается от 0, ни эквивалентна).

Тесты эквивалентности могут выполняться в дополнение к тестам значимости нулевой гипотезы. [2] [3] [4] [5] Это могло бы предотвратить распространенные неверные интерпретации значений p, превышающих уровень альфа, как подтверждение отсутствия истинного эффекта. Кроме того, тесты эквивалентности могут выявить эффекты, которые статистически значимы, но практически незначимы, когда эффекты статистически отличны от нуля, но также статистически меньше, чем любой размер эффекта, который считается целесообразным (см. первый рисунок). [6] Тесты на эквивалентность первоначально использовались в таких областях, как фармацевтика, часто в исследованиях биоэквивалентности. Однако эти тесты можно применять к любому случаю, когда исследовательский вопрос спрашивает, являются ли средние значения двух наборов оценок практически или теоретически эквивалентными. Таким образом, анализ эквивалентности стал широко использоваться практически во всех областях медицинских исследований. Кроме того, в области психологии стали использовать тесты на эквивалентность, особенно в клинических исследованиях. Однако это не означает, что анализ эквивалентности должен ограничиваться клиническими испытаниями, и применение этих тестов может происходить в ряде областей исследований. В связи с этим недавно были введены тесты на эквивалентность при оценке измерительных устройств. [7] [8] искусственный интеллект [9] а также физиология упражнений и спортивная наука. [10] Существует несколько тестов для анализа эквивалентности; однако в последнее время значительное внимание привлекла процедура двусторонних t-тестов (TOST). Как указано ниже, этот подход представляет собой адаптацию широко известного t-критерия. 

Процедура ТОСТ

[ редактировать ]

Очень простой подход к проверке эквивалентности — это процедура «двух односторонних t-тестов» (TOST). [11] В процедуре TOST верхняя (Δ U ) и нижняя (–Δ L ) границы эквивалентности определяются на основе наименьшего интересующего размера эффекта (например, положительной или отрицательной разницы d = 0,3). Проверяются две составные нулевые гипотезы: H 01 : Δ ≤ –Δ L и H 02 : Δ ≥ Δ U . Когда оба этих односторонних теста могут быть статистически отвергнуты, мы можем заключить, что –Δ L < Δ < Δ U или что наблюдаемый эффект попадает в границы эквивалентности и статистически меньше, чем любой эффект, который считается стоящим и считается практически эквивалентным». [12] Также были разработаны альтернативы процедуре ТОСТ. [13] Недавняя модификация TOST делает этот подход возможным в случаях повторных измерений и оценки нескольких переменных. [14]

Сравнение t-теста и теста эквивалентности

[ редактировать ]

Критерий эквивалентности можно получить с помощью t-критерия . [7] Рассмотрим t-критерий на уровне значимости α t-критерий с мощностью 1-β t-критерий для соответствующего размера эффекта d r . Если Δ=d r, а также α экв.-критерий t-критерий и β экв.-критерий t-критерий совпадают, т.е. типы ошибок (тип I и тип II) меняются местами между t-критерием и тест эквивалентности, то t-критерий даст те же результаты, что и тест эквивалентности. Чтобы добиться этого для t-критерия, необходимо либо правильно выполнить расчет размера выборки, либо необходимо скорректировать уровень значимости t-критерия α t-критерия , называемый так называемым пересмотренным t-критерием . [7] Оба подхода имеют трудности на практике, поскольку планирование размера выборки основано на непроверяемых предположениях о стандартном отклонении, а пересмотренный t-критерий приводит к численным проблемам. [7] Сохранив поведение теста, эти ограничения можно устранить с помощью теста эквивалентности. 

На рисунке ниже показано визуальное сравнение теста эквивалентности и t-критерия, когда на расчет размера выборки влияют различия между априорным стандартным отклонением. и стандартное отклонение выборки , что является распространенной проблемой. Использование теста эквивалентности вместо t-критерия дополнительно гарантирует, что α -эквивалентный тест является ограниченным, чего не делает t-критерий в случае, если при этом ошибка второго рода становится произвольно большой. С другой стороны, имея приводит к тому, что t-критерий оказывается более строгим, чем d r, указанный при планировании, что может случайно наказать источник выборки (например, производителя устройства). Это делает тест эквивалентности более безопасным в использовании.

Шансы пройти (а) t-тест и (б) тест эквивалентности в зависимости от фактической ошибки 𝜇. Более подробную информацию см. [7]

См. также

[ редактировать ]

Литература

[ редактировать ]
  • Уокер, Эстебан; Новацки, Эми С. (февраль 2011 г.). «Понимание тестирования эквивалентности и не меньшей эффективности» . Журнал общей внутренней медицины . 26 (2): 192–6. дои : 10.1007/s11606-010-1513-8 . ПМК   3019319 . ПМИД   20857339 .
  1. ^ Снапинн, Стивен М. (2000). «Испытания не меньшей эффективности» . Текущие контролируемые исследования в области сердечно-сосудистой медицины . 1 (1): 19–21. дои : 10.1186/CVM-1-1-019 . ПМК   59590 . ПМИД   11714400 .
  2. ^ Роджерс, Джеймс Л.; Ховард, Кеннет И.; Весси, Джон Т. (1993). «Использование тестов значимости для оценки эквивалентности между двумя экспериментальными группами». Психологический вестник . 113 (3): 553–565. дои : 10.1037/0033-2909.113.3.553 . ПМИД   8316613 .
  3. ^ Статистика применительно к клиническим испытаниям (4-е изд.). Спрингер. 2009. ISBN  978-1402095221 .
  4. ^ Пьяджо, Джильда; Эльбурн, Диана Р.; Альтман, Дуглас Г.; Покок, Стюарт Дж.; Эванс, Стивен Дж.В.; CONSORT Group, для (8 марта 2006 г.). «Отчеты о рандомизированных исследованиях не меньшей эффективности и эквивалентности» (PDF) . ДЖАМА . 295 (10): 1152–60. дои : 10.1001/jama.295.10.1152 . ПМИД   16522836 .
  5. ^ Пиантадоси, Стивен (28 августа 2017 г.). Клинические испытания: методологическая перспектива (Третье изд.). Джон Уайли и сыновья. п. 8.6.2. ISBN  978-1-118-95920-6 .
  6. ^ Лейкенс, Даниэль (05 мая 2017 г.). «Тест на эквивалентность» . Социальная психология и наука о личности . 8 (4): 355–362. дои : 10.1177/1948550617697177 . ПМК   5502906 . ПМИД   28736600 .
  7. ^ Jump up to: а б с д и Зиберт, Майкл; Элленбергер, Дэвид (10 апреля 2019 г.). «Валидация автоматического подсчета пассажиров: введение теста эквивалентности, индуцированного t-тестом» . Транспорт . 47 (6): 3031–3045. arXiv : 1802.03341 . дои : 10.1007/s11116-019-09991-9 . ISSN   0049-4488 .
  8. ^ Шнельбах, Тереза ​​(2022). Анализ гидравлических данных с использованием Python . doi : 10.26083/tuprints-00022026 .
  9. ^ Ян, Нико; Зиберт, Майкл (2022). «Разработка нейронного автоматического счетчика пассажиров» . Инженерные применения искусственного интеллекта . 114 . arXiv : 2203.01156 . дои : 10.1016/j.engappai.2022.105148 .
  10. ^ Маццолари, Рафаэле; Порчелли, Симона; Бишоп, Дэвид Дж.; Лейкенс, Даниэль (март 2022 г.). «Мифы и методологии: использование тестов эквивалентности и не меньшей эффективности для интервенционных исследований в физиологии упражнений и спортивной науке» . Экспериментальная физиология . 107 (3): 201–212. дои : 10.1113/EP090171 . ISSN   0958-0670 . ПМИД   35041233 . S2CID   246051376 .
  11. ^ Шуирманн, Дональд Дж. (1 декабря 1987 г.). «Сравнение процедуры двух односторонних тестов и энергетического подхода для оценки эквивалентности средней биодоступности» . Журнал фармакокинетики и биофармацевтики . 15 (6): 657–680. дои : 10.1007/BF01068419 . ISSN   0090-466X . ПМИД   3450848 . S2CID   206788664 .
  12. ^ Лейкенс, Даниэль (май 2017 г.). «Тесты эквивалентности: практическое руководство по t-тестам, корреляциям и метаанализу» . Социальная психология и наука о личности . 8 (4): 355–362. дои : 10.1177/1948550617697177 . ISSN   1948-5506 . ПМК   5502906 . ПМИД   28736600 .
  13. ^ Веллек, Стефан (2010). Проверка статистических гипотез об эквивалентности и не меньшей эффективности . Чепмен и Холл/CRC. ISBN  978-1439808184 .
  14. ^ Роуз, Эванджелин М.; Мэтью, Томас; Косс, Дерек А.; Лор, Бернард; Омланд, Кевин Э. (2018). «Новый статистический метод проверки эквивалентности: применение к песне восточной синей птицы мужского и женского пола». Поведение животных . 145 : 77–85. дои : 10.1016/j.anbehav.2018.09.004 . ISSN   0003-3472 . S2CID   53152801 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 8b121620d2eeab439bbdfe4a4f52acff__1704488940
URL1:https://arc.ask3.ru/arc/aa/8b/ff/8b121620d2eeab439bbdfe4a4f52acff.html
Заголовок, (Title) документа по адресу, URL1:
Equivalence test - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)