Условная логистическая регрессия
Условная логистическая регрессия — это расширение логистической регрессии , которое позволяет учитывать стратификацию и сопоставление . Основная область его применения — наблюдательные исследования и, в частности, эпидемиология . Его разработали в 1978 году Норман Бреслоу , Николас Дэй , Кэтрин Халворсен , Росс Л. Прентис и К. Сабай. [1] Это наиболее гибкая и общая процедура для сопоставления данных.
Фон
[ редактировать ]В наблюдательных исследованиях используется стратификация или сопоставление как способ контроля искажающих результатов .
Логистическая регрессия может учитывать стратификацию, имея разные постоянные члены для каждой страты. Обозначим метка (например, статус дела) е наблюдение слой и значения соответствующих предикторов. Затем мы принимаем вероятность одного наблюдения за
где является постоянным термином для й слой. Параметры в этой модели можно оценить, используя оценку максимального правдоподобия .
Например, рассмотрим оценку влияния физических упражнений на риск сердечно-сосудистых заболеваний. Если люди, которые больше занимаются спортом, моложе, имеют лучший доступ к медицинскому обслуживанию или имеют другие различия, которые улучшают их здоровье, то логистическая регрессия заболеваемости сердечно-сосудистыми заболеваниями по количеству минут, потраченных на тренировки, может переоценить влияние физических упражнений на здоровье. Чтобы решить эту проблему, мы можем группировать людей по демографическим характеристикам, таким как возраст и почтовый индекс места их проживания. Каждый слой это группа людей со схожей демографией. Вектор содержит информацию об интересующей переменной (в данном случае о минутах, потраченных на тренировку) для отдельных в слое . Значение Влияние демографии на заболеваемость сердечно-сосудистыми заболеваниями , который предполагается одинаковым для всех людей в страте. Вектор (который в этом примере является просто скаляром) представляет собой интересующую величину — влияние физических упражнений на сердечно-сосудистые заболевания. Мы также можем включить управляющие переменные в .
Мотивация
[ редактировать ]Описанная выше логистическая регрессия работает удовлетворительно, когда количество слоев невелико по сравнению с объемом данных. Если мы сохраним фиксированное количество страт и увеличим объем данных, оценки параметров модели ( для каждого слоя и вектора ) сходятся к своим истинным значениям.
Однако патологическое поведение возникает, когда у нас много маленьких слоев, поскольку количество параметров растет с объемом данных. Например, если каждая страта содержит две точки данных, то количество параметров в модели с точки данных , поэтому количество параметров имеет тот же порядок, что и количество точек данных. В этих условиях, когда мы увеличиваем объем данных, асимптотические результаты, на которых основана оценка максимального правдоподобия, становятся недействительными, а полученные оценки являются смещенными. Условная логистическая регрессия решает эту проблему. Фактически, можно показать, что безусловный анализ данных совпадающих пар приводит к оценке отношения шансов , которое представляет собой квадрат правильного условного отношения. [2]
Помимо тестов, основанных на логистической регрессии, до условной логистической регрессии существовало несколько других тестов для сопоставленных данных, как показано в связанных тестах . Однако они не позволяли анализировать непрерывные предикторы с произвольным размером страты. Всем этим процедурам также не хватает гибкости условной логистической регрессии и, в частности, возможности контроля ковариат.
Условная вероятность
[ редактировать ]Условная логистическая регрессия использует подход условного правдоподобия, который имеет дело с вышеуказанным патологическим поведением, обуславливая количество случаев в каждом слое. Это избавляет от необходимости оценивать параметры страты.
Когда слои представляют собой пары, где первое наблюдение является случаем, а второе — контролем, это можно увидеть следующим образом.
При аналогичных вычислениях условная вероятность возникновения страты размером , с в таких случаях первые наблюдения
где представляет собой набор всех подмножеств размера из набора .
Полная условная логарифмическая вероятность представляет собой просто сумму логарифмических вероятностей для каждого слоя. Затем оценщик определяется как это максимизирует вероятность условного журнала.
Выполнение
[ редактировать ]Условная логистическая регрессия доступна в R как функция clogit
в survival
упаковка. Это в survival
пакет, поскольку вероятность логарифма условной логистической модели такая же, как логарифмическая вероятность модели Кокса с определенной структурой данных. [3]
Он также доступен в Python через statsmodels
пакет, начиная с версии 0.14. [4]
Связанные тесты
[ редактировать ]- Тест парных разностей позволяет проверить связь между бинарным результатом и непрерывным предиктором, принимая во внимание парность.
- Тест Кохрана-Мантела-Хэнзеля позволяет проверить связь между бинарным результатом и бинарным предиктором, принимая во внимание стратификацию с произвольным размером страты. Когда условия его применения проверены, он идентичен тесту оценки условной логистической регрессии . [5]
Примечания
[ редактировать ]- ^ Бреслоу Н.Э., Дэй Н.Э., Халворсен К.Т., Прентис Р.Л., Сабай С. (1978). «Оценка множественных функций относительного риска в сопоставленных исследованиях случай-контроль» . Am J Epidemiol . 108 (4): 299–307. doi : 10.1093/oxfordjournals.aje.a112623 . ПМИД 727199 .
- ^ Бреслоу, штат Небраска; Дэй, Северная Каролина (1980). Статистические методы в исследовании рака. Том 1. Анализ исследований «случай-контроль» . Лион, Франция: МАИР. стр. 249–251. Архивировано из оригинала 26 декабря 2016 г. Проверено 4 ноября 2016 г.
- ^ Ламли, Томас. «Документация R. Условная логистическая регрессия» . Проверено 3 ноября 2016 г.
- ^ "statsmodels.discrete.conditional_models.ConditionalLogit" . Проверено 25 марта 2023 г.
- ^ Дэй, штат Невада, Байар, ДП (1979). «Проверка гипотез в исследованиях случай-контроль - эквивалентность статистики Мантеля-Хэнзеля и тестов логит-оценки». Биометрия . 35 (3): 623–630. дои : 10.2307/2530253 . JSTOR 2530253 . ПМИД 497345 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка )