Jump to content

Условная логистическая регрессия

Условная логистическая регрессия — это расширение логистической регрессии , которое позволяет учитывать стратификацию и сопоставление . Основная область его применения — наблюдательные исследования и, в частности, эпидемиология . Его разработали в 1978 году Норман Бреслоу , Николас Дэй , Кэтрин Халворсен , Росс Л. Прентис и К. Сабай. [1] Это наиболее гибкая и общая процедура для сопоставления данных.

В наблюдательных исследованиях используется стратификация или сопоставление как способ контроля искажающих результатов .

Логистическая регрессия может учитывать стратификацию, имея разные постоянные члены для каждой страты. Обозначим метка (например, статус дела) е наблюдение слой и значения соответствующих предикторов. Затем мы принимаем вероятность одного наблюдения за

где является постоянным термином для й слой. Параметры в этой модели можно оценить, используя оценку максимального правдоподобия .

Например, рассмотрим оценку влияния физических упражнений на риск сердечно-сосудистых заболеваний. Если люди, которые больше занимаются спортом, моложе, имеют лучший доступ к медицинскому обслуживанию или имеют другие различия, которые улучшают их здоровье, то логистическая регрессия заболеваемости сердечно-сосудистыми заболеваниями по количеству минут, потраченных на тренировки, может переоценить влияние физических упражнений на здоровье. Чтобы решить эту проблему, мы можем группировать людей по демографическим характеристикам, таким как возраст и почтовый индекс места их проживания. Каждый слой это группа людей со схожей демографией. Вектор содержит информацию об интересующей переменной (в данном случае о минутах, потраченных на тренировку) для отдельных в слое . Значение Влияние демографии на заболеваемость сердечно-сосудистыми заболеваниями , который предполагается одинаковым для всех людей в страте. Вектор (который в этом примере является просто скаляром) представляет собой интересующую величину — влияние физических упражнений на сердечно-сосудистые заболевания. Мы также можем включить управляющие переменные в .

Мотивация

[ редактировать ]

Описанная выше логистическая регрессия работает удовлетворительно, когда количество слоев невелико по сравнению с объемом данных. Если мы сохраним фиксированное количество страт и увеличим объем данных, оценки параметров модели ( для каждого слоя и вектора ) сходятся к своим истинным значениям.

Однако патологическое поведение возникает, когда у нас много маленьких слоев, поскольку количество параметров растет с объемом данных. Например, если каждая страта содержит две точки данных, то количество параметров в модели с точки данных , поэтому количество параметров имеет тот же порядок, что и количество точек данных. В этих условиях, когда мы увеличиваем объем данных, асимптотические результаты, на которых основана оценка максимального правдоподобия, становятся недействительными, а полученные оценки являются смещенными. Условная логистическая регрессия решает эту проблему. Фактически, можно показать, что безусловный анализ данных совпадающих пар приводит к оценке отношения шансов , которое представляет собой квадрат правильного условного отношения. [2]

Помимо тестов, основанных на логистической регрессии, до условной логистической регрессии существовало несколько других тестов для сопоставленных данных, как показано в связанных тестах . Однако они не позволяли анализировать непрерывные предикторы с произвольным размером страты. Всем этим процедурам также не хватает гибкости условной логистической регрессии и, в частности, возможности контроля ковариат.

Условная вероятность

[ редактировать ]

Условная логистическая регрессия использует подход условного правдоподобия, который имеет дело с вышеуказанным патологическим поведением, обуславливая количество случаев в каждом слое. Это избавляет от необходимости оценивать параметры страты.

Когда слои представляют собой пары, где первое наблюдение является случаем, а второе — контролем, это можно увидеть следующим образом.

При аналогичных вычислениях условная вероятность возникновения страты размером , с в таких случаях первые наблюдения

где представляет собой набор всех подмножеств размера из набора .

Полная условная логарифмическая вероятность представляет собой просто сумму логарифмических вероятностей для каждого слоя. Затем оценщик определяется как это максимизирует вероятность условного журнала.

Выполнение

[ редактировать ]

Условная логистическая регрессия доступна в R как функция clogit в survival упаковка. Это в survival пакет, поскольку вероятность логарифма условной логистической модели такая же, как логарифмическая вероятность модели Кокса с определенной структурой данных. [3]

Он также доступен в Python через statsmodels пакет, начиная с версии 0.14. [4]

[ редактировать ]
  • Тест парных разностей позволяет проверить связь между бинарным результатом и непрерывным предиктором, принимая во внимание парность.
  • Тест Кохрана-Мантела-Хэнзеля позволяет проверить связь между бинарным результатом и бинарным предиктором, принимая во внимание стратификацию с произвольным размером страты. Когда условия его применения проверены, он идентичен тесту оценки условной логистической регрессии . [5]

Примечания

[ редактировать ]
  1. ^ Бреслоу Н.Э., Дэй Н.Э., Халворсен К.Т., Прентис Р.Л., Сабай С. (1978). «Оценка множественных функций относительного риска в сопоставленных исследованиях случай-контроль» . Am J Epidemiol . 108 (4): 299–307. doi : 10.1093/oxfordjournals.aje.a112623 . ПМИД   727199 .
  2. ^ Бреслоу, штат Небраска; Дэй, Северная Каролина (1980). Статистические методы в исследовании рака. Том 1. Анализ исследований «случай-контроль» . Лион, Франция: МАИР. стр. 249–251. Архивировано из оригинала 26 декабря 2016 г. Проверено 4 ноября 2016 г.
  3. ^ Ламли, Томас. «Документация R. Условная логистическая регрессия» . Проверено 3 ноября 2016 г.
  4. ^ "statsmodels.discrete.conditional_models.ConditionalLogit" . Проверено 25 марта 2023 г.
  5. ^ Дэй, штат Невада, Байар, ДП (1979). «Проверка гипотез в исследованиях случай-контроль - эквивалентность статистики Мантеля-Хэнзеля и тестов логит-оценки». Биометрия . 35 (3): 623–630. дои : 10.2307/2530253 . JSTOR   2530253 . ПМИД   497345 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: bec37e0f9fdd7b0feb8b8c60f72bed39__1716022860
URL1:https://arc.ask3.ru/arc/aa/be/39/bec37e0f9fdd7b0feb8b8c60f72bed39.html
Заголовок, (Title) документа по адресу, URL1:
Conditional logistic regression - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)