Логистическая регрессия

В статистике логистическая модель (или логит-модель ) — это статистическая модель , которая моделирует логарифмические шансы события как линейную комбинацию одной или нескольких независимых переменных . В анализе регрессионном логистическая регрессия ^[1] (или логит-регрессия ) оценивает параметры логистической модели (коэффициенты в линейных или нелинейных комбинациях). В бинарной логистической регрессии существует одна двоичная зависимая переменная , кодируемая индикаторной переменной , где два значения помечены «0» и «1», в то время как каждая из независимых переменных может быть двоичной переменной (два класса, кодируемые индикатором). переменная) или непрерывная переменная (любое действительное значение). Соответствующая вероятность значения, помеченного «1», может варьироваться от 0 (определенно значения «0») до 1 (определенно значения «1»), отсюда и маркировка; ^[2] Функция, которая преобразует логарифм шансов в вероятность, — это логистическая функция , отсюда и название. Единица измерения шкалы логарифмических шансов называется логит , от логистическая единица слова , отсюда и альтернативные названия. См. § «История» и § «Определение» для формальной математики, а также § «Пример» для рабочего примера.

Бинарные переменные широко используются в статистике для моделирования вероятности возникновения определенного класса или события, например, вероятности победы команды, здоровья пациента и т. д. (см. § Приложения ), а логистическая модель была наиболее часто используемая модель бинарной регрессии примерно с 1970 года. ^[3] Бинарные переменные можно обобщить до категориальных переменных , когда существует более двух возможных значений (например, изображение кошки, собаки, льва и т. д.), а бинарную логистическую регрессию обобщить до полиномиальной логистической регрессии . Если несколько категорий упорядочены , можно использовать порядковую логистическую регрессию (например, порядковую логистическую модель с пропорциональными шансами). ^[4]). см. в § Расширения Дополнительные расширения . Сама модель логистической регрессии просто моделирует вероятность выхода с точки зрения входных данных и не выполняет статистическую классификацию (это не классификатор), хотя ее можно использовать для создания классификатора, например, выбрав пороговое значение и классифицируя входные данные с вероятностью. больше порогового значения для одного класса и ниже порогового значения для другого; это распространенный способ создания двоичного классификатора .

Также могут использоваться аналогичные линейные модели для двоичных переменных с другой сигмовидной функцией вместо логистической функции (для преобразования линейной комбинации в вероятность), в первую очередь пробит-модель ; см. § Альтернативы . Определяющей характеристикой логистической модели является то, что увеличение одной из независимых переменных мультипликативно масштабирует шансы данного результата с постоянной скоростью, при этом каждая независимая переменная имеет свой собственный параметр; для двоичной зависимой переменной это обобщает отношение шансов . Говоря более абстрактно, логистическая функция является естественным параметром распределения Бернулли и в этом смысле является «простейшим» способом преобразования действительного числа в вероятность. В частности, он максимизирует энтропию (минимизирует добавленную информацию) и в этом смысле делает наименьшее количество предположений относительно моделируемых данных; см. § Максимальная энтропия .

Параметры логистической регрессии чаще всего оцениваются с помощью оценки максимального правдоподобия (MLE). , здесь нет выражения в замкнутой форме В отличие от линейного метода наименьших квадратов ; см. § Примерка модели . Логистическая регрессия с помощью MLE играет такую же базовую роль для бинарных или категориальных ответов, как и линейная регрессия с помощью обычных наименьших квадратов (OLS) для скалярных ответов: это простая, хорошо проанализированная базовая модель; см. § Сравнение с линейной регрессией для обсуждения. Логистическая регрессия как общая статистическая модель была первоначально разработана и популяризирована в первую очередь Джозефом Берксоном . ^[5] начиная с Берксона (1944) , где он придумал «логит»; см . § История .

Приложения

Общий

Логистическая регрессия используется в различных областях, включая машинное обучение, большинство областей медицины и социальные науки. Например, шкала тяжести травм и травм ( TRISS ), которая широко используется для прогнозирования смертности пациентов с травмами, первоначально была разработана Boyd et al. с использованием логистической регрессии. ^[6] Многие другие медицинские шкалы, используемые для оценки тяжести состояния пациента, были разработаны с использованием логистической регрессии. ^[7]^[8]^[9]^[10] Логистическая регрессия может использоваться для прогнозирования риска развития того или иного заболевания (например, диабета , ишемической болезни сердца ) на основе наблюдаемых характеристик пациента (возраст, пол, индекс массы тела , результаты различных анализов крови и т. д.). ^[11]^[12] Другим примером может быть прогнозирование того, проголосует ли непальский избиратель за Конгресс Непала, Коммунистическую партию Непала или любую другую партию, на основе возраста, дохода, пола, расы, штата проживания, голосов на предыдущих выборах и т. д. ^[13] Этот метод также можно использовать в технике , особенно для прогнозирования вероятности отказа данного процесса, системы или продукта. ^[14]^[15] Он также используется в маркетинговых приложениях, таких как прогнозирование склонности клиента к покупке продукта или прекращению подписки и т. д. ^[16] В экономике его можно использовать для прогнозирования вероятности того, что человек окажется на рынке труда, а в бизнес-приложении можно было бы предсказать вероятность того, что домовладелец не сможет выплатить ипотечный кредит . Условные случайные поля , расширение логистической регрессии на последовательные данные, используются при обработке естественного языка . Специалисты по планированию стихийных бедствий и инженеры полагаются на эти модели для прогнозирования решений, принимаемых домовладельцами или жильцами зданий при мелкомасштабной и крупномасштабной эвакуации, например, пожарах в зданиях, лесных пожарах, ураганах и других. ^[17]^[18]^[19] Эти модели помогают в разработке надежных планов борьбы со стихийными бедствиями и более безопасного проектирования застроенной среды .

Контролируемое машинное обучение

Логистическая регрессия — это контролируемый алгоритм машинного обучения , широко используемый для задач двоичной классификации , таких как определение того, является ли электронное письмо спамом или нет, а также диагностика заболеваний путем оценки наличия или отсутствия конкретных состояний на основе результатов тестирования пациентов. Этот подход использует логистическую (или сигмовидную) функцию для преобразования линейной комбинации входных функций в значение вероятности в диапазоне от 0 до 1. Эта вероятность указывает на вероятность того, что данный вход соответствует одной из двух предопределенных категорий. Основной механизм логистической регрессии основан на способности логистической функции точно моделировать вероятность бинарных результатов. Благодаря своей характерной S-образной кривой логистическая функция эффективно сопоставляет любое действительное число со значением в интервале от 0 до 1. Эта функция делает его особенно подходящим для задач двоичной классификации, таких как сортировка электронных писем на «спам» или «не спам». Вычисляя вероятность того, что зависимая переменная будет отнесена к определенной группе, логистическая регрессия обеспечивает вероятностную основу, которая поддерживает принятие обоснованных решений. ^[20]

Пример

Проблема

В качестве простого примера мы можем использовать логистическую регрессию с одной независимой переменной и двумя категориями, чтобы ответить на следующий вопрос:

Группа из 20 студентов тратит от 0 до 6 часов на подготовку к экзамену. Как количество часов, потраченных на обучение, влияет на вероятность сдачи студентом экзамена?

Причина использования логистической регрессии для этой задачи заключается в том, что значения зависимой переменной «пройдено» и «не пройдено», хотя и представлены «1» и «0», не являются кардинальными числами . Если бы проблема была изменена таким образом, что «прошел/не прошел» оценку от 0 до 100 (количественное число), то простой регрессионный анализ можно было бы использовать .

В таблице показано количество часов, потраченных на обучение каждым студентом, а также сведения о том, сдали ли они экзамен (1) или не сдали экзамен (0).

Часы ( х _k )	0.50	0.75	1.00	1.25	1.50	1.75	1.75	2.00	2.25	2.50	2.75	3.00	3.25	3.50	4.00	4.25	4.50	4.75	5.00	5.50
Пас ( y _k )	0	0	0	0	0	0	1	0	1	0	1	0	1	0	1	1	1	1	1	1

Мы хотим подогнать логистическую функцию к данным, состоящим из изученных часов ( x _k ) и результатов теста ( y _k =1 для прохождения, 0 для провала). Точки данных индексируются индексом k , который начинается с $k=1$ к $k=K=20$ . Переменная x называется « объясняющей переменной », а переменная y называется « категорической переменной », состоящей из двух категорий: «пройден» или «не пройден», соответствующих категориальным значениям 1 и 0 соответственно.

Модель

Логистическая функция имеет вид:

p(x)={\frac {1}{1+e^{-(x-\mu )/s}}}

где μ — параметр местоположения (середина кривой, где $p(\mu )=1/2$ ) и s — параметр масштаба . Это выражение можно переписать так:

p(x)={\frac {1}{1+e^{-(\beta _{0}+\beta _{1}x)}}}

где $\beta _{0}=-\mu /s$ и известен как точка пересечения (это вертикальная точка пересечения или точка пересечения по оси y линии $y=\beta _{0}+\beta _{1}x$ ), и $\beta _{1}=1/s$ (параметр обратного масштаба или параметр скорости ): это точка пересечения по оси y и наклон логарифмических шансов как функция x . Наоборот, $\mu =-\beta _{0}/\beta _{1}$ и $s=1/\beta _{1}$ .

Соответствовать

Обычная мера согласия для логистической регрессии использует логистические потери (или логарифмические потери ), отрицательное логарифмическое правдоподобие . заданных xk и yk _{напишите} Для $p_{k}=p(x_{k})$ . ⁠ $p_{k}$ ⁠ — вероятности того, что соответствующие ⁠ $y_{k}$ ⁠ будет равен единице и ⁠ $1-p_{k}$ ⁠ — вероятности того, что они будут равны нулю (см. Распределение Бернулли ). Мы хотим найти значения ⁠ $\beta _{0}$ ⁠ и ⁠ $\beta _{1}$ ⁠ которые обеспечивают «наилучшее соответствие» данным. В случае линейной регрессии сумма квадратов отклонений аппроксимации от точек данных ( yk _{функция} ), квадратичная потеря ошибки , принимается в качестве меры качества аппроксимации, и наилучшее аппроксимация получается, когда эта сведен к минимуму .

Логарифмические потери для k -й точки ⁠ $\ell _{k}$ ⁠ это:

\ell _{k}={\begin{cases}-\ln p_{k}&{\text{ if }}y_{k}=1,\\-\ln(1-p_{k})&{\text{ if }}y_{k}=0.\end{cases}}

Потери журнала можно интерпретировать как « неожиданность » фактического результата . $y_{k}$ ⁠ относительно предсказания ⁠ $p_{k}$ ⁠ и является мерой информационного содержания . Логарифмические потери всегда больше или равны 0, равны 0 только в случае идеального прогноза (т. е. когда $p_{k}=1$ и $y_{k}=1$ , или $p_{k}=0$ и $y_{k}=0$ ) и приближается к бесконечности по мере ухудшения прогноза (т. е. когда $y_{k}=1$ и $p_{k}\to 0$ или $y_{k}=0$ и $p_{k}\to 1$ ), что означает, что фактический результат «более неожиданный». Поскольку значение логистической функции всегда находится строго между нулем и единицей, логарифмические потери всегда больше нуля и меньше бесконечности. В отличие от линейной регрессии, где модель может иметь нулевые потери в какой-либо точке при прохождении через точку данных (и нулевые потери в целом, если все точки находятся на линии), в логистической регрессии невозможно иметь нулевые потери в любой точке. очков, так как ⁠ $y_{k}$ ⁠ либо 0, либо 1, но ⁠ $0<p_{k}<1$ ⁠ .

Их можно объединить в одно выражение:

\ell _{k}=-y_{k}\ln p_{k}-(1-y_{k})\ln(1-p_{k}).

Это выражение более формально известно как перекрестная энтропия предсказанного распределения. ${\big (}p_{k},(1-p_{k}){\big )}$ от фактического распределения ${\big (}y_{k},(1-y_{k}){\big )}$ , как распределения вероятностей в двухэлементном пространстве (пройдено, не пройдено).

Их сумма, общие потери, представляет собой общую отрицательную логарифмическую вероятность ⁠. $-\ell$ ⁠ , и наилучшее соответствие получается для этих вариантов ⁠ $\beta _{0}$ ⁠ и ⁠ $\beta _{1}$ ⁠ для чего ⁠ $-\ell$ ⁠ сведен к минимуму .

Альтернативно, вместо минимизации потерь можно максимизировать обратную величину (положительную) логарифмическую вероятность:

\ell =\sum _{k:y_{k}=1}\ln(p_{k})+\sum _{k:y_{k}=0}\ln(1-p_{k})=\sum _{k=1}^{K}\left(\,y_{k}\ln(p_{k})+(1-y_{k})\ln(1-p_{k})\right)

или, что эквивалентно, максимизировать саму функцию правдоподобия , которая представляет собой вероятность того, что данный набор данных создается определенной логистической функцией:

L=\prod _{k:y_{k}=1}p_{k}\,\prod _{k:y_{k}=0}(1-p_{k})

Этот метод известен как оценка максимального правдоподобия .

Оценка параметров

Поскольку ℓ нелинейно в ⁠ $\beta _{0}$ ⁠ и ⁠ $\beta _{1}$ ⁠ , определение их оптимальных значений потребует численных методов. Один из методов максимизации ℓ - потребовать производные от ℓ по ⁠ $\beta _{0}$ ⁠ и ⁠ $\beta _{1}$ ⁠ быть нулевым:

0={\frac {\partial \ell }{\partial \beta _{0}}}=\sum _{k=1}^{K}(y_{k}-p_{k})

0={\frac {\partial \ell }{\partial \beta _{1}}}=\sum _{k=1}^{K}(y_{k}-p_{k})x_{k}

и процедуру максимизации можно выполнить, решив два приведенных выше уравнения для ⁠ $\beta _{0}$ ⁠ и ⁠ $\beta _{1}$ ⁠ , что опять же, как правило, потребует использования численных методов.

Значения ⁠ $\beta _{0}$ ⁠ и ⁠ $\beta _{1}$ ⁠, которые максимизируют ℓ и L с использованием приведенных выше данных, оказываются:

\beta _{0}\approx -4.1

\beta _{1}\approx 1.5

что дает значение для µ и s :

\mu =-\beta _{0}/\beta _{1}\approx 2.7

s=1/\beta _{1}\approx 0.67

Прогнозы

⁠ $\beta _{0}$ ⁠ и ⁠ $\beta _{1}$ Коэффициенты ⁠ можно ввести в уравнение логистической регрессии, чтобы оценить вероятность сдачи экзамена.

Например, для студента, который учится 2 часа, введя значение $x=2$ в уравнение дает расчетную вероятность сдачи экзамена 0,25:

t=\beta _{0}+2\beta _{1}\approx -4.1+2\cdot 1.5=-1.1

p={\frac {1}{1+e^{-t}}}\approx 0.25={\text{Probability of passing exam}}

Аналогично, для студента, который учится 4 часа, предполагаемая вероятность сдачи экзамена равна 0,87:

t=\beta _{0}+4\beta _{1}\approx -4.1+4\cdot 1.5=1.9

p={\frac {1}{1+e^{-t}}}\approx 0.87={\text{Probability of passing exam}}

В этой таблице показана предполагаемая вероятность сдачи экзамена при нескольких значениях часов обучения.

Часы учебы (х)	Сдача экзамена
Часы учебы (х)	Логарифм шансов (t)	Шансы (e ^т)	Вероятность (р)
1	−2.57	0.076 ≈ 1:13.1	0.07
2	−1.07	0.34 ≈ 1:2.91	0.26
⁠ $\mu \approx 2.7$ ⁠	0	1	${\tfrac {1}{2}}$ = 0.50
3	0.44	1.55	0.61
4	1.94	6.96	0.87
5	3.45	31.4	0.97

Оценка модели

Логистический регрессионный анализ дает следующий результат.

	Коэффициент	Стандарт. Ошибка	z -значение	p -значение (Вальда)
Перехват ( β ₀ )	−4.1	1.8	−2.3	0.021
Часы ( β ₁ )	1.5	0.6	2.4	0.017

По тесту Вальда выходные данные показывают, что часы обучения значимо связаны с вероятностью сдачи экзамена ( $p=0.017$ ). Вместо метода Вальда рекомендуется использовать метод ^[21] Для расчета значения p для логистической регрессии используется тест отношения правдоподобия (LRT), который для этих данных дает $p\approx 0.00064$ (см. § Тесты на отклонение и отношение правдоподобия ниже).

Обобщения

Эта простая модель является примером бинарной логистической регрессии и имеет одну объясняющую переменную и двоичную категориальную переменную, которая может принимать одно из двух категориальных значений. Полиномиальная логистическая регрессия — это обобщение бинарной логистической регрессии, включающее любое количество объясняющих переменных и любое количество категорий.

Фон

Рисунок 1. Стандартная логистическая функция $\sigma (t)$ ; $\sigma (t)\in (0,1)$ для всех $t$ .

Определение логистической функции

Объяснение логистической регрессии можно начать с объяснения стандартной логистической функции . Логистическая функция — это сигмовидная функция , которая принимает любые реальные входные данные. $t$ и выводит значение от нуля до единицы. ^[2] Для логита это интерпретируется как входные логарифмические шансы и выходная вероятность . Стандартная функция логистическая $\sigma :\mathbb {R} \rightarrow (0,1)$ определяется следующим образом:

\sigma (t)={\frac {e^{t}}{e^{t}+1}}={\frac {1}{1+e^{-t}}}

График логистической функции на t -интервале (−6,6) показан на рисунке 1.

Предположим, что $t$ является линейной функцией одной объясняющей переменной $x$ (случай, когда $t$ представляет собой линейную комбинацию нескольких независимых переменных, рассматривается аналогично). Затем мы можем выразить $t$ следующее:

t=\beta _{0}+\beta _{1}x

И общая логистическая функция $p:\mathbb {R} \rightarrow (0,1)$ теперь можно записать как:

p(x)=\sigma (t)={\frac {1}{1+e^{-(\beta _{0}+\beta _{1}x)}}}

В логистической модели $p(x)$ интерпретируется как вероятность зависимой переменной $Y$ что соответствует успеху/случайу, а не неудаче/неслучаю. Очевидно, что переменные ответа $Y_{i}$ распределены неодинаково: $P(Y_{i}=1\mid X)$ отличается от одной точки данных $X_{i}$ другому, хотя они независимы, учитывая матрицу проектирования $X$ и общие параметры $\beta$ . ^[11]

Определение обратной логистической функции

Теперь мы можем определить функцию logit (логарифм шансов) как обратную $g=\sigma ^{-1}$ стандартной логистической функции. Легко видеть, что оно удовлетворяет:

g(p(x))=\sigma ^{-1}(p(x))=\operatorname {logit} p(x)=\ln \left({\frac {p(x)}{1-p(x)}}\right)=\beta _{0}+\beta _{1}x,

и, что эквивалентно, после возведения в степень обеих сторон мы имеем шансы:

{\frac {p(x)}{1-p(x)}}=e^{\beta _{0}+\beta _{1}x}.

Интерпретация этих терминов

В приведенных выше уравнениях члены следующие:

$g$ это функция логита. Уравнение для $g(p(x))$ иллюстрирует, что логит (т. е. логарифм шансов или натуральный логарифм шансов) эквивалентен выражению линейной регрессии.
$\ln$ обозначает натуральный логарифм .
$p(x)$ — это вероятность того, что зависимая переменная соответствует случаю при некоторой линейной комбинации предикторов. Формула для $p(x)$ иллюстрирует, что вероятность того, что зависимая переменная равна случаю, равна значению логистической функции выражения линейной регрессии. Это важно тем, что показывает, что значение выражения линейной регрессии может варьироваться от отрицательной до положительной бесконечности, и тем не менее, после преобразования результирующее выражение для вероятности $p(x)$ находится в диапазоне от 0 до 1.
$\beta _{0}$ — это результат уравнения линейной регрессии (значение критерия, когда предиктор равен нулю).
$\beta _{1}x$ — коэффициент регрессии, умноженный на некоторое значение предиктора.
база $e$ обозначает показательную функцию.

Определение шансов

Вероятность того, что зависимая переменная соответствует случаю (при некоторой линейной комбинации $x$ предикторов) эквивалентна экспоненциальной функции выражения линейной регрессии. Это иллюстрирует, как логит служит функцией связи между вероятностью и выражением линейной регрессии. Учитывая, что логит находится в диапазоне от отрицательной до положительной бесконечности, он обеспечивает адекватный критерий для проведения линейной регрессии, и логит легко преобразуется обратно в шансы. ^[2]

Таким образом, мы определяем шансы зависимой переменной, равной случаю (при некоторой линейной комбинации $x$ предикторов) следующим образом:

{\text{odds}}=e^{\beta _{0}+\beta _{1}x}.

Отношение шансов

Для непрерывной независимой переменной отношение шансов можно определить как:

\mathrm {OR} ={\frac {\operatorname {odds} (x+1)}{\operatorname {odds} (x)}}={\frac {\left({\frac {p(x+1)}{1-p(x+1)}}\right)}{\left({\frac {p(x)}{1-p(x)}}\right)}}={\frac {e^{\beta _{0}+\beta _{1}(x+1)}}{e^{\beta _{0}+\beta _{1}x}}}=e^{\beta _{1}}

Эта экспоненциальная зависимость дает интерпретацию $\beta _{1}$ : Шансы умножаются на $e^{\beta _{1}}$ за каждое увеличение x на 1 единицу. ^[22]

Для двоичной независимой переменной отношение шансов определяется как ${\frac {ad}{bc}}$ где a , b , c и d — ячейки в таблице сопряженности 2×2 . ^[23]

Несколько независимых переменных

Если имеется несколько независимых переменных, приведенное выше выражение $\beta _{0}+\beta _{1}x$ может быть пересмотрено на $\beta _{0}+\beta _{1}x_{1}+\beta _{2}x_{2}+\cdots +\beta _{m}x_{m}=\beta _{0}+\sum _{i=1}^{m}\beta _{i}x_{i}$ . Затем, когда это используется в уравнении, связывающем логарифм шансов успеха со значениями предикторов, линейная регрессия будет множественной регрессией с m объяснителями; параметры $\beta _{j}$ для всех $j=0,1,2,\dots ,m$ все оценены.

Опять же, более традиционные уравнения:

\log {\frac {p}{1-p}}=\beta _{0}+\beta _{1}x_{1}+\beta _{2}x_{2}+\cdots +\beta _{m}x_{m}

и

p={\frac {1}{1+b^{-(\beta _{0}+\beta _{1}x_{1}+\beta _{2}x_{2}+\cdots +\beta _{m}x_{m})}}}

где обычно $b=e$ .

Определение

Набор данных содержит N точек. Каждая точка i состоит из набора m входных переменных x _{1, i} ... x _m,i (также называемых независимыми переменными , объясняющими переменными, переменными-предикторами, признаками или атрибутами) и двоичной выходной переменной Y _i (также известной как как зависимая переменная , переменная ответа, выходная переменная или класс), т.е. она может принимать только два возможных значения: 0 (часто означает «нет» или «неудача») или 1 (часто означает «да» или «успех»). Цель логистической регрессии — использовать набор данных для создания прогнозной модели результирующей переменной.

переменные результата Y _iКак и в линейной регрессии, предполагается, что зависят от объясняющих переменных x _{1, i} ... x _m,i .

Независимые переменные

Независимые переменные могут быть любого типа : действительные , двоичные , категориальные и т. д. Основное различие заключается в непрерывных переменных и дискретных переменных .

(Дискретные переменные, относящиеся к более чем двум возможным вариантам выбора, обычно кодируются с использованием фиктивных переменных (или индикаторных переменных ), то есть для каждого возможного значения дискретной переменной создаются отдельные объясняющие переменные, принимающие значение 0 или 1, причем 1 означает « переменная имеет заданное значение», а 0 означает «переменная не имеет этого значения».)

Итоговые переменные

Формально результаты Y _i описываются как данные , распределенные по Бернулли , где каждый результат определяется ненаблюдаемой вероятностью p _i , которая специфична для рассматриваемого результата, но связана с объясняющими переменными. Это может быть выражено в любой из следующих эквивалентных форм:

{\begin{aligned}Y_{i}\mid x_{1,i},\ldots ,x_{m,i}\ &\sim \operatorname {Bernoulli} (p_{i})\\[5pt]\operatorname {\mathbb {E} } [Y_{i}\mid x_{1,i},\ldots ,x_{m,i}]&=p_{i}\\[5pt]\Pr(Y_{i}=y\mid x_{1,i},\ldots ,x_{m,i})&={\begin{cases}p_{i}&{\text{if }}y=1\\1-p_{i}&{\text{if }}y=0\end{cases}}\\[5pt]\Pr(Y_{i}=y\mid x_{1,i},\ldots ,x_{m,i})&=p_{i}^{y}(1-p_{i})^{(1-y)}\end{aligned}}

Значения этих четырех строк таковы:

Первая строка выражает распределение вероятностей каждого Y _i : при условии объясняющих переменных оно соответствует распределению Бернулли с параметрами pi _, вероятностью результата 1 для испытания i . Как отмечалось выше, каждое отдельное испытание имеет свою вероятность успеха, так же как каждое испытание имеет свои собственные объясняющие переменные. Вероятность успеха p _i не наблюдается, а только результат отдельного испытания Бернулли с использованием этой вероятности.
Вторая строка выражает тот факт, что ожидаемое значение каждого Y _i равно вероятности успеха p _i , что является общим свойством распределения Бернулли. Другими словами, если мы проведем большое количество испытаний Бернулли, используя одну и ту же вероятность успеха i _, а затем возьмем среднее значение всех исходов 1 и 0, то результат будет близок к pi _. p Это связано с тем, что при таком усреднении просто вычисляется доля видимых успехов, которая, как мы ожидаем, будет сходиться с основной вероятностью успеха.
Третья строка записывает функцию массы вероятности распределения Бернулли, определяющую вероятность увидеть каждый из двух возможных результатов.
Четвертая строка — это еще один способ записи функции массы вероятности, который позволяет избежать написания отдельных случаев и более удобен для определенных типов вычислений. Это основано на том, что Y _i может принимать только значение 0 или 1. В каждом случае один из показателей степени будет равен 1, «выбирая» значение под ним, а другой равен 0, «отменяя» значение под ним. это. Следовательно, результатом будет либо p _i, либо 1 − p _i , как в предыдущей строке.

Функция линейного прогнозирования

Основная идея логистической регрессии заключается в использовании механизма, уже разработанного для линейной регрессии , путем моделирования вероятности p _i с помощью линейной предикторной функции , то есть линейной комбинации объясняющих переменных и набора коэффициентов регрессии , специфичных для рассматриваемой модели. но то же самое для всех испытаний. Функция линейного предиктора $f(i)$ для конкретной точки данных i записывается как:

f(i)=\beta _{0}+\beta _{1}x_{1,i}+\cdots +\beta _{m}x_{m,i},

где $\beta _{0},\ldots ,\beta _{m}$ — коэффициенты регрессии, указывающие относительное влияние конкретной объясняющей переменной на результат.

Модель обычно придают более компактную форму следующим образом:

Коэффициенты регрессии β ₀ , β ₁ , ..., β _m группируются в один вектор β размера m + 1.
Для каждой точки данных i добавляется дополнительная поясняющая псевдопеременная x _{0, i} с фиксированным значением 1, соответствующим пересечения коэффициенту β ₀ .
Полученные объясняющие переменные x _{0, i} , x _{1, i} , ..., x _m,i затем группируются в один вектор X _i размера m + 1.

Это позволяет записать функцию линейного предиктора следующим образом:

f(i)={\boldsymbol {\beta }}\cdot \mathbf {X} _{i},

используя обозначение скалярного произведения между двумя векторами.

Множество объясняющих переменных, две категории

Приведенный выше пример бинарной логистической регрессии с одной независимой переменной можно обобщить до бинарной логистической регрессии с любым количеством объясняющих переменных x ₁ , x ₂ ,... и любым количеством категориальных значений. $y=0,1,2,\dots$ .

Для начала мы можем рассмотреть логистическую модель с M объясняющими переменными x ₁ , x ₂ ... x _M и, как в приведенном выше примере, двумя категориальными значениями ( y = 0 и 1). Для простой модели бинарной логистической регрессии мы предположили линейную связь между переменной-предиктором и логарифмом шансов (также называемым logit ) события, которое $y=1$ . Эту линейную зависимость можно распространить на случай M объясняющих переменных:

t=\log _{b}{\frac {p}{1-p}}=\beta _{0}+\beta _{1}x_{1}+\beta _{2}x_{2}+\cdots +\beta _{M}x_{M}

где t - логарифм шансов и $\beta _{i}$ являются параметрами модели. Введено дополнительное обобщение, в котором база модели ( b ) не ограничивается числом Эйлера e . В большинстве приложений база $b$ логарифма обычно принимается равным e . Однако в некоторых случаях может быть проще сообщить результаты, работая по основанию 2 или 10.

Для более компактного обозначения мы укажем объясняющие переменные и коэффициенты β как ⁠ $(M+1)$ ⁠ -мерные векторы:

{\boldsymbol {x}}=\{x_{0},x_{1},x_{2},\dots ,x_{M}\}

{\boldsymbol {\beta }}=\{\beta _{0},\beta _{1},\beta _{2},\dots ,\beta _{M}\}

с добавленной объясняющей переменной x ₀ =1. Логит теперь может быть записан как:

t=\sum _{m=0}^{M}\beta _{m}x_{m}={\boldsymbol {\beta }}\cdot x

Решая вероятность p, что $y=1$ дает:

p({\boldsymbol {x}})={\frac {b^{{\boldsymbol {\beta }}\cdot {\boldsymbol {x}}}}{1+b^{{\boldsymbol {\beta }}\cdot {\boldsymbol {x}}}}}={\frac {1}{1+b^{-{\boldsymbol {\beta }}\cdot {\boldsymbol {x}}}}}=S_{b}(t)

,

где $S_{b}$ это сигмовидная функция с основанием $b$ . Приведенная выше формула показывает, что как только $\beta _{m}$ фиксированы, мы можем легко вычислить либо логарифмические шансы, которые $y=1$ для данного наблюдения или вероятность того, что $y=1$ для данного наблюдения. Основной вариант использования логистической модели — это наблюдение. ${\boldsymbol {x}}$ , и оценим вероятность $p({\boldsymbol {x}})$ что $y=1$ . Оптимальные бета-коэффициенты снова могут быть найдены путем максимизации логарифмического правдоподобия. Для измерений K , определяющих ${\boldsymbol {x}}_{k}$ как объясняющий вектор k -го измерения, и $y_{k}$ В качестве категориального результата этого измерения логарифм правдоподобия может быть записан в форме, очень похожей на простую $M=1$ случай выше:

\ell =\sum _{k=1}^{K}y_{k}\log _{b}(p({\boldsymbol {x_{k}}}))+\sum _{k=1}^{K}(1-y_{k})\log _{b}(1-p({\boldsymbol {x_{k}}}))

Как и в простом примере выше, для поиска оптимальных параметров β потребуются численные методы. Одним из полезных методов является приравнивание производных логарифмического правдоподобия по каждому из параметров β нулю, что дает набор уравнений, которые будут выполняться при максимуме логарифмического правдоподобия:

{\frac {\partial \ell }{\partial \beta _{m}}}=0=\sum _{k=1}^{K}y_{k}x_{mk}-\sum _{k=1}^{K}p({\boldsymbol {x}}_{k})x_{mk}

где x _mk — значение объясняющей переменной x _m по k-му измерению.

Рассмотрим пример с $M=2$ объясняющие переменные, $b=10$ , и коэффициенты $\beta _{0}=-3$ , $\beta _{1}=1$ , и $\beta _{2}=2$ которые были определены вышеуказанным методом. Если быть более конкретным, то модель такова:

t=\log _{10}{\frac {p}{1-p}}=-3+x_{1}+2x_{2}

p={\frac {b^{{\boldsymbol {\beta }}\cdot {\boldsymbol {x}}}}{1+b^{{\boldsymbol {\beta }}\cdot x}}}={\frac {b^{\beta _{0}+\beta _{1}x_{1}+\beta _{2}x_{2}}}{1+b^{\beta _{0}+\beta _{1}x_{1}+\beta _{2}x_{2}}}}={\frac {1}{1+b^{-(\beta _{0}+\beta _{1}x_{1}+\beta _{2}x_{2})}}}

,

где p — вероятность того, что событие $y=1$ . Это можно интерпретировать следующим образом:

$\beta _{0}=-3$ это y -перехват . Это лог-шанс события, которое $y=1$ , когда предсказатели $x_{1}=x_{2}=0$ . Возведя в степень, мы можем увидеть, что когда $x_{1}=x_{2}=0$ вероятность того, что событие $y=1$ имеют значения от 1 до 1000, или $10^{-3}$ . Аналогично, вероятность события, которое $y=1$ когда $x_{1}=x_{2}=0$ может быть вычислено как $1/(1000+1)=1/1001.$
$\beta _{1}=1$ означает, что увеличение $x_{1}$ на 1 увеличивает логарифмические шансы на $1$ . Итак, если $x_{1}$ увеличивается на 1, вероятность того, что $y=1$ увеличиться в раз $10^{1}$ . Вероятность $y=1$ также увеличилось, но не настолько, насколько увеличились шансы.
$\beta _{2}=2$ означает, что увеличение $x_{2}$ на 1 увеличивает логарифмические шансы на $2$ . Итак, если $x_{2}$ увеличивается на 1, вероятность того, что $y=1$ увеличиться в раз $10^{2}.$ Обратите внимание, как эффект $x_{2}$ на логарифмические шансы в два раза больше, чем эффект $x_{1}$ , но влияние на шансы в 10 раз больше. влияние на вероятность Но $y=1$ не в 10 раз больше, просто влияние на шансы в 10 раз больше.

Полиномиальная логистическая регрессия: множество объясняющих переменных и множество категорий.

В приведенных выше случаях двух категорий (биномиальная логистическая регрессия) категории были проиндексированы «0» и «1», и у нас было две вероятности: вероятность того, что результат находился в категории 1, определялась выражением $p({\boldsymbol {x}})$ а вероятность того, что результат относился к категории 0, определялась выражением $1-p({\boldsymbol {x}})$ . Сумма этих вероятностей равна 1, что должно быть правдой, поскольку «0» и «1» — единственные возможные категории в этой настройке.

В общем, если у нас есть ⁠ $M+1$ ⁠ объясняющие переменные (включая x ₀ ) и ⁠ $N+1$ ⁠ категории, нам понадобятся ⁠ $N+1$ ⁠ отдельные вероятности, по одной для каждой категории, с индексом n , которые описывают вероятность того, что категориальный результат y будет в категории y=n , зависящей от вектора ковариат x . Сумма этих вероятностей по всем категориям должна равняться 1. Используя математически удобную базу e , эти вероятности равны:

p_{n}({\boldsymbol {x}})={\frac {e^{{\boldsymbol {\beta }}_{n}\cdot {\boldsymbol {x}}}}{1+\sum _{u=1}^{N}e^{{\boldsymbol {\beta }}_{u}\cdot {\boldsymbol {x}}}}}

для

n=1,2,\dots ,N

p_{0}({\boldsymbol {x}})=1-\sum _{n=1}^{N}p_{n}({\boldsymbol {x}})={\frac {1}{1+\sum _{u=1}^{N}e^{{\boldsymbol {\beta }}_{u}\cdot {\boldsymbol {x}}}}}

Каждая из вероятностей, кроме $p_{0}({\boldsymbol {x}})$ будет иметь свой собственный набор коэффициентов регрессии ${\boldsymbol {\beta }}_{n}$ . Видно, что, как и требовалось, сумма $p_{n}({\boldsymbol {x}})$ по всем категориям n равно 1. Выбор $p_{0}({\boldsymbol {x}})$ определяться в терминах других вероятностей искусственно. Любая из вероятностей могла быть выбрана для такого определения. Это особое значение n называется «индексом поворота», а логарифмические шансы ( t _n ) выражаются через вероятность поворота и снова выражаются как линейная комбинация объясняющих переменных:

t_{n}=\ln \left({\frac {p_{n}({\boldsymbol {x}})}{p_{0}({\boldsymbol {x}})}}\right)={\boldsymbol {\beta }}_{n}\cdot {\boldsymbol {x}}

Отметим также, что для простого случая $N=1$ , восстанавливается случай двух категорий, при этом $p({\boldsymbol {x}})=p_{1}({\boldsymbol {x}})$ и $p_{0}({\boldsymbol {x}})=1-p_{1}({\boldsymbol {x}})$ .

Теперь можно вычислить логарифмическую вероятность того, что конкретный набор K измерений или точек данных будет сгенерирован вышеуказанными вероятностями. Индексируя каждое измерение индексом k , обозначим k -й набор измеряемых независимых переменных через ${\boldsymbol {x}}_{k}$ и их категориальные результаты обозначаются через $y_{k}$ которое может быть равно любому целому числу из [0,N]. Логарифмическая вероятность тогда равна:

\ell =\sum _{k=1}^{K}\sum _{n=0}^{N}\Delta (n,y_{k})\,\ln(p_{n}({\boldsymbol {x}}_{k}))

где $\Delta (n,y_{k})$ – индикаторная функция , равная 1, если y _k = n , и нулю в противном случае. В случае двух объясняющих переменных эта индикаторная функция определялась как y _k при n = 1 и 1-y _k при n = 0. Это было удобно, но не обязательно. ^[24] Опять же, оптимальные бета-коэффициенты могут быть найдены путем максимизации логарифмической функции правдоподобия, обычно с использованием численных методов. Возможный метод решения состоит в том, чтобы установить производные логарифмического правдоподобия по каждому бета-коэффициенту равными нулю и найти бета-коэффициенты:

{\frac {\partial \ell }{\partial \beta _{nm}}}=0=\sum _{k=1}^{K}\Delta (n,y_{k})x_{mk}-\sum _{k=1}^{K}p_{n}({\boldsymbol {x}}_{k})x_{mk}

где $\beta _{nm}$ - m -й коэффициент ${\boldsymbol {\beta }}_{n}$ вектор и $x_{mk}$ – m -я объясняющая переменная k -го измерения. Как только бета-коэффициенты будут оценены на основе данных, мы сможем оценить вероятность того, что любой последующий набор объясняющих переменных приведет к любой из возможных категорий результатов.

Интерпретации

Существуют различные эквивалентные спецификации и интерпретации логистической регрессии, которые вписываются в разные типы более общих моделей и допускают различные обобщения.

Как обобщенная линейная модель

Конкретная модель, используемая логистической регрессией, которая отличает ее от стандартной линейной регрессии и от других типов регрессионного анализа, используемых для двоичных результатов, представляет собой способ, которым вероятность конкретного результата связана с функцией линейного предиктора:

\operatorname {logit} (\operatorname {\mathbb {E} } [Y_{i}\mid x_{1,i},\ldots ,x_{m,i}])=\operatorname {logit} (p_{i})=\ln \left({\frac {p_{i}}{1-p_{i}}}\right)=\beta _{0}+\beta _{1}x_{1,i}+\cdots +\beta _{m}x_{m,i}

Написанное с использованием более компактной записи, описанной выше, это:

\operatorname {logit} (\operatorname {\mathbb {E} } [Y_{i}\mid \mathbf {X} _{i}])=\operatorname {logit} (p_{i})=\ln \left({\frac {p_{i}}{1-p_{i}}}\right)={\boldsymbol {\beta }}\cdot \mathbf {X} _{i}

Эта формулировка выражает логистическую регрессию как тип обобщенной линейной модели , которая предсказывает переменные с различными типами распределений вероятностей , подгоняя линейную предикторную функцию вышеуказанной формы к некоторому произвольному преобразованию ожидаемого значения переменной.

Интуитивный подход к преобразованию с использованием функции логит (натуральный логарифм шансов) был объяснен выше. ^{[ нужны разъяснения ]}. Это также имеет практический эффект преобразования вероятности (которая ограничена диапазоном от 0 до 1) в переменную, которая находится в диапазоне более $(-\infty ,+\infty )$ — тем самым сопоставляя потенциальный диапазон функции линейного прогнозирования в правой части уравнения.

И вероятности pi _, и коэффициенты регрессии не наблюдаются, и средства их определения не являются частью самой модели. Обычно они определяются с помощью какой-либо процедуры оптимизации, например, оценки максимального правдоподобия , которая находит значения, которые лучше всего соответствуют наблюдаемым данным (т. е. которые дают наиболее точные прогнозы для уже наблюдаемых данных), обычно с учетом условий регуляризации , которые стремятся исключить маловероятные данные. значения, например чрезвычайно большие значения для любого из коэффициентов регрессии. Использование условия регуляризации эквивалентно выполнению максимальной апостериорной оценки (MAP), что является расширением метода максимального правдоподобия. (Регуляризация чаще всего выполняется с использованием квадратичной функции регуляризации , которая эквивалентна размещению Гаусса априорного распределения с нулевым средним на коэффициентах, но возможны и другие регуляризаторы.) Независимо от того, используется ли регуляризация, обычно невозможно найти решение закрытой формы; вместо этого необходимо использовать итерационный численный метод, например итеративно перевзвешенный метод наименьших квадратов (IRLS) или, что чаще встречается в наши дни, квазиньютоновский метод , такой как метод L-BFGS . ^[25]

Интерпретация оценок параметра β _j заключается в аддитивном влиянии на логарифм шансов единичного изменения j объясняющей переменной . В случае дихотомической объясняющей переменной, например, пола $e^{\beta }$ — это оценка шансов на достижение результата, скажем, для мужчин по сравнению с женщинами.

Эквивалентная формула использует обратную функцию логит, которая является логистической функцией , т.е.:

\operatorname {\mathbb {E} } [Y_{i}\mid \mathbf {X} _{i}]=p_{i}=\operatorname {logit} ^{-1}({\boldsymbol {\beta }}\cdot \mathbf {X} _{i})={\frac {1}{1+e^{-{\boldsymbol {\beta }}\cdot \mathbf {X} _{i}}}}

Формулу также можно записать в виде распределения вероятностей (в частности, с использованием функции массы вероятности ):

\Pr(Y_{i}=y\mid \mathbf {X} _{i})={p_{i}}^{y}(1-p_{i})^{1-y}=\left({\frac {e^{{\boldsymbol {\beta }}\cdot \mathbf {X} _{i}}}{1+e^{{\boldsymbol {\beta }}\cdot \mathbf {X} _{i}}}}\right)^{y}\left(1-{\frac {e^{{\boldsymbol {\beta }}\cdot \mathbf {X} _{i}}}{1+e^{{\boldsymbol {\beta }}\cdot \mathbf {X} _{i}}}}\right)^{1-y}={\frac {e^{{\boldsymbol {\beta }}\cdot \mathbf {X} _{i}\cdot y}}{1+e^{{\boldsymbol {\beta }}\cdot \mathbf {X} _{i}}}}

Как модель со скрытыми переменными

Логистическая модель имеет эквивалентную формулировку как модель со скрытыми переменными . Эта формулировка распространена в теории моделей дискретного выбора и позволяет легко расширить ее до некоторых более сложных моделей с множественным коррелированным выбором, а также сравнить логистическую регрессию с тесно связанной пробит-моделью .

Представьте, что для каждого испытания i существует непрерывная латентная переменная Y _i^* (т.е. ненаблюдаемая случайная величина ), которая распределяется следующим образом:

Y_{i}^{\ast }={\boldsymbol {\beta }}\cdot \mathbf {X} _{i}+\varepsilon _{i}\,

где

\varepsilon _{i}\sim \operatorname {Logistic} (0,1)\,

т.е. скрытая переменная может быть записана непосредственно через функцию линейного прогнозирования и аддитивную переменную случайной ошибки , которая распределяется в соответствии со стандартным логистическим распределением .

Тогда Y _i можно рассматривать как индикатор того, является ли эта скрытая переменная положительной:

Y_{i}={\begin{cases}1&{\text{if }}Y_{i}^{\ast }>0\ {\text{ i.e. }}{-\varepsilon _{i}}<{\boldsymbol {\beta }}\cdot \mathbf {X} _{i},\\0&{\text{otherwise.}}\end{cases}}

Выбор моделирования переменной ошибки именно со стандартным логистическим распределением, а не с общим логистическим распределением с произвольными значениями местоположения и масштаба, кажется ограничительным, но на самом деле это не так. Следует иметь в виду, что мы можем сами выбирать коэффициенты регрессии и очень часто можем использовать их для компенсации изменений параметров распределения переменной ошибки. Например, распределение логистической переменной ошибки с ненулевым параметром местоположения ц (который устанавливает среднее значение) эквивалентно распределению с нулевым параметром местоположения, где ц был добавлен к коэффициенту пересечения. Обе ситуации дают одно и то же значение Y _i^* независимо от настроек объясняющих переменных. Аналогично, произвольный параметр масштаба s эквивалентен установке параметра масштаба на 1, а затем делению всех коэффициентов регрессии на s . В последнем случае результирующее значение Y _i^* раз меньше, будет в s чем в первом случае, для всех наборов объясняющих переменных, но, что особенно важно, он всегда будет оставаться по ту же сторону от 0 и, следовательно, приведет к одному и тому же Y _i выбору .

(Это предсказывает, что нерелевантность параметра масштаба может не распространяться на более сложные модели, в которых доступно более двух вариантов.)

Оказывается, эта формулировка в точности эквивалентна предыдущей, сформулированной в терминах обобщенной линейной модели и без каких-либо скрытых переменных . Это можно показать следующим образом, используя тот факт, что кумулятивная функция распределения (CDF) стандартного логистического распределения представляет собой логистическую функцию , которая является обратной логит-функцией , т.е.

\Pr(\varepsilon _{i}<x)=\operatorname {logit} ^{-1}(x)

Затем:

{\begin{aligned}\Pr(Y_{i}=1\mid \mathbf {X} _{i})&=\Pr(Y_{i}^{\ast }>0\mid \mathbf {X} _{i})\\[5pt]&=\Pr({\boldsymbol {\beta }}\cdot \mathbf {X} _{i}+\varepsilon _{i}>0)\\[5pt]&=\Pr(\varepsilon _{i}>-{\boldsymbol {\beta }}\cdot \mathbf {X} _{i})\\[5pt]&=\Pr(\varepsilon _{i}<{\boldsymbol {\beta }}\cdot \mathbf {X} _{i})&&{\text{(because the logistic distribution is symmetric)}}\\[5pt]&=\operatorname {logit} ^{-1}({\boldsymbol {\beta }}\cdot \mathbf {X} _{i})&\\[5pt]&=p_{i}&&{\text{(see above)}}\end{aligned}}

Эта формулировка, которая является стандартной в моделях дискретного выбора , проясняет связь между логистической регрессией («логит-моделью») и пробит-моделью , которая использует переменную ошибки, распределенную в соответствии со стандартным нормальным распределением вместо стандартного логистического распределения. И логистическое, и нормальное распределения симметричны и имеют базовую унимодальную форму «колокола». Единственное отличие состоит в том, что логистическое распределение имеет несколько более тяжелые хвосты , что означает, что оно менее чувствительно к посторонним данным (и, следовательно, несколько более устойчиво к моделированию неправильных спецификаций или ошибочных данных).

Двусторонняя модель со скрытыми переменными

Еще одна формулировка использует две отдельные скрытые переменные:

{\begin{aligned}Y_{i}^{0\ast }&={\boldsymbol {\beta }}_{0}\cdot \mathbf {X} _{i}+\varepsilon _{0}\,\\Y_{i}^{1\ast }&={\boldsymbol {\beta }}_{1}\cdot \mathbf {X} _{i}+\varepsilon _{1}\,\end{aligned}}

где

{\begin{aligned}\varepsilon _{0}&\sim \operatorname {EV} _{1}(0,1)\\\varepsilon _{1}&\sim \operatorname {EV} _{1}(0,1)\end{aligned}}

где EV ₁ (0,1) — стандартное распределение экстремальных значений типа 1 : т.е.

\Pr(\varepsilon _{0}=x)=\Pr(\varepsilon _{1}=x)=e^{-x}e^{-e^{-x}}

Затем

Y_{i}={\begin{cases}1&{\text{if }}Y_{i}^{1\ast }>Y_{i}^{0\ast },\\0&{\text{otherwise.}}\end{cases}}

Эта модель имеет отдельную скрытую переменную и отдельный набор коэффициентов регрессии для каждого возможного результата зависимой переменной. Причина такого разделения в том, что оно позволяет легко распространить логистическую регрессию на категориальные переменные с несколькими исходами, как в полиномиальной логит- модели. В такой модели естественно моделировать каждый возможный результат, используя другой набор коэффициентов регрессии. Также возможно мотивировать каждую из отдельных скрытых переменных как теоретическую полезность, связанную с совершением соответствующего выбора, и, таким образом, мотивировать логистическую регрессию с точки зрения теории полезности . (С точки зрения теории полезности, рациональный субъект всегда выбирает выбор с наибольшей связанной с ним полезностью.) Это подход, используемый экономистами при формулировании моделей дискретного выбора , поскольку он одновременно обеспечивает теоретически прочную основу и облегчает интуитивное представление о модели, которая в свою очередь, позволяет легко рассматривать различные виды расширений. (См. пример ниже.)

Выбор распределения экстремальных значений типа 1 кажется довольно произвольным, но он заставляет математически работать, и его использование может быть возможно оправдать с помощью теории рационального выбора .

Оказывается, эта модель эквивалентна предыдущей модели, хотя это кажется неочевидным, поскольку теперь существует два набора коэффициентов регрессии и переменных ошибок, а переменные ошибок имеют другое распределение. Фактически эта модель сводится непосредственно к предыдущей со следующими заменами:

{\boldsymbol {\beta }}={\boldsymbol {\beta }}_{1}-{\boldsymbol {\beta }}_{0}

\varepsilon =\varepsilon _{1}-\varepsilon _{0}

Интуитивное понимание этого исходит из того факта, что, поскольку мы выбираем, основываясь максимум на двух значениях, имеет значение только их разница, а не точные значения — и это фактически удаляет одну степень свободы . Другим важным фактом является то, что разница двух переменных с распределением экстремальных значений типа 1 представляет собой логистическое распределение, т.е. $\varepsilon =\varepsilon _{1}-\varepsilon _{0}\sim \operatorname {Logistic} (0,1).$ Мы можем продемонстрировать эквивалент следующим образом:

{\begin{aligned}\Pr(Y_{i}=1\mid \mathbf {X} _{i})={}&\Pr \left(Y_{i}^{1\ast }>Y_{i}^{0\ast }\mid \mathbf {X} _{i}\right)&\\[5pt]={}&\Pr \left(Y_{i}^{1\ast }-Y_{i}^{0\ast }>0\mid \mathbf {X} _{i}\right)&\\[5pt]={}&\Pr \left({\boldsymbol {\beta }}_{1}\cdot \mathbf {X} _{i}+\varepsilon _{1}-\left({\boldsymbol {\beta }}_{0}\cdot \mathbf {X} _{i}+\varepsilon _{0}\right)>0\right)&\\[5pt]={}&\Pr \left(({\boldsymbol {\beta }}_{1}\cdot \mathbf {X} _{i}-{\boldsymbol {\beta }}_{0}\cdot \mathbf {X} _{i})+(\varepsilon _{1}-\varepsilon _{0})>0\right)&\\[5pt]={}&\Pr(({\boldsymbol {\beta }}_{1}-{\boldsymbol {\beta }}_{0})\cdot \mathbf {X} _{i}+(\varepsilon _{1}-\varepsilon _{0})>0)&\\[5pt]={}&\Pr(({\boldsymbol {\beta }}_{1}-{\boldsymbol {\beta }}_{0})\cdot \mathbf {X} _{i}+\varepsilon >0)&&{\text{(substitute }}\varepsilon {\text{ as above)}}\\[5pt]={}&\Pr({\boldsymbol {\beta }}\cdot \mathbf {X} _{i}+\varepsilon >0)&&{\text{(substitute }}{\boldsymbol {\beta }}{\text{ as above)}}\\[5pt]={}&\Pr(\varepsilon >-{\boldsymbol {\beta }}\cdot \mathbf {X} _{i})&&{\text{(now, same as above model)}}\\[5pt]={}&\Pr(\varepsilon <{\boldsymbol {\beta }}\cdot \mathbf {X} _{i})&\\[5pt]={}&\operatorname {logit} ^{-1}({\boldsymbol {\beta }}\cdot \mathbf {X} _{i})\\[5pt]={}&p_{i}\end{aligned}}

Пример

В качестве примера рассмотрим выборы на уровне провинции, на которых стоит выбор между правоцентристской партией, левоцентристской партией и сепаратистской партией (например, Квебекская партия , которая хочет Квебека отделения от Канады ). Затем мы использовали бы три скрытые переменные, по одной для каждого выбора. Затем, в соответствии с теорией полезности , мы можем интерпретировать скрытые переменные как выражение полезности , возникающей в результате каждого из выборов. Мы также можем интерпретировать коэффициенты регрессии как указывающие на силу, которую связанный фактор (т. е. объясняющая переменная) оказывает на полезность — или, точнее, на величину, на которую изменение единицы объясняющей переменной меняет полезность данного выбора. Избиратель мог бы ожидать, что правоцентристская партия снизит налоги, особенно для богатых людей. Это не дало бы людям с низкими доходами никакой выгоды, т.е. никакого изменения в полезности (поскольку они обычно не платят налоги); принесет умеренную выгоду (т.е. несколько больше денег или умеренное увеличение полезности) для людей со средним доходом; принесет значительные выгоды людям с высокими доходами. С другой стороны, можно было бы ожидать, что левоцентристская партия повысит налоги и компенсирует это повышением благосостояния и другой помощью для низших и средних классов. Это принесет значительную положительную выгоду людям с низкими доходами, возможно, слабую выгоду людям со средним доходом и значительную отрицательную выгоду людям с высокими доходами. Наконец, сепаратистская партия не будет предпринимать прямых действий в отношении экономики, а просто отделится. Избиратель с низким или средним доходом может не ожидать от этого явного выигрыша или убытка от полезности, но избиратель с высоким доходом может ожидать отрицательной полезности, поскольку он/она, скорее всего, будет владеть компаниями, которым будет труднее вести бизнес в стране. такая среда и, вероятно, потеряете деньги.

Эти интуиции можно выразить следующим образом:

Расчетная сила коэффициента регрессии для разных исходов (выбора партии) и разных значений объясняющих переменных
	Правоцентристский	левоцентристский	Сепаратист
Высокий доход	сильный +	сильный —	сильный —
Средний доход	умеренный +	слабый +	никто
Низкий доход	никто	сильный +	никто

Это ясно показывает, что

Для каждого выбора должны существовать отдельные наборы коэффициентов регрессии. Если говорить с точки зрения полезности, это можно увидеть очень легко. Разные варианты выбора по-разному влияют на чистую полезность; более того, эффекты варьируются сложным образом и зависят от характеристик каждого человека, поэтому для каждой характеристики должны быть отдельные наборы коэффициентов, а не просто одна дополнительная характеристика для каждого выбора.
Хотя доход является непрерывной переменной, его влияние на полезность слишком сложно, чтобы его можно было рассматривать как одну переменную. Либо его необходимо напрямую разделить на диапазоны, либо необходимо добавить более высокие степени дохода, чтобы полиномиальную регрессию по доходу. эффективно выполнить

В качестве «логарифмически-линейной» модели

Еще одна формулировка объединяет приведенную выше формулировку двусторонней скрытой переменной с исходной формулировкой выше без скрытых переменных и в процессе обеспечивает ссылку на одну из стандартных формулировок полиномиального логита .

Здесь вместо того, чтобы записывать логит вероятностей pi _: как линейный предиктор, мы разделяем линейный предиктор на два, по одному для каждого из двух результатов

{\begin{aligned}\ln \Pr(Y_{i}=0)&={\boldsymbol {\beta }}_{0}\cdot \mathbf {X} _{i}-\ln Z\\\ln \Pr(Y_{i}=1)&={\boldsymbol {\beta }}_{1}\cdot \mathbf {X} _{i}-\ln Z\end{aligned}}

Были введены два отдельных набора коэффициентов регрессии, как и в модели двусторонней скрытой переменной, и два уравнения имеют форму, которая записывает логарифм связанной вероятности как линейный предиктор с дополнительным членом. $-\ln Z$ в конце. Этот член, как выясняется, служит нормирующим фактором, гарантирующим, что результат является распределением. Это можно увидеть, возведя в степень обе стороны:

{\begin{aligned}\Pr(Y_{i}=0)&={\frac {1}{Z}}e^{{\boldsymbol {\beta }}_{0}\cdot \mathbf {X} _{i}}\\[5pt]\Pr(Y_{i}=1)&={\frac {1}{Z}}e^{{\boldsymbol {\beta }}_{1}\cdot \mathbf {X} _{i}}\end{aligned}}

В этой форме ясно, что цель Z состоит в том, чтобы гарантировать, что результирующее распределение по Y _i на самом деле является распределением вероятностей , т. е. его сумма равна 1. Это означает, что Z является просто суммой всех ненормализованных вероятностей, и разделив каждую вероятность на Z , вероятности становятся « нормализованными ». То есть:

Z=e^{{\boldsymbol {\beta }}_{0}\cdot \mathbf {X} _{i}}+e^{{\boldsymbol {\beta }}_{1}\cdot \mathbf {X} _{i}}

и полученные уравнения имеют вид

{\begin{aligned}\Pr(Y_{i}=0)&={\frac {e^{{\boldsymbol {\beta }}_{0}\cdot \mathbf {X} _{i}}}{e^{{\boldsymbol {\beta }}_{0}\cdot \mathbf {X} _{i}}+e^{{\boldsymbol {\beta }}_{1}\cdot \mathbf {X} _{i}}}}\\[5pt]\Pr(Y_{i}=1)&={\frac {e^{{\boldsymbol {\beta }}_{1}\cdot \mathbf {X} _{i}}}{e^{{\boldsymbol {\beta }}_{0}\cdot \mathbf {X} _{i}}+e^{{\boldsymbol {\beta }}_{1}\cdot \mathbf {X} _{i}}}}.\end{aligned}}

Или вообще:

\Pr(Y_{i}=c)={\frac {e^{{\boldsymbol {\beta }}_{c}\cdot \mathbf {X} _{i}}}{\sum _{h}e^{{\boldsymbol {\beta }}_{h}\cdot \mathbf {X} _{i}}}}

Это ясно показывает, как обобщить эту формулировку на более чем два результата, как в случае с полиномиальным логитом .Эта общая формулировка представляет собой в точности функцию softmax, как в

\Pr(Y_{i}=c)=\operatorname {softmax} (c,{\boldsymbol {\beta }}_{0}\cdot \mathbf {X} _{i},{\boldsymbol {\beta }}_{1}\cdot \mathbf {X} _{i},\dots ).

Чтобы доказать, что это эквивалентно предыдущей модели, приведенная выше модель слишком конкретизирована, поскольку $\Pr(Y_{i}=0)$ и $\Pr(Y_{i}=1)$ не может быть указано независимо: скорее $\Pr(Y_{i}=0)+\Pr(Y_{i}=1)=1$ поэтому знание одного автоматически определяет другое. В результате модель становится неидентифицируемой , поскольку множественные комбинации β ₀ и β ₁ будут давать одинаковые вероятности для всех возможных объясняющих переменных. Фактически, можно видеть, что добавление любого постоянного вектора к ним обоим даст одинаковые вероятности:

{\begin{aligned}\Pr(Y_{i}=1)&={\frac {e^{({\boldsymbol {\beta }}_{1}+\mathbf {C} )\cdot \mathbf {X} _{i}}}{e^{({\boldsymbol {\beta }}_{0}+\mathbf {C} )\cdot \mathbf {X} _{i}}+e^{({\boldsymbol {\beta }}_{1}+\mathbf {C} )\cdot \mathbf {X} _{i}}}}\\[5pt]&={\frac {e^{{\boldsymbol {\beta }}_{1}\cdot \mathbf {X} _{i}}e^{\mathbf {C} \cdot \mathbf {X} _{i}}}{e^{{\boldsymbol {\beta }}_{0}\cdot \mathbf {X} _{i}}e^{\mathbf {C} \cdot \mathbf {X} _{i}}+e^{{\boldsymbol {\beta }}_{1}\cdot \mathbf {X} _{i}}e^{\mathbf {C} \cdot \mathbf {X} _{i}}}}\\[5pt]&={\frac {e^{\mathbf {C} \cdot \mathbf {X} _{i}}e^{{\boldsymbol {\beta }}_{1}\cdot \mathbf {X} _{i}}}{e^{\mathbf {C} \cdot \mathbf {X} _{i}}(e^{{\boldsymbol {\beta }}_{0}\cdot \mathbf {X} _{i}}+e^{{\boldsymbol {\beta }}_{1}\cdot \mathbf {X} _{i}})}}\\[5pt]&={\frac {e^{{\boldsymbol {\beta }}_{1}\cdot \mathbf {X} _{i}}}{e^{{\boldsymbol {\beta }}_{0}\cdot \mathbf {X} _{i}}+e^{{\boldsymbol {\beta }}_{1}\cdot \mathbf {X} _{i}}}}.\end{aligned}}

В результате мы можем упростить ситуацию и восстановить идентифицируемость, выбрав произвольное значение для одного из двух векторов. Мы решили установить ${\boldsymbol {\beta }}_{0}=\mathbf {0} .$ Затем,

e^{{\boldsymbol {\beta }}_{0}\cdot \mathbf {X} _{i}}=e^{\mathbf {0} \cdot \mathbf {X} _{i}}=1

и так

\Pr(Y_{i}=1)={\frac {e^{{\boldsymbol {\beta }}_{1}\cdot \mathbf {X} _{i}}}{1+e^{{\boldsymbol {\beta }}_{1}\cdot \mathbf {X} _{i}}}}={\frac {1}{1+e^{-{\boldsymbol {\beta }}_{1}\cdot \mathbf {X} _{i}}}}=p_{i}

что показывает, что эта формулировка действительно эквивалентна предыдущей формулировке. (Как и в формулировке двусторонней латентной переменной, любые настройки, в которых ${\boldsymbol {\beta }}={\boldsymbol {\beta }}_{1}-{\boldsymbol {\beta }}_{0}$ даст эквивалентные результаты.)

Большинство трактовок полиномиальной логит- модели начинаются либо с расширения представленной здесь «логарифмически-линейной» формулировки, либо с формулировки двусторонней латентной переменной, представленной выше, поскольку обе ясно показывают, как модель может быть расширена до многосторонних результатов. В целом представление со скрытыми переменными более распространено в эконометрике и политологии , где дискретного выбора господствуют модели и теория полезности , тогда как «логарифмически-линейная» формулировка здесь более распространена в информатике , например, в машинном обучении и обработке естественного языка .

Как однослойный перцептрон

Модель имеет эквивалентную формулировку

p_{i}={\frac {1}{1+e^{-(\beta _{0}+\beta _{1}x_{1,i}+\cdots +\beta _{k}x_{k,i})}}}.\,

Эту функциональную форму обычно называют однослойным перцептроном или однослойной искусственной нейронной сетью . Однослойная нейронная сеть вычисляет непрерывный результат вместо ступенчатой функции . Производная p _i по X = ( x ₁ , ..., x _k ) вычисляется по общей форме:

y={\frac {1}{1+e^{-f(X)}}}

где f ( X ) — функция от X. аналитическая При таком выборе однослойная нейронная сеть идентична модели логистической регрессии. Эта функция имеет непрерывную производную, что позволяет использовать ее в обратном распространении ошибки . Эта функция предпочтительнее еще и потому, что ее производная легко вычисляется:

{\frac {\mathrm {d} y}{\mathrm {d} X}}=y(1-y){\frac {\mathrm {d} f}{\mathrm {d} X}}.\,

С точки зрения биномиальных данных

Тесно связанная модель предполагает, что каждое i связано не с одним испытанием Бернулли, а с n _i независимыми одинаково распределенными испытаниями, где наблюдение Y _i представляет собой количество наблюдаемых успехов (сумма отдельных случайных величин с распределением Бернулли), и отсюда следует биномиальное распределение :

Y_{i}\,\sim \operatorname {Bin} (n_{i},p_{i}),{\text{ for }}i=1,\dots ,n

Примером такого распределения является доля семян ( pi ₎ , которые прорастают после n _i посадки .

С точки зрения ожидаемых значений эта модель выражается следующим образом:

p_{i}=\operatorname {\mathbb {E} } \left[\left.{\frac {Y_{i}}{n_{i}}}\,\right|\,\mathbf {X} _{i}\right]\,,

так что

\operatorname {logit} \left(\operatorname {\mathbb {E} } \left[\left.{\frac {Y_{i}}{n_{i}}}\,\right|\,\mathbf {X} _{i}\right]\right)=\operatorname {logit} (p_{i})=\ln \left({\frac {p_{i}}{1-p_{i}}}\right)={\boldsymbol {\beta }}\cdot \mathbf {X} _{i}\,,

Или эквивалентно:

\Pr(Y_{i}=y\mid \mathbf {X} _{i})={n_{i} \choose y}p_{i}^{y}(1-p_{i})^{n_{i}-y}={n_{i} \choose y}\left({\frac {1}{1+e^{-{\boldsymbol {\beta }}\cdot \mathbf {X} _{i}}}}\right)^{y}\left(1-{\frac {1}{1+e^{-{\boldsymbol {\beta }}\cdot \mathbf {X} _{i}}}}\right)^{n_{i}-y}\,.

Эта модель может быть адаптирована с использованием тех же методов, что и приведенная выше более базовая модель.

Примерка модели

Оценка максимального правдоподобия (MLE)

Коэффициенты регрессии обычно оцениваются с использованием оценки максимального правдоподобия . ^[26]^[27] В отличие от линейной регрессии с нормально распределенными остатками, невозможно найти выражение в замкнутой форме для значений коэффициентов, которые максимизируют функцию правдоподобия, поэтому вместо этого необходимо использовать итерационный процесс; например метод Ньютона . Этот процесс начинается с предварительного решения, его слегка пересматривают, чтобы увидеть, можно ли его улучшить, и повторяют этот пересмотр до тех пор, пока улучшения не перестанут вноситься, после чего говорят, что процесс сошелся. ^[26]

В некоторых случаях модель может не достичь сходимости. Несходимость модели указывает на то, что коэффициенты не имеют смысла, поскольку итерационный процесс не смог найти подходящие решения. Неспособность сходиться может произойти по ряду причин: большое соотношение предикторов к случаям, мультиколлинеарность , разреженность или полное разделение .

Большое соотношение переменных к случаям приводит к чрезмерно консервативной статистике Вальда (обсуждается ниже) и может привести к несходимости. Регуляризованная логистическая регрессия специально предназначена для использования в этой ситуации.
Мультиколлинеарность относится к неприемлемо высоким корреляциям между предикторами. По мере увеличения мультиколлинеарности коэффициенты остаются несмещенными, но стандартные ошибки увеличиваются, а вероятность сходимости модели снижается. ^[26] Чтобы обнаружить мультиколлинеарность среди предикторов, можно провести линейный регрессионный анализ интересующих предикторов с единственной целью — изучить статистику толерантности. ^[26] используется для оценки того, является ли мультиколлинеарность неприемлемо высокой.
Разреженность данных означает наличие большой доли пустых ячеек (ячейок с нулевым количеством). Нулевое количество ячеек особенно проблематично для категориальных предикторов. При использовании непрерывных предикторов модель может выводить значения для нулевого количества ячеек, но это не относится к категориальным предикторам. Модель не будет сходиться с нулевым количеством ячеек для категориальных предикторов, поскольку натуральный логарифм нуля является неопределенным значением, поэтому окончательное решение модели не может быть достигнуто. Чтобы решить эту проблему, исследователи могут сжимать категории теоретически осмысленным способом или добавлять константы во все ячейки. ^[26]
Другая численная проблема, которая может привести к отсутствию сходимости, — это полное разделение, которое относится к случаю, когда предикторы идеально предсказывают критерий — все случаи точно классифицируются, а вероятность максимизируется с помощью бесконечных коэффициентов. В таких случаях следует повторно проверить данные, так как может быть какая-то ошибка. ^[2]^{[ нужны дальнейшие объяснения ]}
Можно также использовать полупараметрические или непараметрические подходы, например, с помощью методов локального правдоподобия или непараметрических методов квазиправдоподобия, которые избегают предположений о параметрической форме индексной функции и устойчивы к выбору функции связи (например, пробит или логит). ^[28]

Итеративно перевзвешенный метод наименьших квадратов (IRLS)

Бинарная логистическая регрессия ( $y=0$ или $y=1$ ) можно, например, рассчитать с помощью итеративно перевзвешенного метода наименьших квадратов (IRLS), что эквивалентно максимизации логарифмического правдоподобия распределенного процесса Бернулли с использованием метода Ньютона . Если задача записана в виде векторной матрицы, с параметрами $\mathbf {w} ^{T}=[\beta _{0},\beta _{1},\beta _{2},\ldots ]$ , объясняющие переменные $\mathbf {x} (i)=[1,x_{1}(i),x_{2}(i),\ldots ]^{T}$ и ожидаемое значение распределения Бернулли $\mu (i)={\frac {1}{1+e^{-\mathbf {w} ^{T}\mathbf {x} (i)}}}$ , параметры $\mathbf {w}$ можно найти с помощью следующего итерационного алгоритма:

\mathbf {w} _{k+1}=\left(\mathbf {X} ^{T}\mathbf {S} _{k}\mathbf {X} \right)^{-1}\mathbf {X} ^{T}\left(\mathbf {S} _{k}\mathbf {X} \mathbf {w} _{k}+\mathbf {y} -\mathbf {\boldsymbol {\mu }} _{k}\right)

где $\mathbf {S} =\operatorname {diag} (\mu (i)(1-\mu (i)))$ - диагональная весовая матрица, ${\boldsymbol {\mu }}=[\mu (1),\mu (2),\ldots ]$ вектор ожидаемых значений,

\mathbf {X} ={\begin{bmatrix}1&x_{1}(1)&x_{2}(1)&\ldots \\1&x_{1}(2)&x_{2}(2)&\ldots \\\vdots &\vdots &\vdots \end{bmatrix}}

Матрица регрессора и $\mathbf {y} (i)=[y(1),y(2),\ldots ]^{T}$ вектор переменных ответа. Более подробную информацию можно найти в литературе. ^[29]

Байесовский

Сравнение логистической функции с масштабированной обратной пробит-функцией (т.е. CDF нормального распределения ), сравнение $\sigma (x)$ против. ${\textstyle \Phi ({\sqrt {\frac {\pi }{8}}}x)}$ , что делает наклоны одинаковыми в начале координат. Это показывает более тяжелые хвосты логистического распределения.

В байесовской статистики контексте априорные распределения обычно помещаются в коэффициенты регрессии, например, в форме распределений Гаусса . В логистической регрессии не существует сопряженной априорной функции правдоподобия . Когда байесовский вывод выполнялся аналитически, это затрудняло апостериорного распределения вычисление , за исключением очень малых размерностей. Однако теперь автоматическое программное обеспечение, такое как OpenBUGS , JAGS , PyMC , Stan или Turing.jl, позволяет вычислять эти апостериорные данные с помощью моделирования, поэтому отсутствие сопряжения не является проблемой. Однако, когда размер выборки или количество параметров велики, полное байесовское моделирование может быть медленным, и люди часто используют приближенные методы, такие как вариационные байесовские методы и распространение ожиданий .

«Правило десяти»

Широко используемое правило « одного из десяти » гласит, что модели логистической регрессии дают стабильные значения для объясняющих переменных, если они основаны как минимум на примерно 10 событиях на каждую объясняющую переменную (EPV); где событие обозначает случаи, относящиеся к менее частой категории зависимой переменной. Таким образом, исследование, предназначенное для использования $k$ объясняющие переменные для события (например, инфаркта миокарда ), которое, как ожидается, произойдет в определенной пропорции $p$ участников исследования потребуется в общей сложности $10k/p$ участники. Однако ведутся серьезные споры о надежности этого правила, которое основано на исследованиях моделирования и не имеет надежной теоретической основы. ^[30] По мнению некоторых авторов ^[31] в некоторых обстоятельствах это правило является чрезмерно консервативным: авторы заявляют: «Если мы (несколько субъективно) считаем, что охват доверительного интервала менее 93 процентов, ошибка типа I более 7 процентов или относительное смещение более 15 процентов как проблематичные, наши результаты указывают на то, что проблемы довольно часты при 2–4 EPV, необычны при 5–9 EPV и все еще наблюдаются при 10–16 EPV. Худшие случаи каждой проблемы не были серьезными при 5–9 EPV и обычно сравнимы с таковыми при 10–. 16 ЭПВ». ^[32]

Другие нашли результаты, которые не соответствуют вышеизложенному, используя другие критерии. Полезным критерием является то, можно ли ожидать, что подобранная модель достигнет той же прогностической дискриминации в новой выборке, которую она, как оказалось, достигла в выборке для разработки модели. Для этого критерия может потребоваться 20 событий на каждую переменную-кандидата. ^[33] Кроме того, можно утверждать, что 96 наблюдений необходимы только для того, чтобы оценить точку пересечения модели достаточно точно, чтобы погрешность прогнозируемых вероятностей составляла ± 0,1 с уровнем достоверности 0,95. ^[13]

Ошибка и значение соответствия

Тест на отклонение и отношение правдоподобия ─ простой случай

В любой процедуре подбора добавление в модель другого параметра подбора (например, бета-параметров в модели логистической регрессии) почти всегда улучшает способность модели прогнозировать измеренные результаты. Это будет верно, даже если дополнительный член не имеет прогностической ценности, поскольку модель просто будет « подстраиваться » под шум в данных. Возникает вопрос, является ли улучшение, полученное за счет добавления другого подходящего параметра, достаточно значительным, чтобы рекомендовать включение дополнительного термина, или же улучшение является просто тем, которого можно ожидать от переобучения.

Короче говоря, для логистической регрессии определяется статистика, известная как отклонение , которая является мерой ошибки между подгонкой логистической модели и данными результатов. В пределе большого количества точек данных отклонение распределяется по хи-квадрату , что позволяет реализовать тест хи-квадрат для определения значимости объясняющих переменных.

Линейная регрессия и логистическая регрессия имеют много общего. Например, в простой линейной регрессии набор K точек данных ( x _k , y _k ) соответствует предложенной модельной функции формы $y=b_{0}+b_{1}x$ . Подбор достигается путем выбора параметров b , которые минимизируют сумму квадратов остатков (квадрат ошибки) для каждой точки данных:

\varepsilon ^{2}=\sum _{k=1}^{K}(b_{0}+b_{1}x_{k}-y_{k})^{2}.

Минимальное значение, составляющее соответствие, будет обозначаться ${\hat {\varepsilon }}^{2}$

Можно ввести идею нулевой модели , в которой предполагается, что переменная x бесполезна для прогнозирования результатов y _k : точки данных подгоняются к нулевой функции модели формы y = b ₀ с квадратом термин ошибки:

\varepsilon ^{2}=\sum _{k=1}^{K}(b_{0}-y_{k})^{2}.

Процесс аппроксимации состоит в выборе значения b _0, которое минимизирует $\varepsilon ^{2}$ соответствия нулевой модели, обозначаемой $\varepsilon _{\varphi }^{2}$ где $\varphi$ нижний индекс обозначает нулевую модель. Видно, что нулевая модель оптимизирована путем $b_{0}={\overline {y}}$ где ${\overline {y}}$ — среднее значение y _k , а оптимизированное $\varepsilon _{\varphi }^{2}$ является:

{\hat {\varepsilon }}_{\varphi }^{2}=\sum _{k=1}^{K}({\overline {y}}-y_{k})^{2}

который пропорционален квадрату (нескорректированного) выборочного стандартного отклонения точек данных y _k .

Мы можем представить себе случай, когда точки данных y _k случайным образом присваиваются различным x _k , а затем подбираются с использованием предложенной модели. В частности, мы можем рассмотреть соответствие предложенной модели каждой перестановке yk _{результатов} . Можно показать, что оптимизированная ошибка любой из этих подгонок никогда не будет меньше оптимальной ошибки нулевой модели, и что разница между этими минимальными ошибками будет подчиняться распределению хи-квадрат со степенями свободы, равными степеням свободы модели. предлагаемой модели минус значения нулевой модели, которые в данном случае будут $2-1=1$ . Используя тест хи-квадрат , мы можем затем оценить, сколько из этих перестановочных наборов y _k дадут минимальную ошибку, меньшую или равную минимальной ошибке, используя исходный y _k , и таким образом мы можем оценить, насколько существенное улучшение дается. путем включения переменной x в предлагаемую модель.

Для логистической регрессии мерой согласия является функция правдоподобия L или ее логарифм, логарифмическое правдоподобие ℓ . Функция правдоподобия L аналогична $\varepsilon ^{2}$ в случае линейной регрессии, за исключением того, что вероятность максимизируется, а не минимизируется. Обозначим максимальное логарифмическое правдоподобие предлагаемой модели через ${\hat {\ell }}$ .

В случае простой бинарной логистической регрессии набор K точек данных в вероятностном смысле подгоняется к функции вида:

p(x)={\frac {1}{1+e^{-t}}}

где ⁠ $p(x)$ ⁠ — вероятность того, что $y=1$ . Логарифмические шансы определяются следующим образом:

t=\beta _{0}+\beta _{1}x

и логарифмическая вероятность равна:

\ell =\sum _{k=1}^{K}\left(y_{k}\ln(p(x_{k}))+(1-y_{k})\ln(1-p(x_{k}))\right)

Для нулевой модели вероятность того, что $y=1$ дается:

p_{\varphi }(x)={\frac {1}{1+e^{-t_{\varphi }}}}

Логарифмические шансы для нулевой модели определяются следующим образом:

t_{\varphi }=\beta _{0}

и логарифмическая вероятность равна:

\ell _{\varphi }=\sum _{k=1}^{K}\left(y_{k}\ln(p_{\varphi })+(1-y_{k})\ln(1-p_{\varphi })\right)

Поскольку у нас есть $p_{\varphi }={\overline {y}}$ при максимуме L максимальное логарифмическое правдоподобие для нулевой модели равно

{\hat {\ell }}_{\varphi }=K(\,{\overline {y}}\ln({\overline {y}})+(1-{\overline {y}})\ln(1-{\overline {y}}))

Оптимум $\beta _{0}$ является:

\beta _{0}=\ln \left({\frac {\overline {y}}{1-{\overline {y}}}}\right)

где ${\overline {y}}$ снова является средним значением y _k . Опять же, мы можем концептуально рассмотреть соответствие предлагаемой модели каждой перестановке y _k и можно показать, что максимальная логарифмическая вероятность этих подгонок перестановок никогда не будет меньше, чем у нулевой модели:

{\hat {\ell }}\geq {\hat {\ell }}_{\varphi }

Кроме того, как аналог ошибки в случае линейной регрессии, мы можем определить отклонение подгонки логистической регрессии как:

D=\ln \left({\frac {{\hat {L}}^{2}}{{\hat {L}}_{\varphi }^{2}}}\right)=2({\hat {\ell }}-{\hat {\ell }}_{\varphi })

который всегда будет положительным или нулевым. Причина такого выбора заключается в том, что отклонение не только является хорошей мерой степени соответствия, но также имеет приблизительное распределение хи-квадрат, причем аппроксимация улучшается по мере увеличения числа точек данных ( K ), становясь в точности хи-квадратом. распределены в пределах бесконечного числа точек данных. Как и в случае линейной регрессии, мы можем использовать этот факт для оценки вероятности того, что случайный набор точек данных даст лучшее соответствие, чем соответствие, полученное с помощью предложенной модели, и, таким образом, оценить, насколько значительно модель улучшится за счет включая точки данных x _k в предлагаемой модели.

Для простой модели результатов тестов учащихся, описанной выше, максимальное значение логарифмического правдоподобия нулевой модели равно ${\hat {\ell }}_{\varphi }=-13.8629\ldots$ Максимальное значение логарифмического правдоподобия для простой модели равно ${\hat {\ell }}=-8.02988\ldots$ так что отклонение $D=2({\hat {\ell }}-{\hat {\ell }}_{\varphi })=11.6661\ldots$

Используя критерий значимости хи-квадрат , интеграл распределения хи-квадрат с одной степенью свободы от 11,6661... до бесконечности равен 0,00063649...

что около 6 из 10 000 подгонок случайного y _kФактически это означает, что можно ожидать, будут иметь лучшее соответствие (меньшее отклонение), чем заданный y _k , и поэтому мы можем заключить, что включение переменной x и данных в предлагаемую модель это очень значительное улучшение по сравнению с нулевой моделью. Другими словами, мы отвергаем нулевую гипотезу с $1-D\approx 99.94\%$ уверенность.

Краткое описание соответствия

Степень соответствия в моделях линейной регрессии обычно измеряется с помощью R ². Поскольку это не имеет прямого аналога в логистической регрессии, различные методы ^[34]^{: гл.21} вместо этого можно использовать следующее.

Тесты на отклонение и отношение правдоподобия

В анализе линейной регрессии речь идет о разделении дисперсии посредством вычислений суммы квадратов - дисперсия критерия по существу делится на дисперсию, учитываемую предикторами, и остаточную дисперсию. В логистическом регрессионном анализе отклонение используется вместо вычислений суммы квадратов. ^[35] Отклонение аналогично расчетам суммы квадратов в линейной регрессии. ^[2] и является мерой несоответствия данных в модели логистической регрессии. ^[35] Когда доступна «насыщенная» модель (модель с теоретически идеальным соответствием), отклонение рассчитывается путем сравнения данной модели с насыщенной моделью. ^[2] Это вычисление дает тест отношения правдоподобия : ^[2]

D=-2\ln {\frac {\text{likelihood of the fitted model}}{\text{likelihood of the saturated model}}}.

В приведенном выше уравнении $D$ представляет отклонение, а ln представляет натуральный логарифм. Логарифм этого отношения правдоподобия (отношение подобранной модели к насыщенной модели) даст отрицательное значение, следовательно, необходим отрицательный знак. $D$ Можно показать, что соответствует приблизительному распределению хи-квадрат . ^[2] Меньшие значения указывают на лучшее соответствие, поскольку подобранная модель меньше отклоняется от насыщенной модели. При оценке по распределению хи-квадрат незначительные значения хи-квадрат указывают на очень небольшую необъяснимую дисперсию и, следовательно, на хорошее соответствие модели. И наоборот, значительное значение хи-квадрат указывает на то, что значительная часть дисперсии необъяснима.

Когда насыщенная модель недоступна (частый случай), отклонение рассчитывается просто как -2 · (логарифм правдоподобия подобранной модели), и ссылку на логарифм правдоподобия насыщенной модели можно без вреда удалить из всего, что следует далее.

В логистической регрессии особенно важны две меры отклонения: нулевое отклонение и отклонение модели. Нулевое отклонение представляет собой разницу между моделью только с точкой пересечения (что означает «без предикторов») и насыщенной моделью. Отклонение модели представляет собой разницу между моделью хотя бы с одним предиктором и насыщенной моделью. ^[35] В этом отношении нулевая модель обеспечивает основу для сравнения моделей предикторов. Учитывая, что отклонение является мерой различия между данной моделью и насыщенной моделью, меньшие значения указывают на лучшее соответствие. Таким образом, чтобы оценить вклад предиктора или набора предикторов, можно вычесть отклонение модели из нулевого отклонения и оценить разницу по $\chi _{s-p}^{2},$ распределение хи-квадрат со степенями свободы ^[2] равна разнице числа оцениваемых параметров.

Позволять

{\begin{aligned}D_{\text{null}}&=-2\ln {\frac {\text{likelihood of null model}}{\text{likelihood of the saturated model}}}\\[6pt]D_{\text{fitted}}&=-2\ln {\frac {\text{likelihood of fitted model}}{\text{likelihood of the saturated model}}}.\end{aligned}}

Тогда разница обоих:

{\begin{aligned}D_{\text{null}}-D_{\text{fitted}}&=-2\left(\ln {\frac {\text{likelihood of null model}}{\text{likelihood of the saturated model}}}-\ln {\frac {\text{likelihood of fitted model}}{\text{likelihood of the saturated model}}}\right)\\[6pt]&=-2\ln {\frac {\left({\dfrac {\text{likelihood of null model}}{\text{likelihood of the saturated model}}}\right)}{\left({\dfrac {\text{likelihood of fitted model}}{\text{likelihood of the saturated model}}}\right)}}\\[6pt]&=-2\ln {\frac {\text{likelihood of the null model}}{\text{likelihood of fitted model}}}.\end{aligned}}

Если отклонение модели значительно меньше, чем нулевое отклонение, можно сделать вывод, что предиктор или набор предикторов значительно улучшают соответствие модели. Это аналогично $F$ -тесту, используемому в анализе линейной регрессии для оценки значимости прогноза. ^[35]

Псевдо-R-квадрат

В линейной регрессии квадрат множественной корреляции $R$ ² используется для оценки степени соответствия, поскольку представляет долю дисперсии критерия, объясняемую предикторами. ^[35] В логистическом регрессионном анализе не существует согласованной аналогичной меры, но существует несколько конкурирующих мер, каждая из которых имеет ограничения. ^[35]^[36]

На этой странице рассмотрены четыре наиболее часто используемых индекса и один менее распространенный:

Отношение правдоподобия $R$ ²_л
Кокс и Снелл $Р.$ ²_CS
Нагелькерке $Р$ ²_Н
Макфадден $Р.$ ²_МакФ
Бык $Р$ ²_Т

Тест Хосмера – Лемешоу

Тест Хосмера – Лемешоу использует тестовую статистику, которая асимптотически следует $\chi ^{2}$ распределение , чтобы оценить, соответствуют ли наблюдаемые частоты событий ожидаемым частотам событий в подгруппах модельной совокупности. Некоторые статистики считают этот тест устаревшим из-за его зависимости от произвольного группирования прогнозируемых вероятностей и относительно низкой мощности. ^[37]

Значимость коэффициента

После подбора модели исследователи, вероятно, захотят изучить вклад отдельных предикторов. Для этого они захотят изучить коэффициенты регрессии. В линейной регрессии коэффициенты регрессии представляют собой изменение критерия для каждого изменения единицы предиктора. ^[35] Однако в логистической регрессии коэффициенты регрессии представляют собой изменение логита для каждого изменения единицы предиктора. Учитывая, что логит не является интуитивно понятным, исследователи, скорее всего, сосредоточат внимание на влиянии предиктора на экспоненциальную функцию коэффициента регрессии – отношение шансов (см. определение ). В линейной регрессии значимость коэффициента регрессии оценивается путем вычисления t- критерия. В логистической регрессии существует несколько различных тестов, предназначенных для оценки значимости отдельного предиктора, в первую очередь тест отношения правдоподобия и статистика Вальда.

Тест отношения правдоподобия

Обсужденный выше тест отношения правдоподобия для оценки соответствия модели также является рекомендуемой процедурой для оценки вклада отдельных «предсказателей» в данную модель. ^[2]^[26]^[35] В случае одной модели предиктора просто сравнивают отклонение модели предиктора с отклонением нулевой модели на распределении хи-квадрат с одной степенью свободы. Если модель предиктора имеет значительно меньшее отклонение (ср. хи-квадрат, использующий разницу в степенях свободы двух моделей), то можно заключить, что существует значительная связь между «предсказателем» и результатом. Хотя некоторые распространенные статистические пакеты (например, SPSS) предоставляют статистику теста отношения правдоподобия, без этого трудоемкого теста было бы сложнее оценить вклад отдельных предикторов в случае множественной логистической регрессии. ^{[ нужна ссылка ]} Чтобы оценить вклад отдельных предикторов, можно ввести предикторы иерархически, сравнивая каждую новую модель с предыдущей, чтобы определить вклад каждого предиктора. ^[35] Среди статистиков ведутся споры о целесообразности так называемых «пошаговых» процедур. ^{[ ласковые слова ]} Есть опасение, что они могут не сохранить номинальные статистические свойства и могут ввести в заблуждение. ^[38]

Статистика Вальда

Альтернативно, при оценке вклада отдельных предикторов в данной модели можно проверить значимость статистики Вальда . Статистика Вальда, аналогичная t -критерию в линейной регрессии, используется для оценки значимости коэффициентов. Статистика Вальда представляет собой отношение квадрата коэффициента регрессии к квадрату стандартной ошибки коэффициента и асимптотически распределяется как распределение хи-квадрат. ^[26]

W_{j}={\frac {\beta _{j}^{2}}{SE_{\beta _{j}}^{2}}}

Хотя некоторые статистические пакеты (например, SPSS, SAS) предоставляют статистику Вальда для оценки вклада отдельных предикторов, статистика Вальда имеет ограничения. Когда коэффициент регрессии велик, стандартная ошибка коэффициента регрессии также имеет тенденцию быть больше, увеличивая вероятность ошибки второго рода . Статистика Уолда также имеет тенденцию быть необъективной, когда данных мало. ^[35]

Выборка случай-контроль

Предположим, случаи редки. Тогда мы могли бы захотеть проверять их чаще, чем их распространенность среди населения. Например, предположим, что есть заболевание, которым страдает 1 человек из 10 000, и для сбора данных нам необходимо пройти полный медицинский осмотр. Проводить тысячи медосмотров здоровых людей, чтобы получить данные лишь о нескольких больных, может быть слишком дорого. Таким образом, мы можем оценить больше больных людей, возможно, все редкие исходы. Это также ретроспективная выборка или, что то же самое, называется несбалансированными данными. Как правило, выборка контрольных образцов в количестве, в пять раз превышающем количество случаев, дает достаточные контрольные данные. ^[39]

Логистическая регрессия уникальна тем, что ее можно оценить на основе несбалансированных данных, а не данных, выбранных случайным образом, и при этом она дает правильные оценки коэффициентов влияния каждой независимой переменной на результат. То есть, если мы сформируем логистическую модель на основе таких данных, если модель верна для генеральной совокупности, $\beta _{j}$ все параметры верны, кроме $\beta _{0}$ . Мы можем исправить $\beta _{0}$ если мы знаем истинную распространенность следующим образом: ^[39]

{\widehat {\beta }}_{0}^{*}={\widehat {\beta }}_{0}+\log {\frac {\pi }{1-\pi }}-\log {{\tilde {\pi }} \over {1-{\tilde {\pi }}}}

где $\pi$ истинная распространенность и ${\tilde {\pi }}$ — распространенность в выборке.

Обсуждение

Как и другие формы регрессионного анализа , логистическая регрессия использует одну или несколько переменных-предикторов, которые могут быть непрерывными или категориальными. Однако, в отличие от обычной линейной регрессии, логистическая регрессия используется для прогнозирования зависимых переменных, которые относятся к одной из ограниченного числа категорий (в биномиальном случае зависимая переменная рассматривается как результат испытания Бернулли ), а не для непрерывного результата. Учитывая эту разницу, предположения линейной регрессии нарушаются. В частности, остатки не могут быть нормально распределены. Кроме того, линейная регрессия может давать бессмысленные прогнозы для бинарной зависимой переменной. Необходим способ преобразования двоичной переменной в непрерывную, которая может принимать любое действительное значение (отрицательное или положительное). Для этого биномиальная логистическая регрессия сначала вычисляет вероятность того, что событие произойдет для разных уровней каждой независимой переменной, а затем логарифмирует ее, чтобы создать непрерывный критерий как преобразованную версию зависимой переменной. Логарифм шансов – это $логит$ вероятности, $логит$ определяется следующим образом: $\operatorname {logit} p=\ln {\frac {p}{1-p}}\quad {\text{for }}0<p<1\,.$

Хотя зависимой переменной в логистической регрессии является Бернулли, логит имеет неограниченный масштаб. ^[2] Логит-функция — это функция связи в такой обобщенной линейной модели, т.е. $\operatorname {logit} \operatorname {\mathcal {E}} (Y)=\beta _{0}+\beta _{1}x$

$Y$ — переменная отклика, распределенная по Бернулли, а $x$ — предикторная переменная; значения $β$ являются линейными параметрами.

вероятности $Затем логит$ успеха подгоняется под предикторы. Прогнозируемое значение логита $преобразуется$ обратно в прогнозируемые шансы посредством обратной функции натурального логарифма – экспоненциальной функции . Таким образом, хотя наблюдаемая зависимая переменная в бинарной логистической регрессии представляет собой переменную 0 или 1, логистическая регрессия как непрерывная переменная оценивает вероятность того, что зависимая переменная является «успехом». В некоторых приложениях достаточно только шансов. В других случаях требуется конкретный прогноз «да» или «нет» для определения того, является ли зависимая переменная «успехом» или нет; этот категориальный прогноз может быть основан на вычисленных шансах на успех, при этом прогнозируемые шансы выше некоторого выбранного порогового значения преобразуются в прогноз успеха.

Максимальная энтропия

Из всех функциональных форм, используемых для оценки вероятностей конкретного категориального результата, которые оптимизируют соответствие путем максимизации функции правдоподобия (например, пробит-регрессия , регрессия Пуассона и т. д.), решение логистической регрессии является уникальным, поскольку оно является с максимальной энтропией. решением . ^[40] Это случай общего свойства: экспоненциальное семейство распределений максимизирует энтропию при заданном ожидаемом значении. В случае логистической модели логистическая функция является естественным параметром распределения Бернулли (она находится в « канонической форме », а логистическая функция — это каноническая функция связи), тогда как другие сигмовидные функции являются неканоническими функциями связи; это лежит в основе его математической элегантности и простоты оптимизации. см. в разделе Экспоненциальное семейство § Вывод максимальной энтропии Подробности .

Доказательство

Чтобы это показать, воспользуемся методом множителей Лагранжа . Лагранжиан равен энтропии плюс сумме произведений множителей Лагранжа на различные выражения ограничений. Будет рассмотрен общий полиномиальный случай, поскольку рассмотрение более простых случаев не сильно упрощает доказательство. Приравнивание производной лагранжиана по различным вероятностям нулю дает функциональную форму этих вероятностей, которая соответствует формам, используемым в логистической регрессии. ^[40]

Как и в приведенном выше разделе о полиномиальной логистической регрессии , мы рассмотрим ⁠ $M+1$ ⁠ объясняющие переменные, обозначаемые ⁠ $x_{m}$ ⁠ и которые включают в себя $x_{0}=1$ . Всего будет K точек данных, проиндексированных $k=\{1,2,\dots ,K\}$ , а точки данных имеют вид $x_{mk}$ и ⁠ $y_{k}$ ⁠ . x также _mk будет представлен как ⁠ $(M+1)$ ⁠ -мерный вектор ${\boldsymbol {x}}_{k}=\{x_{0k},x_{1k},\dots ,x_{Mk}\}$ . Будет ⁠ $N+1$ ⁠ возможные значения категориальной переменной y от 0 до N.

Пусть p _n ( x ) будет вероятностью, учитывая вектор объясняющей переменной x , что результат будет $y=n$ . Определять $p_{nk}=p_{n}({\boldsymbol {x}}_{k})$ которая представляет собой вероятность того, что для k -го измерения категориальный результат равен n .

Лагранжиан будет выражаться как функция вероятностей pnk _{и минимизироваться путем} приравнивания производных лагранжиана по этим вероятностям нулю. Важным моментом является то, что вероятности рассматриваются одинаково, и тот факт, что их сумма равна 1, является частью лагранжевой формулировки, а не предполагается с самого начала.

Первым вкладом в лагранжиан является энтропия :

{\mathcal {L}}_{ent}=-\sum _{k=1}^{K}\sum _{n=0}^{N}p_{nk}\ln(p_{nk})

Логарифмическая вероятность равна:

\ell =\sum _{k=1}^{K}\sum _{n=0}^{N}\Delta (n,y_{k})\ln(p_{nk})

Предполагая полиномиальную логистическую функцию, производная логарифмического правдоподобия по бета-коэффициентам оказалась равной:

{\frac {\partial \ell }{\partial \beta _{nm}}}=\sum _{k=1}^{K}(p_{nk}x_{mk}-\Delta (n,y_{k})x_{mk})

Очень важным моментом здесь является то, что это выражение (что примечательно) не является явной функцией бета-коэффициентов. всего лишь функция вероятностей pnk _Это и данных. Вместо того, чтобы быть специфичным для предполагаемого полиномиального логистического случая, оно считается общим утверждением условия, при котором логарифмическое правдоподобие максимизируется, и не делает ссылки на функциональную pnk _форму . Тогда существуют ( M +1)( N +1) ограничения аппроксимации, и член ограничения аппроксимации в лагранжиане тогда равен:

{\mathcal {L}}_{fit}=\sum _{n=0}^{N}\sum _{m=0}^{M}\lambda _{nm}\sum _{k=1}^{K}(p_{nk}x_{mk}-\Delta (n,y_{k})x_{mk})

где λ _нм — соответствующие множители Лагранжа. Существует K ограничений нормализации, которые можно записать:

\sum _{n=0}^{N}p_{nk}=1

так что нормировочный член в лагранжиане равен:

{\mathcal {L}}_{norm}=\sum _{k=1}^{K}\alpha _{k}\left(1-\sum _{n=1}^{N}p_{nk}\right)

где α _k — соответствующие множители Лагранжа. Тогда лагранжиан представляет собой сумму трех вышеуказанных членов:

{\mathcal {L}}={\mathcal {L}}_{ent}+{\mathcal {L}}_{fit}+{\mathcal {L}}_{norm}

Приравнивание производной лагранжиана по одной из вероятностей к нулю дает:

{\frac {\partial {\mathcal {L}}}{\partial p_{n'k'}}}=0=-\ln(p_{n'k'})-1+\sum _{m=0}^{M}(\lambda _{n'm}x_{mk'})-\alpha _{k'}

Используя более сжатую векторную запись:

\sum _{m=0}^{M}\lambda _{nm}x_{mk}={\boldsymbol {\lambda }}_{n}\cdot {\boldsymbol {x}}_{k}

и отбрасываем простые числа от индексов n и k , а затем решаем $p_{nk}$ дает:

p_{nk}=e^{{\boldsymbol {\lambda }}_{n}\cdot {\boldsymbol {x}}_{k}}/Z_{k}

где:

Z_{k}=e^{1+\alpha _{k}}

Наложив ограничение нормализации, мы можем найти Z _k и записать вероятности как:

p_{nk}={\frac {e^{{\boldsymbol {\lambda }}_{n}\cdot {\boldsymbol {x}}_{k}}}{\sum _{u=0}^{N}e^{{\boldsymbol {\lambda }}_{u}\cdot {\boldsymbol {x}}_{k}}}}

The ${\boldsymbol {\lambda }}_{n}$ не все независимы. Мы можем добавить любую константу ⁠ $(M+1)$ ⁠ -мерный вектор для каждого из ${\boldsymbol {\lambda }}_{n}$ без изменения стоимости $p_{nk}$ вероятностей так, чтобы было только N , а не ⁠ $N+1$ ⁠ независимый ${\boldsymbol {\lambda }}_{n}$ . В разделе полиномиальной логистической регрессии выше ${\boldsymbol {\lambda }}_{0}$ было вычтено из каждого ${\boldsymbol {\lambda }}_{n}$ который устанавливает экспоненциальный член, включающий ${\boldsymbol {\lambda }}_{0}$ до 1, а бета-коэффициенты определялись как ${\boldsymbol {\beta }}_{n}={\boldsymbol {\lambda }}_{n}-{\boldsymbol {\lambda }}_{0}$ .

Другие подходы

В приложениях машинного обучения, где для двоичной классификации используется логистическая регрессия, MLE минимизирует функцию перекрестных энтропийных потерь.

Логистическая регрессия — важный алгоритм машинного обучения . Цель состоит в том, чтобы смоделировать вероятность случайной величины. $Y$ равен 0 или 1 согласно экспериментальным данным. ^[41]

Рассмотрим обобщенную линейную модельную функцию, параметризованную $\theta$ ,

h_{\theta }(X)={\frac {1}{1+e^{-\theta ^{T}X}}}=\Pr(Y=1\mid X;\theta )

Поэтому,

\Pr(Y=0\mid X;\theta )=1-h_{\theta }(X)

и поскольку $Y\in \{0,1\}$ , мы видим это $\Pr(y\mid X;\theta )$ дается $\Pr(y\mid X;\theta )=h_{\theta }(X)^{y}(1-h_{\theta }(X))^{(1-y)}.$ Теперь мы рассчитаем функцию правдоподобия , предполагая, что все наблюдения в выборке независимо распределены Бернулли:

{\begin{aligned}L(\theta \mid y;x)&=\Pr(Y\mid X;\theta )\\&=\prod _{i}\Pr(y_{i}\mid x_{i};\theta )\\&=\prod _{i}h_{\theta }(x_{i})^{y_{i}}(1-h_{\theta }(x_{i}))^{(1-y_{i})}\end{aligned}}

Обычно вероятность журнала максимальна,

N^{-1}\log L(\theta \mid y;x)=N^{-1}\sum _{i=1}^{N}\log \Pr(y_{i}\mid x_{i};\theta )

который максимизируется с помощью методов оптимизации, таких как градиентный спуск .

Предполагая $(x,y)$ пары извлекаются равномерно из основного распределения, то в пределе больших N ,

{\begin{aligned}&\lim \limits _{N\rightarrow +\infty }N^{-1}\sum _{i=1}^{N}\log \Pr(y_{i}\mid x_{i};\theta )=\sum _{x\in {\mathcal {X}}}\sum _{y\in {\mathcal {Y}}}\Pr(X=x,Y=y)\log \Pr(Y=y\mid X=x;\theta )\\[6pt]={}&\sum _{x\in {\mathcal {X}}}\sum _{y\in {\mathcal {Y}}}\Pr(X=x,Y=y)\left(-\log {\frac {\Pr(Y=y\mid X=x)}{\Pr(Y=y\mid X=x;\theta )}}+\log \Pr(Y=y\mid X=x)\right)\\[6pt]={}&-D_{\text{KL}}(Y\parallel Y_{\theta })-H(Y\mid X)\end{aligned}}

где $H(Y\mid X)$ – условная энтропия и $D_{\text{KL}}$ – расходимость Кульбака–Лейблера . Это приводит к интуитивному пониманию того, что, максимизируя логарифмическое правдоподобие модели, вы минимизируете отклонение KL вашей модели от максимального распределения энтропии. Интуитивный поиск модели, которая делает наименьшее количество допущений в своих параметрах.

Сравнение с линейной регрессией

Логистическую регрессию можно рассматривать как частный случай обобщенной линейной модели и, таким образом, аналог линейной регрессии . Однако модель логистической регрессии основана на совершенно иных предположениях (о взаимосвязи между зависимыми и независимыми переменными), чем модель линейной регрессии. В частности, ключевые различия между этими двумя моделями можно увидеть в следующих двух особенностях логистической регрессии. Во-первых, условное распределение $y\mid x$ является распределением Бернулли , а не распределением Гаусса , поскольку зависимая переменная является двоичной. Во-вторых, прогнозируемые значения являются вероятностями и поэтому ограничены значением (0,1) посредством функции логистического распределения , поскольку логистическая регрессия предсказывает вероятность конкретных результатов, а не сами результаты.

Альтернативы

Распространенной альтернативой логистической модели (логит-модели) является пробит-модель , как следует из родственных названий. С точки зрения обобщенных линейных моделей они различаются выбором функции связи : логистическая модель использует логит-функцию (обратную логистическую функцию), а пробит-модель использует пробит-функцию (обратную функцию ошибок ). Аналогично, в интерпретации скрытых переменных этих двух методов первый предполагает стандартное логистическое распределение ошибок, а второй - стандартное нормальное распределение ошибок. ^[42] другие сигмовидные функции Вместо этого можно использовать или распределения ошибок.

Логистическая регрессия является альтернативой методу Фишера 1936 года — линейному дискриминантному анализу . ^[43] Если предположения линейного дискриминантного анализа верны, условие можно изменить на противоположное, чтобы получить логистическую регрессию. Однако обратное неверно, поскольку логистическая регрессия не требует многомерного нормального предположения дискриминантного анализа. ^[44]

Предположение о линейных эффектах прогнозирования можно легко ослабить, используя такие методы, как сплайн-функции . ^[13]

История

Подробная история логистической регрессии представлена в Cramer (2002) . Логистическая функция была разработана как модель роста населения и названа «логистикой» Пьером Франсуа Ферхюстом в 1830-х и 1840-х годах под руководством Адольфа Кетле ; см. в разделе Логистическая функция § История . подробности ^[45] В своей самой ранней статье (1838 г.) Ферхюльст не уточнил, как он согласовал кривые с данными. ^[46]^[47] В своей более подробной статье (1845 г.) Ферхюльст определил три параметра модели, заставив кривую проходить через три наблюдаемые точки, что дало плохие прогнозы. ^[48]^[49]

Логистическая функция была независимо разработана в химии как модель автокатализа ( Вильгельм Оствальд , 1883). ^[50] Автокаталитическая реакция — это реакция, в которой один из продуктов сам является катализатором той же реакции, а запас одного из реагентов фиксирован. Это естественным образом приводит к логистическому уравнению по той же причине, что и рост населения: реакция является самоусиливающейся, но ограниченной.

Логистическая функция была независимо заново открыта как модель роста населения в 1920 году Рэймондом Перлом и Лоуэллом Ридом и опубликована как Pearl & Reed (1920) , что привело к ее использованию в современной статистике. Первоначально они не знали о работе Ферхюльста и, по-видимому, узнали о ней от Л. Гюстава дю Паскье , но мало доверяли ему и не переняли его терминологию. ^[51] Приоритет Ферхюльста был признан, а термин «логистика» возрожден Удным Юлом в 1925 году и используется с тех пор. ^[52] Перл и Рид сначала применили модель к населению Соединенных Штатов, а также первоначально подогнали кривую, заставив ее проходить через три точки; как и в случае с Верхюльстом, это снова дало плохие результаты. ^[53]

В 1930-х годах пробит-модель была разработана и систематизирована Честером Иттнером Блиссом , который ввел термин «пробит» в «Блиссе» (1934) , и Джоном Гаддумом в «Гаддуме» (1933) , а модель соответствовала оценке максимального правдоподобия Рональда А. Фишер в «Фишере» (1935) как дополнение к работе Блисс. Модель пробита в основном использовалась в биоанализе , и ей предшествовали более ранние работы, датированные 1860 годом; см. Модель Пробита § История . Модель пробит повлияла на последующее развитие модели логит, и эти модели конкурировали друг с другом. ^[54]

Логистическая модель, вероятно, была впервые использована в качестве альтернативы пробит-модели в биоанализе Эдвином Бидуэллом Уилсоном и его студенткой Джейн Вустер в работе Wilson & Worcester (1943) . ^[55] Однако развитие логистической модели как общей альтернативы модели пробит произошло главным образом благодаря работе Джозефа Берксона на протяжении многих десятилетий, начиная с Берксона (1944) , где он придумал «логит» по аналогии с «пробит». и продолжаясь через Берксона (1951) и последующие годы. ^[56] Логит-модель изначально была отвергнута как худшая по сравнению с пробит-моделью, но «постепенно достигла равного положения с пробит-моделью». ^[57] особенно между 1960 и 1970 годами. К 1970 году логит-модель достигла паритета с пробит-моделью, используемой в статистических журналах, а затем превзошла ее. Эта относительная популярность была обусловлена принятием логита за пределами биоанализа, а не вытеснением пробита в биоанализе и его неофициальным использованием на практике; Популярность логита объясняется вычислительной простотой, математическими свойствами и общностью модели логита, что позволяет использовать ее в различных областях. ^[3]

За это время произошли различные усовершенствования, в частности Дэвидом Коксом , как в работе Кокса (1958) . ^[4]

Полиномиальная логит-модель была независимо представлена Коксом (1966) и Тейлом (1969) , что значительно увеличило сферу применения и популярность логит-модели. ^[58] В 1973 году Дэниел Макфадден связал полиномиальный логит с теорией дискретного выбора , в частности с аксиомой выбора Люса , показав, что полиномиальный логит следует из предположения о независимости нерелевантных альтернатив и интерпретации шансов альтернатив как относительных предпочтений; ^[59] это дало теоретическую основу логистической регрессии. ^[58]

Расширения

Существует большое количество расширений:

Полиномиальная логистическая регрессия (или полиномиальный логит ) обрабатывает случай многофакторной категориальной зависимой переменной (с неупорядоченными значениями, также называемыми «классификацией»). Общий случай наличия зависимых переменных с более чем двумя значениями называется политомической регрессией .
Упорядоченная логистическая регрессия (или упорядоченная логистика ) обрабатывает порядковые зависимые переменные (упорядоченные значения).
Смешанный логит — это расширение полиномиального логита, которое учитывает корреляции между выбором зависимой переменной.
Расширением логистической модели на наборы взаимозависимых переменных является условное случайное поле .
Условная логистическая регрессия обрабатывает сопоставленные или стратифицированные данные, когда слои небольшие. Чаще всего он используется при анализе наблюдательных исследований .

См. также

Логистическая функция
Дискретный выбор
Модель Джарроу – Тернбулла
Ограниченная зависимая переменная
Полиномиальная логит-модель
Заказанный логит
Тест Хосмера – Лемешоу
Оценка Брайера
mlpack — содержит на C++. реализацию логистической регрессии
Местная выборка случай-контроль
Дерево логистической модели

Ссылки

^ Толлес, Джулиана; Мёрер, Уильям Дж (2016). «Логистическая регрессия, связывающая характеристики пациента с результатами». ДЖАМА . 316 (5): 533–4. дои : 10.1001/jama.2016.7653 . ISSN 0098-7484 . OCLC 6823603312 . ПМИД 27483067 .
^ Jump up to: ^а ^б ^с ^д ^и ^ж ^г ^час ^я ^дж ^к Хосмер, Дэвид В.; Лемешоу, Стэнли (2000). Прикладная логистическая регрессия (2-е изд.). Уайли. ISBN 978-0-471-35632-5 . ^{[ нужна страница ]}
^ Jump up to: ^а ^б Крамер 2002 , с. 10–11.
^ Jump up to: ^а ^б Уокер, Ш.; Дункан, Д.Б. (1967). «Оценка вероятности события как функция нескольких независимых переменных». Биометрика . 54 (1/2): 167–178. дои : 10.2307/2333860 . JSTOR 2333860 .
^ Крамер 2002 , с. 8.
^ Бойд, ЧР; Толсон, Массачусетс; Коупс, WS (1987). «Оценка помощи при травмах: метод TRISS. Оценка травмы и оценка тяжести травмы» . Журнал травмы . 27 (4): 370–378. дои : 10.1097/00005373-198704000-00005 . ПМИД 3106646 .
^ Кологлу, М.; Элкер, Д.; Алтун, Х.; Саек, И. (2001). «Валидация MPI и PIA II в двух разных группах пациентов с вторичным перитонитом». Гепато-гастроэнтерология . 48 (37): 147–51. ПМИД 11268952 .
^ Биондо, С.; Рамос, Э.; Дейрос, М.; Раге, Ж.М.; Де Ока, Дж.; Морено, П.; Фарран, Л.; Джаурриета, Э. (2000). «Прогностические факторы смертности при перитоните левой толстой кишки: новая система оценки». Журнал Американского колледжа хирургов . 191 (6): 635–42. дои : 10.1016/S1072-7515(00)00758-4 . ПМИД 11129812 .
^ Маршалл, Дж. К.; Кук, диджей; Кристу, Невада; Бернар, Греция; Спринг, CL; Сиббальд, WJ (1995). «Показатель множественной дисфункции органов: надежный дескриптор сложного клинического исхода». Медицина критических состояний . 23 (10): 1638–52. дои : 10.1097/00003246-199510000-00007 . ПМИД 7587228 .
^ Ле Галль-младший; Лемешоу, С.; Солнье, Ф. (1993). «Новая упрощенная оценка острой физиологии (SAPS II), основанная на многоцентровом исследовании Европы и Северной Америки». ДЖАМА . 270 (24): 2957–63. дои : 10.1001/jama.1993.03510240069035 . ПМИД 8254858 .
^ Jump up to: ^а ^б Дэвид А. Фридман (2009). Статистические модели: теория и практика . Издательство Кембриджского университета . п. 128.
^ Труэтт, Дж; Корнфилд, Дж; Каннел, W (1967). «Многомерный анализ риска ишемической болезни сердца во Фремингеме». Журнал хронических болезней . 20 (7): 511–24. дои : 10.1016/0021-9681(67)90082-3 . ПМИД 6028270 .
^ Jump up to: ^а ^б ^с Харрелл, Фрэнк Э. (2015). Стратегии регрессионного моделирования . Серия Спрингера по статистике (2-е изд.). Нью-Йорк; Спрингер. дои : 10.1007/978-3-319-19425-7 . ISBN 978-3-319-19424-0 .
^ М. Страно; Б.М. Колозимо (2006). «Логистический регрессионный анализ для экспериментального определения формирования предельных диаграмм». Международный журнал станков и производства . 46 (6): 673–682. doi : 10.1016/j.ijmachtools.2005.07.005 .
^ Палей, СК; Дас, СК (2009). «Модель логистической регрессии для прогнозирования рисков падения кровли в бортовых и столбовых выработках угольных шахт: подход». Наука безопасности . 47 : 88–96. doi : 10.1016/j.ssci.2008.01.002 .
^ Берри, Майкл Дж. А. (1997). Методы интеллектуального анализа данных для маркетинга, продаж и поддержки клиентов . Уайли. п. 10.
^ Меса-Аранго, Родриго; Хасан, Самиул; Уккусури, Сатиш В.; Мюррей-Туит, Памела (февраль 2013 г.). «Модель на уровне домохозяйства для выбора типа пункта назначения эвакуации при урагане с использованием данных об урагане Иван» . Обзор природных опасностей . 14 (1): 11–20. doi : 10.1061/(ASCE)NH.1527-6996.0000083 . ISSN 1527-6988 .
^ Виббенмейер, Мэтью Дж.; Хэнд, Майкл С.; Калкин, Дэвид Э.; Венн, Тайрон Дж.; Томпсон, Мэтью П. (июнь 2013 г.). «Предпочтения риска при принятии стратегических решений по поводу лесных пожаров: эксперимент по выбору с участием менеджеров по борьбе с лесными пожарами в США» . Анализ рисков . 33 (6): 1021–1037. Бибкод : 2013RiskA..33.1021W . дои : 10.1111/j.1539-6924.2012.01894.x . ISSN 0272-4332 . ПМИД 23078036 . S2CID 45282555 .
^ Ловреглио, Руджеро; Борри, Дино; дель Олио, Луиджи; Ибеас, Ангел (01 февраля 2014 г.). «Модель дискретного выбора, основанная на случайных полезностях для выбора выхода при экстренной эвакуации» . Наука безопасности . 62 : 418–426. дои : 10.1016/j.ssci.2013.10.004 . ISSN 0925-7535 .
^ «Логистическая регрессия» . КОРП-МИДС1 (МДС) . Проверено 16 марта 2024 г.
^ Нейман, Дж .; Пирсон, ES (1933), «О проблеме наиболее эффективных проверок статистических гипотез» (PDF) , Philosophical Transactions of the Royal Society of London A , 231 (694–706): 289–337, Bibcode : 1933RSPTA.231 ..289N , doi : 10.1098/rsta.1933.0009 , JSTOR 91247
^ «Как интерпретировать соотношение шансов в логистической регрессии?» . Институт цифровых исследований и образования.
^ Эверитт, Брайан (1998). Кембриджский статистический словарь . Кембридж, Великобритания, Нью-Йорк: Издательство Кембриджского университета. ISBN 978-0-521-59346-5 .
^ Например, индикаторную функцию в этом случае можно определить как $\Delta (n,y)=1-(y-n)^{2}$
^ Малуф, Роберт (2002). «Сравнение алгоритмов оценки параметров максимальной энтропии» . Материалы шестой конференции по изучению естественного языка (CoNLL-2002) . стр. 49–55. дои : 10.3115/1118853.1118871 .
^ Jump up to: ^а ^б ^с ^д ^и ^ж ^г Менар, Скотт В. (2002). Прикладная логистическая регрессия (2-е изд.). МУДРЕЦ. ISBN 978-0-7619-2208-7 . ^{[ нужна страница ]}
^ Гурьеро, Кристиан; Монфор, Ален (1981). «Асимптотические свойства оценки максимального правдоподобия в дихотомических логит-моделях». Журнал эконометрики . 17 (1): 83–97. дои : 10.1016/0304-4076(81)90060-9 .
^ Пак, Бён У.; Симар, Леопольд; Зеленюк, Валентин (2017). «Непараметрическая оценка динамических моделей дискретного выбора для данных временных рядов» (PDF) . Вычислительная статистика и анализ данных . 108 : 97–120. дои : 10.1016/j.csda.2016.10.024 .
^ Мерфи, Кевин П. (2012). Машинное обучение – вероятностная перспектива . Массачусетский технологический институт Пресс. п. 245. ИСБН 978-0-262-01802-9 .
^ Ван Смеден, М.; Де Гроот, Дж.А.; Мунс, КГ; Коллинз, Дж.С.; Альтман, Д.Г.; Эйкеманс, MJ; Рейтсма, Дж.Б. (2016). «Нет обоснования критерия 1 переменная на 10 событий для анализа бинарной логистической регрессии» . Методология медицинских исследований BMC . 16 (1): 163. дои : 10.1186/s12874-016-0267-3 . ПМК 5122171 . ПМИД 27881078 .
^ Педуцци, П; Конкато, Дж; Кемпер, Э; Холфорд, TR; Файнштейн, Арканзас (декабрь 1996 г.). «Моделирующее исследование количества событий на переменную в логистическом регрессионном анализе» . Журнал клинической эпидемиологии . 49 (12): 1373–9. дои : 10.1016/s0895-4356(96)00236-3 . ПМИД 8970487 .
^ Виттингофф, Э.; Маккалок, CE (12 января 2007 г.). «Ослабление правила десяти событий на переменную в логистической регрессии и регрессии Кокса» . Американский журнал эпидемиологии . 165 (6): 710–718. дои : 10.1093/aje/kwk052 . ПМИД 17182981 .
^ ван дер Плог, Тьерд; Остин, Питер С.; Стейерберг, Эвоут В. (2014). «Современные методы моделирования требуют больших объемов данных: исследование моделирования для прогнозирования дихотомических конечных точек» . Методология медицинских исследований BMC . 14 :137. дои : 10.1186/1471-2288-14-137 . ПМЦ 4289553 . ПМИД 25532820 .
^ Грин, Уильям Н. (2003). Эконометрический анализ (Пятое изд.). Прентис-Холл. ISBN 978-0-13-066189-0 .
^ Jump up to: ^а ^б ^с ^д ^и ^ж ^г ^час ^я ^дж Коэн, Джейкоб; Коэн, Патрисия; Уэст, Стивен Г.; Эйкен, Леона С. (2002). Прикладной множественный регрессионный/корреляционный анализ для поведенческих наук (3-е изд.). Рутледж. ISBN 978-0-8058-2223-6 . ^{[ нужна страница ]}
^ Эллисон, Пол Д. «Меры соответствия логистической регрессии» (PDF) . Statistical Horizons LLC и Пенсильванский университет.
^ Хосмер, Д.В. (1997). «Сравнение критериев согласия для модели логистической регрессии». Стат Мед . 16 (9): 965–980. doi : 10.1002/(sici)1097-0258(19970515)16:9<965::aid-sim509>3.3.co;2-f . ПМИД 9160492 .
^ Харрелл, Фрэнк Э. (2010). Стратегии регрессионного моделирования: с приложениями к линейным моделям, логистической регрессии и анализу выживания . Нью-Йорк: Спрингер. ISBN 978-1-4419-2918-1 . ^{[ нужна страница ]}
^ Jump up to: ^а ^б https://class.stanford.edu/c4x/HumanitiesScience/StatLearning/asset/classification.pdf, слайд 16
^ Jump up to: ^а ^б Маунт, Дж. (2011). «Эквивалентность моделей логистической регрессии и максимальной энтропии» (PDF) . Проверено 23 февраля 2022 г.
^ Нг, Эндрю (2000). «Конспекты лекций CS229» (PDF) . CS229 Конспекты лекций : 16–19.
^ Родригес, Г. (2007). Конспект лекций по обобщенным линейным моделям . стр. Глава 3, стр. 45.
^ Гарет Джеймс; Даниэла Виттен; Тревор Хэсти; Роберт Тибширани (2013). Введение в статистическое обучение . Спрингер. п. 6.
^ Похар, Майя; Блас, Матея; Терк, Сандра (2004). «Сравнение логистической регрессии и линейного дискриминантного анализа: моделирование» . Методолошки Звездки . 1 (1).
^ Крамер 2002 , стр. 3–5.
^ Ферхюльст, Пьер-Франсуа (1838). «Уведомление о законе о том, что численность населения продолжает увеличиваться» (PDF) . Заочная математика и физика . 10 :113–121 . Проверено 3 декабря 2014 г.
^ Крамер 2002 , с. 4: «Он не сказал, как он подогнал кривые».
^ Ферхюльст, Пьер-Франсуа (1845). «Математические исследования закона увеличения численности населения» . Новые мемуары Королевской академии наук и беллетристики Брюсселя . 18 . Проверено 18 февраля 2013 г.
^ Крамер 2002 , с. 4.
^ Крамер 2002 , с. 7.
^ Крамер 2002 , с. 6.
^ Крамер 2002 , с. 6–7.
^ Крамер 2002 , с. 5.
^ Крамер 2002 , с. 7–9.
^ Крамер 2002 , с. 9.
^ Крамер 2002 , с. 8: «Насколько я понимаю, внедрение логистики в качестве альтернативы обычной функции вероятности — это работа одного человека, Джозефа Берксона (1899–1982)…»
^ Крамер 2002 , с. 11.
^ Jump up to: ^а ^б Крамер 2002 , с. 13.
^ Макфадден, Дэниел (1973). «Условный логит-анализ поведения качественного выбора» (PDF) . В П. Зарембке (ред.). Границы в эконометрике . Нью-Йорк: Академическая пресса. стр. 105–142. Архивировано из оригинала (PDF) 27 ноября 2018 г. Проверено 20 апреля 2019 г.

Источники

Берксон, Джозеф (1944). «Применение логистической функции к биоанализу». Журнал Американской статистической ассоциации . 39 (227): 357–365. дои : 10.1080/01621459.1944.10500699 . JSTOR 2280041 .
Берксон, Джозеф (1951). «Почему я предпочитаю логиты пробитам». Биометрия . 7 (4): 327–339. дои : 10.2307/3001655 . ISSN 0006-341X . JSTOR 3001655 .
Блисс, CI (1934). «Метод пробитов». Наука . 79 (2037): 38–39. Бибкод : 1934Sci....79...38B . дои : 10.1126/science.79.2037.38 . ПМИД 17813446 . Эти произвольные единицы вероятности были названы «пробитами».
Кокс, Дэвид Р. (1958). «Регрессионный анализ бинарных последовательностей (с обсуждением)». JR Stat Soc B. 20 (2): 215–242. дои : 10.1111/j.2517-6161.1958.tb00292.x . JSTOR 2983890 .
Кокс, Дэвид Р. (1966). «Некоторые процедуры, связанные с кривой качественного логистического ответа». В Ф. Н. Дэвиде (ред.). Исследовательские статьи по теории вероятности и статистике (Festschrift for J. Neyman) . Лондон: Уайли. стр. 55–71.
Крамер, Дж. С. (2002). Истоки логистической регрессии (PDF) (Технический отчет). Том. 119. Институт Тинбергена. стр. 167–178. дои : 10.2139/ssrn.360300 .
- Опубликовано в: Крамер, Дж. С. (2004). «Ранние истоки логит-модели». Исследования по истории и философии науки. Часть C: Исследования по истории и философии биологических и биомедицинских наук . 35 (4): 613–626. дои : 10.1016/j.shpsc.2004.09.003 .
Фишер, Р.А. (1935). «Случай нулевых выживших в анализах пробита» . Анналы прикладной биологии . 22 : 164–165. дои : 10.1111/j.1744-7348.1935.tb07713.x . Архивировано из оригинала 30 апреля 2014 г.
Гаддум, Джон Х. (1933). Отчеты о биологических стандартах: методы биологического анализа в зависимости от квантового ответа. III . Канцелярский офис HM. OCLC 808240121 .
Тейл, Анри (1969). «Мультиномиальное расширение линейной логит-модели». Международное экономическое обозрение . 10 (3): 251–59. дои : 10.2307/2525642 . JSTOR 2525642 .
Перл, Раймонд; Рид, Лоуэлл Дж. (июнь 1920 г.). «О темпах роста населения Соединенных Штатов с 1790 года и его математическом представлении» . Труды Национальной академии наук . 6 (6): 275–288. Бибкод : 1920PNAS....6..275P . дои : 10.1073/pnas.6.6.275 . ПМЦ 1084522 . ПМИД 16576496 .
Уилсон, Э.Б .; Вустер, Дж . (1943). «Определение LD50 и его ошибка отбора проб в биоанализе» . Труды Национальной академии наук Соединенных Штатов Америки . 29 (2): 79–85. Бибкод : 1943PNAS...29...79W . дои : 10.1073/pnas.29.2.79 . ПМЦ 1078563 . ПМИД 16588606 .

Агрести, Алан. (2002). Категориальный анализ данных . Нью-Йорк: Wiley-Interscience. ISBN 978-0-471-36093-3 .
Амемия, Такеши (1985). «Модели качественного реагирования» . Продвинутая эконометрика . Оксфорд: Бэзил Блэквелл. стр. 267–359. ISBN 978-0-631-13345-2 .
Балакришнан, Н. (1991). Справочник по логистическому распределению . Марсель Деккер, Inc. ISBN 978-0-8247-8587-1 .
Гурьеру, Кристиан (2000). «Простая дихотомия» . Эконометрика качественных зависимых переменных . Нью-Йорк: Издательство Кембриджского университета. стр. 6–37. ISBN 978-0-521-58985-7 .
Грин, Уильям Х. (2003). Эконометрический анализ, пятое издание . Прентис Холл. ISBN 978-0-13-066189-0 .
Хильбе, Джозеф М. (2009). Модели логистической регрессии . Чепмен и Холл/CRC Press. ISBN 978-1-4200-7575-5 .
Хосмер, Дэвид (2013). Прикладная логистическая регрессия . Хобокен, Нью-Джерси: Уайли. ISBN 978-0-470-58247-3 .
Хауэлл, Дэвид К. (2010). Статистические методы в психологии, 7-е изд . Бельмонт, Калифорния; Томсон Уодсворт. ISBN 978-0-495-59786-5 .
Педуцци, П.; Дж. Конкато; Э. Кемпер; Т. Р. Холфорд; А. Р. Файнштейн (1996). «Моделирующее исследование количества событий на переменную в логистическом регрессионном анализе» . Журнал клинической эпидемиологии . 49 (12): 1373–1379. дои : 10.1016/s0895-4356(96)00236-3 . ПМИД 8970487 .
Берри, Майкл Дж.А.; Линофф, Гордон (1997). Методы интеллектуального анализа данных для маркетинга, продаж и поддержки клиентов . Уайли.

Внешние ссылки

СМИ, связанные с логистической регрессией, на Викискладе?
Лекция по эконометрике (тема: Логит-модель) на YouTube, автор Марк Тома
Учебник по логистической регрессии
mlelr : программное обеспечение на C для учебных целей.

[1] Толлес, Джулиана; Мёрер, Уильям Дж (2016). «Логистическая регрессия, связывающая характеристики пациента с результатами». ДЖАМА . 316 (5): 533–4. дои : 10.1001/jama.2016.7653 . ISSN 0098-7484 . OCLC 6823603312 . ПМИД 27483067 .

[Hosmer-2] Jump up to: ^а ^б ^с ^д ^и ^ж ^г ^час ^я ^дж ^к Хосмер, Дэвид В.; Лемешоу, Стэнли (2000). Прикладная логистическая регрессия (2-е изд.). Уайли. ISBN 978-0-471-35632-5 . ^{[ нужна страница ]}

[FOOTNOTECramer200210–11-3] Jump up to: ^а ^б Крамер 2002 , с. 10–11.

[wal67est-4] Jump up to: ^а ^б Уокер, Ш.; Дункан, Д.Б. (1967). «Оценка вероятности события как функция нескольких независимых переменных». Биометрика . 54 (1/2): 167–178. дои : 10.2307/2333860 . JSTOR 2333860 .

[FOOTNOTECramer20028-5] Крамер 2002 , с. 8.

[6] Бойд, ЧР; Толсон, Массачусетс; Коупс, WS (1987). «Оценка помощи при травмах: метод TRISS. Оценка травмы и оценка тяжести травмы» . Журнал травмы . 27 (4): 370–378. дои : 10.1097/00005373-198704000-00005 . ПМИД 3106646 .

[7] Кологлу, М.; Элкер, Д.; Алтун, Х.; Саек, И. (2001). «Валидация MPI и PIA II в двух разных группах пациентов с вторичным перитонитом». Гепато-гастроэнтерология . 48 (37): 147–51. ПМИД 11268952 .

[8] Биондо, С.; Рамос, Э.; Дейрос, М.; Раге, Ж.М.; Де Ока, Дж.; Морено, П.; Фарран, Л.; Джаурриета, Э. (2000). «Прогностические факторы смертности при перитоните левой толстой кишки: новая система оценки». Журнал Американского колледжа хирургов . 191 (6): 635–42. дои : 10.1016/S1072-7515(00)00758-4 . ПМИД 11129812 .

[9] Маршалл, Дж. К.; Кук, диджей; Кристу, Невада; Бернар, Греция; Спринг, CL; Сиббальд, WJ (1995). «Показатель множественной дисфункции органов: надежный дескриптор сложного клинического исхода». Медицина критических состояний . 23 (10): 1638–52. дои : 10.1097/00003246-199510000-00007 . ПМИД 7587228 .

[10] Ле Галль-младший; Лемешоу, С.; Солнье, Ф. (1993). «Новая упрощенная оценка острой физиологии (SAPS II), основанная на многоцентровом исследовании Европы и Северной Америки». ДЖАМА . 270 (24): 2957–63. дои : 10.1001/jama.1993.03510240069035 . ПМИД 8254858 .

[Freedman09-11] Jump up to: ^а ^б Дэвид А. Фридман (2009). Статистические модели: теория и практика . Издательство Кембриджского университета . п. 128.

[12] Труэтт, Дж; Корнфилд, Дж; Каннел, W (1967). «Многомерный анализ риска ишемической болезни сердца во Фремингеме». Журнал хронических болезней . 20 (7): 511–24. дои : 10.1016/0021-9681(67)90082-3 . ПМИД 6028270 .

[rms-13] Jump up to: ^а ^б ^с Харрелл, Фрэнк Э. (2015). Стратегии регрессионного моделирования . Серия Спрингера по статистике (2-е изд.). Нью-Йорк; Спрингер. дои : 10.1007/978-3-319-19425-7 . ISBN 978-3-319-19424-0 .

[strano05-14] М. Страно; Б.М. Колозимо (2006). «Логистический регрессионный анализ для экспериментального определения формирования предельных диаграмм». Международный журнал станков и производства . 46 (6): 673–682. doi : 10.1016/j.ijmachtools.2005.07.005 .

[safety-15] Палей, СК; Дас, СК (2009). «Модель логистической регрессии для прогнозирования рисков падения кровли в бортовых и столбовых выработках угольных шахт: подход». Наука безопасности . 47 : 88–96. doi : 10.1016/j.ssci.2008.01.002 .

[16] Берри, Майкл Дж. А. (1997). Методы интеллектуального анализа данных для маркетинга, продаж и поддержки клиентов . Уайли. п. 10.

[17] Меса-Аранго, Родриго; Хасан, Самиул; Уккусури, Сатиш В.; Мюррей-Туит, Памела (февраль 2013 г.). «Модель на уровне домохозяйства для выбора типа пункта назначения эвакуации при урагане с использованием данных об урагане Иван» . Обзор природных опасностей . 14 (1): 11–20. doi : 10.1061/(ASCE)NH.1527-6996.0000083 . ISSN 1527-6988 .

[18] Виббенмейер, Мэтью Дж.; Хэнд, Майкл С.; Калкин, Дэвид Э.; Венн, Тайрон Дж.; Томпсон, Мэтью П. (июнь 2013 г.). «Предпочтения риска при принятии стратегических решений по поводу лесных пожаров: эксперимент по выбору с участием менеджеров по борьбе с лесными пожарами в США» . Анализ рисков . 33 (6): 1021–1037. Бибкод : 2013RiskA..33.1021W . дои : 10.1111/j.1539-6924.2012.01894.x . ISSN 0272-4332 . ПМИД 23078036 . S2CID 45282555 .

[19] Ловреглио, Руджеро; Борри, Дино; дель Олио, Луиджи; Ибеас, Ангел (01 февраля 2014 г.). «Модель дискретного выбора, основанная на случайных полезностях для выбора выхода при экстренной эвакуации» . Наука безопасности . 62 : 418–426. дои : 10.1016/j.ssci.2013.10.004 . ISSN 0925-7535 .

[20] «Логистическая регрессия» . КОРП-МИДС1 (МДС) . Проверено 16 марта 2024 г.

[NeymanPearson1933-21] Нейман, Дж .; Пирсон, ES (1933), «О проблеме наиболее эффективных проверок статистических гипотез» (PDF) , Philosophical Transactions of the Royal Society of London A , 231 (694–706): 289–337, Bibcode : 1933RSPTA.231 ..289N , doi : 10.1098/rsta.1933.0009 , JSTOR 91247

[22] «Как интерпретировать соотношение шансов в логистической регрессии?» . Институт цифровых исследований и образования.

[23] Эверитт, Брайан (1998). Кембриджский статистический словарь . Кембридж, Великобритания, Нью-Йорк: Издательство Кембриджского университета. ISBN 978-0-521-59346-5 .

[24] Например, индикаторную функцию в этом случае можно определить как $\Delta (n,y)=1-(y-n)^{2}$

[25] Малуф, Роберт (2002). «Сравнение алгоритмов оценки параметров максимальной энтропии» . Материалы шестой конференции по изучению естественного языка (CoNLL-2002) . стр. 49–55. дои : 10.3115/1118853.1118871 .

[Menard-26] Jump up to: ^а ^б ^с ^д ^и ^ж ^г Менар, Скотт В. (2002). Прикладная логистическая регрессия (2-е изд.). МУДРЕЦ. ISBN 978-0-7619-2208-7 . ^{[ нужна страница ]}

[27] Гурьеро, Кристиан; Монфор, Ален (1981). «Асимптотические свойства оценки максимального правдоподобия в дихотомических логит-моделях». Журнал эконометрики . 17 (1): 83–97. дои : 10.1016/0304-4076(81)90060-9 .

[sciencedirect.com-28] Пак, Бён У.; Симар, Леопольд; Зеленюк, Валентин (2017). «Непараметрическая оценка динамических моделей дискретного выбора для данных временных рядов» (PDF) . Вычислительная статистика и анализ данных . 108 : 97–120. дои : 10.1016/j.csda.2016.10.024 .

[29] Мерфи, Кевин П. (2012). Машинное обучение – вероятностная перспектива . Массачусетский технологический институт Пресс. п. 245. ИСБН 978-0-262-01802-9 .

[30] Ван Смеден, М.; Де Гроот, Дж.А.; Мунс, КГ; Коллинз, Дж.С.; Альтман, Д.Г.; Эйкеманс, MJ; Рейтсма, Дж.Б. (2016). «Нет обоснования критерия 1 переменная на 10 событий для анализа бинарной логистической регрессии» . Методология медицинских исследований BMC . 16 (1): 163. дои : 10.1186/s12874-016-0267-3 . ПМК 5122171 . ПМИД 27881078 .

[31] Педуцци, П; Конкато, Дж; Кемпер, Э; Холфорд, TR; Файнштейн, Арканзас (декабрь 1996 г.). «Моделирующее исследование количества событий на переменную в логистическом регрессионном анализе» . Журнал клинической эпидемиологии . 49 (12): 1373–9. дои : 10.1016/s0895-4356(96)00236-3 . ПМИД 8970487 .

[32] Виттингофф, Э.; Маккалок, CE (12 января 2007 г.). «Ослабление правила десяти событий на переменную в логистической регрессии и регрессии Кокса» . Американский журнал эпидемиологии . 165 (6): 710–718. дои : 10.1093/aje/kwk052 . ПМИД 17182981 .

[plo14mod-33] ван дер Плог, Тьерд; Остин, Питер С.; Стейерберг, Эвоут В. (2014). «Современные методы моделирования требуют больших объемов данных: исследование моделирования для прогнозирования дихотомических конечных точек» . Методология медицинских исследований BMC . 14 :137. дои : 10.1186/1471-2288-14-137 . ПМЦ 4289553 . ПМИД 25532820 .

[Greene-34] Грин, Уильям Н. (2003). Эконометрический анализ (Пятое изд.). Прентис-Холл. ISBN 978-0-13-066189-0 .

[Cohen-35] Jump up to: ^а ^б ^с ^д ^и ^ж ^г ^час ^я ^дж Коэн, Джейкоб; Коэн, Патрисия; Уэст, Стивен Г.; Эйкен, Леона С. (2002). Прикладной множественный регрессионный/корреляционный анализ для поведенческих наук (3-е изд.). Рутледж. ISBN 978-0-8058-2223-6 . ^{[ нужна страница ]}

[:0-36] Эллисон, Пол Д. «Меры соответствия логистической регрессии» (PDF) . Statistical Horizons LLC и Пенсильванский университет.

[37] Хосмер, Д.В. (1997). «Сравнение критериев согласия для модели логистической регрессии». Стат Мед . 16 (9): 965–980. doi : 10.1002/(sici)1097-0258(19970515)16:9<965::aid-sim509>3.3.co;2-f . ПМИД 9160492 .

[38] Харрелл, Фрэнк Э. (2010). Стратегии регрессионного моделирования: с приложениями к линейным моделям, логистической регрессии и анализу выживания . Нью-Йорк: Спрингер. ISBN 978-1-4419-2918-1 . ^{[ нужна страница ]}

[islr-39] Jump up to: ^а ^б https://class.stanford.edu/c4x/HumanitiesScience/StatLearning/asset/classification.pdf, слайд 16

[Mount2011-40] Jump up to: ^а ^б Маунт, Дж. (2011). «Эквивалентность моделей логистической регрессии и максимальной энтропии» (PDF) . Проверено 23 февраля 2022 г.

[41] Нг, Эндрю (2000). «Конспекты лекций CS229» (PDF) . CS229 Конспекты лекций : 16–19.

[42] Родригес, Г. (2007). Конспект лекций по обобщенным линейным моделям . стр. Глава 3, стр. 45.

[43] Гарет Джеймс; Даниэла Виттен; Тревор Хэсти; Роберт Тибширани (2013). Введение в статистическое обучение . Спрингер. п. 6.

[44] Похар, Майя; Блас, Матея; Терк, Сандра (2004). «Сравнение логистической регрессии и линейного дискриминантного анализа: моделирование» . Методолошки Звездки . 1 (1).

[FOOTNOTECramer20023–5-45] Крамер 2002 , стр. 3–5.

[46] Ферхюльст, Пьер-Франсуа (1838). «Уведомление о законе о том, что численность населения продолжает увеличиваться» (PDF) . Заочная математика и физика . 10 :113–121 . Проверено 3 декабря 2014 г.

[47] Крамер 2002 , с. 4: «Он не сказал, как он подогнал кривые».

[48] Ферхюльст, Пьер-Франсуа (1845). «Математические исследования закона увеличения численности населения» . Новые мемуары Королевской академии наук и беллетристики Брюсселя . 18 . Проверено 18 февраля 2013 г.

[FOOTNOTECramer20024-49] Крамер 2002 , с. 4.

[FOOTNOTECramer20027-50] Крамер 2002 , с. 7.

[FOOTNOTECramer20026-51] Крамер 2002 , с. 6.

[FOOTNOTECramer20026–7-52] Крамер 2002 , с. 6–7.

[FOOTNOTECramer20025-53] Крамер 2002 , с. 5.

[FOOTNOTECramer20027–9-54] Крамер 2002 , с. 7–9.

[FOOTNOTECramer20029-55] Крамер 2002 , с. 9.

[56] Крамер 2002 , с. 8: «Насколько я понимаю, внедрение логистики в качестве альтернативы обычной функции вероятности — это работа одного человека, Джозефа Берксона (1899–1982)…»

[FOOTNOTECramer200211-57] Крамер 2002 , с. 11.

[FOOTNOTECramer200213-58] Jump up to: ^а ^б Крамер 2002 , с. 13.

[59] Макфадден, Дэниел (1973). «Условный логит-анализ поведения качественного выбора» (PDF) . В П. Зарембке (ред.). Границы в эконометрике . Нью-Йорк: Академическая пресса. стр. 105–142. Архивировано из оригинала (PDF) 27 ноября 2018 г. Проверено 20 апреля 2019 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

Базы данных авторитетного контроля
International	FAST
National	France BnF data Germany Israel United States