Jump to content

Полиномиальная логистическая регрессия

В статистике полиномиальная логистическая регрессия — это метод классификации , который обобщает логистическую регрессию на многоклассовые задачи , то есть с более чем двумя возможными дискретными результатами. [1] То есть это модель, которая используется для прогнозирования вероятностей различных возможных результатов категориально распределенной зависимой переменной с учетом набора независимых переменных (которые могут быть вещественными, двоичными, категориальными и т. д.). ).

Полиномиальная логистическая регрессия известна под множеством других названий, включая политомическую LR , [2] [3] мультиклассовый LR , softmax регрессия , полиномиальный логит ( mlogit ), классификатор максимальной энтропии ( MaxEnt ) и модель условной максимальной энтропии . [4]

Полиномиальная логистическая регрессия используется, когда зависимая переменная рассматриваемая является номинальной (эквивалентно категориальной , что означает, что она попадает в любую из множества категорий, которые не могут быть упорядочены каким-либо значимым образом) и для которой существует более двух категорий. Вот некоторые примеры:

  • Какую специальность выберет студент колледжа, учитывая его оценки, симпатии и антипатии и т. д.?
  • Какая группа крови у человека, учитывая результаты различных диагностических тестов?
  • Имя какого человека было произнесено в приложении для набора номера на мобильном телефоне без помощи рук, учитывая различные свойства речевого сигнала?
  • За какого кандидата проголосует человек с учетом конкретных демографических характеристик?
  • В какой стране фирма разместит офис, учитывая характеристики фирмы и различных стран-кандидатов?

Это все проблемы статистической классификации . Все они имеют общую прогнозируемую зависимую переменную , которая происходит из одного из ограниченного набора элементов, которые не могут быть осмысленно упорядочены, а также набор независимых переменных (также известных как функции, объяснители и т. д.), которые используются прогнозировать зависимую переменную. Полиномиальная логистическая регрессия — это частное решение задач классификации, в котором используется линейная комбинация наблюдаемых признаков и некоторых параметров, специфичных для задачи, для оценки вероятности каждого конкретного значения зависимой переменной. Наилучшие значения параметров для конкретной задачи обычно определяются на основе некоторых данных обучения (например, некоторых людей, для которых известны как результаты диагностических тестов, так и группы крови, или некоторых примеров произнесения известных слов).

Предположения

[ редактировать ]

Полиномиальная логистическая модель предполагает, что данные зависят от конкретного случая; то есть каждая независимая переменная имеет одно значение для каждого случая. Как и в случае с другими видами регрессии, нет необходимости, чтобы независимые переменные были статистически независимы друг от друга (в отличие, например, от наивного классификатора Байеса ); однако предполагается, что коллинеарность относительно низкая, поскольку в противном случае становится трудно различить влияние нескольких переменных. [5]

Если для моделирования выбора используется полиномиальный логит, он опирается на предположение о независимости нерелевантных альтернатив (IIA), что не всегда желательно. Это предположение утверждает, что вероятность предпочтения одного класса другому не зависит от наличия или отсутствия других «нерелевантных» альтернатив. Например, относительная вероятность поехать на работу на машине или автобусе не изменится, если в качестве дополнительной возможности добавить велосипед. выбор K Это позволяет моделировать альтернатив как набор K -1 независимых бинарных вариантов выбора, в которых одна альтернатива выбирается как «ось», а другая K -1 сравнивается с ней по одной. Гипотеза IIA является основной гипотезой теории рационального выбора; однако многочисленные исследования в области психологии показывают, что люди часто нарушают это предположение, делая выбор. Пример проблемного случая: выбор включает в себя автомобиль и синий автобус. Предположим, что отношение шансов между ними составляет 1:1. Теперь, если введен вариант красного автобуса, человек может быть безразличен между красным и синим автобусом и, следовательно, может показать соотношение шансов «автомобиль: синий автобус: красный автобус». 1:0,5:0,5, таким образом сохраняя соотношение автомобиль:любой автобус 1:1, в то время как измененное соотношение автомобиль:синий автобус составляет 1:0,5. Здесь вариант с красным автобусом на самом деле не имел значения, потому что красный автобус был идеальная замена синему автобусу.

Если для моделирования выбора используется полиномиальный логит, в некоторых ситуациях он может налагать слишком большие ограничения на относительные предпочтения между различными альтернативами. Это особенно важно учитывать, если анализ направлен на то, чтобы предсказать, как изменится выбор, если одна альтернатива исчезнет (например, если один политический кандидат выйдет из гонки из трех кандидатов). Другие модели, такие как вложенный логит или полиномиальный пробит, могут использоваться в таких случаях, поскольку они допускают нарушение IIA. [6]

Введение

[ редактировать ]

Существует несколько эквивалентных способов описания математической модели, лежащей в основе полиномиальной логистической регрессии. Это может затруднить сравнение различных трактовок предмета в разных текстах. В статье о логистической регрессии представлен ряд эквивалентных формулировок простой логистической регрессии, многие из которых имеют аналоги в полиномиальной логит-модели.

Идея всех них, как и во многих других методах статистической классификации , заключается в построении линейной предикторной функции , которая строит оценку из набора весов, которые линейно комбинируются с объясняющими переменными (признаками) данного наблюдения с использованием скалярного произведения. :

где X i — вектор объясняющих переменных, описывающих наблюдение i , β k — вектор весов (или коэффициентов регрессии ), соответствующий результату k , а Score( X i , k ) — это балл, связанный с отнесением наблюдения i к категории k . В теории дискретного выбора , где наблюдения представляют людей, а результаты представляют выбор, оценка считается полезностью, связанной с тем, что человек i выбирает результат k . Прогнозируемый результат – тот, который наберет наибольшее количество баллов.

Отличие полиномиальной логит-модели от множества других методов, моделей, алгоритмов и т. д. с той же базовой установкой ( алгоритм перцептрона , машины опорных векторов , линейный дискриминантный анализ и т. д.) заключается в процедуре определения (обучения) оптимальных весов. /коэффициенты и способ интерпретации оценки. В частности, в полиномиальной логит-модели оценка может быть напрямую преобразована в значение вероятности, указывающее вероятность того, что наблюдение i выберет результат k с учетом измеренных характеристик наблюдения. Это обеспечивает принципиальный способ включения прогноза конкретной полиномиальной логит-модели в более крупную процедуру, которая может включать в себя несколько таких прогнозов, каждый из которых имеет возможность ошибки. Без таких средств объединения прогнозов ошибки имеют тенденцию умножаться. Например, представьте себе большую прогнозирующую модель , которая разбита на ряд подмоделей, где прогноз данной подмодели используется в качестве входных данных для другой подмодели, а этот прогноз, в свою очередь, используется в качестве входных данных для третьей подмодели и т. д. Если каждая подмодель имеет точность прогнозов 90% и имеется пять подмоделей последовательно, то общая модель имеет только 0,9. 5 = точность 59%. Если каждая подмодель имеет точность 80%, то общая точность падает до 0,8. 5 = точность 33%. Эта проблема известна как распространение ошибок и является серьезной проблемой в реальных моделях прогнозирования, которые обычно состоят из множества частей. Прогнозирование вероятностей каждого возможного результата, а не просто создание единственного оптимального прогноза, является одним из способов решения этой проблемы. [ нужна ссылка ]

Настраивать

[ редактировать ]

Базовая настройка такая же, как и в логистической регрессии , с той лишь разницей, что зависимые переменные являются категориальными , а не бинарными , т. е. существует K возможных результатов, а не только два. Следующее описание несколько сокращено; Для получения более подробной информации обратитесь к статье о логистической регрессии .

Точки данных

[ редактировать ]

В частности, предполагается, что у нас есть серия из N наблюдаемых точек данных. Каждая точка данных i (в диапазоне от 1 до N ) состоит из набора M объясняющих переменных x 1,i ... x M,i (также известных как независимые переменные , переменные-предсказатели, признаки и т. д.) и связанного с ними категориального значения. результат Y i (также известный как зависимая переменная , переменная отклика), который может принимать одно из K возможных значений. группы крови и т. д.) и часто описываются математически путем произвольного присвоения каждому числа от 1 до K. Эти возможные значения представляют собой логически отдельные категории (например, различные политические партии , Объясняющие переменные и результат представляют собой наблюдаемые свойства точек данных и часто считаются возникающими в результате наблюдений за N «экспериментами», хотя «эксперимент» может состоять не более чем в сборе данных. Целью полиномиальной логистической регрессии является построение модели, объясняющей взаимосвязь между объясняющими переменными и результатом, чтобы результат нового «эксперимента» можно было правильно предсказать для новой точки данных, для которой объясняющие переменные, но не результат доступен. При этом модель пытается объяснить относительное влияние различных объясняющих переменных на результат.

Несколько примеров:

  • Наблюдаемые исходы представляют собой различные варианты заболевания, такого как гепатит (возможно, включая «отсутствие заболевания» и/или другие связанные заболевания) у набора пациентов, а объясняющие переменные могут быть характеристиками пациентов, которые считаются соответствующими (пол, раса). , возраст, артериальное давление , результаты различных тестов функции печени и т. д.). Цель состоит в том, чтобы предсказать, какое заболевание вызывает наблюдаемые симптомы, связанные с печенью, у нового пациента.
  • Наблюдаемые результаты — это партия, выбранная группой людей на выборах, а объясняющие переменные — это демографические характеристики каждого человека (например, пол, раса, возраст, доход и т. д.). Цель состоит в том, чтобы предсказать вероятный голос нового избирателя с заданными характеристиками.

Линейный предиктор

[ редактировать ]

Как и в других формах линейной регрессии, в полиномиальной логистической регрессии используется функция линейного предиктора. чтобы предсказать вероятность того, что наблюдение i имеет результат k следующей формы:

где коэффициент регрессии , связанный с m -й объясняющей переменной и k -м результатом. Как поясняется в статье о логистической регрессии , коэффициенты регрессии и объясняющие переменные обычно группируются в векторы размера M+1 , так что предикторную функцию можно записать более компактно:

где — набор коэффициентов регрессии, связанных с результатом k , и (вектор-строка) — это набор объясняющих переменных, связанных с наблюдением i .

Как набор независимых бинарных регрессий.

[ редактировать ]

Чтобы прийти к полиномиальной логит-модели, можно представить для K возможных результатов запуск K независимых моделей бинарной логистической регрессии, в которых один результат выбирается в качестве «опорной точки», а затем другие K -1 исходы отдельно регрессируются относительно опорной точки. исход. Если результат K (последний результат) выбран в качестве опорного, уравнения регрессии K -1 будут следующими:

.

Эта формулировка также известна как аддитивное логарифмическое преобразование, обычно используемое при композиционном анализе данных. В других приложениях это называется «относительным риском». [7]

Если возвести в степень обе стороны и найти вероятности, мы получим:

Используя тот факт, что сумма всех K вероятностей должна равняться единице, мы находим:

.

Мы можем использовать это, чтобы найти другие вероятности:

.

Тот факт, что мы используем множественные регрессии, показывает, почему модель опирается на предположение о независимости нерелевантных альтернатив, описанных выше.

Оценка коэффициентов

[ редактировать ]

Неизвестные параметры в каждом векторе β k обычно оцениваются совместно с помощью максимальной апостериорной оценки (MAP), которая является расширением метода максимального правдоподобия с использованием регуляризации весов для предотвращения патологических решений (обычно это квадрат регуляризирующей функции, что эквивалентно помещению априорное Гаусса распределение с нулевым средним по весам, но возможны и другие распределения). Решение обычно находится с использованием итеративной процедуры, такой как обобщенное итеративное масштабирование . [8] итеративно перевзвешенный метод наименьших квадратов (IRLS), [9] с помощью алгоритмов оптимизации на основе градиента, таких как L-BFGS , [4] или с помощью специализированных алгоритмов спуска по координатам . [10]

В виде лог-линейной модели

[ редактировать ]

Формулировку бинарной логистической регрессии как лог-линейной модели можно напрямую распространить на многофакторную регрессию. То есть мы моделируем логарифм вероятности увидеть данный результат, используя линейный предиктор, а также дополнительный коэффициент нормализации , логарифм статистической суммы :

.

Как и в двоичном случае, нам понадобится дополнительный член чтобы гарантировать, что весь набор вероятностей образует распределение вероятностей , т. е. чтобы все они в сумме давали единицу:

Причина, по которой нам нужно добавить член для обеспечения нормализации, а не умножать, как обычно, заключается в том, что мы взяли логарифм вероятностей. Возведение в степень обеих частей превращает аддитивный член в мультипликативный множитель, так что вероятность является просто мерой Гиббса :

.

Величина Z называется статистической суммой распределения. Мы можем вычислить значение статистической суммы, применив приведенное выше ограничение, которое требует, чтобы сумма всех вероятностей была равна 1:

Поэтому:

Обратите внимание, что этот фактор является «постоянным» в том смысле, что он не является функцией Y i , которая является переменной, по которой определяется распределение вероятностей. Однако он определенно не является постоянным по отношению к объясняющим переменным или, что особенно важно, по отношению к неизвестным коэффициентам регрессии β k , которые нам нужно будет определить с помощью какой-либо процедуры оптимизации .

Полученные уравнения для вероятностей имеют вид

.

Или вообще:

Следующая функция:

называется функцией softmax . Причина в том, что эффект возведения значений в степень заключается в преувеличении различий между ними. Как результат, будет возвращать значение, близкое к 0, всякий раз, когда значительно меньше максимального из всех значений и возвращает значение, близкое к 1 при применении к максимальному значению, если только оно не очень близко к следующему по величине значению. Таким образом, функцию softmax можно использовать для построения взвешенного среднего , которое ведет себя как гладкая функция (которую удобно дифференцировать и т. д.) и которая аппроксимирует индикаторную функцию

Таким образом, мы можем записать уравнения вероятностей в виде

Таким образом, функция softmax служит эквивалентом логистической функции в бинарной логистической регрессии.

Обратите внимание, что не все из векторы коэффициентов однозначно идентифицируются . Это связано с тем, что сумма всех вероятностей должна быть равна 1, что делает одну из них полностью определенной, как только известны все остальные. В результате остаются только отдельно определяемые вероятности и, следовательно, отдельно идентифицируемые векторы коэффициентов. Один из способов убедиться в этом — отметить, что если мы добавим постоянный вектор ко всем векторам коэффициентов, уравнения будут идентичны:

В результате принято устанавливать (или, альтернативно, один из других векторов коэффициентов). По сути, мы устанавливаем константу так, чтобы один из векторов стал равен 0, а все остальные векторы преобразуются в разность между этими векторами и вектором, который мы выбрали. Это эквивалентно «повороту» вокруг одного из вариантов K и изучению того, насколько лучше или хуже все остальные варианты K -1 по сравнению с выбором, вокруг которого мы вращаемся. Математически преобразуем коэффициенты следующим образом:

Это приводит к следующим уравнениям:

За исключением простых символов на коэффициентах регрессии, это точно такое же, как и форма модели, описанной выше, с точки зрения K независимых двусторонних регрессий -1.

Как модель со скрытыми переменными

[ редактировать ]

Также возможно сформулировать полиномиальную логистическую регрессию как модель скрытой переменной, следуя модели двусторонней скрытой переменной, описанной для бинарной логистической регрессии. Эта формулировка распространена в теории моделей дискретного выбора и упрощает сравнение полиномиальной логистической регрессии с соответствующей полиномиальной пробит- моделью, а также расширяет ее на более сложные модели.

Представьте, что для каждой точки данных i и возможного результата k=1,2,...,K существует непрерывная скрытая переменная Y i,k * (т.е. ненаблюдаемая случайная величина ), которая распределяется следующим образом:

где типа 1 т.е. стандартное распределение экстремальных значений .

Эту скрытую переменную можно рассматривать как полезность, связанную с точкой данных i, выбирающей результат k , где существует некоторая случайность в фактической величине полученной полезности, которая учитывает другие немоделированные факторы, влияющие на выбор. Значение фактической переменной затем определяется неслучайным образом на основе этих скрытых переменных (т. е. случайность переносится из наблюдаемых результатов в скрытые переменные), где результат k выбирается тогда и только тогда, когда соответствующая полезность (значение ) больше, чем полезности всех остальных вариантов, т. е. если полезность, связанная с результатом k, является максимальной из всех полезностей. Поскольку скрытые переменные непрерывны , вероятность того, что две из них будут иметь одно и то же значение, равна 0, поэтому мы игнорируем этот сценарий. То есть:

Или эквивалентно:

Давайте более подробно рассмотрим первое уравнение, которое можно записать следующим образом:

Здесь нужно осознать несколько вещей:

  1. В общем, если и затем То есть разница двух независимых одинаково распределенных переменных с распределением экстремальных значений соответствует логистическому распределению , где первый параметр неважен. Это понятно, поскольку первый параметр является параметром местоположения , т. е. он сдвигает среднее значение на фиксированную величину, и если оба значения смещаются на одну и ту же величину, их разница остается той же самой. Это означает, что все реляционные утверждения, лежащие в основе вероятности данного выбора, включают логистическое распределение, что делает первоначальный выбор распределения экстремальных значений, который казался довольно произвольным, несколько более понятным.
  2. Вторым параметром в распределении экстремальных значений или логистическом распределении является параметр масштаба , такой, что если затем Это означает, что эффект использования переменной ошибки с произвольным параметром масштаба вместо шкалы 1 можно компенсировать простым умножением всех векторов регрессии на один и тот же масштаб. Вместе с предыдущим пунктом это показывает, что использование стандартного распределения экстремальных значений (местоположение 0, масштаб 1) для переменных ошибки не влечет за собой потери общности по сравнению с использованием произвольного распределения экстремальных значений. Фактически, модель неидентифицируема (нет единого набора оптимальных коэффициентов), если используется более общее распределение.
  3. Поскольку используются только разности векторов коэффициентов регрессии, добавление произвольной константы ко всем векторам коэффициентов не влияет на модель. Это означает, что, как и в лог-линейной модели, только K -1 векторов коэффициентов идентифицируемы, а последнему можно присвоить произвольное значение (например, 0).

На самом деле нахождение значений вышеупомянутых вероятностей довольно сложно и представляет собой проблему вычисления статистики определенного порядка (первого, т.е. максимального) набора значений. Однако можно показать, что полученные выражения такие же, как и в приведенных выше формулировках, т.е. они эквивалентны.

Оценка перехвата

[ редактировать ]

При использовании полиномиальной логистической регрессии одна категория зависимой переменной выбирается в качестве эталонной категории. Отдельные отношения шансов определяются для всех независимых переменных для каждой категории зависимой переменной, за исключением эталонной категории, которая исключается из анализа. Экспоненциальный коэффициент бета представляет собой изменение шансов нахождения зависимой переменной в определенной категории по сравнению с эталонной категорией, связанное с изменением на одну единицу соответствующей независимой переменной.


Функция правдоподобия

[ редактировать ]

Наблюдаемые значения для объясняемых переменных рассматриваются как реализации стохастически независимых, категориально распределенных случайных величин. .

Функция правдоподобия для этой модели определяется следующим образом:

где индекс обозначает наблюдения от 1 до n и индекс обозначает классы от 1 до K. это дельта Кронекера.

Таким образом, отрицательная логарифмическая функция правдоподобия представляет собой хорошо известную перекрестную энтропию:

Применение в обработке естественного языка

[ редактировать ]

При обработке естественного языка полиномиальные LR-классификаторы обычно используются в качестве альтернативы наивным классификаторам Байеса , поскольку они не предполагают статистическую независимость случайных величин (обычно называемых признаками ), которые служат предикторами. Однако обучение в такой модели происходит медленнее, чем в простом классификаторе Байеса, и поэтому может оказаться неприемлемым, если необходимо изучить очень большое количество классов. В частности, обучение в классификаторе Наивного Байеса представляет собой простой вопрос подсчета количества совместных совпадений признаков и классов, в то время как в классификаторе с максимальной энтропией веса, которые обычно максимизируются с использованием максимальной апостериорной оценки (MAP), должны обучаться с помощью итеративной процедуры; см. #Оценка коэффициентов .

См. также

[ редактировать ]
  1. ^ Грин, Уильям Х. (2012). Эконометрический анализ (Седьмое изд.). Бостон: Pearson Education. стр. 803–806. ISBN  978-0-273-75356-8 .
  2. ^ Энгель, Дж. (1988). «Политомическая логистическая регрессия». Статистика Неерландики . 42 (4): 233–252. дои : 10.1111/j.1467-9574.1988.tb01238.x .
  3. ^ Менар, Скотт (2002). Прикладной логистический регрессионный анализ . МУДРЕЦ. п. 91 . ISBN  9780761922087 .
  4. ^ Перейти обратно: а б Малуф, Роберт (2002). Сравнение алгоритмов оценки параметров максимальной энтропии (PDF) . Шестая Конф. по изучению естественного языка (CoNLL). стр. 49–55.
  5. ^ Белсли, Дэвид (1991). Диагностика обусловленности: коллинеарность и слабые данные в регрессии . Нью-Йорк: Уайли. ISBN  9780471528890 .
  6. ^ Балтас, Г.; Дойл, П. (2001). «Случайные полезные модели в маркетинговых исследованиях: опрос». Журнал бизнес-исследований . 51 (2): 115–125. дои : 10.1016/S0148-2963(99)00058-2 .
  7. ^ Руководство по статистике «mlogit — Полиномиальная (политомная) логистическая регрессия»
  8. ^ Дэррок Дж. Н. и Рэтклифф Д. (1972). «Обобщенное итеративное масштабирование для лог-линейных моделей» . Анналы математической статистики . 43 (5): 1470–1480. дои : 10.1214/aoms/1177692379 .
  9. ^ Бишоп, Кристофер М. (2006). Распознавание образов и машинное обучение . Спрингер. стр. 206–209.
  10. ^ Ю, Сян-Фу; Хуан, Фан-Лань; Линь, Чи-Джен (2011). «Методы спуска по двойным координатам для моделей логистической регрессии и максимальной энтропии» (PDF) . Машинное обучение . 85 (1–2): 41–75. дои : 10.1007/s10994-010-5221-8 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: b45ee22fd0cd89b487bc972fe94bf852__1716120300
URL1:https://arc.ask3.ru/arc/aa/b4/52/b45ee22fd0cd89b487bc972fe94bf852.html
Заголовок, (Title) документа по адресу, URL1:
Multinomial logistic regression - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)