Jump to content

Probit model

В статистике пробит- модель — это тип регрессии , где зависимая переменная может принимать только два значения, например, женат или не женат. Это слово представляет комбинацию слов собой + «вероятность un it » . [1] Цель модели — оценить вероятность того, что наблюдение с определенными характеристиками попадет в определенную из категорий; более того, классификация наблюдений на основе их предсказанных вероятностей является разновидностью модели бинарной классификации .

Пробит - модель — это популярная спецификация модели двоичного отклика . По существу, он решает тот же набор проблем, что и логистическая регрессия, используя аналогичные методы. При рассмотрении в рамках обобщенной линейной модели пробит-модель использует функцию пробит- связи . [2] Чаще всего его оценивают с помощью процедуры максимального правдоподобия , [3] такая оценка называется пробит-регрессией .

Концептуальная основа

[ редактировать ]

Предположим, что переменная ответа Y является двоичной , то есть может иметь только два возможных результата , которые мы обозначим как 1 и 0. Например, Y может обозначать наличие/отсутствие определенного условия, успех/отказ какого-либо устройства, ответ да/ нет в опросе и т. д. У нас также есть вектор регрессоров X влияют на результат Y. , которые, как предполагается , В частности, мы предполагаем, что модель имеет вид

где P - вероятность и — кумулятивная функция распределения ( CDF ) стандартного нормального распределения . Параметры β обычно оцениваются по принципу максимального правдоподобия .

Можно мотивировать пробит-модель как модель скрытой переменной . Предположим, существует вспомогательная случайная величина

где е ~ N (0, 1). Тогда Y можно рассматривать как индикатор того, является ли эта скрытая переменная положительной:

Использование стандартного нормального распределения не приводит к потере общности по сравнению с использованием нормального распределения с произвольным средним значением и стандартным отклонением, поскольку добавление фиксированной суммы к среднему значению может быть компенсировано вычитанием той же суммы из точки пересечения и умножением стандартное отклонение на фиксированную сумму можно компенсировать путем умножения весов на ту же сумму.

Чтобы убедиться в эквивалентности двух моделей, обратите внимание, что

Оценка модели

[ редактировать ]

Оценка максимального правдоподобия

[ редактировать ]

Предположим, набор данных содержит n независимых статистических единиц, соответствующих приведенной выше модели.

Для одного наблюдения, зависящего от вектора входных данных этого наблюдения, мы имеем:

[ нужны разъяснения ]

где представляет собой вектор входы и это вектор коэффициентов.

Вероятность единичного наблюдения тогда

Фактически, если , затем , и если , затем .

Поскольку наблюдения независимы и одинаково распределены, то вероятность всей выборки или совместное правдоподобие будет равна произведению правдоподобий отдельных наблюдений:

Таким образом, совместная логарифмическая функция правдоподобия равна

Оценщик которая максимизирует эту функцию, будет непротиворечивой , асимптотически нормальной и эффективной при условии, что существует и не является единственным. Можно показать, что эта логарифмическая функция правдоподобия глобально вогнута по , и поэтому стандартные численные алгоритмы оптимизации быстро сходятся к уникальному максимуму.

Асимптотическое распределение для дается

где

[ нужна ссылка ]

и — это функция плотности вероятности ( PDF ) стандартного нормального распределения.

Также доступны полупараметрические и непараметрические методы максимального правдоподобия для пробит-типа и других связанных моделей. [4]

Метод минимального хи-квадрата Берксона

[ редактировать ]

Этот метод можно применять только тогда, когда имеется много наблюдений переменной отклика. имеющие одинаковое значение вектора регрессоров (такую ​​ситуацию можно назвать «много наблюдений на ячейку»). Более конкретно модель можно сформулировать следующим образом.

Предположим, среди n наблюдений существует только T различных значений регрессоров, которые можно обозначить как . Позволять быть числом наблюдений с и количество таких наблюдений с . Мы предполагаем, что на каждую «ячейку» действительно приходится «много» наблюдений: для каждой .

Обозначим

Тогда хи-квадрат Берксона минимальная оценка является обобщенной оценкой наименьших квадратов в регрессии на с гирями :

Можно показать, что эта оценка непротиворечива (при n → ∞ и фиксированном T ), асимптотически нормальна и эффективна. [ нужна ссылка ] Его преимуществом является наличие замкнутой формулы для оценки. Однако имеет смысл проводить этот анализ только тогда, когда отдельные наблюдения недоступны, а только их агрегированные данные. , , и (например, при анализе поведения избирателей).

Выборка Гиббса

[ редактировать ]

Выборка Гиббса пробит-модели возможна, поскольку в моделях регрессии обычно используются нормальные априорные распределения весов, и это распределение сопряжено с нормальным распределением ошибок (и, следовательно, скрытых переменных Y * ). Модель можно описать как

Отсюда мы можем определить необходимые полные условные плотности:

Результат для приведен в статье о байесовской линейной регрессии , хотя и указан в других обозначениях.

Единственная сложность заключается в последних двух уравнениях. Обозначения — это скобка Айверсона , которую иногда пишут или подобное. Это указывает на то, что распределение необходимо усечь в пределах заданного диапазона и соответствующим образом изменить масштаб. В данном конкретном случае возникает усеченное нормальное распределение . Выборка из этого распределения зависит от того, насколько она усечена. Если остается большая часть исходной массы, выборку можно легко выполнить с помощью выборки с отбраковкой — просто выберите число из неусеченного распределения и отклоните его, если оно выходит за пределы ограничения, налагаемого усечением. Однако если отбор проб осуществляется лишь из небольшой доли исходной массы (например, если отбор проб осуществляется из одного из хвостов нормального распределения, например, если составляет около 3 или более, и желательна отрицательная выборка), тогда это будет неэффективно и возникает необходимость прибегнуть к другим алгоритмам выборки. Общая выборка из усеченного нормального может быть достигнута с использованием аппроксимации нормального CDF и пробит-функции , а R имеет функцию rtnorm() для генерации усеченно-нормальных выборок.

Оценка модели

[ редактировать ]

Пригодность оцененной бинарной модели можно оценить, подсчитав количество истинных наблюдений, равное 1, и число, равное нулю, для которых модель присваивает правильную прогнозируемую классификацию, обрабатывая любую оцененную вероятность выше 1/2 (или ниже 1/ 2) как присвоение предсказания 1 (или 0). см . в разделе Логистическая регрессия § Модель Подробности .

Производительность при неправильной спецификации

[ редактировать ]

Рассмотрим формулировку пробит-модели со скрытыми переменными. Когда дисперсия при условии не является постоянной величиной, а зависит от , то возникает проблема гетероскедастичности . Например, предположим и где является непрерывной положительной объясняющей переменной. В условиях гетероскедастичности пробит-оценка для обычно противоречиво, и большинство тестов на коэффициенты недействительны. Что еще более важно, оценка для тоже становится противоречивым. Чтобы решить эту проблему, исходную модель необходимо преобразовать так, чтобы она была гомоскедастической. Например, в том же примере можно переписать как , где . Поэтому, и зарабатываем прибыль генерирует непротиворечивую оценку условной вероятности

Когда предположение о том, что нормально распределена, не выполняется, то возникает проблема неправильной спецификации функциональной формы : если модель по-прежнему оценивается как пробит-модель, оценки коэффициентов противоречивы. Например, если следует логистическому распределению в истинной модели, но модель оценивается по пробиту, оценки обычно будут меньше истинного значения. поскольку оценки частичных эффектов Однако противоречивость оценок коэффициентов практически не имеет значения , , будет близок к оценкам, данным истинной логит-моделью. [5]

Чтобы избежать проблемы неправильной спецификации распределения, можно принять общее предположение о распределении для термина ошибки, так что в модель можно включить множество различных типов распределения. Затраты — более тяжелые вычисления и более низкая точность при увеличении количества параметров. [6] В большинстве случаев на практике, когда форма распределения определена неправильно, оценки коэффициентов противоречивы, но оценки условной вероятности и частных эффектов по-прежнему очень хороши. [ нужна ссылка ]

Можно также использовать полупараметрические или непараметрические подходы, например, с помощью методов локального правдоподобия или непараметрических методов квазиправдоподобия, которые позволяют избежать предположений о параметрической форме индексной функции и устойчивы к выбору функции связи (например, пробит или логит). [4]

Модель пробита обычно приписывают Честеру Блиссу , который ввел термин «пробит» в 1934 году. [7] и Джону Гаддуму (1933), который систематизировал более ранние работы. [8] Однако базовая модель восходит к закону Вебера-Фехнера Густава Фехнера , опубликованному Фехнером (1860 г.) , и неоднократно открывалась заново до 1930-х годов; см. Finney (1971 , глава 3.6) и Aitchison & Brown (1957 , глава 1.2). [8]

Быстрый метод вычисления оценок максимального правдоподобия для пробит-модели был предложен Рональдом Фишером в качестве приложения к работе Блисса в 1935 году. [9]

См. также

[ редактировать ]
  1. ^ Оксфордский словарь английского языка , 3-е изд. св пробит (статья от июня 2007): Блисс, CI (1934). «Метод пробитов». Наука . 79 (2037): 38–39. Бибкод : 1934Sci....79...38B . дои : 10.1126/science.79.2037.38 . ПМИД   17813446 . Эти произвольные единицы вероятности были названы «пробитами».
  2. ^ Агрести, Алан (2015). Основы линейных и обобщенных линейных моделей . Нью-Йорк: Уайли. стр. 183–186. ISBN  978-1-118-73003-4 .
  3. ^ Олдрич, Джон Х.; Нельсон, Форрест Д.; Адлер, Э. Скотт (1984). Модели линейной вероятности, логита и пробита . Мудрец. стр. 48–65. ISBN  0-8039-2133-0 .
  4. ^ Jump up to: а б Пак, Бён У.; Симар, Леопольд; Зеленюк, Валентин (2017). «Непараметрическая оценка динамических моделей дискретного выбора для данных временных рядов» (PDF) . Вычислительная статистика и анализ данных . 108 : 97–120. дои : 10.1016/j.csda.2016.10.024 .
  5. ^ Грин, WH (2003), Эконометрический анализ, Прентис Холл, Аппер-Сэддл-Ривер, Нью-Джерси.
  6. ^ Для получения более подробной информации см.: Каппе О., Мулен Э. и Райден Т. (2005): «Вывод в скрытых марковских моделях», Springer-Verlag New York, Глава 2.
  7. ^ Блисс, CI (1934). «Метод пробитов». Наука . 79 (2037): 38–39. Бибкод : 1934Sci....79...38B . дои : 10.1126/science.79.2037.38 . ПМИД   17813446 .
  8. ^ Jump up to: а б Крамер 2002 , с. 7.
  9. ^ Фишер, Р.А. (1935). «Случай нулевых выживших в анализах пробита» . Анналы прикладной биологии . 22 : 164–165. дои : 10.1111/j.1744-7348.1935.tb07713.x . Архивировано из оригинала 30 апреля 2014 г.

Дальнейшее чтение

[ редактировать ]
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 00b61f325be0c4cab3c4cc1f5795ef27__1713389940
URL1:https://arc.ask3.ru/arc/aa/00/27/00b61f325be0c4cab3c4cc1f5795ef27.html
Заголовок, (Title) документа по адресу, URL1:
Probit model - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)