Probit
Эта статья может быть слишком технической для понимания большинства читателей . ( январь 2013 г. ) |
В теории вероятностей и статистике пробит - функция — это функция квантиля, связанная со стандартным нормальным распределением . Он находит применение в анализе данных и машинном обучении, в частности в исследовательской статистической графике и специализированном регрессионном моделировании переменных двоичного отклика .
Математически пробит является обратной функцией кумулятивной функции распределения стандартного нормального распределения, которая обозначается как , поэтому пробит определяется как
- .
Во многом благодаря центральной предельной теореме стандартное нормальное распределение играет фундаментальную роль в теории вероятностей и статистике. Если мы примем во внимание известный факт, что стандартное нормальное распределение помещает 95% вероятности между -1,96 и 1,96 и симметрично относительно нуля, из этого следует, что
Функция пробит дает «обратные» вычисления, генерируя значение стандартной нормальной случайной величины, связанной с указанной кумулятивной вероятностью. Продолжая пример,
- .
В общем,
- и
Концептуальная разработка
[ редактировать ]Идея пробит-функции была опубликована Честером Иттнером Блиссом в статье в журнале Science в 1934 году о том, как обрабатывать такие данные, как процент вредителей, убитых пестицидом . [1] Блисс предложил преобразовать процент убитых в « вероятность убийства » (или «пробит»), которая была линейно связана с современным определением (он произвольно определил ее как равную 0 для 0,0001 и 1 для 0,9999): [2]
Эти произвольные единицы вероятности были названы «пробитами».
Он включил таблицу, которая поможет другим исследователям преобразовать свои проценты уничтожения в его пробит, который они затем смогут построить против логарифма дозы и тем самым, как надеялись, получить более или менее прямую линию. Такая так называемая пробит-модель по-прежнему важна в токсикологии, а также в других областях. Такой подход оправдан, в частности, если вариацию ответа можно объяснить как логнормальное распределение толерантности среди испытуемых, где толерантность конкретного испытуемого представляет собой дозу, достаточную как раз для интересующего ответа.
Метод, предложенный Блиссом, был развит в «Пробит-анализе» , важном тексте по токсикологическим применениям, написанном Дж. Финни . [3] [4] Значения, представленные Финни, могут быть получены из пробитов, определенных здесь, путем добавления значения 5. Это различие резюмируется Коллеттом (стр. 55): [5] «Первоначальное определение пробита [с добавлением 5] было сделано, прежде всего, для того, чтобы избежать необходимости работать с отрицательными пробитами; ... Это определение все еще используется в некоторых кругах, но в основных пакетах статистического программного обеспечения для того, что называется пробит-анализом. , пробиты определяются без добавления 5." Следует отметить, что пробит-методология, включая численную оптимизацию для подбора пробит-функций, была введена до широкого распространения электронных вычислений. При использовании таблиц было удобно иметь равномерно положительные пробиты. Общие области применения не требуют положительных пробитов.
Диагностика отклонения распределения от нормальности
[ редактировать ]Помимо обеспечения основы для важных типов регрессии, пробит-функция полезна в статистическом анализе для диагностики отклонения от нормальности в соответствии с методом построения Q-Q-графика. Если набор данных на самом деле является образцом нормального распределения , график зависимости значений от их показателей пробита будет приблизительно линейным. Конкретные отклонения от нормальности, такие как асимметрия , тяжелые хвосты или бимодальность , можно диагностировать на основе обнаружения конкретных отклонений от линейности. Хотя график Q–Q можно использовать для сравнения с любым семейством распределений (не только с нормальным), нормальный график Q–Q является относительно стандартной процедурой исследовательского анализа данных, поскольку предположение о нормальности часто является отправной точкой для анализа.
Вычисление
[ редактировать ]CDF нормального распределения и его обратная функция недоступны в закрытой форме , а вычисления требуют тщательного использования числовых процедур. Однако эти функции широко доступны в программном обеспечении для статистики и вероятностного моделирования, а также в электронных таблицах. Например, в Microsoft Excel функция пробит доступна какnormal.s.inv(p). численные реализации обратной функции ошибок В вычислительных средах, где доступны , пробит-функцию можно получить как
Примером является MATLAB , где доступна функция erfinv. Язык Mathematica реализует InverseErf. Другие среды напрямую реализуют функцию пробит, как показано в следующем сеансе на языке программирования R.
> qnorm(0.025)
[1] -1.959964
> pnorm(-1.96)
[1] 0.02499790
Подробности расчета обратной функции ошибок можно найти в [1] . Вичура предлагает быстрый алгоритм вычисления пробит-функции с точностью до 16 знаков после запятой; это используется в R для генерации случайных величин для нормального распределения. [6]
Обыкновенное дифференциальное уравнение для пробит-функции
[ редактировать ]Другой способ вычислений основан на формировании нелинейного обыкновенного дифференциального уравнения (ОДУ) для пробита согласно методу Штейнбрехера и Шоу. [7] Сокращение пробит-функции как , ОДУ
где — функция плотности вероятности w .
В случае гауссова:
Еще раз дифференцируем:
с центральными (начальными) условиями
Это уравнение можно решить несколькими методами, включая метод классического степенного ряда. Исходя из этого, можно разработать решения сколь угодно высокой точности на основе подхода Штейнбрехера к ряду для обратной функции ошибки. Решение степенного ряда имеет вид
где коэффициенты удовлетворить нелинейную рекуррентность
с . В этой форме соотношение как .
Логит
[ редактировать ]Тесно связаны с функцией пробит (и моделью пробит ) функция логит и модель логит . Обратная логистическая функция определяется выражением
Аналогично пробит-модели, мы можем предположить, что такая величина линейно связана с набором предикторов, в результате чего получается логит-модель , основа, в частности, модели логистической регрессии , наиболее распространенной формы регрессионного анализа для категориальных данных ответа. В современной статистической практике модели пробит- и логит-регрессии часто рассматриваются как случаи обобщенной линейной модели .
См. также
[ редактировать ]- Графики компромисса ошибок обнаружения (графики DET, альтернатива ROC)
- Логистическая регрессия (также известная как логит-модель)
- Логит
- Probit model
- Полиномиальный пробит
- График вопросов-вопросов
- Непрерывная функция
- Монотонная функция
- Квантильная функция
- Сигмовидная функция
- Ранкит- анализ, также разработанный Честером Блиссом.
- Ридит подсчет очков
Ссылки
[ редактировать ]- ^ Блисс, CI (1934). «Метод пробитов». Наука . 79 (2037): 38–39. Бибкод : 1934Sci....79...38B . дои : 10.1126/science.79.2037.38 . JSTOR 1659792 . ПМИД 17813446 .
- ^ Блаженство 1934 , с. 39.
- ^ Финни, ди-джей (1947), Анализ пробита . (1-е издание) Издательство Кембриджского университета, Кембридж, Великобритания.
- ^ Финни, диджей (1971). Пробит-анализ (3-е изд.). Издательство Кембриджского университета, Кембридж, Великобритания. ISBN 0-521-08041-Х . OCLC 174198382 .
- ^ Коллетт, Д. (1991). Моделирование двоичных данных . Чепмен и Холл / CRC.
- ^ Вичура, MJ (1988). «Алгоритм AS241: Процентные точки нормального распределения». Прикладная статистика . 37 (3). Издательство Блэквелл: 477–484. дои : 10.2307/2347330 . JSTOR 2347330 .
- ^ Штайнбрехер, Г., Шоу, В.Т. (2008). «Квантильная механика». Европейский журнал прикладной математики . 19 (2): 87–112. дои : 10.1017/S0956792508007341 . S2CID 6899308 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка )