Probit
![]() | Эта статья может быть слишком технической для понимания большинства читателей . ( январь 2013 г. ) |

В теории вероятностей и статистике пробит - функция — это функция квантиля, связанная со стандартным нормальным распределением . Он находит применение в анализе данных и машинном обучении, в частности в исследовательской статистической графике и специализированном регрессионном моделировании переменных двоичного отклика .
Математически пробит является обратной функцией кумулятивной функции распределения стандартного нормального распределения, которая обозначается как , поэтому пробит определяется как
- .
Во многом благодаря центральной предельной теореме стандартное нормальное распределение играет фундаментальную роль в теории вероятностей и статистике. Если мы примем во внимание известный факт, что стандартное нормальное распределение помещает 95% вероятности между -1,96 и 1,96 и симметрично относительно нуля, из этого следует, что
Функция пробит дает «обратные» вычисления, генерируя значение стандартной нормальной случайной величины, связанной с указанной кумулятивной вероятностью. Продолжая пример,
- .
В общем,
- и
разработка Концептуальная
Идея пробит-функции была опубликована Честером Иттнером Блиссом в статье в журнале Science в 1934 году о том, как обрабатывать такие данные, как процент вредителей, убитых пестицидом . [1] Блисс предложил преобразовать процент убитых в « вероятность убийства » (или «пробит»), которая была линейно связана с современным определением (он произвольно определил ее как равную 0 для 0,0001 и 1 для 0,9999): [2]
Эти произвольные единицы вероятности были названы «пробитами».
Он включил таблицу, которая поможет другим исследователям преобразовать свои проценты уничтожения в его пробит, который они затем смогут построить против логарифма дозы и тем самым, как надеялись, получить более или менее прямую линию. Такая так называемая пробит-модель по-прежнему важна в токсикологии, а также в других областях. Такой подход оправдан, в частности, если вариацию ответа можно объяснить как логнормальное распределение толерантности среди испытуемых, где толерантность конкретного испытуемого представляет собой дозу, достаточную как раз для интересующего ответа.
Метод, предложенный Блиссом, был развит в «Пробит-анализе» , важном тексте по токсикологическим применениям, написанном Дж. Финни . [3] [4] Значения, приведенные Финни, могут быть получены из пробитов, определенных здесь, путем добавления значения 5. Это различие резюмируется Коллеттом (стр. 55): [5] «Первоначальное определение пробита [с добавлением 5] было сделано, прежде всего, для того, чтобы избежать необходимости работать с отрицательными пробитами; ... Это определение все еще используется в некоторых кругах, но в основных пакетах статистического программного обеспечения для того, что называется пробит-анализом. , пробиты определяются без добавления 5." Следует отметить, что пробит-методология, включая численную оптимизацию для подбора пробит-функций, была введена до широкого распространения электронных вычислений. При использовании таблиц было удобно иметь равномерно положительные пробиты. Общие области применения не требуют положительных пробитов.
распределения от нормальности Диагностика отклонения
Помимо обеспечения основы для важных типов регрессии, пробит-функция полезна в статистическом анализе для диагностики отклонения от нормальности в соответствии с методом построения Q-Q-графика. Если набор данных на самом деле является образцом нормального распределения , график зависимости значений от их показателей пробита будет приблизительно линейным. Конкретные отклонения от нормальности, такие как асимметрия , тяжелые хвосты или бимодальность , можно диагностировать на основе обнаружения конкретных отклонений от линейности. Хотя график Q–Q можно использовать для сравнения с любым семейством распределений (не только с нормальным), нормальный график Q–Q является относительно стандартной процедурой исследовательского анализа данных, поскольку предположение о нормальности часто является отправной точкой для анализа.
Вычисление [ править ]
CDF нормального распределения и его обратная функция недоступны в закрытой форме , а вычисления требуют тщательного использования числовых процедур. Однако эти функции широко доступны в программном обеспечении для статистики и вероятностного моделирования, а также в электронных таблицах. Например, в Microsoft Excel функция пробит доступна какnormal.s.inv(p). численные реализации обратной функции ошибок В вычислительных средах, где доступны , пробит-функцию можно получить как
Примером является MATLAB , где доступна функция erfinv. Язык Mathematica реализует InverseErf. Другие среды напрямую реализуют функцию пробит, как показано в следующем сеансе на языке программирования R.
> qnorm(0.025)
[1] -1.959964
> pnorm(-1.96)
[1] 0.02499790
Подробности расчета обратной функции ошибок можно найти в [1] . Вичура предлагает быстрый алгоритм вычисления пробит-функции с точностью до 16 знаков после запятой; это используется в R для генерации случайных величин для нормального распределения. [6]
Обыкновенное дифференциальное уравнение для пробит-функции [ править ]
Другой способ вычислений основан на формировании нелинейного обыкновенного дифференциального уравнения (ОДУ) для пробита согласно методу Штейнбрехера и Шоу. [7] Сокращение пробит-функции как , ОДУ
где — функция плотности вероятности w .
В случае гауссова:
Еще раз дифференцируем:
с центральными (начальными) условиями
Это уравнение можно решить несколькими методами, включая метод классического степенного ряда. Исходя из этого, можно разработать решения сколь угодно высокой точности на основе подхода Штейнбрехера к ряду для обратной функции ошибки. Решение степенного ряда имеет вид
где коэффициенты удовлетворить нелинейную рекуррентность
с . В этой форме соотношение как .
Логит [ править ]

Тесно связаны с функцией пробит (и моделью пробит ) функция логит и модель логит . Обратная логистическая функция определяется выражением
Аналогично пробит-модели, мы можем предположить, что такая величина линейно связана с набором предикторов, в результате чего получается логит-модель , основа, в частности, модели логистической регрессии , наиболее распространенной формы регрессионного анализа для категориальных данных ответа. В современной статистической практике модели пробит- и логит-регрессии часто рассматриваются как случаи обобщенной линейной модели .
См. также [ править ]
- Графики компромисса ошибок обнаружения (графики DET, альтернатива ROC)
- Логистическая регрессия (также известная как логит-модель)
- Логит
- Probit model
- Полиномиальный пробит
- График вопросов-вопросов
- Непрерывная функция
- Монотонная функция
- Квантильная функция
- Сигмовидная функция
- Ранкит- анализ, также разработанный Честером Блиссом.
- Ридит подсчет очков
Ссылки [ править ]
- ^ Блисс, CI (1934). «Метод пробитов». Наука . 79 (2037): 38–39. Бибкод : 1934Sci....79...38B . дои : 10.1126/science.79.2037.38 . JSTOR 1659792 . ПМИД 17813446 .
- ^ Блаженство 1934 , с. 39.
- ^ Финни, ди-джей (1947), Анализ пробита . (1-е издание) Издательство Кембриджского университета, Кембридж, Великобритания.
- ^ Финни, диджей (1971). Пробит-анализ (3-е изд.). Издательство Кембриджского университета, Кембридж, Великобритания. ISBN 0-521-08041-Х . OCLC 174198382 .
- ^ Коллетт, Д. (1991). Моделирование двоичных данных . Чепмен и Холл / CRC.
- ^ Вичура, MJ (1988). «Алгоритм AS241: Процентные точки нормального распределения». Прикладная статистика . 37 (3). Издательство Блэквелл: 477–484. дои : 10.2307/2347330 . JSTOR 2347330 .
- ^ Штайнбрехер, Г., Шоу, В.Т. (2008). «Квантильная механика». Европейский журнал прикладной математики . 19 (2): 87–112. дои : 10.1017/S0956792508007341 . S2CID 6899308 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка )