Оценка максимального правдоподобия

В статистике ) — оценка максимального правдоподобия ( MLE это метод оценки параметров с учетом некоторых предполагаемого распределения вероятностей наблюдаемых данных. Это достигается за счет максимизации функции правдоподобия , чтобы в соответствии с предполагаемой статистической моделью наблюдаемые данные были наиболее вероятными. Точка , которая максимизирует функцию правдоподобия , в пространстве параметров называется оценкой максимального правдоподобия. ^[1] Логика максимального правдоподобия одновременно интуитивна и гибка, и поэтому этот метод стал доминирующим средством статистического вывода . ^[2]^[3]^[4]

Если функция правдоподобия дифференцируема , тест производной можно применить для поиска максимумов. В некоторых случаях условия первого порядка функции правдоподобия можно решить аналитически; например, обычный метод наименьших квадратов для модели линейной регрессии максимизирует вероятность, когда предполагается, что случайные ошибки имеют нормальное распределение с одинаковой дисперсией. ^[5]

С точки зрения байесовского вывода , MLE обычно эквивалентен максимальной апостериорной оценке (MAP) с равномерным априорным распределением (или нормальному априорному распределению со стандартным отклонением, равным бесконечности). В частотном выводе MLE является частным случаем оценки экстремума , где целевой функцией является правдоподобие.

Принципы

Мы моделируем набор наблюдений как случайную выборку из неизвестного совместного распределения вероятностей , которое выражается через набор параметров . Целью оценки максимального правдоподобия является определение параметров, для которых наблюдаемые данные имеют наибольшую совместную вероятность. Параметры, определяющие совместное распределение, запишем в виде вектора $\;\theta =\left[\theta _{1},\,\theta _{2},\,\ldots ,\,\theta _{k}\right]^{\mathsf {T}}\;$ так что это распределение попадает в параметрическое семейство $\;\{f(\cdot \,;\theta )\mid \theta \in \Theta \}\;,$ где $\,\Theta \,$ называется пространством параметров , конечномерным подмножеством евклидова пространства . Оценка плотности соединений на выборке наблюдаемых данных $\;\mathbf {y} =(y_{1},y_{2},\ldots ,y_{n})\;$ дает вещественную функцию,

{\mathcal {L}}_{n}(\theta )={\mathcal {L}}_{n}(\theta ;\mathbf {y} )=f_{n}(\mathbf {y} ;\theta )\;,

которая называется функцией правдоподобия . Для независимых и одинаково распределенных случайных величин $f_{n}(\mathbf {y} ;\theta )$ будет произведением одномерных функций плотности :

f_{n}(\mathbf {y} ;\theta )=\prod _{k=1}^{n}\,f_{k}^{\mathsf {univar}}(y_{k};\theta )~.

Цель оценки максимального правдоподобия — найти значения параметров модели, которые максимизируют функцию правдоподобия в пространстве параметров. ^[6] то есть

{\hat {\theta }}={\underset {\theta \in \Theta }{\operatorname {arg\;max} }}\,{\mathcal {L}}_{n}(\theta \,;\mathbf {y} )~.

Интуитивно понятно, что при этом выбираются значения параметров, которые делают наблюдаемые данные наиболее вероятными. Конкретное значение $~{\hat {\theta }}={\hat {\theta }}_{n}(\mathbf {y} )\in \Theta ~$ которая максимизирует функцию правдоподобия $\,{\mathcal {L}}_{n}\,$ называется оценкой максимального правдоподобия. Далее, если функция $\;{\hat {\theta }}_{n}:\mathbb {R} ^{n}\to \Theta \;$ определенное таким образом измеримо , то оно называется оценкой максимального правдоподобия . Обычно это функция, определенная в пространстве выборки , т. е. принимающая данную выборку в качестве аргумента. Достаточным , но не необходимым функции правдоподобия условием ее существования является непрерывность в пространстве параметров. $\,\Theta \,$ это компактно . ^[7] Для открытого $\,\Theta \,$ функция правдоподобия может увеличиваться, даже не достигая максимального значения.

На практике часто удобно работать с натуральным логарифмом функции правдоподобия, называемым логарифмом правдоподобия :

\ell (\theta \,;\mathbf {y} )=\ln {\mathcal {L}}_{n}(\theta \,;\mathbf {y} )~.

Поскольку логарифм является монотонной функцией , максимум $\;\ell (\theta \,;\mathbf {y} )\;$ происходит при одном и том же значении $\theta$ как и максимум $\,{\mathcal {L}}_{n}~.$ ^[8] Если $\ell (\theta \,;\mathbf {y} )$ дифференцируема по $\,\Theta \,,$ Достаточными условиями возникновения максимума (или минимума) являются

{\frac {\partial \ell }{\partial \theta _{1}}}=0,\quad {\frac {\partial \ell }{\partial \theta _{2}}}=0,\quad \ldots ,\quad {\frac {\partial \ell }{\partial \theta _{k}}}=0~,

известные как уравнения правдоподобия. Для некоторых моделей эти уравнения можно решить явно относительно $\,{\widehat {\theta \,}}\,,$ но, как правило, решение задачи максимизации в замкнутой форме неизвестно или доступно, и MLE можно найти только с помощью численной оптимизации . может существовать несколько корней . Другая проблема заключается в том, что в конечных выборках у уравнений правдоподобия ^[9] Является ли выявленный корень $\,{\widehat {\theta \,}}\,$ уравнений правдоподобия действительно является (локальным) максимумом, зависит от того, является ли матрица частных и перекрестных производных второго порядка, так называемая матрица Гессе

\mathbf {H} \left({\widehat {\theta \,}}\right)={\begin{bmatrix}\left.{\frac {\partial ^{2}\ell }{\partial \theta _{1}^{2}}}\right|_{\theta ={\widehat {\theta \,}}}&\left.{\frac {\partial ^{2}\ell }{\partial \theta _{1}\,\partial \theta _{2}}}\right|_{\theta ={\widehat {\theta \,}}}&\dots &\left.{\frac {\partial ^{2}\ell }{\partial \theta _{1}\,\partial \theta _{k}}}\right|_{\theta ={\widehat {\theta \,}}}\\\left.{\frac {\partial ^{2}\ell }{\partial \theta _{2}\,\partial \theta _{1}}}\right|_{\theta ={\widehat {\theta \,}}}&\left.{\frac {\partial ^{2}\ell }{\partial \theta _{2}^{2}}}\right|_{\theta ={\widehat {\theta \,}}}&\dots &\left.{\frac {\partial ^{2}\ell }{\partial \theta _{2}\,\partial \theta _{k}}}\right|_{\theta ={\widehat {\theta \,}}}\\\vdots &\vdots &\ddots &\vdots \\\left.{\frac {\partial ^{2}\ell }{\partial \theta _{k}\,\partial \theta _{1}}}\right|_{\theta ={\widehat {\theta \,}}}&\left.{\frac {\partial ^{2}\ell }{\partial \theta _{k}\,\partial \theta _{2}}}\right|_{\theta ={\widehat {\theta \,}}}&\dots &\left.{\frac {\partial ^{2}\ell }{\partial \theta _{k}^{2}}}\right|_{\theta ={\widehat {\theta \,}}}\end{bmatrix}}~,

является отрицательно полуопределенным при ${\widehat {\theta \,}}$ , поскольку это указывает на локальную вогнутость . Удобно, что наиболее распространенные распределения вероятностей , в частности экспоненциальное семейство , являются логарифмически вогнутыми . ^[10]^[11]

Ограниченное пространство параметров

Хотя область определения функции правдоподобия — пространство параметров — обычно представляет собой конечномерное подмножество евклидова пространства дополнительные ограничения , иногда в процесс оценки необходимо включать . Пространство параметров можно выразить как

\Theta =\left\{\theta :\theta \in \mathbb {R} ^{k},\;h(\theta )=0\right\}~,

где $\;h(\theta )=\left[h_{1}(\theta ),h_{2}(\theta ),\ldots ,h_{r}(\theta )\right]\;$ представляет собой векторнозначное отображение функции $\,\mathbb {R} ^{k}\,$ в $\;\mathbb {R} ^{r}~.$ Оценка истинного параметра $\theta$ принадлежащий $\Theta$ тогда, на практике, это означает найти максимум функции правдоподобия с учетом ограничения $~h(\theta )=0~.$

Теоретически наиболее естественным подходом к этой задаче оптимизации с ограничениями является метод подстановки, то есть «заполнение» ограничений. $\;h_{1},h_{2},\ldots ,h_{r}\;$ в набор $\;h_{1},h_{2},\ldots ,h_{r},h_{r+1},\ldots ,h_{k}\;$ таким образом, что $\;h^{\ast }=\left[h_{1},h_{2},\ldots ,h_{k}\right]\;$ является взаимно однозначной функцией из $\mathbb {R} ^{k}$ самому себе и перепараметризовать функцию правдоподобия, установив $\;\phi _{i}=h_{i}(\theta _{1},\theta _{2},\ldots ,\theta _{k})~.$ ^[12] Из-за эквивариантности оценки максимального правдоподобия свойства MLE применимы и к ограниченным оценкам. ^[13] Например, в многомерном нормальном распределении ковариационная матрица $\,\Sigma \,$ должен быть положительно определённым ; это ограничение можно наложить, заменив $\;\Sigma =\Gamma ^{\mathsf {T}}\Gamma \;,$ где $\Gamma$ является вещественной верхнетреугольной матрицей и $\Gamma ^{\mathsf {T}}$ это его транспонирование . ^[14]

На практике ограничения обычно накладываются с использованием метода Лагранжа, который с учетом ограничений, определенных выше, приводит к уравнениям ограниченного правдоподобия.

{\frac {\partial \ell }{\partial \theta }}-{\frac {\partial h(\theta )^{\mathsf {T}}}{\partial \theta }}\lambda =0

и

h(\theta )=0\;,

где $~\lambda =\left[\lambda _{1},\lambda _{2},\ldots ,\lambda _{r}\right]^{\mathsf {T}}~$ - вектор-столбец множителей Лагранжа и $\;{\frac {\partial h(\theta )^{\mathsf {T}}}{\partial \theta }}\;$ — $k \times r .$ матрица Якобиа частных производных размера ^[12] Естественно, если ограничения не являются обязательными по максимуму, множители Лагранжа должны быть равны нулю. ^[15] Это, в свою очередь, позволяет провести статистическую проверку «действительности» ограничения, известную как тест множителя Лагранжа .

Непараметрическая оценка максимального правдоподобия

Непараметрическая оценка максимального правдоподобия может быть выполнена с использованием эмпирического правдоподобия .

Характеристики

Оценка максимального правдоподобия - это оценка экстремума , полученная путем максимизации в зависимости от θ целевой функции. ${\widehat {\ell \,}}(\theta \,;x)$ . Если данные независимы и одинаково распределены , то мы имеем

{\widehat {\ell \,}}(\theta \,;x)={\frac {1}{n}}\sum _{i=1}^{n}\ln f(x_{i}\mid \theta ),

это примерный аналог ожидаемого логарифмического правдоподобия $\ell (\theta )=\operatorname {\mathbb {E} } [\,\ln f(x_{i}\mid \theta )\,]$ , где это математическое ожидание взято относительно истинной плотности.

Оценщики максимального правдоподобия не обладают оптимальными свойствами для конечных выборок в том смысле, что (при оценке на конечных выборках) другие оценки могут иметь большую концентрацию вокруг истинного значения параметра. ^[16] Однако, как и другие методы оценки, оценка максимального правдоподобия обладает рядом привлекательных ограничивающих свойств : когда размер выборки увеличивается до бесконечности, последовательности оценок максимального правдоподобия обладают следующими свойствами:

Согласованность : последовательность MLE сходится по вероятности к оцениваемому значению.
Инвариантность : если ${\hat {\theta }}$ это оценка максимального правдоподобия для $\theta$ , и если $g(\theta )$ это любое преобразование $\theta$ , то оценка максимального правдоподобия для $\alpha =g(\theta )$ является ${\hat {\alpha }}=g({\hat {\theta }})$ . Это свойство менее известно как функциональная эквивалентность . Свойство инвариантности справедливо для произвольного преобразования $g$ , хотя доказательство упрощается, если $g$ ограничивается однозначными преобразованиями.
Эффективность , т.е. достигается нижняя граница Крамера-Рао , когда размер выборки стремится к бесконечности. Это означает, что ни одна непротиворечивая оценка не имеет более низкой асимптотической среднеквадратической ошибки , чем MLE (или другие оценки, достигающие этой границы), что также означает, что MLE имеет асимптотическую нормальность .
Эффективность второго порядка после поправки на предвзятость.

Последовательность

При условиях, изложенных ниже, оценка максимального правдоподобия является состоятельной . Согласованность означает, что если данные были сгенерированы $f(\cdot \,;\theta _{0})$ и мы имеем достаточно большое количество наблюдений n , то можно найти значение θ ₀ с произвольной точностью. В математических терминах это означает, что при стремлении n к бесконечности оценщик ${\widehat {\theta \,}}$ сходится по вероятности к своему истинному значению:

{\widehat {\theta \,}}_{\mathrm {mle} }\ {\xrightarrow {\text{p}}}\ \theta _{0}.

При несколько более сильных условиях оценка сходится почти наверняка (или сильно ):

{\widehat {\theta \,}}_{\mathrm {mle} }\ {\xrightarrow {\text{a.s.}}}\ \theta _{0}.

В практических приложениях данные никогда не генерируются $f(\cdot \,;\theta _{0})$ . Скорее, $f(\cdot \,;\theta _{0})$ — это модель, часто в идеализированной форме, процесса, генерируемого данными. В статистике распространен афоризм о том, что все модели неверны . Таким образом, истинная согласованность не достигается в практических приложениях. Тем не менее, согласованность часто считается желательным свойством для оценщика.

Для установления согласованности достаточны следующие условия. ^[17]

Идентификация модели:
$\theta \neq \theta _{0}\quad \Leftrightarrow \quad f(\cdot \mid \theta )\neq f(\cdot \mid \theta _{0}).$
Другими словами, разные значения параметра θ соответствуют разным распределениям внутри модели. Если бы это условие не выполнялось, существовало бы некоторое значение θ ₁ такое, что θ ₀ и θ ₁ порождали идентичное распределение наблюдаемых данных. Тогда мы не смогли бы различить эти два параметра даже при бесконечном количестве данных — эти параметры были бы эквивалентны с точки зрения наблюдений .
Условие идентификации абсолютно необходимо для того, чтобы оценщик ML был непротиворечивым. Когда это условие выполняется, предельная функция правдоподобия ℓ ( θ |·) имеет единственный глобальный максимум в точке θ ₀ .
Компактность: пространство параметров модели Θ компактно .
Условие идентификации устанавливает, что логарифмическое правдоподобие имеет уникальный глобальный максимум. Компактность подразумевает, что вероятность не может приблизиться к максимальному значению сколь угодно близко в какой-то другой точке (как показано, например, на рисунке справа).
Компактность — лишь достаточное, но не необходимое условие. Компактность может быть заменена некоторыми другими условиями, такими как:
- как вогнутость логарифмической функции правдоподобия, так и компактность некоторых (непустых) множеств верхнего уровня логарифмической функции правдоподобия, или
- существование компактной окрестности $N$ точки $θ$ ₀ такой, что вне $N$ логарифмическая функция правдоподобия меньше максимума хотя бы на некоторое $ε$ > 0 .
Непрерывность: функция $ln f (x | θ)$ непрерывна по $θ$ почти для всех значений $x$ :
$\operatorname {\mathbb {P} } {\Bigl [}\;\ln f(x\mid \theta )\;\in \;C^{0}(\Theta )\;{\Bigr ]}=1.$
Непрерывность здесь можно заменить несколько более слабым условием полунепрерывности сверху .
Доминирование: существует $D (x),$ интегрируемый относительно распределения $f (x | θ 0),$ такой, что
${\Bigl |}\ln f(x\mid \theta ){\Bigr |}<D(x)\quad {\text{ for all }}\theta \in \Theta .$
По равномерному закону больших чисел условие доминирования вместе с непрерывностью устанавливают равномерную сходимость по вероятности логарифмического правдоподобия:
$\sup _{\theta \in \Theta }\left|{\widehat {\ell \,}}(\theta \mid x)-\ell (\theta )\,\right|\ {\xrightarrow {\text{p}}}\ 0.$

Условие доминирования можно использовать в случае иид -наблюдений. В случае, отличном от iid, равномерную сходимость по вероятности можно проверить, показав, что последовательность ${\widehat {\ell \,}}(\theta \mid x)$ равнонепрерывно стохастически .Если кто-то хочет продемонстрировать, что оценщик ML ${\widehat {\theta \,}}$ сходится к θ ₀ почти наверняка , то необходимо почти наверняка наложить более сильное условие равномерной сходимости:

\sup _{\theta \in \Theta }\left\|\;{\widehat {\ell \,}}(\theta \mid x)-\ell (\theta )\;\right\|\ \xrightarrow {\text{a.s.}} \ 0.

Кроме того, если (как предполагалось выше) данные были сгенерированы $f(\cdot \,;\theta _{0})$ , то при определенных условиях можно также показать, что оценка максимального правдоподобия сходится по распределению к нормальному распределению. Конкретно, ^[18]

{\sqrt {n}}\left({\widehat {\theta \,}}_{\mathrm {mle} }-\theta _{0}\right)\ \xrightarrow {d} \ {\mathcal {N}}\left(0,\,I^{-1}\right)

где $I$ – информационная матрица Фишера .

Функциональная инвариантность

Оценщик максимального правдоподобия выбирает значение параметра, которое дает наблюдаемым данным наибольшую возможную вероятность (или плотность вероятности в непрерывном случае). Если параметр состоит из нескольких компонентов, то мы определяем их отдельные оценки максимального правдоподобия как соответствующий компонент MLE полного параметра. В соответствии с этим, если ${\widehat {\theta \,}}$ это MLE для $\theta$ , и если $g(\theta )$ это любое преобразование $\theta$ , то MLE для $\alpha =g(\theta )$ по определению ^[19]

{\widehat {\alpha }}=g(\,{\widehat {\theta \,}}\,).\,

Это максимизирует так называемую вероятность профиля :

{\bar {L}}(\alpha )=\sup _{\theta :\alpha =g(\theta )}L(\theta ).\,

MLE также эквивариантен относительно некоторых преобразований данных. Если $y=g(x)$ где $g$ взаимно однозначен и не зависит от оцениваемых параметров, то функции плотности удовлетворяют

f_{Y}(y)={\frac {f_{X}(x)}{|g'(x)|}}

и, следовательно, функции правдоподобия для $X$ и $Y$ отличаются лишь коэффициентом, не зависящим от параметров модели.

Например, параметры MLE логарифмически нормального распределения такие же, как и параметры нормального распределения, адаптированного к логарифму данных.

Эффективность

Как предполагалось выше, если данные были сгенерированы $~f(\cdot \,;\theta _{0})~,$ тогда при определенных условиях можно также показать, что оценка максимального правдоподобия сходится по распределению к нормальному распределению. Он √ n -согласован и асимптотически эффективен, что означает, что он достигает границы Крамера – Рао . Конкретно, ^[18]

{\sqrt {n\,}}\,\left({\widehat {\theta \,}}_{\text{mle}}-\theta _{0}\right)\ \ \xrightarrow {d} \ \ {\mathcal {N}}\left(0,\ {\mathcal {I}}^{-1}\right)~,

где $~{\mathcal {I}}~$ – информационная матрица Фишера :

{\mathcal {I}}_{jk}=\operatorname {\mathbb {E} } \,{\biggl [}\;-{\frac {\partial ^{2}\ln f_{\theta _{0}}(X_{t})}{\partial \theta _{j}\,\partial \theta _{k}}}\;{\biggr ]}~.

В частности, это означает, что смещение оценки максимального правдоподобия равно нулю до порядка ⁠ 1 / √ $n$ ⁠ .

Эффективность второго порядка после поправки на смещение

Однако если мы рассмотрим члены более высокого порядка в разложении распределения этой оценки, окажется, что $θ mle$ имеет смещение порядка 1 ⁄ $п$ . Это смещение равно (покомпонентно) ^[20]

b_{h}\;\equiv \;\operatorname {\mathbb {E} } {\biggl [}\;\left({\widehat {\theta }}_{\mathrm {mle} }-\theta _{0}\right)_{h}\;{\biggr ]}\;=\;{\frac {1}{\,n\,}}\,\sum _{i,j,k=1}^{m}\;{\mathcal {I}}^{hi}\;{\mathcal {I}}^{jk}\left({\frac {1}{\,2\,}}\,K_{ijk}\;+\;J_{j,ik}\right)

где ${\mathcal {I}}^{jk}$ (с верхними индексами) обозначает ( j,k )-ю компоненту обратной информационной матрицы Фишера ${\mathcal {I}}^{-1}$ , и

{\frac {1}{\,2\,}}\,K_{ijk}\;+\;J_{j,ik}\;=\;\operatorname {\mathbb {E} } \,{\biggl [}\;{\frac {1}{2}}{\frac {\partial ^{3}\ln f_{\theta _{0}}(X_{t})}{\partial \theta _{i}\;\partial \theta _{j}\;\partial \theta _{k}}}+{\frac {\;\partial \ln f_{\theta _{0}}(X_{t})\;}{\partial \theta _{j}}}\,{\frac {\;\partial ^{2}\ln f_{\theta _{0}}(X_{t})\;}{\partial \theta _{i}\,\partial \theta _{k}}}\;{\biggr ]}~.

Используя эти формулы, можно оценить смещение второго порядка оценки максимального правдоподобия и скорректировать это смещение путем его вычитания:

{\widehat {\theta \,}}_{\text{mle}}^{*}={\widehat {\theta \,}}_{\text{mle}}-{\widehat {b\,}}~.

Эта оценка несмещена с точки зрения порядка ⁠ 1 / $n$ ⁠ и называется оценкой максимального правдоподобия с коррекцией смещения .

Эта оценка с коррекцией смещения является эффективной второго порядка (по крайней мере, в пределах семейства кривых экспонент), что означает, что она имеет минимальную среднеквадратическую ошибку среди всех оценок второго порядка с коррекцией смещения, с точностью до членов порядка ⁠ 1 / $н$ ² ⁠ . Можно продолжить этот процесс, то есть вывести член коррекции смещения третьего порядка и так далее. Однако оценка максимального правдоподобия не является эффективной третьего порядка. ^[21]

Связь с байесовским выводом

Оценка максимального правдоподобия совпадает с вероятной байесовской оценкой при условии равномерного предварительного распределения параметров наиболее . Действительно, максимальная апостериорная оценка - это параметр $θ$ , который максимизирует вероятность $θ$ с учетом данных, заданных теоремой Байеса:

\operatorname {\mathbb {P} } (\theta \mid x_{1},x_{2},\ldots ,x_{n})={\frac {f(x_{1},x_{2},\ldots ,x_{n}\mid \theta )\operatorname {\mathbb {P} } (\theta )}{\operatorname {\mathbb {P} } (x_{1},x_{2},\ldots ,x_{n})}}

где $\operatorname {\mathbb {P} } (\theta )$ — априорное распределение параметра $θ$ , где $\operatorname {\mathbb {P} } (x_{1},x_{2},\ldots ,x_{n})$ — вероятность данных, усредненная по всем параметрам. Поскольку знаменатель не зависит от $θ$ , байесовская оценка получается путем максимизации $f(x_{1},x_{2},\ldots ,x_{n}\mid \theta )\operatorname {\mathbb {P} } (\theta )$ относительно $θ$ . Если мы далее предположим, что предыдущий $\operatorname {\mathbb {P} } (\theta )$ является равномерным распределением, байесовская оценка получается путем максимизации функции правдоподобия $f(x_{1},x_{2},\ldots ,x_{n}\mid \theta )$ . Таким образом, байесовская оценка совпадает с оценкой максимального правдоподобия для равномерного априорного распределения. $\operatorname {\mathbb {P} } (\theta )$ .

Применение оценки максимального правдоподобия в теории принятия решений Байеса

Во многих практических приложениях машинного обучения оценка максимального правдоподобия используется в качестве модели для оценки параметров.

Теория байесовского решения заключается в разработке классификатора, который минимизирует общий ожидаемый риск, особенно, когда затраты (функция потерь), связанные с различными решениями, равны, классификатор минимизирует ошибку по всему распределению. ^[22]

Таким образом, правило принятия решения Байеса формулируется как

"решать

\;w_{1}\;

если

~\operatorname {\mathbb {P} } (w_{1}|x)\;>\;\operatorname {\mathbb {P} } (w_{2}|x)~;~

в противном случае решите

\;w_{2}\;

"

где $\;w_{1}\,,w_{2}\;$ являются предсказаниями разных классов. С точки зрения минимизации ошибки это также можно сформулировать как

w={\underset {w}{\operatorname {arg\;max} }}\;\int _{-\infty }^{\infty }\operatorname {\mathbb {P} } ({\text{ error}}\mid x)\operatorname {\mathbb {P} } (x)\,\operatorname {d} x~

где

\operatorname {\mathbb {P} } ({\text{ error}}\mid x)=\operatorname {\mathbb {P} } (w_{1}\mid x)~

если мы решим $\;w_{2}\;$ и $\;\operatorname {\mathbb {P} } ({\text{ error}}\mid x)=\operatorname {\mathbb {P} } (w_{2}\mid x)\;$ если мы решим $\;w_{1}\;.$

Применяя теорему Байеса

\operatorname {\mathbb {P} } (w_{i}\mid x)={\frac {\operatorname {\mathbb {P} } (x\mid w_{i})\operatorname {\mathbb {P} } (w_{i})}{\operatorname {\mathbb {P} } (x)}}

,

и если мы далее предположим, что функция потерь равна нулю или единице, которая является одинаковой потерей для всех ошибок, правило байесовского решения можно переформулировать как:

h_{\text{Bayes}}={\underset {w}{\operatorname {arg\;max} }}\,{\bigl [}\,\operatorname {\mathbb {P} } (x\mid w)\,\operatorname {\mathbb {P} } (w)\,{\bigr ]}\;,

где $h_{\text{Bayes}}$ это предсказание и $\;\operatorname {\mathbb {P} } (w)\;$ это априорная вероятность .

Связь с минимизацией расхождения Кульбака – Лейблера и перекрестной энтропии

Нахождение ${\hat {\theta }}$ максимизирующее правдоподобие, асимптотически эквивалентно нахождению ${\hat {\theta }}$ который определяет распределение вероятностей ( $Q_{\hat {\theta }}$ ), которое имеет минимальное расстояние, с точки зрения дивергенции Кульбака–Лейблера , до реального распределения вероятностей, из которого были сгенерированы наши данные (т. е. сгенерировано $P_{\theta _{0}}$ ). ^[23] В идеальном мире P и Q одинаковы (и единственное, что неизвестно, это $\theta$ которое определяет P), но даже если это не так и модель, которую мы используем, определена неверно, MLE все равно даст нам «ближайшее» распределение (в пределах ограничения модели Q, которое зависит от ${\hat {\theta }}$ ) к реальному распределению $P_{\theta _{0}}$ . ^[24]

Доказательство.

For simplicity of notation, let's assume that P=Q. Let there be n i.i.d data samples $\mathbf {y} =(y_{1},y_{2},\ldots ,y_{n})$ from some probability $y\sim P_{\theta _{0}}$ , that we try to estimate by finding ${\hat {\theta }}$ that will maximize the likelihood using $P_{\theta }$ , then:

{\begin{aligned}{\hat {\theta }}&={\underset {\theta }{\operatorname {arg\,max} }}\,L_{P_{\theta }}(\mathbf {y} )={\underset {\theta }{\operatorname {arg\,max} }}\,P_{\theta }(\mathbf {y} )={\underset {\theta }{\operatorname {arg\,max} }}\,P(\mathbf {y} \mid \theta )\\&={\underset {\theta }{\operatorname {arg\,max} }}\,\prod _{i=1}^{n}P(y_{i}\mid \theta )={\underset {\theta }{\operatorname {arg\,max} }}\,\sum _{i=1}^{n}\log P(y_{i}\mid \theta )\\&={\underset {\theta }{\operatorname {arg\,max} }}\,\left(\sum _{i=1}^{n}\log P(y_{i}\mid \theta )-\sum _{i=1}^{n}\log P(y_{i}\mid \theta _{0})\right)={\underset {\theta }{\operatorname {arg\,max} }}\,\sum _{i=1}^{n}\left(\log P(y_{i}\mid \theta )-\log P(y_{i}\mid \theta _{0})\right)\\&={\underset {\theta }{\operatorname {arg\,max} }}\,\sum _{i=1}^{n}\log {\frac {P(y_{i}\mid \theta )}{P(y_{i}\mid \theta _{0})}}={\underset {\theta }{\operatorname {arg\,min} }}\,\sum _{i=1}^{n}\log {\frac {P(y_{i}\mid \theta _{0})}{P(y_{i}\mid \theta )}}={\underset {\theta }{\operatorname {arg\,min} }}\,{\frac {1}{n}}\sum _{i=1}^{n}\log {\frac {P(y_{i}\mid \theta _{0})}{P(y_{i}\mid \theta )}}\\&={\underset {\theta }{\operatorname {arg\,min} }}\,{\frac {1}{n}}\sum _{i=1}^{n}h_{\theta }(y_{i})\quad {\underset {n\to \infty }{\longrightarrow }}\quad {\underset {\theta }{\operatorname {arg\,min} }}\,E[h_{\theta }(y)]\\&={\underset {\theta }{\operatorname {arg\,min} }}\,\int P_{\theta _{0}}(y)h_{\theta }(y)dy={\underset {\theta }{\operatorname {arg\,min} }}\,\int P_{\theta _{0}}(y)\log {\frac {P(y\mid \theta _{0})}{P(y\mid \theta )}}dy\\&={\underset {\theta }{\operatorname {arg\,min} }}\,D_{\text{KL}}(P_{\theta _{0}}\parallel P_{\theta })\end{aligned}}

Where $h_{\theta }(x)=\log {\frac {P(x\mid \theta _{0})}{P(x\mid \theta )}}$ . Using h helps see how we are using the law of large numbers to move from the average of h(x) to the expectancy of it using the law of the unconscious statistician. The first several transitions have to do with laws of logarithm and that finding ${\hat {\theta }}$ that maximizes some function will also be the one that maximizes some monotonic transformation of that function (i.e.: adding/multiplying by a constant).

Since cross entropy is just Shannon's entropy plus KL divergence, and since the entropy of $P_{\theta _{0}}$ is constant, then the MLE is also asymptotically minimizing cross entropy.^[25]

Примеры

Дискретное равномерное распределение

Рассмотрим случай, когда n билетов с номерами от 1 до n помещены в коробку и один выбирается случайным образом ( см. равномерное распределение ); таким образом, размер выборки равен 1. Если n неизвестно, то оценка максимального правдоподобия ${\widehat {n}}$ of n — это число m в выпавшем билете. (Вероятность равна 0 при n < m , 1 ⁄ n для n ≥ m , и это наибольшее значение, когда n = m . Обратите внимание, что оценка максимального правдоподобия n происходит в нижнем пределе возможных значений { m , m + 1, ...}, а не где-то в «середине» диапазона возможных значений, что приведет к меньшему смещению. ) Ожидаемое значение числа m в выпавшем билете и, следовательно, ожидаемое значение ${\widehat {n}}$ , равно ( n + 1)/2. В результате при размере выборки, равном 1, оценка максимального правдоподобия для n будет систематически занижать n на ( n - 1)/2.

Дискретное распределение, пространство с конечным параметром

Предположим, кто-то хочет определить, насколько необъективна нечестная монета . Назовем вероятность выбрасывания « головы » p . Целью тогда становится определение p .

Предположим, монету подбрасывают 80 раз: т.е. выборка может быть чем-то вроде x ₁ = H, x ₂ = T, ..., x ₈₀ подсчет количества орлов = T, и наблюдается «H».

Вероятность выпадения решки равна 1 - p (поэтому здесь p равно θ, указанному выше). Предположим, что результат — 49 орлов и 31 решка , и предположим, что монета была взята из коробки, содержащей три монеты: одна, которая дает орла с вероятностью p = 1 ⁄ 3 , который дает орел с вероятностью p = 1 ⁄ 2 и еще один, который дает орел с вероятностью p = 2 ⁄ 3 . Монеты потеряли этикетки, поэтому неизвестно, какая именно. Используя оценку максимального правдоподобия, можно найти монету, имеющую наибольшую вероятность, учитывая наблюдаемые данные. Используя функцию массы вероятности биномиального распределения с размером выборки, равным 80, количеством успехов, равным 49, но для разных значений p («вероятность успеха»), функция правдоподобия (определенная ниже) принимает одно из трех значений:

{\begin{aligned}\operatorname {\mathbb {P} } {\bigl [}\;\mathrm {H} =49\mid p={\tfrac {1}{3}}\;{\bigr ]}&={\binom {80}{49}}({\tfrac {1}{3}})^{49}(1-{\tfrac {1}{3}})^{31}\approx 0.000,\\[6pt]\operatorname {\mathbb {P} } {\bigl [}\;\mathrm {H} =49\mid p={\tfrac {1}{2}}\;{\bigr ]}&={\binom {80}{49}}({\tfrac {1}{2}})^{49}(1-{\tfrac {1}{2}})^{31}\approx 0.012,\\[6pt]\operatorname {\mathbb {P} } {\bigl [}\;\mathrm {H} =49\mid p={\tfrac {2}{3}}\;{\bigr ]}&={\binom {80}{49}}({\tfrac {2}{3}})^{49}(1-{\tfrac {2}{3}})^{31}\approx 0.054~.\end{aligned}}

Вероятность максимальна, когда $p$ = 2 ⁄ 3 , и это оценка максимального правдоподобия для $p$ .

Дискретное распределение, непрерывное пространство параметров

Теперь предположим, что была только одна монета, но ее $p$ могло быть любым значением 0 ≤ $p$ ≤ 1. Функция правдоподобия, которую необходимо максимизировать, равна

L(p)=f_{D}(\mathrm {H} =49\mid p)={\binom {80}{49}}p^{49}(1-p)^{31}~,

и максимизация осуществляется по всем возможным значениям 0 ≤ $p$ ≤ 1.

Функция правдоподобия для значения доли биномиального процесса ( $n$ = 10)

Один из способов максимизировать эту функцию — дифференцировать по $p$ и приравнять ее нулю:

{\begin{aligned}0&={\frac {\partial }{\partial p}}\left({\binom {80}{49}}p^{49}(1-p)^{31}\right)~,\\[8pt]0&=49p^{48}(1-p)^{31}-31p^{49}(1-p)^{30}\\[8pt]&=p^{48}(1-p)^{30}\left[49(1-p)-31p\right]\\[8pt]&=p^{48}(1-p)^{30}\left[49-80p\right]~.\end{aligned}}

Это продукт трёх слагаемых. Первый член равен 0, когда $p$ = 0. Второй равен 0, когда $p$ = 1. Третий равен нулю, когда $p$ = 49/80 . Очевидно, что решение, которое максимизирует вероятность, равно $p$ = 49 ⁄ 80 (поскольку $p$ = 0 и $p$ = 1 приводят к вероятности 0). Таким образом, оценка максимального правдоподобия для $p$ равна 49 ⁄ 80 .

Этот результат легко обобщить, заменив букву, например $s,$ на место 49, чтобы обозначить наблюдаемое количество «успехов» наших испытаний Бернулли , и букву, например, $n,$ на место 80, чтобы обозначить количество испытаний Бернулли. Точно такой же расчет дает $s$ ⁄ $n$ , который является оценкой максимального правдоподобия для любой последовательности из $n$ испытаний Бернулли, приводящей к $s$ «успехам».

Непрерывное распределение, непрерывное пространство параметров

Для нормального распределения ${\mathcal {N}}(\mu ,\sigma ^{2})$ который имеет функцию плотности вероятности

f(x\mid \mu ,\sigma ^{2})={\frac {1}{{\sqrt {2\pi \sigma ^{2}}}\ }}\exp \left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right),

соответствующая функция плотности вероятности для выборки из $n$ независимых одинаково распределенных нормальных случайных величин (правдоподобие) равна

f(x_{1},\ldots ,x_{n}\mid \mu ,\sigma ^{2})=\prod _{i=1}^{n}f(x_{i}\mid \mu ,\sigma ^{2})=\left({\frac {1}{2\pi \sigma ^{2}}}\right)^{n/2}\exp \left(-{\frac {\sum _{i=1}^{n}(x_{i}-\mu )^{2}}{2\sigma ^{2}}}\right).

Это семейство распределений имеет два параметра: $θ = (μ, σ)$ ; поэтому мы максимизируем вероятность, ${\mathcal {L}}(\mu ,\sigma ^{2})=f(x_{1},\ldots ,x_{n}\mid \mu ,\sigma ^{2})$ по обоим параметрам одновременно или, если возможно, по отдельности.

Поскольку функция логарифма сама по себе является непрерывной строго возрастающей функцией в диапазоне правдоподобия, значения, которые максимизируют правдоподобие, также будут максимизировать ее логарифм (сама логарифмическая вероятность не обязательно строго возрастает). Логарифмическое правдоподобие можно записать следующим образом:

\log {\Bigl (}{\mathcal {L}}(\mu ,\sigma ^{2}){\Bigr )}=-{\frac {\,n\,}{2}}\log(2\pi \sigma ^{2})-{\frac {1}{2\sigma ^{2}}}\sum _{i=1}^{n}(\,x_{i}-\mu \,)^{2}

(Примечание: логарифмическое правдоподобие тесно связано с информационной энтропией и информацией Фишера .)

Теперь мы вычисляем производные этого логарифмического правдоподобия следующим образом.

{\begin{aligned}0&={\frac {\partial }{\partial \mu }}\log {\Bigl (}{\mathcal {L}}(\mu ,\sigma ^{2}){\Bigr )}=0-{\frac {\;-2n({\bar {x}}-\mu )\;}{2\sigma ^{2}}}.\end{aligned}}

где ${\bar {x}}$ – это выборочное среднее . Это решается

{\widehat {\mu }}={\bar {x}}=\sum _{i=1}^{n}{\frac {\,x_{i}\,}{n}}.

Это действительно максимум функции, поскольку это единственная точка поворота функции $µ$ , а вторая производная строго меньше нуля. Его математическое ожидание равно параметру $µ$ данного распределения:

\operatorname {\mathbb {E} } {\bigl [}\;{\widehat {\mu }}\;{\bigr ]}=\mu ,\,

что означает, что оценка максимального правдоподобия ${\widehat {\mu }}$ является беспристрастным.

Аналогично дифференцируем логарифмическое правдоподобие по $σ$ и приравниваем к нулю:

{\begin{aligned}0&={\frac {\partial }{\partial \sigma }}\log {\Bigl (}{\mathcal {L}}(\mu ,\sigma ^{2}){\Bigr )}=-{\frac {\,n\,}{\sigma }}+{\frac {1}{\sigma ^{3}}}\sum _{i=1}^{n}(\,x_{i}-\mu \,)^{2}.\end{aligned}}

который решается

{\widehat {\sigma }}^{2}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-\mu )^{2}.

Вставка оценки $\mu ={\widehat {\mu }}$ мы получаем

{\widehat {\sigma }}^{2}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}^{2}-{\frac {1}{n^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}x_{i}x_{j}.

Чтобы вычислить его ожидаемое значение, удобно переписать выражение в терминах случайных величин с нулевым средним ( статистическая ошибка ) $\delta _{i}\equiv \mu -x_{i}$ . Выражение оценки в этих переменных дает

{\widehat {\sigma }}^{2}={\frac {1}{n}}\sum _{i=1}^{n}(\mu -\delta _{i})^{2}-{\frac {1}{n^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}(\mu -\delta _{i})(\mu -\delta _{j}).

Упрощая приведенное выше выражение, используя факты, которые $\operatorname {\mathbb {E} } {\bigl [}\;\delta _{i}\;{\bigr ]}=0$ и $\operatorname {E} {\bigl [}\;\delta _{i}^{2}\;{\bigr ]}=\sigma ^{2}$ , позволяет получить

\operatorname {\mathbb {E} } {\bigl [}\;{\widehat {\sigma }}^{2}\;{\bigr ]}={\frac {\,n-1\,}{n}}\sigma ^{2}.

Это означает, что оценщик ${\widehat {\sigma }}^{2}$ предвзято относится к $\sigma ^{2}$ . Также можно показать, что ${\widehat {\sigma }}$ предвзято относится к $\sigma$ , но это оба ${\widehat {\sigma }}^{2}$ и ${\widehat {\sigma }}$ последовательны.

Формально мы говорим, что оценка максимального правдоподобия для $\theta =(\mu ,\sigma ^{2})$ является

{\widehat {\theta \,}}=\left({\widehat {\mu }},{\widehat {\sigma }}^{2}\right).

В этом случае MLE можно получить индивидуально. В целом это может быть не так, и MLE придется получать одновременно.

Нормальное логарифмическое правдоподобие в максимуме принимает особенно простую форму:

\log {\Bigl (}{\mathcal {L}}({\widehat {\mu }},{\widehat {\sigma }}){\Bigr )}={\frac {\,-n\;\;}{2}}{\bigl (}\,\log(2\pi {\widehat {\sigma }}^{2})+1\,{\bigr )}

Можно показать, что это максимальное логарифмическое правдоподобие одинаково для более общих методов наименьших квадратов , даже для нелинейных методов наименьших квадратов . Это часто используется при определении приближенных доверительных интервалов и доверительных областей на основе правдоподобия , которые обычно более точны, чем те, которые используют асимптотическую нормальность, обсуждавшуюся выше.

Ненезависимые переменные

Может случиться так, что переменные коррелируют, то есть не являются независимыми. Две случайные величины $y_{1}$ и $y_{2}$ независимы только в том случае, если их совместная функция плотности вероятности является произведением отдельных функций плотности вероятности, т.е.

f(y_{1},y_{2})=f(y_{1})f(y_{2})\,

Предположим, кто-то строит гауссов вектор порядка n из случайных величин. $(y_{1},\ldots ,y_{n})$ , где каждая переменная имеет средние значения, заданные формулой $(\mu _{1},\ldots ,\mu _{n})$ . Далее, пусть ковариационная матрица обозначается через ${\mathit {\Sigma }}$ . Тогда совместная функция плотности вероятности этих n случайных величин следует многомерному нормальному распределению, определяемому следующим образом:

f(y_{1},\ldots ,y_{n})={\frac {1}{(2\pi )^{n/2}{\sqrt {\det({\mathit {\Sigma }})}}}}\exp \left(-{\frac {1}{2}}\left[y_{1}-\mu _{1},\ldots ,y_{n}-\mu _{n}\right]{\mathit {\Sigma }}^{-1}\left[y_{1}-\mu _{1},\ldots ,y_{n}-\mu _{n}\right]^{\mathrm {T} }\right)

В двумерном случае совместная функция плотности вероятности определяется выражением:

f(y_{1},y_{2})={\frac {1}{2\pi \sigma _{1}\sigma _{2}{\sqrt {1-\rho ^{2}}}}}\exp \left[-{\frac {1}{2(1-\rho ^{2})}}\left({\frac {(y_{1}-\mu _{1})^{2}}{\sigma _{1}^{2}}}-{\frac {2\rho (y_{1}-\mu _{1})(y_{2}-\mu _{2})}{\sigma _{1}\sigma _{2}}}+{\frac {(y_{2}-\mu _{2})^{2}}{\sigma _{2}^{2}}}\right)\right]

В этом и других случаях, когда существует функция совместной плотности, функция правдоподобия определяется, как указано выше, в разделе « принципы », с использованием этой плотности.

Пример

$X_{1},\ X_{2},\ldots ,\ X_{m}$ – отсчеты в ячейках/коробках от 1 до m; у каждого ящика разная вероятность (представьте, что ящики больше или меньше), и мы фиксируем количество выпавших шаров равным $n$ : $x_{1}+x_{2}+\cdots +x_{m}=n$ . Вероятность появления каждого ящика равна $p_{i}$ , с ограничением: $p_{1}+p_{2}+\cdots +p_{m}=1$ . Это случай, когда $X_{i}$ s не являются независимыми, совместная вероятность вектора $x_{1},\ x_{2},\ldots ,x_{m}$ называется многочленом и имеет вид:

f(x_{1},x_{2},\ldots ,x_{m}\mid p_{1},p_{2},\ldots ,p_{m})={\frac {n!}{\prod x_{i}!}}\prod p_{i}^{x_{i}}={\binom {n}{x_{1},x_{2},\ldots ,x_{m}}}p_{1}^{x_{1}}p_{2}^{x_{2}}\cdots p_{m}^{x_{m}}

Каждый блок, взятый отдельно от всех остальных блоков, представляет собой бином и является его расширением.

Логарифмическая вероятность этого равна:

\ell (p_{1},p_{2},\ldots ,p_{m})=\log n!-\sum _{i=1}^{m}\log x_{i}!+\sum _{i=1}^{m}x_{i}\log p_{i}

Ограничение необходимо принять во внимание и использовать множители Лагранжа:

L(p_{1},p_{2},\ldots ,p_{m},\lambda )=\ell (p_{1},p_{2},\ldots ,p_{m})+\lambda \left(1-\sum _{i=1}^{m}p_{i}\right)

Полагая, что все производные равны 0, получается наиболее естественная оценка.

{\hat {p}}_{i}={\frac {x_{i}}{n}}

Максимизация логарифмической правдоподобности с ограничениями и без них может оказаться неразрешимой задачей в закрытой форме, тогда нам придется использовать итерационные процедуры.

Итерационные процедуры

За исключением особых случаев, уравнения правдоподобия

{\frac {\partial \ell (\theta ;\mathbf {y} )}{\partial \theta }}=0

не может быть решено явно для оценщика ${\widehat {\theta }}={\widehat {\theta }}(\mathbf {y} )$ . Вместо этого их необходимо решать итеративно : начиная с первоначального предположения о $\theta$ (сказать ${\widehat {\theta }}_{1}$ ), стремятся получить сходящуюся последовательность $\left\{{\widehat {\theta }}_{r}\right\}$ . множество методов решения такого рода задач оптимизации . Доступно ^[26]^[27] но наиболее часто используются алгоритмы, основанные на формуле обновления вида

{\widehat {\theta }}_{r+1}={\widehat {\theta }}_{r}+\eta _{r}\mathbf {d} _{r}\left({\widehat {\theta }}\right)

где вектор $\mathbf {d} _{r}\left({\widehat {\theta }}\right)$ указывает направление спуска -й r «ступени», а скаляр $\eta _{r}$ фиксирует «длину шага», ^[28]^[29] также известный как скорость обучения . ^[30]

градиентного спуска Метод

(Примечание: здесь речь идет о задаче максимизации, поэтому знак перед градиентом переворачивается)

\eta _{r}\in \mathbb {R} ^{+}

это достаточно мало для сходимости и

\mathbf {d} _{r}\left({\widehat {\theta }}\right)=\nabla \ell \left({\widehat {\theta }}_{r};\mathbf {y} \right)

Метод градиентного спуска требует расчета градиента на r-й итерации, но нет необходимости вычислять обратную производную второго порядка, то есть матрицу Гессе. Следовательно, он вычислительно быстрее, чем метод Ньютона-Рафсона.

Метод Ньютона – Рафсона

\eta _{r}=1

и

\mathbf {d} _{r}\left({\widehat {\theta }}\right)=-\mathbf {H} _{r}^{-1}\left({\widehat {\theta }}\right)\mathbf {s} _{r}\left({\widehat {\theta }}\right)

где $\mathbf {s} _{r}({\widehat {\theta }})$ это счет и $\mathbf {H} _{r}^{-1}\left({\widehat {\theta }}\right)$ является обратной матрицей Гессе функции логарифмического правдоподобия, обе вычисляются на r -й итерации. ^[31]^[32] Но поскольку расчет матрицы Гессе требует больших вычислительных затрат , было предложено множество альтернатив. Популярный алгоритм Берндта – Холла – Холла – Хаусмана аппроксимирует гессиан внешним произведением ожидаемого градиента, так что

\mathbf {d} _{r}\left({\widehat {\theta }}\right)=-\left[{\frac {1}{n}}\sum _{t=1}^{n}{\frac {\partial \ell (\theta ;\mathbf {y} )}{\partial \theta }}\left({\frac {\partial \ell (\theta ;\mathbf {y} )}{\partial \theta }}\right)^{\mathsf {T}}\right]^{-1}\mathbf {s} _{r}\left({\widehat {\theta }}\right)

Квазиньютоновские методы

Другие квазиньютоновские методы используют более сложные обновления секущей для аппроксимации матрицы Гессе.

Формула Дэвидона – Флетчера – Пауэлла

Формула DFP находит решение, которое является симметричным, положительно определенным и наиболее близким к текущему приблизительному значению производной второго порядка:

\mathbf {H} _{k+1}=\left(I-\gamma _{k}y_{k}s_{k}^{\mathsf {T}}\right)\mathbf {H} _{k}\left(I-\gamma _{k}s_{k}y_{k}^{\mathsf {T}}\right)+\gamma _{k}y_{k}y_{k}^{\mathsf {T}},

где

y_{k}=\nabla \ell (x_{k}+s_{k})-\nabla \ell (x_{k}),

\gamma _{k}={\frac {1}{y_{k}^{T}s_{k}}},

s_{k}=x_{k+1}-x_{k}.

Алгоритм Бройдена–Флетчера–Гольдфарба–Шенно

BFGS также дает симметричное и положительно определенное решение:

B_{k+1}=B_{k}+{\frac {y_{k}y_{k}^{\mathsf {T}}}{y_{k}^{\mathsf {T}}s_{k}}}-{\frac {B_{k}s_{k}s_{k}^{\mathsf {T}}B_{k}^{\mathsf {T}}}{s_{k}^{\mathsf {T}}B_{k}s_{k}}}\ ,

где

y_{k}=\nabla \ell (x_{k}+s_{k})-\nabla \ell (x_{k}),

s_{k}=x_{k+1}-x_{k}.

Сходимость метода BFGS не гарантируется, если функция не имеет квадратичного разложения Тейлора вблизи оптимума. Однако BFGS может иметь приемлемую производительность даже для негладких примеров оптимизации.

Гол Фишера

Другой популярный метод — замена гессиана информационной матрицей Фишера , ${\mathcal {I}}(\theta )=\operatorname {\mathbb {E} } \left[\mathbf {H} _{r}\left({\widehat {\theta }}\right)\right]$ , давая нам алгоритм оценки Фишера. Эта процедура является стандартной для оценки многих методов, таких как обобщенные линейные модели .

Несмотря на свою популярность, квазиньютоновские методы могут сходиться к стационарной точке , которая не обязательно является локальным или глобальным максимумом. ^[33] а скорее локальный минимум или седловая точка . Поэтому важно оценить достоверность полученного решения уравнений правдоподобия, проверив, что гессиан, оцененный при решении, является как отрицательно определенным , так и хорошо обусловленным . ^[34]

История

Среди первых пользователей метода максимального правдоподобия — Карл Фридрих Гаусс , Пьер-Симон Лаплас , Торвальд Н. Тиле и Фрэнсис Исидро Эджворт . ^[35]^[36] Однако между 1912 и 1922 годами Рональд Фишер в одиночку создал современную версию метода. ^[37]^[38]

Оценка максимального правдоподобия наконец превзошла эвристическое обоснование в доказательстве, опубликованном Сэмюэлем С. Уилксом в 1938 году и теперь называемом теоремой Уилкса . ^[39] Теорема показывает, что ошибка логарифма значений правдоподобия для оценок по множественным независимым наблюдениям асимптотически равна χ ²-distributed , что позволяет удобно определять доверительную область вокруг любой оценки параметров. Единственная трудная часть доказательства Уилкса зависит от ожидаемого значения информационной матрицы Фишера , которое обеспечивается теоремой, доказанной Фишером. ^[40] Уилкс продолжал совершенствовать общность теоремы на протяжении всей своей жизни, а его наиболее общее доказательство было опубликовано в 1962 году. ^[41]

Обзоры разработки оценки максимального правдоподобия были предоставлены рядом авторов. ^[42]^[43]^[44]^[45]^[46]^[47]^[48]^[49]

См. также

Связанные понятия

Информационный критерий Акаике : критерий сравнения статистических моделей, основанный на MLE.
Экстремальная оценка : более общий класс оценок, к которому принадлежит MLE.
Информация Фишера : информационная матрица, ее связь с ковариационной матрицей оценок ML
Среднеквадратическая ошибка : мера того, насколько «хороша» оценка параметра распределения (будь то оценка максимального правдоподобия или какая-либо другая оценка).
RANSAC : метод оценки параметров математической модели по данным, содержащим выбросы.
Теорема Рао – Блэквелла : дает процесс поиска наилучшей возможной несмещенной оценки (в смысле наличия минимальной среднеквадратической ошибки ); MLE часто является хорошей отправной точкой для процесса
Теорема Уилкса : предоставляет средства оценки размера и формы области примерно равновероятных оценок значений параметров совокупности, используя информацию из одной выборки, используя распределение хи-квадрат.

Другие методы оценки

Обобщенный метод моментов : методы, связанные с уравнением правдоподобия при оценке максимального правдоподобия.
M-оценщик : подход, используемый в надежной статистике.
Максимальная апостериорная оценка (MAP): для контраста в способе расчета оценок, когда постулируются предварительные знания.
Оценка максимального расстояния : родственный метод, который более надежен во многих ситуациях.
Оценка максимальной энтропии
Метод моментов (статистика) : еще один популярный метод поиска параметров распределений.
Метод поддержки , разновидность метода максимального правдоподобия.
Оценка минимального расстояния
Методы частичного правдоподобия для панельных данных
Оценка квазимаксимального правдоподобия : оценка MLE, которая определена неверно, но все же непротиворечива.
Ограниченное максимальное правдоподобие : вариант с использованием функции правдоподобия, рассчитанной на основе преобразованного набора данных.

Ссылки

^ Росси, Ричард Дж. (2018). Математическая статистика: введение в вывод, основанный на правдоподобии . Нью-Йорк: Джон Уайли и сыновья. п. 227. ИСБН 978-1-118-77104-4 .
^ Хендри, Дэвид Ф .; Нильсен, Бент (2007). Эконометрическое моделирование: вероятностный подход . Принстон: Издательство Принстонского университета. ISBN 978-0-691-13128-3 .
^ Чемберс, Раймонд Л.; Стил, Дэвид Г.; Ван, Суоджин; Уэлш, Алан (2012). Оценка максимального правдоподобия для выборочных обследований . Бока-Ратон: CRC Press. ISBN 978-1-58488-632-7 .
^ Уорд, Майкл Дон ; Алквист, Джон С. (2018). Максимальное правдоподобие для социальных наук: стратегии анализа . Нью-Йорк: Издательство Кембриджского университета. ISBN 978-1-107-18582-1 .
^ Пресс, WH; Фланнери, BP; Теукольский, С.А.; Веттерлинг, WT (1992). «Метод наименьших квадратов как средство оценки максимального правдоподобия» . Числовые рецепты на FORTRAN: Искусство научных вычислений (2-е изд.). Кембридж: Издательство Кембриджского университета. стр. 651–655. ISBN 0-521-43064-Х .
^ Мьюнг, Эй Джей (2003). «Учебное пособие по оценке максимального правдоподобия». Журнал математической психологии . 47 (1): 90–100. дои : 10.1016/S0022-2496(02)00028-7 .
^ Гурьеро, Кристиан; Монфор, Ален (1995). Статистические и эконометрические модели . Издательство Кембриджского университета. п. 161 . ISBN 0-521-40551-3 .
^ Кейн, Эдвард Дж. (1968). Экономическая статистика и эконометрика . Нью-Йорк, штат Нью-Йорк: Харпер и Роу. п. 179 .
^ Смолл, Кристопер Г.; Ван, Цзиньфан (2003). «Работа с корнями» . Численные методы решения нелинейных уравнений оценки . Издательство Оксфордского университета. стр. 74–124. ISBN 0-19-850688-0 .
^ Касс, Роберт Э.; Вос, Пол В. (1997). Геометрические основы асимптотического вывода . Нью-Йорк, штат Нью-Йорк: Джон Уайли и сыновья. п. 14. ISBN 0-471-82668-5 .
^ Пападопулос, Алекос (25 сентября 2013 г.). «Почему мы всегда помещаем log() перед совместным PDF-файлом, когда используем MLE (оценка максимального правдоподобия)?» . Обмен стеками .
↑ Перейти обратно: Перейти обратно: ^а ^б Сильви, SD (1975). Статистический вывод . Лондон, Великобритания: Чепмен и Холл. п. 79. ИСБН 0-412-13820-4 .
^ Олив, Дэвид (2004). «Максимизирует ли MLE вероятность?» (PDF) . Университет Южного Иллинойса .
^ Швалли, Дэниел П. (1985). «Положительные определенные оценки ковариации максимального правдоподобия». Письма по экономике . 17 (1–2): 115–117. дои : 10.1016/0165-1765(85)90139-9 .
^ Магнус, Ян Р. (2017). Введение в теорию эконометрики . Амстердам: Издательство Университета ВУ. стр. 64–65. ISBN 978-90-8659-766-6 .
^ Пфанзагль (1994 , стр. 206)
^ По теореме 2.5 в Ньюи, Уитни К.; Макфадден, Дэниел (1994). «Глава 36: Оценка большой выборки и проверка гипотез». В Энгле, Роберт; Макфадден, Дэн (ред.). Справочник по эконометрике, Том 4 . Эльзевир Наука. стр. 2111–2245. ISBN 978-0-444-88766-5 .
↑ Перейти обратно: Перейти обратно: ^а ^б По теореме 3.3 в Ньюи, Уитни К.; Макфадден, Дэниел (1994). «Глава 36: Оценка большой выборки и проверка гипотез». В Энгле, Роберт; Макфадден, Дэн (ред.). Справочник по эконометрике, Том 4 . Эльзевир Наука. стр. 2111–2245. ISBN 978-0-444-88766-5 .
^ Закс, Шелемьягу (1971). Теория статистического вывода . Нью-Йорк: Джон Уайли и сыновья. п. 223. ИСБН 0-471-98103-6 .
^ См. формулу 20 в Кокс, Дэвид Р .; Снелл, Э. Джойс (1968). «Общее определение остатков». Журнал Королевского статистического общества, серия B. 30 (2): 248–275. JSTOR 2984505 .
^ Кано, Ютака (1996). «Эффективность третьего порядка подразумевает эффективность четвертого порядка» . Журнал Японского статистического общества . 26 : 101–117. дои : 10.14490/jjss1995.26.101 .
^ Кристенсен, Хенрикт И. «Распознавание образов» (PDF) (лекция). Байесовская теория принятия решений - CS 7616. Технологический институт Джорджии.
^ cmplx96 ( https://stats.stackexchange.com/users/177679/cmplx96 ), расхождение Кульбака – Лейблера, URL (версия: 18 ноября 2017 г.): https://stats.stackexchange.com/q/314472 ( на ютубе видео, посмотрите минуты с 13 по 25)
^ Введение в статистический вывод | Стэнфорд (Лекция 16 — MLE при неправильной спецификации модели)
^ Sycorax говорит, что восстановит Монику ( https://stats.stackexchange.com/users/22311/sycorax-says-reinstate-monica ), взаимосвязь между максимизацией вероятности и минимизацией перекрестной энтропии, URL (версия: 2019-11- 06): https://stats.stackexchange.com/q/364237
^ Флетчер, Р. (1987). Практические методы оптимизации (Второе изд.). Нью-Йорк, штат Нью-Йорк: Джон Уайли и сыновья. ISBN 0-471-91547-5 .
^ Носедаль, Хорхе ; Райт, Стивен Дж. (2006). Численная оптимизация (второе изд.). Нью-Йорк, штат Нью-Йорк: Спрингер. ISBN 0-387-30303-0 .
^ Даганзо, Карлос (1979). Полиномиальный пробит: теория и ее применение к прогнозированию спроса . Нью-Йорк: Академическая пресса. стр. 61–78. ISBN 0-12-201150-3 .
^ Гулд, Уильям; Питбладо, Джеффри; Пои, Брайан (2010). Оценка максимального правдоподобия с помощью Stata (Четвертое изд.). Колледж-Стейшн: Stata Press. стр. 13–20. ISBN 978-1-59718-078-8 .
^ Мерфи, Кевин П. (2012). Машинное обучение: вероятностный взгляд . Кембридж: MIT Press. п. 247. ИСБН 978-0-262-01802-9 .
^ Амемия, Такеши (1985). Продвинутая эконометрика . Кембридж: Издательство Гарвардского университета. стр. 137–138 . ISBN 0-674-00560-0 .
^ Сарган, Денис (1988). «Методы численной оптимизации». Конспект лекций по продвинутой эконометрической теории . Оксфорд: Бэзил Блэквелл. стр. 161–169. ISBN 0-631-14956-2 .
^ См. теорему 10.1 в Авриэль, Мордехай (1976). Нелинейное программирование: анализ и методы . Энглвуд Клиффс, Нью-Джерси: Прентис-Холл. стр. 293–294. ISBN 978-0-486-43227-4 .
^ Гилл, Филип Э.; Мюррей, Уолтер; Райт, Маргарет Х. (1981). Практическая оптимизация . Лондон, Великобритания: Академическая пресса. стр. 312–313 . ISBN 0-12-283950-1 .
^ Эджворт, Фрэнсис Ю. (сентябрь 1908 г.). «О возможных погрешностях частотных констант» . Журнал Королевского статистического общества . 71 (3): 499–512. дои : 10.2307/2339293 . JSTOR 2339293 .
^ Эджворт, Фрэнсис Ю. (декабрь 1908 г.). «О возможных погрешностях частотных констант» . Журнал Королевского статистического общества . 71 (4): 651–678. дои : 10.2307/2339378 . JSTOR 2339378 .
^ Пфанзагль, Джон (1994). Параметрическая статистическая теория . Вальтер де Грюйтер . стр. 100-1 207–208. дои : 10.1515/9783110889765 . ISBN 978-3-11-013863-4 . МР 1291393 .
^ Хальд, Андерс (1999). «К истории максимального правдоподобия по отношению к обратной вероятности и методу наименьших квадратов» . Статистическая наука . 14 (2): 214–222. ISSN 0883-4237 .
^ Уилкс, СС (1938). «Распределение отношения правдоподобия по большой выборке для проверки сложных гипотез» . Анналы математической статистики . 9 : 60–62. дои : 10.1214/aoms/1177732360 .
^ Оуэн, Арт Б. (2001). Эмпирическая вероятность . Лондон, Великобритания; Бока-Ратон, Флорида: Chapman & Hall; ЦРК Пресс. ISBN 978-1-58488-071-4 .
^ Уилкс, Сэмюэл С. (1962). Математическая статистика . Нью-Йорк, штат Нью-Йорк: Джон Уайли и сыновья. ISBN 978-0-471-94650-2 .
^ Сэвидж, Леонард Дж. (1976). «О перечитывании Р. А. Фишера» . Анналы статистики . 4 (3): 441–500. дои : 10.1214/aos/1176343456 . JSTOR 2958221 .
^ Пратт, Джон В. (1976). «Ф. Я. Эджворт и Р. А. Фишер об эффективности оценки максимального правдоподобия» . Анналы статистики . 4 (3): 501–514. дои : 10.1214/aos/1176343457 . JSTOR 2958222 .
^ Стиглер, Стивен М. (1978). «Фрэнсис Исидро Эджворт, статистик». Журнал Королевского статистического общества, серия A. 141 (3): 287–322. дои : 10.2307/2344804 . JSTOR 2344804 .
^ Стиглер, Стивен М. (1986). История статистики: измерение неопределенности до 1900 года . Издательство Гарвардского университета. ISBN 978-0-674-40340-6 .
^ Стиглер, Стивен М. (1999). Статистика на столе: история статистических понятий и методов . Издательство Гарвардского университета. ISBN 978-0-674-83601-3 .
^ Хальд, Андерс (1998). История математической статистики с 1750 по 1930 годы . Нью-Йорк, штат Нью-Йорк: Уайли. ISBN 978-0-471-17912-2 .
^ Хальд, Андерс (1999). «Об истории максимального правдоподобия по отношению к обратной вероятности и наименьшим квадратам» . Статистическая наука . 14 (2): 214–222. дои : 10.1214/сс/1009212248 . JSTOR 2676741 .
^ Олдрич, Джон (1997). «Р. А. Фишер и создание максимальной вероятности 1912–1922» . Статистическая наука . 12 (3): 162–176. дои : 10.1214/ss/1030037906 . МР 1617519 .

Дальнейшее чтение

Крамер, Дж. С. (1986). Эконометрические приложения методов максимального правдоподобия . Нью-Йорк, штат Нью-Йорк: Издательство Кембриджского университета. ISBN 0-521-25317-9 .
Элиасон, Скотт Р. (1993). Оценка максимального правдоподобия: логика и практика . Ньюбери Парк: Сейдж. ISBN 0-8039-4107-2 .
Кинг, Гэри (1989). Унификация политической методологии: теория подобия статистического вывода . Издательство Кембриджского университета. ISBN 0-521-36697-6 .
Ле Кам, Люсьен (1990). «Максимальная вероятность: Введение». Обзор ISI . 58 (2): 153–171. дои : 10.2307/1403464 . JSTOR 1403464 .
Магнус, Ян Р. (2017). «Максимальная вероятность». Введение в теорию эконометрики . Амстердам, Нидерланды: Издательство VU University Press. стр. 53–68. ISBN 978-90-8659-766-6 .
Миллар, Рассел Б. (2011). Оценка максимального правдоподобия и вывод . Хобокен, Нью-Джерси: Уайли. ISBN 978-0-470-09482-2 .
Пиклз, Эндрю (1986). Введение в анализ правдоподобия . Норидж: WH Hutchins & Sons. ISBN 0-86094-190-6 .
Северини, Томас А. (2000). Вероятностные методы в статистике . Нью-Йорк, штат Нью-Йорк: Издательство Оксфордского университета. ISBN 0-19-850650-3 .
Уорд, Майкл Д .; Алквист, Джон С. (2018). Максимальное правдоподобие для социальных наук: стратегии анализа . Издательство Кембриджского университета. ISBN 978-1-316-63682-4 .

Внешние ссылки

Тилевик, Андреас (2022). Максимальное правдоподобие и метод наименьших квадратов в линейной регрессии (видео)
«Метод максимального правдоподобия» , Математическая энциклопедия , EMS Press , 2001 [1994]
Перселл, С. «Оценка максимального правдоподобия» .
Сарджент, Томас ; Стачурски, Джон. «Оценка максимального правдоподобия» . Количественная экономика с Python .
Тумет, Отт; Хеннингсен, Арне (19 мая 2019 г.). «maxLik: пакет для оценки максимального правдоподобия в R» .
Лессер, Лоуренс М. (2007). « Текст песни «МЛЕ»» . Математические науки / Научный колледж. Техасский университет . Эль-Пасо, Техас . Проверено 06 марта 2021 г.

[1] Росси, Ричард Дж. (2018). Математическая статистика: введение в вывод, основанный на правдоподобии . Нью-Йорк: Джон Уайли и сыновья. п. 227. ИСБН 978-1-118-77104-4 .

[2] Хендри, Дэвид Ф .; Нильсен, Бент (2007). Эконометрическое моделирование: вероятностный подход . Принстон: Издательство Принстонского университета. ISBN 978-0-691-13128-3 .

[3] Чемберс, Раймонд Л.; Стил, Дэвид Г.; Ван, Суоджин; Уэлш, Алан (2012). Оценка максимального правдоподобия для выборочных обследований . Бока-Ратон: CRC Press. ISBN 978-1-58488-632-7 .

[4] Уорд, Майкл Дон ; Алквист, Джон С. (2018). Максимальное правдоподобие для социальных наук: стратегии анализа . Нью-Йорк: Издательство Кембриджского университета. ISBN 978-1-107-18582-1 .

[5] Пресс, WH; Фланнери, BP; Теукольский, С.А.; Веттерлинг, WT (1992). «Метод наименьших квадратов как средство оценки максимального правдоподобия» . Числовые рецепты на FORTRAN: Искусство научных вычислений (2-е изд.). Кембридж: Издательство Кембриджского университета. стр. 651–655. ISBN 0-521-43064-Х .

[:0-6] Мьюнг, Эй Джей (2003). «Учебное пособие по оценке максимального правдоподобия». Журнал математической психологии . 47 (1): 90–100. дои : 10.1016/S0022-2496(02)00028-7 .

[7] Гурьеро, Кристиан; Монфор, Ален (1995). Статистические и эконометрические модели . Издательство Кембриджского университета. п. 161 . ISBN 0-521-40551-3 .

[8] Кейн, Эдвард Дж. (1968). Экономическая статистика и эконометрика . Нью-Йорк, штат Нью-Йорк: Харпер и Роу. п. 179 .

[9] Смолл, Кристопер Г.; Ван, Цзиньфан (2003). «Работа с корнями» . Численные методы решения нелинейных уравнений оценки . Издательство Оксфордского университета. стр. 74–124. ISBN 0-19-850688-0 .

[10] Касс, Роберт Э.; Вос, Пол В. (1997). Геометрические основы асимптотического вывода . Нью-Йорк, штат Нью-Йорк: Джон Уайли и сыновья. п. 14. ISBN 0-471-82668-5 .

[11] Пападопулос, Алекос (25 сентября 2013 г.). «Почему мы всегда помещаем log() перед совместным PDF-файлом, когда используем MLE (оценка максимального правдоподобия)?» . Обмен стеками .

[Silvey_p79-12] Перейти обратно: Перейти обратно: ^а ^б Сильви, SD (1975). Статистический вывод . Лондон, Великобритания: Чепмен и Холл. п. 79. ИСБН 0-412-13820-4 .

[13] Олив, Дэвид (2004). «Максимизирует ли MLE вероятность?» (PDF) . Университет Южного Иллинойса .

[14] Швалли, Дэниел П. (1985). «Положительные определенные оценки ковариации максимального правдоподобия». Письма по экономике . 17 (1–2): 115–117. дои : 10.1016/0165-1765(85)90139-9 .

[15] Магнус, Ян Р. (2017). Введение в теорию эконометрики . Амстердам: Издательство Университета ВУ. стр. 64–65. ISBN 978-90-8659-766-6 .

[16] Пфанзагль (1994 , стр. 206)

[17] По теореме 2.5 в Ньюи, Уитни К.; Макфадден, Дэниел (1994). «Глава 36: Оценка большой выборки и проверка гипотез». В Энгле, Роберт; Макфадден, Дэн (ред.). Справочник по эконометрике, Том 4 . Эльзевир Наука. стр. 2111–2245. ISBN 978-0-444-88766-5 .

[:1-18] Перейти обратно: Перейти обратно: ^а ^б По теореме 3.3 в Ньюи, Уитни К.; Макфадден, Дэниел (1994). «Глава 36: Оценка большой выборки и проверка гипотез». В Энгле, Роберт; Макфадден, Дэн (ред.). Справочник по эконометрике, Том 4 . Эльзевир Наука. стр. 2111–2245. ISBN 978-0-444-88766-5 .

[19] Закс, Шелемьягу (1971). Теория статистического вывода . Нью-Йорк: Джон Уайли и сыновья. п. 223. ИСБН 0-471-98103-6 .

[20] См. формулу 20 в Кокс, Дэвид Р .; Снелл, Э. Джойс (1968). «Общее определение остатков». Журнал Королевского статистического общества, серия B. 30 (2): 248–275. JSTOR 2984505 .

[21] Кано, Ютака (1996). «Эффективность третьего порядка подразумевает эффективность четвертого порядка» . Журнал Японского статистического общества . 26 : 101–117. дои : 10.14490/jjss1995.26.101 .

[22] Кристенсен, Хенрикт И. «Распознавание образов» (PDF) (лекция). Байесовская теория принятия решений - CS 7616. Технологический институт Джорджии.

[23] x96 ( https://stats.stackexchange.com/users/177679/cmplx96 ), расхождение Кульбака – Лейблера, URL (версия: 18 ноября 2017 г.): https://stats.stackexchange.com/q/314472 ( на ютубе видео, посмотрите минуты с 13 по 25)

[24] Введение в статистический вывод | Стэнфорд (Лекция 16 — MLE при неправильной спецификации модели)

[25] Sycorax говорит, что восстановит Монику ( https://stats.stackexchange.com/users/22311/sycorax-says-reinstate-monica ), взаимосвязь между максимизацией вероятности и минимизацией перекрестной энтропии, URL (версия: 2019-11- 06): https://stats.stackexchange.com/q/364237

[26] Флетчер, Р. (1987). Практические методы оптимизации (Второе изд.). Нью-Йорк, штат Нью-Йорк: Джон Уайли и сыновья. ISBN 0-471-91547-5 .

[27] Носедаль, Хорхе ; Райт, Стивен Дж. (2006). Численная оптимизация (второе изд.). Нью-Йорк, штат Нью-Йорк: Спрингер. ISBN 0-387-30303-0 .

[28] Даганзо, Карлос (1979). Полиномиальный пробит: теория и ее применение к прогнозированию спроса . Нью-Йорк: Академическая пресса. стр. 61–78. ISBN 0-12-201150-3 .

[29] Гулд, Уильям; Питбладо, Джеффри; Пои, Брайан (2010). Оценка максимального правдоподобия с помощью Stata (Четвертое изд.). Колледж-Стейшн: Stata Press. стр. 13–20. ISBN 978-1-59718-078-8 .

[30] Мерфи, Кевин П. (2012). Машинное обучение: вероятностный взгляд . Кембридж: MIT Press. п. 247. ИСБН 978-0-262-01802-9 .

[31] Амемия, Такеши (1985). Продвинутая эконометрика . Кембридж: Издательство Гарвардского университета. стр. 137–138 . ISBN 0-674-00560-0 .

[32] Сарган, Денис (1988). «Методы численной оптимизации». Конспект лекций по продвинутой эконометрической теории . Оксфорд: Бэзил Блэквелл. стр. 161–169. ISBN 0-631-14956-2 .

[33] См. теорему 10.1 в Авриэль, Мордехай (1976). Нелинейное программирование: анализ и методы . Энглвуд Клиффс, Нью-Джерси: Прентис-Холл. стр. 293–294. ISBN 978-0-486-43227-4 .

[34] Гилл, Филип Э.; Мюррей, Уолтер; Райт, Маргарет Х. (1981). Практическая оптимизация . Лондон, Великобритания: Академическая пресса. стр. 312–313 . ISBN 0-12-283950-1 .

[35] Эджворт, Фрэнсис Ю. (сентябрь 1908 г.). «О возможных погрешностях частотных констант» . Журнал Королевского статистического общества . 71 (3): 499–512. дои : 10.2307/2339293 . JSTOR 2339293 .

[36] Эджворт, Фрэнсис Ю. (декабрь 1908 г.). «О возможных погрешностях частотных констант» . Журнал Королевского статистического общества . 71 (4): 651–678. дои : 10.2307/2339378 . JSTOR 2339378 .

[Pfanzagl-37] Пфанзагль, Джон (1994). Параметрическая статистическая теория . Вальтер де Грюйтер . стр. 100-1 207–208. дои : 10.1515/9783110889765 . ISBN 978-3-11-013863-4 . МР 1291393 .

[38] Хальд, Андерс (1999). «К истории максимального правдоподобия по отношению к обратной вероятности и методу наименьших квадратов» . Статистическая наука . 14 (2): 214–222. ISSN 0883-4237 .

[39] Уилкс, СС (1938). «Распределение отношения правдоподобия по большой выборке для проверки сложных гипотез» . Анналы математической статистики . 9 : 60–62. дои : 10.1214/aoms/1177732360 .

[40] Оуэн, Арт Б. (2001). Эмпирическая вероятность . Лондон, Великобритания; Бока-Ратон, Флорида: Chapman & Hall; ЦРК Пресс. ISBN 978-1-58488-071-4 .

[41] Уилкс, Сэмюэл С. (1962). Математическая статистика . Нью-Йорк, штат Нью-Йорк: Джон Уайли и сыновья. ISBN 978-0-471-94650-2 .

[42] Сэвидж, Леонард Дж. (1976). «О перечитывании Р. А. Фишера» . Анналы статистики . 4 (3): 441–500. дои : 10.1214/aos/1176343456 . JSTOR 2958221 .

[43] Пратт, Джон В. (1976). «Ф. Я. Эджворт и Р. А. Фишер об эффективности оценки максимального правдоподобия» . Анналы статистики . 4 (3): 501–514. дои : 10.1214/aos/1176343457 . JSTOR 2958222 .

[44] Стиглер, Стивен М. (1978). «Фрэнсис Исидро Эджворт, статистик». Журнал Королевского статистического общества, серия A. 141 (3): 287–322. дои : 10.2307/2344804 . JSTOR 2344804 .

[45] Стиглер, Стивен М. (1986). История статистики: измерение неопределенности до 1900 года . Издательство Гарвардского университета. ISBN 978-0-674-40340-6 .

[46] Стиглер, Стивен М. (1999). Статистика на столе: история статистических понятий и методов . Издательство Гарвардского университета. ISBN 978-0-674-83601-3 .

[47] Хальд, Андерс (1998). История математической статистики с 1750 по 1930 годы . Нью-Йорк, штат Нью-Йорк: Уайли. ISBN 978-0-471-17912-2 .

[48] Хальд, Андерс (1999). «Об истории максимального правдоподобия по отношению к обратной вероятности и наименьшим квадратам» . Статистическая наука . 14 (2): 214–222. дои : 10.1214/сс/1009212248 . JSTOR 2676741 .

[49] Олдрич, Джон (1997). «Р. А. Фишер и создание максимальной вероятности 1912–1922» . Статистическая наука . 12 (3): 162–176. дои : 10.1214/ss/1030037906 . МР 1617519 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]