Функция правдоподобия

Функция правдоподобия (часто называемая просто правдоподобием ) измеряет, насколько хорошо статистическая модель объясняет наблюдаемые данные , вычисляя вероятность увидеть эти данные при различных значениях параметров модели. Он строится на основе совместного распределения вероятностей которая случайной величины, (предположительно) породила наблюдения. ^[1]^[2]^[3] При оценке на основе фактических данных он становится функцией исключительно параметров модели.

При оценке максимального правдоподобия аргумент, который максимизирует функцию правдоподобия, служит точечной оценкой неизвестного параметра, в то время как информация Фишера правдоподобия (часто аппроксимируемая матрицей Гессе оценки в максимуме) дает указание на точность .

Напротив, в байесовской статистике интересующая оценка является обратной вероятностью, так называемой апостериорной вероятностью параметра с учетом наблюдаемых данных, которая рассчитывается с помощью правила Байеса . ^[4]

Определение

Функция правдоподобия, параметризованная параметром (возможно, многомерным). ${\textstyle \theta }$ , обычно определяется по-разному для дискретных и непрерывных распределений вероятностей (более общее определение обсуждается ниже). Учитывая плотность вероятности или функцию массы

$x\mapsto f(x\mid \theta ),$

где ${\textstyle x}$ является реализацией случайной величины ${\textstyle X}$ , функция правдоподобия $\theta \mapsto f(x\mid \theta ),$ часто пишут ${\mathcal {L}}(\theta \mid x).$

Другими словами, когда ${\textstyle f(x\mid \theta )}$ рассматривается как функция ${\textstyle x}$ с ${\textstyle \theta }$ фиксированная, это функция плотности вероятности, и если рассматривать ее как функцию ${\textstyle \theta }$ с ${\textstyle x}$ фиксировано, это функция правдоподобия. В частотной парадигме обозначение ${\textstyle f(x\mid \theta )}$ часто избегают и вместо этого ${\textstyle f(x;\theta )}$ или ${\textstyle f(x,\theta )}$ используются для обозначения того, что ${\textstyle \theta }$ рассматривается как фиксированная неизвестная величина, а не как случайная величина, от которой зависит.

Функция правдоподобия не определяет вероятность того, что ${\textstyle \theta }$ это правда, учитывая наблюдаемую выборку ${\textstyle X=x}$ . Такая интерпретация является распространенной ошибкой, имеющей потенциально катастрофические последствия (см. « Заблуждение прокурора »).

Дискретное распределение вероятностей

Позволять ${\textstyle X}$ быть дискретной случайной величиной с функцией массы вероятности ${\textstyle p}$ в зависимости от параметра ${\textstyle \theta }$ . Тогда функция

${\mathcal {L}}(\theta \mid x)=p_{\theta }(x)=P_{\theta }(X=x),$

рассматривать как функцию ${\textstyle \theta }$ , — функция правдоподобия с учетом результата ${\textstyle x}$ случайной величины ${\textstyle X}$ . Иногда вероятность «значения ${\textstyle x}$ из ${\textstyle X}$ для значения параметра ${\textstyle \theta }$ «записывается как $P (X = x | θ)$ или $P (X = x; θ)$ . Правдоподобие — это вероятность того, что конкретный результат ${\textstyle x}$ наблюдается, когда истинное значение параметра ${\textstyle \theta }$ , что эквивалентно вероятностной массе на ${\textstyle x}$ ; это не плотность вероятности по параметру ${\textstyle \theta }$ . Вероятность, ${\textstyle {\mathcal {L}}(\theta \mid x)}$ , не следует путать с ${\textstyle P(\theta \mid x)}$ , что является апостериорной вероятностью ${\textstyle \theta }$ учитывая данные ${\textstyle x}$ .

Пример

Рисунок 1. Функция правдоподобия ( ${\textstyle p_{\text{H}}^{2}}$ ) для вероятности выпадения монеты лицом вверх (без предварительного знания ее честности), учитывая, что мы наблюдали HH.

Рисунок 2. Функция правдоподобия ( ${\textstyle p_{\text{H}}^{2}(1-p_{\text{H}})}$ ) для вероятности выпадения монеты лицом вверх (без предварительного знания ее честности), учитывая, что мы наблюдали HHT.

Рассмотрим простую статистическую модель подбрасывания монеты: один параметр ${\textstyle p_{\text{H}}}$ это выражает «справедливость» монеты. Параметром является вероятность того, что монета при броске упадет решкой вверх («H»). ${\textstyle p_{\text{H}}}$ может принимать любое значение в диапазоне от 0,0 до 1,0. За совершенно честную монету , ${\textstyle p_{\text{H}}=0.5}$ .

Представьте себе, что вы дважды подбрасываете честную монету и наблюдаете, как в двух бросках выпадает две решки («ЧХ»). Если предположить, что каждый последующий подброс монеты равен iid , то вероятность наблюдения HH равна

$P({\text{HH}}\mid p_{\text{H}}=0.5)=0.5^{2}=0.25.$

Аналогично, вероятность наблюдения «HH» при условии, что ${\textstyle p_{\text{H}}=0.5}$ является

${\mathcal {L}}(p_{\text{H}}=0.5\mid {\text{HH}})=0.25.$

Это не то же самое, что сказать, что ${\textstyle P(p_{\text{H}}=0.5\mid HH)=0.25}$ , вывод, который можно было сделать только с помощью теоремы Байеса, зная о предельных вероятностях ${\textstyle P(p_{\text{H}}=0.5)}$ и ${\textstyle P({\text{HH}})}$ .

Теперь предположим, что монета не является честной монетой, а вместо этого ${\textstyle p_{\text{H}}=0.3}$ . Тогда вероятность того, что при двух бросках выпадет две решки, равна

$P({\text{HH}}\mid p_{\text{H}}=0.3)=0.3^{2}=0.09.$

Следовательно

${\mathcal {L}}(p_{\text{H}}=0.3\mid {\text{HH}})=0.09.$

В более общем случае для каждого значения ${\textstyle p_{\text{H}}}$ , мы можем вычислить соответствующую вероятность. Результат таких вычислений представлен на рисунке 1. Интеграл от ${\textstyle {\mathcal {L}}}$ свыше [0, 1] составляет 1/3; вероятности не обязательно должны интегрироваться или суммироваться до единицы в пространстве параметров.

Непрерывное распределение вероятностей

Позволять ${\textstyle X}$ быть случайной величиной, подчиняющейся абсолютно непрерывному распределению вероятностей с функцией плотности. ${\textstyle f}$ (функция ${\textstyle x}$ ), который зависит от параметра ${\textstyle \theta }$ . Тогда функция

${\mathcal {L}}(\theta \mid x)=f_{\theta }(x),$

рассматривать как функцию ${\textstyle \theta }$ , – функция правдоподобия (из ${\textstyle \theta }$ , учитывая результат ${\textstyle X=x}$ ). Снова, ${\textstyle {\mathcal {L}}}$ не является плотностью вероятности или функцией массы по ${\textstyle \theta }$ , несмотря на то, что является функцией ${\textstyle \theta }$ учитывая наблюдение ${\textstyle X=x}$ .

Связь между функциями правдоподобия и плотности вероятности

Использование плотности вероятности при задании функции правдоподобия выше обосновано следующим образом. Учитывая наблюдение ${\textstyle x_{j}}$ , вероятность для интервала ${\textstyle [x_{j},x_{j}+h]}$ , где ${\textstyle h>0}$ является константой, определяется выражением ${\textstyle {\mathcal {L}}(\theta \mid x\in [x_{j},x_{j}+h])}$ . Обратите внимание, что $\mathop {\operatorname {arg\,max} } _{\theta }{\mathcal {L}}(\theta \mid x\in [x_{j},x_{j}+h])=\mathop {\operatorname {arg\,max} } _{\theta }{\frac {1}{h}}{\mathcal {L}}(\theta \mid x\in [x_{j},x_{j}+h]),$ с ${\textstyle h}$ положителен и постоянен. Потому что $\mathop {\operatorname {arg\,max} } _{\theta }{\frac {1}{h}}{\mathcal {L}}(\theta \mid x\in [x_{j},x_{j}+h])=\mathop {\operatorname {arg\,max} } _{\theta }{\frac {1}{h}}\Pr(x_{j}\leq x\leq x_{j}+h\mid \theta )=\mathop {\operatorname {arg\,max} } _{\theta }{\frac {1}{h}}\int _{x_{j}}^{x_{j}+h}f(x\mid \theta )\,dx,$

где ${\textstyle f(x\mid \theta )}$ – функция плотности вероятности, отсюда следует, что

$\mathop {\operatorname {arg\,max} } _{\theta }{\mathcal {L}}(\theta \mid x\in [x_{j},x_{j}+h])=\mathop {\operatorname {arg\,max} } _{\theta }{\frac {1}{h}}\int _{x_{j}}^{x_{j}+h}f(x\mid \theta )\,dx.$

Первая фундаментальная теорема исчисления гласит, что $\lim _{h\to 0^{+}}{\frac {1}{h}}\int _{x_{j}}^{x_{j}+h}f(x\mid \theta )\,dx=f(x_{j}\mid \theta ).$

Затем ${\begin{aligned}&\mathop {\operatorname {arg\,max} } _{\theta }{\mathcal {L}}(\theta \mid x_{j})=\mathop {\operatorname {arg\,max} } _{\theta }\left[\lim _{h\to 0^{+}}{\mathcal {L}}(\theta \mid x\in [x_{j},x_{j}+h])\right]\\[4pt]={}&\mathop {\operatorname {arg\,max} } _{\theta }\left[\lim _{h\to 0^{+}}{\frac {1}{h}}\int _{x_{j}}^{x_{j}+h}f(x\mid \theta )\,dx\right]=\mathop {\operatorname {arg\,max} } _{\theta }f(x_{j}\mid \theta ).\end{aligned}}$

Поэтому, $\mathop {\operatorname {arg\,max} } _{\theta }{\mathcal {L}}(\theta \mid x_{j})=\mathop {\operatorname {arg\,max} } _{\theta }f(x_{j}\mid \theta ),$ и таким образом максимизируя плотность вероятности при ${\textstyle x_{j}}$ означает максимизацию вероятности конкретного наблюдения ${\textstyle x_{j}}$ .

В общем

В теоретико-мерной теории вероятностей определяется функция плотности как производная Радона – Никодима распределения вероятностей относительно общей доминирующей меры. ^[5] Функция правдоподобия — это плотность, интерпретируемая как функция параметра, а не случайной величины. ^[6] Таким образом, мы можем построить функцию правдоподобия для любого распределения, будь то дискретное, непрерывное, смешанное или иное. (Правдоподобия сравнимы, например, для оценки параметров, только если они являются производными Радона – Никодима по одной и той же доминирующей мере.)

В приведенном выше обсуждении вероятности дискретных случайных величин используется мера подсчета , при которой плотность вероятности любого результата равна вероятности этого результата.

Вероятности для смешанных непрерывно-дискретных распределений

Вышеизложенное можно просто расширить, чтобы можно было рассматривать распределения, которые содержат как дискретные, так и непрерывные компоненты. Предположим, что распределение состоит из ряда дискретных вероятностных масс ${\textstyle p_{k}(\theta )}$ и плотность ${\textstyle f(x\mid \theta )}$ , где сумма всех ${\textstyle p}$ добавляется к интегралу ${\textstyle f}$ всегда один. Предполагая, что можно отличить наблюдение, соответствующее одной из дискретных вероятностных масс, от наблюдения, которое соответствует компоненту плотности, с функцией правдоподобия для наблюдения из непрерывного компонента можно обращаться способом, показанным выше. Для наблюдения дискретного компонента функция правдоподобия наблюдения дискретного компонента просто ${\mathcal {L}}(\theta \mid x)=p_{k}(\theta ),$ где ${\textstyle k}$ - индекс дискретной вероятностной массы, соответствующей наблюдению ${\textstyle x}$ , поскольку максимизация вероятностной массы (или вероятности) при ${\textstyle x}$ означает максимизацию вероятности конкретного наблюдения.

Тот факт, что функция правдоподобия может быть определена таким образом, который включает в себя несоизмеримые вклады (плотность и масса вероятности), обусловлен способом определения функции правдоподобия с точностью до константы пропорциональности, где эта «константа» может измениться с наблюдением ${\textstyle x}$ , но не с параметром ${\textstyle \theta }$ .

Условия регулярности

В контексте оценки параметров обычно предполагается, что функция правдоподобия подчиняется определенным условиям, известным как условия регулярности. Эти условия предполагаются в различных доказательствах с использованием функций правдоподобия и требуют проверки в каждом конкретном приложении. Для оценки максимального правдоподобия существование глобального максимума функции правдоподобия имеет первостепенное значение. По теореме об экстремальных значениях достаточно, чтобы функция правдоподобия была непрерывной в компактном пространстве параметров, чтобы существовала оценка максимального правдоподобия. ^[7] Хотя предположение о непрерывности обычно выполняется, предположение о компактности пространства параметров часто не выполняется, поскольку границы истинных значений параметров могут быть неизвестны. В этом случае ключевую роль играет вогнутость функции правдоподобия.

Более конкретно, если функция правдоподобия дважды непрерывно дифференцируема в k -мерном пространстве параметров ${\textstyle \Theta }$ предполагается открытым связным подмножеством ${\textstyle \mathbb {R} ^{k}\,,}$ существует единственный максимум ${\textstyle {\hat {\theta }}\in \Theta }$ если матрица вторых частиц $\mathbf {H} (\theta )\equiv \left[\,{\frac {\partial ^{2}L}{\,\partial \theta _{i}\,\partial \theta _{j}\,}}\,\right]_{i,j=1,1}^{n_{\mathrm {i} },n_{\mathrm {j} }}\;$ отрицательно определен для каждого ${\textstyle \,\theta \in \Theta \,}$ при котором градиент ${\textstyle \;\nabla L\equiv \left[\,{\frac {\partial L}{\,\partial \theta _{i}\,}}\,\right]_{i=1}^{n_{\mathrm {i} }}\;}$ исчезает,и если функция правдоподобия приближается к константе на границе пространства параметров, ${\textstyle \;\partial \Theta \;,}$ то есть, $\lim _{\theta \to \partial \Theta }L(\theta )=0\;,$ который может включать точки, находящиеся на бесконечности, если ${\textstyle \,\Theta \,}$ является неограниченным. Мякеляйнен и соавторы доказывают этот результат, используя теорию Морса , неформально апеллируя к свойству горного перевала. ^[8] Маскареньяш повторяет свое доказательство, используя теорему о горном перевале . ^[9]

В доказательствах непротиворечивости и асимптотической нормальности оценки максимального правдоподобия делаются дополнительные предположения о плотностях вероятности, которые составляют основу конкретной функции правдоподобия. Эти условия были впервые установлены Чандой. ^[10] В частности, почти для всех ${\textstyle x}$ , и для всех ${\textstyle \,\theta \in \Theta \,,}$ ${\frac {\partial \log f}{\partial \theta _{r}}}\,,\quad {\frac {\partial ^{2}\log f}{\partial \theta _{r}\partial \theta _{s}}}\,,\quad {\frac {\partial ^{3}\log f}{\partial \theta _{r}\,\partial \theta _{s}\,\partial \theta _{t}}}\,$ существовать для всех ${\textstyle \,r,s,t=1,2,\ldots ,k\,}$ для того, чтобы гарантировать существование расширения Тейлора . Во-вторых, почти для всех ${\textstyle x}$ и для каждого ${\textstyle \,\theta \in \Theta \,}$ должно быть это $\left|{\frac {\partial f}{\partial \theta _{r}}}\right|<F_{r}(x)\,,\quad \left|{\frac {\partial ^{2}f}{\partial \theta _{r}\,\partial \theta _{s}}}\right|<F_{rs}(x)\,,\quad \left|{\frac {\partial ^{3}f}{\partial \theta _{r}\,\partial \theta _{s}\,\partial \theta _{t}}}\right|<H_{rst}(x)$ где ${\textstyle H}$ таков, что ${\textstyle \,\int _{-\infty }^{\infty }H_{rst}(z)\mathrm {d} z\leq M<\infty \;.}$ Эта ограниченность производных необходима для возможности дифференцирования под знаком интеграла . И, наконец, предполагается, что информационная матрица , $\mathbf {I} (\theta )=\int _{-\infty }^{\infty }{\frac {\partial \log f}{\partial \theta _{r}}}\ {\frac {\partial \log f}{\partial \theta _{s}}}\ f\ \mathrm {d} z$ положительно определен и ${\textstyle \,\left|\mathbf {I} (\theta )\right|\,}$ конечно. Это гарантирует, что оценка имеет конечную дисперсию. ^[11]

Вышеуказанные условия являются достаточными, но не необходимыми. То есть модель, которая не удовлетворяет этим условиям регулярности, может иметь или не иметь оценку максимального правдоподобия упомянутых выше свойств. Кроме того, в случае ненезависимых или неидентично распределенных наблюдений может потребоваться принять дополнительные свойства.

В байесовской статистике почти идентичные условия регулярности накладываются на функцию правдоподобия, чтобы доказать асимптотическую нормальность апостериорной вероятности , ^[12]^[13] и, следовательно, для обоснования аппроксимации Лапласа апостериорной области в больших выборках. ^[14]

Отношение правдоподобия и относительная вероятность

Отношение правдоподобия

Отношение правдоподобия — это отношение любых двух заданных правдоподобий, которое часто записывают как: $\Lambda (\theta _{1}:\theta _{2}\mid x)={\frac {{\mathcal {L}}(\theta _{1}\mid x)}{{\mathcal {L}}(\theta _{2}\mid x)}}.$

Отношение правдоподобия занимает центральное место в правдоподобной статистике : закон правдоподобия гласит, что степень, в которой данные (считающиеся доказательствами) поддерживают одно значение параметра по сравнению с другим, измеряется отношением правдоподобия.

В частотном выводе отношение правдоподобия является основой для тестовой статистики , так называемого теста отношения правдоподобия . Согласно лемме Неймана-Пирсона , это самый мощный тест для сравнения двух простых гипотез на заданном уровне значимости . Многочисленные другие тесты можно рассматривать как тесты отношения правдоподобия или их аппроксимации. ^[15] Асимптотическое распределение логарифмического отношения правдоподобия, рассматриваемое как тестовая статистика, определяется теоремой Уилкса .

Отношение правдоподобия также имеет центральное значение в байесовском выводе , где оно известно как фактор Байеса и используется в правиле Байеса . Выражаясь в терминах шансов , правило Байеса гласит, что апостериорные шансы двух альтернатив, ⁠ $A_{1}$ ⁠ и ⁠ $A_{2}$ ⁠ , учитывая событие ⁠ $B$ ⁠ — априорные шансы, умноженные на отношение правдоподобия. В виде уравнения: $O(A_{1}:A_{2}\mid B)=O(A_{1}:A_{2})\cdot \Lambda (A_{1}:A_{2}\mid B).$

Отношение правдоподобия не используется напрямую в статистике на основе AIC. Вместо этого используется относительная вероятность моделей (см. ниже).

В доказательной медицине отношения правдоподобия используются в диагностическом тестировании для оценки ценности выполнения диагностического теста .

Функция относительного правдоподобия

Поскольку фактическое значение функции правдоподобия зависит от выборки, часто удобно работать со стандартизированной мерой. Предположим, что оценка максимального правдоподобия для параметра $θ$ равна ${\textstyle {\hat {\theta }}}$ . Относительная правдоподобность других $значений θ$ может быть найдена путем сравнения правдоподобий этих других значений с вероятностью ${\textstyle {\hat {\theta }}}$ . Относительная вероятность θ $как$ определяется ^[16]^[17]^[18]^[19]^[20] $R(\theta )={\frac {{\mathcal {L}}(\theta \mid x)}{{\mathcal {L}}({\hat {\theta }}\mid x)}}.$ Таким образом, относительная вероятность — это отношение правдоподобия (обсуждаемое выше) с фиксированным знаменателем. ${\textstyle {\mathcal {L}}({\hat {\theta }})}$ . Это соответствует стандартизации вероятности иметь максимум 1.

Вероятностный регион

Область правдоподобия — это набор всех значений $θ$ , относительная вероятность которых больше или равна заданному порогу. В процентах $область вероятности p$ % для $θ$ определяется как ^[16]^[18]^[21]

$\left\{\theta :R(\theta )\geq {\frac {p}{100}}\right\}.$

Если $θ$ является единственным действительным параметром, $область вероятности p$ % обычно будет включать интервал реальных значений. Если область содержит интервал, то она называется интервалом правдоподобия . ^[16]^[18]^[22]

Интервалы правдоподобия и, в более общем плане, области правдоподобия используются для интервальной оценки в правдоподобной статистике: они аналогичны доверительным интервалам в частотной статистике и достоверным интервалам в байесовской статистике. Интервалы правдоподобия интерпретируются непосредственно с точки зрения относительной вероятности, а не с точки зрения вероятности покрытия (частотность) или апостериорной вероятности (байесианство).

Учитывая модель, интервалы правдоподобия можно сравнить с доверительными интервалами. Если $θ$ является единственным реальным параметром, то при определенных условиях интервал правдоподобия 14,65% (вероятность около 1:7) для $θ$ будет таким же, как доверительный интервал 95% (вероятность охвата 19/20). ^[16]^[21] В несколько иной формулировке, подходящей для использования логарифмического правдоподобия (см. теорему Уилкса ), тестовая статистика в два раза превышает разницу в логарифмических вероятностях, а распределение вероятностей тестовой статистики представляет собой примерно распределение хи-квадрат со степенями вероятности. -свобода (df), равная разнице df между двумя моделями (следовательно, $e$ ⁻² интервал правдоподобия такой же, как доверительный интервал 0,954; предполагая, что разница в df равна 1). ^[21]^[22]

Вероятности, исключающие мешающие параметры

Во многих случаях вероятность является функцией более чем одного параметра, но интерес сосредотачивается на оценке только одного или, самое большее, нескольких из них, а остальные рассматриваются как мешающие параметры . Для устранения таких мешающих параметров было разработано несколько альтернативных подходов, чтобы вероятность можно было записать как функцию только интересующего параметра (или параметров): основными подходами являются профильная, условная и предельная правдоподобия. ^[23]^[24] Эти подходы также полезны, когда поверхность правдоподобия большой размерности необходимо свести к одному или двум интересующим параметрам, чтобы можно было построить график .

Вероятность профиля

Можно уменьшить размерность, концентрируя функцию правдоподобия для подмножества параметров, выражая мешающие параметры как функции интересующих параметров и заменяя их в функции правдоподобия. ^[25]^[26] В общем случае для функции правдоподобия, зависящей от вектора параметров ${\textstyle \mathbf {\theta } }$ которые можно разделить на ${\textstyle \mathbf {\theta } =\left(\mathbf {\theta } _{1}:\mathbf {\theta } _{2}\right)}$ , а где переписка ${\textstyle \mathbf {\hat {\theta }} _{2}=\mathbf {\hat {\theta }} _{2}\left(\mathbf {\theta } _{1}\right)}$ может быть определена явно, концентрация снижает вычислительную нагрузку исходной задачи максимизации. ^[27]

Например, в линейной регрессии с нормально распределенными ошибками: ${\textstyle \mathbf {y} =\mathbf {X} \beta +u}$ вектор коэффициентов можно разбить на ${\textstyle \beta =\left[\beta _{1}:\beta _{2}\right]}$ (и, следовательно, матрица расчета ${\textstyle \mathbf {X} =\left[\mathbf {X} _{1}:\mathbf {X} _{2}\right]}$ ). Максимизация по отношению к ${\textstyle \beta _{2}}$ дает оптимальную функцию значения ${\textstyle \beta _{2}(\beta _{1})=\left(\mathbf {X} _{2}^{\mathsf {T}}\mathbf {X} _{2}\right)^{-1}\mathbf {X} _{2}^{\mathsf {T}}\left(\mathbf {y} -\mathbf {X} _{1}\beta _{1}\right)}$ . Используя этот результат, можно получить оценку максимального правдоподобия для ${\textstyle \beta _{1}}$ тогда можно вывести как ${\hat {\beta }}_{1}=\left(\mathbf {X} _{1}^{\mathsf {T}}\left(\mathbf {I} -\mathbf {P} _{2}\right)\mathbf {X} _{1}\right)^{-1}\mathbf {X} _{1}^{\mathsf {T}}\left(\mathbf {I} -\mathbf {P} _{2}\right)\mathbf {y}$ где ${\textstyle \mathbf {P} _{2}=\mathbf {X} _{2}\left(\mathbf {X} _{2}^{\mathsf {T}}\mathbf {X} _{2}\right)^{-1}\mathbf {X} _{2}^{\mathsf {T}}}$ является проекции матрицей ${\textstyle \mathbf {X} _{2}}$ . Этот результат известен как теорема Фриша-Во-Ловелла .

Поскольку графически процедура концентрации эквивалентна разрезанию поверхности правдоподобия по гребню значений параметра помехи ${\textstyle \beta _{2}}$ который максимизирует функцию правдоподобия, создавая изометрический профиль функции правдоподобия для данного ${\textstyle \beta _{1}}$ результат этой процедуры также известен как вероятность профиля . ^[28]^[29] Помимо графического отображения, профиль правдоподобия также можно использовать для расчета доверительных интервалов , которые часто имеют лучшие свойства для малой выборки, чем те, которые основаны на асимптотических стандартных ошибках, рассчитанных на основе полного правдоподобия. ^[30]^[31]

Условная вероятность

Иногда можно найти достаточную статистику для мешающих параметров, и использование этой статистики приводит к получению вероятности, которая не зависит от мешающих параметров. ^[32]

Один из примеров встречается в таблицах 2×2, где условие всех четырех предельных итогов приводит к условному правдоподобию, основанному на нецентральном гипергеометрическом распределении . Эта форма обусловленности также является основой точного теста Фишера .

Предельная вероятность

Иногда мы можем удалить мешающие параметры, рассматривая вероятность, основанную только на части информации в данных, например, используя набор рангов, а не числовые значения. Другой пример встречается в линейных смешанных моделях , где рассмотрение вероятности остатков только после подгонки фиксированных эффектов приводит к оценке максимального правдоподобия остатков для компонентов дисперсии.

Частичная вероятность

Частичная вероятность — это адаптация полной вероятности, при которой в ней встречается только часть параметров (интересующих параметров). ^[33] Это ключевой компонент модели пропорциональных рисков : при использовании ограничения на функцию риска вероятность не содержит формы опасности с течением времени.

Произведения вероятностей

Вероятность при наличии двух или более независимых событий является произведением вероятностей каждого из отдельных событий: $\Lambda (A\mid X_{1}\land X_{2})=\Lambda (A\mid X_{1})\cdot \Lambda (A\mid X_{2}).$ Это следует из определения независимости вероятности: вероятности двух независимых событий, происходящих в данной модели, являются произведением вероятностей.

Это особенно важно, когда события происходят от независимых и одинаково распределенных случайных величин , таких как независимые наблюдения или выборка с заменой . В такой ситуации функция правдоподобия превращается в произведение отдельных функций правдоподобия.

Пустое произведение имеет значение 1, что соответствует вероятности, равной 1 при отсутствии событий: перед появлением каких-либо данных вероятность всегда равна 1. Это похоже на равномерный априор в байесовской статистике, но в правдоподобной статистике это не является неправильным. раньше, потому что вероятности не интегрированы.

Логарифмическое правдоподобие

Логарифмическая функция правдоподобия — это логарифм функции правдоподобия, часто обозначаемый строчной буквой $l$ или ⁠. $\ell$ ⁠ , в отличие от заглавной буквы $L$ или ${\textstyle {\mathcal {L}}}$ для вероятности. Поскольку логарифмы являются строго возрастающими функциями, максимизация правдоподобия эквивалентна максимизации логарифмического правдоподобия. Но для практических целей удобнее работать с логарифмической функцией правдоподобия при оценке максимального правдоподобия , в частности, поскольку наиболее распространенные распределения вероятностей , особенно экспоненциальное семейство , являются только логарифмически вогнутыми . ^[34]^[35] и вогнутость целевой функции играет ключевую роль в максимизации .

Учитывая независимость каждого события, общая логарифмическая вероятность пересечения равна сумме логарифмических вероятностей отдельных событий. Это аналогично тому факту, что общая логарифмическая вероятность представляет собой сумму логарифмических вероятностей отдельных событий. Помимо математического удобства, процесс добавления логарифмического правдоподобия имеет интуитивную интерпретацию, которую часто выражают как «поддержку» данными. Когда параметры оцениваются с использованием логарифмического правдоподобия для оценки максимального правдоподобия , каждая точка данных используется путем прибавления к общему логарифмическому правдоподобию. Поскольку данные можно рассматривать как свидетельство, подтверждающее оцененные параметры, этот процесс можно интерпретировать как « дополнительную поддержку со стороны независимых доказательств», а логарифмическое правдоподобие представляет собой «вес доказательств». Интерпретируя отрицательную логарифмическую вероятность как информационное содержание или неожиданность , поддержка (логарифмическая вероятность) модели при данном событии является отрицанием неожиданности события при данной модели: модель поддерживается событием в той степени, в которой что событие неудивительно, учитывая модель.

Логарифм отношения правдоподобия равен разнице логарифмов правдоподобия: $\log {\frac {{\mathcal {L}}(A)}{{\mathcal {L}}(B)}}=\log {\mathcal {L}}(A)-\log {\mathcal {L}}(B)=\ell (A)-\ell (B).$

Точно так же, как вероятность при отсутствии событий равна 1, логарифмическая вероятность при отсутствии событий равна 0, что соответствует значению пустой суммы: без каких-либо данных не поддерживается никакая модель.

График

График ( логарифмического правдоподобия называется опорной кривой в одномерном случае). ^[36]В многомерном случае концепция обобщается до опорной поверхности в пространстве параметров . , но отличается от него Он имеет отношение к поддержке дистрибутива .

Термин был придуман AWF Эдвардсом. ^[36] в контексте проверки статистических гипотез , т.е. «поддерживают ли данные» одну проверяемую гипотезу (или значение параметра) больше, чем любую другую.

Построенная функция логарифмического правдоподобия используется при вычислении оценки ( градиент логарифмического правдоподобия) и информации Фишера (кривизна логарифмического правдоподобия). Таким образом, график имеет прямую интерпретацию в контексте оценки максимального правдоподобия и тестов отношения правдоподобия .

Уравнения правдоподобия

Если логарифмическая функция правдоподобия является гладкой , ее градиент по отношению к параметру, известному как оценка , и записанному ${\textstyle s_{n}(\theta )\equiv \nabla _{\theta }\ell _{n}(\theta )}$ , существует и позволяет применять дифференциальное исчисление . Основной способ максимизировать дифференцируемую функцию — найти стационарные точки (точки, в которых производная равна нулю); поскольку производная суммы — это просто сумма производных, а для производной произведения требуется правило произведения , легче вычислить стационарные точки логарифмической вероятности независимых событий, чем вероятности независимых событий.

Уравнения, определяемые стационарной точкой оценочной функции, служат оценочными уравнениями для средства оценки максимального правдоподобия. $s_{n}(\theta )=\mathbf {0}$ В этом смысле оценка максимального правдоподобия неявно определяется значением при ${\textstyle \mathbf {0} }$ обратной функции ${\textstyle s_{n}^{-1}:\mathbb {E} ^{d}\to \Theta }$ , где ${\textstyle \mathbb {E} ^{d}}$ — d -мерное евклидово пространство , а ${\textstyle \Theta }$ это пространство параметров. Используя теорему об обратной функции , можно показать, что ${\textstyle s_{n}^{-1}}$ в четко определен открытой окрестности около ${\textstyle \mathbf {0} }$ с вероятностью, стремящейся к единице, и ${\textstyle {\hat {\theta }}_{n}=s_{n}^{-1}(\mathbf {0} )}$ является последовательной оценкой ${\textstyle \theta }$ . Как следствие, существует последовательность ${\textstyle \left\{{\hat {\theta }}_{n}\right\}}$ такой, что ${\textstyle s_{n}({\hat {\theta }}_{n})=\mathbf {0} }$ асимптотически почти наверняка и ${\textstyle {\hat {\theta }}_{n}\xrightarrow {\text{p}} \theta _{0}}$ . ^[37] Аналогичный результат можно установить с помощью теоремы Ролля . ^[38]^[39]

Вторая производная, оцененная в ${\textstyle {\hat {\theta }}}$ , известная как информация Фишера , определяет кривизну поверхности правдоподобия, ^[40] и, таким образом, указывает на точность оценки. ^[41]

Экспоненциальные семьи

Логарифмическое правдоподобие также особенно полезно для экспоненциальных семейств распределений, которые включают многие распространенные параметрические распределения вероятностей . Функция распределения вероятностей (и, следовательно, функция правдоподобия) для экспоненциальных семейств содержит произведения факторов, включающих возведение в степень . Логарифм такой функции представляет собой сумму произведений, которую опять же легче дифференцировать, чем исходную функцию.

Экспоненциальное семейство — это семейство, функция плотности вероятности которого имеет вид (для некоторых функций запись ${\textstyle \langle -,-\rangle }$ для внутреннего продукта ):

$p(x\mid {\boldsymbol {\theta }})=h(x)\exp {\Big (}\langle {\boldsymbol {\eta }}({\boldsymbol {\theta }}),\mathbf {T} (x)\rangle -A({\boldsymbol {\theta }}){\Big )}.$

Каждый из этих терминов имеет свое толкование. ^[а] но простое переключение от вероятности к правдоподобию и логарифмирование дает сумму:

$\ell ({\boldsymbol {\theta }}\mid x)=\langle {\boldsymbol {\eta }}({\boldsymbol {\theta }}),\mathbf {T} (x)\rangle -A({\boldsymbol {\theta }})+\log h(x).$

The ${\textstyle {\boldsymbol {\eta }}({\boldsymbol {\theta }})}$ и ${\textstyle h(x)}$ каждый соответствует изменению координат , поэтому в этих координатах логарифмическое правдоподобие экспоненциального семейства определяется простой формулой:

$\ell ({\boldsymbol {\eta }}\mid x)=\langle {\boldsymbol {\eta }},\mathbf {T} (x)\rangle -A({\boldsymbol {\eta }}).$

Другими словами, логарифмическое правдоподобие экспоненциального семейства является скалярным произведением натурального параметра ⁠ ${\boldsymbol {\eta }}$ ⁠ и достаточная статистика ⁠ $\mathbf {T} (x)$ ⁠ , минус коэффициент нормализации ( функция лог-раздела ) ⁠ $A({\boldsymbol {\eta }})$ ⁠ . Так, например, оценку максимального правдоподобия можно вычислить, взяв производные достаточной статистики $T$ и функции логарифмического распределения $A$ .

Пример: гамма-распределение

Гамма -распределение представляет собой экспоненциальное семейство с двумя параметрами: ${\textstyle \alpha }$ и ${\textstyle \beta }$ . Функция правдоподобия

${\mathcal {L}}(\alpha ,\beta \mid x)={\frac {\beta ^{\alpha }}{\Gamma (\alpha )}}x^{\alpha -1}e^{-\beta x}.$

Нахождение оценки максимального правдоподобия ${\textstyle \beta }$ для одного наблюдаемого значения ${\textstyle x}$ выглядит довольно устрашающе. С его логарифмом работать гораздо проще:

$\log {\mathcal {L}}(\alpha ,\beta \mid x)=\alpha \log \beta -\log \Gamma (\alpha )+(\alpha -1)\log x-\beta x.\,$

Чтобы максимизировать логарифмическое правдоподобие, мы сначала берем частную производную по ${\textstyle \beta }$ :

${\frac {\partial \log {\mathcal {L}}(\alpha ,\beta \mid x)}{\partial \beta }}={\frac {\alpha }{\beta }}-x.$

Если имеется ряд независимых наблюдений ${\textstyle x_{1},\ldots ,x_{n}}$ , то совместное логарифмическое правдоподобие будет суммой отдельных логарифмических правдоподобий, а производная этой суммы будет суммой производных каждого отдельного логарифмического правдоподобия:

${\begin{aligned}&{\frac {\partial \log {\mathcal {L}}(\alpha ,\beta \mid x_{1},\ldots ,x_{n})}{\partial \beta }}\\={}&{\frac {\partial \log {\mathcal {L}}(\alpha ,\beta \mid x_{1})}{\partial \beta }}+\cdots +{\frac {\partial \log {\mathcal {L}}(\alpha ,\beta \mid x_{n})}{\partial \beta }}={\frac {n\alpha }{\beta }}-\sum _{i=1}^{n}x_{i}.\end{aligned}}$

Чтобы завершить процедуру максимизации совместного логарифмического правдоподобия, уравнение устанавливается равным нулю и решается для ${\textstyle \beta }$ :

${\widehat {\beta }}={\frac {\alpha }{\bar {x}}}.$

Здесь ${\textstyle {\widehat {\beta }}}$ обозначает оценку максимального правдоподобия, а ${\textstyle \textstyle {\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}}$ — выборочное среднее значений наблюдений.

Предыстория и интерпретация

Исторические замечания

Термин «вероятность» используется в английском языке, по крайней мере, с позднего среднеанглийского языка . ^[42] Его формальное использование для обозначения конкретной функции в математической статистике было предложено Рональдом Фишером , ^[43] в двух научных статьях, опубликованных в 1921 г. ^[44] и 1922 год. ^[45] В статье 1921 года было введено то, что сегодня называется «интервалом правдоподобия»; в статье 1922 года был введен термин « метод максимального правдоподобия ». Цитирую Фишер:

В 1922 году я предложил термин «правдоподобие» ввиду того, что по отношению к [параметру] он не является вероятностью и не подчиняется законам вероятности, хотя в то же время он имеет к проблеме рационального выбора среди возможных значений [параметра] отношение, подобное тому, которое вероятность имеет к проблеме предсказания событий в азартных играх. . . . Однако, хотя в отношении психологического суждения вероятность имеет некоторое сходство с вероятностью, эти два понятия совершенно различны. . . ." ^[46]

Понятие правдоподобия не следует путать с вероятностью, упомянутой сэром Рональдом Фишером.

Я подчеркиваю это, потому что, несмотря на то внимание, которое я всегда уделял разнице между вероятностью и правдоподобием, все еще существует тенденция рассматривать вероятность как разновидность вероятности. Таким образом, первый результат состоит в том, что существуют две разные меры рационального убеждения, подходящие для разных случаев. Зная генеральную совокупность, мы можем выразить наше неполное знание или ожидание относительно выборки в терминах вероятности; зная выборку, мы можем выразить наши неполные знания о совокупности с точки зрения вероятности. ^[47]

Изобретение Фишером статистического правдоподобия было реакцией на более раннюю форму рассуждения, называемую обратной вероятностью . ^[48] Использование им термина «вероятность» закрепило значение этого термина в математической статистике.

АВФ Эдвардс (1972) установил аксиоматическую основу для использования отношения логарифмического правдоподобия как меры относительной поддержки одной гипотезы по сравнению с другой. В этом случае опорная функция представляет собой натуральный логарифм функции правдоподобия. Оба термина используются в филогенетике , но не были приняты при общем рассмотрении темы статистических данных. ^[49]

Толкования под разные основания

Среди статистиков нет единого мнения относительно того, какой должна быть основа статистики . Для фонда были предложены четыре основные парадигмы: частотность , байесианство , правдоподобие и AIC-основание . ^[50] Для каждого из предложенных оснований трактовка вероятности различна. Четыре интерпретации описаны в подразделах ниже.

Частотная интерпретация

Байесовская интерпретация

В байесовском выводе , хотя можно говорить о вероятности любого утверждения или случайной величины при наличии другой случайной величины: например, о вероятности значения параметра или статистической модели (см. Предельное правдоподобие ) при заданных данных или других доказательствах, ^[51]^[52]^[53]^[54] функция правдоподобия остается той же самой сущностью, с дополнительными интерпретациями (i) условной плотности данных с учетом параметра (поскольку параметр в этом случае является случайной величиной) и (ii) меры или количества информации, приносимой данными о значение параметра или даже модель. ^[51]^[52]^[53]^[54]^[55] Из-за введения вероятностной структуры в пространстве параметров или в наборе моделей возможно, что значение параметра или статистическая модель будут иметь большое значение правдоподобия для данных данных, но при этом иметь низкую вероятность , или наоборот. ^[53]^[55] Это часто имеет место в медицинских контекстах. ^[56] Следуя правилу Байеса , вероятность, рассматриваемая как условная плотность, может быть умножена на априорную плотность вероятности параметра, а затем нормализована, чтобы получить апостериорную плотность вероятности . ^[51]^[52]^[53]^[54]^[55] В более общем смысле, вероятность неизвестной величины ${\textstyle X}$ дана еще одна неизвестная величина ${\textstyle Y}$ пропорциональна вероятности ${\textstyle Y}$ данный ${\textstyle X}$ . ^[51]^[52]^[53]^[54]^[55]

Правдоподобная интерпретация

В частотной статистике функция правдоподобия сама по себе является статистикой , которая суммирует одну выборку из совокупности, расчетное значение которой зависит от выбора нескольких параметров θ ₁ ... θ _p , где p — количество параметров в некоторых уже выбранных статистическая модель . Значение правдоподобия служит показателем качества выбора параметров, а набор параметров с максимальным правдоподобием является лучшим выбором с учетом имеющихся данных.

Конкретный расчет правдоподобия представляет собой вероятность того, что наблюдаемая выборка будет присвоена, при условии, что выбранная модель и значения нескольких параметров θ дают точную аппроксимацию частотного распределения популяции, из которой была взята наблюдаемая выборка. С эвристической точки зрения имеет смысл, что хороший выбор параметров — это те, которые делают выборку действительно наблюдаемой с максимально возможной апостериорной вероятностью того, что произошло. Теорема Уилкса количественно определяет эвристическое правило, показывая, что разница в логарифме вероятности, генерируемой значениями параметров оценки, и логарифмом правдоподобия, генерируемого «истинными» (но неизвестными) значениями параметров совокупности, асимптотически равна χ ² распределено .

Оценка максимального правдоподобия каждой независимой выборки представляет собой отдельную оценку «истинного» набора параметров, описывающего выбранную совокупность. Последовательные оценки из многих независимых выборок будут группироваться вместе с «истинным» набором значений параметров генеральной совокупности, скрытым где-то среди них. Разность логарифмов правдоподобия максимального правдоподобия и правдоподобия соседних наборов параметров можно использовать для построения доверительной области на графике, координатами которого являются параметры θ ₁ ... θ _p . Область окружает оценку максимального правдоподобия, и все точки (наборы параметров) в этой области отличаются по логарифмическому правдоподобию не более чем на некоторое фиксированное значение. χ ² Распределение, заданное теоремой Уилкса, преобразует различия логарифмического правдоподобия региона в «уверенность» в том, что «истинный» набор параметров популяции находится внутри. Искусство выбора фиксированной логарифмической разности правдоподобия состоит в том, чтобы сделать достоверность приемлемо высокой, сохраняя при этом приемлемо малую область (узкий диапазон оценок).

По мере того, как наблюдается больше данных, вместо того, чтобы использовать их для независимых оценок, их можно объединить с предыдущими выборками, чтобы создать единую объединенную выборку, и эту большую выборку можно использовать для новой оценки максимального правдоподобия. По мере увеличения размера объединенной выборки размер области правдоподобия с той же достоверностью уменьшается. В конце концов, либо размер доверительной области почти равен одной точке, либо была выбрана вся совокупность; в обоих случаях предполагаемый набор параметров по существу такой же, как набор параметров совокупности.

Интерпретация на основе AIC

В парадигме AIC вероятность интерпретируется в контексте теории информации . ^[57]^[58]^[59]

См. также

Примечания

^ См . Экспоненциальное семейство § Интерпретация.

Ссылки

^ Казелла, Джордж; Бергер, Роджер Л. (2002). Статистический вывод (2-е изд.). Даксбери. п. 290. ИСБН 0-534-24312-6 .
^ Уэйкфилд, Джон (2013). Методы частотной и байесовской регрессии (1-е изд.). Спрингер. п. 36. ISBN 978-1-4419-0925-1 .
^ Леманн, Эрих Л.; Казелла, Джордж (1998). Теория точечной оценки (2-е изд.). Спрингер. п. 444. ИСБН 0-387-98502-6 .
^ Зеллнер, Арнольд (1971). Введение в байесовский вывод в эконометрике . Нью-Йорк: Уайли. стр. 13–14. ISBN 0-471-98165-6 .
^ Биллингсли, Патрик (1995). Вероятность и мера (Третье изд.). Джон Уайли и сыновья . стр. 422–423.
^ Шао, Цзюнь (2003). Математическая статистика (2-е изд.). Спрингер. §4.4.1.
^ Гурьеру, Кристиан ; Монфор, Ален (1995). Статистика и эконометрические модели . Нью-Йорк: Издательство Кембриджского университета. п. 161. ИСБН 0-521-40551-3 .
^ Мякеляйнен, Тимо; Шмидт, Клаус; Стян, Джордж П.Х. (1981). «О существовании и единственности оценки максимального правдоподобия векторного параметра в выборках фиксированного размера» . Анналы статистики . 9 (4): 758–767. дои : 10.1214/aos/1176345516 . JSTOR 2240844 .
^ Маскареньяс, ВФ (2011). «Лемма о горном перевале и ее последствия относительно уникальности минимизаторов с ограничениями». Оптимизация . 60 (8–9): 1121–1159. дои : 10.1080/02331934.2010.527973 . S2CID 15896597 .
^ Чанда, КЦ (1954). «Заметка о непротиворечивости и максимумах корней уравнений правдоподобия». Биометрика . 41 (1–2): 56–61. дои : 10.2307/2333005 . JSTOR 2333005 .
^ Гринберг, Эдвард; Вебстер, Чарльз Э. младший (1983). Продвинутая эконометрика: мост к литературе . Нью-Йорк, штат Нью-Йорк: Джон Уайли и сыновья. стр. 24–25. ISBN 0-471-09077-8 .
^ Хейде, CC; Джонстон, IM (1979). «Об асимптотической апостериорной нормальности случайных процессов». Журнал Королевского статистического общества . Серия Б (Методическая). 41 (2): 184–189. дои : 10.1111/j.2517-6161.1979.tb01071.x .
^ Чен, Чан-Фу (1985). «Об асимптотической нормальности предельных функций плотности с байесовскими импликациями». Журнал Королевского статистического общества . Серия Б (Методическая). 47 (3): 540–546. дои : 10.1111/j.2517-6161.1985.tb01384.x .
^ Касс, Роберт Э.; Тирни, Люк; Кадане, Джозеф Б. (1990). «Достоверность апостериорных разложений на основе метода Лапласа». В Гейссер, С.; Ходжес, Дж. С.; Пресс, С.Дж.; Зеллнер, А. (ред.). Байесовские методы и методы правдоподобия в статистике и эконометрике . Эльзевир. стр. 473–488. ISBN 0-444-88376-2 .
^ Бусе, А. (1982). «Отношение правдоподобия, тесты Вальда и множителей Лагранжа: пояснительная записка». Американский статистик . 36 (3а): 153–157. дои : 10.1080/00031305.1982.10482817 .
^ Jump up to: ^а ^б ^с ^д Калбфляйш, Дж. Г. (1985), Вероятность и статистический вывод , Спрингер (§9.3).
^ Аззалини, А. (1996), Статистический вывод - на основе вероятности , Chapman & Hall , ISBN 9780412606502 (§1.4.2).
^ Jump up to: ^а ^б ^с Спротт, Д.А. (2000), Статистический вывод в науке , Springer (глава 2).
^ Дэвисон, AC (2008), Статистические модели , Издательство Кембриджского университета (§4.1.2).
^ Хелд, Л.; Сабанес Бове, Д.С. (2014), Прикладной статистический вывод — вероятность и Байес , Спрингер (раздел 2.1).
^ Jump up to: ^а ^б ^с Росси, Р.Дж. (2018), Математическая статистика , Wiley , стр. 267 .
^ Jump up to: ^а ^б Хадсон, DJ (1971), «Интервальная оценка на основе функции правдоподобия», Журнал Королевского статистического общества, серия B , 33 (2): 256–262 .
^ Павитан, Юди (2001). По всей вероятности: статистическое моделирование и выводы с использованием правдоподобия . Издательство Оксфордского университета .
^ Вэнь Сян Вэй. «Обобщенная линейная модель – конспект курса» . Тайчжун, Тайвань: Университет Дунхай . стр. Глава 5 . Проверено 1 октября 2017 г.
^ Амемия, Такеши (1985). «Концентрированная функция правдоподобия» . Продвинутая эконометрика . Кембридж: Издательство Гарвардского университета. стр. 125–127 . ISBN 978-0-674-00560-0 .
^ Дэвидсон, Рассел; Маккиннон, Джеймс Г. (1993). «Концентрация функции логарифмического правдоподобия». Оценка и вывод в эконометрике . Нью-Йорк: Издательство Оксфордского университета. стр. 267–269. ISBN 978-0-19-506011-9 .
^ Гурьеро, Кристиан; Монфор, Ален (1995). «Концентрированная функция правдоподобия» . Статистика и эконометрические модели . Нью-Йорк: Издательство Кембриджского университета. стр. 170–175. ISBN 978-0-521-40551-5 .
^ Пиклз, Эндрю (1985). Введение в анализ правдоподобия . Норидж: WH Hutchins & Sons. стр. 21–24 . ISBN 0-86094-190-6 .
^ Болкер, Бенджамин М. (2008). Экологические модели и данные в R. Издательство Принстонского университета. стр. 187–189. ISBN 978-0-691-12522-0 .
^ Эйткин, Мюррей (1982). «Прямой вывод правдоподобия». GLIM 82: Материалы Международной конференции по обобщенным линейным моделям . Спрингер. стр. 76–86. ISBN 0-387-90777-7 .
^ Вензон, диджей; Моолгавкар, С.Х. (1988). «Метод расчета доверительных интервалов на основе профиля правдоподобия». Журнал Королевского статистического общества . Серия C (Прикладная статистика). 37 (1): 87–94. дои : 10.2307/2347496 . JSTOR 2347496 .
^ Калбфляйш, доктор медицинских наук; Спротт, Д.А. (1973). «Предельное и условное правдоподобие». Санкхья: Индийский статистический журнал . Серия А. 35 (3): 311–328. JSTOR 25049882 .
^ Кокс, доктор медицинских наук (1975). «Частичная вероятность». Биометрика . 62 (2): 269–276. дои : 10.1093/biomet/62.2.269 . МР 0400509 .
^ Касс, Роберт Э.; Вос, Пол В. (1997). Геометрические основы асимптотического вывода . Нью-Йорк: Джон Уайли и сыновья. п. 14. ISBN 0-471-82668-5 .
^ Пападопулос, Алекос (25 сентября 2013 г.). «Почему мы всегда помещаем log() перед совместным PDF-файлом, когда используем MLE (оценка максимального правдоподобия)?» . Обмен стеками .
^ Jump up to: ^а ^б Эдвардс, AWF (1992) [1972]. Вероятность . Издательство Университета Джонса Хопкинса . ISBN 0-8018-4443-6 .
^ Фаутц, Роберт В. (1977). «Об единственном совместном решении уравнений правдоподобия». Журнал Американской статистической ассоциации . 72 (357): 147–148. дои : 10.1080/01621459.1977.10479926 .
^ Тарон, Роберт Э.; Грюнхейдж, Гэри (1975). «Заметка о единственности корней уравнений правдоподобия для векторных параметров». Журнал Американской статистической ассоциации . 70 (352): 903–904. дои : 10.1080/01621459.1975.10480321 .
^ Рай, Камта; Ван Ризин, Джон (1982). «Заметки о многомерной версии теоремы Ролля и единственности корней максимального правдоподобия». Коммуникации в статистике . Теория и методы. 11 (13): 1505–1510. дои : 10.1080/03610928208828325 .
^ Рао, Б. Раджа (1960). «Формула кривизны поверхности правдоподобия выборки, полученная на основе распределения, допускающего достаточную статистику». Биометрика . 47 (1–2): 203–207. дои : 10.1093/biomet/47.1-2.203 .
^ Уорд, Майкл Д.; Алквист, Джон С. (2018). Максимальное правдоподобие для социальных наук: стратегии анализа . Издательство Кембриджского университета . стр. 25–27.
^ «вероятность», Краткий Оксфордский словарь английского языка (2007).
^ Хальд, А. (1999). «Об истории максимального правдоподобия по отношению к обратной вероятности и наименьшим квадратам» . Статистическая наука . 14 (2): 214–222. дои : 10.1214/ss/1009212248 . JSTOR 2676741 .
^ Фишер, Р.А. (1921). «О «вероятной ошибке» коэффициента корреляции, выведенного по небольшой выборке». Метрон . 1 :3–32.
^ Фишер, Р.А. (1922). «О математических основах теоретической статистики» . Философские труды Королевского общества А. 222 (594–604): 309–368. Бибкод : 1922RSPTA.222..309F . дои : 10.1098/rsta.1922.0009 . hdl : 2440/15172 . ЖФМ 48.1280.02 . JSTOR 91208 .
^ Клеменс, Бен (2008). Моделирование с использованием данных: инструменты и методы научных вычислений . Издательство Принстонского университета . п. 329.
^ Фишер, Рональд (1930). «Обратная вероятность». Математические труды Кембриджского философского общества . 26 (4): 528–535. Бибкод : 1930PCPS...26..528F . дои : 10.1017/S0305004100016297 .
^ Финберг, Стивен Э (1997). «Введение в Р. А. Фишера об обратной вероятности и правдоподобии». Статистическая наука . 12 (3): 161. дои : 10.1214/ss/1030037905 .
^ Ройалл, Р. (1997). Статистические доказательства . Чепмен и Холл .
^ Бандиопадхьяй, PS; Форстер, MR, ред. (2011). Философия статистики . Издательство Северной Голландии .
^ Jump up to: ^а ^б ^с ^д И. Дж. Гуд: Вероятность и взвешивание доказательств (Гриффин, 1950), §6.1
^ Jump up to: ^а ^б ^с ^д Х. Джеффрис: Теория вероятностей (3-е изд., Oxford University Press, 1983), §1.22
^ Jump up to: ^а ^б ^с ^д ^и Э. Т. Джейнс: Теория вероятностей: логика науки (Cambridge University Press, 2003), §4.1
^ Jump up to: ^а ^б ^с ^д Д. В. Линдли: Введение в вероятность и статистику с байесовской точки зрения. Часть 1: Вероятность (Издательство Кембриджского университета, 1980), §1.6
^ Jump up to: ^а ^б ^с ^д А. Гельман, Дж. Б. Карлин, Х. С. Стерн, Д. Б. Дансон, А. Вехтари, Д. Б. Рубин: байесовский анализ данных (3-е изд., Chapman & Hall/CRC 2014), §1.3
^ Сокс, ХК; Хиггинс, MC; Оуэнс, Д.К. (2013), Принятие медицинских решений (2-е изд.), Wiley, главы 3–4, doi : 10.1002/9781118341544 , ISBN 9781118341544
^ Акаике, Х. (1985). «Прогнозирование и энтропия». В Аткинсоне, AC; Финберг, SE (ред.). Праздник статистики . Спрингер. стр. 1–24.
^ Сакамото, Ю.; Исигуро, М.; Китагава, Г. (1986). Статистика информационных критериев Акаике . Д. Рейдель . Часть I.
^ Бернхэм, КП; Андерсон, Д.Р. (2002). Выбор модели и мультимодельный вывод: практический теоретико-информационный подход (2-е изд.). Спрингер-Верлаг . глава 7.

Дальнейшее чтение

Аззалини, Адельчи (1996). "Вероятность". Статистический вывод, основанный на правдоподобии . Чепмен и Холл. стр. 17–50. ISBN 0-412-60650-Х .
Боос, Деннис Д.; Стефански, Луизиана (2013). «Построение и оценка вероятности». Основные статистические выводы: теория и методы . Нью-Йорк: Спрингер. стр. 27–124. дои : 10.1007/978-1-4614-4818-1_2 . ISBN 978-1-4614-4817-4 .
Эдвардс, AWF (1992) [1972]. Вероятность (Расширенная ред.). Издательство Университета Джонса Хопкинса . ISBN 0-8018-4443-6 .
Кинг, Гэри (1989). «Модель вероятностного вывода» . Объединение политической методологии: теория подобия статистического вывода . Издательство Кембриджского университета. стр. 59–94. ISBN 0-521-36697-6 .
Ричард, Марк; Весер, январь (1 февраля 2021 г.). «Тестирование эффективности рынков прогнозов: подход Мартингейла, коэффициент правдоподобия и факторный анализ Байеса» . Риски . 9 (2): 31. doi : 10.3390/risks9020031 . HDL : 10419/258120 .
Линдси, Дж. К. (1996). «Вероятность» . Параметрический статистический вывод . Издательство Оксфордского университета. стр. 69–139. ISBN 0-19-852359-9 .
Роде, Чарльз А. (2014). Вводный статистический вывод с функцией правдоподобия . Берлин: Шпрингер. ISBN 978-3-319-10460-7 .
Ройалл, Ричард (1997). Статистические данные: парадигма вероятности . Лондон: Чепмен и Холл. ISBN 0-412-04411-0 .
Уорд, Майкл Д .; Алквист, Джон С. (2018). «Функция правдоподобия: более глубокое погружение» . Максимальное правдоподобие для социальных наук: стратегии анализа . Издательство Кембриджского университета . стр. 21–28. ISBN 978-1-316-63682-4 .

Внешние ссылки

Функция правдоподобия в Planetmath
«Логаправдоподобие» . Статлект .

[42] См . Экспоненциальное семейство § Интерпретация.

[1] Казелла, Джордж; Бергер, Роджер Л. (2002). Статистический вывод (2-е изд.). Даксбери. п. 290. ИСБН 0-534-24312-6 .

[2] Уэйкфилд, Джон (2013). Методы частотной и байесовской регрессии (1-е изд.). Спрингер. п. 36. ISBN 978-1-4419-0925-1 .

[3] Леманн, Эрих Л.; Казелла, Джордж (1998). Теория точечной оценки (2-е изд.). Спрингер. п. 444. ИСБН 0-387-98502-6 .

[4] Зеллнер, Арнольд (1971). Введение в байесовский вывод в эконометрике . Нью-Йорк: Уайли. стр. 13–14. ISBN 0-471-98165-6 .

[5] Биллингсли, Патрик (1995). Вероятность и мера (Третье изд.). Джон Уайли и сыновья . стр. 422–423.

[Shao03-6] Шао, Цзюнь (2003). Математическая статистика (2-е изд.). Спрингер. §4.4.1.

[7] Гурьеру, Кристиан ; Монфор, Ален (1995). Статистика и эконометрические модели . Нью-Йорк: Издательство Кембриджского университета. п. 161. ИСБН 0-521-40551-3 .

[8] Мякеляйнен, Тимо; Шмидт, Клаус; Стян, Джордж П.Х. (1981). «О существовании и единственности оценки максимального правдоподобия векторного параметра в выборках фиксированного размера» . Анналы статистики . 9 (4): 758–767. дои : 10.1214/aos/1176345516 . JSTOR 2240844 .

[9] Маскареньяс, ВФ (2011). «Лемма о горном перевале и ее последствия относительно уникальности минимизаторов с ограничениями». Оптимизация . 60 (8–9): 1121–1159. дои : 10.1080/02331934.2010.527973 . S2CID 15896597 .

[10] Чанда, КЦ (1954). «Заметка о непротиворечивости и максимумах корней уравнений правдоподобия». Биометрика . 41 (1–2): 56–61. дои : 10.2307/2333005 . JSTOR 2333005 .

[11] Гринберг, Эдвард; Вебстер, Чарльз Э. младший (1983). Продвинутая эконометрика: мост к литературе . Нью-Йорк, штат Нью-Йорк: Джон Уайли и сыновья. стр. 24–25. ISBN 0-471-09077-8 .

[12] Хейде, CC; Джонстон, IM (1979). «Об асимптотической апостериорной нормальности случайных процессов». Журнал Королевского статистического общества . Серия Б (Методическая). 41 (2): 184–189. дои : 10.1111/j.2517-6161.1979.tb01071.x .

[13] Чен, Чан-Фу (1985). «Об асимптотической нормальности предельных функций плотности с байесовскими импликациями». Журнал Королевского статистического общества . Серия Б (Методическая). 47 (3): 540–546. дои : 10.1111/j.2517-6161.1985.tb01384.x .

[14] Касс, Роберт Э.; Тирни, Люк; Кадане, Джозеф Б. (1990). «Достоверность апостериорных разложений на основе метода Лапласа». В Гейссер, С.; Ходжес, Дж. С.; Пресс, С.Дж.; Зеллнер, А. (ред.). Байесовские методы и методы правдоподобия в статистике и эконометрике . Эльзевир. стр. 473–488. ISBN 0-444-88376-2 .

[15] Бусе, А. (1982). «Отношение правдоподобия, тесты Вальда и множителей Лагранжа: пояснительная записка». Американский статистик . 36 (3а): 153–157. дои : 10.1080/00031305.1982.10482817 .

[Kalbfleisch-16] Jump up to: ^а ^б ^с ^д Калбфляйш, Дж. Г. (1985), Вероятность и статистический вывод , Спрингер (§9.3).

[17] Аззалини, А. (1996), Статистический вывод - на основе вероятности , Chapman & Hall , ISBN 9780412606502 (§1.4.2).

[Sprott-18] Jump up to: ^а ^б ^с Спротт, Д.А. (2000), Статистический вывод в науке , Springer (глава 2).

[19] Дэвисон, AC (2008), Статистические модели , Издательство Кембриджского университета (§4.1.2).

[20] Хелд, Л.; Сабанес Бове, Д.С. (2014), Прикладной статистический вывод — вероятность и Байес , Спрингер (раздел 2.1).

[Rossi2018-21] Jump up to: ^а ^б ^с Росси, Р.Дж. (2018), Математическая статистика , Wiley , стр. 267 .

[Hudson-22] Jump up to: ^а ^б Хадсон, DJ (1971), «Интервальная оценка на основе функции правдоподобия», Журнал Королевского статистического общества, серия B , 33 (2): 256–262 .

[23] Павитан, Юди (2001). По всей вероятности: статистическое моделирование и выводы с использованием правдоподобия . Издательство Оксфордского университета .

[24] Вэнь Сян Вэй. «Обобщенная линейная модель – конспект курса» . Тайчжун, Тайвань: Университет Дунхай . стр. Глава 5 . Проверено 1 октября 2017 г.

[25] Амемия, Такеши (1985). «Концентрированная функция правдоподобия» . Продвинутая эконометрика . Кембридж: Издательство Гарвардского университета. стр. 125–127 . ISBN 978-0-674-00560-0 .

[26] Дэвидсон, Рассел; Маккиннон, Джеймс Г. (1993). «Концентрация функции логарифмического правдоподобия». Оценка и вывод в эконометрике . Нью-Йорк: Издательство Оксфордского университета. стр. 267–269. ISBN 978-0-19-506011-9 .

[27] Гурьеро, Кристиан; Монфор, Ален (1995). «Концентрированная функция правдоподобия» . Статистика и эконометрические модели . Нью-Йорк: Издательство Кембриджского университета. стр. 170–175. ISBN 978-0-521-40551-5 .

[28] Пиклз, Эндрю (1985). Введение в анализ правдоподобия . Норидж: WH Hutchins & Sons. стр. 21–24 . ISBN 0-86094-190-6 .

[29] Болкер, Бенджамин М. (2008). Экологические модели и данные в R. Издательство Принстонского университета. стр. 187–189. ISBN 978-0-691-12522-0 .

[30] Эйткин, Мюррей (1982). «Прямой вывод правдоподобия». GLIM 82: Материалы Международной конференции по обобщенным линейным моделям . Спрингер. стр. 76–86. ISBN 0-387-90777-7 .

[31] Вензон, диджей; Моолгавкар, С.Х. (1988). «Метод расчета доверительных интервалов на основе профиля правдоподобия». Журнал Королевского статистического общества . Серия C (Прикладная статистика). 37 (1): 87–94. дои : 10.2307/2347496 . JSTOR 2347496 .

[32] Калбфляйш, доктор медицинских наук; Спротт, Д.А. (1973). «Предельное и условное правдоподобие». Санкхья: Индийский статистический журнал . Серия А. 35 (3): 311–328. JSTOR 25049882 .

[33] Кокс, доктор медицинских наук (1975). «Частичная вероятность». Биометрика . 62 (2): 269–276. дои : 10.1093/biomet/62.2.269 . МР 0400509 .

[34] Касс, Роберт Э.; Вос, Пол В. (1997). Геометрические основы асимптотического вывода . Нью-Йорк: Джон Уайли и сыновья. п. 14. ISBN 0-471-82668-5 .

[35] Пападопулос, Алекос (25 сентября 2013 г.). «Почему мы всегда помещаем log() перед совместным PDF-файлом, когда используем MLE (оценка максимального правдоподобия)?» . Обмен стеками .

[Edwards72-36] Jump up to: ^а ^б Эдвардс, AWF (1992) [1972]. Вероятность . Издательство Университета Джонса Хопкинса . ISBN 0-8018-4443-6 .

[37] Фаутц, Роберт В. (1977). «Об единственном совместном решении уравнений правдоподобия». Журнал Американской статистической ассоциации . 72 (357): 147–148. дои : 10.1080/01621459.1977.10479926 .

[38] Тарон, Роберт Э.; Грюнхейдж, Гэри (1975). «Заметка о единственности корней уравнений правдоподобия для векторных параметров». Журнал Американской статистической ассоциации . 70 (352): 903–904. дои : 10.1080/01621459.1975.10480321 .

[39] Рай, Камта; Ван Ризин, Джон (1982). «Заметки о многомерной версии теоремы Ролля и единственности корней максимального правдоподобия». Коммуникации в статистике . Теория и методы. 11 (13): 1505–1510. дои : 10.1080/03610928208828325 .

[40] Рао, Б. Раджа (1960). «Формула кривизны поверхности правдоподобия выборки, полученная на основе распределения, допускающего достаточную статистику». Биометрика . 47 (1–2): 203–207. дои : 10.1093/biomet/47.1-2.203 .

[41] Уорд, Майкл Д.; Алквист, Джон С. (2018). Максимальное правдоподобие для социальных наук: стратегии анализа . Издательство Кембриджского университета . стр. 25–27.

[43] «вероятность», Краткий Оксфордский словарь английского языка (2007).

[44] Хальд, А. (1999). «Об истории максимального правдоподобия по отношению к обратной вероятности и наименьшим квадратам» . Статистическая наука . 14 (2): 214–222. дои : 10.1214/ss/1009212248 . JSTOR 2676741 .

[45] Фишер, Р.А. (1921). «О «вероятной ошибке» коэффициента корреляции, выведенного по небольшой выборке». Метрон . 1 :3–32.

[Fisher1922-46] Фишер, Р.А. (1922). «О математических основах теоретической статистики» . Философские труды Королевского общества А. 222 (594–604): 309–368. Бибкод : 1922RSPTA.222..309F . дои : 10.1098/rsta.1922.0009 . hdl : 2440/15172 . ЖФМ 48.1280.02 . JSTOR 91208 .

[47] Клеменс, Бен (2008). Моделирование с использованием данных: инструменты и методы научных вычислений . Издательство Принстонского университета . п. 329.

[48] Фишер, Рональд (1930). «Обратная вероятность». Математические труды Кембриджского философского общества . 26 (4): 528–535. Бибкод : 1930PCPS...26..528F . дои : 10.1017/S0305004100016297 .

[49] Финберг, Стивен Э (1997). «Введение в Р. А. Фишера об обратной вероятности и правдоподобии». Статистическая наука . 12 (3): 161. дои : 10.1214/ss/1030037905 .

[50] Ройалл, Р. (1997). Статистические доказательства . Чепмен и Холл .

[BF11-51] Бандиопадхьяй, PS; Форстер, MR, ред. (2011). Философия статистики . Издательство Северной Голландии .

[good1950-52] Jump up to: ^а ^б ^с ^д И. Дж. Гуд: Вероятность и взвешивание доказательств (Гриффин, 1950), §6.1

[jeffreys1983-53] Jump up to: ^а ^б ^с ^д Х. Джеффрис: Теория вероятностей (3-е изд., Oxford University Press, 1983), §1.22

[jaynes2003-54] Jump up to: ^а ^б ^с ^д ^и Э. Т. Джейнс: Теория вероятностей: логика науки (Cambridge University Press, 2003), §4.1

[lindley1980-55] Jump up to: ^а ^б ^с ^д Д. В. Линдли: Введение в вероятность и статистику с байесовской точки зрения. Часть 1: Вероятность (Издательство Кембриджского университета, 1980), §1.6

[gelmanetal2014-56] Jump up to: ^а ^б ^с ^д А. Гельман, Дж. Б. Карлин, Х. С. Стерн, Д. Б. Дансон, А. Вехтари, Д. Б. Рубин: байесовский анализ данных (3-е изд., Chapman & Hall/CRC 2014), §1.3

[57] Сокс, ХК; Хиггинс, MC; Оуэнс, Д.К. (2013), Принятие медицинских решений (2-е изд.), Wiley, главы 3–4, doi : 10.1002/9781118341544 , ISBN 9781118341544

[58] Акаике, Х. (1985). «Прогнозирование и энтропия». В Аткинсоне, AC; Финберг, SE (ред.). Праздник статистики . Спрингер. стр. 1–24.

[59] Сакамото, Ю.; Исигуро, М.; Китагава, Г. (1986). Статистика информационных критериев Акаике . Д. Рейдель . Часть I.

[60] Бернхэм, КП; Андерсон, Д.Р. (2002). Выбор модели и мультимодельный вывод: практический теоретико-информационный подход (2-е изд.). Спрингер-Верлаг . глава 7.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[а]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]