Jump to content

Максимальная оценка правдоподобия

В статистике учетом оценка максимального правдоподобия ( MLE ) является методом оценки параметров с предполагаемого распределения вероятности некоторых наблюдаемых данных. Это достигается за счет максимизации функции правдоподобия , чтобы при предполагаемой статистической модели наблюдаемые данные наиболее вероятны. Точка , которая максимизирует функцию вероятности , в пространстве параметров называется оценкой максимального правдоподобия. [ 1 ] Логика максимальной вероятности является как интуитивно понятной, так и гибкой, и поэтому метод стал доминирующим средством статистического вывода . [ 2 ] [ 3 ] [ 4 ]

Если функция вероятности дифференцируется , производный тест можно применить на поиск максимумов. В некоторых случаях условия функции правдоподобия первого порядка могут быть решены аналитически; Например, обычная оценка наименьших квадратов для модели линейной регрессии максимизирует вероятность, когда предполагается, что случайные ошибки имеют нормальные распределения с одинаковой дисперсией. [ 5 ]

С точки зрения байесовского вывода , MLE, как правило, эквивалентен максимальной оценке задней (MAP) с предварительным распределением , которое является равномерным в интересующей области. При частых выводах MLE является особым случаем оценки экстремумов , причем целевой функцией является вероятность.

Принципы

[ редактировать ]

Мы моделируем набор наблюдений как случайную выборку из неизвестного распределения вероятностей , которое выражается в терминах набора параметров . Цель оценки максимального вероятности состоит в том, чтобы определить параметры, для которых наблюдаемые данные имеют самую высокую вероятность сустава. Мы пишем параметры, регулирующие совместное распределение как вектор так что это распределение попадает в параметрическую семью где называется пространством параметров , конечно-мерной подмножеством эвклидового пространства . Оценка плотности сустава на наблюдаемом образце данных дает реальную функцию,

который называется функцией вероятности . Для независимых и одинаковых распределенных случайных переменных , будет продуктом функций одномерной плотности :

Цель оценки максимального правдоподобия состоит в том, чтобы найти значения параметров модели, которые максимизируют функцию вероятности в пространстве параметров, [ 6 ] то есть

Интуитивно это выбирает значения параметров, которые делают наблюдаемые данные наиболее вероятными. Конкретное значение это максимизирует функцию вероятности называется оценкой максимального вероятности. Далее, если функция Таким образом, определяется , измеримо , тогда это называется оценкой максимального правдоподобия . Как правило, это функция, определенная в пространстве выборки , т.е. принимая данную выборку в качестве аргумента. Достаточное , но не необходимое условие для его существования заключается в том, чтобы функция вероятности была непрерывной по пространству параметров это компактно . [ 7 ] Для открытия Функция вероятности может увеличиться, даже не достигая значения Supmum.

На практике часто удобно работать с естественным логарифмом функции правдоподобия, называемой логарифмической точностью :

Поскольку логарифм является монотонной функцией , максимум встречается в том же значении Как и максимум [ 8 ] Если дифференцируется в достаточные условия для возникновения максимального (или минимума)

известный как уравнения правдоподобия. Для некоторых моделей эти уравнения могут быть явно решены для Но в целом не известно или доступно никакого решения в закрытой форме, и MLE можно найти только посредством численной оптимизации . Другая проблема заключается в том, что в конечных образцах могут существовать несколько корней для уравнений вероятности. [ 9 ] Будь то идентифицированный корень Уравнения правдоподобия действительно (локальный) максимальный зависит от того, является ли матрица частичных и межпартийных производных второго порядка, так называемой гессанской матрицы

отрицательный полуопределен в , как это указывает на местную вогнутость . Удобно, что наиболее распространенные вероятности распределения - в частности экспоненциальная семья - логарифмически вогнуты . [ 10 ] [ 11 ]

Ограниченное пространство параметров

[ редактировать ]

В то время как домен функции правдоподобия- пространство параметров -как правило, является конечной измерной подмножностью эвклидового пространства , дополнительные ограничения иногда должны быть включены в процесс оценки. Пространство параметров может быть выражено как

где это векторное отображение функций в Оценка истинного параметра принадлежит Затем, в качестве практического вопроса, означает найти максимум функции правдоподобия, подверженной ограничению

Теоретически, наиболее естественным подходом к этой проблеме с ограниченной оптимизацией является метод замещения, который «заполняет» ограничения на сете таким образом, что это функция один на один из к себе, и репараметрировать функцию вероятности путем настройки [ 12 ] Из -за эквивалентности оценки максимального правдоподобия, свойства MLE применяются к ограниченным оценкам. [ 13 ] Например, в многомерном нормальном распределении ковариационная матрица Должен быть положительный определенный ; Это ограничение может быть наложено путем замены где настоящая верхняя треугольная матрица и его транспонирование . [ 14 ]

На практике ограничения обычно налагаются с использованием метода Лагранжа, который, учитывая ограничения, как определено выше, приводит к ограниченным уравнениям правдоподобия

и

где является столбцом вектора мультипликаторов Лагранжа и это K × r Jacobian Matrix частичных производных. [ 12 ] Естественно, если ограничения не являются связывающими на максимуме, множители Лагранжа должны быть нулю. [ 15 ] Это, в свою очередь, допускает статистическую проверку «достоверности» ограничения, известного как тест множителя Лагранжа .

Непараметрическая оценка максимального вероятности

[ редактировать ]

Непараметрическая оценка максимального вероятности может быть выполнена с использованием эмпирической вероятности .

Характеристики

[ редактировать ]

Оценка максимального правдоподобия - это экстремум -оценка, полученная максимизацией, в зависимости от θ , целевой функции Полем Если данные являются независимыми и идентично распределенными , то у нас есть

Это выборка аналогов ожидаемого логарифмического правдоподобия , где это ожидание принимается в отношении истинной плотности.

Оценки максимального правдоподобия не имеют оптимальных свойств для конечных образцов, в том смысле, что (при оценке на конечных образцах) другие оценки могут иметь большую концентрацию вокруг истинного значения параметров. [ 16 ] Однако, как и другие методы оценки, оценка максимального правдоподобия обладает рядом привлекательных ограничивающих свойств : по мере увеличения размера выборки до бесконечности последовательностей оценок максимального правдоподобия обладают этими свойствами:

  • Согласованность : последовательность MLE сходится в вероятности к оценке значения.
  • Инвариантность : если является оценкой максимального вероятности для , и если любое преобразование , затем оценка максимального правдоподобия для является Полем Это свойство реже известно как функциональная эквивалентность . Имущество инвариантности сохраняется для произвольной трансформации , хотя доказательство упрощает, если ограничено преобразованием один к одному.
  • Эффективность , т. Е. Он достигает нижней границы Cramér -Roo, когда размер выборки имеет тенденцию к бесконечности. Это означает, что ни одна последовательная оценка не имеет более низкой асимптотической средней квадратной ошибки , чем MLE (или другие оценки, достигающие этой границы), что также означает, что MLE обладает асимптотической нормальностью .
  • Эффективность второго порядка после коррекции для смещения.

Последовательность

[ редактировать ]

В условиях, изложенных ниже, оценка максимального правдоподобия является последовательной . Согласованность означает, что если данные были сгенерированы и у нас есть достаточно большое количество наблюдений n , тогда можно найти значение θ 0 с произвольной точностью. В математических терминах это означает, что по мере того, как n идет к бесконечности оценки сходится с вероятностью к своему истинному значению:

При немного более сильных условиях оценщик сходится почти верно (или сильно ):

В практических приложениях данные никогда не генерируются Полем Скорее, является моделью, часто в идеализированной форме процесса, генерируемого данными. В статистике это распространенный афоризм, что все модели неверны . Таким образом, истинная согласованность не возникает в практических приложениях. Тем не менее, согласованность часто считается желательным свойством для оценки.

Чтобы установить согласованность, достаточные условия достаточно. [ 17 ]

  1. Идентификация модели:

    Другими словами, различные значения параметров θ соответствуют различным распределениям в модели. Если бы это условие не соблюдалось, было бы некоторое значение θ 1 , так что θ 0 и θ 1 генерируют идентичное распределение наблюдаемых данных. Тогда мы не сможем провести различие между этими двумя параметрами даже с бесконечным количеством данных - эти параметры были бы эквивалентны на наблюдении .

    Условие идентификации абсолютно необходимо, чтобы оценщик ML был последовательным. Когда это условие сохраняется, ограничивающая функция вероятности ( θ | ·) имеет уникальный глобальный максимум при θ 0 .
  2. Компактность: пространство параметров θ модели компактно .

    Условие идентификации устанавливает, что логарифмическое правдоподобие имеет уникальный глобальный максимум. Компактность подразумевает, что вероятность не может приблизиться к максимальному значению произвольно близко в какой -то другой точке (как показано, например, на рисунке справа).

    Компактность является лишь достаточным условием, а не необходимым условием. Компактность может быть заменена некоторыми другими условиями, такими как:

    • как вогнутость функции логарифмического правдоподобия, так и компактность некоторых (непустых) наборов верхнего уровня функции логарифмического правдоподобия или
    • Существование компактного соседства n θ ε 0, так что за пределами n функция логарифмического правдоподобия меньше, чем максимум, по крайней мере, на > 0 .
  3. Непрерывность: функция ln f ( x | θ ) является непрерывной по θ практически для всех значений x :
    Непрерывность здесь может быть заменена немного более слабым условием верхней полуоткрытия .
  4. Доминирование: существует d ( x ) интегрируемое по отношению к распределению F ( x | θ 0 ) , так что
    В соответствии с единым законом большого числа условия доминирования вместе с преемственностью устанавливают равномерную сходимость в вероятности логарифмического правдоподобия:

Условие доминирования может использоваться в случае наблюдений IID . В случае, не связанном с IID, равномерную сходимость в вероятности может быть проверена, показывая, что последовательность аквалентный стохастически . Если кто -то хочет продемонстрировать, что оценщик ML Сходится к θ 0 почти верно , тогда более сильное условие равномерной конвергенции почти обязательно должно быть наложено:

Кроме того, если (как предполагалось выше) данные были сгенерированы Затем при определенных условиях также можно показать, что оценка максимального вероятности сходится в распределении к нормальному распределению. Конкретно, [ 18 ]

Где я - информационная матрица Фишера .

Функциональная инвариантность

[ редактировать ]

Оценка максимального правдоподобия выбирает значение параметра, которое дает наблюдаемым данные максимально возможную вероятность (или плотность вероятности, в непрерывном случае). Если параметр состоит из ряда компонентов, то мы определяем их отдельные оценки максимального правдоподобия, как соответствующий компонент MLE полного параметра. В соответствии с этим, если это MLE для , и если любое преобразование , затем MLE для по определению [ 19 ]

Это максимизирует так называемую вероятность профиля :

MLE также является эквивалентным в отношении определенных преобразований данных. Если где равен один к одному и не зависит от оценки параметров, тогда функции плотности удовлетворяют

и, следовательно, функции вероятности для и отличается только фактором, который не зависит от параметров модели.

Например, параметры MLE в нормальном распределении логарифмических параметров совпадают с параметрами нормального распределения, установленного для логарифма данных.

Эффективность

[ редактировать ]

Как предполагалось выше, если данные были сгенерированы Затем при определенных условиях также можно показать, что оценка максимального вероятности сходится в распределении к нормальному распределению. Это n   -согласованное и асимптотически эффективно, что означает, что он достигает границы Крамер -Рао . Конкретно, [ 18 ]

где Информационная матрица Fisher :

В частности, это означает, что смещение оценки максимального вероятности равна нулю вплоть до порядка 1 / n  .

Эффективность второго порядка после коррекции для смещения

[ редактировать ]

Однако, когда мы рассматриваем члены высшего порядка в расширении распределения этой оценки, оказывается, что θ MLE имеет смещение порядка 1 н . Это смещение равно (компонентная) [ 20 ]

где (с надписями) обозначает ( j, k ) -6 компонент обратной информации о информационной рыболовстве , и

Используя эти формулы, можно оценить смещение второго порядка оценки максимального правдоподобия и исправить для этого смещения, вычитая его:

Эта оценка непредвзят до условий порядка 1 / n и называется оценкой максимального вероятности, корректированной на смещение .

Эта оценка, корректированная на смещение, эффективна второго порядка (по крайней мере, в изогнутом экспоненциальном семействе), что означает, что он имеет минимальную среднюю квадратную ошибку среди всех оценок, коррекленных на смещение второго порядка, вплоть до условий порядка 1 / n 2 . Можно продолжить этот процесс, то есть вывести термин коррекции смещения третьего порядка и так далее. Тем не менее, оценка максимального вероятности не эффективна третьего порядка. [ 21 ]

Отношение к байесовскому выводу

[ редактировать ]

Оценка максимального правдоподобия совпадает с наиболее вероятной байесовской оценкой, учитывая равномерное предварительное распределение по параметрам . Действительно, максимальная апостериорная оценка - это параметр θ , который максимизирует вероятность θ , учитывая данные, заданные теоремой Байеса:

где предыдущее распределение для параметра θ и где вероятность усредненных данных по всем параметрам. Поскольку знаменатель не зависит от θ , байесовский оценщик получается путем максимизации в отношении θ . Если мы далее предположим, что предыдущий является единым распределением, байесовская оценка получается путем максимизации функции правдоподобия Полем Таким образом, байесовская оценка совпадает с оценкой максимального правдоподобия для равномерного предварительного распределения .

Применение оценки максимального правдоподобия в теории байесовских решений

[ редактировать ]

Во многих практических применениях в машинном обучении оценка максимального правдоподобия используется в качестве модели оценки параметров.

Байесовская теория решений заключается в разработке классификатора, который минимизирует общий ожидаемый риск, особенно, когда затраты (функция потерь), связанные с различными решениями, равны, классификатор сводит к минимуму ошибку по всему распределению. [ 22 ]

Таким образом, правило решения Байеса заявляется как

"решать если в противном случае решайте "

где являются прогнозами разных классов. С точки зрения минимизации ошибок, это также может быть заявлено как

где

Если мы решим и Если мы решим

Применив теорему Байеса

,

И если мы далее предположим, что функция потерь с нулевым или одному, что является одинаковой потерей для всех ошибок, правило решения Байеса может быть переформулировано как:

где это прогноз и это предшествующая вероятность .

Отношение к минимизации дивергенции Kullback -Lebler и поперечной энтропии

[ редактировать ]

Нахождение что максимизирует вероятность асимптотически эквивалентного поиску это определяет распределение вероятностей ( ), которое имеет минимальное расстояние, с точки зрения дивергенции Kullback -Lebler , до реального распределения вероятности, из которого были получены наши данные (т.е. ). [ 23 ] В идеальном мире P и Q одинаковы (и единственное, что неизвестно, это Это определяет P), но даже если это не так, а модель, которую мы используем, неправильно определена, все же MLE даст нам «ближайшее» распределение (в пределах ограничения модели Q, которое зависит от ) в реальном распределении . [ 24 ]

Дискретное равномерное распределение

[ редактировать ]

Рассмотрим случай, когда N -билеты, пронумерованные от 1 до N , помещаются в коробку, а один выбирается случайным образом ( см. Единое распределение ); Таким образом, размер выборки составляет 1. Если N неизвестен, то оценщик максимального правдоподобия - это n число M на билете на рисовании. (Вероятность 0 для N < m , 1 ~ N для n m , и это наибольшее, когда n = m . Обратите внимание, что оценка максимального правдоподобия N происходит на более низкой крайности возможных значений { M , M + 1, ...}, а не где -то в «среднем» диапазона возможных значений, что приведет к меньшему смещению. ) Ожидаемое значение числа M на билете нарисованного и, следовательно, ожидаемое значение , есть ( n + 1)/2. В результате, с размером выборки 1, оценка максимального правдоподобия для N будет систематически недооценивать N ( N - 1)/2.

Дискретное распределение, конечное пространство параметров

[ редактировать ]

Предположим, кто хочет определить, насколько смещенная монета . Назовите вероятность бросить « голову » с . Целью становится определение р .

Предположим, что монета бросается 80 раз: то есть образцы может быть что -то вроде x 1 = h, x 2 = t, ..., x 80 количество голов = t, и наблюдается "H".

Вероятность бросания хвостов составляет 1 - p (так что здесь p - θ выше). Предположим, что результат составляет 49 голов и 31 хвост , и предположим, что монета была взята из коробки, содержащей три монеты: одна, которая дает головы с вероятностью p = 1 ~ 3 , который дает головы с вероятностью p = 1 2 и другой, который дает головы с вероятностью p = 2 ~ 3 . Монеты потеряли свои ярлыки, так что они были неизвестны. Используя оценку максимального правдоподобия, может быть найдена монета, которая имеет наибольшую вероятность, учитывая данные, которые наблюдались. Используя функцию массы вероятности биномиального распределения с размером выборки, равным 80, численные успехи равны 49, но для разных значений P («вероятность успеха») функция вероятности (определенная ниже) принимает одно из трех значений:

Вероятность максимизируется, когда P = 2 3 , и поэтому это максимальная оценка правдоподобия для p .

Дискретное распределение, непрерывное пространство параметров

[ редактировать ]

Теперь предположим, что была только одна монета, но ее p мог быть любое значение 0 ≤ p ≤ 1. Функция вероятности, которая будет максимизирована

и максимизация превышает все возможные значения 0 ≤ p ≤ 1.

Функция вероятности для пропорции биномиального процесса ( n = 10)

Один из способов максимизировать эту функцию - дифференцировать в отношении P и настройки до нуля:

Это продукт трех терминов. Первый термин равен 0, когда p = 0. Второе равно 0, когда p = 1. Третий равен нулю, когда p = 49 80 . Решение, которое максимизирует вероятность, явно p = 49 80 (поскольку p = 0 и p = 1 приводят к вероятности 0). Таким образом, максимальная оценка вероятности для P является 49 80 .

Этот результат легко обобщается путем замены буквы, такой как S, на месте 49, чтобы представлять наблюдаемое количество «успехов» наших испытаний в Бернулли , и письмо, такое как n , в месте 80, для представления количества испытаний в Бернулли. Точно такой же вычисление S N , который является оценкой максимального правдоподобия для любой последовательности испытаний N Bernoulli, приводящих к S «успехам».

Непрерывное распределение, непрерывное пространство параметров

[ редактировать ]

Для нормального распределения который имеет функцию плотности вероятности

Соответствующая функция плотности вероятности для выборки N независимых идентично распределенных нормальных случайных величин (вероятность)

Это семейство распределений имеет два параметра: θ = ( μ , σ ) ; Итак, мы максимизируем вероятность, , по обоим параметрам одновременно или, если возможно, индивидуально.

Поскольку сама функция логарифма является непрерывной строго увеличивающейся функцией в диапазоне правдоподобия, значения, которые максимизируют вероятность, также максимизируют его логарифм (само-правдоподобие сама не обязательно увеличивается). Логарифмическая правдоподобность может быть написана следующим образом:

(Примечание: логарифмическая правдоподобность тесно связана с информационной энтропией и информацией о рыбаке .)

Теперь мы вычисляем производные этого логарифмического правдоподобия следующим образом.

где это среднее значение выборки . Это решается

Это действительно максимум функции, поскольку это единственная поворотная точка в μ , а вторая производная строго меньше нуля. Его ожидаемое значение равно параметру μ данного распределения,

что означает, что оценка максимального правдоподобия это непредвзято.

Точно так же мы дифференцируем логарифмическое правдоподобие относительно σ и приравниваемся к нулю:

который решается

Вставка оценки Мы получаем

Чтобы рассчитать его ожидаемое значение, удобно переписать выражение с точки зрения случайных переменных с нулевым средним ( статистическая ошибка ) Полем Выражение оценки в этих переменных

Упрощение выражения выше, используя факты, которые и , позволяет нам получить

Это означает, что оценщик предвзято для Полем Также можно показать, что предвзято для , но оба и являются последовательными.

Формально мы говорим, что оценка максимальной вероятности для является

В этом случае MLE можно получить индивидуально. В общем, это может быть не так, и MLE должны быть получены одновременно.

Нормальное логарифмическое правдоподобие в максимуме принимает особенно простую форму:

Это максимальное логарифмическое правдоподобие можно показать, что является одинаковым для более общих наименьших квадратов , даже для нелинейных наименьших квадратов . , основанных на вероятности Это часто используется для определения приблизительных доверительных интервалов и областей доверия , которые, как правило, более точны, чем те, которые используют асимптотическую нормальность, обсуждаемую выше.

Независимые переменные

[ редактировать ]

Это может быть так, что переменные коррелируют, то есть не независимы. Две случайные переменные и независимы только в том случае, если их функция плотности суставов является продуктом индивидуальных функций плотности вероятности, т.е.

Предположим, что вы строите порядок гауссового вектора из случайных переменных , где у каждой переменной есть средства, данные Полем Кроме того, пусть ковариационная матрица будет обозначена Полем Функция плотности вероятности суставов этих N случайных переменных затем следует за многовариантным нормальным распределением, данным:

В двухмерном случае функция плотности суставов определяется:

В этом и других случаях, когда существует функция суставой плотности, функция вероятности определяется как выше, в разделе « Принципы » с использованием этой плотности.

считаются в ячейках / коробках 1 до м; Каждая коробка имеет различную вероятность (подумайте о том, что коробки больше или меньше), и мы фиксируем количество шаров, которые падают, чтобы быть : Полем Вероятность каждой коробки , с ограничением: Полем Это тот случай, когда s не являются независимыми, совместная вероятность вектора называется Multinomial и имеет форму:

Каждая коробка, взятая отдельно против всех остальных коробок, является биномиальным, и это их расширение.

Логарифмическая правка этого:

Ограничение должно быть принято во внимание и использовать множители Lagrange:

Позывая все производные 0, наиболее естественная оценка получена

Максимизация вероятности журнала, с ограничениями и без него, может быть неразрешимой проблемой в закрытой форме, тогда мы должны использовать итерационные процедуры.

Итеративные процедуры

[ редактировать ]

За исключением особых случаев, уравнения вероятности

не может быть явно решено для оценки Полем Вместо этого их нужно решать итеративно : начиная с первоначального предположения (сказать ), кто стремится получить конвергентную последовательность Полем много методов для этой проблемы оптимизации , Доступно [ 26 ] [ 27 ] Но наиболее часто используемыми являются алгоритмы, основанные на формуле обновления формы

где вектор Указывает направление спуска на « шаг » и скаляр захватывает «длина шага», [ 28 ] [ 29 ] Также известен как уровень обучения . [ 30 ]

(Примечание: вот это проблема максимизации, поэтому знак перед градиентом перевернут)

это достаточно мало для сходимости и

Метод градиентного спуска требуется для расчета градиента на RTH итерации, но не нужно рассчитать обратное производное второго порядка, т.е. матрица гессиан. Следовательно, он вычислительно быстрее, чем метод Ньютона-Рафсона.

и

где это счет и является обратной гессанской матрицей функции логарифмического правдоподобия, оба оценивали итерацию . [ 31 ] [ 32 ] Но поскольку расчет матрицы Гессья является вычислительно дорогостоящим , были предложены многочисленные альтернативы. Популярный алгоритм Берндта -Холл -Холл -Хаусман приближается к Гессиану с внешним продуктом ожидаемого градиента, так что, что

Другие квази-ньютонские методы используют более сложные секундные обновления, чтобы дать приближение матрицы Гессиан.

Формула DFP находит решение, которое является симметричным, положительным определением и наиболее близким к текущему приблизительному значению производного второго порядка:

где

BFGS также дает решение, которое является симметричным и положительным дефицитом:

где

Метод BFGS не гарантированно сходится, если только функция не имеет квадратичного расширения Тейлора вблизи оптимального. Тем не менее, BFGS может иметь приемлемая производительность даже для гладких экземпляров оптимизации

Другой популярный метод - заменить Гессиана на информационную матрицу Фишера , , давая нам алгоритм забивания Фишера. Эта процедура является стандартной в оценке многих методов, таких как обобщенные линейные модели .

Несмотря на популярные, квази-ньютонные методы могут сходятся к стационарной точке , которая не обязательно является локальным или глобальным максимумом, [ 33 ] а скорее местный минимум или седельная точка . Следовательно, важно оценить обоснованность полученного решения для уравнений правдоподобия путем подтверждения того, что гессан, оцененный в решении, является как отрицательным определенным , так и хорошо выполненным . [ 34 ]

Рональд Фишер в 1913 году

Ранние пользователи максимальной вероятности включают Карла Фридриха Гаусса , Пьер-Симон Лаплас , Торвальд Н. Тиле и Фрэнсис Исидро Эджворт . [ 35 ] [ 36 ] Это был Рональд Фишер , однако, между 1912 и 1922 годами, который в одиночку создал современную версию метода. [ 37 ] [ 38 ]

Оценка максимального правдоподобия, наконец, превзошла эвристическое оправдание в доказательстве, опубликованном Сэмюэлем С. Уилксом в 1938 году, теперь называемой теоремой Уилкса . [ 39 ] Теорема показывает, что ошибка в логарифме значений правдоподобия для оценок из множества независимых наблюдений является асимптотически χ  2 -Подается , что обеспечивает удобное определение доверительной области вокруг любой оценки параметров. Единственная сложная часть доказательства Уилкса зависит от ожидаемой стоимости информационной матрицы Фишера , которая обеспечивается теоремой, доказанной Фишером. [ 40 ] Уилкс продолжал улучшать общность теоремы на протяжении всей своей жизни, а его самое общее доказательство опубликовано в 1962 году. [ 41 ]

Обзоры развития оценки максимального правдоподобия были предоставлены рядом авторов. [ 42 ] [ 43 ] [ 44 ] [ 45 ] [ 46 ] [ 47 ] [ 48 ] [ 49 ]

Смотрите также

[ редактировать ]
[ редактировать ]

Другие методы оценки

[ редактировать ]
  1. ^ Росси, Ричард Дж. (2018). Математическая статистика: введение в вывод, основанный на вероятности . Нью -Йорк: Джон Уайли и сыновья. п. 227. ISBN  978-1-118-77104-4 .
  2. ^ Хендри, Дэвид Ф . ; Нильсен, Бент (2007). Эконометрическое моделирование: правдоподобие . Принстон: издательство Принстонского университета. ISBN  978-0-691-13128-3 .
  3. ^ Chambers, Raymond L.; Сталь, Дэвид Г.; Ван, Суодзин; Уэльс, Алан (2012). Оценка максимального правдоподобия для опросов выборки . Boca Raton: CRC Press. ISBN  978-1-58488-632-7 .
  4. ^ Уорд, Майкл Дон ; Ahlquist, John S. (2018). Максимальная вероятность социальной науки: стратегии анализа . Нью -Йорк: издательство Кембриджского университета. ISBN  978-1-107-18582-1 .
  5. ^ Press, WH; Flannery, BP; Теукольский, СА; Vetterling, WT (1992). «Наименьшие квадраты как оценка максимального правдоподобия» . Численные рецепты в Фортране: искусство научных вычислений (2 -е изд.). Кембридж: издательство Кембриджского университета. С. 651–655. ISBN  0-521-43064-х .
  6. ^ Менунг, IJ (2003). «Учебное пособие по оценке максимального вероятности». Журнал математической психологии . 47 (1): 90–100. doi : 10.1016/s0022-2496 (02) 00028-7 .
  7. ^ Gourieroux, христианин; Монфор, Ален (1995). Статистические и эконометрические модели . Издательство Кембриджского университета. п. 161 . ISBN  0-521-40551-3 .
  8. ^ Кейн, Эдвард Дж. (1968). Экономическая статистика и эконометрика . Нью -Йорк, Нью -Йорк: Харпер и Роу. п. 179
  9. ^ Маленький, Кристопер Г.; Ван, Джинфанг (2003). "Работа с корнями" . Численные методы нелинейных уравнений оценки . Издательство Оксфордского университета. С. 74–124. ISBN  0-19-850688-0 .
  10. ^ Таким образом, Роберт Э.; Вос, Пол В. (1997). Геометрические основы асимптотического вывода Нью -Йорк, Нью -Йорк: Джон Уайли и сыновья. П. 14. ISBN  0-471-82668-5 .
  11. ^ Пападопулос, Алекос (25 сентября 2013 г.). «Почему мы всегда ставим log () перед совместным PDF, когда используем MLE (оценка максимального правдоподобия)?» Полем Обмен стеком .
  12. ^ Jump up to: а беременный Silvey, SD (1975). Статистический вывод . Лондон, Великобритания: Чепмен и Холл. п. 79. ISBN  0-412-13820-4 .
  13. ^ Олив, Дэвид (2004). "MLE максимизирует вероятность?" (PDF) . Университет Южного Иллинойса .
  14. ^ Schwallie, Daniel P. (1985). «Положительные определенные оценки ковариации максимального вероятности». Экономические письма . 17 (1–2): 115–117. doi : 10.1016/0165-1765 (85) 90139-9 .
  15. ^ Магнус, Ян Р. (2017). Введение в теорию эконометрики . Амстердам: издательство Университета VU. С. 64–65. ISBN  978-90-8659-766-6 .
  16. ^ Pfanzagl (1994 , p. 206)
  17. ^ По теореме 2.5 в Ньюи, Уитни К.; McFadden, Daniel (1994). «Глава 36: Большая оценка выборки и тестирование гипотез». В Энгле Роберт; Макфадден, Дэн (ред.). Справочник по эконометрике, том 4 . Elsevier Science. С. 2111–2245. ISBN  978-0-444-88766-5 .
  18. ^ Jump up to: а беременный По теореме 3.3 в Ньюи, Уитни К.; McFadden, Daniel (1994). «Глава 36: Большая оценка выборки и тестирование гипотез». В Энгле Роберт; Макфадден, Дэн (ред.). Справочник по эконометрике, том 4 . Elsevier Science. С. 2111–2245. ISBN  978-0-444-88766-5 .
  19. ^ Zacks, Shelemyahu (1971). Теория статистического вывода . Нью -Йорк: Джон Уайли и сыновья. п. 223. ISBN  0-471-98103-6 .
  20. ^ См. Формулу 20 в Кокс, Дэвид Р .; Снелл, Э. Джойс (1968). «Общее определение остатков». Журнал Королевского статистического общества, серия б . 30 (2): 248–275. JSTOR   2984505 .
  21. ^ Кано, Ютака (1996). «Эффективность третьего порядка подразумевает эффективность четвертого порядка» . Журнал Японского статистического общества . 26 : 101–117. doi : 10.14490/jjss1995.26.101 .
  22. ^ Кристенсен, Хенрикт I. «Распознавание образца» (PDF) (лекция). Байесовская теория решений - CS 7616. Georgia Tech.
  23. ^ cmplx96 ( https://stats.stackexchange.com/users/177679/cmplx96 ), kullback-leibler divergence, url (версия: 2017-11-18): https://stats.stackexchange.com/q/314472 ( На видео на YouTube, посмотрите на с 13 до 25 минут)
  24. ^ Введение в статистический вывод | Стэнфорд (лекция 16 - MLE в соответствии с Model Misfecification)
  25. ^ Sycorax говорит, что Revestate Monica ( https://stats.stackexchange.com/users/22311/sycorax-says-reinstate-monica ), взаимосвязь между максимизацией вероятности и минимизацией перекрестной энтропии, URL (версия: 2019-11- 06): https://stats.stackexchange.com/q/364237
  26. ^ Флетчер Р. (1987). Практические методы оптимизации (второе изд.). Нью -Йорк, Нью -Йорк: Джон Уайли и сыновья. ISBN  0-471-91547-5 .
  27. ^ Nocedal, Хорхе ; Райт, Стивен Дж. (2006). Численная оптимизация (второе изд.). Нью -Йорк, Нью -Йорк: Спрингер. ISBN  0-387-30303-0 .
  28. ^ Даганзо, Карлос (1979). Multinomial Probit: теория и ее применение к прогнозированию . Нью -Йорк: Академическая пресса. С. 61–78. ISBN  0-12-201150-3 .
  29. ^ Гулд, Уильям; Питбладо, Джеффри; Poi, Brian (2010). Оценка максимального правдоподобия со Stata (четвертое изд.). Станция колледжа: Stata Press. С. 13–20. ISBN  978-1-59718-078-8 .
  30. ^ Мерфи, Кевин П. (2012). Машинное обучение: вероятностная перспектива . Кембридж: MIT Press. п. 247. ISBN  978-0-262-01802-9 .
  31. ^ Амемия, Такеши (1985). Продвинутая эконометрика . Кембридж: издательство Гарвардского университета. С. 137–138 . ISBN  0-674-00560-0 .
  32. ^ Сарган, Денис (1988). «Методы численной оптимизации». Заметки лекции о передовой эконометрической теории . Оксфорд: Василий Блэквелл. С. 161–169. ISBN  0-631-14956-2 .
  33. ^ См. Теорема 10.1 в Avriel, Mordecai (1976). Нелинейное программирование: анализ и методы . Englewood Cliffs, NJ: Prentice-Hall. С. 293–294. ISBN  978-0-486-43227-4 .
  34. ^ Джилл, Филипп Э.; Мюррей, Уолтер; Райт, Маргарет Х. (1981). Практическая оптимизация . Лондон, Великобритания: академическая пресса. С. 312 –313. ISBN  0-12-283950-1 .
  35. ^ Эджворт, Фрэнсис Ю. (сентябрь 1908 г.). «О вероятных ошибках частотных константы» . Журнал Королевского статистического общества . 71 (3): 499–512. doi : 10.2307/2339293 . JSTOR   2339293 .
  36. ^ Эджворт, Фрэнсис Ю. (декабрь 1908 г.). «О вероятных ошибках частотных константы» . Журнал Королевского статистического общества . 71 (4): 651–678. doi : 10.2307/2339378 . JSTOR   2339378 .
  37. ^ Putagl, John (1994). Паралетрическая статистическая теория . Уолтер Гриритер . стр. 207-208. Doi :: 015 /9783110889765 . ISBN  978-3-11-013863-4 Полем MR   1291393 .
  38. ^ Hald, Anders (1999). «Об истории максимальной вероятности в отношении обратной вероятности и наименьших квадратов» . Статистическая наука . 14 (2): 214–222. ISSN   0883-4237 .
  39. ^ Wilks, SS (1938). «Распределение соотношения правдоподобия большой выборки для тестирования композитных гипотез» . Анналы математической статистики . 9 : 60–62. doi : 10.1214/AOMS/1177732360 .
  40. ^ Оуэн, Арт Б. (2001). Эмпирическая вероятность . Лондон, Великобритания; Бока Ратон, Флорида: Чепмен и Холл; CRC Press. ISBN  978-1-58488-071-4 .
  41. ^ Уилкс, Сэмюэль С. (1962). Математическая статистика . Нью -Йорк, Нью -Йорк: Джон Уайли и сыновья. ISBN  978-0-471-94650-2 .
  42. ^ Сэвидж, Леонард Дж. (1976). «О переигрывании Ра -Фишера» . Анналы статистики . 4 (3): 441–500. doi : 10.1214/aos/1176343456 . JSTOR   2958221 .
  43. ^ Пратт, Джон В. (1976). «FY Edgeworth и Ra Fisher о эффективности оценки максимального правдоподобия» . Анналы статистики . 4 (3): 501–514. doi : 10.1214/aos/1176343457 . JSTOR   2958222 .
  44. ^ Стиглер, Стивен М. (1978). «Фрэнсис Исидро Эджворт, статистик». Журнал Королевского статистического общества, серия A. 141 (3): 287–322. doi : 10.2307/2344804 . JSTOR   2344804 .
  45. ^ Стиглер, Стивен М. (1986). История статистики: измерение неопределенности до 1900 года . Гарвардский университет издательство. ISBN  978-0-674-40340-6 .
  46. ^ Стиглер, Стивен М. (1999). Статистика по таблице: история статистических концепций и методов . Гарвардский университет издательство. ISBN  978-0-674-83601-3 .
  47. ^ Hald, Anders (1998). История математической статистики с 1750 по 1930 год . Нью -Йорк, Нью -Йорк: Уайли. ISBN  978-0-471-17912-2 .
  48. ^ Hald, Anders (1999). «Об истории максимальной вероятности в отношении обратной вероятности и наименьших квадратов» . Статистическая наука . 14 (2): 214–222. doi : 10.1214/ss/1009212248 . JSTOR   2676741 .
  49. ^ Олдрич, Джон (1997). «Ра Фишер и создание максимального правдоподобия 1912–1922» . Статистическая наука . 12 (3): 162–176. doi : 10.1214/ss/1030037906 . МР   1617519 .

Дальнейшее чтение

[ редактировать ]
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: d3c38383978252a2f582b18e4963a76b__1725107580
URL1:https://arc.ask3.ru/arc/aa/d3/6b/d3c38383978252a2f582b18e4963a76b.html
Заголовок, (Title) документа по адресу, URL1:
Maximum likelihood estimation - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)