Jump to content

Минимальная среднеквадратическая ошибка

В статистике и обработке сигналов оценщик минимальной среднеквадратической ошибки ( MMSE ) — это метод оценки, который минимизирует среднеквадратическую ошибку (MSE), которая является общей мерой качества оценщика подобранных значений зависимой переменной . В байесовском подходе термин MMSE более конкретно относится к оценке с квадратичной функцией потерь . В таком случае оценка MMSE определяется апостериорным средним значением оцениваемого параметра. Поскольку вычислить апостериорное среднее сложно, форма оценки MMSE обычно ограничивается определенным классом функций. Линейные оценщики MMSE являются популярным выбором, поскольку они просты в использовании, легко рассчитываются и очень универсальны. Он породил множество популярных оценщиков, таких как фильтр Винера-Колмогорова и фильтр Калмана .

Мотивация

[ редактировать ]

Термин MMSE более конкретно относится к оценке в байесовских условиях с квадратичной функцией стоимости. Основная идея байесовского подхода к оценке проистекает из практических ситуаций, когда у нас часто есть некоторая предварительная информация об оцениваемом параметре. Например, у нас может быть предварительная информация о диапазоне, который может принимать параметр; или у нас может быть старая оценка параметра, которую мы хотим изменить, когда станет доступно новое наблюдение; или статистика фактического случайного сигнала, такого как речь. Это контрастирует с небайесовским подходом, таким как несмещенная оценка с минимальной дисперсией (MVUE), где предполагается, что о параметре заранее ничего не известно и который не учитывает такие ситуации. В байесовском подходе такая априорная информация фиксируется априорной функцией плотности вероятности параметров; и основанный непосредственно на теореме Байеса , он позволяет нам делать более точные апостериорные оценки по мере того, как становится доступно больше наблюдений. Таким образом, в отличие от небайесовского подхода, где интересующие параметры предполагаются детерминированными, но неизвестными константами, байесовский оценщик пытается оценить параметр, который сам по себе является случайной величиной. Более того, байесовская оценка также может применяться к ситуациям, когда последовательность наблюдений не обязательно является независимой. Таким образом, байесовская оценка обеспечивает еще одну альтернативу MVUE. Это полезно, когда MVUE не существует или не может быть найден.

Определение

[ редактировать ]

Позволять быть скрытая случайная векторная переменная, и пусть быть известная случайная векторная переменная (измерение или наблюдение), причем обе они не обязательно имеют одну и ту же размерность. Оценщик из любая функция измерения . Вектор ошибки оценки определяется выражением а его среднеквадратическая ошибка (MSE) определяется следом ковариационной ошибок. матрицы

где ожидание взят во владение обусловлено . Когда является скалярной переменной, выражение MSE упрощается до . Обратите внимание, что MSE можно эквивалентно определить и другими способами, поскольку

Затем оценщик MMSE определяется как оценщик, достигающий минимального MSE:

Характеристики

[ редактировать ]
  • Когда средние значения и дисперсии конечны, оценщик MMSE определяется однозначно. [1] и дается:
Другими словами, оценщик MMSE — это условное ожидание при известном наблюдаемом значении измерений. Кроме того, поскольку - апостериорное среднее, ковариационная матрица ошибок равно апостериорной ковариации матрица,
.
  • Оценка MMSE является несмещенной (при упомянутых выше предположениях о регулярности):
где это Фишера информация . Таким образом, оценка MMSE асимптотически эффективна .
  • Принцип ортогональности : когда является скаляром, оценщиком, ограниченным определенной формой является оптимальной оценкой, т.е. тогда и только тогда, когда
для всех в замкнутом линейном подпространстве измерений. Для случайных векторов, поскольку MSE для оценки случайного вектора представляет собой сумму MSE координат, поиск оценки MMSE случайного вектора разлагается на поиск оценок MMSE координат X отдельно:
для всех я и j . Проще говоря, взаимная корреляция между минимальной ошибкой оценки и оценщик должно быть равно нулю,
  • Если и являются совместно гауссовскими , то оценка MMSE является линейной, т. е. имеет вид для матрицы и постоянный . Это можно непосредственно показать с помощью теоремы Байеса. Как следствие, чтобы найти оценщик MMSE, достаточно найти линейный оценщик MMSE.

Линейный оценщик MMSE

[ редактировать ]

Во многих случаях невозможно определить аналитическое выражение оценщика MMSE. Два основных численных подхода к получению оценки MMSE зависят от нахождения условного ожидания или нахождение минимумов MSE. Прямая численная оценка условного ожидания требует больших вычислительных затрат, поскольку часто требует многомерного интегрирования, обычно выполняемого с помощью методов Монте-Карло . Другой вычислительный подход заключается в прямом поиске минимумов MSE с использованием таких методов, как методы стохастического градиентного спуска ; но этот метод все же требует оценки ожидания. Хотя эти численные методы оказались плодотворными, выражение в замкнутой форме для оценки MMSE, тем не менее, возможно, если мы готовы пойти на некоторые компромиссы.

Одна из возможностей состоит в том, чтобы отказаться от требований полной оптимальности и искать метод, минимизирующий MSE в рамках определенного класса оценщиков, например класса линейных оценщиков. Таким образом, мы постулируем, что условное математическое ожидание данный представляет собой простую линейную функцию от , , где измерение является случайным вектором, представляет собой матрицу и является вектором. Это можно рассматривать как тейлоровское приближение первого порядка . Линейная оценка MMSE — это оценка, достигающая минимального значения MSE среди всех оценок такой формы. То есть решает следующую задачу оптимизации:

Одним из преимуществ такой линейной оценки MMSE является то, что нет необходимости явно вычислять апостериорную функцию плотности вероятности . Такая линейная оценка зависит только от первых двух моментов и . Поэтому, хотя может быть удобно предположить, что и являются совместно гауссовскими, нет необходимости делать это предположение, если предполагаемое распределение имеет четко определенные первый и второй моменты. Форма линейной оценки не зависит от типа предполагаемого основного распределения.

Выражение для оптимального и дается:

где , тот представляет собой матрицу взаимной ковариации между и , - автоковариационная матрица .

Таким образом, выражение для линейной оценки MMSE, его среднего значения и автоковариации определяется выражением

где представляет собой матрицу взаимной ковариации между и .

Наконец, ковариация ошибок и минимальная среднеквадратическая ошибка, достижимые с помощью такой оценки, равны

Вывод с использованием принципа ортогональности

Одномерный случай

[ редактировать ]

Для особого случая, когда оба и являются скалярами, приведенные выше соотношения упрощаются до

где Пирсона коэффициент корреляции между и .

Два приведенных выше уравнения позволяют нам интерпретировать коэффициент корреляции либо как нормированный наклон линейной регрессии.

или как квадратный корень из отношения двух дисперсий

.

Когда , у нас есть и . В этом случае в результате измерений не почерпнуто никакой новой информации, которая могла бы уменьшить погрешность измерения. . С другой стороны, когда , у нас есть и . Здесь полностью определяется , как задано уравнением прямой.

Вычисление

[ редактировать ]

Стандартный метод, такой как исключение Гаусса, можно использовать для решения матричного уравнения для . Более численно устойчивый метод обеспечивает метод QR-разложения . Поскольку матрица представляет собой симметричную положительно определенную матрицу, можно решить в два раза быстрее с помощью разложения Холецкого , а для больших разреженных систем метод сопряженных градиентов более эффективен . Рекурсия Левинсона — быстрый метод, когда также является матрицей Теплица . Это может произойти, когда представляет собой стационарный процесс в широком смысле. В таких стационарных случаях эти оценки также называются фильтрами Винера – Колмогорова .

Линейная оценка MMSE для процесса линейного наблюдения

[ редактировать ]

Давайте далее смоделируем основной процесс наблюдения как линейный процесс: , где – известная матрица и вектор случайного шума со средним значением и перекрестная ковариация . Здесь требуемое среднее и ковариационная матрицы будут

Таким образом, выражение для линейной матрицы оценки MMSE далее модифицируется на

Подставляя все в выражение для , мы получаем

Наконец, ковариация ошибок равна

Существенное различие между задачей оценивания, рассмотренной выше, и задачей наименьших квадратов и оценкой Гаусса–Маркова состоит в том, что число наблюдений m (т.е. размерность ) не обязательно должно быть, по крайней мере, таким же большим, как число неизвестных n (т. е. размерность ). Оценка для процесса линейного наблюдения существует до тех пор, пока m - m матрица существует; это верно для любого m, если, например, является положительно определенным. Физически причина этого свойства состоит в том, что, поскольку теперь является случайной величиной, то можно сформировать значимую оценку (а именно ее среднее значение) даже без каких-либо измерений. Каждое новое измерение просто предоставляет дополнительную информацию, которая может изменить нашу первоначальную оценку. Другая особенность этой оценки состоит в том, что при m < n не должно быть ошибки измерения. Таким образом, мы можем иметь , потому что пока положительно определена, оценка все еще существует. Наконец, этот метод может обрабатывать случаи, когда шум коррелирует.

Альтернативная форма

[ редактировать ]

Альтернативную форму выражения можно получить, используя матричное тождество

которое можно получить путем последующего умножения на и предварительно умножив на чтобы получить

и

С теперь можно записать в терминах как , мы получаем упрощенное выражение для как

В этой форме приведенное выше выражение можно легко сравнить с гребневой регрессией , взвешенным методом наименьших квадратов и оценкой Гаусса – Маркова . В частности, когда , соответствующий бесконечной дисперсии априорной информации о , результат идентично взвешенной линейной оценке методом наименьших квадратов с как весовая матрица. Более того, если компоненты некоррелированы и имеют одинаковую дисперсию, так что где является единичной матрицей, то идентично обычной оценке методом наименьших квадратов. Когда априорная информация доступна как и некоррелированы и имеют одинаковую дисперсию, мы имеем , что идентично решению гребневой регрессии.

Последовательная линейная оценка MMSE

[ редактировать ]

Во многих приложениях реального времени данные наблюдений не доступны в одном пакете. Вместо этого наблюдения проводятся последовательно. Один из возможных подходов — использовать последовательные наблюдения для обновления старой оценки по мере появления дополнительных данных, что приведет к более точным оценкам. Одно из важнейших различий между пакетной оценкой и последовательной оценкой заключается в том, что последовательная оценка требует дополнительного предположения Маркова.

В рамках байесовской модели такую ​​рекурсивную оценку легко выполнить с помощью правила Байеса. Данный наблюдения, , правило Байеса дает нам апостериорную плотность как

The называется апостериорной плотностью, называется функцией правдоподобия, а — априорная плотность k -го временного шага. Здесь мы предположили условную независимость из предыдущих наблюдений данный как

Это предположение Маркова.

Оценка MMSE учитывая k -е наблюдение, тогда это среднее значение апостериорной плотности . При отсутствии динамической информации о том, как состояние меняется со временем, мы сделаем дальнейшее предположение о стационарности относительно предыдущего:

Таким образом, априорная плотность для k -го временного шага является апостериорной плотностью ( k -1)-го временного шага. Эта структура позволяет нам сформулировать рекурсивный подход к оценке.

В контексте линейной оценки MMSE формула оценки будет иметь ту же форму, что и раньше: Однако средние и ковариационные матрицы и необходимо будет заменить на те, что имели прежнюю плотность. и вероятность , соответственно.

Для предшествующей плотности , его среднее значение определяется предыдущей оценкой MMSE,

,

и его ковариационная матрица определяется предыдущей ковариационной матрицей ошибок,

в соответствии со свойствами оценок MMSE и предположением о стационарности.

Аналогично, для процесса линейного наблюдения среднее значение правдоподобия дается и ковариационная матрица такая же, как и раньше

.

Разница между прогнозируемым значением , как указано , и его наблюдаемое значение дает ошибку прогноза , который также называют инновацией или остатком. Линейную MMSE удобнее представлять через ошибку прогноза, среднее значение которой и ковариация равны и .

Следовательно, в формуле обновления оценки нам следует заменить и к и , соответственно. Также нам следует заменить и к и . Наконец, мы заменяем к

Таким образом, мы имеем новую оценку как новое наблюдение прибывает как

и новая ковариация ошибок как

С точки зрения линейной алгебры, для последовательного оценивания, если у нас есть оценка на основе измерений, генерирующих пространство , то после получения еще одного набора измерений следует вычесть из этих измерений ту часть, которую можно было предвидеть по результату первых измерений. Другими словами, обновление должно основываться на той части новых данных, которая ортогональна старым данным.

Повторное использование двух приведенных выше уравнений по мере появления большего количества наблюдений приводит к использованию методов рекурсивной оценки. Выражения можно более компактно записать как

Матрица часто называют коэффициентом усиления Калмана. Альтернативная формулировка приведенного выше алгоритма даст

Повторение этих трех шагов по мере поступления большего количества данных приводит к итеративному алгоритму оценки. Обобщение этой идеи на нестационарные случаи приводит к появлению фильтра Калмана . Три шага обновления, описанные выше, действительно образуют этап обновления фильтра Калмана.

Особый случай: скалярные наблюдения

[ редактировать ]

В качестве важного частного случая можно получить простое в использовании рекурсивное выражение, когда в каждый k -й момент времени основной процесс линейного наблюдения дает скаляр такой, что , где - n 1 известный вектор-столбец, значения которого могут меняться со временем, - это случайный вектор-столбец размерностью n на 1, который нужно оценить, и скалярный шумовой член с дисперсией . После ( k +1)-го наблюдения прямое использование приведенных выше рекурсивных уравнений дает выражение для оценки как:

где это новое скалярное наблюдение и коэффициент усиления - это вектор-столбец n -x1, заданный формулой

The - это n на размером n ковариационная матрица ошибок , определяемая формулой

Здесь не требуется никакого обращения матрицы. Кроме того, коэффициент усиления, , зависит от нашей уверенности в новой выборке данных, измеренной с помощью дисперсии шума, по сравнению с предыдущими данными. Начальные значения и считаются средним значением и ковариацией априорной функции плотности вероятности .

Альтернативные подходы: этот важный частный случай также породил множество других итерационных методов (или адаптивных фильтров ), таких как фильтр наименьших квадратов и рекурсивный фильтр наименьших квадратов , которые напрямую решают исходную задачу оптимизации MSE с использованием стохастических градиентных спусков . Однако, поскольку ошибка оценки невозможно наблюдать напрямую, эти методы пытаются минимизировать среднеквадратичную ошибку прогнозирования. . Например, в случае скалярных наблюдений мы имеем градиент Таким образом, уравнение обновления для фильтра наименьших квадратов имеет вид

где — скалярный размер шага, а математическое ожидание аппроксимируется мгновенным значением . Как мы видим, эти методы обходят необходимость в ковариационных матрицах.

Особый случай: векторное наблюдение с некоррелированным шумом

[ редактировать ]

Во многих практических приложениях шум наблюдения некоррелирован. То есть, является диагональной матрицей. В таких случаях целесообразно рассматривать компоненты как независимые скалярные измерения, а не как векторные измерения. Это позволяет сократить время вычислений за счет обработки вектор измерения как скалярные измерения. Использование формулы скалярного обновления позволяет избежать инверсии матрицы при реализации уравнений обновления ковариации, тем самым улучшая численную устойчивость к ошибкам округления. Обновление может быть реализовано итеративно следующим образом:

где , используя начальные значения и . Промежуточные переменные это -й диагональный элемент диагональная матрица ; пока это -й ряд матрица . Окончательные значения и .

возьмем задачу линейного прогнозирования В качестве примера . Пусть линейная комбинация наблюдаемых скалярных случайных величин и использоваться для оценки другой будущей скалярной случайной величины такой, что . Если случайные величины являются действительными гауссовскими случайными величинами с нулевым средним значением и ее ковариационной матрицей, заданной выражением

тогда наша задача — найти коэффициенты такой, что он даст оптимальную линейную оценку .

Используя терминологию, развитую в предыдущих разделах, для этой задачи имеем вектор наблюдения , матрица оценки как вектор-строка, а предполагаемая переменная как скалярная величина. Матрица автокорреляции определяется как

Матрица взаимной корреляции определяется как

Теперь решаем уравнение путем инвертирования и предварительно умножив, чтобы получить

Итак, у нас есть и как оптимальные коэффициенты для . Вычисление минимумасреднеквадратическая ошибка тогда дает . [2] Обратите внимание, что нет необходимости получать явную матрицу, обратную матрице чтобы вычислить значение . Матричное уравнение можно решить хорошо известными методами, например методом исключения Гаусса. Более короткий нечисловой пример можно найти в принципе ортогональности .

Рассмотрим вектор формируется путем принятия наблюдения фиксированного, но неизвестного скалярного параметра нарушается белым гауссовским шумом. Мы можем описать процесс линейным уравнением , где . В зависимости от контекста будет ясно, если представляет скаляр или вектор. Предположим, что мы знаем быть диапазоном, в котором значение упадет. Мы можем смоделировать нашу неопределенность априорным равномерным распределением на интервале , и таким образом будет иметь дисперсию . Пусть вектор шума нормально распределяться как где является единичной матрицей. Также и независимы и . Это легко увидеть

Таким образом, линейная оценка MMSE имеет вид

Мы можем упростить выражение, используя альтернативную форму для как

где для у нас есть

Аналогично, дисперсия оценки равна

Таким образом, MMSE этой линейной оценки равна

Для очень больших , мы видим, что MMSE-оценка скаляра с равномерным априорным распределением может быть аппроксимирована средним арифметическим всех наблюдаемых данных

в то время как на дисперсию не влияют данные и LMMSE оценки будет стремиться к нулю.

Однако оценка неоптимальна, поскольку она ограничена линейностью. Если бы случайная величина также была гауссовой, то оценка была бы оптимальной. Заметим, что вид оценки останется неизменным независимо от априорного распределения , при условии, что среднее значение и дисперсия этих распределений одинаковы.

Рассмотрим вариант приведенного выше примера: на выборах баллотируются два кандидата. Пусть доля голосов, которую получит кандидат в день выборов, равна Таким образом, доля голосов, которую получит другой кандидат, будет равна Мы возьмем как случайная величина с равномерным априорным распределением по так что его среднее значение равно и дисперсия За несколько недель до выборов двумя разными социологическими центрами были проведены два независимых опроса общественного мнения. Первый опрос показал, что кандидат, скорее всего, получит доля голосов. Поскольку некоторая ошибка всегда присутствует из-за конечной выборки и конкретной принятой методологии опроса, первый опросник объявляет, что его оценка содержит ошибку. с нулевым средним и дисперсией Аналогично, второй опросник заявляет, что их оценка равна с ошибкой с нулевым средним и дисперсией Обратите внимание, что, за исключением среднего значения и дисперсии ошибки, распределение ошибок не указано. Как следует объединить два опроса, чтобы получить прогноз голосования для данного кандидата?

Как и в предыдущем примере, мы имеем

Здесь оба . Таким образом, мы можем получить оценку LMMSE как линейную комбинацию и как

где веса задаются выражением

Здесь, поскольку знаменатель постоянен, опросу с меньшей ошибкой присваивается больший вес, чтобы предсказать результат выборов. Наконец, дисперсия дается

что делает меньше, чем Таким образом, LMMSE определяется выражением

В общем, если у нас есть опросы общественного мнения, затем где вес i -го опроса определяется выражением и LMMSE определяется выражением

Предположим, что музыкант играет на инструменте и звук принимается двумя микрофонами, каждый из которых расположен в двух разных местах. Пусть затухание звука из-за расстояния у каждого микрофона будет и , которые считаются известными константами. Аналогично, пусть шум каждого микрофона равен и , каждый с нулевым средним значением и дисперсией и соответственно. Позволять обозначают звук, издаваемый музыкантом, который представляет собой случайную величину с нулевым средним значением и дисперсией Как объединить записанную музыку с этих двух микрофонов после синхронизации друг с другом?

Мы можем смоделировать звук, принимаемый каждым микрофоном, как

Здесь оба . Таким образом, мы можем объединить два звука как

где i -й вес задается как

См. также

[ редактировать ]

Примечания

[ редактировать ]
  1. ^ «Среднеквадратическая ошибка (MSE)» . www.probabilitycourse.com . Проверено 9 мая 2017 г.
  2. ^ Мун и Стерлинг.

Дальнейшее чтение

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: d95d06b00c7e649ef61eba6dd258a966__1710026520
URL1:https://arc.ask3.ru/arc/aa/d9/66/d95d06b00c7e649ef61eba6dd258a966.html
Заголовок, (Title) документа по адресу, URL1:
Minimum mean square error - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)