Jump to content

Доказательства с использованием обычных наименьших квадратов.

Цель данной страницы — предоставить дополнительные материалы к обычной статье по методу наименьших квадратов , снизив нагрузку основной статьи математикой и повысив ее доступность, сохранив при этом полноту изложения.

Вывод нормальных уравнений

[ редактировать ]

Определите остаток , который будет

Тогда цель можно переписать

Учитывая, что S выпуклая, она минимизируется, когда ее вектор градиента равен нулю (Это следует по определению: если вектор градиента не равен нулю, существует направление, в котором мы можем двигаться, чтобы минимизировать его дальше – см. максимумы и минимумы .) элементы вектора градиента являются частными производными S по параметрам:

Производные

Подстановка выражений для невязок и производных в уравнения градиента дает

Таким образом, если минимизирует S , мы имеем

После перестановки получим нормальные уравнения :

Нормальные уравнения записываются в матричной записи как

(где Х Т транспонированная X матрица , ).

Решение нормальных уравнений дает вектор оптимальных значений параметров.

Вывод непосредственно через матрицы

[ редактировать ]

Нормальные уравнения могут быть получены непосредственно из матричного представления задачи следующим образом. Цель состоит в том, чтобы свести к минимуму

Здесь имеет размерность 1х1 (количество столбцов ), поэтому он является скаляром и равен своему собственному транспонированию, следовательно и количество, которое нужно минимизировать, становится

Дифференцируя это относительно и приравнивание нулю для удовлетворения условий первого порядка дает

что эквивалентно приведенным выше нормальным уравнениям. Достаточным условием выполнения условий минимума второго порядка является то, что иметь полный ранг столбца, и в этом случае является положительно определенным .

Вывод без исчисления

[ редактировать ]

Когда положительно определена, формула минимизации значения могут быть получены без использования производных. Количество

можно записать как

где зависит только от и , и внутренний продукт , определяемый

Отсюда следует, что равно

и, следовательно, минимизируется именно тогда, когда

Обобщение для сложных уравнений

[ редактировать ]

В общем случае коэффициенты матриц и может быть сложным. Используя эрмитово транспонирование вместо простого транспонирования, можно найти вектор что сводит к минимуму , как и в случае реальной матрицы. Чтобы получить нормальные уравнения, мы идем по тому же пути, что и в предыдущих выводах:

где означает эрмитово транспонирование.

Теперь нам нужно взять производные от по каждому из коэффициентов , но сначала мы разделим действительную и мнимую части, чтобы разобраться с сопряженными факторами в приведенном выше выражении. Для у нас есть

и производные превращаются в

После переписывания в форме суммирования и записи явно, мы можем вычислить обе частные производные с результатом:

который после сложения и сравнения с нулем (условие минимизации ) дает

В матричной форме:

Оценка методом наименьших квадратов для β

[ редактировать ]

Используя матричные обозначения, сумма квадратов остатков определяется выражением

Поскольку это квадратичное выражение, вектор, дающий глобальный минимум, можно найти с помощью матричного исчисления путем дифференцирования по вектору (используя раскладку знаменателя) и приравнивая к нулю:

По предположению матрица X имеет полный ранг столбца, и, следовательно, X Т X обратим, а оценка методом наименьших квадратов для β определяется выражением

Непредвзятость и дисперсия

[ редактировать ]

Подставьте y = + ε в формулу для а затем воспользуемся законом полного ожидания :

где E[ ε | X ] = 0 по предположениям модели. Поскольку ожидаемое значение равен параметру, который он оценивает, , это несмещенная оценка .

Для дисперсии пусть ковариационная матрица быть (где это личность матрица), и пусть X — известная константа.Затем,

где мы использовали тот факт, что это просто преобразование аффинное по матрице .

Для простой модели линейной регрессии, где ( это y -перехват и – наклон), получаем

Ожидаемая ценность и предвзятость

[ редактировать ]

Сначала мы подставим выражение для y в оценщик и воспользуемся тем фактом, что X'M = MX = 0 (матрица M проецируется на пространство, ортогональное X ):

Теперь мы можем распознать ε как матрицу 1×1, такая матрица равна собственному следу . Это полезно, потому что по свойствам оператора следа tr ( AB ) = tr ( BA ), и мы можем использовать это для отделения возмущения ε от матрицы M , которая является функцией регрессоров X :

Используя закон повторного ожидания, это можно записать как

Напомним, что M = I P , где P — проекция на линейное пространство, натянутое на столбцы X. матрицы По свойствам матрицы проекции она имеет собственные значения p = Rank( X ), равные 1, а все остальные собственные значения равны 0. След матрицы равен сумме ее характеристических значений, таким образом, tr( P ) = p и tr( M ) знак равно п - п . Поэтому,

Поскольку ожидаемое значение не равен параметру, который он оценивает, , это смещенная оценка . Обратите внимание, что в следующем разделе «Максимальное правдоподобие» мы показываем, что при дополнительном предположении, что ошибки распределяются нормально, оценщик пропорционально распределению хи-квадрат с n p степенями свободы, из которого сразу следует формула ожидаемой ценности. Однако результат, который мы показали в этом разделе, действителен независимо от распределения ошибок и, следовательно, имеет значение сам по себе.

Согласованность и асимптотическая нормальность

[ редактировать ]

Оценщик можно записать как

Используя закон больших чисел, мы можем установить, что

По теореме Слуцкого и теореме о непрерывном отображении эти результаты можно объединить, чтобы установить состоятельность оценки :

Центральная предельная теорема говорит нам, что

где

Применяя еще раз теорему Слуцкого, получим

Подход максимального правдоподобия

[ редактировать ]

Оценка максимального правдоподобия — это общий метод оценки неизвестных параметров в статистической модели путем построения логарифмической функции правдоподобия, соответствующей совместному распределению данных, а затем максимизации этой функции по всем возможным значениям параметров. Чтобы применить этот метод, мы должны сделать предположение о распределении y при заданном X, чтобы можно было построить логарифмическую функцию правдоподобия. Связь оценки максимального правдоподобия с МНК возникает, когда это распределение моделируется как многомерное нормальное .

В частности, предположим, что ошибки ε имеют многомерное нормальное распределение со средним значением 0 и матрицей дисперсии σ. 2 Я. ​Тогда распределение y условно на X будет

и функция логарифмического правдоподобия данных будет равна

Дифференцируя это выражение по β и σ 2 мы найдем оценки ML этих параметров:

Мы можем проверить, что это действительно максимум, взглянув на матрицу Гессе функции логарифмического правдоподобия.

Распределение конечной выборки

[ редактировать ]

Поскольку в этом разделе мы предположили, что распределение членов ошибок известно как нормальное, становится возможным вывести явные выражения для распределений оценок и :

так что по свойствам аффинного преобразования многомерного нормального распределения

Аналогично распределение следует из

где — симметричная матрица проекции на подпространство, ортогональное X , и, таким образом , MX = X M мы утверждали = 0. Ранее , что эта матрица имеет ранг n p и, следовательно, по свойствам распределения хи-квадрат ,

Более того, оценщики и оказываются независимыми (условными на X ), что является фундаментальным для построения классических t- и F-критерий. Независимость легко увидеть из следующего: представляет собой коэффициенты векторного разложения на основе столбцов X , как таковых является функцией . В то же время оценщик является нормой вектора Mε, деленного на n , и, таким образом, эта оценка является функцией . Теперь случайные величины ( , ) совместно нормальны как линейное преобразование ε , и они также некоррелированы, потому что PM = 0. Согласно свойствам многомерного нормального распределения это означает, что и независимы, и, следовательно, оценки и также будет независимым.

Вывод простых оценок линейной регрессии

[ редактировать ]

Мы ищем и которые минимизируют сумму квадратов ошибок (SSE):

Чтобы найти минимум, возьмите частные производные по и

Прежде чем брать частную производную по , замените предыдущий результат на

Теперь возьмем производную по :

И, наконец, заменить определить

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 552095123c3df3bdc56769a41308b23d__1642530300
URL1:https://arc.ask3.ru/arc/aa/55/3d/552095123c3df3bdc56769a41308b23d.html
Заголовок, (Title) документа по адресу, URL1:
Proofs involving ordinary least squares - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)