Цель данной страницы — предоставить дополнительные материалы к обычной статье по методу наименьших квадратов , снизив нагрузку основной статьи математикой и повысив ее доступность, сохранив при этом полноту изложения.
Определите остаток , который будет
Тогда цель можно переписать
Учитывая, что S выпуклая, она минимизируется, когда ее вектор градиента равен нулю (Это следует по определению: если вектор градиента не равен нулю, существует направление, в котором мы можем двигаться, чтобы минимизировать его дальше – см. максимумы и минимумы .) элементы вектора градиента являются частными производными S по параметрам:
Производные
Подстановка выражений для невязок и производных в уравнения градиента дает
Таким образом, если минимизирует S , мы имеем
После перестановки получим нормальные уравнения :
Нормальные уравнения записываются в матричной записи как
- (где Х Т — транспонированная X матрица , ).
Решение нормальных уравнений дает вектор оптимальных значений параметров.
Нормальные уравнения могут быть получены непосредственно из матричного представления задачи следующим образом. Цель состоит в том, чтобы свести к минимуму
Здесь имеет размерность 1х1 (количество столбцов ), поэтому он является скаляром и равен своему собственному транспонированию, следовательно и количество, которое нужно минимизировать, становится
Дифференцируя это относительно и приравнивание нулю для удовлетворения условий первого порядка дает
что эквивалентно приведенным выше нормальным уравнениям. Достаточным условием выполнения условий минимума второго порядка является то, что иметь полный ранг столбца, и в этом случае является положительно определенным .
Когда положительно определена, формула минимизации значения могут быть получены без использования производных. Количество
можно записать как
где зависит только от и , и внутренний продукт , определяемый
Отсюда следует, что равно
и, следовательно, минимизируется именно тогда, когда
В общем случае коэффициенты матриц и может быть сложным. Используя эрмитово транспонирование вместо простого транспонирования, можно найти вектор что сводит к минимуму , как и в случае реальной матрицы. Чтобы получить нормальные уравнения, мы идем по тому же пути, что и в предыдущих выводах:
где означает эрмитово транспонирование.
Теперь нам нужно взять производные от по каждому из коэффициентов , но сначала мы разделим действительную и мнимую части, чтобы разобраться с сопряженными факторами в приведенном выше выражении. Для у нас есть
и производные превращаются в
После переписывания в форме суммирования и записи явно, мы можем вычислить обе частные производные с результатом:
который после сложения и сравнения с нулем (условие минимизации ) дает
В матричной форме:
Используя матричные обозначения, сумма квадратов остатков определяется выражением
Поскольку это квадратичное выражение, вектор, дающий глобальный минимум, можно найти с помощью матричного исчисления путем дифференцирования по вектору (используя раскладку знаменателя) и приравнивая к нулю:
По предположению матрица X имеет полный ранг столбца, и, следовательно, X Т X обратим, а оценка методом наименьших квадратов для β определяется выражением
Непредвзятость и дисперсия
[ редактировать ] Подставьте y = Xβ + ε в формулу для а затем воспользуемся законом полного ожидания :
где E[ ε | X ] = 0 по предположениям модели. Поскольку ожидаемое значение равен параметру, который он оценивает, , это несмещенная оценка .
Для дисперсии пусть ковариационная матрица быть (где это личность матрица), и пусть X — известная константа.Затем,
где мы использовали тот факт, что это просто преобразование аффинное по матрице .
Для простой модели линейной регрессии, где ( это y -перехват и – наклон), получаем
Ожидаемая ценность и предвзятость
[ редактировать ] Сначала мы подставим выражение для y в оценщик и воспользуемся тем фактом, что X'M = MX = 0 (матрица M проецируется на пространство, ортогональное X ):
Теперь мы можем распознать ε ′ Mε как матрицу 1×1, такая матрица равна собственному следу . Это полезно, потому что по свойствам оператора следа tr ( AB ) = tr ( BA ), и мы можем использовать это для отделения возмущения ε от матрицы M , которая является функцией регрессоров X :
Используя закон повторного ожидания, это можно записать как
Напомним, что M = I − P , где P — проекция на линейное пространство, натянутое на столбцы X. матрицы По свойствам матрицы проекции она имеет собственные значения p = Rank( X ), равные 1, а все остальные собственные значения равны 0. След матрицы равен сумме ее характеристических значений, таким образом, tr( P ) = p и tr( M ) знак равно п - п . Поэтому,
Поскольку ожидаемое значение не равен параметру, который он оценивает, , это смещенная оценка . Обратите внимание, что в следующем разделе «Максимальное правдоподобие» мы показываем, что при дополнительном предположении, что ошибки распределяются нормально, оценщик пропорционально распределению хи-квадрат с n – p степенями свободы, из которого сразу следует формула ожидаемой ценности. Однако результат, который мы показали в этом разделе, действителен независимо от распределения ошибок и, следовательно, имеет значение сам по себе.
Согласованность и асимптотическая нормальность
[ редактировать ] Оценщик можно записать как
Используя закон больших чисел, мы можем установить, что
По теореме Слуцкого и теореме о непрерывном отображении эти результаты можно объединить, чтобы установить состоятельность оценки :
Центральная предельная теорема говорит нам, что
- где
Применяя еще раз теорему Слуцкого, получим
Оценка максимального правдоподобия — это общий метод оценки неизвестных параметров в статистической модели путем построения логарифмической функции правдоподобия, соответствующей совместному распределению данных, а затем максимизации этой функции по всем возможным значениям параметров. Чтобы применить этот метод, мы должны сделать предположение о распределении y при заданном X, чтобы можно было построить логарифмическую функцию правдоподобия. Связь оценки максимального правдоподобия с МНК возникает, когда это распределение моделируется как многомерное нормальное .
В частности, предположим, что ошибки ε имеют многомерное нормальное распределение со средним значением 0 и матрицей дисперсии σ. 2 Я. Тогда распределение y условно на X будет
и функция логарифмического правдоподобия данных будет равна
Дифференцируя это выражение по β и σ 2 мы найдем оценки ML этих параметров:
Мы можем проверить, что это действительно максимум, взглянув на матрицу Гессе функции логарифмического правдоподобия.
Поскольку в этом разделе мы предположили, что распределение членов ошибок известно как нормальное, становится возможным вывести явные выражения для распределений оценок и :
так что по свойствам аффинного преобразования многомерного нормального распределения
Аналогично распределение следует из
где — симметричная матрица проекции на подпространство, ортогональное X , и, таким образом , MX = X ′ M мы утверждали = 0. Ранее , что эта матрица имеет ранг n – p и, следовательно, по свойствам распределения хи-квадрат ,
Более того, оценщики и оказываются независимыми (условными на X ), что является фундаментальным для построения классических t- и F-критерий. Независимость легко увидеть из следующего: представляет собой коэффициенты векторного разложения на основе столбцов X , как таковых является функцией Pε . В то же время оценщик является нормой вектора Mε, деленного на n , и, таким образом, эта оценка является функцией Mε . Теперь случайные величины ( Pε , Mε ) совместно нормальны как линейное преобразование ε , и они также некоррелированы, потому что PM = 0. Согласно свойствам многомерного нормального распределения это означает, что Pε и Mε независимы, и, следовательно, оценки и также будет независимым.
Мы ищем и которые минимизируют сумму квадратов ошибок (SSE):
Чтобы найти минимум, возьмите частные производные по и
Прежде чем брать частную производную по , замените предыдущий результат на
Теперь возьмем производную по :
И, наконец, заменить определить