Линейный метод наименьших квадратов
Часть серии о |
Регрессионный анализ |
---|
Модели |
Оценка |
Фон |
Линейный метод наименьших квадратов ( LLS ) — это методом наименьших квадратов аппроксимация линейных функций к данным .Это набор формулировок для решения статистических задач, связанных с линейной регрессией , включая варианты для обычных (невзвешенных), взвешенных и обобщенных (коррелированных) остатков . Численные методы линейного метода наименьших квадратов включают обращение матрицы нормальных уравнений и методы ортогонального разложения .
Базовая формулировка
[ редактировать ]Рассмотрим линейное уравнение
( 1 ) |
где и даны и является переменной, которую необходимо вычислить. Когда в общем случае ( 1 ) не имеет решения. Например, нет значения это удовлетворяет потому что первые две строки требуют этого но тогда третий ряд не устраивает.Таким образом, для цель точного решения ( 1 ) обычно заменяется нахождением значения это минимизирует некоторую ошибку. Существует много способов определения ошибки, но один из наиболее распространенных — определить ее как Это порождает проблему минимизации, называемую проблемой наименьших квадратов.
( 2 ) |
Решение задачи наименьших квадратов ( 1 ) вычисляется путем решения нормального уравнения [1]
( 3 ) |
где обозначает транспонирование .
Продолжая приведенный выше пример с мы находим и Решение нормального уравнения дает
Формулировки линейной регрессии
[ редактировать ]Три основные формулировки линейного метода наименьших квадратов:
- Обыкновенный метод наименьших квадратов (OLS) является наиболее распространенным методом оценки. Оценки МНК обычно используются для анализа как экспериментальных , так и наблюдательных данных. Метод МНК минимизирует сумму квадратов остатков и приводит к выражению в замкнутой форме для оценочного значения вектора неизвестных параметров β : где — вектор, i -й элемент которого является i- м наблюдением зависимой переменной , и — матрица, элемент ij которой является i- м наблюдением j -й независимой переменной . Оценка является несмещенной и согласованной , если ошибки имеют конечную дисперсию и не коррелируют с регрессорами: [2] где является транспонированием строки i матрицы Он также эффективен в предположении, что ошибки имеют конечную дисперсию и гомоскедастичны , что означает, что E[ ε i 2 | x i ] не зависит от i . Условие некоррелированности ошибок с регрессорами обычно будет выполняться в эксперименте, но в случае данных наблюдений трудно исключить возможность опущенной ковариаты z , которая связана как с наблюдаемыми ковариатами, так и с переменной отклика. . Существование такой ковариаты обычно приводит к корреляции между регрессорами и переменной отклика и, следовательно, к противоречивой оценке β . Условие гомоскедастичности может не соответствовать как экспериментальным, так и наблюдательным данным. Если целью является либо умозаключение, либо прогнозное моделирование, эффективность оценок МНК может быть низкой при мультиколлинеарности , если только размер выборки не велик. наличии
- Взвешенный метод наименьших квадратов (WLS) используется, когда гетероскедастичность присутствует в терминах ошибок модели.
- Обобщенные наименьшие квадраты (GLS) - это расширение метода OLS, которое позволяет эффективно оценивать β , когда либо гетероскедастичность среди ошибок модели присутствуют , либо корреляции, либо и то, и другое, при условии, что известны форма гетероскедастичности и корреляции. независимо от данных. Чтобы справиться с гетероскедастичностью, когда члены ошибок не коррелируют друг с другом, GLS минимизирует взвешенный аналог суммы квадратов остатков от регрессии OLS, где вес для i й случае обратно пропорциональна var( ε i ). Этот особый случай GLS называется «взвешенным методом наименьших квадратов». GLS-решение проблемы оценки: где Ω — ковариационная матрица ошибок. GLS можно рассматривать как применение линейного преобразования к данным, чтобы для преобразованных данных выполнялись предположения OLS. Для применения GLS ковариационная структура ошибок должна быть известна с точностью до мультипликативной константы.
Альтернативные составы
[ редактировать ]Другие составы включают:
- Итеративно перевзвешенный метод наименьших квадратов (IRLS) используется, когда гетероскедастичность или корреляции, или и то, и другое, но когда мало что известно о ковариационной структуре ошибок независимо от данных. среди ошибок модели присутствуют [3] На первой итерации выполняется OLS или GLS с предварительной ковариационной структурой, и в результате аппроксимации получаются остатки. На основе остатков обычно можно получить улучшенную оценку ковариационной структуры ошибок. Затем выполняется последующая итерация GLS с использованием этой оценки структуры ошибок для определения весов. Процесс можно повторять до сходимости, но во многих случаях для достижения эффективной оценки β достаточно только одной итерации . [4] [5]
- Регрессия инструментальных переменных (IV) может быть выполнена, когда регрессоры коррелируют с ошибками. В этом случае нам необходимо существование некоторых вспомогательных инструментальных переменных z i таких, что E[ z i ε i ] = 0. Если Z — матрица инструментов, то оценку можно задать в замкнутой форме как Регрессия оптимальных инструментов — это расширение классической IV-регрессии на ситуацию, когда E[ ε i | z я ] знак равно 0 .
- Всего наименьших квадратов (TLS) [6] это подход к оценке методом наименьших квадратов модели линейной регрессии, который рассматривает ковариаты и переменную отклика более геометрически симметрично, чем OLS. Это один из подходов к решению проблемы «ошибок в переменных», который также иногда используется, даже если предполагается, что ковариаты не содержат ошибок.
- Линейная подгонка шаблона (LTF) [7] сочетает линейную регрессию с (обобщенным) методом наименьших квадратов для определения наилучшей оценки. Линейная подгонка шаблона решает частую проблему, когда остатки не могут быть выражены аналитически или требуют слишком много времени для повторной оценки, как это часто бывает в итеративных алгоритмах минимизации. При линейной подгонке по шаблону остатки оцениваются на основе случайных величин и линейной аппроксимации базовой истинной модели, при этом истинная модель должна быть предоставлена как минимум для (были — количество оценщиков) различных эталонных значений β . Затем истинное распределение аппроксимируется линейной регрессией, и лучшие оценки получаются в закрытой форме как где обозначает шаблонную матрицу со значениями известной или ранее определенной модели для любого из опорных значений β , являются случайными величинами (например, измерением) и матрицей и вектор рассчитываются по значениям β . LTF также может быть выражен для случайных величин с логнормальным распределением . Обобщением LTF является квадратичная аппроксимация шаблона, которая предполагает регрессию модели второго порядка и требует прогнозирования как минимум различные значения β , и он находит лучшую оценку, используя метод Ньютона .
- Метод наименьших квадратов в процентах направлен на уменьшение процентных ошибок, что полезно в области прогнозирования или анализа временных рядов. Это также полезно в ситуациях, когда зависимая переменная имеет широкий диапазон без постоянной дисперсии, поскольку в этом случае при использовании МНК будут доминировать более крупные остатки в верхней части диапазона. Когда процентная или относительная ошибка имеет нормальное распределение, процентная регрессия по методу наименьших квадратов дает оценки максимального правдоподобия. Процентная регрессия связана с моделью мультипликативной ошибки, тогда как МНК связана с моделями, содержащими аддитивную ошибку. [8]
- Ограниченный метод наименьших квадратов указывает на линейную задачу наименьших квадратов с дополнительными ограничениями на решение.
Целевая функция
[ редактировать ]В МНК (т. е. при условии невзвешенных наблюдений) оптимальное значение целевой функции находится путем замены оптимального выражения на вектор коэффициентов: где , последнее равенство имеет место, поскольку симметричен и идемпотентен. Из этого можно показать [9] что при соответствующем назначении весов значение S равно ожидаемое . Если вместо этого предполагаются единичные веса, ожидаемое значение S равно , где — это дисперсия каждого наблюдения.
Если предположить, что остатки принадлежат нормальному распределению, то целевая функция, представляющая собой сумму взвешенных квадратов остатков, будет принадлежать хи-квадрат ( ) распределение с m − n степенями свободы . Некоторые иллюстративные значения процентилей приведены в следующей таблице. [10]
10 | 9.34 | 18.3 | 23.2 |
25 | 24.3 | 37.7 | 44.3 |
100 | 99.3 | 124 | 136 |
Эти значения можно использовать в качестве статистического критерия степени соответствия . При использовании единичных весов числа следует разделить на дисперсию наблюдения.
Для WLS обычная целевая функция, указанная выше, заменяется средневзвешенным значением остатков.
Обсуждение
[ редактировать ]В статистике и математике в случаях, когда идеализированное значение , линейный метод наименьших квадратов — это подход к подгонке математической или статистической модели к данным предоставляемое моделью для любой точки данных, выражается линейно через неизвестные параметры модели. Полученную в результате подобранную модель можно использовать для обобщения данных, для прогнозирования ненаблюдаемых значений той же системы и для понимания механизмов, которые могут лежать в основе системы.
наименьших квадратов — это задача приближенного решения переопределенной системы линейных уравнений A x = b , где b не является элементом пространства столбцов матрицы A. Математически линейный метод Приближенное решение реализуется как точное решение A x = b' , где b' — проекция b пространство столбцов A. на Наилучшим приближением является то, которое минимизирует сумму квадратов разностей между значениями данных и соответствующими им смоделированными значениями. Этот подход называется линейным методом наименьших квадратов, поскольку предполагаемая функция линейна по оцениваемым параметрам. Линейные задачи наименьших квадратов являются выпуклыми и имеют единственное решение в замкнутой форме при условии, что количество точек данных, используемых для подгонки, равно или превышает количество неизвестных параметров, за исключением особых вырожденных ситуаций. Напротив, нелинейные задачи наименьших квадратов обычно должны решаться с помощью итерационной процедуры , и проблемы могут быть невыпуклыми с несколькими оптимумами для целевой функции. Если доступны предыдущие распределения, то даже недоопределенную систему можно решить с помощью Байесовский оценщик MMSE .
В статистике линейные задачи наименьших квадратов соответствуют особенно важному типу статистической модели, называемой линейной регрессией , которая возникает как особая форма регрессионного анализа . Одной из основных форм такой модели является обычная модель наименьших квадратов . Настоящая статья концентрируется на математических аспектах линейных задач наименьших квадратов с обсуждением формулировки и интерпретации моделей статистической регрессии и связанных с ними статистических выводов , которые рассматриваются в только что упомянутых статьях. См. схему регрессионного анализа для ознакомления с темой.
Характеристики
[ редактировать ]Если экспериментальные ошибки, , некоррелированы, имеют нулевое среднее значение и постоянную дисперсию, , теорема Гаусса–Маркова утверждает, что оценка методом наименьших квадратов, , имеет минимальную дисперсию всех оценок, которые являются линейными комбинациями наблюдений. В этом смысле это лучшая или оптимальная оценка параметров. Особо отметим, что это свойство не зависит от статистической функции распределения ошибок. Другими словами, функция распределения ошибок не обязательно должна быть нормальным распределением . Однако для некоторых распределений вероятностей нет никакой гарантии, что решение методом наименьших квадратов вообще возможно с учетом наблюдений; тем не менее, в таких случаях это лучшая оценка, которая является одновременно линейной и несмещенной.
Например, легко показать, что среднее арифметическое набора измерений величины является оценкой значения этой величины методом наименьших квадратов. Если применимы условия теоремы Гаусса–Маркова, среднее арифметическое является оптимальным, каким бы ни было распределение ошибок измерений.
Однако в случае, когда экспериментальные ошибки действительно принадлежат нормальному распределению, метод наименьших квадратов также является оценщиком максимального правдоподобия . [11]
Эти свойства лежат в основе использования метода наименьших квадратов для всех типов подбора данных, даже когда предположения не являются строго верными.
Ограничения
[ редактировать ]Предположение, лежащее в основе приведенной выше обработки, заключается в том, что независимая переменная x не содержит ошибок. На практике ошибки измерения независимой переменной обычно намного меньше ошибок измерения зависимой переменной, и поэтому их можно игнорировать. Если это не так, следует использовать метод общих наименьших квадратов или, в более общем плане, модели ошибок в переменных или строгие методы наименьших квадратов . Это можно сделать, скорректировав схему взвешивания для учета ошибок как по зависимым, так и по независимым переменным, а затем следуя стандартной процедуре. [12] [13]
В некоторых случаях матрица (взвешенных) нормальных уравнений X Т X обусловлен плохо . При аппроксимации полиномами матрица нормальных уравнений представляет собой матрицу Вандермонда . Матрицы Вандермонда становятся все более плохо обусловленными по мере увеличения порядка матрицы. [ нужна ссылка ] В этих случаях оценка методом наименьших квадратов усиливает шум измерения и может быть крайне неточной. [ нужна ссылка ] В таких случаях могут применяться различные методы регуляризации , наиболее распространенный из которых называется гребневой регрессией . Если известна дополнительная информация о параметрах, например диапазон возможных значений , то можно использовать различные методы для повышения устойчивости решения. Например, см. Ограниченный метод наименьших квадратов .
Еще одним недостатком метода наименьших квадратов является тот факт, что норма остатков минимизируется, тогда как в ряде случаев действительно интересно получить малую погрешность параметра , например, небольшое значение . [ нужна ссылка ] Однако поскольку истинный параметр обязательно неизвестна, эта величина не может быть непосредственно минимизирована. Если вероятность априорная известно, то оценку Байеса можно использовать для минимизации среднеквадратической ошибки , . Метод наименьших квадратов часто применяется, когда априорное значение неизвестно. Когда несколько параметров оцениваются совместно, можно построить более точные оценки — эффект, известный как феномен Штейна . Например, если ошибка измерения гауссова , известно несколько методов оценки, которые доминируют или превосходят метод наименьших квадратов; наиболее известным из них является оценщик Джеймса – Стейна . Это пример более общих оценок усадки , которые применялись к задачам регрессии.
Приложения
[ редактировать ]- Полиномиальная аппроксимация : модели представляют собой полиномы от независимой переменной x :
- Прямая линия: . [14]
- Квадратичный: .
- Кубические, четвертые и высшие полиномы. Для регрессии с полиномами высокого порядка использовать ортогональные полиномы . рекомендуется [15]
- Численное сглаживание и дифференцирование — это применение полиномиальной аппроксимации.
- Полиномы от более чем одной независимой переменной, включая аппроксимацию поверхности
- Подгонка кривой с помощью B-сплайнов [12]
- Хемометрика , Калибровочная кривая , Стандартная добавка , Гран-график , Анализ смесей
Использование при подборе данных
[ редактировать ]Основное применение линейного метода наименьших квадратов – аппроксимация данных . Учитывая набор из m точек данных состоящий из экспериментально измеренных значений, взятых при m значениях независимой переменной ( могут быть скалярными или векторными величинами) и с учетом модельной функции с желательно найти параметры так, что модельная функция «наилучшим образом» соответствует данным. В линейном методе наименьших квадратов линейность подразумевается по отношению к параметрам так
Здесь функции может быть нелинейным по отношению к переменной x .
В идеале функция модели точно соответствует данным, поэтому для всех На практике это обычно невозможно, поскольку точек данных больше, чем параметров, которые необходимо определить. Тогда выбранный подход заключается в нахождении минимально возможного значения суммы квадратов остатков поэтому минимизируем функцию
После замены на а затем для , эта проблема минимизации становится приведенной выше задачей квадратичной минимизации с и наилучшее соответствие можно найти, решив нормальные уравнения.
Пример
[ редактировать ]Гипотетический исследователь проводит эксперимент и получает четыре точки данных: и (показано красным на схеме справа). Из-за предварительного анализа данных или предварительного знания предмета исследователь подозревает, что -значения зависят от -ценности систематические. -значения предполагаются точными, но -значения содержат некоторую неопределенность или «шум» из-за изучаемого явления, несовершенства измерений и т. д.
Установка линии
[ редактировать ]Одно из простейших возможных отношений между и это линия . Перехват и склон изначально неизвестны. Исследователь хочет найти значения и это приводит к тому, что линия проходит через четыре точки данных. Другими словами, исследователь хотел бы решить систему линейных уравнений С четырьмя уравнениями с двумя неизвестными эта система является переопределенной. Точного решения не существует. Для рассмотрения приближенных решений вводятся невязки , , , в уравнения: й остаток это несоответствие между это наблюдение и предсказание : Среди всех приближенных решений исследователь хотел бы найти то, которое в каком-то смысле является «лучшим».
В методе наименьших квадратов основное внимание уделяется сумме квадратов остатков: Лучшим решением считается то, которое минимизирует относительно и . Минимум можно вычислить, установив частные производные до нуля: Эти нормальные уравнения представляют собой систему двух линейных уравнений с двумя неизвестными. Решение и , и, следовательно, наилучшая линия .Остатки и (см. схему справа). Минимальное значение суммы квадратов остатков равно
Этот расчет можно выразить в матричной записи следующим образом. Исходная система уравнений имеет вид , где Интуитивно, Более строго, если обратима, то матрица представляет собой ортогональную проекцию на пространство столбцов . Следовательно, среди всех векторов вида , тот, кто ближе всего является . Параметр очевидно, что это решение.
Установка параболы
[ редактировать ]Предположим, что гипотетический исследователь желает подобрать параболу вида . Важно отметить, что эта модель по-прежнему линейна по неизвестным параметрам (сейчас только ), поэтому линейный метод наименьших квадратов по-прежнему применяется. Система уравнений с невязками имеет вид
Сумма квадратов остатков равна Есть только одна частная производная, которую можно установить в 0: Решение и подходящая модель .
В матричной записи уравнения без остатков снова имеют вид , где сейчас По той же логике, что и выше, решение:
На рисунке показано расширение для подбора параболы с тремя параметрами с использованием матрицы расчета. с тремя колонками (одна для , , и ) и по одной строке для каждой красной точки данных.
Подгонка других кривых и поверхностей
[ редактировать ]В более общем смысле можно иметь регрессоры и линейная модель
См. также
[ редактировать ]- Пересечение линий
- Линия фитинга
- Нелинейный метод наименьших квадратов
- Регуляризованные наименьшие квадраты
- Простая линейная регрессия
- Частичная регрессия наименьших квадратов
- Линейная функция
Ссылки
[ редактировать ]- ^ Вайсштейн, Эрик В. «Нормальное уравнение» . Математический мир . Вольфрам . Проверено 18 декабря 2023 г.
- ^ Лай, TL; Роббинс, Х.; Вэй, Чехия (1978). «Сильная согласованность оценок методом наименьших квадратов в множественной регрессии» . ПНАС . 75 (7): 3034–3036. Бибкод : 1978PNAS...75.3034L . дои : 10.1073/pnas.75.7.3034 . JSTOR 68164 . ПМЦ 392707 . ПМИД 16592540 .
- ^ дель Пино, Гвидо (1989). «Объединяющая роль итерационного обобщенного метода наименьших квадратов в статистических алгоритмах» . Статистическая наука . 4 (4): 394–403. дои : 10.1214/ss/1177012408 . JSTOR 2245853 .
- ^ Кэрролл, Рэймонд Дж. (1982). «Адаптация к гетероскедастичности в линейных моделях» . Анналы статистики . 10 (4): 1224–1233. дои : 10.1214/aos/1176345987 . JSTOR 2240725 .
- ^ Коэн, Майкл; Далал, Сиддхартха Р.; Тьюки, Джон В. (1993). «Надежная, плавно-гетерогенная дисперсионная регрессия». Журнал Королевского статистического общества, серия C. 42 (2): 339–353. JSTOR 2986237 .
- ^ Нивергельт, Ив (1994). «Всего методом наименьших квадратов: современная регрессия в численном анализе». Обзор СИАМ . 36 (2): 258–264. дои : 10.1137/1036055 . JSTOR 2132463 .
- ^ Бритцгер, Дэниел (2022). «Подгонка линейного шаблона». Евро. Физ. Джей Си . 82 (8): 731. arXiv : 2112.01548 . Бибкод : 2022EPJC...82..731B . doi : 10.1140/epjc/s10052-022-10581-w . S2CID 244896511 .
- ^ Тофаллис, К. (2009). «Процентная регрессия по методу наименьших квадратов» . Журнал современных прикладных статистических методов . 7 : 526–534. дои : 10.2139/ssrn.1406472 . hdl : 2299/965 . ССНР 1406472 .
- ^ Гамильтон, WC (1964). Статистика в физических науках . Нью-Йорк: Рональд Пресс.
- ^ Шпигель, Мюррей Р. (1975). Очерк теории и проблем вероятности и статистики Шаума . Нью-Йорк: МакГроу-Хилл. ISBN 978-0-585-26739-5 .
- ^ Маргенау, Генри; Мерфи, Джордж Мозли (1956). Математика физики и химии . Принстон: Ван Ностранд.
- ^ Jump up to: а б Ганс, Питер (1992). Подгонка данных в химических науках . Нью-Йорк: Уайли. ISBN 978-0-471-93412-7 .
- ^ Деминг, МЫ (1943). Статистическая корректировка данных . Нью-Йорк: Уайли.
- ^ Актон, Ф.С. (1959). Анализ прямолинейных данных . Нью-Йорк: Уайли.
- ^ Гость, ПГ (1961). Численные методы аппроксимации кривой . Кембридж: Издательство Кембриджского университета. [ нужна страница ]
Дальнейшее чтение
[ редактировать ]- Бевингтон, Филип Р.; Робинсон, Кейт Д. (2003). Сокращение данных и анализ ошибок для физических наук . МакГроу-Хилл. ISBN 978-0-07-247227-1 .