Нелинейный метод наименьших квадратов
Часть серии о |
Регрессионный анализ |
---|
Модели |
Оценка |
Фон |
Нелинейный метод наименьших квадратов — это форма анализа наименьших квадратов , используемая для сопоставления набора из m наблюдений с моделью, которая является нелинейной по n неизвестным параметрам ( m ≥ n ). Он используется в некоторых формах нелинейной регрессии . В основе метода лежит аппроксимация модели линейной и уточнение параметров путем последовательных итераций. Есть много общего с линейным методом наименьших квадратов , но есть и некоторые существенные различия . В экономической теории нелинейный метод наименьших квадратов применяется в (i) пробит-регрессии, (ii) пороговой регрессии, (iii) гладкой регрессии, (iv) регрессии логистических связей, (v) преобразованных регрессорах Бокса-Кокса ( ).
Теория [ править ]
Рассмотрим набор точки данных, и кривая (модельная функция) что помимо переменной также зависит от параметры, с Требуется найти вектор параметров так, что кривая лучше всего соответствует заданным данным в смысле наименьших квадратов, то есть сумма квадратов
Минимальное градиент значение S возникает, когда равен нулю. Поскольку модель содержит n параметров, существует n уравнений градиента:
В нелинейной системе производные являются функциями как независимой переменной, так и параметров, поэтому, как правило, эти градиентные уравнения не имеют замкнутого решения. Вместо этого для параметров необходимо выбрать начальные значения. Далее параметры уточняются итерационно, то есть значения получаются методом последовательного приближения:
Здесь k — номер итерации и вектор приращений, известен как вектор сдвига. На каждой итерации модель линеаризуется путем аппроксимации разложения полинома Тейлора первого порядка относительно
Подставив эти выражения в уравнения градиента, они примут вид
Нормальные уравнения записываются в матричной записи как
Эти уравнения составляют основу алгоритма Гаусса – Ньютона для нелинейной задачи наименьших квадратов.
Обратите внимание на соглашение о знаках в определении матрицы Якоби через производные. Формулы, линейные по может появиться с коэффициентом в других статьях или литературе.
Расширение с помощью веса [ править ]
Когда наблюдения неодинаково надежны, взвешенная сумма квадратов может быть минимизирована:
Каждый элемент диагональной весовой матрицы W в идеале должен быть равен обратной величине дисперсии ошибки измерения. [1] Тогда нормальные уравнения, в более общем смысле, таковы:
интерпретация Геометрическая
В линейном методе наименьших квадратов целевая функция S является квадратичной функцией параметров.
Расчет [ править ]
Первоначальные оценки параметров [ править ]
Некоторые проблемы плохой обусловленности и расходимости можно исправить, найдя начальные оценки параметров, близкие к оптимальным значениям. Хороший способ сделать это – компьютерное моделирование . Наблюденные и расчетные данные отображаются на экране. Параметры модели корректируются вручную до тех пор, пока согласие между наблюдаемыми и расчетными данными не станет достаточно хорошим. Хотя это будет субъективное суждение, его достаточно, чтобы найти хорошую отправную точку для нелинейного уточнения. Начальные оценки параметров могут быть созданы с помощью преобразований или линеаризации. Еще лучше, эволюционные алгоритмы, такие как алгоритм стохастической воронки, могут привести к выпуклой зоне притяжения, окружающей оптимальные оценки параметров. [ нужна ссылка ] Было показано, что гибридные алгоритмы, использующие рандомизацию и элитизм, а затем методы Ньютона, полезны и эффективны в вычислительном отношении. [ нужна ссылка ] .
Решение [ править ]
любой метод из описанных ниже Для поиска решения можно применить .
Критерии конвергенции [ править ]
Критерием сходимости здравого смысла является то, что сумма квадратов не увеличивается от одной итерации к другой. Однако этот критерий зачастую трудно реализовать на практике по разным причинам. Полезным критерием сходимости является
Опять же, числовое значение несколько произвольно; 0,001 эквивалентно указанию того, что каждый параметр должен быть уточнен до точности 0,1%. Это разумно, когда оно меньше наибольшего относительного стандартного отклонения параметров.
Расчет якобиана численным приближением [ править ]
Существуют модели, для которых вывести аналитические выражения элементов якобиана либо очень сложно, либо даже невозможно. Тогда численная аппроксимация
Ошибки параметров, доверительные пределы, остатки и т. д. [ править ]
Некоторая информация приведена в соответствующем разделе на странице Взвешенные наименьшие квадраты .
Множественные минимумы [ править ]
Множественные минимумы могут возникнуть при различных обстоятельствах, вот некоторые из них:
- Параметр возводится в степень двойки и более. Например, при подгонке данных к Лоренца кривой где это высота, это позиция и - это полуширина на половине высоты, для полуширины есть два решения: и которые дают одинаковое оптимальное значение целевой функции.
- Два параметра можно поменять местами без изменения значения модели. Простой пример: модель содержит произведение двух параметров, поскольку даст то же значение, что и .
- Параметр находится в тригонометрической функции, например , который имеет одинаковые значения при . См. алгоритма Левенберга – Марквардта . пример
Не все множественные минимумы имеют одинаковые значения целевой функции. Ложные минимумы, также известные как локальные минимумы, возникают, когда значение целевой функции превышает ее значение в так называемом глобальном минимуме. Чтобы быть уверенным, что найденный минимум является глобальным минимумом, уточнение следует начинать с сильно отличающимися начальными значениями параметров. Когда один и тот же минимум обнаруживается независимо от начальной точки, это, скорее всего, будет глобальный минимум.
Когда существует несколько минимумов, есть важное следствие: целевая функция будет иметь максимальное значение где-то между двумя минимумами. Матрица нормальных уравнений не является положительно определенной в максимуме целевой функции, поскольку градиент равен нулю и уникального направления спуска не существует. Уточнение от точки (набора значений параметров), близкой к максимуму, будет плохо обусловлено, и его следует избегать в качестве отправной точки. Например, при аппроксимации лоренциана матрица нормальных уравнений не является положительно определенной, когда полуширина полосы равна нулю. [2]
Преобразование в линейную модель [ править ]
Нелинейную модель иногда можно преобразовать в линейную. Такое приближение, например, часто применимо вблизи наилучшего средства оценки и является одним из основных допущений в большинстве итерационных алгоритмов минимизации. Когда линейная аппроксимация действительна, модель можно напрямую использовать для вывода с помощью обобщенного метода наименьших квадратов , где уравнения линейного шаблона соответствуют [3] применять.
Другим примером линейного приближения может быть случай, когда модель представляет собой простую показательную функцию:
Другой пример представляет собой кинетика Михаэлиса-Ментена , используемая для определения двух параметров. и :
Алгоритмы [ править ]
Метод Гаусса-Ньютона [ править ]
Нормальные уравнения
Сменная резка [ править ]
Если происходит расхождение, простым решением является уменьшение длины вектора сдвига, , по дроби, f
При использовании сдвига-обрезания направление вектора сдвига остается неизменным. Это ограничивает применимость метода ситуациями, когда направление вектора сдвига не сильно отличается от того, каким оно было бы, если бы целевая функция была приблизительно квадратичной по параметрам:
Параметр Марквардта [ править ]
Если происходит расхождение и направление вектора сдвига настолько далеко от его «идеального» направления, что сокращение сдвига не очень эффективно, то есть доля f , необходимая для предотвращения расхождения, очень мала, направление необходимо изменить. Этого можно добиться с помощью параметра Марквардта . [5] В этом методе нормальные уравнения модифицируются
Для определения параметра Марквардта были предложены различные стратегии. Как и в случае со сдвигом, слишком строгая оптимизация этого параметра является расточительством. Вместо этого, как только найдено значение, которое приводит к уменьшению значения целевой функции, это значение параметра переносится на следующую итерацию, уменьшается, если возможно, или увеличивается, если необходимо. При уменьшении значения параметра Марквардта существует пороговое значение, ниже которого его безопасно устанавливать равным нулю, то есть продолжать немодифицированный метод Гаусса–Ньютона. Значение отсечки может быть установлено равным наименьшему сингулярному значению якобиана. [6] Граница этого значения определяется выражением где tr — функция трассировки . [7]
QR-разложение [ править ]
Минимум суммы квадратов можно найти методом, не предполагающим составления нормальных уравнений. Остатки линеаризованной модели можно записать как
Остаточный вектор умножается слева на .
Это не влияет на сумму квадратов, поскольку потому Q ортогонален что Минимальное значение S достигается, когда верхний блок равен нулю. Поэтому вектор сдвига находится путем решения
Эти уравнения легко решаются, поскольку R является верхнетреугольным.
Разложение по сингулярным значениям [ править ]
Вариант метода ортогонального разложения включает разложение по сингулярным значениям , при котором R диагонализуется дальнейшими ортогональными преобразованиями.
Относительная простота этого выражения очень полезна при теоретическом анализе нелинейного метода наименьших квадратов. Применение разложения по сингулярным значениям подробно обсуждается у Лоусона и Хэнсона. [6]
Градиентные методы [ править ]
В научной литературе есть много примеров, когда для решения нелинейных задач аппроксимации данных использовались разные методы.
- Включение вторых производных в разложение модельной функции в ряд Тейлора. Это метод Ньютона в оптимизации . Матрица H известна как матрица Гессе . Хотя эта модель имеет лучшие свойства сходимости вблизи минимума, она значительно хуже, когда параметры далеки от оптимальных значений. Вычисление гессиана усложняет алгоритм. Этот метод не является общеупотребительным.
- Метод Дэвидона–Флетчера–Пауэлла . Этот метод, разновидность метода псевдоньютона, аналогичен приведенному выше, но вычисляет гессиан методом последовательного приближения, чтобы избежать необходимости использовать аналитические выражения для вторых производных.
- Самый крутой спуск . Хотя уменьшение суммы квадратов гарантировано, когда вектор сдвига указывает в направлении наибольшего спуска, этот метод часто работает плохо. При значениях параметров, далеких от оптимальных, направление вектора наискорейшего спуска, нормального (перпендикулярного) к контурам целевой функции, сильно отличается от направления вектора Гаусса–Ньютона. Это делает расхождение гораздо более вероятным, особенно потому, что минимум в направлении наискорейшего спуска может соответствовать небольшой части длины вектора наикрутейшего спуска. Когда контуры целевой функции очень эксцентричны из-за высокой корреляции между параметрами, итерации самого крутого спуска с сокращением смещения следуют по медленной зигзагообразной траектории к минимуму.
- Поиск сопряженных градиентов . Это улучшенный метод, основанный на наискорейшем спуске, с хорошими теоретическими свойствами сходимости, хотя он может не работать на цифровых компьютерах конечной точности даже при использовании для решения квадратичных задач. [8]
Методы прямого поиска [ править ]
Методы прямого поиска зависят от оценок целевой функции при различных значениях параметров и вообще не используют производные. Они предлагают альтернативу использованию числовых производных в методе Гаусса – Ньютона и градиентных методах.
- Поиск попеременных переменных. [4] Каждый параметр поочередно изменяется путем добавления к нему фиксированного или переменного приращения и сохранения значения, которое приводит к уменьшению суммы квадратов. Этот метод прост и эффективен, когда параметры не сильно коррелируют. Он имеет очень плохие свойства сходимости, но может быть полезен для нахождения начальных оценок параметров.
- Поиск Нелдера–Мида (симплексный) . Симплекс n в этом контексте — это многогранник из n + 1 вершин в измерениях ; треугольник на плоскости, тетраэдр в трехмерном пространстве и так далее. Каждая вершина соответствует значению целевой функции для определенного набора параметров. Форма и размер симплекса корректируются путем варьирования параметров таким образом, чтобы значение целевой функции в высшей вершине всегда уменьшалось. Хотя сумма квадратов может первоначально быстро уменьшаться, она может сходиться к нестационарной точке в квазивыпуклых задачах, на примере М. Дж. Д. Пауэлла.
Более подробные описания этих и других методов доступны в разделе «Численные рецепты » вместе с компьютерным кодом на разных языках.
См. также [ править ]
- Машина векторов поддержки наименьших квадратов
- Подгонка кривой
- Модель серого ящика
- Нелинейное программирование
- Нелинейная регрессия
- Оптимизация (математика)
- Алгоритм Левенберга – Марквардта
Ссылки [ править ]
- ^ Это означает, что наблюдения некоррелированы. Если наблюдения коррелируют , выражение применяется. В этом случае весовая матрица в идеале должна быть равна обратной матрице дисперсии-ковариации ошибок наблюдений.
- ^ В отсутствие ошибки округления и ошибки эксперимента в независимой переменной матрица нормальных уравнений была бы сингулярной.
- ^ Бритцгер, Дэниел (2022). «Подгонка линейного шаблона». Евро. Физ. Джей Си . 82 (8): 731. arXiv : 2112.01548 . Бибкод : 2022EPJC...82..731B . doi : 10.1140/epjc/s10052-022-10581-w .
- ^ Jump up to: Перейти обратно: а б MJ Box, Д. Дэвис и WH Swann, Методы нелинейной оптимизации, Oliver & Boyd, 1969.
- ^ Этот метод был независимо предложен Левенбергом (1944), Жираром (1958), Винном (1959), Моррисоном (1960) и Марквардтом (1963). Одно только имя Марквардта используется для этого в большей части научной литературы. смотрите в основной статье . Ссылки на цитирование
- ^ Jump up to: Перейти обратно: а б К. Л. Лоусон и Р. Дж. Хэнсон, Решение задач наименьших квадратов, Прентис – Холл, 1974 г.
- ^ Р. Флетчер, Отчет UKAEA AERE-R 6799, Канцелярия Ее Величества, 1971 г.
- ^ MJD Powell, Computer Journal, (1964), 7 , 155.
Дальнейшее чтение [ править ]
- Келли, Коннектикут (1999). Итерационные методы оптимизации (PDF) . SIAM Frontiers в прикладной математике. Том. нет 18. ISBN 0-89871-433-8 .
{{cite book}}
:|volume=
есть дополнительный текст ( помощь ) - Струц, Т. (2016). Подбор данных и неопределенность: практическое введение в метод наименьших квадратов и далее (2-е изд.). Спрингер Вьюег. ISBN 978-3-658-11455-8 .