Jump to content

Нелинейный метод наименьших квадратов

Нелинейный метод наименьших квадратов — это форма анализа наименьших квадратов , используемая для сопоставления набора из m наблюдений с моделью, которая является нелинейной по n неизвестным параметрам ( m n ). Он используется в некоторых формах нелинейной регрессии . В основе метода лежит аппроксимация модели линейной и уточнение параметров путем последовательных итераций. Есть много общего с линейным методом наименьших квадратов , но есть и некоторые существенные различия . В экономической теории нелинейный метод наименьших квадратов применяется в (i) пробит-регрессии, (ii) пороговой регрессии, (iii) гладкой регрессии, (iv) регрессии логистических связей, (v) преобразованных регрессорах Бокса-Кокса ( ).

Теория [ править ]

Рассмотрим набор точки данных, и кривая (модельная функция) что помимо переменной также зависит от параметры, с Требуется найти вектор параметров так, что кривая лучше всего соответствует заданным данным в смысле наименьших квадратов, то есть сумма квадратов

минимизируется, где остатки (ошибки прогнозирования в выборке) r i определяются выражением
для

Минимальное градиент значение S возникает, когда равен нулю. Поскольку модель содержит n параметров, существует n уравнений градиента:

В нелинейной системе производные являются функциями как независимой переменной, так и параметров, поэтому, как правило, эти градиентные уравнения не имеют замкнутого решения. Вместо этого для параметров необходимо выбрать начальные значения. Далее параметры уточняются итерационно, то есть значения получаются методом последовательного приближения:

Здесь k — номер итерации и вектор приращений, известен как вектор сдвига. На каждой итерации модель линеаризуется путем аппроксимации разложения полинома Тейлора первого порядка относительно

Матрица Якоби J . является функцией констант, независимой переменной и параметров, поэтому она меняется от одной итерации к другой Таким образом, в рамках линеаризованной модели
а остатки определяются выражением

Подставив эти выражения в уравнения градиента, они примут вид

которые при перестановке превращаются в n одновременных линейных уравнений, нормальных уравнений

Нормальные уравнения записываются в матричной записи как

Эти уравнения составляют основу алгоритма Гаусса – Ньютона для нелинейной задачи наименьших квадратов.

Обратите внимание на соглашение о знаках в определении матрицы Якоби через производные. Формулы, линейные по может появиться с коэффициентом в других статьях или литературе.

Расширение с помощью веса [ править ]

Когда наблюдения неодинаково надежны, взвешенная сумма квадратов может быть минимизирована:

Каждый элемент диагональной весовой матрицы W в идеале должен быть равен обратной величине дисперсии ошибки измерения. [1] Тогда нормальные уравнения, в более общем смысле, таковы:

интерпретация Геометрическая

В линейном методе наименьших квадратов целевая функция S является квадратичной функцией параметров.

Когда имеется только один параметр, график S относительно этого параметра будет параболой . При двух и более параметрах контуры S относительно любой пары параметров будут концентрическими эллипсами (при условии, что матрица нормальных уравнений положительно определен ). Минимальные значения параметров находятся в центре эллипсов. Геометрию общей целевой функции можно описать как эллиптический параболоид. В NLLSQ целевая функция квадратична по параметрам только в области, близкой к ее минимальному значению, где усеченный ряд Тейлора является хорошим приближением модели.
Чем больше значения параметров отличаются от оптимальных значений, тем больше контуры отклоняются от эллиптической формы. Следствием этого является то, что начальные оценки параметров должны быть как можно ближе к их (неизвестным!) оптимальным значениям. Это также объясняет, как может возникнуть расхождение, поскольку алгоритм Гаусса – Ньютона сходится только тогда, когда целевая функция приблизительно квадратична по параметрам.

Расчет [ править ]

Первоначальные оценки параметров [ править ]

Некоторые проблемы плохой обусловленности и расходимости можно исправить, найдя начальные оценки параметров, близкие к оптимальным значениям. Хороший способ сделать это – компьютерное моделирование . Наблюденные и расчетные данные отображаются на экране. Параметры модели корректируются вручную до тех пор, пока согласие между наблюдаемыми и расчетными данными не станет достаточно хорошим. Хотя это будет субъективное суждение, его достаточно, чтобы найти хорошую отправную точку для нелинейного уточнения. Начальные оценки параметров могут быть созданы с помощью преобразований или линеаризации. Еще лучше, эволюционные алгоритмы, такие как алгоритм стохастической воронки, могут привести к выпуклой зоне притяжения, окружающей оптимальные оценки параметров. [ нужна ссылка ] Было показано, что гибридные алгоритмы, использующие рандомизацию и элитизм, а затем методы Ньютона, полезны и эффективны в вычислительном отношении. [ нужна ссылка ] .

Решение [ править ]

любой метод из описанных ниже Для поиска решения можно применить .

Критерии конвергенции [ править ]

Критерием сходимости здравого смысла является то, что сумма квадратов не увеличивается от одной итерации к другой. Однако этот критерий зачастую трудно реализовать на практике по разным причинам. Полезным критерием сходимости является

Значение 0,0001 несколько произвольно и, возможно, его придется изменить. В частности, его может потребоваться увеличить, когда экспериментальные ошибки велики. Альтернативный критерий:

Опять же, числовое значение несколько произвольно; 0,001 эквивалентно указанию того, что каждый параметр должен быть уточнен до точности 0,1%. Это разумно, когда оно меньше наибольшего относительного стандартного отклонения параметров.

Расчет якобиана численным приближением [ править ]

Существуют модели, для которых вывести аналитические выражения элементов якобиана либо очень сложно, либо даже невозможно. Тогда численная аппроксимация

получается расчетом для и . Приращение, размер следует выбирать таким образом, чтобы числовая производная не подвергалась ошибке аппроксимации из-за того, что она слишком велика, или ошибке округления из- за того, что она слишком мала.

Ошибки параметров, доверительные пределы, остатки и т. д. [ править ]

Некоторая информация приведена в соответствующем разделе на странице Взвешенные наименьшие квадраты .

Множественные минимумы [ править ]

Множественные минимумы могут возникнуть при различных обстоятельствах, вот некоторые из них:

  • Параметр возводится в степень двойки и более. Например, при подгонке данных к Лоренца кривой
    где это высота, это позиция и - это полуширина на половине высоты, для полуширины есть два решения: и которые дают одинаковое оптимальное значение целевой функции.
  • Два параметра можно поменять местами без изменения значения модели. Простой пример: модель содержит произведение двух параметров, поскольку даст то же значение, что и .
  • Параметр находится в тригонометрической функции, например , который имеет одинаковые значения при . См. алгоритма Левенберга – Марквардта . пример

Не все множественные минимумы имеют одинаковые значения целевой функции. Ложные минимумы, также известные как локальные минимумы, возникают, когда значение целевой функции превышает ее значение в так называемом глобальном минимуме. Чтобы быть уверенным, что найденный минимум является глобальным минимумом, уточнение следует начинать с сильно отличающимися начальными значениями параметров. Когда один и тот же минимум обнаруживается независимо от начальной точки, это, скорее всего, будет глобальный минимум.

Когда существует несколько минимумов, есть важное следствие: целевая функция будет иметь максимальное значение где-то между двумя минимумами. Матрица нормальных уравнений не является положительно определенной в максимуме целевой функции, поскольку градиент равен нулю и уникального направления спуска не существует. Уточнение от точки (набора значений параметров), близкой к максимуму, будет плохо обусловлено, и его следует избегать в качестве отправной точки. Например, при аппроксимации лоренциана матрица нормальных уравнений не является положительно определенной, когда полуширина полосы равна нулю. [2]

Преобразование в линейную модель [ править ]

Нелинейную модель иногда можно преобразовать в линейную. Такое приближение, например, часто применимо вблизи наилучшего средства оценки и является одним из основных допущений в большинстве итерационных алгоритмов минимизации. Когда линейная аппроксимация действительна, модель можно напрямую использовать для вывода с помощью обобщенного метода наименьших квадратов , где уравнения линейного шаблона соответствуют [3] применять.

Другим примером линейного приближения может быть случай, когда модель представляет собой простую показательную функцию:

ее можно преобразовать в линейную модель путем логарифмирования.
Графически это соответствует работе на полулогарифмическом графике . Сумма квадратов становится
Эту процедуру следует избегать, за исключением случаев, когда ошибки являются мультипликативными и имеют логарифмически нормальное распределение , поскольку это может привести к вводящим в заблуждение результатам. Это происходит из-за того, что какими бы ни были экспериментальные ошибки по y , ошибки по log y различны. Следовательно, при минимизации преобразованной суммы квадратов будут получены разные результаты как для значений параметров, так и для их рассчитанных стандартных отклонений. Однако при мультипликативных ошибках, которые имеют логарифмически нормальное распределение, эта процедура дает несмещенные и непротиворечивые оценки параметров.

Другой пример представляет собой кинетика Михаэлиса-Ментена , используемая для определения двух параметров. и :

График Лайнуивера -Бёрка
из против линейна по параметрам и , но очень чувствителен к ошибкам данных и сильно склонен к подгонке данных в определенный диапазон независимой переменной. .

Алгоритмы [ править ]

Метод Гаусса-Ньютона [ править ]

Нормальные уравнения

может быть решено для путем разложения Холецкого , как описано в линейном методе наименьших квадратов . Параметры обновляются итеративно
где k — номер итерации. Хотя этот метод может быть адекватен для простых моделей, он потерпит неудачу, если произойдет расхождение. Поэтому защита от расхождений имеет важное значение.

Сменная резка [ править ]

Если происходит расхождение, простым решением является уменьшение длины вектора сдвига, , по дроби, f

Например, длина вектора сдвига может последовательно уменьшаться вдвое до тех пор, пока новое значение целевой функции не станет меньше ее значения на последней итерации. Дробь f можно оптимизировать с помощью поиска по строке . [4] Поскольку каждое пробное значение f требует перерасчета целевой функции, не стоит слишком строго оптимизировать ее значение.

При использовании сдвига-обрезания направление вектора сдвига остается неизменным. Это ограничивает применимость метода ситуациями, когда направление вектора сдвига не сильно отличается от того, каким оно было бы, если бы целевая функция была приблизительно квадратичной по параметрам:

Параметр Марквардта [ править ]

Если происходит расхождение и направление вектора сдвига настолько далеко от его «идеального» направления, что сокращение сдвига не очень эффективно, то есть доля f , необходимая для предотвращения расхождения, очень мала, направление необходимо изменить. Этого можно добиться с помощью параметра Марквардта . [5] В этом методе нормальные уравнения модифицируются

где — параметр Марквардта, а I — единичная матрица. Увеличение стоимости приводит к изменению как направления, так и длины вектора сдвига. Вектор сдвига поворачивается в сторону наибольшего спуска, когда
— вектор наискорейшего спуска. Итак, когда становится очень большим, вектор сдвига становится небольшой частью вектора наискорейшего спуска.

Для определения параметра Марквардта были предложены различные стратегии. Как и в случае со сдвигом, слишком строгая оптимизация этого параметра является расточительством. Вместо этого, как только найдено значение, которое приводит к уменьшению значения целевой функции, это значение параметра переносится на следующую итерацию, уменьшается, если возможно, или увеличивается, если необходимо. При уменьшении значения параметра Марквардта существует пороговое значение, ниже которого его безопасно устанавливать равным нулю, то есть продолжать немодифицированный метод Гаусса–Ньютона. Значение отсечки может быть установлено равным наименьшему сингулярному значению якобиана. [6] Граница этого значения определяется выражением где tr функция трассировки . [7]

QR-разложение [ править ]

Минимум суммы квадратов можно найти методом, не предполагающим составления нормальных уравнений. Остатки линеаризованной модели можно записать как

Якобиан подвергается ортогональному разложению; QR -разложение послужит иллюстрацией этого процесса.
где Q ортогональный матрица и R представляет собой матрица, которая разбита на блокировать, и нулевой блок. имеет верхнюю треугольную форму.

Остаточный вектор умножается слева на .

Это не влияет на сумму квадратов, поскольку потому Q ортогонален что Минимальное значение S достигается, когда верхний блок равен нулю. Поэтому вектор сдвига находится путем решения

Эти уравнения легко решаются, поскольку R является верхнетреугольным.

Разложение по сингулярным значениям [ править ]

Вариант метода ортогонального разложения включает разложение по сингулярным значениям , при котором R диагонализуется дальнейшими ортогональными преобразованиями.

где является ортогональным, представляет собой диагональную матрицу сингулярных значений и – ортогональная матрица собственных векторов или, что то же самое, правые сингулярные векторы . В этом случае вектор сдвига определяется выражением

Относительная простота этого выражения очень полезна при теоретическом анализе нелинейного метода наименьших квадратов. Применение разложения по сингулярным значениям подробно обсуждается у Лоусона и Хэнсона. [6]

Градиентные методы [ править ]

В научной литературе есть много примеров, когда для решения нелинейных задач аппроксимации данных использовались разные методы.

  • Включение вторых производных в разложение модельной функции в ряд Тейлора. Это метод Ньютона в оптимизации .
    Матрица H известна как матрица Гессе . Хотя эта модель имеет лучшие свойства сходимости вблизи минимума, она значительно хуже, когда параметры далеки от оптимальных значений. Вычисление гессиана усложняет алгоритм. Этот метод не является общеупотребительным.
  • Метод Дэвидона–Флетчера–Пауэлла . Этот метод, разновидность метода псевдоньютона, аналогичен приведенному выше, но вычисляет гессиан методом последовательного приближения, чтобы избежать необходимости использовать аналитические выражения для вторых производных.
  • Самый крутой спуск . Хотя уменьшение суммы квадратов гарантировано, когда вектор сдвига указывает в направлении наибольшего спуска, этот метод часто работает плохо. При значениях параметров, далеких от оптимальных, направление вектора наискорейшего спуска, нормального (перпендикулярного) к контурам целевой функции, сильно отличается от направления вектора Гаусса–Ньютона. Это делает расхождение гораздо более вероятным, особенно потому, что минимум в направлении наискорейшего спуска может соответствовать небольшой части длины вектора наикрутейшего спуска. Когда контуры целевой функции очень эксцентричны из-за высокой корреляции между параметрами, итерации самого крутого спуска с сокращением смещения следуют по медленной зигзагообразной траектории к минимуму.
  • Поиск сопряженных градиентов . Это улучшенный метод, основанный на наискорейшем спуске, с хорошими теоретическими свойствами сходимости, хотя он может не работать на цифровых компьютерах конечной точности даже при использовании для решения квадратичных задач. [8]

Методы прямого поиска [ править ]

Методы прямого поиска зависят от оценок целевой функции при различных значениях параметров и вообще не используют производные. Они предлагают альтернативу использованию числовых производных в методе Гаусса – Ньютона и градиентных методах.

  • Поиск попеременных переменных. [4] Каждый параметр поочередно изменяется путем добавления к нему фиксированного или переменного приращения и сохранения значения, которое приводит к уменьшению суммы квадратов. Этот метод прост и эффективен, когда параметры не сильно коррелируют. Он имеет очень плохие свойства сходимости, но может быть полезен для нахождения начальных оценок параметров.
  • Поиск Нелдера–Мида (симплексный) . Симплекс n в этом контексте — это многогранник из n + 1 вершин в измерениях ; треугольник на плоскости, тетраэдр в трехмерном пространстве и так далее. Каждая вершина соответствует значению целевой функции для определенного набора параметров. Форма и размер симплекса корректируются путем варьирования параметров таким образом, чтобы значение целевой функции в высшей вершине всегда уменьшалось. Хотя сумма квадратов может первоначально быстро уменьшаться, она может сходиться к нестационарной точке в квазивыпуклых задачах, на примере М. Дж. Д. Пауэлла.

Более подробные описания этих и других методов доступны в разделе «Численные рецепты » вместе с компьютерным кодом на разных языках.

См. также [ править ]

Ссылки [ править ]

  1. ^ Это означает, что наблюдения некоррелированы. Если наблюдения коррелируют , выражение
    применяется. В этом случае весовая матрица в идеале должна быть равна обратной матрице дисперсии-ковариации ошибок наблюдений.
  2. ^ В отсутствие ошибки округления и ошибки эксперимента в независимой переменной матрица нормальных уравнений была бы сингулярной.
  3. ^ Бритцгер, Дэниел (2022). «Подгонка линейного шаблона». Евро. Физ. Джей Си . 82 (8): 731. arXiv : 2112.01548 . Бибкод : 2022EPJC...82..731B . doi : 10.1140/epjc/s10052-022-10581-w .
  4. ^ Jump up to: Перейти обратно: а б MJ Box, Д. Дэвис и WH Swann, Методы нелинейной оптимизации, Oliver & Boyd, 1969.
  5. ^ Этот метод был независимо предложен Левенбергом (1944), Жираром (1958), Винном (1959), Моррисоном (1960) и Марквардтом (1963). Одно только имя Марквардта используется для этого в большей части научной литературы. смотрите в основной статье . Ссылки на цитирование
  6. ^ Jump up to: Перейти обратно: а б К. Л. Лоусон и Р. Дж. Хэнсон, Решение задач наименьших квадратов, Прентис – Холл, 1974 г.
  7. ^ Р. Флетчер, Отчет UKAEA AERE-R 6799, Канцелярия Ее Величества, 1971 г.
  8. ^ MJD Powell, Computer Journal, (1964), 7 , 155.

Дальнейшее чтение [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: b163b915bc376f0d79ec93b6ccd5ac1b__1718336220
URL1:https://arc.ask3.ru/arc/aa/b1/1b/b163b915bc376f0d79ec93b6ccd5ac1b.html
Заголовок, (Title) документа по адресу, URL1:
Non-linear least squares - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)