Jump to content

Матрица Гессе

В математике матрица Гессе , матрица Гессе или (реже) матрица Гессе — это квадратная матрица второго порядка частных производных скалярной функции , или скалярного поля . Он описывает локальную кривизну функции многих переменных. Матрица Гессе была разработана в XIX веке немецким математиком Людвигом Отто Гессе и позже названа в его честь. Гессен первоначально использовал термин «функциональные детерминанты». Гессиан иногда обозначается H или, что неоднозначно, ∇ 2 .

Определения и свойства

[ редактировать ]

Предполагать это функция, принимающая в качестве входных данных вектор и вывод скаляра порядка Если все частные производные второго существуют, то матрица Гессе из это квадрат матрица, обычно определяемая и организованная как То есть запись i -й строки и j -го столбца равна

Если, кроме того, все вторые частные производные непрерывны, матрица Гессе является симметричной матрицей в силу симметрии вторых производных .

Определитель Гессе матрицы Гессе называется определителем . [1]

Матрица Гессе функции является транспонированием Якоби градиента матрицы функции ; то есть:

Приложения

[ редактировать ]

Точки перегиба

[ редактировать ]

Если однородный многочлен от трех переменных, уравнение неявное уравнение плоской проективной кривой . Точками перегиба кривой являются именно те неособые точки, в которых определитель Гессе равен нулю. следует Из теоремы Безу , что кубическая плоская кривая имеет не более точки перегиба, поскольку определитель Гессе является многочленом степени

Тест второй производной

[ редактировать ]

Матрица Гессе выпуклой функции положительно полуопределена . Уточнение этого свойства позволяет нам проверить, является ли критическая точка является локальным максимумом, локальным минимумом или седловой точкой следующим образом:

Если гессиан положительно определен в затем достигает изолированного локального минимума при Если гессиан отрицательно определен в затем достигает изолированного локального максимума при Если гессиан имеет как положительные, так и отрицательные собственные значения , то является перевалочной точкой для В противном случае тест не дает результатов. Это означает, что в локальном минимуме гессиан является положительно-полуопределенным, а в локальном максимуме гессиан является отрицательно-полуопределенным.

Для положительно-полуопределенных и отрицательно-полуопределенных гессианов тест не дает результатов (критическая точка, где гессиан является полуопределенным, но не определенным, может быть локальным экстремумом или седловой точкой). Однако с точки зрения теории Морса можно сказать больше .

Проверка второй производной для функций одной и двух переменных проще, чем общий случай. В одной переменной гессиан содержит ровно одну вторую производную; если оно положительное, то является локальным минимумом, и если он отрицателен, то – локальный максимум; если он равен нулю, то тест не дает результатов. В двух переменных можно использовать определитель , поскольку определитель является произведением собственных значений. Если оно положительное, то собственные значения либо положительные, либо оба отрицательные. Если оно отрицательное, то два собственных значения имеют разные знаки. Если оно равно нулю, то тест второй производной не дает результатов.

Эквивалентно, условия второго порядка, достаточные для локального минимума или максимума, могут быть выражены через последовательность главных (самых верхних левых) миноров (определителей подматриц) гессиана; эти условия являются частным случаем условий, приведенных в следующем разделе для граничных гессианов для оптимизации с ограничениями — случая, когда количество ограничений равно нулю. В частности, достаточным условием минимума является то, что все эти главные миноры положительны, тогда как достаточным условием максимума является то, что миноры чередуются по знаку с второстепенный - отрицательный.

Критические точки

[ редактировать ]

Если градиент (вектор частных производных) функции в какой-то момент равен нулю затем имеет критическую точку (или стационарную точку ) при Определитель в гессиана в некоторых контекстах называется дискриминантом . Если этот определитель равен нулю, то называется вырожденной критической точкой или неморзовская критическая точка В противном случае она невырождена и называется критической точкой Морса .

Матрица Гессе играет важную роль в теории Морса и теории катастроф , поскольку ее ядро ​​и собственные значения позволяют классифицировать критические точки. [2] [3] [4]

Определитель матрицы Гессе, вычисленный в критической точке функции, равен гауссовой кривизне функции, рассматриваемой как многообразие. Собственные значения гессиана в этой точке являются главными кривизнами функции, а собственные векторы — главными направлениями кривизны. (См. Гауссову кривизну § Связь с главными кривизнами .)

Использование в оптимизации

[ редактировать ]

Матрицы Гессе используются в крупномасштабных оптимизации задачах в методах типа Ньютона, поскольку они являются коэффициентом квадратичного члена локального разложения Тейлора функции. То есть, где это градиент Вычисление и сохранение полной матрицы Гессе занимает памяти, что невозможно для многомерных функций, таких как функции потерь нейронных сетей , условные случайные поля и другие статистические модели с большим количеством параметров. Для таких ситуаций усеченного Ньютона и квазиньютона были разработаны алгоритмы . Последнее семейство алгоритмов использует приближения к гессиану; один из самых популярных квазиньютоновских алгоритмов — BFGS . [5]

Такие аппроксимации могут использовать тот факт, что алгоритм оптимизации использует гессиан только как линейный оператор. и продолжайте, сначала заметив, что гессиан также появляется в локальном расширении градиента:

Сдача в аренду для некоторого скаляра это дает то есть, поэтому, если градиент уже вычислен, приблизительный гессиан можно вычислить с помощью линейного (по размеру градиента) числа скалярных операций. (Хотя эта аппроксимационная схема проста в программировании, она не является численно стабильной, поскольку должен быть небольшим, чтобы предотвратить ошибку из-за член, но при его уменьшении теряется точность в первом члене. [6] )

В частности, что касается эвристики рандомизированного поиска, ковариационная матрица стратегии эволюции адаптируется к обратной матрице Гессе с точностью до скалярного коэффициента и небольших случайных флуктуаций.Этот результат был формально доказан для стратегии с одним родителем и статической модели по мере увеличения размера популяции на основе квадратичного приближения. [7]

Другие приложения

[ редактировать ]

Матрица Гессе обычно используется для выражения операторов обработки изображений в обработке изображений и компьютерном зрении (см. Лапласиан гауссова (LoG) детектора капель, определитель гессианского детектора капель (DoH) и масштабное пространство ). Его можно использовать в обычном режиме анализа для расчета различных молекулярных частот в инфракрасной спектроскопии . [8] Его также можно использовать в диагностике местной чувствительности и статистической диагностике. [9]

Обобщения

[ редактировать ]

Гессен с границей

[ редактировать ]

Гессиан с границами используется для теста второй производной в некоторых задачах оптимизации с ограничениями. Учитывая функцию рассмотренное ранее, но добавив ограничительную функцию такой, что гессиан с границей - это гессиан функции Лагранжа [10]

Если есть, скажем, ограничений, то ноль в верхнем левом углу является блок нулей, и есть пограничные ряды вверху и пограничные столбцы слева.

Приведенные выше правила, утверждающие, что экстремумы характеризуются (среди критических точек с неособым гессианом) положительно-определенным или отрицательно-определенным гессианом, здесь не могут применяться, поскольку окаймленный гессиан не может быть ни отрицательно-определенным, ни положительно-определенным, поскольку если — это любой вектор, единственная ненулевая запись которого является его первой.

Второй критерий производной состоит здесь из знаковых ограничений определителей некоторого набора подматрицы окаймленного гессиана. [11] Интуитивно, ограничения можно рассматривать как сведение проблемы к проблеме с свободные переменные. (Например, максимизация с учетом ограничения можно свести к максимизации без ограничений.)

В частности, условия знака накладываются на последовательность ведущих главных миноров (определителей выровненных в верхнем левом углу подматриц) гессиана с границами, для которых первый ведущие главные миноры игнорируются, наименьший минор состоит из усеченных первых строк и столбцов, следующие состоят из усеченных первых строки и столбцы и т. д., причем последний — это весь гессен с окантовкой; если больше, чем тогда наименьший ведущий главный минор - это сам гессен. [12] Таким образом, существуют второстепенные значения, которые следует учитывать, каждый из которых оценивается в определенной точке и считается возможным максимумом или минимумом . Достаточным условием локального максимума является то, что эти миноры чередуются по знаку с наименьшим, имеющим знак Достаточным условием локального минимума является то, что все эти миноры имеют знак (В неограниченном случае эти условия совпадают с условиями, при которых гессиан без границ является отрицательно определенным или положительно определенным соответственно).

Векторные функции

[ редактировать ]

Если вместо этого является векторным полем то есть, то совокупность вторых частных производных не является третьего порядка матрица, а скорее тензор . Это можно представить как массив Матрицы Гессе, по одной для каждого компонента : Этот тензор вырождается в обычную матрицу Гессе, когда

Обобщение на сложный случай

[ редактировать ]

В контексте нескольких комплексных переменных гессиан можно обобщить. Предполагать и напиши Тогда обобщенный гессиан есть Если удовлетворяет n-мерным условиям Коши–Римана , то комплексная матрица Гессе равна тождественному нулю.

Обобщения на римановы многообразия

[ редактировать ]

Позволять быть римановым многообразием и это связь Леви-Чивита . Позволять быть гладкой функцией. Определите тензор Гессе с помощью где при этом используется тот факт, что первая ковариантная производная функции совпадает с ее обычным дифференциалом. Выбор местных координат дает местное выражение для гессиана как где являются Кристоффелевыми символами связи. Другие эквивалентные формы гессиана имеют вид

См. также

[ редактировать ]

Примечания

[ редактировать ]
  1. ^ Бинмор, Кен ; Дэвис, Джоан (2007). Концепции и методы исчисления . Издательство Кембриджского университета. п. 190. ИСБН  978-0-521-77541-0 . OCLC   717598615 .
  2. ^ Каллахан, Джеймс Дж. (2010). Продвинутое исчисление: геометрический взгляд . Springer Science & Business Media. п. 248. ИСБН  978-1-4419-7332-0 .
  3. ^ Кашаро, Б.; Фортунато, Д.; Франкавилья, М.; Масиелло, А., ред. (2011). Последние достижения в общей теории относительности . Springer Science & Business Media. п. 178. ИСБН  9788847021136 .
  4. ^ Доменико П.Л. Кастриджано; Сандра А. Хейс (2004). Теория катастроф . Вествью Пресс. п. 18. ISBN  978-0-8133-4126-2 .
  5. ^ Носедаль, Хорхе ; Райт, Стивен (2000). Численная оптимизация . Спрингер Верлаг. ISBN  978-0-387-98793-4 .
  6. ^ Перлмуттер, Барак А. (1994). «Быстрое точное умножение на гессиан» (PDF) . Нейронные вычисления . 6 (1): 147–160. дои : 10.1162/neco.1994.6.1.147 . S2CID   1251969 .
  7. ^ Шир, ОМ; А. Иегудаев (2020). «О ковариационно-гессианском отношении в эволюционных стратегиях» . Теоретическая информатика . 801 . Эльзевир: 157–174. arXiv : 1806.03674 . дои : 10.1016/j.tcs.2019.09.002 .
  8. ^ Мотт, Адам Дж.; Рез, Питер (24 декабря 2014 г.). «Расчет инфракрасных спектров белков» . Европейский биофизический журнал . 44 (3): 103–112. дои : 10.1007/s00249-014-1005-6 . ISSN   0175-7571 . ПМИД   25538002 . S2CID   2945423 .
  9. ^ Лю, Шуанчжэ; Лейва, Виктор; Чжуан, Дэн; Ма, Тифенг; Фигероа-Суньига, Хорхе И. (март 2022 г.). «Матричное дифференциальное исчисление с приложениями в многомерной линейной модели и ее диагностика» . Журнал многомерного анализа . 188 : 104849. doi : 10.1016/j.jmva.2021.104849 .
  10. ^ Халлам, Арне (7 октября 2004 г.). «Econ 500: Количественные методы экономического анализа I» (PDF) . Штат Айова .
  11. ^ Нойдекер, Хайнц; Магнус, Ян Р. (1988). Матричное дифференциальное исчисление с приложениями в статистике и эконометрике . Нью-Йорк: Джон Уайли и сыновья . п. 136. ИСБН  978-0-471-91516-4 .
  12. ^ Чан, Альфа К. (1984). Фундаментальные методы математической экономики (Третье изд.). МакГроу-Хилл. п. 386 . ISBN  978-0-07-010813-4 .

Дальнейшее чтение

[ редактировать ]
  • Льюис, Дэвид В. (1991). Матричная теория . Сингапур: World Scientific. ISBN  978-981-02-0689-5 .
  • Магнус, Ян Р.; Нойдекер, Хайнц (1999). «Второй дифференциал». Матричное дифференциальное исчисление: с приложениями в статистике и эконометрике (пересмотренное издание). Нью-Йорк: Уайли. стр. 99–115. ISBN  0-471-98633-Х .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 806c3d0fb0fbb3fb99327549854c9639__1703690580
URL1:https://arc.ask3.ru/arc/aa/80/39/806c3d0fb0fbb3fb99327549854c9639.html
Заголовок, (Title) документа по адресу, URL1:
Hessian matrix - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)