Матрица Гессе

Из Википедии, бесплатной энциклопедии

В математике матрица Гессе , матрица Гессе или (реже) матрица Гессе — это квадратная матрица второго порядка частных производных скалярной функции , или скалярного поля . Он описывает локальную кривизну функции многих переменных. Матрица Гессе была разработана в XIX веке немецким математиком Людвигом Отто Гессе и позже названа в его честь. Гессен первоначально использовал термин «функциональные детерминанты». Гессиан иногда обозначается H или, что неоднозначно, ∇ 2 .

Определения и свойства [ править ]

Предполагать это функция, принимающая в качестве входных данных вектор и вывод скаляра порядка Если все частные производные второго существуют, то матрица Гессе из это квадрат матрица, обычно определяемая и организованная как

То есть запись i- й строки и j -го столбца равна

Если, кроме того, все вторые частные производные непрерывны, матрица Гессе является симметричной матрицей в силу симметрии вторых производных .

Определитель определителем матрицы Гессе называется Гессе . [1]

Матрица Гессе функции транспонированием матрицы Якоби градиента функции является ; то есть:

Приложения [ править ]

Точки перегиба [ править ]

Если однородный многочлен от трех переменных, уравнение неявное уравнение плоской проективной кривой . Точками перегиба кривой являются именно те неособые точки, в которых определитель Гессе равен нулю. следует Из теоремы Безу , что кубическая плоская кривая имеет не более точки перегиба, поскольку определитель Гессе является многочленом степени

Тест второй производной [ править ]

Матрица Гессе выпуклой функции полуопределена положительно . Уточнение этого свойства позволяет нам проверить, является ли критическая точка является локальным максимумом, локальным минимумом или седловой точкой следующим образом:

Если гессиан положительно определен в затем достигает изолированного локального минимума при Если гессиан отрицательно определен в затем достигает изолированного локального максимума при Если гессиан имеет как положительные, так и отрицательные собственные значения , то является перевалочной точкой для В противном случае тест не дает результатов. Это означает, что в локальном минимуме гессиан является положительно-полуопределенным, а в локальном максимуме гессиан является отрицательно-полуопределенным.

Для положительно-полуопределенных и отрицательно-полуопределенных гессианов тест не дает результатов (критическая точка, где гессиан является полуопределенным, но не определенным, может быть локальным экстремумом или седловой точкой). Однако с точки зрения теории Морса можно сказать больше .

Проверка второй производной для функций одной и двух переменных проще, чем общий случай. В одной переменной гессиан содержит ровно одну вторую производную; если оно положительное, то является локальным минимумом, и если он отрицателен, то – локальный максимум; если он равен нулю, то тест не дает результатов. В двух переменных можно использовать определитель , поскольку определитель является произведением собственных значений. Если оно положительное, то собственные значения либо положительные, либо оба отрицательные. Если оно отрицательное, то два собственных значения имеют разные знаки. Если оно равно нулю, то тест второй производной не дает результатов.

Эквивалентно, условия второго порядка, достаточные для локального минимума или максимума, могут быть выражены через последовательность главных (самых верхних левых) миноров (определителей подматриц) гессиана; эти условия являются частным случаем условий, приведенных в следующем разделе для граничных гессианов для оптимизации с ограничениями — случая, когда количество ограничений равно нулю. В частности, достаточным условием минимума является то, что все эти главные миноры положительны, тогда как достаточным условием максимума является то, что миноры чередуются по знаку с второстепенный - отрицательный.

Критические точки [ править ]

Если градиент (вектор частных производных) функции в какой-то момент равен нулю затем имеет критическую точку (или стационарную точку ) при Определитель в гессиана в некоторых контекстах называется дискриминантом . Если этот определитель равен нулю, то называется вырожденной критической точкой или неморзовская критическая точка В противном случае она невырождена и называется критической точкой Морса .

Матрица Гессе играет важную роль в теории Морса и теории катастроф , поскольку ее ядро ​​и собственные значения позволяют классифицировать критические точки. [2] [3] [4]

Определитель матрицы Гессе, вычисленный в критической точке функции, равен гауссовой кривизне функции, рассматриваемой как многообразие. Собственные значения гессиана в этой точке являются главными кривизнами функции, а собственные векторы — главными направлениями кривизны. (См. Гауссову кривизну § Связь с главными кривизнами .)

Использование в оптимизации [ править ]

Матрицы Гессе используются в крупномасштабных задачах оптимизации в методах типа Ньютона , поскольку они являются коэффициентом квадратичного члена локального разложения Тейлора функции. То есть,

где это градиент Вычисление и сохранение полной матрицы Гессе занимает памяти, что невозможно для многомерных функций, таких как функции потерь нейронных сетей , условные случайные поля и другие статистические модели с большим количеством параметров. Для таких ситуаций усеченного Ньютона и квазиньютона были разработаны алгоритмы . Последнее семейство алгоритмов использует приближения к гессиану; один из самых популярных квазиньютоновских алгоритмов — BFGS . [5]

Такие аппроксимации могут использовать тот факт, что алгоритм оптимизации использует гессиан только как линейный оператор. и продолжайте, сначала заметив, что гессиан также появляется в локальном расширении градиента:

Сдача в аренду для некоторого скаляра это дает

то есть,
поэтому, если градиент уже вычислен, приблизительный гессиан можно вычислить с помощью линейного (по размеру градиента) числа скалярных операций. (Хотя эта аппроксимационная схема проста в программировании, она не является численно стабильной, поскольку должен быть небольшим, чтобы предотвратить ошибку из-за член, но при его уменьшении теряется точность в первом члене. [6] )

В частности, что касается эвристики рандомизированного поиска, ковариационная матрица стратегии эволюции адаптируется к обратной матрице Гессе с точностью до скалярного коэффициента и небольших случайных флуктуаций. Этот результат был формально доказан для стратегии с одним родителем и статической модели по мере увеличения размера популяции на основе квадратичного приближения. [7]

Другие приложения [ править ]

Матрица Гессиана обычно используется для выражения операторов обработки изображений в обработке изображений и компьютерном зрении (см. Лапласиан гауссовского детектора капель (LoG), определитель детектора каплей Гессиана (DoH) и масштабное пространство ). Его можно использовать в обычном режиме анализа для расчета различных молекулярных частот в инфракрасной спектроскопии . [8] Его также можно использовать в диагностике местной чувствительности и статистической диагностике. [9]

Обобщения [ править ]

Гессен с границей

Гессиан с границами используется для теста второй производной в некоторых задачах оптимизации с ограничениями. Учитывая функцию рассмотренное ранее, но добавив ограничительную функцию такой, что гессиан с границей - это гессиан функции Лагранжа [10]

Если есть, скажем, ограничений, то ноль в верхнем левом углу является блок нулей, и есть пограничные ряды вверху и пограничные столбцы слева.

Приведенные выше правила, гласящие, что экстремумы характеризуются (среди критических точек с неособым гессианом) положительно-определенным или отрицательно-определенным гессианом, здесь не могут применяться, поскольку окаймленный гессиан не может быть ни отрицательно-определенным, ни положительно-определенным, поскольку если — это любой вектор, единственная ненулевая запись которого является его первой.

Второй критерий производной состоит здесь из знаковых ограничений определителей некоторого набора подматрицы окаймленного гессиана. [11] Интуитивно, ограничения можно рассматривать как сведение проблемы к проблеме с свободные переменные. (Например, максимизация с учетом ограничения можно свести к максимизации без ограничений.)

В частности, условия знака накладываются на последовательность ведущих главных миноров (определителей выровненных в верхнем левом углу подматриц) гессиана с границами, для которых первый ведущие главные миноры игнорируются, наименьший минор состоит из усеченных первых строк и столбцов, следующие состоят из усеченных первых строки и столбцы и т. д., причем последний — это весь гессен с окантовкой; если больше, чем тогда наименьший ведущий главный минор - это сам гессен. [12] Таким образом, существуют второстепенные значения, которые следует учитывать, каждый из которых оценивается в определенной точке и считается возможным максимумом или минимумом . Достаточным условием локального максимума является то, что эти миноры чередуются по знаку с наименьшим, имеющим знак Достаточным условием локального минимума является то, что все эти миноры имеют знак (В неограниченном случае эти условия совпадают с условиями, при которых гессиан без границ является отрицательно определенным или положительно определенным соответственно).

Векторные функции [ править ]

Если вместо этого является векторным полем то есть,

то совокупность вторых частных производных не является третьего порядка матрица, а скорее тензор . Это можно рассматривать как массив Матрицы Гессе, по одной для каждого компонента :
Этот тензор вырождается в обычную матрицу Гессе, когда

Обобщение на сложный случай [ править ]

В контексте нескольких комплексных переменных гессиан можно обобщить. Предполагать и написать Тогда обобщенный гессиан есть Если удовлетворяет n-мерным условиям Коши–Римана , то комплексная матрица Гессе равна тождественному нулю.

Обобщения многообразий римановых

Позволять быть римановым многообразием и это связь Леви-Чивита . Позволять быть гладкой функцией. Определите тензор Гессе с помощью

где при этом используется тот факт, что первая ковариантная производная функции совпадает с ее обычным дифференциалом. Выбор местных координат дает местное выражение для гессиана как
где являются Кристоффелевыми символами связи. Другие эквивалентные формы гессиана имеют вид

См. также [ править ]

Примечания [ править ]

  1. ^ Бинмор, Кен ; Дэвис, Джоан (2007). Концепции и методы исчисления . Издательство Кембриджского университета. п. 190. ИСБН  978-0-521-77541-0 . OCLC   717598615 .
  2. ^ Каллахан, Джеймс Дж. (2010). Продвинутое исчисление: геометрический взгляд . Springer Science & Business Media. п. 248. ИСБН  978-1-4419-7332-0 .
  3. ^ Кашаро, Б.; Фортунато, Д.; Франкавилья, М.; Масиелло, А., ред. (2011). Последние достижения в общей теории относительности . Springer Science & Business Media. п. 178. ИСБН  9788847021136 .
  4. ^ доминиканец П.Л. Кастриджано; Сандра А. Хейс (2004). Теория катастроф . Вествью Пресс. п. 18. ISBN  978-0-8133-4126-2 .
  5. ^ Носедаль, Хорхе ; Райт, Стивен (2000). Численная оптимизация . Спрингер Верлаг. ISBN  978-0-387-98793-4 .
  6. ^ Перлмуттер, Барак А. (1994). «Быстрое точное умножение на гессиан» (PDF) . Нейронные вычисления . 6 (1): 147–160. дои : 10.1162/neco.1994.6.1.147 . S2CID   1251969 .
  7. ^ Шир, ОМ; А. Иегудаев (2020). «О ковариационно-гессианском отношении в эволюционных стратегиях» . Теоретическая информатика . 801 . Эльзевир: 157–174. arXiv : 1806.03674 . дои : 10.1016/j.tcs.2019.09.002 .
  8. ^ Мотт, Адам Дж.; Рез, Питер (24 декабря 2014 г.). «Расчет инфракрасных спектров белков» . Европейский биофизический журнал . 44 (3): 103–112. дои : 10.1007/s00249-014-1005-6 . ISSN   0175-7571 . ПМИД   25538002 . S2CID   2945423 .
  9. ^ Лю, Шуанчжэ; Лейва, Виктор; Чжуан, Дэн; Ма, Тифенг; Фигероа-Суньига, Хорхе И. (март 2022 г.). «Матричное дифференциальное исчисление с приложениями в многомерной линейной модели и ее диагностика» . Журнал многомерного анализа . 188 : 104849. doi : 10.1016/j.jmva.2021.104849 .
  10. ^ Халлам, Арне (7 октября 2004 г.). «Econ 500: Количественные методы экономического анализа I» (PDF) . Штат Айова .
  11. ^ Нойдекер, Хайнц; Магнус, Ян Р. (1988). Матричное дифференциальное исчисление с приложениями в статистике и эконометрике . Нью-Йорк: Джон Уайли и сыновья . п. 136. ИСБН  978-0-471-91516-4 .
  12. ^ Чан, Альфа К. (1984). Фундаментальные методы математической экономики (Третье изд.). МакГроу-Хилл. п. 386 . ISBN  978-0-07-010813-4 .

Дальнейшее чтение [ править ]

  • Льюис, Дэвид В. (1991). Матричная теория . Сингапур: World Scientific. ISBN  978-981-02-0689-5 .
  • Магнус, Ян Р.; Нойдекер, Хайнц (1999). «Второй дифференциал». Матричное дифференциальное исчисление: с приложениями в статистике и эконометрике (пересмотренное издание). Нью-Йорк: Уайли. стр. 99–115. ISBN  0-471-98633-Х .

Внешние ссылки [ править ]