Дивергенция Брегмана
В математике , особенно в статистике и информационной геометрии , расхождение Брегмана или расстояние Брегмана — это мера разницы между двумя точками, определяемая в терминах строго выпуклой функции ; они образуют важный класс расхождений . Когда точки интерпретируются как распределения вероятностей – в частности, либо как значения параметра параметрической модели , либо как набор данных наблюдаемых значений – результирующее расстояние является статистическим расстоянием . Самое основное расхождение Брегмана — это квадрат евклидова расстояния .
Дивергенции Брегмана похожи на метрики , но не удовлетворяют ни неравенству треугольника (никогда), ни симметрии (в целом). Однако они удовлетворяют обобщению теоремы Пифагора , и в информационной геометрии соответствующее статистическое многообразие интерпретируется как (двойственно) плоское многообразие . Это позволяет обобщить многие методы теории оптимизации на расходимости Брегмана, геометрически как обобщения метода наименьших квадратов .
Дивергенции Брегмана названы в честь русского математика Льва М. Брегмана , который ввел эту концепцию в 1967 году.
Определение
[ редактировать ]Позволять — непрерывно дифференцируемая строго выпуклая функция , определенная на выпуклом множестве .
Расстояние Брегмана, связанное с F для точек - это разница между значением F в точке p и значением разложения Тейлора первого порядка F оцененным вокруг точки q, в точке p :
Характеристики
[ редактировать ]- Неотрицательность : для всех , . Это следствие выпуклости .
- Позитивность : Когда строго выпуклая, если только .
- Уникальность с точностью до аффинной разницы : если только является аффинной функцией.
- Выпуклость : выпукло по первому аргументу, но не обязательно по второму. Если F строго выпукло, то строго выпукла по первому аргументу.
- Например, возьмем f(x) = |x|, сгладим ее до 0, затем возьмем , затем .
- Линейность : Если мы думаем о расстоянии Брегмана как об операторе функции F , то оно линейно относительно неотрицательных коэффициентов. Другими словами, для строго выпуклая и дифференцируемая, и ,
- Двойственность : если F строго выпукла, то функция F имеет выпуклую сопряженную функцию. которое также строго выпукло и непрерывно дифференцируемо на некотором выпуклом множестве . Расстояние Брегмана, определенное относительно двойственен к как
- Здесь, и являются двойственными точками, соответствующими p и q.
- Более того, используя те же обозначения:
- Среднее как минимизатор : Ключевой результат о расхождениях Брегмана заключается в том, что для случайного вектора средний вектор минимизирует ожидаемое расхождение Брегмана от случайного вектора. Этот результат обобщает результат учебника о том, что среднее значение набора минимизирует общий квадрат ошибки элементов в наборе. Этот результат был доказан для векторного случая (Банерджи и др., 2005) и распространен на случай функций/распределений (Фригьик и др., 2008). Этот результат важен, поскольку он дополнительно оправдывает использование среднего значения в качестве представителя случайного набора, особенно в байесовской оценке.
- Шары Брегмана ограничены и компактны, если X замкнуто : Определите шар Брегмана с центром в точке x и радиусом r по формуле . Когда конечномерен, , если находится в относительной внутренней части , или если локально закрыто в (т. е. существует замкнутый шар сосредоточено в , такой, что закрыто), то ограничен для всех . Если закрыто, то компактен для всех .
- Закон косинусов : [1]
Для любого
- Закон параллелограмма : для любого ,
- Проекция Брегмана : для любого , определим «проекцию Брегмана» на :
. Затем
- если выпукла, то проекция единственна, если она существует;
- если непусто, замкнуто, выпукло и конечномерна, то проекция существует и единственна. [3]
- Обобщенная теорема Пифагора : [1]
Для любого ,
Это равенство, если находится в относительной внутренней части .
В частности, это всегда происходит, когда является аффинным множеством.
- Отсутствие неравенства треугольника: поскольку расхождение Брегмана по сути является обобщением квадрата евклидова расстояния, неравенство треугольника отсутствует. Действительно, , который может быть положительным или отрицательным.
Доказательства
[ редактировать ]- Неотрицательность и положительность: используйте неравенство Йенсена .
- Уникальность с точностью до аффинной разницы: исправьте некоторые ошибки , то для любого другого , мы имеем по определению .
- Выпуклость в первом аргументе: по определению, и используйте выпуклость F. То же самое для строгой выпуклости.
- Линейность по F, закон косинусов, закон параллелограмма: по определению.
- Двойственность: См. рисунок 1. [4]
- Шары Брегмана ограничены и компактны, если X замкнуто:
Исправить . Включите аффинное преобразование , так что .
Возьми немного , такой, что . Затем рассмотрим «радиально-направленную» производную на евклидовой сфере .
для всех .
С компактен, достигает минимальной стоимости в какой-то момент .
С строго выпуклая, . Затем .
С является в , является непрерывным в , таким образом закрыто, если является.
- Проекция четко определен, когда является замкнутым и выпуклым.
Исправить . Возьми немного , тогда пусть . Затем нарисуйте мяч Брегмана. . Он замкнут и ограничен, поэтому компактен. С непрерывна и строго выпукла на ней и ограничена снизу , он достигает на нем уникального минимума.
- Пифагорово неравенство.
По закону косинуса, , что должно быть , с сводит к минимуму в , и является выпуклым.
- Пифагорово равенство, когда находится в относительной внутренней части .
Если , то поскольку находится в относительном интерьере, мы можем перейти от в направлении, противоположном , чтобы уменьшить , противоречие.
Таким образом .
Классификационные теоремы
[ редактировать ]- Единственные симметричные расходимости Брегмана на представляют собой квадраты обобщенных евклидовых расстояний ( расстояние Махаланобиса ), то есть, для некоторой положительной определенности . [5]
Для любого , определять для . Позволять .
Затем для , и поскольку является непрерывным, также для .
Тогда из диаграммы мы видим, что для для всех , мы должны иметь линейный по .
Таким образом, мы находим, что изменяется линейно в любом направлении. По следующей лемме является квадратичным. С также строго выпукла, она имеет вид , где .
Лемма : Если является открытым подмножеством , имеет непрерывную производную и, учитывая любой отрезок , функция линейна по , затем является квадратичной функцией.
Идея доказательства: для любой квадратичной функции , у нас есть все еще имеет такую линейность производной, поэтому мы вычтем несколько квадратичных функций и покажем, что становится нулевым.
Идея доказательства может быть полностью проиллюстрирована для случая , поэтому мы доказываем это в данном случае.
По производной-линейности, является квадратичной функцией на любом отрезке прямой в . Вычтем четыре квадратичные функции такие, что становится тождественно нулевым на оси x, оси y и линия.
Позволять , за удачно выбранный . Теперь используйте чтобы удалить линейный член, и использовать соответственно, чтобы удалить квадратичные члены вдоль трех линий.
не в начале координат, существует линия через который пересекает оси X, Y и линия в трех разных точках. С квадратичен по , и равен нулю в трех разных точках, тождественно равен нулю , таким образом . Таким образом является квадратичным.
Следующие две характеристики предназначены для расхождений на , множество всех вероятностных мер на , с .
Определите расхождение на как любая функция типа , такой, что для всех , затем:
- Единственное расхождение по это одновременно и дивергенция Брегмана, и f-дивергенция - это дивергенция Кульбака – Лейблера . [6]
- Если , то любое расхождение Брегмана на которое удовлетворяет неравенству обработки данных , должно быть расхождением Кульбака – Лейблера. (На самом деле достаточно более слабого предположения о «достаточности».) Контрпримеры существуют, когда . [6]
Учитывая расхождение Брегмана , его «противоположность», определяемая , как правило, не является расхождением Брегмана. Например, дивергенция Кульбака-Лейбера является одновременно дивергенцией Брегмана и f-дивергенцией. Ее обратная дивергенция также является f-дивергенцией, но согласно приведенной выше характеристике обратная КЛ-дивергенция не может быть дивергенцией Брегмана.
Примеры
[ редактировать ]- Квадрат расстояния Махаланобиса порождается выпуклой квадратичной формой .
- Каноническим примером расстояния Брегмана является квадрат евклидова расстояния. . Это является частным случаем вышеизложенного, когда является тождеством, т.е. для . Как уже отмечалось, аффинные различия, т.е. добавленные более низкие порядки , не имеют отношения к .
- Обобщенное расхождение Кульбака – Лейблера.
- генерируется отрицательной энтропии функцией
- При ограничении симплексом последние два члена сокращаются, давая обычное расхождение Кульбака – Лейблера для распределений.
- Расстояние Итакура –Сайто ,
- генерируется выпуклой функцией
Обобщающая проективная двойственность
[ редактировать ]Ключевым инструментом в вычислительной геометрии является идея проективной двойственности , которая отображает точки в гиперплоскости и наоборот, сохраняя при этом отношения инцидентности и отношения выше-ниже. Существует множество аналитических форм проективного дуала: одна общая форма отображает точку. в гиперплоскость . Это отображение можно интерпретировать (отождествляя гиперплоскость с ее нормалью) как выпуклое сопряженное отображение, которое переводит точку p в ее двойственную точку. , где F определяет d -мерный параболоид .
Если теперь мы заменим параболоид произвольной выпуклой функцией, мы получим другое двойственное отображение, которое сохраняет свойства инцидентности и «сверху-внизу» стандартного проективно-двойственного отображения. Это означает, что естественные двойственные понятия в вычислительной геометрии, такие как диаграммы Вороного и триангуляции Делоне, сохраняют свое значение в пространствах расстояний, определяемых произвольной расходимостью Брегмана. Таким образом, алгоритмы «нормальной» геометрии распространяются непосредственно на эти пространства (Буассоннат, Нильсен и Нок, 2010).
Обобщение расходимостей Брегмана.
[ редактировать ]Дивергенции Брегмана можно интерпретировать как предельные случаи искаженных дивергенций Йенсена (см. Nielsen and Boltz, 2011). Дивергенции Йенсена можно обобщить с помощью сравнительной выпуклости, а предельные случаи этих искаженных обобщений Йенсена дают обобщенную дивергенцию Брегмана (см. Nielsen and Nock, 2017).Расхождение хорд Брегмана [7] получается, если вместо касательной взять хорду.
Расхождение Брегмана на других объектах
[ редактировать ]Расхождения Брегмана также можно определить между матрицами, между функциями и между мерами (распределениями). Расхождения Брегмана между матрицами включают потери Штейна и энтропию фон Неймана . Расхождения Брегмана между функциями включают общую квадратическую ошибку, относительную энтропию и квадратичное смещение; см. ссылки Frigyik et al. ниже приведены определения и свойства. Аналогичным образом дивергенции Брегмана также были определены над множествами через субмодулярную функцию множества , которая известна как дискретный аналог выпуклой функции . Субмодулярные дивергенции Брегмана включают в себя ряд дискретных мер расстояния, таких как расстояние Хэмминга , точность и отзыв , взаимная информация и некоторые другие меры расстояния, основанные на наборах (более подробную информацию и свойства субмодулярного Брегмана см. в Iyer & Bilmes, 2012).
Список общих матричных расходимостей Брегмана см. в таблице 15.1. [8]
Приложения
[ редактировать ]В машинном обучении дивергенции Брегмана используются для расчета логистических потерь с двумя темпами, которые работают лучше, чем функция softmax с зашумленными наборами данных. [9]
Дивергенция Брегмана используется в формулировке зеркального спуска , которая включает в себя алгоритмы оптимизации, используемые в машинном обучении, такие как градиентный спуск и алгоритм хеджирования .
Ссылки
[ редактировать ]- ^ Jump up to: а б «Обучение с дивергенциями Брегмана» (PDF) . utexas.edu . Проверено 19 августа 2023 г.
- ^ Адамчик, Мартин (2014). «Информационная геометрия расхождений Брегмана и некоторые приложения в рассуждениях с участием нескольких экспертов» . Энтропия . 16 (12): 6338–6381. Бибкод : 2014Entrp..16.6338A . дои : 10.3390/e16126338 .
- ^ Диллон, Индерджит ; Тропп, Джоэл (2008). «Проблемы близости матрицы с дивергенцией Брегмана» (PDF) . Журнал SIAM по матричному анализу и приложениям . 29 (4).
Предположим, что D_\varphi — расходимость Брегмана, предположим, что {C_k} — конечный набор замкнутых выпуклых множеств, пересечение которых непусто. Учитывая входную матрицу Y, наша цель — создать матрицу \mathbf{X} на пересечении, которая меньше всего расходится с \textbf{Y}, т.е. решить \min_{\mathbf{X} } D_\varphi(\mathbf{ X};\mathbf{Y}) с учетом \mathbf{X} \in \big\cap_k C_k. В мягких условиях решение единственно и имеет вариационную характеристику, аналогичную характеристике ортогональной проекции на выпуклое множество» (подробнее см. раздел 2.4, стр. 1125).
- ^ Нильсен, Франк (28 октября 2021 г.). «Быстрые аппроксимации дивергенции Джеффриса между одномерными гауссовыми смесями посредством преобразования смесей к экспоненциально-полиномиальным распределениям» . Энтропия . 23 (11): 1417. arXiv : 2107.05901 . Бибкод : 2021Entrp..23.1417N . дои : 10.3390/e23111417 . ISSN 1099-4300 . ПМЦ 8619509 . ПМИД 34828115 .
- ^ Нильсен, Франк; Буассонна, Жан-Даниэль ; Нок, Ричард (сентябрь 2010 г.). «Диаграммы Брегмана-Вороного: свойства, алгоритмы и приложения». Дискретная и вычислительная геометрия . 44 (2): 281–307. arXiv : 0709.2196 . дои : 10.1007/s00454-010-9256-1 . ISSN 0179-5376 . S2CID 1327029 .
- ^ Jump up to: а б Цзяо, Цзянтао; Куртад, Томас; Нет, Альберт; Венкат, Картик; Вайсман, Цахи (декабрь 2014 г.). «Информационные меры: любопытный случай двоичного алфавита». Транзакции IEEE по теории информации . 60 (12): 7616–7626. arXiv : 1404.6810 . дои : 10.1109/TIT.2014.2360184 . ISSN 0018-9448 . S2CID 13108908 .
- ^ Нильсен, Франк; Нок, Ричард (2019). «Расхождение хорд Брегмана». Геометрическая наука об информации . Конспекты лекций по информатике. Том. 11712. стр. 299–308. arXiv : 1810.09113 . дои : 10.1007/978-3-030-26980-7_31 . ISBN 978-3-030-26979-1 . S2CID 53046425 .
- ^ «Матричная информационная геометрия», Р. Нок, Б. Магдалу, Э. Брийс и Ф. Нильсен, pdf из этой книги
- ^ Эхсан Амид, Манфред К. Вармут, Рохан Анил, Томер Корен (2019). «Надежные логистические потери с двумя темпами, основанные на расхождениях Брегмана». Конференция по нейронным системам обработки информации. стр. 14987-14996. PDF
- Банерджи, Ариндам; Меругу, Сруджана; Диллон, Индерджит С.; Гош, Джойдип (2005). «Кластеризация с расхождениями Брегмана» . Журнал исследований машинного обучения . 6 : 1705–1749.
- Брегман, LM (1967). «Релаксационный метод поиска общих точек выпуклых множеств и его применение к решению задач выпуклого программирования». Вычислительная математика и математическая физика СССР . 7 (3): 200–217. дои : 10.1016/0041-5553(67)90040-7 .
- Фригиик, Бела А.; Шривастава, Сантош; Гупта, Майя Р. (2008). «Функциональные расхождения Брегмана и байесовская оценка распределений» (PDF) . Транзакции IEEE по теории информации . 54 (11): 5130–5139. arXiv : cs/0611123 . дои : 10.1109/TIT.2008.929943 . S2CID 1254 . Архивировано из оригинала (PDF) 12 августа 2010 года.
- Айер, Ришаб; Билмс, Джефф (2012). «Субмодулярные расходимости-Брегмана и расходимости Ловаса-Брегмана с приложениями». Конференция по нейронным системам обработки информации .
- Фригиик, Бела А.; Шривастава, Сантош; Гупта, Майя Р. (2008). Введение в функциональные производные (PDF) . Технический отчет UWEE 2008-0001. Вашингтонский университет, факультет электротехники. Архивировано из оригинала (PDF) 17 февраля 2017 года . Проверено 20 марта 2014 г.
- Харремоэс, Питер (2017). «Расхождение и достаточность для выпуклой оптимизации» . Энтропия . 19 (5): 206. arXiv : 1701.01010 . Бибкод : 2017Entrp..19..206H . дои : 10.3390/e19050206 .
- Нильсен, Франк; Нок, Ричард (2009). «Двойственные диаграммы Вороного относительно репрезентативных расходимостей Брегмана» (PDF) . Учеб. 6-й Международный симпозиум по диаграммам Вороного . IEEE. дои : 10.1109/ИСВД.2009.15 .
- Нильсен, Франк; Нок, Ричард (2007). «О центроидах симметризованных расходимостей Брегмана». arXiv : 0711.3242 [ cs.CG ].
- Нильсен, Франк; Буассонна, Жан-Даниэль; Нок, Ричард (2007). «Визуализация диаграмм Брегмана-Вороного» (PDF) . Учеб. 23-й симпозиум ACM по вычислительной геометрии (видеотрек) . дои : 10.1145/1247069.1247089 .
- Буассонна, Жан-Даниэль ; Нильсен, Франк; Нок, Ричард (2010). «Диаграммы Брегмана-Вороного» . Дискретная и вычислительная геометрия . 44 (2): 281–307. arXiv : 0709.2196 . дои : 10.1007/s00454-010-9256-1 . S2CID 1327029 .
- Нильсен, Франк; Нок, Ричард (2006). «Об аппроксимации наименьших объемлющих шаров Брегмана». Учеб. 22-й симпозиум ACM по вычислительной геометрии . стр. 485–486. дои : 10.1145/1137856.1137931 .
- Нильсен, Франк; Больц, Сильвен (2011). «Центроиды Бурбеа-Рао и Бхаттачарья». Транзакции IEEE по теории информации . 57 (8): 5455–5466. arXiv : 1004.5049 . дои : 10.1109/TIT.2011.2159046 . S2CID 14238708 .
- Нильсен, Франк; Нок, Ричард (2017). «Обобщение косых расхождений Дженсена и расхождений Брегмана со сравнительной выпуклостью». Письма об обработке сигналов IEEE . 24 (8): 1123–1127. arXiv : 1702.04877 . Бибкод : 2017ISPL...24.1123N . дои : 10.1109/ЛСП.2017.2712195 . S2CID 31899023 .