Jump to content

Дивергенция Брегмана

(Перенаправлено из Двойно плоский коллектор )

В математике , особенно в статистике и информационной геометрии , расхождение Брегмана или расстояние Брегмана — это мера разницы между двумя точками, определяемая в терминах строго выпуклой функции ; они образуют важный класс расхождений . Когда точки интерпретируются как распределения вероятностей – в частности, либо как значения параметра параметрической модели , либо как набор данных наблюдаемых значений – результирующее расстояние является статистическим расстоянием . Самое основное расхождение Брегмана — это квадрат евклидова расстояния .

Дивергенции Брегмана похожи на метрики , но не удовлетворяют ни неравенству треугольника (никогда), ни симметрии (в целом). Однако они удовлетворяют обобщению теоремы Пифагора , и в информационной геометрии соответствующее статистическое многообразие интерпретируется как (двойственно) плоское многообразие . Это позволяет обобщить многие методы теории оптимизации на расходимости Брегмана, геометрически как обобщения метода наименьших квадратов .

Дивергенции Брегмана названы в честь русского математика Льва М. Брегмана , который ввел эту концепцию в 1967 году.

Определение

[ редактировать ]

Позволять — непрерывно дифференцируемая строго выпуклая функция , определенная на выпуклом множестве .

Расстояние Брегмана, связанное с F для точек - это разница между значением F в точке p и значением разложения Тейлора первого порядка F оцененным вокруг точки q, в точке p :

Характеристики

[ редактировать ]
  • Неотрицательность : для всех , . Это следствие выпуклости .
  • Позитивность : Когда строго выпуклая, если только .
  • Уникальность с точностью до аффинной разницы : если только является аффинной функцией.
  • Выпуклость : выпукло по первому аргументу, но не обязательно по второму. Если F строго выпукло, то строго выпукла по первому аргументу.
    • Например, возьмем f(x) = |x|, сгладим ее до 0, затем возьмем , затем .
  • Линейность : Если мы думаем о расстоянии Брегмана как об операторе функции F , то оно линейно относительно неотрицательных коэффициентов. Другими словами, для строго выпуклая и дифференцируемая, и ,
  • Двойственность : если F строго выпукла, то функция F имеет выпуклую сопряженную функцию. которое также строго выпукло и непрерывно дифференцируемо на некотором выпуклом множестве . Расстояние Брегмана, определенное относительно двойственен к как
Здесь, и являются двойственными точками, соответствующими p и q.
Более того, используя те же обозначения:
  • Среднее как минимизатор : Ключевой результат о расхождениях Брегмана заключается в том, что для случайного вектора средний вектор минимизирует ожидаемое расхождение Брегмана от случайного вектора. Этот результат обобщает результат учебника о том, что среднее значение набора минимизирует общий квадрат ошибки элементов в наборе. Этот результат был доказан для векторного случая (Банерджи и др., 2005) и распространен на случай функций/распределений (Фригьик и др., 2008). Этот результат важен, поскольку он дополнительно оправдывает использование среднего значения в качестве представителя случайного набора, особенно в байесовской оценке.
  • Шары Брегмана ограничены и компактны, если X замкнуто : Определите шар Брегмана с центром в точке x и радиусом r по формуле . Когда конечномерен, , если находится в относительной внутренней части , или если локально закрыто в (т. е. существует замкнутый шар сосредоточено в , такой, что закрыто), то ограничен для всех . Если закрыто, то компактен для всех .
  • Закон косинусов : [1]

Для любого

Обобщенная теорема Пифагора для дивергенции Брегмана. [2]
  • Проекция Брегмана : для любого , определим «проекцию Брегмана» на :

. Затем

    • если выпукла, то проекция единственна, если она существует;
    • если непусто, замкнуто, выпукло и конечномерна, то проекция существует и единственна. [3]
  • Обобщенная теорема Пифагора : [1]

Для любого ,

Это равенство, если находится в относительной внутренней части .

В частности, это всегда происходит, когда является аффинным множеством.

  • Отсутствие неравенства треугольника: поскольку расхождение Брегмана по сути является обобщением квадрата евклидова расстояния, неравенство треугольника отсутствует. Действительно, , который может быть положительным или отрицательным.

Доказательства

[ редактировать ]
  • Неотрицательность и положительность: используйте неравенство Йенсена .
  • Уникальность с точностью до аффинной разницы: исправьте некоторые ошибки , то для любого другого , мы имеем по определению .
  • Выпуклость в первом аргументе: по определению, и используйте выпуклость F. То же самое для строгой выпуклости.
  • Линейность по F, закон косинусов, закон параллелограмма: по определению.
  • Двойственность: См. рисунок 1. [4]
  • Шары Брегмана ограничены и компактны, если X замкнуто:

Исправить . Включите аффинное преобразование , так что .

Возьми немного , такой, что . Затем рассмотрим «радиально-направленную» производную на евклидовой сфере .

для всех .

С компактен, достигает минимальной стоимости в какой-то момент .

С строго выпуклая, . Затем .

С является в , является непрерывным в , таким образом закрыто, если является.

  • Проекция четко определен, когда является замкнутым и выпуклым.

Исправить . Возьми немного , тогда пусть . Затем нарисуйте мяч Брегмана. . Он замкнут и ограничен, поэтому компактен. С непрерывна и строго выпукла на ней и ограничена снизу , он достигает на нем уникального минимума.

  • Пифагорово неравенство.

По закону косинуса, , что должно быть , с сводит к минимуму в , и является выпуклым.

  • Пифагорово равенство, когда находится в относительной внутренней части .

Если , то поскольку находится в относительном интерьере, мы можем перейти от в направлении, противоположном , чтобы уменьшить , противоречие.

Таким образом .

Классификационные теоремы

[ редактировать ]
Доказательство
Дивергенция Брегмана интерпретируется как области.

Для любого , определять для . Позволять .

Затем для , и поскольку является непрерывным, также для .

Тогда из диаграммы мы видим, что для для всех , мы должны иметь линейный по .

Таким образом, мы находим, что изменяется линейно в любом направлении. По следующей лемме является квадратичным. С также строго выпукла, она имеет вид , где .

Лемма : Если является открытым подмножеством , имеет непрерывную производную и, учитывая любой отрезок , функция линейна по , затем является квадратичной функцией.

Идея доказательства: для любой квадратичной функции , у нас есть все еще имеет такую ​​​​линейность производной, поэтому мы вычтем несколько квадратичных функций и покажем, что становится нулевым.

Идея доказательства может быть полностью проиллюстрирована для случая , поэтому мы доказываем это в данном случае.

По производной-линейности, является квадратичной функцией на любом отрезке прямой в . Вычтем четыре квадратичные функции такие, что становится тождественно нулевым на оси x, оси y и линия.

Позволять , за удачно выбранный . Теперь используйте чтобы удалить линейный член, и использовать соответственно, чтобы удалить квадратичные члены вдоль трех линий.

не в начале координат, существует линия через который пересекает оси X, Y и линия в трех разных точках. С квадратичен по , и равен нулю в трех разных точках, тождественно равен нулю , таким образом . Таким образом является квадратичным.

Следующие две характеристики предназначены для расхождений на , множество всех вероятностных мер на , с .

Определите расхождение на как любая функция типа , такой, что для всех , затем:

  • Единственное расхождение по это одновременно и дивергенция Брегмана, и f-дивергенция - это дивергенция Кульбака – Лейблера . [6]
  • Если , то любое расхождение Брегмана на которое удовлетворяет неравенству обработки данных , должно быть расхождением Кульбака – Лейблера. (На самом деле достаточно более слабого предположения о «достаточности».) Контрпримеры существуют, когда . [6]

Учитывая расхождение Брегмана , его «противоположность», определяемая , как правило, не является расхождением Брегмана. Например, дивергенция Кульбака-Лейбера является одновременно дивергенцией Брегмана и f-дивергенцией. Ее обратная дивергенция также является f-дивергенцией, но согласно приведенной выше характеристике обратная КЛ-дивергенция не может быть дивергенцией Брегмана.

  • Квадрат расстояния Махаланобиса порождается выпуклой квадратичной формой .
  • Каноническим примером расстояния Брегмана является квадрат евклидова расстояния. . Это является частным случаем вышеизложенного, когда является тождеством, т.е. для . Как уже отмечалось, аффинные различия, т.е. добавленные более низкие порядки , не имеют отношения к .
  • Обобщенное расхождение Кульбака – Лейблера.
генерируется отрицательной энтропии функцией
При ограничении симплексом последние два члена сокращаются, давая обычное расхождение Кульбака – Лейблера для распределений.
генерируется выпуклой функцией

Обобщающая проективная двойственность

[ редактировать ]

Ключевым инструментом в вычислительной геометрии является идея проективной двойственности , которая отображает точки в гиперплоскости и наоборот, сохраняя при этом отношения инцидентности и отношения выше-ниже. Существует множество аналитических форм проективного дуала: одна общая форма отображает точку. в гиперплоскость . Это отображение можно интерпретировать (отождествляя гиперплоскость с ее нормалью) как выпуклое сопряженное отображение, которое переводит точку p в ее двойственную точку. , где F определяет d -мерный параболоид .

Если теперь мы заменим параболоид произвольной выпуклой функцией, мы получим другое двойственное отображение, которое сохраняет свойства инцидентности и «сверху-внизу» стандартного проективно-двойственного отображения. Это означает, что естественные двойственные понятия в вычислительной геометрии, такие как диаграммы Вороного и триангуляции Делоне, сохраняют свое значение в пространствах расстояний, определяемых произвольной расходимостью Брегмана. Таким образом, алгоритмы «нормальной» геометрии распространяются непосредственно на эти пространства (Буассоннат, Нильсен и Нок, 2010).

Обобщение расходимостей Брегмана.

[ редактировать ]

Дивергенции Брегмана можно интерпретировать как предельные случаи искаженных дивергенций Йенсена (см. Nielsen and Boltz, 2011). Дивергенции Йенсена можно обобщить с помощью сравнительной выпуклости, а предельные случаи этих искаженных обобщений Йенсена дают обобщенную дивергенцию Брегмана (см. Nielsen and Nock, 2017).Расхождение хорд Брегмана [7] получается, если вместо касательной взять хорду.

Расхождение Брегмана на других объектах

[ редактировать ]

Расхождения Брегмана также можно определить между матрицами, между функциями и между мерами (распределениями). Расхождения Брегмана между матрицами включают потери Штейна и энтропию фон Неймана . Расхождения Брегмана между функциями включают общую квадратическую ошибку, относительную энтропию и квадратичное смещение; см. ссылки Frigyik et al. ниже приведены определения и свойства. Аналогичным образом дивергенции Брегмана также были определены над множествами через субмодулярную функцию множества , которая известна как дискретный аналог выпуклой функции . Субмодулярные дивергенции Брегмана включают в себя ряд дискретных мер расстояния, таких как расстояние Хэмминга , точность и отзыв , взаимная информация и некоторые другие меры расстояния, основанные на наборах (более подробную информацию и свойства субмодулярного Брегмана см. в Iyer & Bilmes, 2012).

Список общих матричных расходимостей Брегмана см. в таблице 15.1. [8]

Приложения

[ редактировать ]

В машинном обучении дивергенции Брегмана используются для расчета логистических потерь с двумя темпами, которые работают лучше, чем функция softmax с зашумленными наборами данных. [9]

Дивергенция Брегмана используется в формулировке зеркального спуска , которая включает в себя алгоритмы оптимизации, используемые в машинном обучении, такие как градиентный спуск и алгоритм хеджирования .

  1. ^ Jump up to: а б «Обучение с дивергенциями Брегмана» (PDF) . utexas.edu . Проверено 19 августа 2023 г.
  2. ^ Адамчик, Мартин (2014). «Информационная геометрия расхождений Брегмана и некоторые приложения в рассуждениях с участием нескольких экспертов» . Энтропия . 16 (12): 6338–6381. Бибкод : 2014Entrp..16.6338A . дои : 10.3390/e16126338 .
  3. ^ Диллон, Индерджит ; Тропп, Джоэл (2008). «Проблемы близости матрицы с дивергенцией Брегмана» (PDF) . Журнал SIAM по матричному анализу и приложениям . 29 (4). Предположим, что D_\varphi — расходимость Брегмана, предположим, что {C_k} — конечный набор замкнутых выпуклых множеств, пересечение которых непусто. Учитывая входную матрицу Y, наша цель — создать матрицу \mathbf{X} на пересечении, которая меньше всего расходится с \textbf{Y}, т.е. решить \min_{\mathbf{X} } D_\varphi(\mathbf{ X};\mathbf{Y}) с учетом \mathbf{X} \in \big\cap_k C_k. В мягких условиях решение единственно и имеет вариационную характеристику, аналогичную характеристике ортогональной проекции на выпуклое множество» (подробнее см. раздел 2.4, стр. 1125).
  4. ^ Нильсен, Франк (28 октября 2021 г.). «Быстрые аппроксимации дивергенции Джеффриса между одномерными гауссовыми смесями посредством преобразования смесей к экспоненциально-полиномиальным распределениям» . Энтропия . 23 (11): 1417. arXiv : 2107.05901 . Бибкод : 2021Entrp..23.1417N . дои : 10.3390/e23111417 . ISSN   1099-4300 . ПМЦ   8619509 . ПМИД   34828115 .
  5. ^ Нильсен, Франк; Буассонна, Жан-Даниэль ; Нок, Ричард (сентябрь 2010 г.). «Диаграммы Брегмана-Вороного: свойства, алгоритмы и приложения». Дискретная и вычислительная геометрия . 44 (2): 281–307. arXiv : 0709.2196 . дои : 10.1007/s00454-010-9256-1 . ISSN   0179-5376 . S2CID   1327029 .
  6. ^ Jump up to: а б Цзяо, Цзянтао; Куртад, Томас; Нет, Альберт; Венкат, Картик; Вайсман, Цахи (декабрь 2014 г.). «Информационные меры: любопытный случай двоичного алфавита». Транзакции IEEE по теории информации . 60 (12): 7616–7626. arXiv : 1404.6810 . дои : 10.1109/TIT.2014.2360184 . ISSN   0018-9448 . S2CID   13108908 .
  7. ^ Нильсен, Франк; Нок, Ричард (2019). «Расхождение хорд Брегмана». Геометрическая наука об информации . Конспекты лекций по информатике. Том. 11712. стр. 299–308. arXiv : 1810.09113 . дои : 10.1007/978-3-030-26980-7_31 . ISBN  978-3-030-26979-1 . S2CID   53046425 .
  8. ^ «Матричная информационная геометрия», Р. Нок, Б. Магдалу, Э. Брийс и Ф. Нильсен, pdf из этой книги
  9. ^ Эхсан Амид, Манфред К. Вармут, Рохан Анил, Томер Корен (2019). «Надежные логистические потери с двумя темпами, основанные на расхождениях Брегмана». Конференция по нейронным системам обработки информации. стр. 14987-14996. PDF
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: a79a15e19e2133fe2bd810381f2c41ab__1719139680
URL1:https://arc.ask3.ru/arc/aa/a7/ab/a79a15e19e2133fe2bd810381f2c41ab.html
Заголовок, (Title) документа по адресу, URL1:
Bregman divergence - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)