Jump to content

Принцип максимальной энтропии

Принцип максимальной энтропии гласит, что распределение вероятностей , которое лучше всего отражает текущее состояние знаний о системе, имеет наибольшую энтропию в контексте точно установленных априорных данных (например, предложения , выражающего проверяемую информацию ).

Другой способ выразить это: возьмите точно установленные априорные данные или проверяемую информацию о функции распределения вероятностей. Рассмотрим набор всех пробных вероятностных распределений, которые будут кодировать априорные данные. Согласно этому принципу, распределение с максимальной информационной энтропией является лучшим выбором.

Этот принцип был впервые изложен Э. Т. Джейнсом в двух статьях в 1957 году. [1] [2] где он подчеркнул естественное соответствие между статистической механикой и теорией информации . В частности, Джейнс предложил новое и очень общее объяснение того, почему работает гиббсовский метод статистической механики. Он утверждал, что энтропия статистической механики и информационная энтропия теории информации — это, по сути, одно и то же. Следовательно, статистическую механику следует рассматривать просто как частное применение общего инструмента логического вывода и теории информации.

В большинстве практических случаев заявленные априорные данные или проверяемая информация представляют собой набор сохраняющихся величин (средних значений некоторых моментных функций), связанных с распределением вероятностей рассматриваемым . Именно так принцип максимальной энтропии чаще всего используется в статистической термодинамике . Другая возможность — прописать некоторые симметрии распределения вероятностей. Эквивалентность между сохраняющимися величинами и соответствующими группами симметрии подразумевает аналогичную эквивалентность этих двух способов задания проверяемой информации в методе максимальной энтропии.

Принцип максимальной энтропии необходим также для того, чтобы гарантировать уникальность и непротиворечивость вероятностных присвоений, полученных различными методами, статистической механикой и логическим выводом в частности .

Принцип максимальной энтропии ясно демонстрирует нашу свободу в использовании различных форм априорных данных . В качестве частного случая может быть принята равномерная априорная плотность вероятности Лапласа ( принцип безразличия , иногда называемый принципом недостаточного основания). Таким образом, принцип максимальной энтропии — это не просто альтернативный взгляд на обычные методы вывода классической статистики, но и значительное концептуальное обобщение этих методов.

Однако эти утверждения не означают, что термодинамические системы не должны быть эргодическими, чтобы оправдать рассмотрение их как статистического ансамбля .

Говоря обычным языком, можно сказать, что принцип максимальной энтропии выражает требование эпистемической скромности или максимального невежества. Выбранное распределение — это то, которое меньше всего претендует на информированность, выходящее за рамки установленных априорных данных, то есть то, которое допускает наибольшее невежество, выходящее за рамки установленных априорных данных.

Проверяемая информация

[ редактировать ]

Принцип максимальной энтропии полезен только тогда, когда применяется к проверяемой информации . Тестируемая информация — это утверждение о распределении вероятностей, истинность или ложность которого четко определена. Например, утверждения

ожидание переменной составляет 2,87

и

(где и — вероятности событий) — это утверждения проверяемой информации.

При наличии проверяемой информации процедура максимальной энтропии состоит в поиске распределения вероятностей , которое максимизирует информационную энтропию с учетом ограничений информации. Эта задача ограниченной оптимизации обычно решается с использованием метода множителей Лагранжа . [3]

Максимизация энтропии без проверяемой информации учитывает универсальное «ограничение», заключающееся в том, что сумма вероятностей равна единице. При этом ограничении дискретное распределение вероятностей максимальной энтропии является равномерным распределением ,

Приложения

[ редактировать ]

Принцип максимальной энтропии обычно применяется к задачам вывода двумя способами:

Априорные вероятности

[ редактировать ]

Принцип максимальной энтропии часто используется для получения априорных распределений вероятностей для байесовского вывода . Джейнс был ярым сторонником этого подхода, утверждая, что максимальное распределение энтропии представляет собой наименее информативное распределение. [4] Большое количество литературы в настоящее время посвящено выявлению априорных значений максимальной энтропии и связей с канальным кодированием . [5] [6] [7] [8]

Апостериорные вероятности

[ редактировать ]

Максимальная энтропия является достаточным правилом обновления радикального вероятностного подхода . Ричарда Джеффри является Вероятностная кинематика частным случаем вывода о максимальной энтропии . Однако максимальная энтропия не является обобщением всех таких достаточных правил обновления. [9]

Модели максимальной энтропии

[ редактировать ]

В качестве альтернативы этот принцип часто применяется для спецификации модели: в этом случае сами наблюдаемые данные считаются проверяемой информацией. Такие модели широко используются при обработке естественного языка . Примером такой модели является логистическая регрессия , которая соответствует классификатору максимальной энтропии для независимых наблюдений.

Оценка плотности вероятности

[ редактировать ]

Одним из основных применений принципа максимальной энтропии является дискретная и непрерывная оценка плотности . [10] [11] Подобно средствам оценки опорных векторов , принцип максимальной энтропии может потребовать решения задачи квадратичного программирования и, таким образом, обеспечить модель разреженной смеси в качестве оптимального средства оценки плотности. Одним из важных преимуществ метода является его способность включать априорную информацию в оценку плотности. [12]

Общее решение для распределения максимальной энтропии с линейными ограничениями

[ редактировать ]

Дискретный случай

[ редактировать ]

У нас есть некоторая проверяемая информация I о величине x, принимающей значения в { x 1 , x 2 ,..., x n }. что эта информация имеет вид m ограничений на математические ожидания функций fk Мы предполагаем , ; то есть мы требуем, чтобы наше распределение вероятностей удовлетворяло ограничениям моментного неравенства/равенства:

где являются наблюдаемыми. Мы также требуем, чтобы плотность вероятности в сумме равнялась единице, что можно рассматривать как примитивное ограничение на тождественную функцию и наблюдаемую величину, равную 1, дающую ограничение

Распределение вероятностей с максимальной информационной энтропией с учетом этих ограничений неравенства/равенства имеет форму: [10]

для некоторых . Его иногда называют распределением Гиббса . Константа нормализации определяется:

и условно называется статистической суммой . ( Теорема Питмана-Купмана утверждает, что необходимым и достаточным условием для того, чтобы выборочное распределение допускало достаточную статистику ограниченной размерности, является то, что оно имеет общую форму распределения максимальной энтропии.)

Параметры λ k представляют собой множители Лагранжа. В случае ограничений-равенств их значения определяются из решения нелинейных уравнений

В случае ограничений-неравенств множители Лагранжа определяются из решения программы выпуклой оптимизации с линейными ограничениями. [10] отсутствует В обоих случаях решение в замкнутой форме , а вычисление множителей Лагранжа обычно требует численных методов .

Непрерывный случай

[ редактировать ]

Для непрерывных распределений энтропию Шеннона нельзя использовать, поскольку она определена только для дискретных вероятностных пространств. Вместо этого Эдвин Джейнс (1963, 1968, 2003) дал следующую формулу, которая тесно связана с относительной энтропией (см. также дифференциальную энтропию ).

где q ( x ), которую Джейнс назвал «инвариантной мерой», пропорционально предельной плотности дискретных точек . Пока мы будем предполагать, что q известно; мы обсудим это дальше после того, как будут приведены уравнения решения.

Близко связанная величина, относительная энтропия, обычно определяется как отклонение Кульбака-Лейблера p . от q (хотя иногда ее, что сбивает с толку, определяют как отрицательное значение этого показателя) Принцип вывода о минимизации этого, согласно Кульбаку, известен как принцип минимальной дискриминационной информации .

У нас есть некоторая проверяемая информация I о величине x , которая принимает значения в некотором интервале действительных чисел (все нижеприведенные интегралы лежат в этом интервале). Мы предполагаем, что эта информация имеет форму m ограничений на ожидания функций f k , т.е. мы требуем, чтобы наша функция плотности вероятности удовлетворяла моментным ограничениям неравенства (или чисто равенства):

где являются наблюдаемыми. Мы также требуем, чтобы плотность вероятности интегрировалась до единицы, что можно рассматривать как примитивное ограничение на тождественную функцию и наблюдаемую, равную 1, дающую ограничение

Функция плотности вероятности с максимальным H c с учетом этих ограничений: [11]

со статистической суммой, определяемой

Как и в дискретном случае, в случае, когда все моментные ограничения равны, значения параметры определяются системой нелинейных уравнений:

В случае с моментными ограничениями неравенства множители Лагранжа определяются из решения программы выпуклой оптимизации . [11]

Инвариантную функцию меры q ( x ) можно лучше всего понять, предположив, что известно, что x принимает значения только в ограниченном интервале ( a , b ), и что никакой другой информации не дано. Тогда максимальная энтропийная функция плотности вероятности равна

где A — константа нормировки. Функция инвариантной меры на самом деле является функцией априорной плотности, кодирующей «отсутствие соответствующей информации». Она не может быть определена принципом максимальной энтропии и должна определяться каким-либо другим логическим методом, таким как принцип групп преобразований или теория маргинализации .

Несколько примеров распределений максимальной энтропии см. в статье о распределениях вероятностей максимальной энтропии .

Обоснования принципа максимальной энтропии

[ редактировать ]

Сторонники принципа максимальной энтропии оправдывают его использование при назначении вероятностей несколькими способами, включая следующие два аргумента. Эти аргументы принимают использование байесовской вероятности как данность и, таким образом, подчиняются одним и тем же постулатам.

Информационная энтропия как мера «неинформативности»

[ редактировать ]

Рассмотрим дискретное распределение вероятностей среди взаимоисключающие предложения . Наиболее информативное распределение имело место, когда было известно, что одно из утверждений истинно. В этом случае информационная энтропия будет равна нулю. Наименее информативное распределение будет иметь место, когда нет причин отдавать предпочтение одному из предложений перед другими. В этом случае единственное разумное распределение вероятностей было бы равномерным, и тогда информационная энтропия была бы равна максимально возможному значению: . Таким образом, информационную энтропию можно рассматривать как числовую меру, которая описывает, насколько неинформативно конкретное распределение вероятностей, в диапазоне от нуля (полностью информативно) до (совершенно неинформативно).

Утверждается, что, выбирая распределение с максимальной энтропией, допускаемой нашей информацией, мы выбираем наиболее неинформативное возможное распределение. Выбрать распределение с более низкой энтропией означало бы предположить наличие информации, которой мы не обладаем. Таким образом, максимальное распределение энтропии является единственным разумным распределением. Зависимость решения от доминирующей меры, представленной выражением однако является источником критики данного подхода, поскольку эта доминирующая мера на самом деле является произвольной. [13]

Вывод Уоллиса

[ редактировать ]

Следующий аргумент является результатом предложения, сделанного Грэмом Уоллисом И. Т. Джейнсу в 1962 году. [14] По сути, это тот же математический аргумент, который используется для статистики Максвелла – Больцмана в статистической механике , хотя концептуальный акцент совершенно другой. Его преимущество состоит в том, что он носит строго комбинаторный характер и не содержит ссылок на информационную энтропию как меру «неопределенности», «неинформативности» или любого другого неточно определенного понятия. Функция информационной энтропии не предполагается априори , а находится в ходе рассуждения; и этот аргумент естественным образом ведет к процедуре максимизации информационной энтропии, а не к ее трактовке каким-то другим способом.

Предположим, человек желает выполнить распределение вероятностей среди взаимоисключающие предложения. У него есть некоторая поддающаяся проверке информация, но он не знает, как включить эту информацию в свою оценку вероятности. Поэтому он задумал следующий случайный эксперимент. Он будет распространять кванты вероятности (каждый стоит ) случайным образом среди возможности. (Можно представить, что он бросит шары в ведра с завязанными глазами. Чтобы быть как можно более справедливым, каждый бросок должен быть независим от любого другого, а все ведра должны быть одинакового размера.) После завершения эксперимента он проверит, согласуется ли полученное таким образом распределение вероятностей с его информацией. . (Чтобы этот шаг был успешным, информация должна быть ограничением, заданным открытым множеством в пространстве вероятностных мер). Если оно противоречиво, он отклонит его и попробует еще раз. Если оно соответствует, его оценка будет

где это вероятность й предложение, а n i — количество квантов, которые были присвоены й предложение (т.е. количество шариков, попавших в ведро ).

Теперь, чтобы уменьшить «зернистость» распределения вероятностей, необходимо будет использовать довольно большое количество квантов вероятности. Вместо того, чтобы фактически провести и, возможно, повторить довольно длинный случайный эксперимент, главный герой решает просто вычислить и использовать наиболее вероятный результат. Вероятность любого конкретного результата представляет собой полиномиальное распределение ,

где

иногда называют множественностью исхода.

Наиболее вероятным результатом является тот, который максимизирует кратность . Вместо того, чтобы максимизировать напрямую, главный герой мог бы эквивалентно максимизировать любую монотонно возрастающую функцию . Он решает максимизировать

На этом этапе, чтобы упростить выражение, главный герой принимает предел как , то есть по мере того, как уровни вероятности переходят от зернистых дискретных значений к гладким непрерывным значениям. Используя приближение Стирлинга , он находит

Все, что остается сделать главному герою, — это максимизировать энтропию в условиях ограничений его проверяемой информации. Он обнаружил, что максимальное распределение энтропии является наиболее вероятным из всех «справедливых» случайных распределений в том пределе, когда уровни вероятности переходят от дискретных к непрерывным.

Совместимость с теоремой Байеса

[ редактировать ]

Гиффин и Катича (2007) заявляют, что теорема Байеса и принцип максимальной энтропии полностью совместимы и могут рассматриваться как частные случаи «метода максимальной относительной энтропии». Они заявляют, что этот метод воспроизводит все аспекты ортодоксальных байесовских методов вывода. Кроме того, этот новый метод открывает двери для решения проблем, которые невозможно решить ни с помощью принципа максимальной энтропии, ни с помощью ортодоксальных байесовских методов по отдельности. Более того, недавние работы (Lazar 2003 и Schennach 2005) показывают, что частотные подходы к выводу, основанные на относительной энтропии (такие как эмпирическое правдоподобие и экспоненциально наклоненное эмпирическое правдоподобие – см., например, Owen 2001 и Kitamura 2006), могут быть объединены с априорной информацией для выполнения байесовского метода. задний анализ.

Джейнс заявил, что теорема Байеса — это способ расчета вероятности, а максимальная энтропия — это способ назначить априорное распределение вероятностей. [15]

Однако теоретически возможно найти апостериорное распределение непосредственно на основе указанного априорного распределения, используя принцип минимальной перекрестной энтропии (или принцип максимальной энтропии, являющийся особым случаем использования равномерного распределения в качестве заданного априорного), независимо любых байесовских соображений, рассматривая проблему формально как задачу оптимизации с ограничениями, при этом функционал энтропии является целевой функцией. Для случая данных средних значений в качестве проверяемой информации (усредненных по искомому распределению вероятностей), искомое распределение формально является распределением Гиббса (или Больцмана), параметры которого необходимо решить, чтобы достичь минимальной перекрестной энтропии и удовлетворить предоставленную проверяемую информацию.

Соответствие физике

[ редактировать ]

Принцип максимальной энтропии имеет отношение к ключевому предположению кинетической теории газов, известному как молекулярный хаос или Stosszahlansatz . Это утверждает, что функция распределения, характеризующая частицы, вступающие в столкновение, может быть факторизована. Хотя это утверждение можно понимать как строго физическую гипотезу, его также можно интерпретировать как эвристическую гипотезу относительно наиболее вероятной конфигурации частиц перед столкновением. [16]

См. также

[ редактировать ]

Примечания

[ редактировать ]
  1. ^ Джейнс, ET (1957). «Теория информации и статистическая механика» (PDF) . Физический обзор . Серия II. 106 (4): 620–630. Бибкод : 1957PhRv..106..620J . дои : 10.1103/PhysRev.106.620 . МР   0087305 .
  2. ^ Джейнс, ET (1957). «Теория информации и статистическая механика II» (PDF) . Физический обзор . Серия II. 108 (2): 171–190. Бибкод : 1957PhRv..108..171J . дои : 10.1103/PhysRev.108.171 . МР   0096414 .
  3. ^ Сивия, Девиндерджит; Скиллинг, Джон (2 июня 2006 г.). Анализ данных: байесовский учебник . ОУП Оксфорд. ISBN  978-0-19-154670-9 .
  4. ^ Джейнс, ET (1968). «Априорные вероятности» (PDF) . Транзакции IEEE по системным наукам и кибернетике . 4 (3): 227–241. дои : 10.1109/TSSC.1968.300117 .
  5. ^ Кларк, Б. (2006). «Информационная оптимальность и байесовское моделирование». Журнал эконометрики . 138 (2): 405–429. doi : 10.1016/j.jeconom.2006.05.003 .
  6. ^ Суфи, ES (2000). «Основные теоретические подходы к информации». Журнал Американской статистической ассоциации . 95 (452): 1349–1353. дои : 10.2307/2669786 . JSTOR   2669786 . МР   1825292 .
  7. ^ Буске, Н. (2008). «Выявление расплывчатых, но правильных априорных значений максимальной энтропии в байесовских экспериментах». Статистические документы . 51 (3): 613–628. дои : 10.1007/s00362-008-0149-9 . S2CID   119657859 .
  8. ^ Пальмиери, Франческо А.Н.; Чуонзо, Доменико (01 апреля 2013 г.). «Объективные априоры максимальной энтропии в классификации данных». Информационный синтез . 14 (2): 186–198. CiteSeerX   10.1.1.387.4515 . дои : 10.1016/j.inffus.2012.01.012 .
  9. ^ Скирмс, Б. (1987). «Обновление, предположение и MAXENT». Теория и решение . 22 (3): 225–46. дои : 10.1007/BF00134086 . S2CID   121847242 .
  10. ^ Jump up to: а б с Ботев З.И.; Крозе, Д.П. (2008). «Неасимптотический выбор полосы пропускания для оценки плотности дискретных данных». Методология и вычисления в прикладной теории вероятности . 10 (3): 435. doi : 10.1007/s11009-007-9057-z . S2CID   122047337 .
  11. ^ Jump up to: а б с Ботев З.И.; Крозе, Д.П. (2011). «Обобщенный метод перекрестной энтропии с применением к оценке плотности вероятности» (PDF) . Методология и вычисления в прикладной теории вероятности . 13 (1): 1–27. дои : 10.1007/s11009-009-9133-7 . S2CID   18155189 .
  12. ^ Кесаван, Гонконг; Капур, Дж. Н. (1990). «Принципы максимальной энтропии и минимальной перекрестной энтропии». В Фужере, П.Ф. (ред.). Максимальная энтропия и байесовские методы . стр. 419–432 . дои : 10.1007/978-94-009-0683-9_29 . ISBN  978-94-010-6792-8 .
  13. ^ Дрюйе, Пьер; Марин, Жан-Мишель (2007). «Инвариантные достоверные множества {HPD} и оценки {MAP}» . Байесовский анал . 2 : 681–691. doi : 10.1214/07-BA227 (неактивен 27 апреля 2024 г.). {{cite journal}}: CS1 maint: DOI неактивен по состоянию на апрель 2024 г. ( ссылка )
  14. ^ Джейнс, ET (2003) Теория вероятностей: логика науки , Cambridge University Press, стр. 351-355. ISBN   978-0521592710
  15. ^ Джейнс, ET (1988) «Взаимосвязь байесовских методов и методов максимальной энтропии» , в книге «Максимальная энтропия и байесовские методы в науке и технике» (том 1) , Kluwer Academic Publishers, стр. 25-29.
  16. ^ Хлямович, Г.; Маласпинас, О.; Шопард, Б. (2017). «Кинетическая теория за пределами Stosszahlansatz» . Энтропия . 19 (8): 381. Бибкод : 2017Entrp..19..381C . дои : 10.3390/e19080381 .

Дальнейшее чтение

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 512e620cec62b447bdbb81af14fa7ec3__1715013120
URL1:https://arc.ask3.ru/arc/aa/51/c3/512e620cec62b447bdbb81af14fa7ec3.html
Заголовок, (Title) документа по адресу, URL1:
Principle of maximum entropy - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)