Априорная вероятность

Априорное распределение вероятностей неопределенной величины, часто называемое просто априорным , представляет собой предполагаемое распределение вероятностей до того, как будут приняты во внимание некоторые данные. Например, априорным может быть распределение вероятностей, представляющее относительные пропорции избирателей, которые проголосуют за конкретного политика на будущих выборах. Неизвестная величина может быть параметром модели или скрытой переменной, а не наблюдаемой переменной .

В статистике байесовской правило Байеса предписывает, как обновить априорную информацию новой информацией, чтобы получить апостериорное распределение вероятностей , которое представляет собой условное распределение неопределенной величины с учетом новых данных. Исторически сложилось так, что выбор априорных значений часто ограничивался сопряженным семейством заданной функции правдоподобия , поскольку в этом случае в результате получался управляемый апостериорный вариант того же семейства. Однако широкая доступность методов Монте-Карло с цепями Маркова сделала этот вопрос менее тревожным.

Существует много способов построить априорное распределение. ^[1] В некоторых случаях априорное значение может быть определено на основе прошлой информации, например, предыдущих экспериментов. Априорное значение можно также получить на основе чисто субъективной оценки опытного эксперта. ^[2]^[3] Когда информация недоступна, неинформативный априор может быть принят как оправданный принципом безразличия . ^[4]^[5] В современных приложениях априоры также часто выбираются на основе их механических свойств, таких как регуляризация и выбор функций . ^[6]^[7]^[8]

Априорные распределения параметров модели часто зависят от их собственных параметров. Неопределенность в отношении этих гиперпараметров , в свою очередь, может быть выражена как гипераприорные распределения вероятностей. Например, если использовать бета-распределение для моделирования распределения параметра p , распределения Бернулли то:

p - параметр базовой системы (распределение Бернулли), а
α и β – параметры априорного распределения (бета-распределения); следовательно, гиперпараметры .

В принципе априоры можно разложить на множество условных уровней распределений, так называемых иерархических априоров . ^[9]

Информационные априоры

Информативный априор выражает конкретную, определенную информацию о переменной.Примером может служить априорное распределение температуры завтра в полдень.Разумный подход состоит в том, чтобы сделать априорное нормальное распределение с ожидаемым значением, равным сегодняшней полуденной температуре, с отклонением, равным суточному отклонению температуры воздуха.или распределение температуры в этот день года.

Этот пример имеет общее свойство со многими априорными задачами, а именно: апостериорное значение одной задачи (сегодняшняя температура) становится априорным для другой задачи (завтрашняя температура); ранее существовавшие доказательства, которые уже были приняты во внимание, являются частью предшествующих, и по мере накопления большего количества доказательств апостериорные определяются в основном доказательствами, а не каким-либо первоначальным предположением, при условии, что исходное предположение допускало возможность того, чем являются доказательства. предлагая. Термины «предыдущий» и «апостериорный» обычно относятся к конкретным данным или наблюдению.

Сильный приор

Сильный априор — это предшествующее предположение, теория, концепция или идея, на которой после учета новой информации основывается текущее предположение, теория, концепция или идея. ^{[ нужна ссылка ]} Сильный априор — это тип информативного априора, при котором информация, содержащаяся в априорном распределении, доминирует над информацией, содержащейся в анализируемых данных. Байесовский анализ объединяет информацию, содержащуюся в априорном распределении, с информацией, извлеченной из данных, для получения апостериорного распределения , которое в случае «сильного априорного распределения» будет мало отличаться от априорного распределения.

Слабоинформативные априоры

Слабоинформативный априор выражает частичную информацию о переменной, направляя анализ к решениям, которые соответствуют существующим знаниям, не ограничивая при этом чрезмерно результаты и не допуская экстремальных оценок. Например, при установке предварительного распределения температуры завтра в полдень в Сент-Луисе нужно использовать нормальное распределение со средним значением 50 градусов по Фаренгейту и стандартным отклонением 40 градусов, что очень слабо ограничивает температуру диапазоном (10 градусов, 90 градусов). градусов) с небольшой вероятностью быть ниже -30 градусов или выше 130 градусов. Целью слабоинформативного априора является регуляризация , то есть сохранение выводов в разумном диапазоне.

Неинформативные априоры

Неинформативный плоский , . или размытый априор выражает расплывчатую или общую информацию о переменной ^[4] Термин «неинформативный априор» употребляется в некоторой степени неправильно. Такой априор можно также назвать не очень информативным априором или объективным априором , то есть таким, который не возникает субъективно.

Неинформативные априорные значения могут выражать «объективную» информацию, например «переменная положительна» или «переменная меньше некоторого предела». Самым простым и старым правилом определения неинформативного априора является принцип безразличия , который приписывает всем возможностям равные вероятности. В задачах оценки параметров использование неинформативного априора обычно дает результаты, которые не слишком отличаются от обычного статистического анализа, поскольку функция правдоподобия часто дает больше информации, чем неинформативный априор.

Были предприняты некоторые попытки найти априорные вероятности , то есть распределения вероятностей, в некотором смысле логически требуемые природой состояния неопределенности; это предмет философских споров, причем байесовцы грубо делятся на две школы: «объективные байесовцы», которые считают, что такие априорные положения существуют во многих полезных ситуациях, и «субъективные байесовские теории», которые считают, что на практике априорные положения обычно представляют собой субъективные суждения о мнениях, которые не может быть строго обосновано (Williamson 2010). Возможно, самые сильные аргументы в пользу объективного байесовства были даны Эдвином Т. Джейнсом , основанные главным образом на следствиях симметрии и на принципе максимальной энтропии.

В качестве примера априорного априора, предложенного Джейнсом (2003), рассмотрим ситуацию, в которой известно, что мяч был спрятан под одной из трех чашек: A, B или C, но никакой другой информации о его местонахождении нет. . В этом случае равномерный априор p ( A ) = p ( B ) = p ( C ) = 1/3 интуитивно кажется единственным разумным выбором. Более формально мы видим, что проблема останется той же, если поменять местами метки («A», «B» и «C») на чашках. Поэтому было бы странно выбирать априорное значение, для которого перестановка меток привела бы к изменению наших предсказаний о том, под какой чашкой будет найден мяч; единый априор - единственный, который сохраняет эту инвариантность. Если принять этот принцип инвариантности, то можно увидеть, что единообразный априор является логически правильным априором для представления этого состояния знаний. Этот априор «объективен» в том смысле, что он является правильным выбором для представления определенного состояния знаний, но он не объективен в том смысле, что он является независимой от наблюдателя особенностью мира: в действительности мяч существует под определенной чашкой. , и о вероятностях в этой ситуации имеет смысл говорить только в том случае, если есть наблюдатель с ограниченными знаниями о системе. ^[10]

В качестве более спорного примера Джейнс опубликовал аргумент, основанный на инвариантности априора при изменении параметров, который предполагает, что априор, представляющий полную неопределенность в отношении вероятности, должен быть априором Холдейна p. ⁻¹(1 - п ) ⁻¹. ^[11] Джейнс приводит пример: он нашел химическое вещество в лаборатории и спросил, растворится ли оно в воде в повторных экспериментах. Холдейн приор ^[12] придает наибольший вес $p=0$ и $p=1$ , что указывает на то, что образец либо растворяется каждый раз, либо никогда не растворяется с одинаковой вероятностью. Однако, если наблюдалось, что образцы химического вещества растворяются в одном эксперименте и не растворяются в другом эксперименте, то это априорное значение обновляется до равномерного распределения в интервале [0, 1]. Это получается путем применения теоремы Байеса к набору данных, состоящему из одного наблюдения растворения и одного наблюдения отсутствия растворения, с использованием приведенного выше априора. Априорное распределение Холдейна является неправильным априорным распределением (это означает, что оно имеет бесконечную массу). Гарольд Джеффрис разработал систематический способ разработки неинформативных априорных значений, таких как, например, априорное значение Джеффриса . ^−1/2(1 - п ) ^−1/2 для случайной величины Бернулли.

Можно построить априоры, пропорциональные мере Хаара , если пространство параметров X имеет естественную групповую структуру , которая оставляет инвариантным наше байесовское состояние знаний. ^[11] Это можно рассматривать как обобщение принципа инвариантности, используемого для обоснования единообразия априора для трех чашек в приведенном выше примере. Например, в физике мы могли бы ожидать, что эксперимент даст одни и те же результаты независимо от нашего выбора начала системы координат. Это вызывает групповую структуру группы трансляции на X , которая определяет априорную вероятность как постоянную несобственную априорную вероятность . Аналогичным образом, некоторые измерения естественным образом инвариантны к выбору произвольного масштаба (например, независимо от того, используются ли сантиметры или дюймы, физические результаты должны быть одинаковыми). В таком случае масштабная группа является естественной структурой группы, а соответствующий априор X пропорционален 1/ x . Иногда имеет значение, используем ли мы левоинвариантную или правоинвариантную меру Хаара. Например, левая и правая инвариантные меры Хаара на аффинной группе не равны. Бергер (1985, стр. 413) утверждает, что правоинвариантная мера Хаара является правильным выбором.

Другая идея, которую отстаивает Эдвин Т. Джейнс , заключается в использовании принципа максимальной энтропии (MAXENT). Мотивация состоит в том, что энтропия Шеннона распределения вероятностей измеряет количество информации, содержащейся в распределении. Чем больше энтропия, тем меньше информации дает распределение. Таким образом, максимизируя энтропию по подходящему набору вероятностных распределений на X , можно найти распределение, которое является наименее информативным в том смысле, что оно содержит наименьшее количество информации, согласующейся с ограничениями, определяющими этот набор. Например, максимальная энтропия в дискретном пространстве, учитывая только то, что вероятность нормирована до 1, является априором, который присваивает равную вероятность каждому состоянию. А в непрерывном случае максимальная энтропия, учитывая, что плотность нормализована с нулевым средним значением и единичной дисперсией, является стандартным нормальным распределением . Принцип минимальной перекрестной энтропии обобщает MAXENT на случай «обновления» произвольного априорного распределения с помощью подходящих ограничений в смысле максимальной энтропии.

Связанная с этим идея — Reference Priors — была предложена Хосе-Мигелем Бернардо . Здесь идея состоит в том, чтобы максимизировать ожидаемое расхождение Кульбака-Лейблера апостериорного распределения относительно априорного. Это максимизирует ожидаемую апостериорную информацию об X, когда априорная плотность равна p ( x ); таким образом, в некотором смысле p ( x ) является «наименее информативным» априором относительно X. Эталонный априор определяется в асимптотическом пределе, т. е. рассматривается предел априорных значений, полученных таким образом, когда количество точек данных стремится к бесконечности. . В данном случае расхождение KL между априорным и апостериорным распределениями определяется выражением $KL=\int p(t)\int p(x\mid t)\log {\frac {p(x\mid t)}{p(x)}}\,dx\,dt$

Здесь, $t$ является достаточной статистикой для некоторого параметра $x$ . Внутренний интеграл представляет собой KL-дивергенцию между апостериорными $p(x\mid t)$ и ранее $p(x)$ распределения, а результатом является средневзвешенное значение по всем значениям $t$ . Разбив логарифм на две части, изменив порядок интегралов во второй части на обратный и заметив, что $\log \,[p(x)]$ не зависит от $t$ урожайность $KL=\int p(t)\int p(x\mid t)\log[p(x\mid t)]\,dx\,dt\,-\,\int \log[p(x)]\,\int p(t)p(x\mid t)\,dt\,dx$

Внутренний интеграл во второй части – это интеграл по $t$ плотности суставов $p(x,t)$ . Это предельное распределение $p(x)$ , поэтому у нас есть $KL=\int p(t)\int p(x\mid t)\log[p(x\mid t)]\,dx\,dt\,-\,\int p(x)\log[p(x)]\,dx$

Теперь мы используем концепцию энтропии, которая в случае распределений вероятностей представляет собой отрицательное ожидаемое значение логарифма массы вероятности или функции плотности, или ${\textstyle H(x)=-\int p(x)\log[p(x)]\,dx.}$ Использование этого в последнем уравнении дает $KL=-\int p(t)H(x\mid t)\,dt+\,H(x)$

Другими словами, KL — это отрицательное математическое ожидание за $t$ энтропии $x$ при условии $t$ плюс предельная (т.е. безусловная) энтропия $x$ . В предельном случае, когда размер выборки стремится к бесконечности, теорема Бернштейна-фон Мизеса утверждает, что распределение $x$ при условии заданного наблюдаемого значения $t$ является нормальным с дисперсией, равной обратной величине информации Фишера при «истинном» значении $x$ . Энтропия нормальной функции плотности равна половине логарифма $2\pi ev$ где $v$ — это дисперсия распределения. Поэтому в этом случае $H=\log {\sqrt {\frac {2\pi e}{NI(x^{*})}}}$ где $N$ - это произвольно большой размер выборки (которому информация Фишера пропорциональна) и $x*$ это «истинное» значение. Поскольку это не зависит от $t$ его можно вынести из интеграла, и, поскольку этот интеграл находится в вероятностном пространстве, он равен единице. Следовательно, мы можем записать асимптотическую форму KL как $KL=-\log \left(1{\sqrt {kI(x^{*})}}\right)-\,\int p(x)\log[p(x)]\,dx$ где $k$ пропорционален (асимптотически большому) размеру выборки. Мы не знаем цену $x*$ . Действительно, сама идея противоречит философии байесовского вывода, в которой «истинные» значения параметров заменяются априорными и апостериорными распределениями. Итак, мы удаляем $x*$ заменив его на $x$ и взяв ожидаемое значение нормальной энтропии, которое мы получаем умножением на $p(x)$ и интегрируя более $x$ . Это позволяет нам объединить логарифмы, давая $KL=-\int p(x)\log \left[{\frac {p(x)}{\sqrt {kI(x)}}}\right]\,dx$

Это квази-КЛ-расхождение («квази» в том смысле, что квадратный корень из информации Фишера может быть ядром неправильного распределения). Из-за знака минус нам нужно минимизировать это, чтобы максимизировать расхождение KL, с которого мы начали. Минимальное значение последнего уравнения возникает там, где два распределения аргумента логарифма, неправильные или нет, не расходятся. Это, в свою очередь, происходит, когда априорное распределение пропорционально квадратному корню из информации Фишера функции правдоподобия. Следовательно, в случае с одним параметром априорные значения ссылок и априорные значения Джеффриса идентичны, хотя у Джеффриса совсем другое обоснование.

Эталонные априоры часто являются объективными априорами выбора в многомерных задачах, поскольку другие правила (например, правило Джеффриса ) могут привести к априорным значениям с проблемным поведением. ^{[ нужны разъяснения. А предшествующий опыт Джеффриса связан с расхождением KL? ]}

Объективные априорные распределения также могут быть получены на основе других принципов, таких как информации или теория кодирования (см., например, минимальную длину описания ) или частотная статистика (так называемые априоры вероятностного сопоставления ). ^[13] Такие методы используются в теории индуктивного вывода Соломонова . огромный объем предварительных знаний Построение объективных априорных данных недавно было введено в биоинформатику и особенно в биологию раковых систем, где размер выборки ограничен и доступен . В этих методах используется либо критерий, основанный на теории информации, такой как KL-дивергенция, либо логарифмическая функция правдоподобия для бинарных задач обучения с учителем. ^[14] и проблемы модели смеси. ^[15]

Философские проблемы, связанные с неинформативными априорами, связаны с выбором подходящей метрики или шкалы измерения. Предположим, нам нужен априорный показатель скорости бега неизвестного нам бегуна. Мы могли бы указать, скажем, нормальное распределение в качестве априорного значения его скорости, но в качестве альтернативы мы могли бы указать нормальное априорное распределение для времени, которое ему потребуется для прохождения 100 метров, что пропорционально обратной величине первого априорного значения. Это очень разные приоры, но неясно, чему отдать предпочтение. Джейнса Метод групп преобразований может ответить на этот вопрос в некоторых ситуациях. ^[16]

Аналогично, если нас попросят оценить неизвестную пропорцию между 0 и 1, мы могли бы сказать, что все пропорции одинаково вероятны, и использовать единый априор. В качестве альтернативы мы могли бы сказать, что все порядки величины пропорции одинаково вероятны, т.е. логарифмический априор , который является равномерным априором логарифма пропорции. пытается Приор Джеффриса решить эту проблему путем вычисления априора, который выражает одно и то же убеждение независимо от того, какая метрика используется. Априор Джеффриса для неизвестной пропорции p равен p ^−1/2(1 - п ) ^−1/2, что отличается от рекомендации Джейнса.

Приоритеты, основанные на понятиях алгоритмической вероятности , используются в индуктивном выводе в качестве основы для индукции в очень общих условиях.

Практические проблемы, связанные с неинформативными априорными значениями, включают требование правильного апостериорного распределения. Обычные неинформативные априоры для непрерывных неограниченных переменных неправильны. Это не должно быть проблемой, если апостериорное распределение правильное. Другой важный вопрос заключается в том, что если неинформативный априор будет использоваться регулярно , то есть со многими различными наборами данных, он должен иметь хорошие частотные свойства. Обычно байесианца такие вопросы не интересуют, но в данной ситуации это может быть важно. Например, хотелось бы, чтобы любое решающее правило , основанное на апостериорном распределении, было допустимым при принятой функции потерь. К сожалению, приемлемость зачастую трудно проверить, хотя некоторые результаты известны (например, Berger and Strawderman 1996). Эта проблема особенно остра в случае с иерархическими моделями Байеса ; обычные априоры (например, априор Джеффриса) могут давать совершенно неприемлемые правила принятия решений, если они используются на более высоких уровнях иерархии.

Неправильные априоры

Пусть события $A_{1},A_{2},\ldots ,A_{n}$ быть взаимоисключающими и исчерпывающими. Если теорема Байеса записана как $P(A_{i}\mid B)={\frac {P(B\mid A_{i})P(A_{i})}{\sum _{j}P(B\mid A_{j})P(A_{j})}}\,,$ тогда ясно, что тот же результат был бы получен, если бы все априорные вероятности Ai ) и _P P ( Aj ) ₍ были умножены на заданную константу; то же самое было бы верно и для непрерывной случайной величины . Если суммирование в знаменателе сходится, апостериорные вероятности все равно будут суммироваться (или интегрироваться) до 1, даже если априорные значения этого не делают, и поэтому априорные вероятности, возможно, потребуется указать только в правильной пропорции. Развивая эту идею дальше, во многих случаях сумма или интеграл априорных значений может даже не обязательно быть конечной, чтобы получить разумные ответы для апостериорных вероятностей. В этом случае априор называется неправильным априором . Однако апостериорное распределение не обязательно должно быть правильным, если априорное распределение неправильное. ^[17] Это ясно из случая, когда событие B не зависит от всех Aj _{событий} .

Статистики иногда используют неправильные априорные значения в качестве неинформативных априорных значений . ^[18] Например, если им нужно априорное распределение среднего значения и дисперсии случайной величины, они могут предположить, что p ( m , v ) ~ 1/ v (для v > 0), что предполагает, что любое значение среднего «одинаково равно «вероятно» и что значение положительной дисперсии становится «менее вероятным» обратно пропорционально своему значению. Многие авторы (Линдли, 1973; Де Гроот, 1937; Касс и Вассерман, 1996) ^{[ нужна ссылка ]} предостерегайте от опасности чрезмерной интерпретации этих априорных значений, поскольку они не являются плотностями вероятности. Единственная релевантность, которую они имеют, обнаруживается в соответствующей апостериорной области, если она четко определена для всех наблюдений. ( Приор Холдейна — типичный контрпример. ^{[ нужны разъяснения ]}^{[ нужна ссылка ]})

Напротив, функции правдоподобия не нуждаются в интегрировании, а функция правдоподобия, равномерно равная 1, соответствует отсутствию данных (все модели одинаково вероятны при отсутствии данных): правило Байеса умножает априорное значение на вероятность, и пустой продукт — это просто постоянная вероятность 1. Однако, не начав с априорного распределения вероятностей, невозможно получить апостериорное распределение вероятностей и, следовательно, невозможно интегрировать или вычислить ожидаемые значения или потери. см. в разделе «Функция правдоподобия § Неинтегрируемость» Подробности .

Примеры

Примеры ненадлежащих априорных данных включают в себя:

Равномерное распределение на бесконечном интервале (т. е. полупрямой или всей вещественной прямой).
Бета(0,0), бета-распределение для α =0, β =0 (равномерное распределение по шкале логарифмических шансов ).
Логарифмический априор положительных действительных чисел (равномерное распределение в логарифмическом масштабе ). ^{[ нужна ссылка ]}

Эти функции, интерпретируемые как равномерные распределения, также можно интерпретировать как функцию правдоподобия в отсутствие данных, но они не являются собственными априорными значениями.

Априорная вероятность в статистической механике

В то время как в байесовской статистике априорная вероятность используется для представления первоначальных представлений о неопределенном параметре, в статистической механике априорная вероятность используется для описания начального состояния системы. ^[19] Классическая версия определяется как отношение числа элементарных событий (например, количества бросков игральной кости) к общему числу событий – и они рассматриваются чисто дедуктивно, т.е. без какого-либо экспериментирования. В случае игральной кости, если мы смотрим на нее на столе, не бросая ее, каждое элементарное событие дедуктивно определяется как имеющее одинаковую вероятность - таким образом, вероятность каждого результата воображаемого бросания (совершенного) игрального кубика или просто путем подсчета количество граней – 1/6. Каждая грань игральной кости выпадает с одинаковой вероятностью — вероятность является мерой, определенной для каждого элементарного события. Результат будет другим, если мы бросим кубик двадцать раз и спросим, сколько раз (из 20) на верхней грани выпадет число 6. В этом случае в игру вступает время, и у нас есть различный тип вероятности, зависящий от времени или количества бросков кубика. С другой стороны, априорная вероятность не зависит от времени: вы можете сколько угодно смотреть на кубик на столе, не касаясь его, и прийти к выводу, что вероятность появления числа 6 на верхней грани равна 1/6. .

В статистической механике, например, механике газа, содержащегося в конечном объеме. $V$ , обе пространственные координаты $q_{i}$ и координаты импульса $p_{i}$ отдельных газовых элементов (атомов или молекул) конечны в фазовом пространстве, охватываемом этими координатами. По аналогии со случаем игральной кости априорная вероятность здесь (в случае континуума) пропорциональна элементу объема фазового пространства. $\Delta q\Delta p$ разделенный на $h$ , и – количество стоячих волн (т.е. состояний) в нем, где $\Delta q$ это диапазон переменной $q$ и $\Delta p$ это диапазон переменной $p$ (здесь для простоты рассматривается в одном измерении). В 1 измерении (длина $L$ ) это число, или статистический вес, или априорный вес $L\Delta p/h$ . В привычных 3-х измерениях (объем $V$ ) соответствующее число можно вычислить как $V4\pi p^{2}\Delta p/h^{3}$ . ^[20] Чтобы понять, что эта величина дает ряд состояний в квантовой (т.е. волновой) механике, вспомните, что в квантовой механике каждая частица связана с волной материи, которая является решением уравнения Шредингера. В случае свободных частиц (энергии $\epsilon ={\bf {p}}^{2}/2m$ ) как у газа в ящике объёма $V=L^{3}$ такая волна материи явно $\psi \propto \sin(l\pi x/L)\sin(m\pi y/L)\sin(n\pi z/L),$ где $l,m,n$ являются целыми числами. Количество различных $(l,m,n)$ ценности и, следовательно, государства в регионе между $p,p+dp,p^{2}={\bf {p}}^{2},$ затем оказывается приведенным выше выражением $V4\pi p^{2}dp/h^{3}$ учитывая площадь, охватываемую этими точками. Более того, ввиду соотношения неопределенностей , которое в 1 пространственном измерении равно $\Delta q\Delta p\geq h,$ эти состояния неотличимы (т.е. эти состояния не имеют ярлыков). Важным следствием является результат, известный как теорема Лиувилля , т.е. независимость от времени этого элемента объема фазового пространства и, следовательно, от априорной вероятности. Зависимость этой величины от времени подразумевала бы известную информацию о динамике системы и, следовательно, не была бы априорной вероятностью. ^[21] Таким образом, регион $\Omega :={\frac {\Delta q\Delta p}{\int \Delta q\Delta p}},\;\;\;\int \Delta q\Delta p=\mathrm {const.} ,$ при дифференцировании по времени $t$ дает ноль (с помощью уравнений Гамильтона): Объем во времени $t$ такое же, как и в нулевой момент времени. Это также называют сохранением информации.

В полной квантовой теории действует аналогичный закон сохранения. В этом случае область фазового пространства заменяется подпространством пространства состояний, выражаемым через оператор проектирования $P$ , и вместо вероятности в фазовом пространстве имеем плотность вероятности $\Sigma :={\frac {P}{{\text{Tr}}(P)}},\;\;\;N={\text{Tr}}(P)=\mathrm {const.} ,$ где $N$ - размерность подпространства. Закон сохранения в этом случае выражается унитарностью S-матрицы . В любом случае рассуждения предполагают замкнутую изолированную систему. Эта закрытая изолированная система представляет собой систему с (1) фиксированной энергией $E$ и (2) фиксированное число частиц $N$ в (c) состояние равновесия. Если рассмотреть огромное количество реплик этой системы, то получится так называемый микроканонический ансамбль . Именно для этой системы в квантовой статистике постулируется «фундаментальный постулат равенства априорных вероятностей изолированной системы». Это говорит о том, что изолированная система в равновесии занимает каждое из доступных ей состояний с одинаковой вероятностью. Таким образом, этот фундаментальный постулат позволяет нам приравнять априорную вероятность к вырождению системы, т. е. к числу различных состояний с одинаковой энергией.

Пример

Следующий пример иллюстрирует априорную вероятность (или априорное взвешивание) в (а) классическом и (б) квантовом контекстах.

Классическая априорная вероятность
Рассмотрим вращательную энергию E двухатомной молекулы с моментом инерции I в сферических полярных координатах. $\theta ,\phi$ (это означает $q$ выше здесь $\theta ,\phi$ ), т.е. $E={\frac {1}{2I}}\left(p_{\theta }^{2}+{\frac {p_{\phi }^{2}}{\sin ^{2}\theta }}\right).$ $(p_{\theta },p_{\phi })$ -кривая для постоянной E и $\theta$ представляет собой эллипс площади $\oint dp_{\theta }dp_{\phi }=\pi {\sqrt {2IE}}{\sqrt {2IE}}\sin \theta =2\pi IE\sin \theta .$ Интегрируя более $\theta$ и $\phi$ общий объем фазового пространства, охватываемого при постоянной энергии E, равен $\int _{0}^{\phi =2\pi }\int _{0}^{\theta =\pi }2I\pi E\sin \theta d\theta d\phi =8\pi ^{2}IE=\oint dp_{\theta }dp_{\phi }d\theta d\phi ,$ и, следовательно, классическое априорное взвешивание в области энергий $dE$ является
$\Omega \propto$ (объем фазового пространства при $E+dE$ ) минус (объем фазового пространства при $E$ ) определяется $8{\pi }^{2}IdE.$
Квантовая априорная вероятность
Предполагая, что число квантовых состояний в диапазоне $\Delta q\Delta p$ для каждого направления движения задается на элемент коэффициентом $\Delta q\Delta p/h$ , число состояний в области энергий dE, как видно из (a), равно $8\pi ^{2}IdE/h^{2}$ для вращающейся двухатомной молекулы. Из волновой механики известно, что энергетические уровнивращающаяся двухатомная молекула имеет вид $E_{n}={\frac {n(n+1)h^{2}}{8\pi ^{2}I}},$ каждый такой уровень (2n+1)-кратно вырожден. Оценивая $dn/dE_{n}=1/(dE_{n}/dn)$ получается ${\frac {dn}{dE_{n}}}={\frac {8\pi ^{2}I}{(2n+1)h^{2}}},\;\;\;(2n+1)dn={\frac {8\pi ^{2}I}{h^{2}}}dE_{n}.$ Таким образом, по сравнению с $\Omega$ выше, можно обнаружить, что приблизительное число состояний в диапазоне dE определяется вырождением, т.е. $\Sigma \propto (2n+1)dn.$ Таким образом, априорное взвешивание в классическом контексте (а) соответствует априорному взвешиванию здесь, в квантовом контексте (б).В случае одномерного простого гармонического генератора собственной частоты $\nu$ соответственно находим: а) $\Omega \propto dE/\nu$ , и (б) $\Sigma \propto dn$ (без вырождения).Таким образом, в квантовой механике априорная вероятность фактически является мерой вырождения , то есть числа состояний, имеющих одинаковую энергию.
В случае атома водорода или кулоновского потенциала (где оценка объема фазового пространства при постоянной энергии сложнее) известно, что квантовомеханическое вырождение есть $n^{2}$ с $E\propto 1/n^{2}$ . Таким образом, в этом случае $\Sigma \propto n^{2}dn$ .

Априорная вероятность и функции распределения

В статистической механике (см. любую книгу) выводятся так называемые функции распределения $f$ для различной статистики. В случае статистики Ферми – Дирака и статистики Бозе – Эйнштейна эти функции имеют вид соответственно $f_{i}^{FD}={\frac {1}{e^{(\epsilon _{i}-\epsilon _{0})/kT}+1}},\quad f_{i}^{BE}={\frac {1}{e^{(\epsilon _{i}-\epsilon _{0})/kT}-1}}.$ Эти функции выведены для (1) системы, находящейся в динамическом равновесии (т.е. в устойчивых, однородных условиях) с (2) полным (и огромным) числом частиц. $N=\Sigma _{i}n_{i}$ (это условие определяет константу $\epsilon _{0}$ ) и (3) полная энергия $E=\Sigma _{i}n_{i}\epsilon _{i}$ , то есть с каждым из $n_{i}$ частицы, имеющие энергию $\epsilon _{i}$ . Важным аспектом при выводе является учет неразличимости частиц и состояний в квантовой статистике, т.е. там частицы и состояния не имеют меток. Таким образом , в случае фермионов, таких как электроны, подчиняющихся принципу Паули (только одна частица в каждом состоянии или ни одна частица не допускается), следовательно, $0\leq f_{i}^{FD}\leq 1,\quad {\text{whereas}}\quad 0\leq f_{i}^{BE}\leq \infty .$ Таким образом $f_{i}^{FD}$ является мерой доли состояний, фактически занятых электронами при энергии $\epsilon _{i}$ и температура $T$ . С другой стороны, априорная вероятность $g_{i}$ является мерой количества доступных волновых механических состояний. Следовательно $n_{i}=f_{i}g_{i}.$ С $n_{i}$ постоянна в однородных условиях (столько частиц, сколько частиц вылетает из элемента объема, также и втекает равномерно, так что ситуация в элементе кажется статичной), т. е. не зависит от времени $t$ , и $g_{i}$ также не зависит от времени $t$ как было показано ранее, мы получаем ${\frac {df_{i}}{dt}}=0,\quad f_{i}=f_{i}(t,{\bf {v}}_{i},{\bf {r}}_{i}).$ Выразив это уравнение через его частные производные, получаем уравнение переноса Больцмана . Как координаты ${\bf {r}}$ и т. д. появляются здесь вдруг? Выше не было упомянуто ни об электрических, ни о других полях. Таким образом, при отсутствии таких полей мы имеем распределение Ферми-Дирака, как указано выше. Но при наличии таких полей мы имеем дополнительную зависимость $f$ .

См. также

Примечания

^ Роберт, Кристиан (1994). «От предварительной информации к предшествующим распределениям». Байесовский выбор . Нью-Йорк: Спрингер. стр. 89–136. ISBN 0-387-94296-3 .
^ Чалонер, Кэтрин (1996). «Выявление предшествующих распределений». В Берри, Дональд А.; Штангл, Дален (ред.). Байесовская биостатистика . Нью-Йорк: Марсель Деккер. стр. 141–156. ISBN 0-8247-9334-Х .
^ Миккола, Петрус; и др. (2023). «Предварительное получение знаний: прошлое, настоящее и будущее». Байесовский анализ . Ожидается. дои : 10.1214/23-BA1381 . hdl : 11336/183197 . S2CID 244798734 .
^ Jump up to: ^а ^б Зеллнер, Арнольд (1971). «Предыдущие дистрибутивы представляют собой« малое знание » ». Введение в байесовский вывод в эконометрике . Нью-Йорк: Джон Уайли и сыновья. стр. 41–53. ISBN 0-471-98165-6 .
^ Прайс, Гарольд Дж.; Мэнсон, Эллисон Р. (2001). «Неинформативные априоры теоремы Байеса». Конференция АИП. Проц . 617 : 379–391. дои : 10.1063/1.1477060 .
^ Пийронен, Юхо; Вехтари, Аки (2017). «Информация о разреженности и регуляризация в подкове и других априорах усадки» . Электронный статистический журнал . 11 (2): 5018–5051. arXiv : 1707.01694 . дои : 10.1214/17-EJS1337SI .
^ Симпсон, Дэниел; и др. (2017). «Наказание за сложность компонентов модели: принципиальный, практический подход к построению априорных значений». Статистическая наука . 32 (1): 1–28. arXiv : 1403.4630 . дои : 10.1214/16-STS576 . S2CID 88513041 .
^ Фортуин, Винсент (2022). «Приоритеты байесовского глубокого обучения: обзор». Международный статистический обзор . 90 (3): 563–591. дои : 10.1111/insr.12502 . hdl : 20.500.11850/547969 . S2CID 234681651 .
^ Конгдон, Питер Д. (2020). «Методы регрессии с использованием иерархических априорных значений». Байесовские иерархические модели (2-е изд.). Бока-Ратон: CRC Press. стр. 253–315. ISBN 978-1-03-217715-1 .
^ Флоренс, Жан-Пьер; Мушар, Майкл; Ролен, Жан-Мари (1990). «Аргументы инвариантности в байесовской статистике». Принятие экономических решений: игры, эконометрика и оптимизация . Северная Голландия. стр. 351–367. ISBN 0-444-88422-Х .
^ Jump up to: ^а ^б Джейнс, Эдвин Т. (сентябрь 1968 г.). «Априорные вероятности» (PDF) . Транзакции IEEE по системным наукам и кибернетике . 4 (3): 227–241. дои : 10.1109/TSSC.1968.300117 .
^ Этот априор был предложен Дж. Б. С. Холдейном в «Заметках об обратной вероятности», Mathematical Proceedings of the Cambridge Philosophical Society 28, 55–61, 1932, дои : 10.1017/S0305004100010495 . См. также Дж. Холдейн, «Точность наблюдаемых значений малых частот», Биометрика, 35:297–300, 1948, doi : 10.2307/2332350 , JSTOR 2332350 .
^ Датта, Гаури Санкар; Мукерджи, Рахул (2004). Приоритеты совпадения вероятностей: асимптотика высшего порядка . Спрингер. ISBN 978-0-387-20329-4 .
^ Исфахани, MS; Догерти, ER (2014). «Включение знаний о биологических путях в построение априорных значений для оптимальной байесовской классификации - журналы и журналы IEEE». Транзакции IEEE/ACM по вычислительной биологии и биоинформатике . 11 (1): 202–18. дои : 10.1109/TCBB.2013.143 . ПМИД 26355519 . S2CID 10096507 .
^ Болуки, Шахин; Исфахани, Мохаммад Шахрох; Цянь, Сяонин; Догерти, Эдвард Р. (декабрь 2017 г.). «Включение биологических предварительных знаний в байесовское обучение посредством максимальных априорных знаний, основанных на знаниях» . БМК Биоинформатика . 18 (S14): 552. doi : 10.1186/s12859-017-1893-4 . ISSN 1471-2105 . ПМК 5751802 . ПМИД 29297278 .
^ Джейнс (1968), стр. 17, см. также Джейнс (2003), глава 12. Обратите внимание, что глава 12 недоступна в онлайн-препринте, но ее можно просмотреть в Google Книгах.
^ Дэвид, AP; Стоун, М.; Зидек, СП (1973). «Парадоксы маргинализации в байесовском и структурном выводе». Журнал Королевского статистического общества . Серия Б (Методическая). 35 (2): 189–233. JSTOR 2984907 .
^ Кристенсен, Рональд; Джонсон, Уэсли; Бранскум, Адам; Хэнсон, Тимоти Э. (2010). Байесовские идеи и анализ данных: введение для ученых и статистиков . Хобокен: CRC Press. п. 69. ИСБН 9781439894798 .
^ Иба, Ю. (1989). «Байесовская статистика и статистическая механика». В Такаяме, Х. (ред.). Кооперативная динамика в сложных физических системах . Спрингеровская серия по синергетике. Том. 43. Берлин: Шпрингер. стр. 235–236. дои : 10.1007/978-3-642-74554-6_60 . ISBN 978-3-642-74556-0 .
^ Мюллер-Кирстен, HJW (2013). Основы статистической физики (2-е изд.). Сингапур: World Scientific. Глава 6.
^ Бен-Наим, А. (2007). Энтропия демистифицирована . Сингапур: World Scientific.

Ссылки

Баувенс, Люк; Лубрано, Мишель; Ричард, Жан-Франсуа (1999). «Априорные плотности для модели регрессии». Байесовский вывод в динамических эконометрических моделях . Издательство Оксфордского университета. стр. 94–128. ISBN 0-19-877313-7 .
Рубин, Дональд Б.; Гельман, Эндрю ; Джон Б. Карлин; Стерн, Хэл (2003). Байесовский анализ данных (2-е изд.). Бока-Ратон: Чепмен и Холл/CRC. ISBN 978-1-58488-388-3 . МР 2027492 .
Бергер, Джеймс О. (1985). Статистическая теория принятия решений и байесовский анализ . Берлин: Springer-Verlag. ISBN 978-0-387-96098-2 . МР 0804611 .
Бергер, Джеймс О.; Стродерман, Уильям Э. (1996). «Выбор иерархических априоров: допустимость при оценке нормальных средних» . Анналы статистики . 24 (3): 931–951. дои : 10.1214/aos/1032526950 . МР 1401831 . Збл 0865.62004 .
Бернардо, Хосе М. (1979). «Справочные апостериорные распределения для байесовского вывода». Журнал Королевского статистического общества, серия B. 41 (2): 113–147. JSTOR 2985028 . МР 0547240 .
Джеймс О. Бергер ; Хосе М. Бернардо ; Дунчу Сунь (2009). «Формальное определение ссылочных априоров». Анналы статистики . 37 (2): 905–938. arXiv : 0904.0156 . Бибкод : 2009arXiv0904.0156B . дои : 10.1214/07-AOS587 . S2CID 3221355 .
Джейнс, Эдвин Т. (2003). Теория вероятностей: логика науки . Издательство Кембриджского университета. ISBN 978-0-521-59271-0 .
Уильямсон, Джон (2010). «обзор Бруно ди Финетти. Философские лекции о вероятности» (PDF) . Философия Математика . 18 (1): 130–135. дои : 10.1093/philmat/nkp019 . Архивировано из оригинала (PDF) 9 июня 2011 г. Проверено 2 июля 2010 г.

[1] Роберт, Кристиан (1994). «От предварительной информации к предшествующим распределениям». Байесовский выбор . Нью-Йорк: Спрингер. стр. 89–136. ISBN 0-387-94296-3 .

[2] Чалонер, Кэтрин (1996). «Выявление предшествующих распределений». В Берри, Дональд А.; Штангл, Дален (ред.). Байесовская биостатистика . Нью-Йорк: Марсель Деккер. стр. 141–156. ISBN 0-8247-9334-Х .

[3] Миккола, Петрус; и др. (2023). «Предварительное получение знаний: прошлое, настоящее и будущее». Байесовский анализ . Ожидается. дои : 10.1214/23-BA1381 . hdl : 11336/183197 . S2CID 244798734 .

[Zellner1971-4] Jump up to: ^а ^б Зеллнер, Арнольд (1971). «Предыдущие дистрибутивы представляют собой« малое знание » ». Введение в байесовский вывод в эконометрике . Нью-Йорк: Джон Уайли и сыновья. стр. 41–53. ISBN 0-471-98165-6 .

[5] Прайс, Гарольд Дж.; Мэнсон, Эллисон Р. (2001). «Неинформативные априоры теоремы Байеса». Конференция АИП. Проц . 617 : 379–391. дои : 10.1063/1.1477060 .

[6] Пийронен, Юхо; Вехтари, Аки (2017). «Информация о разреженности и регуляризация в подкове и других априорах усадки» . Электронный статистический журнал . 11 (2): 5018–5051. arXiv : 1707.01694 . дои : 10.1214/17-EJS1337SI .

[7] Симпсон, Дэниел; и др. (2017). «Наказание за сложность компонентов модели: принципиальный, практический подход к построению априорных значений». Статистическая наука . 32 (1): 1–28. arXiv : 1403.4630 . дои : 10.1214/16-STS576 . S2CID 88513041 .

[8] Фортуин, Винсент (2022). «Приоритеты байесовского глубокого обучения: обзор». Международный статистический обзор . 90 (3): 563–591. дои : 10.1111/insr.12502 . hdl : 20.500.11850/547969 . S2CID 234681651 .

[9] Конгдон, Питер Д. (2020). «Методы регрессии с использованием иерархических априорных значений». Байесовские иерархические модели (2-е изд.). Бока-Ратон: CRC Press. стр. 253–315. ISBN 978-1-03-217715-1 .

[10] Флоренс, Жан-Пьер; Мушар, Майкл; Ролен, Жан-Мари (1990). «Аргументы инвариантности в байесовской статистике». Принятие экономических решений: игры, эконометрика и оптимизация . Северная Голландия. стр. 351–367. ISBN 0-444-88422-Х .

[Jaynes1968-11] Jump up to: ^а ^б Джейнс, Эдвин Т. (сентябрь 1968 г.). «Априорные вероятности» (PDF) . Транзакции IEEE по системным наукам и кибернетике . 4 (3): 227–241. дои : 10.1109/TSSC.1968.300117 .

[12] Этот априор был предложен Дж. Б. С. Холдейном в «Заметках об обратной вероятности», Mathematical Proceedings of the Cambridge Philosophical Society 28, 55–61, 1932, дои : 10.1017/S0305004100010495 . См. также Дж. Холдейн, «Точность наблюдаемых значений малых частот», Биометрика, 35:297–300, 1948, doi : 10.2307/2332350 , JSTOR 2332350 .

[13] Датта, Гаури Санкар; Мукерджи, Рахул (2004). Приоритеты совпадения вероятностей: асимптотика высшего порядка . Спрингер. ISBN 978-0-387-20329-4 .

[14] Исфахани, MS; Догерти, ER (2014). «Включение знаний о биологических путях в построение априорных значений для оптимальной байесовской классификации - журналы и журналы IEEE». Транзакции IEEE/ACM по вычислительной биологии и биоинформатике . 11 (1): 202–18. дои : 10.1109/TCBB.2013.143 . ПМИД 26355519 . S2CID 10096507 .

[15] Болуки, Шахин; Исфахани, Мохаммад Шахрох; Цянь, Сяонин; Догерти, Эдвард Р. (декабрь 2017 г.). «Включение биологических предварительных знаний в байесовское обучение посредством максимальных априорных знаний, основанных на знаниях» . БМК Биоинформатика . 18 (S14): 552. doi : 10.1186/s12859-017-1893-4 . ISSN 1471-2105 . ПМК 5751802 . ПМИД 29297278 .

[16] Джейнс (1968), стр. 17, см. также Джейнс (2003), глава 12. Обратите внимание, что глава 12 недоступна в онлайн-препринте, но ее можно просмотреть в Google Книгах.

[17] Дэвид, AP; Стоун, М.; Зидек, СП (1973). «Парадоксы маргинализации в байесовском и структурном выводе». Журнал Королевского статистического общества . Серия Б (Методическая). 35 (2): 189–233. JSTOR 2984907 .

[18] Кристенсен, Рональд; Джонсон, Уэсли; Бранскум, Адам; Хэнсон, Тимоти Э. (2010). Байесовские идеи и анализ данных: введение для ученых и статистиков . Хобокен: CRC Press. п. 69. ИСБН 9781439894798 .

[19] Иба, Ю. (1989). «Байесовская статистика и статистическая механика». В Такаяме, Х. (ред.). Кооперативная динамика в сложных физических системах . Спрингеровская серия по синергетике. Том. 43. Берлин: Шпрингер. стр. 235–236. дои : 10.1007/978-3-642-74554-6_60 . ISBN 978-3-642-74556-0 .

[20] Мюллер-Кирстен, HJW (2013). Основы статистической физики (2-е изд.). Сингапур: World Scientific. Глава 6.

[21] Бен-Наим, А. (2007). Энтропия демистифицирована . Сингапур: World Scientific.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]