Jump to content

Байесовский вывод

Байесовский вывод ( / ˈ b z i ə n / BAY -zee-ən или / ˈ b ʒ ən / BAY -zhən ) [ 1 ] — это метод статистического вывода , в котором теорема Байеса используется для обновления вероятности гипотезы по мере новых доказательств или информации появления . По сути, байесовский вывод использует априорные знания в форме априорного распределения для оценки апостериорных вероятностей. Байесовский вывод — важный метод в статистике , особенно в математической статистике . Байесовское обновление особенно важно при динамическом анализе последовательности данных . Байесовский вывод нашел применение в широком спектре деятельности, включая науку , инженерное дело , философию , медицину , спорт и право . В философии теории принятия решений байесовский вывод тесно связан с субъективной вероятностью, часто называемой « байесовской вероятностью ».

Введение в правило Байеса

[ редактировать ]
Геометрическая визуализация теоремы Байеса. В таблице значения 2, 3, 6 и 9 обозначают относительные веса каждого соответствующего условия и случая. Цифры обозначают ячейки таблицы, участвующие в каждой метрике, причем вероятность представляет собой долю каждой заштрихованной цифры. Это показывает, что P(A|B) P(B) = P(B|A) P(A), т.е. P(A|B) = P(B|A) P(A) / P(B) . Аналогичные рассуждения можно использовать, чтобы показать, что P(¬A|B) = P(B|¬A) P(¬A) / P(B) и т. д.

Формальное объяснение

[ редактировать ]
Таблица непредвиденных обстоятельств
Гипотеза


Доказательство
Удовлетворяет
гипотеза
ЧАС
Нарушает
гипотеза
¬H

Общий
Имеет доказательства
И
Р(Н|Е)·Р(Е)
= Р(Е|Н)·Р(Н)
P(¬H|E) · P(E)
= P(E|¬H)·P(¬H)
П(Е)
Нет доказательств
¬E
P(H|¬E)·P(¬E)
= P(¬E|H)·P(H)
P(¬H|¬E)·P(¬E)
= P(¬E|¬H)·P(¬H)
P(¬E) =
1-П(Е)
Общий П(Н) P(¬H) = 1−P(H) 1

Байесовский вывод выводит апостериорную вероятность как следствие двух антецедентов : априорной вероятности и « функции правдоподобия », полученной из статистической модели для наблюдаемых данных. Байесовский вывод вычисляет апостериорную вероятность в соответствии с теоремой Байеса : где

  • обозначает любую гипотезу , на вероятность которой могут повлиять данные ( называемые доказательствами ниже ). Часто существуют конкурирующие гипотезы, и задача состоит в том, чтобы определить, какая из них наиболее вероятна.
  • , априорная вероятность , является оценкой вероятности гипотезы перед данными , текущие доказательства, наблюдаются.
  • , свидетельство , соответствует новым данным, которые не использовались при вычислении априорной вероятности.
  • , апостериорная вероятность , это вероятность данный , то есть после наблюдается. Вот что мы хотим знать: вероятность гипотезы с учетом наблюдаемых данных.
  • это вероятность наблюдения данный и называется вероятностью . В качестве функции с фиксированный, это указывает на совместимость доказательств с данной гипотезой. Функция правдоподобия – это функция доказательств, , а апостериорная вероятность является функцией гипотезы, .
  • иногда называют предельной вероятностью или «модельным доказательством». Этот фактор одинаков для всех возможных рассматриваемых гипотез (о чем свидетельствует тот факт, что гипотеза не появляется нигде в символе, в отличие от всех других факторов) и, следовательно, не учитывается при определении относительных вероятностей различных гипотез.
  • (Иначе есть .)

Для разных значений , только факторы и , оба в числителе, влияют на значение – апостериорная вероятность гипотезы пропорциональна ее априорной вероятности (присущей ей правдоподобности) и вновь полученной вероятности (ее совместимости с новыми наблюдаемыми доказательствами).

В случаях, когда ("нет "), отрицание логическое , является допустимой вероятностью, правило Байеса можно переписать следующим образом: потому что и Это обращает внимание на термин Если этот член примерно равен 1, то вероятность гипотезы с учетом доказательств: , о , около 50% вероятно – одинаково вероятно или маловероятно. Если этот член очень мал, близок к нулю, то вероятность гипотезы, учитывая доказательства, близко к 1 или условная гипотеза вполне вероятна. Если этот член очень велик, намного больше 1, то гипотеза, учитывая доказательства, весьма маловероятна. Если гипотеза (без учета доказательств) маловероятна, то мал (но не обязательно астрономически мал) и намного больше 1, и этот член можно аппроксимировать как и соответствующие вероятности можно сравнивать непосредственно друг с другом.

Один из быстрых и простых способов запомнить уравнение — использовать правило умножения :

Альтернативы байесовскому обновлению

[ редактировать ]

Байесовское обновление широко используется и удобно в вычислительном отношении. Однако это не единственное правило обновления, которое можно считать рациональным.

Ян Хакинг отметил, что традиционные аргументы « голландской книги » не определяют байесовское обновление: они оставляют открытой возможность того, что небайесовские правила обновления могут избежать голландских книг. Хакинг написал: [ 2 ] «И ни аргумент голландской книги, ни какой-либо другой аргумент в персоналистском арсенале доказательств аксиом вероятности не влечет за собой динамическое предположение. Ни один из них не влечет за собой байесианство. Таким образом, персоналист требует, чтобы динамическое предположение было байесовским. отказ от байесовской модели обучения на основе опыта может потерять свою привлекательность».

Действительно, существуют небайесовские правила обновления, которые также избегают голландских книг (как обсуждается в литературе по « кинематике вероятности ») после публикации правила Ричарда К. Джеффри , которое применяет правило Байеса к случаю, когда сами доказательства присваивается вероятность. [ 3 ] Дополнительные гипотезы, необходимые для однозначного требования байесовского обновления, были сочтены существенными, сложными и неудовлетворительными. [ 4 ]

Вывод об исключительных и исчерпывающих возможностях

[ редактировать ]

Если доказательства одновременно используются для обновления убеждений по поводу набора исключительных и исчерпывающих предложений, байесовский вывод можно рассматривать как воздействующий на это распределение убеждений в целом.

Общая формулировка

[ редактировать ]
Диаграмма, иллюстрирующая пространство событий в общей формулировке байесовского вывода. Хотя на этой диаграмме показаны дискретные модели и события, непрерывный случай можно визуализировать аналогичным образом, используя плотности вероятности.

Предположим, что процесс генерирует независимые и одинаково распределенные события. , но распределение вероятностей неизвестно. Пусть пространство событий представляют текущее состояние убеждений в этом процессе. Каждая модель представлена ​​событием . Условные вероятности указаны для определения моделей. это степень веры в . Прежде чем сделать первый шаг вывода, представляет собой набор начальных априорных вероятностей . Их сумма должна быть равна 1, но в остальном они произвольны.

Предположим, что наблюдается процесс генерации . Для каждого , предшествующий обновляется до задней части . Из теоремы Байеса : [ 5 ]

При обнаружении дополнительных доказательств эту процедуру можно повторить.

Множественные наблюдения

[ редактировать ]

Для последовательности независимых и одинаково распределенных наблюдений , можно показать по индукции, что повторное применение вышеизложенного эквивалентно где

Параметрическая формулировка: мотивация формального описания

[ редактировать ]

Путем параметризации пространства моделей доверие ко всем моделям можно обновить за один шаг. Тогда распределение убеждений по пространству модели можно рассматривать как распределение убеждений по пространству параметров. Распределения в этом разделе выражены как непрерывные и представлены плотностями вероятности, поскольку это обычная ситуация. Однако этот метод в равной степени применим и к дискретным распределениям.

Пусть вектор охватывать пространство параметров. Пусть исходное априорное распределение по быть , где представляет собой набор параметров самого априора или гиперпараметров . Позволять быть последовательностью независимых и одинаково распределенных наблюдений событий, где все распределяются как для некоторых . Теорема Байеса применяется для нахождения апостериорного распределения по :

где

Формальное описание байесовского вывода

[ редактировать ]

Определения

[ редактировать ]
  • , точка данных в целом. На самом деле это может быть вектор значений.
  • , параметр распределения точек данных, т.е. . Это может быть вектор параметров.
  • , гиперпараметр распределения параметров, т. е. . Это может быть вектор гиперпараметров.
  • это образец, набор наблюдаемые точки данных, т.е. .
  • , новая точка данных, распределение которой необходимо спрогнозировать.

Байесовский вывод

[ редактировать ]
  • Априорное распределение — это распределение параметра(ов) до того, как наблюдаются какие-либо данные, т.е. . Априорное распределение может быть нелегко определить; в таком случае одной из возможностей может быть использование Джеффриса до получения предварительного распределения перед его обновлением новыми наблюдениями.
  • Выборочное распределение – это распределение наблюдаемых данных, обусловленное его параметрами, т.е. . Это также называется вероятностью , особенно если рассматривать ее как функцию параметра(ов), иногда записываемую .
  • Предельное правдоподобие (иногда называемое также доказательством ) — это распределение наблюдаемых данных, маргинализированных по параметру(ам), т.е. Он количественно определяет соответствие между данными и мнением экспертов в геометрическом смысле, который можно уточнить. [ 6 ] Если предельная вероятность равна 0, то между данными и мнением экспертов нет согласия, и правило Байеса не может быть применено.
  • Апостериорное распределение — это распределение параметра(ов) после учета наблюдаемых данных. Это определяется правилом Байеса , которое составляет суть байесовского вывода: Это выражается словами: «апостериорная вероятность пропорциональна предшествующему числу правдоподобия» или иногда как «апостериорное значение = предшествующему правдоподобию, превышающему доказательства».
  • На практике почти для всех сложных байесовских моделей, используемых в машинном обучении, апостериорное распределение не получается в распределении замкнутой формы, главным образом потому, что пространство параметров для может быть очень высоким, или байесовская модель сохраняет определенную иерархическую структуру, сформулированную на основе наблюдений и параметр . В таких ситуациях приходится прибегать к методам аппроксимации. [ 7 ]
  • Общий случай: Пусть быть условным распределением данный и пусть быть распределением . Тогда совместное распределение . Условное распределение из данный затем определяется

Существование и единственность необходимого условного ожидания является следствием теоремы Радона–Никодима . Это было сформулировано Колмогоровым в его знаменитой книге 1933 года. Колмогоров подчеркивает важность условной вероятности, написав в предисловии: «Я хочу обратить внимание на... и особенно на теорию условных вероятностей и условных ожиданий...». [ 8 ] Теорема Байеса определяет апостериорное распределение на основе предварительного распределения. Уникальность требует предположений о непрерывности. [ 9 ] Теорему Байеса можно обобщить, включив в нее неправильные априорные распределения, такие как равномерное распределение на действительной прямой. [ 10 ] Современные методы Монте-Карло для цепей Маркова повысили важность теоремы Байеса, включая случаи с неправильными априорными значениями. [ 11 ]

Байесовское предсказание

[ редактировать ]
  • Апостериорное прогнозирующее распределение — это распределение новой точки данных, маргинализированной по апостериорному:
  • Априорное прогнозируемое распределение — это распределение новой точки данных, маргинализованной по сравнению с предыдущей:

Байесовская теория призывает использовать апостериорное прогнозируемое распределение для прогнозирования , то есть для прогнозирования распределения новой, ненаблюдаемой точки данных. То есть вместо фиксированной точки в качестве прогноза возвращается распределение по возможным точкам. Только таким образом используется все апостериорное распределение параметра(ов). Для сравнения, прогнозирование в частотной статистике часто включает в себя поиск оптимальной точечной оценки параметра(ов) — например, по максимальному правдоподобию или максимальной апостериорной оценке (MAP) — а затем включение этой оценки в формулу для распределения точки данных. . Недостатком этого подхода является то, что он не учитывает никакой неопределенности в значении параметра и, следовательно, приводит к недооценке дисперсии прогнозируемого распределения.

В некоторых случаях частотная статистика может обойти эту проблему. Например, доверительные интервалы и интервалы прогнозирования в частотной статистике, построенные на основе нормального распределения с неизвестными средним значением и дисперсией, строятся с использованием t-распределения Стьюдента . Это правильно оценивает дисперсию благодаря тому факту, что (1) среднее значение нормально распределенных случайных величин также нормально распределено и (2) прогнозируемое распределение нормально распределенной точки данных с неизвестным средним значением и дисперсией с использованием сопряженных или неинформативных априорных значений. , имеет t-распределение Стьюдента. Однако в байесовской статистике апостериорное прогнозируемое распределение всегда можно определить точно — или, по крайней мере, с произвольным уровнем точности при использовании численных методов.

Оба типа прогнозных распределений имеют форму сложного распределения вероятностей (как и предельное правдоподобие ). Фактически, если априорное распределение является сопряженным априорным , так что априорное и апостериорное распределения происходят из одного и того же семейства, можно видеть, что и априорное, и апостериорное прогнозирующие распределения также происходят из одного и того же семейства составных распределений. Единственное отличие состоит в том, что апостериорное прогнозирующее распределение использует обновленные значения гиперпараметров (применяя байесовские правила обновления, приведенные в сопряженной предыдущей статье), тогда как априорное прогнозирующее распределение использует значения гиперпараметров, которые появляются в предыдущем распределении.


Математические свойства

[ редактировать ]

Интерпретация фактора

[ редактировать ]

. То есть, если бы модель была верной, доказательства были бы более вероятными, чем предсказывается текущим состоянием убеждений. Обратное справедливо для уменьшения веры. Если вера не изменится, . То есть доказательства не зависят от модели. Если бы модель была верной, доказательства были бы точно такими же вероятными, как предсказывается текущим состоянием убеждений.

Правило Кромвеля

[ редактировать ]

Если затем . Если и , затем . Это можно интерпретировать как означающее, что твердые убеждения нечувствительны к контрдоказательствам.

Первое следует непосредственно из теоремы Байеса. Последнее можно получить, применив первое правило к событию «не "вместо" ", что дает "если , затем ", из чего сразу следует результат.

Асимптотическое поведение задней

[ редактировать ]

Рассмотрим поведение распределения убеждений, когда оно обновляется большое количество раз с помощью независимых и одинаково распределенных испытаний. Для достаточно хороших априорных вероятностей теорема Бернштейна-фон Мизеса показывает, что в пределе бесконечных испытаний апостериорное распределение сходится к гауссовскому распределению, независимому от начального априора, при некоторых условиях, впервые изложенных и строго доказанных Джозефом Л. Дубом в 1948 году, а именно: если рассматриваемая случайная величина имеет конечное вероятностное пространство . Более общие результаты были получены позже статистиком Дэвидом А. Фридманом, опубликовавшим в 1963 году две плодотворные исследовательские статьи. [ 12 ] и 1965 г. [ 13 ] когда и при каких обстоятельствах гарантируется асимптотическое поведение апостериора. В его статье 1963 года, как и у Дуба (1949), рассматривается конечный случай, и он приходит к удовлетворительному выводу. Однако, если случайная величина имеет бесконечное, но счетное вероятностное пространство (т. е. соответствует игральной кости с бесконечным множеством граней), статья 1965 года показывает, что для плотного подмножества априорных значений теорема Бернштейна-фон Мизеса неприменима. В этом случае почти наверняка асимптотическая сходимость отсутствует. Позже, в 1980-х и 1990-х годах Фридман и Перси Диаконис продолжили работу над случаем бесконечных счетных вероятностных пространств. [ 14 ] Подводя итог, можно сказать, что испытаний может быть недостаточно, чтобы подавить эффекты первоначального выбора, и особенно для больших (но конечных) систем сходимость может быть очень медленной.

Сопряженные априоры

[ редактировать ]

В параметризованной форме часто предполагается, что априорное распределение происходит из семейства распределений, называемых сопряженными априорными . Полезность сопряженного априорного распределения заключается в том, что соответствующее апостериорное распределение будет принадлежать тому же семейству, и расчет может быть выражен в закрытой форме .

Оценки параметров и прогнозы

[ редактировать ]

Часто желательно использовать апостериорное распределение для оценки параметра или переменной. Несколько методов байесовской оценки выбирают измерения центральной тенденции из апостериорного распределения.

Для одномерных задач существует уникальная медиана для практических непрерывных задач. Задняя медиана привлекательна в качестве надежного средства оценки . [ 15 ]

Если существует конечное среднее апостериорное распределение, то апостериорное среднее является методом оценки. [ 16 ]

Принятие значения с наибольшей вероятностью определяет максимальные апостериорные оценки (MAP) : [ 17 ]

Существуют примеры, когда максимум не достигается, и в этом случае набор оценок MAP пуст .

Существуют и другие методы оценки, которые минимизируют апостериорный риск (ожидаемые апостериорные потери) по отношению к функции потерь , и они представляют интерес для статистической теории принятия решений с использованием выборочного распределения («частотная статистика»). [ 18 ]

Апостериорное прогнозируемое распределение нового наблюдения (т.е. независимо от предыдущих наблюдений) определяется выражением [ 19 ]

Вероятность гипотезы

[ редактировать ]
Таблица непредвиденных обстоятельств
Чаша

печенье
#1
Ч 1
#2
Ч 2

Общий
Обычный, Е 30 20 50
Шок, ¬E 10 20 30
Общий 40 40 80
п ( ЧАС 1 | Е ) знак равно 30/50 = 0,6

Предположим, есть две полные тарелки печенья. В миске №1 находится 10 кусочков шоколада и 30 штук обычного печенья, а в миске №2 – по 20 штук каждого вида. Наш друг Фред наугад выбирает миску, а затем наугад выбирает печенье. Мы можем предположить, что нет никаких оснований полагать, что Фред обращается с одной миской по-разному, как и с печеньем. Печенье оказывается обычным. Насколько вероятно, что Фред вытащил его из миски №1?

Интуитивно кажется очевидным, что ответ должен быть больше половины, поскольку в миске №1 простого печенья больше. Точный ответ даёт теорема Байеса. Позволять соответствуют чаше №1, а в миску №2. Учитывая, что чаши идентичны с точки зрения Фреда, таким образом , и сумма этих двух должна составлять 1, поэтому оба равны 0,5. Событие это наблюдение за обычным файлом cookie. Из содержимого чаш мы знаем, что и Тогда формула Байеса дает

До того, как мы рассмотрели печенье, вероятность, которую мы определили для Фреда, выбравшего миску № 1, была априорной вероятностью, , что составило 0,5. После наблюдения за файлом cookie мы должны пересмотреть вероятность , что составляет 0,6.

Делаем прогноз

[ редактировать ]
Примеры результатов для примера археологии. Это моделирование было создано с использованием c = 15,2.

Археолог работает на месте, предположительно относящемся к средневековому периоду, между 11 и 16 веками. Однако неизвестно, когда именно в этот период это место было заселено. Обнаружены фрагменты керамики, часть из которых покрыта глазурью, а часть украшена. Ожидается, что если это место было заселено в период раннего средневековья, то 1% керамики будет покрыт глазурью, а 50% ее площади украшено, тогда как если бы оно было заселено в период позднего средневековья, то 81% будет покрыт глазурью и украшен. 5% его площади декорировано. Насколько уверен археолог может быть в дате заселения, если раскопать фрагменты?

Степень доверия к непрерывной переменной (века) рассчитывается с дискретным набором событий в качестве доказательства. Предполагая линейное изменение глазури и декора со временем и что эти переменные независимы,

Предположим, что априор и что испытания независимы и одинаково распределены . Когда новый фрагмент типа обнаружен, теорема Байеса применяется для обновления степени доверия для каждого :

На графике показано компьютерное моделирование изменения убеждений после раскопок 50 фрагментов. В моделировании это место было заселено примерно в 1420 году, или . Рассчитав площадь под соответствующей частью графика для 50 испытаний, археолог может сказать, что вероятность того, что это место было заселено в 11 и 12 веках, практически отсутствует, вероятность того, что оно было заселено в 13 веке, составляет около 1%, 63 % шанса в 14 веке и 36% в 15 веке. Теорема Бернштейна-фон Мизеса утверждает здесь асимптотическую сходимость к «истинному» распределению, поскольку вероятностное пространство, соответствующее дискретному набору событий конечен (см. выше раздел об асимптотическом поведении апостериорной функции).

В частотной статистике и теории принятия решений

[ редактировать ]

Теоретико -решательное обоснование использования байесовского вывода было дано Абрахамом Вальдом , который доказал, что каждая уникальная байесовская процедура допустима . И наоборот, каждая допустимая статистическая процедура является либо байесовской процедурой, либо пределом байесовских процедур. [ 20 ]

Уолд охарактеризовал допустимые процедуры как байесовские процедуры (и пределы байесовских процедур), сделав байесовский формализм центральным методом в таких областях частотного вывода, как оценка параметров , проверка гипотез и вычисление доверительных интервалов . [ 21 ] [ 22 ] [ 23 ] Например:

  • «При некоторых условиях все допустимые процедуры являются либо байесовскими процедурами, либо пределами байесовских процедур (в различных смыслах). Эти замечательные результаты, по крайней мере в их первоначальной форме, в основном принадлежат Вальду. Они полезны, потому что свойство быть байесовскими является легче анализировать, чем приемлемость». [ 20 ]
  • «В теории принятия решений довольно общий метод доказательства допустимости состоит в представлении процедуры как единственного байесовского решения». [ 24 ]
  • «В первых главах этой работы априорные распределения с конечным носителем и соответствующие байесовские процедуры использовались для установления некоторых основных теорем, касающихся сравнения экспериментов. Байесовские процедуры по отношению к более общим априорным распределениям сыграли очень важную роль в развитии статистики, включая ее асимптотическую теорию». «Существует множество задач, в которых взгляд на апостериорные распределения для подходящих априорных значений сразу же дает интересную информацию. Кроме того, этого метода вряд ли можно избежать в последовательном анализе». [ 25 ]
  • «Полезным фактом является то, что любое решающее правило Байеса, полученное путем принятия правильного априорного значения для всего пространства параметров, должно быть допустимым» [ 26 ]
  • «Важной областью исследований в развитии идей приемлемости были традиционные процедуры теории выборки, и было получено много интересных результатов». [ 27 ]

Выбор модели

[ редактировать ]

Байесовская методология также играет роль при выборе модели , цель которой состоит в том, чтобы выбрать одну модель из набора конкурирующих моделей, которая наиболее точно представляет основной процесс, в результате которого были получены наблюдаемые данные. модель с наибольшей апостериорной вероятностью При сравнении байесовских моделей выбирается с учетом данных. Апостериорная вероятность модели зависит от доказательств, или предельного правдоподобия , которое отражает вероятность того, что данные генерируются моделью, а также от априорного убеждения модели. Когда две конкурирующие модели априори считаются равновероятными, отношение их апостериорных вероятностей соответствует фактору Байеса . Поскольку сравнение байесовских моделей направлено на выбор модели с наибольшей апостериорной вероятностью, эту методологию также называют правилом максимального апостериорного выбора (MAP). [ 28 ] или правило вероятности MAP. [ 29 ]

Вероятностное программирование

[ редактировать ]

Хотя концептуально байесовские методы просты, они могут быть математически и численно сложными. Языки вероятностного программирования (PPL) реализуют функции, позволяющие легко создавать байесовские модели вместе с эффективными методами автоматического вывода. Это помогает отделить построение модели от вывода, позволяя специалистам-практикам сосредоточиться на своих конкретных проблемах и предоставляя PPL возможность выполнять за них вычислительные детали. [ 30 ] [ 31 ] [ 32 ]

Приложения

[ редактировать ]

Статистический анализ данных

[ редактировать ]

См. отдельную статью в Википедии о байесовской статистике , в частности раздел статистического моделирования на этой странице.

Компьютерные приложения

[ редактировать ]

Байесовский вывод находит применение в искусственном интеллекте и экспертных системах . Методы байесовского вывода являются фундаментальной частью компьютеризированных методов распознавания образов с конца 1950-х годов. [ 33 ] Существует также постоянно растущая связь между байесовскими методами и методами Монте-Карло , основанными на моделировании , поскольку сложные модели не могут быть обработаны в закрытой форме с помощью байесовского анализа, в то время как модели графическая структура может позволить использовать эффективные алгоритмы моделирования, такие как выборка Гиббса и другие методы Метрополиса. – Схемы алгоритмов Гастингса . [ 34 ] Недавно [ когда? ] байесовский вывод приобрел популярность среди филогенетического По этим причинам сообщества; ряд приложений позволяют одновременно оценивать множество демографических и эволюционных параметров.

Применительно к статистической классификации байесовский вывод использовался для разработки алгоритмов выявления спама в электронной почте . Приложения, использующие байесовский вывод для фильтрации спама, включают CRM114 , DSPAM , Bogofilter , SpamAssassin , SpamBayes , Mozilla , XEAMS и другие. Классификация спама более подробно рассматривается в статье о наивном байесовском классификаторе .

Индуктивный вывод Соломонова — это теория предсказания, основанная на наблюдениях; например, предсказание следующего символа на основе заданной серии символов. Единственное предположение состоит в том, что окружающая среда подчиняется некоторому неизвестному, но вычислимому распределению вероятностей . Это формальная индуктивная структура, сочетающая в себе два хорошо изученных принципа индуктивного вывода: байесовскую статистику и бритву Оккама . [ 35 ] [ ненадежный источник? ] Универсальная априорная вероятность Соломонова любого префикса p вычислимой последовательности x — это сумма вероятностей всех программ (для универсального компьютера), которые вычисляют что-то, начиная с p . Учитывая некоторое p и любое вычислимое, но неизвестное распределение вероятностей, из которого выбрано x , универсальную априорную теорему и теорему Байеса можно использовать для предсказания еще невидимых частей x . оптимального [ 36 ] [ 37 ]

Биоинформатика и приложения для здравоохранения

[ редактировать ]

Байесовский вывод применялся в различных приложениях биоинформатики , включая анализ дифференциальной экспрессии генов. [ 38 ] Байесовский вывод также используется в общей модели риска рака, называемой CIRI (постоянный индивидуализированный индекс риска), где последовательные измерения включаются для обновления байесовской модели, которая в основном построена на основе предварительных знаний. [ 39 ] [ 40 ]

В зале суда

[ редактировать ]

Байесовский вывод может использоваться присяжными для последовательного сбора доказательств за и против обвиняемого, а также для проверки того, соответствуют ли они в целом их личному порогу « вне разумного сомнения ». [ 41 ] [ 42 ] [ 43 ] Теорема Байеса последовательно применяется ко всем представленным доказательствам, при этом апостериорные данные одного этапа становятся априорными для следующего. Преимущество байесовского подхода состоит в том, что он дает присяжным беспристрастный и рациональный механизм объединения доказательств. Возможно, было бы уместно объяснить присяжным теорему Байеса в форме коэффициентов , поскольку коэффициенты ставок понимаются более широко, чем вероятности. В качестве альтернативы логарифмический подход присяжным может быть проще использовать , заменяющий умножение сложением.

Добавление доказательств

Если существование преступления не подвергается сомнению, а только личность преступника, было предложено, чтобы предварительная информация была единообразной для подпадающей под определение группы населения. [ 44 ] Например, если бы преступление могли совершить 1000 человек, априорная вероятность вины была бы 1/1000.

Использование присяжными теоремы Байеса вызывает споры. В Соединенном Королевстве свидетель-эксперт защиты объяснил теорему Байеса присяжным по делу Р против Адамса . Присяжные признали виновным, но дело было передано в апелляцию на том основании, что присяжным, не желавшим использовать теорему Байеса, не было предоставлено никаких средств сбора доказательств. Апелляционный суд оставил приговор в силе, но также высказал мнение, что «введение теоремы Байеса или любого подобного метода в уголовный процесс погружает присяжных в неуместные и ненужные области теории и сложности, отвлекая их от их основной задачи». ."

Гарднер-Медвин [ 45 ] утверждает, что критерием, на котором должен основываться приговор в уголовном процессе, является не вероятность вины, а скорее вероятность наличия доказательств при условии, что обвиняемый невиновен (сродни частотному p-значению ). Он утверждает, что если апостериорную вероятность вины нужно вычислить по теореме Байеса, необходимо знать априорную вероятность вины. Это будет зависеть от частоты совершения преступления, что является необычным доказательством, которое следует учитывать в уголовном процессе. Рассмотрим следующие три предложения:

А – известные факты и показания могли возникнуть, если подсудимый виновен.
Б – известные факты и показания могли бы возникнуть, если бы подсудимый невиновен.
В – обвиняемый виновен.

Гарднер-Медвин утверждает, что присяжные должны верить как А , так и не- Б, чтобы вынести обвинительный приговор. А и не- В подразумевает истинность С , но обратное неверно. Возможно, что B и C верны, но в этом случае он утверждает, что присяжные должны оправдать, хотя они знают, что отпустят некоторых виновных на свободу. См. также парадокс Линдли .

Байесовская эпистемология

[ редактировать ]

Байесианская эпистемология — это движение, которое выступает за байесовский вывод как средство обоснования правил индуктивной логики.

Карл Поппер и Дэвид Миллер отвергли идею байесовского рационализма, т.е. использования правила Байеса для создания эпистемологических выводов: [ 46 ] Она подвержена тому же порочному кругу, что и любая другая эпистемология джастификационизма , поскольку предполагает то, что пытается оправдать. Согласно этой точке зрения, рациональная интерпретация байесовского вывода будет рассматривать его просто как вероятностную версию фальсификации , отвергая распространенное среди байесовцев убеждение, что высокая вероятность, достигнутая серией байесовских обновлений, докажет гипотезу вне всякого разумного сомнения. или даже с вероятностью больше 0.

Байес и байесовский вывод

[ редактировать ]

Проблема, рассмотренная Байесом в предложении 9 его эссе « Очерк решения проблемы в доктрине шансов », представляет собой апостериорное распределение параметра a (степень успеха) биномиального распределения . [ нужна ссылка ]

Термин «байесовский» относится к Томасу Байесу (1701–1761), который доказал, что на неизвестное событие можно наложить вероятностные ограничения. [ нужна ссылка ] Однако именно Пьер-Симон Лаплас (1749–1827) ввел (как Принцип VI) то, что сейчас называется теоремой Байеса , и использовал его для решения проблем небесной механики , медицинской статистики, надежности и юриспруденции . [ 54 ] Лапласа Ранний байесовский вывод, в котором использовались единые априорные условия в соответствии с принципом недостаточного основания , назывался « обратной вероятностью » (потому что он делает выводы в обратном направлении от наблюдений к параметрам или от следствий к причинам). [ 55 ] ). После 1920-х годов «обратная вероятность» была в значительной степени вытеснена набором методов, которые стали называть частотной статистикой . [ 55 ]

В XX веке идеи Лапласа получили дальнейшее развитие в двух разных направлениях, породив объективные и субъективные течения в байесовской практике. В объективном или «неинформативном» течении статистический анализ зависит только от предполагаемой модели, анализируемых данных, [ 56 ] и метод назначения априора, который отличается от одного объективного байесовского практика к другому. В субъективном или «информативном» потоке спецификация априора зависит от убеждения (то есть предположений, на основе которых готов действовать анализ), которые могут обобщать информацию от экспертов, предыдущих исследований и т. д.

В 1980-х годах наблюдался резкий рост исследований и применений байесовских методов, в основном связанный с открытием методов Монте-Карло на основе цепей Маркова , которые устранили многие вычислительные проблемы, а также растущим интересом к нестандартным и сложным приложениям. [ 57 ] Несмотря на рост байесовских исследований, большая часть преподавания на бакалавриате по-прежнему основана на частотной статистике. [ 58 ] Тем не менее, байесовские методы широко приняты и используются, например, в области машинного обучения . [ 59 ]

См. также

[ редактировать ]
  1. ^ «Байесовский» . Словарь Merriam-Webster.com .
  2. ^ Хакерство, Ян (декабрь 1967 г.). «Немного более реалистичная личная вероятность». Философия науки . 34 (4): 316. дои : 10.1086/288169 . S2CID   14344339 .
  3. ^ «Теорема Байеса (Стэнфордская энциклопедия философии)» . Plato.stanford.edu . Проверено 5 января 2014 г.
  4. ^ ван Фраассен, Б. (1989) Законы и симметрия , Oxford University Press. ISBN   0-19-824860-1 .
  5. ^ Гельман, Эндрю; Карлин, Джон Б.; Стерн, Хэл С.; Дансон, Дэвид Б.; Вехтари, Аки; Рубин, Дональд Б. (2013). Байесовский анализ данных , третье издание. Чепмен и Холл/CRC. ISBN   978-1-4398-4095-5 .
  6. ^ де Карвальо, Мигель; Пейдж, Гэрритт; Барни, Брэдли (2019). «О геометрии байесовского вывода» (PDF) . Байесовский анализ . 14 (4): 1013–1036. дои : 10.1214/18-BA1112 . S2CID   88521802 .
  7. ^ Ли, Се Юн (2021). «Сэмплер Гиббса и вариационный вывод по координатному восхождению: теоретико-множественный обзор». Коммуникации в статистике – теория и методы . 51 (6): 1549–1568. arXiv : 2008.01006 . дои : 10.1080/03610926.2021.1921214 . S2CID   220935477 .
  8. ^ Колмогоров, А.Н. (1933) [1956]. Основы теории вероятностей . Издательская компания Челси.
  9. ^ Тьюр, вторник (1980). Вероятность на основе мер Радона . Интернет-архив. Чичестер [Англ.] ; Нью-Йорк: Уайли. ISBN  978-0-471-27824-5 .
  10. ^ Таральдсен, Гуннар; Туфто, Ярле; Линдквист, Бо Х. (24 июля 2021 г.). «Неправильные априоры и неправильные апостериоры» . Скандинавский статистический журнал . 49 (3): 969–991. дои : 10.1111/sjos.12550 . hdl : 11250/2984409 . ISSN   0303-6898 . S2CID   237736986 .
  11. ^ Роберт, Кристиан П.; Казелла, Джордж (2004). Статистические методы Монте-Карло . Спрингер. ISBN  978-1475741452 . OCLC   1159112760 .
  12. ^ Фридман, Д.А. (1963). «Об асимптотическом поведении байесовских оценок в дискретном случае» . Анналы математической статистики . 34 (4): 1386–1403. дои : 10.1214/aoms/1177703871 . JSTOR   2238346 .
  13. ^ Фридман, Д.А. (1965). «Об асимптотическом поведении байесовских оценок в дискретном случае II» . Анналы математической статистики . 36 (2): 454–456. дои : 10.1214/aoms/1177700155 . JSTOR   2238150 .
  14. ^ Робинс, Джеймс; Вассерман, Ларри (2000). «Обусловленность, вероятность и согласованность: обзор некоторых основополагающих концепций». Журнал Американской статистической ассоциации . 95 (452): 1340–1346. дои : 10.1080/01621459.2000.10474344 . S2CID   120767108 .
  15. ^ Сен, Пранаб К .; Китинг, JP; Мейсон, Р.Л. (1993). Мера близости Питмана: сравнение статистических оценок . Филадельфия: СИАМ.
  16. ^ Чоудхури, Нидхан; Госал, Субхаши; Рой, Аниндья (1 января 2005 г.). «Байесовские методы оценки функций». Справочник по статистике . Байесовское мышление. Том. 25. С. 373–414. CiteSeerX   10.1.1.324.3052 . дои : 10.1016/s0169-7161(05)25013-7 . ISBN  9780444515391 .
  17. ^ «Максимальная апостериорная (MAP) оценка» . www.probabilitycourse.com . Проверено 2 июня 2017 г.
  18. ^ Ю, Анжела. «Введение в байесовскую теорию принятия решений» (PDF) . cogsci.ucsd.edu/ . Архивировано из оригинала (PDF) 28 февраля 2013 г.
  19. ^ Хичкок, Дэвид. «Слайд статистики заднего прогнозируемого распределения» (PDF) . stat.sc.edu .
  20. ^ Перейти обратно: а б Бикель и Доксум (2001, стр. 32)
  21. ^ Кифер, Дж .; Шварц Р. (1965). «Допустимый байесовский характер T 2 -, Р 2 - и другие полностью инвариантные тесты для многомерных нормальных задач» . Анналы математической статистики . 36 (3): 747–770. doi : 10.1214/aoms/1177700051 .
  22. ^ Шварц, Р. (1969). «Инвариантные правильные байесовские тесты для экспоненциальных семейств» . Анналы математической статистики . 40 : 270–283. дои : 10.1214/aoms/1177697822 .
  23. ^ Хван, Дж. Т. и Казелла, Джордж (1982). «Минимаксные доверительные наборы для среднего многомерного нормального распределения» (PDF) . Анналы статистики . 10 (3): 868–881. дои : 10.1214/aos/1176345877 .
  24. ^ Леманн, Эрих (1986). Проверка статистических гипотез (второе изд.). (см. стр. 309 главы 6.7 «Приемлемость» и стр. 17–18 главы 1.8 «Полные классы»
  25. ^ Ле Кам, Люсьен (1986). Асимптотические методы в статистической теории принятия решений . Спрингер-Верлаг. ISBN  978-0-387-96307-5 . (Из «Главы 12 Апостериорные распределения и байесовские решения», стр. 324)
  26. ^ Кокс, Др. ; Хинкли, Д.В. (1974). Теоретическая статистика . Чепмен и Холл. п. 432. ИСБН  978-0-04-121537-3 .
  27. ^ Кокс, Др. ; Хинкли, Д.В. (1974). Теоретическая статистика . Чепмен и Холл. п. 433. ИСБН  978-0-04-121537-3 . )
  28. ^ Стойка, П.; Селен, Ю. (2004). «Обзор правил информационных критериев». Журнал обработки сигналов IEEE . 21 (4): 36–47. дои : 10.1109/MSP.2004.1311138 . S2CID   17338979 .
  29. ^ Фатерманс, Дж.; Ван Аэрт, С.; ден Деккер, AJ (2019). «Правило максимальной апостериорной вероятности для обнаружения столбцов атомов на изображениях HADF STEM». Ультрамикроскопия . 201 : 81–91. arXiv : 1902.05809 . дои : 10.1016/j.ultramic.2019.02.003 . ПМИД   30991277 . S2CID   104419861 .
  30. ^ Бессьер П., Мазер Э., Ауактзин Дж. М. и Мехнача К. (2013). Байесовское программирование (1 издание) Чепмен и Холл/CRC.
  31. ^ Дэниел Рой (2015). «Вероятностное программирование» . Вероятностное программирование.org . Архивировано из оригинала 10 января 2016 г. Проверено 02 января 2020 г.
  32. ^ Гахрамани, З. (2015). «Вероятностное машинное обучение и искусственный интеллект» . Природа . 521 (7553): 452–459. Бибкод : 2015Natur.521..452G . дои : 10.1038/nature14541 . ПМИД   26017444 . S2CID   216356 .
  33. ^ Файнберг, Стивен Э. (01 марта 2006 г.). «Когда байесовский вывод стал «байесовским»?» . Байесовский анализ . 1 (1). дои : 10.1214/06-BA101 .
  34. ^ Джим Альберт (2009). Байесовские вычисления с R, второе издание . Нью-Йорк, Дордрехт и др.: Springer. ISBN  978-0-387-92297-3 .
  35. ^ Ратманнер, Сэмюэл; Хаттер, Маркус; Ормерод, Томас С. (2011). «Философский трактат универсальной индукции» . Энтропия . 13 (6): 1076–1136. arXiv : 1105.5721 . Бибкод : 2011Entrp..13.1076R . дои : 10.3390/e13061076 . S2CID   2499910 .
  36. ^ Хаттер, Маркус; Хэ, Ян-Хуэй; Ормерод, Томас С. (2007). «Об универсальном предсказании и байесовском подтверждении». Теоретическая информатика . 384 (2007): 33–48. arXiv : 0709.1516 . Бибкод : 2007arXiv0709.1516H . дои : 10.1016/j.tcs.2007.05.016 . S2CID   1500830 .
  37. ^ Гач, Питер; Витаньи, Пол МБ (2 декабря 2010 г.). «Раймонд Дж. Соломонов 1926–2009». CiteSeerX   10.1.1.186.8268 .
  38. ^ Робинсон, Марк Д. и Маккарти, Дэвис Дж. и Смит, Гордон К. EdgeR: пакет Bioconductor для анализа дифференциальной экспрессии цифровых данных об экспрессии генов, Биоинформатика.
  39. ^ «ЦИРИ» . ciri.stanford.edu . Проверено 11 августа 2019 г.
  40. ^ Курц, Дэвид М.; Исфахани, Мохаммад С.; Шерер, Флориан; Су, Джоанна; Джин, Майкл С.; Лю, Чи Лун; Ньюман, Аарон М.; Дюрсен, Ульрих; Хюттманн, Андреас (25 июля 2019 г.). «Динамическое профилирование рисков с использованием серийных опухолевых биомаркеров для персонализированного прогнозирования результатов» . Клетка . 178 (3): 699–713.e19. дои : 10.1016/j.cell.2019.06.011 . ISSN   1097-4172 . ПМК   7380118 . ПМИД   31280963 .
  41. ^ Дэвид, А.П. и Мортера, Дж. (1996) «Последовательный анализ доказательств судебно-медицинской экспертизы». Журнал Королевского статистического общества , серия B, 58, 425–443.
  42. ^ Форман, Лос-Анджелес; Смит, AFM, и Эветт, IW (1997). «Байесовский анализ данных профиля дезоксирибонуклеиновой кислоты в приложениях судебно-медицинской идентификации (с обсуждением)». Журнал Королевского статистического общества , серия A, 160, 429–469.
  43. ^ Робертсон, Б. и Виньо, Джорджия (1995) Интерпретация доказательств: оценка судебной экспертизы в зале суда . Джон Уайли и сыновья. Чичестер. ISBN   978-0-471-96026-3 .
  44. ^ Дэвид, AP (2001) Теорема Байеса и взвешивание доказательств присяжными . Архивировано 1 июля 2015 г. в Wayback Machine.
  45. ^ Гарднер-Медвин, А. (2005) «Какую вероятность следует рассмотреть присяжным?». Значение , 2 (1), март 2005 г.
  46. ^ Миллер, Дэвид (1994). Критический рационализм . Чикаго: Открытый суд. ISBN  978-0-8126-9197-9 .
  47. ^ Хаусон и Урбах (2005), Джейнс (2003)
  48. ^ Цай, XQ; Ву, XY; Чжоу, X. (2009). «Стохастическое планирование с учетом повторяющихся пробоев с неполной информацией». Исследование операций . 57 (5): 1236–1249. дои : 10.1287/опре.1080.0660 .
  49. ^ Огл, Киона; Такер, Колин; Кейбл, Джессика М. (01 января 2014 г.). «Помимо простых моделей линейного смешивания: изотопное разделение экологических процессов на основе процессов». Экологические приложения . 24 (1): 181–195. дои : 10.1890/1051-0761-24.1.181 . ISSN   1939-5582 . ПМИД   24640543 .
  50. ^ Эваристо, Хайвиме; Макдоннелл, Джеффри Дж.; Шолль, Марта А.; Брейнзель, Л. Адриан; Чун, Квок П. (01 января 2016 г.). «Изучение потребления воды растениями на основе измерений изотопов ксилемной воды в двух тропических водосборных бассейнах с контрастными условиями влажности». Гидрологические процессы . 30 (18): 3210–3227. Бибкод : 2016HyPr...30.3210E . дои : 10.1002/hyp.10841 . ISSN   1099-1085 . S2CID   131588159 .
  51. ^ Гупта, Анкур; Роулингс, Джеймс Б. (апрель 2014 г.). «Сравнение методов оценки параметров в стохастических химико-кинетических моделях: примеры из системной биологии» . Журнал Айше . 60 (4): 1253–1268. Бибкод : 2014АИЧЕ..60.1253Г . дои : 10.1002/aic.14409 . ISSN   0001-1541 . ПМЦ   4946376 . ПМИД   27429455 .
  52. ^ Форнальски, К.В. (2016). «Байесовская модель головастика для обнаружения трендовых изменений финансовых котировок» (PDF) . R&R Журнал статистики и математических наук . 2 (1): 117–122.
  53. ^ Шютц, Н.; Холшнайдер, М. (2011). «Обнаружение изменений тренда во временных рядах с использованием байесовского вывода». Физический обзор E . 84 (2): 021120. arXiv : 1104.3448 . Бибкод : 2011PhRvE..84b1120S . дои : 10.1103/PhysRevE.84.021120 . ПМИД   21928962 . S2CID   11460968 .
  54. ^ Стиглер, Стивен М. (1986). «Глава 3» . История статистики . Издательство Гарвардского университета. ISBN  9780674403406 .
  55. ^ Перейти обратно: а б Финберг, Стивен Э. (2006). «Когда байесовский вывод стал «байесовским»?» . Байесовский анализ . 1 (1): 1–40 [с. 5]. дои : 10.1214/06-ba101 .
  56. ^ Бернардо, Хосе-Мигель (2005). «Справочный анализ». Справочник статистики . Том. 25. стр. 17–90.
  57. ^ Вулперт, Р.Л. (2004). «Разговор с Джеймсом О. Бергером». Статистическая наука . 19 (1): 205–218. CiteSeerX   10.1.1.71.6112 . дои : 10.1214/088342304000000053 . МР   2082155 . S2CID   120094454 .
  58. ^ Бернардо, Хосе М. (2006). «Букварь по байесовской математической статистике» (PDF) . Икотс-7 .
  59. ^ Бишоп, CM (2007). Распознавание образов и машинное обучение . Нью-Йорк: Спрингер. ISBN  978-0387310732 .

Источники

[ редактировать ]

Дальнейшее чтение

[ редактировать ]

элементарный

[ редактировать ]

Следующие книги перечислены в порядке возрастания вероятностной сложности:

Средний или продвинутый

[ редактировать ]
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: d20f25d1fb2da55fdaa42292584ca240__1722977940
URL1:https://arc.ask3.ru/arc/aa/d2/40/d20f25d1fb2da55fdaa42292584ca240.html
Заголовок, (Title) документа по адресу, URL1:
Bayesian inference - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)