Неточный процесс Дирихле
В теории вероятностей и статистике процесс Дирихле (ДП) — одна из самых популярных байесовских непараметрических моделей. Это былопредставлен Томасом Фергюсоном [1] как априор над вероятностными распределениями.
Процесс Дирихле полностью определяется своими параметрами: ( базовое распределение или базовая мера ) является произвольным распределением и ( параметр концентрации ) – положительное действительное число (его часто обозначают как ).Согласно байесовской парадигме эти параметры следует выбирать на основе доступной предварительной информации о предметной области.
Вопрос в том, как нам выбрать априорные параметры? ДП, в частности бесконечномерной , в случае отсутствия предварительной информации?
Для решения этой проблемы единственным априорным решением, предложенным до сих пор, является предельная DP, полученная для , который был представлен подназвание байесовского бутстрапа Рубина; [2] на самом деле можно доказать, что байесовский бутстрап асимптотически эквивалентен частотному бутстрапу, введенному Брэдли Эфроном . [3] Предельный процесс Дирихле подвергался критике по разным причинам. С априорной точки зрения главнымкритика заключается в том, что принятие далеко не ведет к неинформативному априору. [4] Более того, апостериорно он присваивает нулевую вероятность любому набору, который не включает наблюдения. [2]
Неточный Дирихле [5] был предложен процесс решения этих проблем. Основная идея – исправить но не выбирайте какую-либо точную базовую меру .
Точнее, неточный процесс Дирихле (IDP) определяется следующим образом:
где представляет собой набор всех вероятностных мер. Другими словами, IDP — это совокупность всех процессов Дирихле (с фиксированной ) полученныйпозволяя базовой мере чтобы охватить набор всех вероятностных мер.
Выводы с неточным процессом Дирихле
[ редактировать ]Позволять распределение вероятностей на (здесь стандартное борелевское пространство с борелевским -поле ) и предположим, что .Тогда рассмотрим вещественнозначную ограниченную функцию определено на . Хорошо известно, что ожидание относительно процесса Дирихле
Одним из наиболее замечательных свойств априорной теории ДП является то, что апостериорное распределение снова ДП.Позволять быть независимой и одинаково распределенной выборкой из и , то апостериорное распределение учитывая наблюдения
где - атомная мера вероятности (дельта Дирака) с центром в . Отсюда следуетчто Следовательно, для любого фиксированного , мы можем использовать предыдущие уравнения для получения априорных и апостериорных ожиданий.
В ВПЛ может охватывать набор всех дистрибутивов . Это означает, что мы получим разные априорные и апостериорные ожидания на любой выбор . Способ охарактеризовать выводы для IDP — вычислить нижнюю и верхнюю границы ожидания относительно .Априори эти границы таковы:
нижняя (верхняя) граница получается с помощью вероятностной меры, которая помещает всю массу в нижнюю (верхнюю) грань , то есть, с (или соответственно с ). Из приведенных выше выражений нижней и верхней границ видно, что диапазон значений под МВУ такой же, как и диапазон первоначальный . Другими словами, указывая МВУ, мы не даем никакой предварительной информации о значении ожидания . Таким образом , априори ВПЛ является моделью предварительного (почти) невежества для .
Апостериорно, ВПЛ могут учиться на данных. Задние нижняя и верхняя границы ожидания фактически даются:
Можно заметить, что апостериорные выводы не зависят от . Чтобы определить IDP, разработчику модели достаточно выбрать (параметр концентрации). Это объясняет значение прилагательного « рядом» в предшествующем почти незнании, поскольку IDP требует от разработчика моделирования выявления параметра. Однако это простая задача выявления непараметрического априора, поскольку нам нужно выбрать только значение положительной скалярной величины (в модели IDP осталось не бесконечно много параметров).
Наконец, заметим, что для , ВПЛ удовлетворяет
где . Другими словами, ВПЛ последовательны.
Выбор предварительной крепости
[ редактировать ]МВУ полностью определяется , который является единственным параметром, оставшимся в предыдущей модели.Поскольку значение определяет, насколько быстро сходятся нижние и верхние апостериорные ожиданияувеличение количества наблюдений, можно выбрать таким образом, чтобы он соответствовал определенной скорости сходимости. [5] Параметр также могут быть выбраны так, чтобы иметь некоторые желаемые частотные свойства (например, достоверные интервалы, которые будуткалиброванные частотные интервалы, тесты гипотез, калибруемые на ошибку типа I и т. д.), см. Пример: медианный тест
Пример: оценка кумулятивного распределения
[ редактировать ]Позволять быть действительными случайными величинами с кумулятивной функцией распределения .
С , где это индикаторная функция , мы можем использоватьВПЛ, чтобы сделать выводы о Нижнее и верхнее заднее среднее значение являются
где – эмпирическая функция распределения . Здесь, чтобы получить нижнее значение, мы воспользовались тем фактом, что и для верха это .
Заметим, что при любом точном выборе (например, нормальное распределение ), апостериорное ожидание будет включено между нижней и верхней границей.
Пример: медианный тест
[ редактировать ]IDP также можно использовать для проверки гипотез, например, для проверки гипотезы. , то есть медиана больше нуля.Учитывая разделение и свойство процесса Дирихле, можно показать, чтозаднее распределение является
где количество наблюдений меньше нуля,
- и
Используя это свойство, следует, что
где – регуляризованная неполная бета-функция .Таким образом, мы можем выполнить проверку гипотезы
(с например), а затем
- если оба неравенства удовлетворены, мы можем объявить, что с вероятностью большей, чем ;
- если выполняется только одно из неравенств (которое обязательно должно быть неравенством для верхнего), мы находимся в неопределенной ситуации, т. е. не можем принять решение;
- если оба не удовлетворены, мы можем объявить, что вероятность того, что ниже желаемой вероятности .
IDP возвращает неопределенное решение, когда решение предварительно зависит (то есть, когда оно будет зависеть от выбора ).
Используя взаимосвязь между кумулятивной функцией распределения бета -распределения и кумулятивной функцией распределения Z случайной величины из биномиального распределения , где «вероятность успеха» равна p , а размер выборки равен n :
мы можем показать, что медианный тест, полученный с помощью IDP для любого выбора включает в себя односторонний частотникзнаковый тест как тест на медиану. Фактически можно убедиться, что для тот -значение знакового теста равно . Таким образом, если тогда -значение меньше и, таким образом, эти два теста имеют одинаковую силу.
Применение неточного процесса Дирихле
[ редактировать ]Процессы Дирихле часто используются в байесовской непараметрической статистике. Неточный процесс Дирихлемогут использоваться вместо процессов Дирихле в любом приложении, в котором отсутствует априорная информация (поэтому важно смоделировать это состояние предварительного незнания).
В этом отношении для непараметрической проверки гипотез использовался неточный процесс Дирихле, см. Статистический пакет неточного процесса Дирихле .На основе неточного процесса Дирихле, байесовских непараметрических версий следующих классических непараметрических оценок, близких к игнорированию: были получены: критерий суммы рангов Уилкоксона [5] и критерий знакового ранга Уилкоксона. [6]
Байесовская непараметрическая модель почти незнания имеет несколько преимуществ по сравнению с традиционным подходом к проверке гипотез.
- Байесовский подход позволяет нам сформулировать проверку гипотезы как проблему принятия решения. Это означает, что мы можем проверить доказательства в пользу нулевой гипотезы, а не только отвергнуть ее, и принять решения, минимизирующие ожидаемые потери.
- Из-за непараметрического априорного почти игнорирования тесты на основе IDP позволяют нам начать проверку гипотезы с очень слабыми априорными предположениями, во многом в направлении того, чтобы данные говорили сами за себя.
- Хотя тест IDP имеет некоторые общие черты со стандартным байесовским подходом, в то же время он воплощает в себе существенное изменение парадигмы, когда дело доходит до принятия решений. Фактически, тесты на основе IDP имеют то преимущество, что дают неопределенный результат, когда решение зависит от предшествующего уровня. Другими словами, тест IDP приостанавливает вынесение суждения, когда вариант, который минимизирует ожидаемые потери, изменяется в зависимости от базовой меры процесса Дирихле, на которой мы фокусируемся.
- Эмпирически подтверждено, что, когда тест IDP не определен, частотные тесты фактически ведут себя как случайные угадыватели. Этот удивительный результат имеет практические последствия при проверке гипотез. Предположим, что мы пытаемся сравнить эффекты двух методов лечения (Y лучше, чем X), и что, учитывая доступные данные, тест IDP является неопределенным. В такой ситуации частотный тест всегда дает определенный ответ (например, я могу сказать, что Y лучше, чем X), но оказывается, что его ответ совершенно случайен, как если бы мы подбрасывали монету. С другой стороны, тест МВУ признает невозможность принятия решения в этих случаях. Таким образом, говоря «Я не знаю», тест на МВУ предоставляет аналитику более полную информацию. Аналитик может, например, использовать эту информацию для сбора дополнительных данных.
Категориальные переменные
[ редактировать ]Для категориальных переменных , т.е. когда имеет конечное число элементов, известно, чтопроцесс Дирихле сводится к распределению Дирихле .В этом случае неточный процесс Дирихле сводится к неточной модели Дирихле, предложенной Уолли. [7] как модель предварительного (почти) незнания шансов.
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Фергюсон, Томас (1973). «Байесовский анализ некоторых непараметрических задач» . Анналы статистики . 1 (2): 209–230. дои : 10.1214/aos/1176342360 . МР 0350949 .
- ^ Перейти обратно: а б Рубин Д (1981). Байесовский бутстрап. Энн. Стат. 9 130–134
- ^ Эфрон Б (1979). Методы начальной загрузки: еще один взгляд на складной нож. Энн. Стат. 7 1–26
- ^ Сетураман, Дж.; Тивари, RC (1981). «Сходимость мер Дирихле и интерпретация их параметра». Центр оборонной технической информации .
- ^ Бенаволи, Алессио; Мангили, Франческа; Корани, Джорджио; Руджери, Фабрицио; Заффалон, Марко (2014). «Байесовский критерий знакового ранга Вилкоксона, основанный на процессе Дирихле». Материалы 30-й Международной конференции по машинному обучению (ICML 2014).
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ Уолли, Питер (1991). Статистические рассуждения с неточными вероятностями . Лондон: Чепмен и Холл. ISBN 0-412-28660-2 .