Групповое распределение Дирихле
В статистике сгруппированное распределение Дирихле (GDD) представляет собой многомерное обобщение распределения Дирихле. Впервые оно было описано Ng et al. 2008. [1] Сгруппированное распределение Дирихле возникает при анализе категориальных данных , когда некоторые наблюдения могут попасть в любую из множества других «четких» категорий. Например, можно иметь набор данных, состоящий из случаев и контролей при двух разных условиях. При наличии полных данных перекрестная классификация статуса заболевания формирует таблицу 2 (случай/контроль)-x-(состояние/отсутствие состояния) с вероятностями клеток.
Уход | Никакого лечения | |
Элементы управления | я 1 | я 2 |
Случаи | я 3 | я 4 |
Однако если данные включают, скажем, нереспондентов, которые, как известно, являются контрольной группой или заболевшими, тогда перекрестная классификация статуса заболевания образует таблицу 2х3. Вероятность последнего столбца представляет собой сумму вероятностей первых двух столбцов в каждой строке, например
Уход | Никакого лечения | Отсутствующий | |
Элементы управления | я 1 | я 2 | θ 1 +θ 2 |
Случаи | я 3 | я 4 | θ 3 +θ 4 |
GDD позволяет полностью оценить вероятности ячеек в таких условиях агрегации. [1]
Распределение вероятностей
[ редактировать ]Рассмотрим замкнутое симплексное множество и . Письмо для первого элементы члена , распределение для двух разделов имеет функцию плотности, определяемую выражением
где — многомерная бета-функция .
Авторы и соавт. [1] продолжил определение сгруппированного распределения Дирихле m с плотностью данный
где представляет собой вектор целых чисел с . Нормализующая константа, определяемая выражением
Авторы продолжили использовать эти распределения в контексте трех различных приложений в медицинской науке.
Ссылки
[ редактировать ]- ^ Перейти обратно: а б с Нг, Кай Ван (2008). «Группированное распределение Дирихле: новый инструмент для неполного категориального анализа данных». Журнал многомерного анализа . 99 : 490–509.