Jump to content

Направленная статистика

Статистика направлений (также круговая статистика или сферическая статистика ) — это раздел статистики , который занимается направлениями ( единичные векторы в евклидовом пространстве , R н ), оси ( линии, проходящие через начало координат в R н ) или вращения в R н . В более общем смысле, направленная статистика имеет дело с наблюдениями над компактными римановыми многообразиями, включая многообразие Штифеля .

Общую форму белка можно параметризовать как последовательность точек на единичной сфере . Показаны два вида сферической гистограммы таких точек для большой коллекции белковых структур. Статистическая обработка таких данных относится к области направленной статистики. [1]

Тот факт, что 0 градусов и 360 градусов являются идентичными углами , так что, например, 180 градусов не являются разумным средним значением 2 градусов и 358 градусов, служит иллюстрацией того, что для анализа некоторых типов данных требуются специальные статистические методы (в данном случае случай, угловые данные). Другие примеры данных, которые можно рассматривать как направленные, включают статистику, включающую временные периоды (например, время суток, неделю, месяц, год и т. д.), направления по компасу, двугранные углы в молекулах, ориентации, вращения и т. д.

Круговые распределения

[ редактировать ]

Любая функция плотности вероятности (pdf) на линии можно «обернуть» окружность окружности единичного радиуса. [2] То есть PDF-файл обернутой переменной является

Эту концепцию можно распространить на многомерный контекст путем расширения простой суммы до ряда суммы, охватывающие все измерения в пространстве признаков: где это -й евклидов базисный вектор.

В следующих разделах показаны некоторые соответствующие циклические распределения.

Круговое распределение фон Мизеса

[ редактировать ]

Распределение фон Мизеса — это круговое распределение, которое, как и любое другое круговое распределение, можно рассматривать как обертку определенного линейного распределения вероятностей вокруг круга. Основное линейное распределение вероятностей для распределения фон Мизеса математически неразрешимо; однако для статистических целей нет необходимости иметь дело с лежащим в основе линейным распределением. Полезность распределения фон Мизеса двояка: оно является наиболее математически понятным из всех круговых распределений, что позволяет упростить статистический анализ, и оно является близким приближением к завернутому нормальному распределению, которое, аналогично линейному нормальному распределению, важно, потому что это предельный случай суммы большого числа малых угловых отклонений. Фактически, распределение фон Мизеса часто называют «круговым нормальным» распределением из-за его простоты использования и его тесной связи с завернутым нормальным распределением. [3]

PDF-файл дистрибутива фон Мизеса: где — модифицированная функция Бесселя нулевого порядка.

Круговое равномерное распределение

[ редактировать ]

Функция плотности вероятности (pdf) кругового равномерного распределения определяется выражением

Это также можно рассматривать как фон Мизеса выше.

Завернутое нормальное распределение

[ редактировать ]

PDF-файл завернутого нормального распределения (WN): где μ и σ — среднее и стандартное отклонение развернутого распределения соответственно и тэта-функция Якоби : где и

Завернутое распределение Коши

[ редактировать ]

PDF-файл завернутого дистрибутива Коши (WC): где масштабный коэффициент и это пиковое положение.

Завернутое распределение Леви

[ редактировать ]

PDF-файл завернутого дистрибутива Леви (WL): где значение слагаемого считается равным нулю, когда , масштабный коэффициент и это параметр местоположения.

Прогнозируемое нормальное распределение

[ редактировать ]

Проецируемое нормальное распределение представляет собой круговое распределение, представляющее направление случайной величины с многомерным нормальным распределением, полученное путем радиальной проекции переменной на единичную (n-1)-сферу. В связи с этим, в отличие от других широко используемых круговых распределений, оно не является ни симметричным, ни унимодальным .

Распределения на многомерных многообразиях

[ редактировать ]
Три набора точек, выбранные из разных распределений Кента на сфере.

Также существуют распределения на двумерной сфере (например, распределение Кента [4] ), N -мерная сфера ( распределение Мизеса–Фишера [5] ) или тор ( двумерное распределение фон Мизеса [6] ).

Матричное распределение фон Мизеса – Фишера [7] является распределением на многообразии Штифеля и может использоваться для построения вероятностных распределений по матрицам вращения . [8]

Распределение Бингама — это распределение по осям в N измерениях или, что то же самое, по точкам на ( N — 1)-мерной сфере с идентифицированными антиподами. [9] Например, если N = 2, оси представляют собой ненаправленные линии, проходящие через начало координат на плоскости. В этом случае каждая ось разрезает единичный круг на плоскости (которая является одномерной сферой) в двух точках, которые являются антиподами друг друга. Для N = 4 распределение Бингама представляет собой распределение по пространству единичных кватернионов ( версоров ). Поскольку версор соответствует матрице вращения, распределение Бингема для N = 4 можно использовать для построения распределений вероятностей в пространстве вращений, как и распределение матрицы-фон Мизеса-Фишера.

Эти распределения используются, например, в геологии . [10] кристаллография [11] и биоинформатика . [1] [12] [13]

Необработанные векторные (или тригонометрические) моменты кругового распределения определяются как

где любой интервал длины , PDF и кругового распределения, . Поскольку интеграл равно единице, а интервал интегрирования конечен, то моменты любого кругового распределения всегда конечны и корректно определены.

Аналогично определяются выборочные моменты:

Результирующий вектор совокупности, длина и средний угол определяются аналогично соответствующим параметрам выборки.

Кроме того, длины высших моментов определяются как:

тогда как угловые части высших моментов просто . Длины всех моментов будут лежать между 0 и 1.

Меры местоположения и распространения

[ редактировать ]

Различные меры центральной тенденции и статистической дисперсии могут быть определены как для совокупности, так и для выборки, составленной из этой совокупности. [3]

Центральная тенденция

[ редактировать ]

Наиболее распространенной мерой местоположения является среднее круговое. Круговое среднее населения — это просто первый момент распределения, а среднее выборочное — это первый момент выборки. Выборочное среднее будет служить несмещенной оценкой среднего значения генеральной совокупности.

Когда данные сконцентрированы, медиану и моду можно определить по аналогии с линейным случаем, но для более рассредоточенных или мультимодальных данных эти концепции бесполезны.

Дисперсия

[ редактировать ]

Наиболее распространенными мерами кругового распространения являются:

  • The Круговая дисперсия . Для выборки круговая дисперсия определяется как: и для населения Оба будут иметь значения от 0 до 1.
  • The круговое стандартное отклонение со значениями от 0 до бесконечности. Это определение стандартного отклонения (а не квадратного корня из дисперсии) полезно, поскольку для завернутого нормального распределения оно является оценкой стандартного отклонения основного нормального распределения. Таким образом, это позволит стандартизировать круговое распределение, как и в линейном случае, для небольших значений стандартного отклонения. Это также относится к распределению фон Мизеса, которое близко приближается к завернутому нормальному распределению. Обратите внимание, что для небольших , у нас есть .
  • The круговая дисперсия со значениями от 0 до бесконечности. Эта мера разброса оказывается полезной при статистическом анализе дисперсии.

Распределение среднего значения

[ редактировать ]

Учитывая набор N измерений среднее значение z определяется как:

что может быть выражено как

где

или, альтернативно, как:

где

Распределение среднего угла ( ) для кругового PDF-файла P ( θ ) будет определяться следующим образом:

где находится на любом интервале длины и интеграл подчиняется ограничению, которое и постоянны или, альтернативно, что и постоянны.

Расчет распределения среднего значения для большинства круговых распределений аналитически невозможен, и для проведения дисперсионного анализа необходимы численные или математические аппроксимации. [14]

Центральная предельная теорема может быть применена к распределению выборочных средних. (основная статья: Центральная предельная теорема для направленной статистики ). Это можно показать [14] что распределение приближается к двумерному нормальному распределению в пределе большого размера выборки.

Проверка соответствия и значимости

[ редактировать ]

Для циклических данных (например, равномерно ли они распределены):

См. также

[ редактировать ]
  1. ^ Jump up to: а б Хамелрик, Томас; Кент, Джон Т.; Крог, Андерс (2006). «Хамелрик Т., Кент Дж., Крог А. (2006) Выборка реалистичных конформаций белка с использованием локальной структурной ошибки. PLoS Comput. Biol., 2 (9): e131» . PLOS Вычислительная биология . 2 (9): е131. Бибкод : 2006PLSCB...2..131H . дои : 10.1371/journal.pcbi.0020131 . ПМК   1570370 . ПМИД   17002495 .
  2. ^ Бальманн, К., (2006), Направленные особенности онлайн-распознавания рукописного текста , Распознавание образов, 39
  3. ^ Jump up to: а б Фишер 1993 .
  4. ^ Кент, Дж (1982) Распределение Фишера-Бингама на сфере . J Royal Stat Soc, 44, 71–80.
  5. ^ Фишер, Р.А. (1953) Дисперсия на сфере. Учеб. Рой. Соц. Лондон сер. А., 217, 295–305.
  6. ^ Мардия, КМ. Тейлор; СС; Субраманиам, Г.К. (2007). «Биоинформатика белков и смеси двумерных распределений фон Мизеса для угловых данных». Биометрия . 63 (2): 505–512. дои : 10.1111/j.1541-0420.2006.00682.x . ПМИД   17688502 . S2CID   14293602 .
  7. ^ Пал, Субхадип; Сенгупта, Субхаджит; Митра, Ритен; Банерджи, Арунава (сентябрь 2020 г.). «Сопряженные априорные значения и апостериорный вывод для матричного распределения Ланжевена на многообразии Штифеля» . Байесовский анализ . 15 (3): 871–908. дои : 10.1214/19-BA1176 . ISSN   1936-0975 . S2CID   209974627 .
  8. ^ Даунс (1972). «Ориентационная статистика». Биометрика . 59 (3): 665–676. дои : 10.1093/biomet/59.3.665 .
  9. ^ Бингхэм, К. (1974). «Антиподально-симметричное распределение на сфере» . Энн. Стат . 2 (6): 1201–1225. дои : 10.1214/aos/1176342874 .
  10. ^ Пил, Д.; Уайтен, штат Вашингтон; Маклахлан, Дж.Дж. (2001). «Подбор смесей распределений Кента для помощи в идентификации совместного набора» (PDF) . Дж. Ам. Стат. доц . 96 (453): 56–63. дои : 10.1198/016214501750332974 . S2CID   11667311 .
  11. ^ Кригер Лассен, Северная Каролина; Юул Йенсен, Д.; Конрадсен, К. (1994). «О статистическом анализе ориентировочных данных». Акта Кристаллогр . А50 (6): 741–748. Бибкод : 1994AcCrA..50..741K . дои : 10.1107/S010876739400437X .
  12. ^ Кент, Дж. Т., Хамелрик, Т. (2005). Использование распределения Фишера-Бингама в стохастических моделях структуры белка . В С. Барбере, П.Д. Бакстере, К.В.Мардиа и Р.Э. Уоллсе (ред.), «Количественная биология, анализ формы и вейвлеты», стр. 57–60. Лидс, Издательство Университета Лидса
  13. ^ Бумсма, Воутер; Мардия, Канти В.; Тейлор, Чарльз С.; Феркингхофф-Борг, Йеспер; Крог, Андерс; Хамелрик, Томас (2008). «Генеративная вероятностная модель локальной структуры белка» . Труды Национальной академии наук . 105 (26): 8932–8937. Бибкод : 2008PNAS..105.8932B . дои : 10.1073/pnas.0801715105 . ПМК   2440424 . ПМИД   18579771 .
  14. ^ Jump up to: а б Джаммаламадака и Сенгупта 2001 .

Книги по направленной статистике

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: be47ddbe9463e1ce6df21137347b542b__1717605240
URL1:https://arc.ask3.ru/arc/aa/be/2b/be47ddbe9463e1ce6df21137347b542b.html
Заголовок, (Title) документа по адресу, URL1:
Directional statistics - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)