Jump to content

Композиционные данные

В статистике композиционные данные представляют собой количественные описания частей некоторого целого, передающие относительную информацию. Математически данные о составе представлены точками на симплексе . Измерения, включающие вероятности, пропорции, проценты и ppm, можно рассматривать как композиционные данные.

Тройной сюжет

[ редактировать ]

Данные о составе трех переменных можно отобразить с помощью троичных графиков . Использование барицентрического графика для трех переменных графически изображает отношения трех переменных как положения в равностороннем треугольнике .

Простое выборочное пространство

[ редактировать ]

В целом, в 1982 году Джон Эйчисон определил композиционные данные как пропорции некоторого целого. [1] В частности, точка композиционных данных (или для краткости композиция ) может быть представлена ​​вещественным вектором с положительными компонентами. Пространство выборки композиционных данных представляет собой симплекс:

Иллюстрация симплекса Эйчисона. Здесь 3 части, представляют собой значения различных пропорций. A, B, C, D и E — это 5 разных композиций внутри симплекса. A, B и C эквивалентны, а D и E эквивалентны.

Единственную информацию дают соотношения между компонентами, поэтому информация о составе сохраняется при умножении на любую положительную константу. Следовательно, пространство выборки композиционных данных всегда можно считать стандартным симплексом, т.е. . В этом контексте нормализация к стандартному симплексу называется замыканием и обозначается :

где D – количество частей (компонентов) и обозначает вектор-строку.

Геометрия Эйчисона

[ редактировать ]

Симплексу можно придать структуру векторного пространства несколькими различными способами. Следующая структура векторного пространства называется геометрией Эйчисона или симплексом Эйчисона и имеет следующие операции:

Возмущение (сложение векторов)
Питание (скалярное умножение)
Внутренний продукт

Только с помощью этих операций достаточно показать, что симплекс Эйчисона образует -мерное евклидово внутреннее пространство произведения . Однородный состав нулевой вектор .

Ортонормированные базы

[ редактировать ]

Поскольку симплекс Эйчисона образует конечномерное гильбертово пространство, в симплексе можно построить ортонормированные базисы. Каждая композиция можно разложить следующим образом

где образует ортонормированный базис в симплексе. [2] Ценности – это (ортонормированные и декартовы) координаты относительно данного основания. Они называются изометрическими координатами логарифмического отношения. .

Линейные преобразования

[ редактировать ]

Есть три хорошо охарактеризованных изоморфизма , которые преобразуются из симплекса Эйчисона в реальное пространство. Все эти преобразования удовлетворяют линейности и, как указано ниже,

Аддитивное логарифмическое преобразование коэффициента

[ редактировать ]

Преобразование аддитивного логарифмического отношения (alr) представляет собой изоморфизм, где . Это дано

Выбор компонента знаменателя произволен и может быть любым указанным компонентом.Это преобразование обычно используется в химии для таких измерений, как pH. Кроме того, это преобразование наиболее часто используется для полиномиальной логистической регрессии . Преобразование alr не является изометрией, а это означает, что расстояния в преобразованных значениях не будут эквивалентны расстояниям в исходных композициях в симплексе.

Преобразование отношения центра логарифма

[ редактировать ]

Преобразование соотношения центров логарифмов (clr) является одновременно изоморфизмом и изометрией, где

Где это среднее геометрическое . Обратная функция также известна как функция softmax .

Изометрическое логарифмическое преобразование

[ редактировать ]

Преобразование изометрического логарифмического отношения (ilr) является одновременно изоморфизмом и изометрией, где

Существует несколько способов построения ортонормированных базисов, в том числе использование ортогонализации Грама – Шмидта или разложение по сингулярным значениям преобразованных данных clr. Другой альтернативой является построение логарифмических контрастов из разветвляющегося дерева. Если нам дано разветвляющееся дерево, мы можем построить базис из внутренних узлов дерева.

Представление дерева через его ортогональные компоненты. l представляет собой внутренний узел, элемент ортонормированного базиса. Это предшественник использования дерева в качестве основы для преобразования ilr.

Каждый вектор в базисе будет определяться следующим образом

Элементы внутри каждого вектора задаются следующим образом.

где — соответствующее количество вершин в соответствующих поддеревьях, показанных на рисунке. Можно показать, что полученный базис ортонормирован. [3]

Как только основа построено, преобразование ilr можно рассчитать следующим образом

где каждый элемент в преобразованных данных ilr имеет следующую форму

где и - это набор значений, соответствующих вершинам в поддеревьях и

  • В химии составы могут быть выражены как молярные концентрации каждого компонента. Поскольку сумма всех концентраций не определена, необходим весь состав частей D , который, таким образом, выражается в виде вектора D. молярных концентраций Эти композиции можно перевести в массовые проценты, умножив каждый компонент на соответствующую константу.
  • В демографии город может быть композиционной точкой данных в выборке городов; город, в котором 35% жителей — христиане, 55% — мусульмане, 6% — евреи, а остальные 4% — другие, будет соответствовать четверке [0,35, 0,55, 0,06, 0,04]. Набор данных будет соответствовать списку городов.
  • В геологии горная порода, состоящая из различных минералов, может быть точкой данных о составе образца горных пород; порода, в которой 10% — первый минерал, 30% — второй, а остальные 60% — третий, будет соответствовать тройке [0,1, 0,3, 0,6]. Набор данных будет содержать одну такую ​​тройку для каждого камня в выборке камней.
  • При высокопроизводительном секвенировании полученные данные обычно преобразуются в относительные количества, что делает их композиционными.
  • В теории вероятности и статистике разделение пространства выборки на непересекающиеся события описывается вероятностями, присвоенными таким событиям. Вектор D вероятностей можно рассматривать как композицию D частей. При их добавлении к единице можно подавить одну вероятность и полностью определить состав.
  • В хемометрике для классификации нефтяных масел. [4]
  • В опросе доля людей, положительно ответивших на разные вопросы, может быть выражена в процентах. Поскольку общее количество идентифицировано как 100, вектор состава компонентов D может быть определен с использованием только компонентов D - 1, предполагая, что оставшийся компонент представляет собой процент, необходимый для того, чтобы весь вектор добавился к 100.

См. также

[ редактировать ]

Примечания

[ редактировать ]
  1. ^ Эйчисон, Джон (1982). «Статистический анализ композиционных данных». Журнал Королевского статистического общества. Серия Б (Методическая) . 44 (2): 139–177. дои : 10.1111/j.2517-6161.1982.tb01195.x .
  2. ^ Эгозку и др.
  3. ^ Эгоцью и Павловски-Глан, 2005 г.
  4. ^ Олеа, Рикардо А.; Мартин-Фернандес, Хосеп А.; Крэддок, Уильям Х. (2021). «Многомерная классификация нефтяных систем сырой нефти на юго-востоке Техаса, США, с использованием обычного и композиционного анализа биомаркеров». В книге «Достижения в композиционном анализе данных — Festschrift» в честь Веры-Павловски-Глан, Фильцмозер, П., Хрон, К., Палареа-Альбаладехо, Дж., Мартин-Фернандес, Х.А., редакторы. Спрингер : 303–327.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: bee9ba4ba42a0ef7baf1c168b295d5af__1718061420
URL1:https://arc.ask3.ru/arc/aa/be/af/bee9ba4ba42a0ef7baf1c168b295d5af.html
Заголовок, (Title) документа по адресу, URL1:
Compositional data - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)