Композиционные данные
В статистике композиционные данные представляют собой количественные описания частей некоторого целого, передающие относительную информацию. Математически данные о составе представлены точками на симплексе . Измерения, включающие вероятности, пропорции, проценты и ppm, можно рассматривать как композиционные данные.
Тройной сюжет
[ редактировать ]Данные о составе трех переменных можно отобразить с помощью троичных графиков . Использование барицентрического графика для трех переменных графически изображает отношения трех переменных как положения в равностороннем треугольнике .
Простое выборочное пространство
[ редактировать ]В целом, в 1982 году Джон Эйчисон определил композиционные данные как пропорции некоторого целого. [1] В частности, точка композиционных данных (или для краткости композиция ) может быть представлена вещественным вектором с положительными компонентами. Пространство выборки композиционных данных представляет собой симплекс:
Единственную информацию дают соотношения между компонентами, поэтому информация о составе сохраняется при умножении на любую положительную константу. Следовательно, пространство выборки композиционных данных всегда можно считать стандартным симплексом, т.е. . В этом контексте нормализация к стандартному симплексу называется замыканием и обозначается :
где D – количество частей (компонентов) и обозначает вектор-строку.
Геометрия Эйчисона
[ редактировать ]Симплексу можно придать структуру векторного пространства несколькими различными способами. Следующая структура векторного пространства называется геометрией Эйчисона или симплексом Эйчисона и имеет следующие операции:
- Возмущение (сложение векторов)
- Питание (скалярное умножение)
- Внутренний продукт
Только с помощью этих операций достаточно показать, что симплекс Эйчисона образует -мерное евклидово внутреннее пространство произведения . Однородный состав – нулевой вектор .
Ортонормированные базы
[ редактировать ]Поскольку симплекс Эйчисона образует конечномерное гильбертово пространство, в симплексе можно построить ортонормированные базисы. Каждая композиция можно разложить следующим образом
где образует ортонормированный базис в симплексе. [2] Ценности – это (ортонормированные и декартовы) координаты относительно данного основания. Они называются изометрическими координатами логарифмического отношения. .
Линейные преобразования
[ редактировать ]Есть три хорошо охарактеризованных изоморфизма , которые преобразуются из симплекса Эйчисона в реальное пространство. Все эти преобразования удовлетворяют линейности и, как указано ниже,
Аддитивное логарифмическое преобразование коэффициента
[ редактировать ]Преобразование аддитивного логарифмического отношения (alr) представляет собой изоморфизм, где . Это дано
Выбор компонента знаменателя произволен и может быть любым указанным компонентом.Это преобразование обычно используется в химии для таких измерений, как pH. Кроме того, это преобразование наиболее часто используется для полиномиальной логистической регрессии . Преобразование alr не является изометрией, а это означает, что расстояния в преобразованных значениях не будут эквивалентны расстояниям в исходных композициях в симплексе.
Преобразование отношения центра логарифма
[ редактировать ]Преобразование соотношения центров логарифмов (clr) является одновременно изоморфизмом и изометрией, где
Где это среднее геометрическое . Обратная функция также известна как функция softmax .
Изометрическое логарифмическое преобразование
[ редактировать ]Преобразование изометрического логарифмического отношения (ilr) является одновременно изоморфизмом и изометрией, где
Существует несколько способов построения ортонормированных базисов, в том числе использование ортогонализации Грама – Шмидта или разложение по сингулярным значениям преобразованных данных clr. Другой альтернативой является построение логарифмических контрастов из разветвляющегося дерева. Если нам дано разветвляющееся дерево, мы можем построить базис из внутренних узлов дерева.
Каждый вектор в базисе будет определяться следующим образом
Элементы внутри каждого вектора задаются следующим образом.
где — соответствующее количество вершин в соответствующих поддеревьях, показанных на рисунке. Можно показать, что полученный базис ортонормирован. [3]
Как только основа построено, преобразование ilr можно рассчитать следующим образом
где каждый элемент в преобразованных данных ilr имеет следующую форму
где и - это набор значений, соответствующих вершинам в поддеревьях и
Примеры
[ редактировать ]- В химии составы могут быть выражены как молярные концентрации каждого компонента. Поскольку сумма всех концентраций не определена, необходим весь состав частей D , который, таким образом, выражается в виде вектора D. молярных концентраций Эти композиции можно перевести в массовые проценты, умножив каждый компонент на соответствующую константу.
- В демографии город может быть композиционной точкой данных в выборке городов; город, в котором 35% жителей — христиане, 55% — мусульмане, 6% — евреи, а остальные 4% — другие, будет соответствовать четверке [0,35, 0,55, 0,06, 0,04]. Набор данных будет соответствовать списку городов.
- В геологии горная порода, состоящая из различных минералов, может быть точкой данных о составе образца горных пород; порода, в которой 10% — первый минерал, 30% — второй, а остальные 60% — третий, будет соответствовать тройке [0,1, 0,3, 0,6]. Набор данных будет содержать одну такую тройку для каждого камня в выборке камней.
- При высокопроизводительном секвенировании полученные данные обычно преобразуются в относительные количества, что делает их композиционными.
- В теории вероятности и статистике разделение пространства выборки на непересекающиеся события описывается вероятностями, присвоенными таким событиям. Вектор D вероятностей можно рассматривать как композицию D частей. При их добавлении к единице можно подавить одну вероятность и полностью определить состав.
- В хемометрике для классификации нефтяных масел. [4]
- В опросе доля людей, положительно ответивших на разные вопросы, может быть выражена в процентах. Поскольку общее количество идентифицировано как 100, вектор состава компонентов D может быть определен с использованием только компонентов D - 1, предполагая, что оставшийся компонент представляет собой процент, необходимый для того, чтобы весь вектор добавился к 100.
См. также
[ редактировать ]Примечания
[ редактировать ]- ^ Эйчисон, Джон (1982). «Статистический анализ композиционных данных». Журнал Королевского статистического общества. Серия Б (Методическая) . 44 (2): 139–177. дои : 10.1111/j.2517-6161.1982.tb01195.x .
- ^ Эгозку и др.
- ^ Эгоцью и Павловски-Глан, 2005 г.
- ^ Олеа, Рикардо А.; Мартин-Фернандес, Хосеп А.; Крэддок, Уильям Х. (2021). «Многомерная классификация нефтяных систем сырой нефти на юго-востоке Техаса, США, с использованием обычного и композиционного анализа биомаркеров». В книге «Достижения в композиционном анализе данных — Festschrift» в честь Веры-Павловски-Глан, Фильцмозер, П., Хрон, К., Палареа-Альбаладехо, Дж., Мартин-Фернандес, Х.А., редакторы. Спрингер : 303–327.
Ссылки
[ редактировать ]- Эйчисон, Дж. (2011) [1986], Статистический анализ композиционных данных , Монографии по статистике и прикладной вероятности, Springer, ISBN 978-94-010-8324-9
- ван ден Бугаарт, К. Джеральд; Толосана-Дельгадо, Раймон (2013), Анализ данных о составе с помощью R , Springer, ISBN 978-3-642-36809-7
- Эгоскуэ, Хуан Хосе; Павловский-Глан, Вера; Матеу-Фигерас, Глория; Барсело-Видаль, Карлес (2003), «Изометрические логарифмические преобразования для анализа композиционных данных», Mathematical Geology , 35 (3): 279–300, doi : 10.1023/A:1023818214614 , S2CID 122844634
- Эгоскуэ, Хуан Хосе; Павловский-Глан, Вера (2005), «Группы частей и их балансы в анализе композиционных данных», Mathematical Geology , 37 (7): 795–828, Бибкод : 2005MatGe..37..795E , doi : 10.1007/s11004- 005-7381-9 , С2КИД 53061345
- Павловский-Глан, Вера ; Эгоскуэ, Хуан Хосе; Толосана-Дельгадо, Раймон (2015), Моделирование и анализ композиционных данных , Wiley, doi : 10.1002/9781119003144 , ISBN 978-1-119-00314-4
Внешние ссылки
[ редактировать ]- CoDaWeb - Веб-сайт композиционных данных
- Павловский-Глан, В.; Эгоскью, Джей Джей; Толосана-Дельгадо, Р. (2007). «Конспекты лекций по композиционному анализу данных» . Университет Жироны . HDL : 10256/297 .
- Почему и как геологам следует использовать композиционный анализ данных (викибук)