Параллельные координаты
Графики параллельных координат — это распространенный метод визуализации многомерных наборов данных для анализа многомерных данных, имеющих несколько переменных или атрибутов.
Чтобы построить или визуализировать набор точек в n -мерном пространстве , n параллельных на фоне рисуются линий, представляющих оси координат , обычно ориентированные вертикально с одинаковым интервалом. Точки в n -мерном пространстве представляются как отдельные полилинии с n вершинами , расположенными на параллельных осях, соответствующих каждому координатному элементу n -мерной точки, вершины соединены n-1 отрезками полилинии.
Эта визуализация данных аналогична визуализации временных рядов , за исключением того, что параллельные координаты применяются к данным, которые не соответствуют хронологическому времени. Поэтому могут представлять интерес различные расположения осей, в том числе горизонтальное отражение осей или инвертирование диапазона атрибутов в противном случае.
История
[ редактировать ]Часто говорят, что концепция параллельных координат возникла в 1885 году французским математиком Филбером Морисом д'Оканем . [1] Д'Окань искал способ обеспечить графический расчет математических функций с использованием диаграмм выравнивания, называемых номограммами , в которых использовались параллельные оси с разными масштабами.Например, уравнение с тремя переменными можно решить, используя три параллельные оси, отмечая известные значения на их шкалах, затем рисуя линию между ними, а неизвестное значение считывается со шкалы в точке, где линия пересекает эту шкалу.
Часто говорят, что использование параллельных координат в качестве метода визуализации для отображения данных возникло ранее у Генри Ганнета в работе, предшествовавшей Статистическому атласу Соединенных Штатов.для переписи 1890 года, например, его «Общая сводка, показывающая ранг штатов по соотношениям, 1880 год», [2] который показывает ранг 10 показателей (население, профессии, богатство, производство, сельское хозяйство и т. д.) на параллельных осях, соединенных линиями для каждого штата.
Однако и д'Оканя, и Ганне в этом далеко опередил Андре-Мишель Герри . [3] Табличка IV «Влияние возраста».где он показал рейтинг преступлений против людей по возрасту по параллельным осям, связывающим одни и те же преступления по возрастным группам. [4]
Параллельные координаты были снова популяризированы 87 лет спустя Альфредом Инзельбергом. [5] в 1985 году и систематически разрабатывается как система координат, начиная с 1977 года. Некоторые важные приложения находятся в алгоритмах предотвращения столкновений для управления воздушным движением (1987 — 3 патента США), интеллектуальном анализе данных (патент США), компьютерном зрении (патент США), оптимизации, процессах. контроль , а в последнее время — обнаружение вторжений и другие области.
Высшие измерения
[ редактировать ]На плоскости с декартовой системой координат XY добавление дополнительных размеров в параллельных координатах (часто сокращенно ||-координаты, PCP или PC) предполагает добавление большего количества осей. Ценность параллельных координат заключается в том, что определенные геометрические свойства в больших измерениях преобразуются в легко видимые двумерные узоры. Например, набор точек на линии в n -пространстве преобразуется в набор ломаных линий в параллельных координатах, пересекающихся в n - 1 точках. Для n = 2 это приводит к двойственности точки и линии, указывающей на то, почему математические основы параллельных координат разрабатываются в проективном, а не в евклидовом пространстве. Пара линий пересекается в единственной точке, которая имеет две координаты и, следовательно, может соответствовать уникальной линии, также заданной двумя параметрами (или двумя точками). Напротив, для задания кривой требуется более двух точек, а также пара кривых может не иметь уникального пересечения. Следовательно, при использовании кривых в параллельных координатах вместо линий двойственность точечных линий теряется вместе со всеми другими свойствами проективной геометрии и известными красивыми многомерными шаблонами, соответствующими (гипер)плоскостям, кривым, нескольким гладким (гипер)поверхностям. , близости, выпуклости и недавно неориентируемости. [6] Цель состоит в том, чтобы отобразить n-мерные отношения в двумерные шаблоны. Следовательно, параллельные координаты - это не отображение «точка-точка», а скорее отображение n D-подмножества в 2D-подмножество, потери информации нет. Примечание: даже точка в nD отображается не в точку в 2D, а в ломаную линию — подмножество 2D.
Статистические соображения
[ редактировать ]При использовании для визуализации статистических данных необходимо учитывать три важных фактора: порядок, вращение и масштабирование осей.
Порядок осей имеет решающее значение для поиска признаков, и при типичном анализе данных необходимо будет попробовать множество переупорядочений. Некоторые авторы придумали эвристику упорядочения, которая может создать проясняющее упорядочение. [7]
Вращение осей представляет собой перемещение в параллельных координатах, и если линии пересекаются вне параллельных осей, их можно переносить между ними путем вращения. Самый простой пример — поворот оси на 180 градусов. [8]
Масштабирование необходимо, поскольку график основан на интерполяции (линейной комбинации) последовательных пар переменных. [8] Следовательно, переменные должны иметь общий масштаб, и существует множество методов масштабирования, которые следует учитывать как часть процесса подготовки данных, которые могут предоставить более информативные представления.
Гладкий параллельный график координат достигается с помощью сплайнов. [9] На гладком графике каждое наблюдение отображается в параметрическую линию (или кривую), которая является гладкой, непрерывной по осям и ортогональной каждой параллельной оси. Эта конструкция подчеркивает уровень квантования для каждого атрибута данных. [8]
Чтение
[ редактировать ]Инсельберг ( Inselberg 1997 ) сделал полный обзор того, как визуально считывать реляционные шаблоны параллельных координат. [10] Когда большинство линий между двумя параллельными осями в некоторой степени параллельны друг другу, это предполагает положительную связь между этими двумя измерениями. Когда линии пересекаются, образуя своего рода суперпозицию X-образных фигур, это отрицательная связь. Когда линии пересекаются случайным образом или параллельны, это показывает, что особой взаимосвязи нет.
Ограничения
[ редактировать ]В параллельных координатах каждая ось может иметь не более двух соседних осей (одну слева и одну справа). Для n -мерного набора данных одновременно можно отобразить не более n -1 отношений без изменения подхода. При визуализации временных рядов существует естественный предшественник и преемник; поэтому в этом особом случае существует предпочтительное расположение. Однако, когда оси не имеют уникального порядка, поиск хорошего расположения осей требует использования экспериментов и проектирования функций. Чтобы изучить больше взаимосвязей, оси можно переупорядочить или реструктурировать.
Один подход упорядочивает оси в 3-мерном пространстве (по-прежнему параллельно, образуя решетчатый граф ), ось может иметь более двух соседей в круге вокруг центрального атрибута, а проблему расположения можно улучшить, используя минимальное связующее дерево . [11] Прототип этой визуализации доступен как расширение программного обеспечения для интеллектуального анализа данных ELKI . Однако визуализацию сложнее интерпретировать и с ней взаимодействовать, чем с линейным порядком.
Программное обеспечение
[ редактировать ]Хотя существует большое количество статей о параллельных координатах, общедоступно лишь несколько примечательных программ для преобразования баз данных в графику с параллельными координатами. [12] Известные программы: ELKI , GGobi , Mondrian , Orange и ROOT . Библиотеки включают Protovis.js , D3.js предоставляет базовые примеры. Также был опубликован D3.Parcoords.js (библиотека на основе D3), специально предназначенная для создания графики в параллельных координатах. Библиотека Python структуры данных и анализа Pandas реализует построение параллельных координат с использованием библиотеки построения графиков matplotlib . [13]
Другие визуализации для многомерных данных
[ редактировать ]- Радарная диаграмма – визуализация с осями координат, расположенными радиально.
- График Эндрюса – преобразование Фурье графика параллельных координат.
- Диаграмма Санки — визуализация, подчеркивающая поток/движение/переход от одного состояния к другому.
Ссылки
[ редактировать ]- ^ Окань, М. (1885). Параллельные и осевые координаты: метод геометрического преобразования и новый процесс графических вычислений, выведенный из рассмотрения параллельных координат. Готье-Виллар. https://archive.org/details/coordonnesparal00ocaggoog }}
- ^ Ганнетт, Генри. «Общая сводка, показывающая ранг штатов по соотношениям в 1880 году» .
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ Герри, А.-М (1833). Очерк моральной статистики Франции. Париж: Крошар.
- ^ Дружелюбный, М. (2022). Еще раз о жизни и творчестве Андре-Мишеля Герри. Социологический спектр, 42(4-6), 233–259. https://doi.org/10.1080/02732173.2022.2078450
- ^ Инзельберг, Альфред (1985). «Плоскость с параллельными координатами». Визуальный компьютер . 1 (4): 69–91. дои : 10.1007/BF01898350 . S2CID 15933827 .
- ^ Инзельберг, Альфред (2009). Параллельные координаты: ВИЗУАЛЬНАЯ многомерная геометрия и ее приложения . Спрингер. ISBN 978-0387215075 .
- ^ Ян, Цзин; Пэн, Вэй; Уорд, Мэтью О.; Рунденштейнер, Эльке А. (2003). «Интерактивное иерархическое упорядочение измерений и фильтрация для исследования многомерных наборов данных» (PDF) . Симпозиум IEEE по визуализации информации (INFOVIS 2003) : 3–4.
- ^ Jump up to: а б с Мустафа, Рида; Вегман, Эдвард Дж. (2006). «Многомерные непрерывные данные – параллельные координаты». В Анвине, А.; Теус, М.; Хофманн, Х. (ред.). Графика больших наборов данных: визуализация миллиона . Спрингер. стр. 143–156. ISBN 978-0387329062 .
- ^ Мустафа, Рида; Вегман, Эдвард Дж. (2002). «О некоторых обобщениях графиков параллельных координат» (PDF) . «Видеть миллион», семинар по визуализации данных, Райн-ам-Лех (Нью-Йорк), Германия . Архивировано из оригинала (PDF) 24 декабря 2013 г.
- ^ Инзельберг, А. (1997), «Многомерный детектив», Визуализация информации, 1997. Труды, Симпозиум IEEE , стр. 100–107, CiteSeerX 10.1.1.457.3745 , doi : 10.1109/INFVIS.1997.636793 , ISBN 0-8186-8189-6 , S2CID 1823293
- ^ Эльке Ахтерт, Ханс-Петер Кригель , Эрих Шуберт, Артур Зимек (2013). «Интерактивный интеллектуальный анализ данных с помощью трехмерных деревьев параллельных координат». Материалы Международной конференции ACM SIGMOD по управлению данными 2013 г. Нью-Йорк, штат Нью-Йорк. стр. 1009–1012. дои : 10.1145/2463676.2463696 . ISBN 9781450320375 . S2CID 14850709 .
{{cite book}}
: CS1 maint: дата и год ( ссылка ) CS1 maint: местоположение отсутствует издатель ( ссылка ) CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Косара, Роберт (2010). «Параллельные координаты» .
- ^ Параллельные координаты в Pandas
Дальнейшее чтение
[ редактировать ]- Генрих, Джулиан и Вайскопф, Дэниел (2013) Современное состояние параллельных координат , Eurographics 2013 - Отчеты о современном состоянии, стр. 95–116.
- Мустафа, Рида (2011) Графики плотности параллельных координат и параллельных координат , Междисциплинарные обзоры Wiley: Вычислительная статистика, Том 3 (2), стр. 134–148.
- Вейделе, Дэниел Карл И. (2019) Условные параллельные координаты , Конференция IEEE по визуализации (VIS) 2019, стр. 221–225.
Внешние ссылки
[ редактировать ]- Домашняя страница Альфреда Инзельберга с визуальным руководством, историей, избранными публикациями и приложениями.
- «Исследование методов визуализации наборов данных с высокой степенью многомерности», авторы К. Брансдон, А.С. Фотерингем и М.Э. Чарльтон, Университет Ньюкасла , Великобритания.
- Использование кривых для улучшения визуализации параллельных координат. Архивировано 15 марта 2007 г. в Wayback Machine Мартином Грэмом и Джесси Кеннеди, Университет Нейпира , Эдинбург , Великобритания.
- Параллельные координаты , учебник Роберта Косары
- Условные параллельные координаты — рекурсивный вариант параллельных координат, в котором категориальное значение может расширяться, чтобы раскрыть другой уровень параллельных координат.