Интерактивный визуальный анализ
Интерактивный визуальный анализ ( IVA ) — это набор методов объединения вычислительной мощности компьютеров с перцептивными и когнитивными способностями человека с целью извлечения знаний из больших и сложных наборов данных. Эти методы в значительной степени полагаются на взаимодействие с пользователем и зрительную систему человека и существуют на стыке визуальной аналитики и больших данных . Это отрасль визуализации данных . IVA — это подходящий метод для анализа многомерных данных с большим количеством точек данных, где простые графические и неинтерактивные методы дают недостаточное понимание информации. [1]
Эти методы включают в себя просмотр наборов данных с помощью различных коррелированных представлений и итеративный выбор и изучение функций, которые пользователь находит интересными.Целью IVA является получение знаний, которые не очевидны из набора данных, обычно в табличной форме. Это может включать в себя создание, тестирование или проверку гипотез или просто изучение набора данных для поиска корреляций между различными переменными.
История
[ редактировать ]Визуализация «Фокус + контекст» и связанные с ней методы появились в 1970-х годах. [2] Первые попытки объединить эти методы для интерактивного визуального анализа предпринимаются в системе визуализации WEAVE для моделирования сердца. [3] в 2000 году. SimVis появился в 2003 году, [4] и с тех пор эту концепцию исследовали многочисленные докторские проекты, в частности, Хельмут Долейш в 2004 году, [5] Йоханнес Керер в 2011 году [6] и Золтан Кониха в 2013 году. [7] ComVis, который используется в сообществе визуализации, появился в 2008 году. [8]
Основы
[ редактировать ]Цель интерактивного визуального анализа — обнаружить в данных информацию, которая неочевидна. Цель состоит в том, чтобы перейти от самих данных к информации, содержащейся в них, в конечном итоге обнаруживая знания, которые не были очевидны при просмотре необработанных цифр.
Самая основная форма IVA — использование скоординированных нескольких представлений. [9] отображение различных столбцов нашего набора данных. Для IVA требуется как минимум два представления. Представления обычно входят в число распространенных инструментов визуализации информации , таких как гистограммы , диаграммы рассеяния или параллельные координаты , но также возможно использование объемных представлений, если это подходит для данных. [6] Обычно в одном представлении отображаются независимые переменные набора данных (например, время или пространственное местоположение), а в других — зависимые переменные (например, температура, давление или плотность населения) по отношению друг к другу. Если представления связаны, пользователь может выбирать точки данных в одном представлении и автоматически выделять соответствующие точки данных в других представлениях. Этот метод, который интуитивно позволяет исследовать многомерные свойства данных, известен как связывание и чистка . [10] [11]
Выбор, сделанный в одном из представлений, не обязательно должен быть двоичным. Пакеты программного обеспечения для IVA могут обеспечить постепенную «степень интереса» [5] [6] [12] в выборке, где точки данных постепенно выделяются по мере перехода от низкого к высокому проценту. Это позволяет использовать принцип «фокус+контекст». [13] аспект поиска информации. Например, при исследовании опухоли в наборе данных магнитно-резонансной томографии ткань, окружающая опухоль, также может представлять определенный интерес для оператора.
Петля IVA
[ редактировать ]Интерактивный визуальный анализ — это итеративный процесс. Открытия, сделанные после очистки данных и просмотра связанных представлений, могут быть использованы в качестве отправной точки для повторения процесса, что приведет к определенной форме детализации информации. В качестве примера рассмотрим анализ данных моделирования двигателя внутреннего сгорания. Пользователь просматривает гистограмму распределения температуры и обнаруживает, что одна конкретная часть одного цилиндра имеет опасно высокие температуры. Эту информацию можно использовать для формулирования гипотезы о том, что у всех цилиндров есть проблемы с отводом тепла. Это можно проверить, почистив одну и ту же область во всех других цилиндрах и увидев на температурной гистограмме, что эти цилиндры также имеют более высокие температуры, чем ожидалось. [14]
Модель данных
[ редактировать ]Источником данных для IVA обычно являются табличные данные, где данные представлены в столбцах и строках. Переменные данных можно разделить на две категории: независимые и зависимые переменные . Независимые переменные представляют область наблюдаемых значений, таких как, например, время и пространство. Зависимые переменные представляют собой наблюдаемые данные, например, температуру, давление или высоту. [14]
IVA может помочь пользователю получить информацию и знания об источниках данных с меньшим количеством измерений, а также о наборах данных с очень большим количеством измерений. [2]
Уровни IVA
[ редактировать ]Инструменты IVA можно разделить на несколько уровней сложности. Эти уровни предоставляют пользователю различные инструменты взаимодействия для анализа данных. Для большинства применений первого уровня будет достаточно, и это также уровень, который обеспечивает пользователю самый быстрый ответ на взаимодействие. Более высокие уровни позволяют выявить более тонкие взаимосвязи в данных. Однако для этого требуется больше знаний об инструментах, а процесс взаимодействия требует большего времени отклика. [1]
Базовый уровень
[ редактировать ]Самая простая форма IVA — это базовый уровень, который состоит из чистки и связывания . Здесь пользователь может настроить несколько представлений с разными переменными набора данных и отметить интересную область в одном из представлений. Точки данных, соответствующие выбору, автоматически отмечаются в других представлениях. Из этого уровня IVA можно получить много информации. Для наборов данных, в которых отношения между переменными достаточно просты, этого метода обычно достаточно, чтобы пользователь достиг необходимого уровня понимания. [7]
Второй уровень
[ редактировать ]Чистка и соединение с логическим сочетанием кистей — это более продвинутая форма IVA. Это дает возможность пользователю отметить несколько областей в одном или нескольких представлениях и объединить эти области логическими операторами: и, или, нет. Это позволяет глубже изучить набор данных и увидеть больше скрытой информации. [7] Простым примером может служить анализ данных о погоде: аналитик может захотеть обнаружить регионы, в которых одновременно наблюдается теплая температура и малое количество осадков.
Третий уровень
[ редактировать ]Логической комбинации вариантов выбора может быть недостаточно для извлечения значимой информации из набора данных. Существует множество методов, которые делают скрытые связи в данных более очевидными. Одним из них является деривация атрибутов. Это позволяет пользователю извлекать из данных дополнительные атрибуты, такие как производные, информацию о кластеризации или другие статистические свойства. В принципе, оператор может выполнять любой набор вычислений с необработанными данными. Производные атрибуты затем можно связать и очистить, как любой другой атрибут. [7]
Второй инструмент третьего уровня IVA — это продвинутые методы чистки, такие как угловая чистка, чистка по сходству или чистка по процентилю. Эти инструменты кисти выбирают точки данных более сложным способом, чем простой выбор «укажи и щелкни». Расширенная чистка обеспечивает более быстрый ответ, чем деривация атрибутов, но требует более длительного обучения и более глубокого понимания набора данных. [7]
Четвертый уровень
[ редактировать ]Четвертый уровень IVA специфичен для каждого набора данных и варьируется в зависимости от набора данных и цели анализа. К этой категории относится любой вычисляемый атрибут, специфичный для рассматриваемых данных. Примером анализа данных о потоке может быть обнаружение и классификация вихрей или других структур, присутствующих в данных о потоке. Это означает, что методы IVA четвертого уровня должны быть индивидуально адаптированы к конкретному приложению. После обнаружения объектов более высокого порядка вычисленные атрибуты будут подключены к исходному набору данных и подвергнуты обычной технике связывания и чистки. [1]
Паттерны IVA
[ редактировать ]Концепция IVA «связывание и чистка» (выбор) может использоваться между различными типами переменных в наборе данных. Какой шаблон нам следует использовать, зависит от того, какой аспект корреляций в наборе данных представляет интерес. [1] [15]
Локализация функций
[ редактировать ]Удаление точек данных из набора зависимых переменных (например, температуры) и наблюдение за тем, где среди независимых переменных (например, пространства или времени) появляются эти точки данных, называется «локализация признаков». Благодаря локализации объектов пользователь может легко определить расположение объектов в наборе данных. Примерами из набора метеорологических данных могут быть те, в каких регионах теплый климат или в какое время года выпадает много осадков. [1] [15]
Местное расследование
[ редактировать ]Если независимые переменные отбрасываются и мы ищем соответствующую связь с зависимым представлением, это называется «локальным исследованием». Это позволяет исследовать характеристики, например, конкретного региона или определенного времени. В случае метеорологических данных мы могли бы, например, определить распределение температуры в зимние месяцы. [1] [15]
Многомерный анализ
[ редактировать ]Удаление зависимых переменных и наблюдение за связью с другими зависимыми переменными называется многомерным анализом. Это можно, например, использовать, чтобы выяснить, коррелируют ли высокие температуры с давлением, путем сглаживания высоких температур и просмотра связанного представления распределения давления.
Поскольку каждое из связанных представлений обычно имеет два или более измерения, многомерный анализ может неявно выявить многомерные характеристики данных, которые не были бы легко очевидны, например, из простой диаграммы рассеяния. [1] [15]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Jump up to: а б с д и ж г Интерактивный визуальный анализ научных данных . Штеффен Эльце, Хельмут Долейш, Хельвиг Хаузер, Гюнтер Вебер. Презентация на IEEE VisWeek 2012, Сиэтл (Вашингтон), США
- ^ Jump up to: а б Хаузер, Хельвиг. «Обобщающий фокус + контекстная визуализация». Научная визуализация: визуальное извлечение знаний из данных. Springer Berlin Heidelberg, 2006. 305–327.
- ^ Греш, Донна Л. и др. «WEAVE: система для визуального объединения трехмерных и статистических визуализаций, применяемых к данным сердечного моделирования и измерений». Материалы конференции «Визуализация'00». Издательство IEEE Computer Society Press, 2000.
- ^ Долейш, Хельмут, Мартин Гассер и Хельвиг Хаузер. «Интерактивная спецификация функций для фокус+контекстной визуализации сложных данных моделирования». Материалы симпозиума по визуализации данных 2003. Ассоциация Еврографика, 2003.
- ^ Jump up to: а б Долейш, Гельмут. Визуальный анализ сложных данных моделирования с использованием нескольких разнородных представлений. 2004.
- ^ Jump up to: а б с Керер, Йоханнес. Интерактивный визуальный анализ многогранных научных данных. Кандидатская диссертация, факультет информатики, Бергенский университет, Норвегия, 2011 г.
- ^ Jump up to: а б с д и Кониха, Золтан и др. «Интерактивный визуальный анализ семейств кривых с использованием агрегирования и вывода данных». Материалы 12-й Международной конференции по управлению знаниями и технологиям знаний. АКМ, 2012.
- ^ Маткович, Крешимир и др. «ComVis: скоординированная система с несколькими представлениями для создания прототипов новой технологии визуализации». Информационная визуализация, 2008. IV'08. 12-я Международная конференция. ИИЭР, 2008 г.
- ^ Робертс, Джонатан К. «Современное состояние: скоординированные и множественные представления в исследовательской визуализации». Скоординированные и множественные представления в исследовательской визуализации, 2007. CMV'07. Пятая международная конференция. ИИЭР, 2007.
- ^ Мартин, Аллен Р. и Мэтью О. Уорд. «Многомерная кисть для интерактивного исследования многомерных данных». Материалы 6-й конференции по визуализации'95. Компьютерное общество IEEE, 1995.
- ^ Кейм, Дэниел А. «Визуализация информации и визуальный анализ данных». Визуализация и компьютерная графика, Транзакции IEEE 8.1 (2002): 1-8.
- ^ Долейш, Гельмут и Хельвиг Хаузер. «Плавная кисть для фокусировки и контекстной визуализации данных моделирования в 3D». Журнал WSCG 10.1 (2002): 147-154.
- ^ Лэмпинг, Джон, Рамана Рао и Питер Пиролли. «Техника фокуса + контекст, основанная на гиперболической геометрии для визуализации больших иерархий». Материалы конференции SIGCHI «Человеческий фактор в вычислительных системах». ACM Press/Addison-Wesley Publishing Co., 1995.
- ^ Jump up to: а б Кониха, Золтан и др. «Интерактивный визуальный анализ семейств графиков функций». Визуализация и компьютерная графика, Транзакции IEEE 12.6 (2006): 1373-1385.
- ^ Jump up to: а б с д Ольце, Штеффен и др. «Интерактивный визуальный анализ данных перфузии». Визуализация и компьютерная графика, Транзакции IEEE 13.6 (2007): 1392-1399.