Слияние данных

Объединение данных — это процесс интеграции нескольких источников данных для получения более согласованной, точной и полезной информации, чем та, которую предоставляет любой отдельный источник данных.

Процессы объединения данных часто подразделяются на низкие, промежуточные или высокие, в зависимости от этапа обработки, на котором происходит объединение. ^[1] Объединение данных низкого уровня объединяет несколько источников необработанных данных для создания новых необработанных данных. Ожидается, что объединенные данные будут более информативными и синтетическими, чем исходные входные данные.

Например, объединение датчиков также известно как (мультисенсорное) объединение данных и является подмножеством объединения информации .

Концепция объединения данных берет свое начало в развившейся способности людей и животных объединять информацию от нескольких органов чувств, чтобы улучшить свою способность к выживанию. Например, сочетание зрения, осязания, обоняния и вкуса может указывать на то, съедобно ли вещество. ^[2]

Модель JDL/DFIG [ править ]

В середине 1980-х годов объединенные директора лабораторий сформировали подгруппу Data Fusion (которая позже стала известна как Data Fusion Group). Таким образом, с появлением Всемирной паутины объединение данных включало в себя объединение данных, датчиков и информации. JDL/DFIG представила модель объединения данных, которая разделила различные процессы. В настоящее время модель Data Fusion Information Group (DFIG) состоит из шести уровней:

Уровень 0: Предварительная обработка источника (или оценка данных )
Уровень 1: Оценка объекта
Уровень 2: Оценка ситуации
Уровень 3: Оценка воздействия (или уточнение угрозы )
Уровень 4: Совершенствование процесса (или управление ресурсами )
Уровень 5: Уточнение пользователя (или когнитивное уточнение )
Уровень 6: Уточнение миссии (или управление миссией )

Хотя модель JDL (уровни 1–4) все еще используется сегодня, ее часто критикуют за то, что из нее следует, что уровни обязательно происходят по порядку, а также за отсутствие адекватного представления потенциала человеческого участия в цикле. . Модель DFIG (уровни 0–5) исследовала последствия осведомленности о ситуации, уточнения пользователей и управления миссиями. ^[3] Несмотря на эти недостатки, модели JDL/DFIG полезны для визуализации процесса объединения данных, облегчения обсуждения и общего понимания. ^[4] и важно для проектирования объединения информации на системном уровне. ^[3]^[5]

Геопространственные приложения [ править ]

В геопространственной ( ГИС ) области объединение данных часто является синонимом интеграции данных . В этих приложениях часто возникает необходимость объединить различные наборы данных в единый (объединенный) набор данных, который включает в себя все точки данных и временные шаги из наборов входных данных. Объединенный набор данных отличается от простого комбинированного расширенного набора тем, что точки в объединенном наборе данных содержат атрибуты и метаданные, которые могли не быть включены для этих точек в исходный набор данных.

Упрощенный пример этого процесса показан ниже, где набор данных «α» объединяется с набором данных β, чтобы сформировать объединенный набор данных δ. Точки данных в наборе «α» имеют пространственные координаты X и Y и атрибуты A1 и A2. Точки данных в наборе β имеют пространственные координаты X и Y и атрибуты B1 и B2. Объединенный набор данных содержит все точки и атрибуты.

Набор входных данных α

Набор входных данных β

Объединенный набор данных δ

Точка	Х	И	А1	А2
а1	10	10	М	Н
а2	10	30	М	Н
а3	30	10	М	Н
а4	30	30	М	Н

Точка	Х	И	Б1	Б2
б1	20	20	вопрос	Р
б2	20	40	вопрос	Р
б3	40	20	вопрос	Р
б4	40	40	вопрос	Р

Точка	Х	И	А1	А2	Б1	Б2
d1	10	10	М	Н	Вопрос?	Р?
d2	10	30	М	Н	Вопрос?	Р?
д3	30	10	М	Н	Вопрос?	Р?
d4	30	30	М	Н	Вопрос?	Р?
d5	20	20	М?	Н?	вопрос	Р
d6	20	40	М?	Н?	вопрос	Р
d7	40	20	М?	Н?	вопрос	Р
d8	40	40	М?	Н?	вопрос	Р

В простом случае, когда все атрибуты одинаковы во всей области анализа, атрибуты могут быть просто присвоены: M?, N?, Q?, R? на M, N, Q, R. В реальном приложении атрибуты не являются однородными, и для правильного назначения атрибутов точкам данных в объединенном наборе обычно требуется некоторый тип интерполяции.

В гораздо более сложном приложении исследователи морских животных используют объединение данных для объединения данных отслеживания животных с батиметрическими , метеорологическими данными , данными о температуре поверхности моря (SST) и средой обитания животных для изучения и понимания использования среды обитания и поведения животных в ответ на внешние силы, такие как погода. или температура воды. Каждый из этих наборов данных имеет различную пространственную сетку и частоту дискретизации, поэтому простая комбинация, скорее всего, приведет к ошибочным предположениям и испортит результаты анализа. Но благодаря использованию объединения данных все данные и атрибуты объединяются в единое представление, в котором создается более полная картина окружающей среды. Это позволяет ученым определять ключевые места и время и формировать новое понимание взаимодействия между окружающей средой и поведением животных.

На рисунке справа каменные омары изучаются у побережья Тасмании. Хью Педерсон из Университета Тасмании использовал программное обеспечение для объединения данных, чтобы объединить данные отслеживания южных каменных омаров (желтый и черный цвет для дня и ночи соответственно) с данными батиметрии и среды обитания, чтобы создать уникальную четырехмерную картину поведения каменных омаров.

Интеграция данных [ править ]

В приложениях за пределами геопространственной области применяются различия в использовании терминов «интеграция данных» и «слияние данных». Например, в таких областях, как бизнес-аналитика, интеграция данных используется для описания объединения данных, тогда как объединение данных — это интеграция с последующим сокращением или заменой. Интеграцию данных можно рассматривать как комбинацию наборов, при которой сохраняется больший набор, тогда как объединение представляет собой метод сокращения наборов с повышенной достоверностью.

Области применения [ править ]

Из нескольких методов измерения трафика [ править ]

Данные, полученные от различных сенсорных технологий, можно интеллектуально комбинировать для точного определения состояния дорожного движения. Было показано, что подход, основанный на объединении данных, который использует собранные на обочине дороги акустические данные, данные изображений и данные датчиков, сочетает в себе преимущества различных отдельных методов. ^[6]

Слияние решений [ править ]

Во многих случаях географически рассредоточенные датчики сильно ограничены в энергопотреблении и пропускной способности. Поэтому необработанные данные, касающиеся определенного явления, часто суммируются в нескольких битах от каждого датчика. При выводе о двоичном событии (т. е. ${\mathcal {H}}_{0}$ или ${\mathcal {H}}_{1}$ ), в крайнем случае только бинарные решения отправляются от датчиков в Центр принятия решений (DFC) и объединяются для повышения эффективности классификации. ^[7]^[8]^[9]

Для повышения контекстуальной осведомленности [ править ]

Благодаря множеству встроенных датчиков, включая датчик движения, датчик окружающей среды и датчик положения, современное мобильное устройство обычно предоставляет мобильным приложениям доступ к ряду сенсорных данных, которые можно использовать для повышения контекстуальной осведомленности. Использование методов обработки сигналов и объединения данных, таких как генерация признаков, технико-экономическое обоснование и анализ главных компонентов (PCA), таких сенсорных данных значительно улучшит положительную скорость классификации движения и контекстно-релевантного состояния устройства. ^[10] Многие методы получения информации с расширенным контекстом предложены Снидаро и др. ^[11]^[12]

методы Статистические

авторегрессионные Байесовские процессы гауссовские

Гауссовские процессы — популярная модель машинного обучения. Если предполагается авторегрессионная связь между данными и каждый источник данных считается гауссовским процессом, это представляет собой проблему нелинейной байесовской регрессии . ^[13]

оценка Полупараметрическая

Многие методы объединения данных предполагают общие условные распределения по нескольким источникам данных. ^[14] Недавно были разработаны методы, позволяющие эффективно оценивать полученную полупараметрическую модель. ^[15]

См. также [ править ]

Ссылки [ править ]

^ Кляйн, Лоуренс А. (2004). Объединение датчиков и данных: инструмент для оценки информации и принятия решений . СПАЙ Пресс. п. 51. ИСБН 978-0-8194-5435-5 .
^ Холл, Дэвид Л.; Ллинас, Джеймс (1997). «Введение в объединение мультисенсорных данных» . Труды IEEE . 85 (1): 6–23. дои : 10.1109/5.554205 . ISSN 0018-9219 .
↑ Перейти обратно: Перейти обратно: ^а ^б Блаш, Эрик П.; Боссе, Элои; Ламберт, Дейл А. (2012). Управление объединением информации высокого уровня и проектирование систем . Норвуд, Массачусетс: Издательство Artech House. ISBN 978-1-6080-7151-7 .
^ Лиггинс, Мартин Э.; Холл, Дэвид Л.; Ллинас, Джеймс (2008). Мультисенсорное объединение данных, второе издание: теория и практика (Мультисенсорное объединение данных) . КПР. ISBN 978-1-4200-5308-1 .
^ Блаш, Э., Стейнберг, А., Дас, С., Ллинас, Дж., Чонг, К.-Ю., Кесслер, О., Вальц, Э., Уайт, Ф.» (2013). Возвращаясь к JDL Модель использования информации . Международная конференция по слиянию информации. {{cite conference}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ Джоши В., Раджамани Н., Такаюки К., Пратапанени, Субраманиам Л.В. (2013). Обучение на основе объединения информации для определения состояния экономичного дорожного движения . Материалы двадцать третьей международной совместной конференции по искусственному интеллекту. {{cite conference}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ Чуонзо, Д.; Папа, Г.; Романо, Г.; Сальво Росси, П.; Уиллетт, П. (1 сентября 2013 г.). «Однобитное децентрализованное обнаружение с помощью теста Рао для мультисенсорного слияния». Письма об обработке сигналов IEEE . 20 (9): 861–864. arXiv : 1306.6141 . Бибкод : 2013ISPL...20..861C . дои : 10.1109/ЛСП.2013.2271847 . ISSN 1070-9908 . S2CID 6315906 .
^ Чуонзо, Д.; Сальво Росси, П. (01 февраля 2014 г.). «Объединение решений с неизвестной вероятностью обнаружения датчика». Письма об обработке сигналов IEEE . 21 (2): 208–212. arXiv : 1312.2227 . Бибкод : 2014ISPL...21..208C . дои : 10.1109/ЛСП.2013.2295054 . ISSN 1070-9908 . S2CID 8761982 .
^ Чуонзо, Д.; Де Майо, А.; Сальво Росси, П. (01 сентября 2015 г.). «Систематическая основа для комплексной проверки гипотез независимых испытаний Бернулли». Письма об обработке сигналов IEEE . 22 (9): 1249–1253. Бибкод : 2015ISPL...22.1249C . дои : 10.1109/ЛСП.2015.2395811 . ISSN 1070-9908 . S2CID 15503268 .
^ Гири, Джон Дж.; ван де Вен, Пепейн; Нельсон, Джон (21 марта 2014 г.). «Мультисенсорное объединение для повышения контекстуальной осведомленности о повседневной деятельности с помощью повсеместных устройств» . Датчики . 14 (3): 5687–5701. Бибкод : 2014Senso..14.5687G . дои : 10.3390/s140305687 . ПМК 4004015 . ПМИД 24662406 .
^ Снидаро, Лаурао; и др. (2016). Контекстно-расширенное объединение информации: повышение реальной производительности за счет знаний предметной области . Швейцария, AG: Springer. ISBN 978-3-319-28971-7 .
^ Хагигат, Мохаммед; Абдель-Мотталеб, Мохамед; Алхалаби, Вади (2016). «Дискриминантный корреляционный анализ: объединение уровней признаков в реальном времени для мультимодального биометрического распознавания» . Транзакции IEEE по информационной криминалистике и безопасности . 11 (9): 1984–1996. дои : 10.1109/TIFS.2016.2569061 . S2CID 15624506 .
^ Ранфтл, Саша; Мелито, Джан Марко; Бадели, Вахид; Рейнбахер-Кестингер, Алиса; Эллерманн, Катрин; фон дер Линден, Вольфганг (31 декабря 2019 г.). «Количественная оценка байесовской неопределенности с использованием данных разной точности и гауссовских процессов для импедансной кардиографии расслоения аорты» . Энтропия . 22 (1): 58. Бибкод : 2019Entrp..22...58R . дои : 10.3390/e22010058 . ISSN 1099-4300 . ПМЦ 7516489 . PMID 33285833 .
^ Барейнбойм, Элиас; Перл, Иудея (05 июля 2016 г.). «Причинно-следственный вывод и проблема объединения данных» . Труды Национальной академии наук . 113 (27): 7345–7352. дои : 10.1073/pnas.1510507113 . ISSN 0027-8424 . ПМЦ 4941504 . ПМИД 27382148 .
^ Ли, Сидзя; Людтке, Алекс (15 ноября 2023 г.). «Эффективная оценка при объединении данных» . Биометрика . 110 (4): 1041–1054. дои : 10.1093/biomet/asad007 . ISSN 0006-3444 . ПМЦ 10653189 . ПМИД 37982010 .

Источники [ править ]

Общие ссылки

Холл, Дэйв Л.; Ллинас, Джеймс (1997). «Введение в мультисенсорное объединение данных». Труды IEEE . 85 (1): 6–23. дои : 10.1109/5.554205 .
Блаш, Эрик; Кадар, Иван; Салерно, Джон; Кокар, Мечислав М.; Дас, Субрата; Пауэлл, Джеральд М.; Коркилл, Дэниел Д.; Руспини, Энрике Х. (2006). «Проблемы и проблемы оценки ситуации (слияние уровня 2)» (PDF) . Журнал достижений в области информационного синтеза . 1 (2). Архивировано из оригинала (PDF) 27 мая 2015 г.

Библиография [ править ]

Холл, Дэвид Л.; Макмаллен, Соня АХ (2004). Математические методы объединения мультисенсорных данных, второе издание . Норвуд, Массачусетс: ISBN Artech House, Inc. 978-1-5805-3335-5 .
Митчелл, HB (2007). Объединение мультисенсорных данных – Введение . Берлин: Springer-Verlag. ISBN 978-3-540-71463-7 .
Дас, С. (2008). Высокоуровневое объединение данных . Норвуд, Массачусетс: Издательство Artech House. ISBN 978-1-59693-281-4 .

Внешние ссылки [ править ]

[Klein-1] Кляйн, Лоуренс А. (2004). Объединение датчиков и данных: инструмент для оценки информации и принятия решений . СПАЙ Пресс. п. 51. ИСБН 978-0-8194-5435-5 .

[2] Холл, Дэвид Л.; Ллинас, Джеймс (1997). «Введение в объединение мультисенсорных данных» . Труды IEEE . 85 (1): 6–23. дои : 10.1109/5.554205 . ISSN 0018-9219 .

[Blasch2012-3] Перейти обратно: Перейти обратно: ^а ^б Блаш, Эрик П.; Боссе, Элои; Ламберт, Дейл А. (2012). Управление объединением информации высокого уровня и проектирование систем . Норвуд, Массачусетс: Издательство Artech House. ISBN 978-1-6080-7151-7 .

[Hall2008-4] Лиггинс, Мартин Э.; Холл, Дэвид Л.; Ллинас, Джеймс (2008). Мультисенсорное объединение данных, второе издание: теория и практика (Мультисенсорное объединение данных) . КПР. ISBN 978-1-4200-5308-1 .

[5] Блаш, Э., Стейнберг, А., Дас, С., Ллинас, Дж., Чонг, К.-Ю., Кесслер, О., Вальц, Э., Уайт, Ф.» (2013). Возвращаясь к JDL Модель использования информации . Международная конференция по слиянию информации. {{cite conference}}: CS1 maint: несколько имен: список авторов ( ссылка )

[6] Джоши В., Раджамани Н., Такаюки К., Пратапанени, Субраманиам Л.В. (2013). Обучение на основе объединения информации для определения состояния экономичного дорожного движения . Материалы двадцать третьей международной совместной конференции по искусственному интеллекту. {{cite conference}}: CS1 maint: несколько имен: список авторов ( ссылка )

[7] Чуонзо, Д.; Папа, Г.; Романо, Г.; Сальво Росси, П.; Уиллетт, П. (1 сентября 2013 г.). «Однобитное децентрализованное обнаружение с помощью теста Рао для мультисенсорного слияния». Письма об обработке сигналов IEEE . 20 (9): 861–864. arXiv : 1306.6141 . Бибкод : 2013ISPL...20..861C . дои : 10.1109/ЛСП.2013.2271847 . ISSN 1070-9908 . S2CID 6315906 .

[8] Чуонзо, Д.; Сальво Росси, П. (01 февраля 2014 г.). «Объединение решений с неизвестной вероятностью обнаружения датчика». Письма об обработке сигналов IEEE . 21 (2): 208–212. arXiv : 1312.2227 . Бибкод : 2014ISPL...21..208C . дои : 10.1109/ЛСП.2013.2295054 . ISSN 1070-9908 . S2CID 8761982 .

[9] Чуонзо, Д.; Де Майо, А.; Сальво Росси, П. (01 сентября 2015 г.). «Систематическая основа для комплексной проверки гипотез независимых испытаний Бернулли». Письма об обработке сигналов IEEE . 22 (9): 1249–1253. Бибкод : 2015ISPL...22.1249C . дои : 10.1109/ЛСП.2015.2395811 . ISSN 1070-9908 . S2CID 15503268 .

[10] Гири, Джон Дж.; ван де Вен, Пепейн; Нельсон, Джон (21 марта 2014 г.). «Мультисенсорное объединение для повышения контекстуальной осведомленности о повседневной деятельности с помощью повсеместных устройств» . Датчики . 14 (3): 5687–5701. Бибкод : 2014Senso..14.5687G . дои : 10.3390/s140305687 . ПМК 4004015 . ПМИД 24662406 .

[11] Снидаро, Лаурао; и др. (2016). Контекстно-расширенное объединение информации: повышение реальной производительности за счет знаний предметной области . Швейцария, AG: Springer. ISBN 978-3-319-28971-7 .

[dca-12] Хагигат, Мохаммед; Абдель-Мотталеб, Мохамед; Алхалаби, Вади (2016). «Дискриминантный корреляционный анализ: объединение уровней признаков в реальном времени для мультимодального биометрического распознавания» . Транзакции IEEE по информационной криминалистике и безопасности . 11 (9): 1984–1996. дои : 10.1109/TIFS.2016.2569061 . S2CID 15624506 .

[13] Ранфтл, Саша; Мелито, Джан Марко; Бадели, Вахид; Рейнбахер-Кестингер, Алиса; Эллерманн, Катрин; фон дер Линден, Вольфганг (31 декабря 2019 г.). «Количественная оценка байесовской неопределенности с использованием данных разной точности и гауссовских процессов для импедансной кардиографии расслоения аорты» . Энтропия . 22 (1): 58. Бибкод : 2019Entrp..22...58R . дои : 10.3390/e22010058 . ISSN 1099-4300 . ПМЦ 7516489 . PMID 33285833 .

[Bareinboim_Pearl_2016_pp._7345–7352-14] Барейнбойм, Элиас; Перл, Иудея (05 июля 2016 г.). «Причинно-следственный вывод и проблема объединения данных» . Труды Национальной академии наук . 113 (27): 7345–7352. дои : 10.1073/pnas.1510507113 . ISSN 0027-8424 . ПМЦ 4941504 . ПМИД 27382148 .

[Li_Luedtke_2023_pp._1041–1054-15] Ли, Сидзя; Людтке, Алекс (15 ноября 2023 г.). «Эффективная оценка при объединении данных» . Биометрика . 110 (4): 1041–1054. дои : 10.1093/biomet/asad007 . ISSN 0006-3444 . ПМЦ 10653189 . ПМИД 37982010 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]