Jump to content

Слияние данных

Объединение данных из двух источников (параметры №1 и №2) может дать классификатор, превосходящий любые классификаторы, основанные только на измерении №1 или №2.

Объединение данных — это процесс интеграции нескольких источников данных для получения более согласованной, точной и полезной информации, чем та, которую предоставляет любой отдельный источник данных.

Процессы объединения данных часто подразделяются на низкие, промежуточные или высокие, в зависимости от этапа обработки, на котором происходит объединение. [1] Объединение данных низкого уровня объединяет несколько источников необработанных данных для создания новых необработанных данных. Ожидается, что объединенные данные будут более информативными и синтетическими, чем исходные входные данные.

Например, объединение датчиков также известно как (мультисенсорное) объединение данных и является подмножеством объединения информации .

Концепция объединения данных берет свое начало в развившейся способности людей и животных объединять информацию от нескольких органов чувств, чтобы улучшить свою способность к выживанию. Например, сочетание зрения, осязания, обоняния и вкуса может указывать на то, съедобно ли вещество. [2]

Модель JDL/DFIG [ править ]

Совместный директор лабораторий (JDL) и информационной группы Data Fusion (DFIG) Model

В середине 1980-х годов объединенные директора лабораторий сформировали подгруппу Data Fusion (которая позже стала известна как Data Fusion Group). Таким образом, с появлением Всемирной паутины объединение данных включало в себя объединение данных, датчиков и информации. JDL/DFIG представила модель объединения данных, которая разделила различные процессы. В настоящее время модель Data Fusion Information Group (DFIG) состоит из шести уровней:

  • Уровень 0: Предварительная обработка источника (или оценка данных )
  • Уровень 1: Оценка объекта
  • Уровень 2: Оценка ситуации
  • Уровень 3: Оценка воздействия (или уточнение угрозы )
  • Уровень 4: Совершенствование процесса (или управление ресурсами )
  • Уровень 5: Уточнение пользователя (или когнитивное уточнение )
  • Уровень 6: Уточнение миссии (или управление миссией )

Хотя модель JDL (уровни 1–4) все еще используется сегодня, ее часто критикуют за то, что из нее следует, что уровни обязательно происходят по порядку, а также за отсутствие адекватного представления потенциала человеческого участия в цикле. . Модель DFIG (уровни 0–5) исследовала последствия осведомленности о ситуации, уточнения пользователей и управления миссиями. [3] Несмотря на эти недостатки, модели JDL/DFIG полезны для визуализации процесса объединения данных, облегчения обсуждения и общего понимания. [4] и важно для проектирования объединения информации на системном уровне. [3] [5]

Геопространственные приложения [ править ]

В геопространственной ( ГИС ) области объединение данных часто является синонимом интеграции данных . В этих приложениях часто возникает необходимость объединить различные наборы данных в единый (объединенный) набор данных, который включает в себя все точки данных и временные шаги из наборов входных данных. Объединенный набор данных отличается от простого комбинированного расширенного набора тем, что точки в объединенном наборе данных содержат атрибуты и метаданные, которые могли не быть включены для этих точек в исходный набор данных.

Упрощенный пример этого процесса показан ниже, где набор данных «α» объединяется с набором данных β, чтобы сформировать объединенный набор данных δ. Точки данных в наборе «α» имеют пространственные координаты X и Y и атрибуты A1 и A2. Точки данных в наборе β имеют пространственные координаты X и Y и атрибуты B1 и B2. Объединенный набор данных содержит все точки и атрибуты.

Набор входных данных α Набор входных данных β Объединенный набор данных δ
Точка Х И А1 А2
а1 10 10 М Н
а2 10 30 М Н
а3 30 10 М Н
а4 30 30 М Н
Точка Х И Б1 Б2
б1 20 20 вопрос Р
б2 20 40 вопрос Р
б3 40 20 вопрос Р
б4 40 40 вопрос Р
Точка Х И А1 А2 Б1 Б2
d1 10 10 М Н Вопрос? Р?
d2 10 30 М Н Вопрос? Р?
д3 30 10 М Н Вопрос? Р?
d4 30 30 М Н Вопрос? Р?
d5 20 20 М? Н? вопрос Р
d6 20 40 М? Н? вопрос Р
d7 40 20 М? Н? вопрос Р
d8 40 40 М? Н? вопрос Р

В простом случае, когда все атрибуты одинаковы во всей области анализа, атрибуты могут быть просто присвоены: M?, N?, Q?, R? на M, N, Q, R. В реальном приложении атрибуты не являются однородными, и для правильного назначения атрибутов точкам данных в объединенном наборе обычно требуется некоторый тип интерполяции.

Визуализация объединенных наборов данных по следам каменных омаров в Тасмановом море. Изображение создано с помощью программного обеспечения Eonfusion от Myriax Pty. Ltd.

В гораздо более сложном приложении исследователи морских животных используют объединение данных для объединения данных отслеживания животных с батиметрическими , метеорологическими данными , данными о температуре поверхности моря (SST) и средой обитания животных для изучения и понимания использования среды обитания и поведения животных в ответ на внешние силы, такие как погода. или температура воды. Каждый из этих наборов данных имеет различную пространственную сетку и частоту дискретизации, поэтому простая комбинация, скорее всего, приведет к ошибочным предположениям и испортит результаты анализа. Но благодаря использованию объединения данных все данные и атрибуты объединяются в единое представление, в котором создается более полная картина окружающей среды. Это позволяет ученым определять ключевые места и время и формировать новое понимание взаимодействия между окружающей средой и поведением животных.

На рисунке справа каменные омары изучаются у побережья Тасмании. Хью Педерсон из Университета Тасмании использовал программное обеспечение для объединения данных, чтобы объединить данные отслеживания южных каменных омаров (желтый и черный цвет для дня и ночи соответственно) с данными батиметрии и среды обитания, чтобы создать уникальную четырехмерную картину поведения каменных омаров.

Интеграция данных [ править ]

В приложениях за пределами геопространственной области применяются различия в использовании терминов «интеграция данных» и «слияние данных». Например, в таких областях, как бизнес-аналитика, интеграция данных используется для описания объединения данных, тогда как объединение данных — это интеграция с последующим сокращением или заменой. Интеграцию данных можно рассматривать как комбинацию наборов, при которой сохраняется больший набор, тогда как объединение представляет собой метод сокращения наборов с повышенной достоверностью.

Области применения [ править ]

Из нескольких методов измерения трафика [ править ]

Данные, полученные от различных сенсорных технологий, можно интеллектуально комбинировать для точного определения состояния дорожного движения. Было показано, что подход, основанный на объединении данных, который использует собранные на обочине дороги акустические данные, данные изображений и данные датчиков, сочетает в себе преимущества различных отдельных методов. [6]

Слияние решений [ править ]

Во многих случаях географически рассредоточенные датчики сильно ограничены в энергопотреблении и пропускной способности. Поэтому необработанные данные, касающиеся определенного явления, часто суммируются в нескольких битах от каждого датчика. При выводе о двоичном событии (т. е. или ), в крайнем случае только бинарные решения отправляются от датчиков в Центр принятия решений (DFC) и объединяются для повышения эффективности классификации. [7] [8] [9]

Для повышения контекстуальной осведомленности [ править ]

Благодаря множеству встроенных датчиков, включая датчик движения, датчик окружающей среды и датчик положения, современное мобильное устройство обычно предоставляет мобильным приложениям доступ к ряду сенсорных данных, которые можно использовать для повышения контекстуальной осведомленности. Использование методов обработки сигналов и объединения данных, таких как генерация признаков, технико-экономическое обоснование и анализ главных компонентов (PCA), таких сенсорных данных значительно улучшит положительную скорость классификации движения и контекстно-релевантного состояния устройства. [10] Многие методы получения информации с расширенным контекстом предложены Снидаро и др. [11] [12]

методы Статистические

авторегрессионные Байесовские процессы гауссовские

Гауссовские процессы — популярная модель машинного обучения. Если предполагается авторегрессионная связь между данными и каждый источник данных считается гауссовским процессом, это представляет собой проблему нелинейной байесовской регрессии . [13]

оценка Полупараметрическая

Многие методы объединения данных предполагают общие условные распределения по нескольким источникам данных. [14] Недавно были разработаны методы, позволяющие эффективно оценивать полученную полупараметрическую модель. [15]

См. также [ править ]

Ссылки [ править ]

  1. ^ Кляйн, Лоуренс А. (2004). Объединение датчиков и данных: инструмент для оценки информации и принятия решений . СПАЙ Пресс. п. 51. ИСБН  978-0-8194-5435-5 .
  2. ^ Холл, Дэвид Л.; Ллинас, Джеймс (1997). «Введение в объединение мультисенсорных данных» . Труды IEEE . 85 (1): 6–23. дои : 10.1109/5.554205 . ISSN   0018-9219 .
  3. Перейти обратно: Перейти обратно: а б Блаш, Эрик П.; Боссе, Элои; Ламберт, Дейл А. (2012). Управление объединением информации высокого уровня и проектирование систем . Норвуд, Массачусетс: Издательство Artech House. ISBN  978-1-6080-7151-7 .
  4. ^ Лиггинс, Мартин Э.; Холл, Дэвид Л.; Ллинас, Джеймс (2008). Мультисенсорное объединение данных, второе издание: теория и практика (Мультисенсорное объединение данных) . КПР. ISBN  978-1-4200-5308-1 .
  5. ^ Блаш, Э., Стейнберг, А., Дас, С., Ллинас, Дж., Чонг, К.-Ю., Кесслер, О., Вальц, Э., Уайт, Ф.» (2013). Возвращаясь к JDL Модель использования информации . Международная конференция по слиянию информации. {{cite conference}}: CS1 maint: несколько имен: список авторов ( ссылка )
  6. ^ Джоши В., Раджамани Н., Такаюки К., Пратапанени, Субраманиам Л.В. (2013). Обучение на основе объединения информации для определения состояния экономичного дорожного движения . Материалы двадцать третьей международной совместной конференции по искусственному интеллекту. {{cite conference}}: CS1 maint: несколько имен: список авторов ( ссылка )
  7. ^ Чуонзо, Д.; Папа, Г.; Романо, Г.; Сальво Росси, П.; Уиллетт, П. (1 сентября 2013 г.). «Однобитное децентрализованное обнаружение с помощью теста Рао для мультисенсорного слияния». Письма об обработке сигналов IEEE . 20 (9): 861–864. arXiv : 1306.6141 . Бибкод : 2013ISPL...20..861C . дои : 10.1109/ЛСП.2013.2271847 . ISSN   1070-9908 . S2CID   6315906 .
  8. ^ Чуонзо, Д.; Сальво Росси, П. (01 февраля 2014 г.). «Объединение решений с неизвестной вероятностью обнаружения датчика». Письма об обработке сигналов IEEE . 21 (2): 208–212. arXiv : 1312.2227 . Бибкод : 2014ISPL...21..208C . дои : 10.1109/ЛСП.2013.2295054 . ISSN   1070-9908 . S2CID   8761982 .
  9. ^ Чуонзо, Д.; Де Майо, А.; Сальво Росси, П. (01 сентября 2015 г.). «Систематическая основа для комплексной проверки гипотез независимых испытаний Бернулли». Письма об обработке сигналов IEEE . 22 (9): 1249–1253. Бибкод : 2015ISPL...22.1249C . дои : 10.1109/ЛСП.2015.2395811 . ISSN   1070-9908 . S2CID   15503268 .
  10. ^ Гири, Джон Дж.; ван де Вен, Пепейн; Нельсон, Джон (21 марта 2014 г.). «Мультисенсорное объединение для повышения контекстуальной осведомленности о повседневной деятельности с помощью повсеместных устройств» . Датчики . 14 (3): 5687–5701. Бибкод : 2014Senso..14.5687G . дои : 10.3390/s140305687 . ПМК   4004015 . ПМИД   24662406 .
  11. ^ Снидаро, Лаурао; и др. (2016). Контекстно-расширенное объединение информации: повышение реальной производительности за счет знаний предметной области . Швейцария, AG: Springer. ISBN  978-3-319-28971-7 .
  12. ^ Хагигат, Мохаммед; Абдель-Мотталеб, Мохамед; Алхалаби, Вади (2016). «Дискриминантный корреляционный анализ: объединение уровней признаков в реальном времени для мультимодального биометрического распознавания» . Транзакции IEEE по информационной криминалистике и безопасности . 11 (9): 1984–1996. дои : 10.1109/TIFS.2016.2569061 . S2CID   15624506 .
  13. ^ Ранфтл, Саша; Мелито, Джан Марко; Бадели, Вахид; Рейнбахер-Кестингер, Алиса; Эллерманн, Катрин; фон дер Линден, Вольфганг (31 декабря 2019 г.). «Количественная оценка байесовской неопределенности с использованием данных разной точности и гауссовских процессов для импедансной кардиографии расслоения аорты» . Энтропия . 22 (1): 58. Бибкод : 2019Entrp..22...58R . дои : 10.3390/e22010058 . ISSN   1099-4300 . ПМЦ   7516489 . PMID   33285833 .
  14. ^ Барейнбойм, Элиас; Перл, Иудея (05 июля 2016 г.). «Причинно-следственный вывод и проблема объединения данных» . Труды Национальной академии наук . 113 (27): 7345–7352. дои : 10.1073/pnas.1510507113 . ISSN   0027-8424 . ПМЦ   4941504 . ПМИД   27382148 .
  15. ^ Ли, Сидзя; Людтке, Алекс (15 ноября 2023 г.). «Эффективная оценка при объединении данных» . Биометрика . 110 (4): 1041–1054. дои : 10.1093/biomet/asad007 . ISSN   0006-3444 . ПМЦ   10653189 . ПМИД   37982010 .

Источники [ править ]

Общие ссылки

Библиография [ править ]

  • Холл, Дэвид Л.; Макмаллен, Соня АХ (2004). Математические методы объединения мультисенсорных данных, второе издание . Норвуд, Массачусетс: ISBN Artech House, Inc.  978-1-5805-3335-5 .
  • Митчелл, HB (2007). Объединение мультисенсорных данных – Введение . Берлин: Springer-Verlag. ISBN  978-3-540-71463-7 .
  • Дас, С. (2008). Высокоуровневое объединение данных . Норвуд, Массачусетс: Издательство Artech House. ISBN  978-1-59693-281-4 .

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: ab58cad9b1b17a7e24fa288b3055d918__1717276740
URL1:https://arc.ask3.ru/arc/aa/ab/18/ab58cad9b1b17a7e24fa288b3055d918.html
Заголовок, (Title) документа по адресу, URL1:
Data fusion - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)