Jump to content

Интеграция веб-данных

Интеграция веб-данных (WDI) — это процесс агрегирования и управления данными с разных веб-сайтов в единый однородный рабочий процесс. Этот процесс включает доступ к данным, преобразование, картографирование, обеспечение качества и объединение данных. Данные, полученные и структурированные с веб-сайтов, называются « веб-данными ». WDI — это расширение и специализация интеграции данных , которая рассматривает Интернет как набор разнородных баз данных.

Методы интеграции данных в контексте Интернета формируют основу для бизнеса, использующего данные, доступные на постоянно растущем числе общедоступных веб-сайтов. [1] Корпоративные расходы в этом направлении в 2017 году составили около $2,5 млрд, ожидается, что к 2020 году рынок достигнет почти $7 млрд. [2]

Источники

[ редактировать ]

Интеграция веб-данных расширяет и специализируется на интеграции данных, чтобы рассматривать Интернет как набор представлений баз данных, доступных через веб-протоколы, включая, помимо прочего: [3]

  • Каталоги открытых данных
  • Каталоги государственных данных
  • Веб-приложения и сайты
  • Семантическая сеть (SPARQL)
  • Встроенные в HTML структурированные данные
  • Таблицы данных HTML
  • Таблицы
  • PDF-файлы
  • Интернет-энциклопедии

Доступ к данным и преобразование

[ редактировать ]

У WDI есть технические проблемы, отличные от интеграции данных, поскольку доступ к данным и преобразование, необходимые для источников веб-данных , часто представляют собой неструктурированные или полуструктурированные данные без стандартного механизма запросов.

Качество данных

[ редактировать ]

Понимание качества и достоверности данных даже более важно в WDI, чем в интеграции данных, поскольку данные, как правило, менее безоговорочно доверяют и имеют более низкое качество, чем те, которые собираются из надежного источника. Существуют попытки автоматизировать оценку доверия к веб-данным. [4]

Качество данных при интеграции данных обычно может достигаться после доступа к данным и их преобразования, но в WDI качество может потребоваться отслеживать по мере сбора данных из-за времени и стоимости повторного сбора данных. [5]

Приложения

[ редактировать ]

WDI применяется во многих областях, включая биоинформатику, [6] поисковые системы, [7] сравнение цен, [8] и судебно-медицинский поиск [9] анализ данных, бизнес-аналитика, электронная коммерция, [10] здравоохранение, фармацевтика [11] и разработка продукта.

Большинство механизмов сравнения цен и систем рекомендаций используют данные, сгенерированные пользователями, для создания рекомендаций для своих пользователей. Аналогичным образом, системы здравоохранения используют результаты соревнований, проводимых на таких сайтах, как Kaggle. [12] видеть точность данных и создавать продукты, ориентированные на пользователей. Фактически, по оценкам IBM, низкое качество WDI обходится компаниям более чем в 3 триллиона долларов. [13] дохода каждый год.

  1. ^ «Интеграция веб-данных IE 670» . www.uni-mannheim.de . 24 января 2019 г. Проверено 11 февраля 2019 г.
  2. ^ «Опимас: рынок извлечения веб-данных» . Опимас: Начнем с понимания . Проверено 12 февраля 2019 г.
  3. ^ «Введение:: Интеграция веб-данных» . www.webdataintegration.io . Проверено 14 февраля 2019 г.
  4. ^ Хименес-Гарсия, Хосе М.; Таккар, Харш; Циммерманн, Антуан (2016). «Оценка доверия с помощью PageRank в сети данных» (PDF) . В Саке, Харальд; Риццо, Джузеппе; Штайнмец, Надин; Младенич, Дуня; Ауэр, Сёрен; Ланге, Кристоф (ред.). Семантическая сеть . Конспекты лекций по информатике. Том. 9989. Международное издательство Springer. стр. 293–307. дои : 10.1007/978-3-319-47602-5_45 . ISBN  9783319476025 .
  5. ^ Способ интеграции данных с платформы веб-сайта электронной коммерции.
  6. ^ «Интеграция веб-данных» . База данных группы Лейпциг .
  7. ^ «Интеграция данных в веб-масштабе: вы можете позволить себе платить только по мере использования» . www.datascienceassn.org . Проверено 12 февраля 2019 г.
  8. ^ Сигел, Майкл Д.; Мэдник, Стюарт Э.; Чжу, Хунвэй (2008). «Включение глобального сравнения цен посредством семантической интеграции веб-данных». Международный журнал электронного бизнеса . 6 (4): 319. doi : 10.1504/IJEB.2008.020672 . hdl : 1721.1/40084 . S2CID   7995576 .
  9. ^ «PwC покупает Kusiri, лондонский стартап по обнаружению мошенничества» . www.consultancy.uk . 30 октября 2015 г. Проверено 12 февраля 2019 г.
  10. ^ Осиал, П.; Кауранен, К.; Ахмед, Э. (апрель 2017 г.). «Система рекомендаций для смартфонов с использованием методов интеграции веб-данных» . 2017 30-я Канадская конференция IEEE по электротехнике и вычислительной технике (CCECE) . стр. 1–5. дои : 10.1109/CCECE.2017.7946845 . ISBN  978-1-5090-5538-8 . S2CID   12474147 .
  11. ^ «Как интеграция данных меняет здравоохранение и фармацевтику» . Информация об интеграции данных . 27 апреля 2020 г. Проверено 4 мая 2020 г.
  12. ^ «Kaggle: ваше сообщество по машинному обучению и наукам о данных» . www.kaggle.com . Проверено 4 мая 2020 г.
  13. ^ Импорт.io. «Интеграция веб-данных: революционный подход к работе с веб-данными» . www.import.io . Проверено 4 мая 2020 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 410c55346ea5ca2711b715e5336be819__1703632260
URL1:https://arc.ask3.ru/arc/aa/41/19/410c55346ea5ca2711b715e5336be819.html
Заголовок, (Title) документа по адресу, URL1:
Web data integration - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)