Интеграция веб-данных
Интеграция веб-данных (WDI) — это процесс агрегирования и управления данными с разных веб-сайтов в единый однородный рабочий процесс. Этот процесс включает доступ к данным, преобразование, картографирование, обеспечение качества и объединение данных. Данные, полученные и структурированные с веб-сайтов, называются « веб-данными ». WDI — это расширение и специализация интеграции данных , которая рассматривает Интернет как набор разнородных баз данных.
Методы интеграции данных в контексте Интернета формируют основу для бизнеса, использующего данные, доступные на постоянно растущем числе общедоступных веб-сайтов. [1] Корпоративные расходы в этом направлении в 2017 году составили около $2,5 млрд, ожидается, что к 2020 году рынок достигнет почти $7 млрд. [2]
Источники
[ редактировать ]Интеграция веб-данных расширяет и специализируется на интеграции данных, чтобы рассматривать Интернет как набор представлений баз данных, доступных через веб-протоколы, включая, помимо прочего: [3]
- Каталоги открытых данных
- Каталоги государственных данных
- Веб-приложения и сайты
- Пользовательский интерфейс ( парсинг веб-страниц )
- API
- Семантическая сеть (SPARQL)
- Встроенные в HTML структурированные данные
- Таблицы данных HTML
- Таблицы
- PDF-файлы
- Интернет-энциклопедии
Доступ к данным и преобразование
[ редактировать ]У WDI есть технические проблемы, отличные от интеграции данных, поскольку доступ к данным и преобразование, необходимые для источников веб-данных , часто представляют собой неструктурированные или полуструктурированные данные без стандартного механизма запросов.
Качество данных
[ редактировать ]Понимание качества и достоверности данных даже более важно в WDI, чем в интеграции данных, поскольку данные, как правило, менее безоговорочно доверяют и имеют более низкое качество, чем те, которые собираются из надежного источника. Существуют попытки автоматизировать оценку доверия к веб-данным. [4]
Качество данных при интеграции данных обычно может достигаться после доступа к данным и их преобразования, но в WDI качество может потребоваться отслеживать по мере сбора данных из-за времени и стоимости повторного сбора данных. [5]
Приложения
[ редактировать ]WDI применяется во многих областях, включая биоинформатику, [6] поисковые системы, [7] сравнение цен, [8] и судебно-медицинский поиск [9] анализ данных, бизнес-аналитика, электронная коммерция, [10] здравоохранение, фармацевтика [11] и разработка продукта.
Большинство механизмов сравнения цен и систем рекомендаций используют данные, сгенерированные пользователями, для создания рекомендаций для своих пользователей. Аналогичным образом, системы здравоохранения используют результаты соревнований, проводимых на таких сайтах, как Kaggle. [12] видеть точность данных и создавать продукты, ориентированные на пользователей. Фактически, по оценкам IBM, низкое качество WDI обходится компаниям более чем в 3 триллиона долларов. [13] дохода каждый год.
Ссылки
[ редактировать ]- ^ «Интеграция веб-данных IE 670» . www.uni-mannheim.de . 24 января 2019 г. Проверено 11 февраля 2019 г.
- ^ «Опимас: рынок извлечения веб-данных» . Опимас: Начнем с понимания . Проверено 12 февраля 2019 г.
- ^ «Введение:: Интеграция веб-данных» . www.webdataintegration.io . Проверено 14 февраля 2019 г.
- ^ Хименес-Гарсия, Хосе М.; Таккар, Харш; Циммерманн, Антуан (2016). «Оценка доверия с помощью PageRank в сети данных» (PDF) . В Саке, Харальд; Риццо, Джузеппе; Штайнмец, Надин; Младенич, Дуня; Ауэр, Сёрен; Ланге, Кристоф (ред.). Семантическая сеть . Конспекты лекций по информатике. Том. 9989. Международное издательство Springer. стр. 293–307. дои : 10.1007/978-3-319-47602-5_45 . ISBN 9783319476025 .
- ^ Способ интеграции данных с платформы веб-сайта электронной коммерции.
- ^ «Интеграция веб-данных» . База данных группы Лейпциг .
- ^ «Интеграция данных в веб-масштабе: вы можете позволить себе платить только по мере использования» . www.datascienceassn.org . Проверено 12 февраля 2019 г.
- ^ Сигел, Майкл Д.; Мэдник, Стюарт Э.; Чжу, Хунвэй (2008). «Включение глобального сравнения цен посредством семантической интеграции веб-данных». Международный журнал электронного бизнеса . 6 (4): 319. doi : 10.1504/IJEB.2008.020672 . hdl : 1721.1/40084 . S2CID 7995576 .
- ^ «PwC покупает Kusiri, лондонский стартап по обнаружению мошенничества» . www.consultancy.uk . 30 октября 2015 г. Проверено 12 февраля 2019 г.
- ^ Осиал, П.; Кауранен, К.; Ахмед, Э. (апрель 2017 г.). «Система рекомендаций для смартфонов с использованием методов интеграции веб-данных» . 2017 30-я Канадская конференция IEEE по электротехнике и вычислительной технике (CCECE) . стр. 1–5. дои : 10.1109/CCECE.2017.7946845 . ISBN 978-1-5090-5538-8 . S2CID 12474147 .
- ^ «Как интеграция данных меняет здравоохранение и фармацевтику» . Информация об интеграции данных . 27 апреля 2020 г. Проверено 4 мая 2020 г.
- ^ «Kaggle: ваше сообщество по машинному обучению и наукам о данных» . www.kaggle.com . Проверено 4 мая 2020 г.
- ^ Импорт.io. «Интеграция веб-данных: революционный подход к работе с веб-данными» . www.import.io . Проверено 4 мая 2020 г.