Обертка (интеллектуальный анализ данных)
Обертка в интеллектуальном анализе данных — это процедура, которая извлекает регулярное подсодержимое неструктурированного или слабоструктурированного источника информации и переводит его в реляционную форму , чтобы его можно было обрабатывать как структурированные данные. [1] Индукция обертки — это проблема разработки процедур извлечения на автоматической основе с минимальной зависимостью от созданных вручную правил.
Многие веб-страницы автоматически генерируются из структурированных данных (телефонных справочников, каталогов продуктов и т. д.), завернутых в слабо структурированный язык представления (обычно какой-либо вариант HTML ), отформатированный для просмотра человеком и навигации. Структурированные данные обычно представляют собой описания объектов, извлеченных из базовых баз данных и отображаемых на веб-страницах по фиксированным шаблонам на низком уровне, внедряемых на страницы, где структура высокого уровня может меняться от недели к неделе в соответствии с быстро развивающейся формой оформления сайта. . Точная разделительная линия между гибкой высокоуровневой оболочкой и менее гибкими шаблонами структурированных данных редко документируется для публичного использования, за исключением команды управления контентом веб-ресурса. Программные системы, использующие такие ресурсы, должны переводить содержимое HTML в реляционную форму. В качестве таких переводчиков обычно используются обертки. Формально оболочка — это функция перехода страницы к содержащемуся на ней набору кортежей .
Генерация оболочки
[ редактировать ]Существует два основных подхода к созданию оберток: индукция обертки и автоматическое извлечение данных .Индукция оболочки использует контролируемое обучение для изучения правил извлечения данных из обучающих примеров, помеченных вручную. Недостатками индукционной обертки являются
- трудоемкий процесс маркировки вручную и
- сложность ухода за оберткой.
Из-за необходимости разметки вручную трудно извлечь данные из большого количества сайтов, поскольку каждый сайт имеет свои собственные шаблоны и требует отдельной разметки вручную для обучения оболочки.Обслуживание оболочек также является серьезной проблемой, поскольку при изменении сайта оболочки, созданные для сайта, устаревают. Из-за этих недостатков исследователи изучили автоматическое создание оберток с использованием неконтролируемого анализа шаблонов. Автоматическое извлечение возможно, поскольку большинство объектов веб-данных следуют фиксированным шаблонам. Обнаружение таких шаблонов или шаблонов позволяет системе автоматически выполнять извлечение. [2]
Генерация оберток в Интернете является важной проблемой для широкого спектра приложений. Извлечение таких данных позволяет интегрировать данные/информацию с нескольких веб-сайтов для предоставления дополнительных услуг, например, сравнительных покупок, поиска объектов и интеграции информации.
См. также
[ редактировать ]- Бизнес-аналитика (раздел полуструктурированные или неструктурированные данные )
- Парсинг веб-страниц
Источники
[ редактировать ]- ^ Николас Кушмерик, Дэниел С. Уэлд, Роберт Дооренбос, Индукция оболочки для извлечения информации , материалы Международной совместной конференции по искусственному интеллекту, 1997 г.
- ^ Лю, Б. Интеллектуальный анализ веб-данных: изучение гиперссылок, содержимого и данных об использовании , Springer, 2007.