Jump to content

Обертка (интеллектуальный анализ данных)

Обертка в интеллектуальном анализе данных — это процедура, которая извлекает регулярное подсодержимое неструктурированного или слабоструктурированного источника информации и переводит его в реляционную форму , чтобы его можно было обрабатывать как структурированные данные. [1] Индукция обертки — это проблема разработки процедур извлечения на автоматической основе с минимальной зависимостью от созданных вручную правил.

Многие веб-страницы автоматически генерируются из структурированных данных (телефонных справочников, каталогов продуктов и т. д.), завернутых в слабо структурированный язык представления (обычно какой-либо вариант HTML ), отформатированный для просмотра человеком и навигации. Структурированные данные обычно представляют собой описания объектов, извлеченных из базовых баз данных и отображаемых на веб-страницах по фиксированным шаблонам на низком уровне, внедряемых на страницы, где структура высокого уровня может меняться от недели к неделе в соответствии с быстро развивающейся формой оформления сайта. . Точная разделительная линия между гибкой высокоуровневой оболочкой и менее гибкими шаблонами структурированных данных редко документируется для публичного использования, за исключением команды управления контентом веб-ресурса. Программные системы, использующие такие ресурсы, должны переводить содержимое HTML в реляционную форму. В качестве таких переводчиков обычно используются обертки. Формально оболочка — это функция перехода страницы к содержащемуся на ней набору кортежей .

Генерация оболочки

[ редактировать ]

Существует два основных подхода к созданию оберток: индукция обертки и автоматическое извлечение данных .Индукция оболочки использует контролируемое обучение для изучения правил извлечения данных из обучающих примеров, помеченных вручную. Недостатками индукционной обертки являются

  • трудоемкий процесс маркировки вручную и
  • сложность ухода за оберткой.

Из-за необходимости разметки вручную трудно извлечь данные из большого количества сайтов, поскольку каждый сайт имеет свои собственные шаблоны и требует отдельной разметки вручную для обучения оболочки.Обслуживание оболочек также является серьезной проблемой, поскольку при изменении сайта оболочки, созданные для сайта, устаревают. Из-за этих недостатков исследователи изучили автоматическое создание оберток с использованием неконтролируемого анализа шаблонов. Автоматическое извлечение возможно, поскольку большинство объектов веб-данных следуют фиксированным шаблонам. Обнаружение таких шаблонов или шаблонов позволяет системе автоматически выполнять извлечение. [2]

Генерация оберток в Интернете является важной проблемой для широкого спектра приложений. Извлечение таких данных позволяет интегрировать данные/информацию с нескольких веб-сайтов для предоставления дополнительных услуг, например, сравнительных покупок, поиска объектов и интеграции информации.

См. также

[ редактировать ]

Источники

[ редактировать ]
  1. ^ Николас Кушмерик, Дэниел С. Уэлд, Роберт Дооренбос, Индукция оболочки для извлечения информации , материалы Международной совместной конференции по искусственному интеллекту, 1997 г.
  2. ^ Лю, Б. Интеллектуальный анализ веб-данных: изучение гиперссылок, содержимого и данных об использовании , Springer, 2007.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 05777e42f1b71c4753505c314ba1c840__1647518580
URL1:https://arc.ask3.ru/arc/aa/05/40/05777e42f1b71c4753505c314ba1c840.html
Заголовок, (Title) документа по адресу, URL1:
Wrapper (data mining) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)