Jump to content

Автоматическое извлечение контента

Автоматическое извлечение контента ( ACE ) — это исследовательская программа по разработке передовых извлечения информации технологий , проводимая NIST с 1999 по 2008 год, пришедшая на смену MUC и предшествовавшая конференции по анализу текста .

Цели и усилия

[ редактировать ]

В целом программа ACE направлена ​​на решение тех же задач, что и предшествовавшая ей программа MUC. Однако программа ACE определяет цели исследования с точки зрения целевых объектов (т. е. сущностей, отношений и событий), а не с точки зрения слов в тексте. Например, так называемая задача «именованного объекта», как она определена в MUC, заключается в идентификации тех слов (на странице), которые являются именами объектов. С другой стороны, в ACE соответствующей задачей является идентификация объекта с таким названием. Это другая задача, более абстрактная и требующая более явного вывода для получения ответа. В действительности задача состоит в том, чтобы обнаружить то, чего «нет».

Хотя программа ACE направлена ​​на извлечение информации из источников аудио и изображений в дополнение к чистому тексту, исследовательские усилия ограничиваются извлечением информации из текста. Фактическое преобразование аудио- и графических данных в текст не является частью исследовательской работы ACE, хотя обработка выходных данных ASR и OCR от таких преобразователей входит в нее.

Усилия включают в себя:

  • детально определить задачи исследования,
  • сбор и аннотирование данных, необходимых для обучения, развития и оценки,
  • поддержка исследований с помощью инструментов оценки и исследовательских семинаров .

Темы и упражнения

[ редактировать ]

Учитывая текст на естественном языке , задача ACE состоит в том, чтобы обнаружить:

  1. субъекты, упомянутые в тексте, такие как: лица, организации, места, объекты, оружие, транспортные средства и геополитические объекты.
  2. отношения между сущностями, например: лицо А является менеджером компании Б. Типы отношений включают в себя: ролевые, частичные, расположенные, рядом и социальные.
  3. события, упомянутые в тексте, такие как: взаимодействие, движение, перенос, создание и разрушение.

Программа относится к английским , арабским и китайским текстам.

Корпус ACE — один из стандартных эталонов для тестирования новых алгоритмов извлечения информации .

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: da5db6433eebde322c7487d78eaa73ca__1620996180
URL1:https://arc.ask3.ru/arc/aa/da/ca/da5db6433eebde322c7487d78eaa73ca.html
Заголовок, (Title) документа по адресу, URL1:
Automatic content extraction - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)