Автоматическое извлечение контента
![]() | В этой статье есть несколько проблем. Пожалуйста, помогите улучшить его или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалять эти шаблонные сообщения )
|
Автоматическое извлечение контента ( ACE ) — это исследовательская программа по разработке передовых извлечения информации технологий , проводимая NIST с 1999 по 2008 год, пришедшая на смену MUC и предшествовавшая конференции по анализу текста .
Цели и усилия
[ редактировать ]В целом программа ACE направлена на решение тех же задач, что и предшествовавшая ей программа MUC. Однако программа ACE определяет цели исследования с точки зрения целевых объектов (т. е. сущностей, отношений и событий), а не с точки зрения слов в тексте. Например, так называемая задача «именованного объекта», как она определена в MUC, заключается в идентификации тех слов (на странице), которые являются именами объектов. С другой стороны, в ACE соответствующей задачей является идентификация объекта с таким названием. Это другая задача, более абстрактная и требующая более явного вывода для получения ответа. В действительности задача состоит в том, чтобы обнаружить то, чего «нет».
Хотя программа ACE направлена на извлечение информации из источников аудио и изображений в дополнение к чистому тексту, исследовательские усилия ограничиваются извлечением информации из текста. Фактическое преобразование аудио- и графических данных в текст не является частью исследовательской работы ACE, хотя обработка выходных данных ASR и OCR от таких преобразователей входит в нее.
Усилия включают в себя:
- детально определить задачи исследования,
- сбор и аннотирование данных, необходимых для обучения, развития и оценки,
- поддержка исследований с помощью инструментов оценки и исследовательских семинаров .
Темы и упражнения
[ редактировать ]Учитывая текст на естественном языке , задача ACE состоит в том, чтобы обнаружить:
- субъекты, упомянутые в тексте, такие как: лица, организации, места, объекты, оружие, транспортные средства и геополитические объекты.
- отношения между сущностями, например: лицо А является менеджером компании Б. Типы отношений включают в себя: ролевые, частичные, расположенные, рядом и социальные.
- события, упомянутые в тексте, такие как: взаимодействие, движение, перенос, создание и разрушение.
Программа относится к английским , арабским и китайским текстам.
Корпус ACE — один из стандартных эталонов для тестирования новых алгоритмов извлечения информации .
Ссылки
[ редактировать ]- Джордж Доддингтон@NIS T, Алексис Митчелл@LD C, Марк Пржибоцки@NIS T, Лэнс Рэмшоу@BB N, Стефани Страссель@LD C, Ральф Вайшедел@BB N. Программа автоматического извлечения контента (ACE) – задачи, данные и оценка. 2004 г.
Внешние ссылки
[ редактировать ]- MUC — предшественник ACE.
- ACE. Архивировано 25 сентября 2013 г. в Wayback Machine (LDC).
- ТУЗ (НИСТ)