Извлечение информации
Извлечение информации ( IE ) — это задача автоматического извлечения структурированной информации из неструктурированных и/или полуструктурированных машиночитаемых документов и других источников, представленных в электронном виде. Обычно это включает в себя обработку текстов на человеческом языке с помощью обработки естественного языка (НЛП). [ 1 ] Недавние разработки в области обработки мультимедийных документов, такие как автоматическое аннотирование и извлечение контента из изображений/аудио/видео/документов, можно рассматривать как извлечение информации.
Недавние достижения в методах НЛП позволили значительно улучшить результаты по сравнению с предыдущими годами. [ 2 ] Примером может служить извлечение из новостных сообщений о корпоративных слияниях, что обозначается формальным соотношением:
- ,
из предложения онлайн-новостей, такого как:
- «Вчера нью-йоркская компания Foo Inc. объявила о приобретении Bar Corp».
Основная цель IE — позволить выполнять вычисления на ранее неструктурированных данных. Более конкретная цель — позволить автоматически рассуждать о логической форме входных данных. Структурированные данные — это семантически четко определенные данные из выбранного целевого домена, интерпретированные с учетом категории и контекста .
Извлечение информации — это часть более крупной задачи, связанной с проблемой разработки автоматических методов управления текстом, помимо его передачи, хранения и отображения. Дисциплина информационного поиска (ИР) [ 3 ] разработала автоматические методы, обычно имеющие статистический характер, для индексации больших коллекций документов и классификации документов. Еще одним дополнительным подходом является обработка естественного языка (НЛП), которая со значительным успехом решила проблему моделирования обработки человеческого языка, принимая во внимание масштаб задачи. С точки зрения сложности и направленности IE занимается задачами, промежуточными между IR и НЛП. Что касается ввода, IE предполагает существование набора документов, в котором каждый документ соответствует шаблону, т. е. описывает один или несколько объектов или событий способом, аналогичным тем, что в других документах, но отличается в деталях. В качестве примера рассмотрим группу статей в новостях о латиноамериканском терроризме, каждая из которых предположительно основана на одном или нескольких террористических актах. Мы также определяем для любой заданной задачи IE шаблон, который представляет собой (или набор) фреймов дела для хранения информации, содержащейся в одном документе. В примере с терроризмом в шаблоне будут слоты, соответствующие исполнителю, жертве и орудию террористического акта, а также дате, когда произошло событие. Система IE для решения этой проблемы должна «понимать» статью об атаке ровно настолько, чтобы найти данные, соответствующие слотам в этом шаблоне.
История
[ редактировать ]Извлечение информации началось в конце 1970-х годов, на заре НЛП. [ 4 ] Первой коммерческой системой середины 1980-х годов была JASPER, созданная для Reuters компанией Carnegie Group Inc. с целью предоставления в режиме реального времени . финансовых новостей финансовым трейдерам [ 5 ]
Начиная с 1987 года, IE стимулировалась серией конференций по пониманию сообщений . MUC – это конкурсная конференция. [ 6 ] который был сосредоточен на следующих областях:
- MUC-1 (1987 г.), MUC-3 (1989 г.): Сообщения о военно-морских операциях.
- MUC-3 (1991 г.), MUC-4 (1992 г.): Терроризм в странах Латинской Америки.
- MUC-5 (1993): Совместные предприятия и область микроэлектроники.
- MUC-6 (1995): Новостные статьи об изменениях в руководстве.
- MUC-7 (1998): Отчеты о запуске спутника.
Значительная поддержка поступила от Агентства перспективных исследовательских проектов Министерства обороны США ( DARPA ), которое хотело автоматизировать повседневные задачи, выполняемые правительственными аналитиками, такие как сканирование газет на предмет возможных связей с терроризмом. [ нужна ссылка ]
Настоящее значение
[ редактировать ]Современное значение ИИ связано с растущим объемом информации, доступной в неструктурированной форме. Тим Бернерс-Ли , изобретатель Всемирной паутины , называет существующий Интернет сетью документов. [ 7 ] и выступает за то, чтобы большая часть контента была доступна в виде сети данных . [ 8 ] Пока это не произойдет, сеть в основном состоит из неструктурированных документов, лишенных семантических метаданных . Знания, содержащиеся в этих документах, можно сделать более доступными для машинной обработки посредством преобразования в реляционную форму или путем разметки XML- тегами. Интеллектуальный агент, отслеживающий ленту новостей, требует от IE преобразования неструктурированных данных во что-то, что можно обосновать. Типичное применение IE — сканирование набора документов, написанных на естественном языке , и заполнение базы данных извлеченной информацией. [ 9 ]
Задачи и подзадачи
[ редактировать ]Применение извлечения информации к тексту связано с проблемой упрощения текста с целью создания структурированного представления информации, присутствующей в свободном тексте. Общая цель — создать более легко читаемый компьютером текст для обработки предложений. Типичные задачи и подзадачи IE включают в себя:
- Заполнение шаблона: извлечение фиксированного набора полей из документа, например, извлечение преступников, жертв, времени и т. д. из газетной статьи о террористической атаке.
- Извлечение событий: учитывая входной документ, выведите ноль или более шаблонов событий. Например, газетная статья может описывать несколько террористических атак.
- Население базы знаний : Заполните базу данных фактов с учетом набора документов. Обычно база данных имеет форму троек (сущность 1, отношение, сущность 2), например ( Барак Обама , Супруг, Мишель Обама ).
- Распознавание названного объекта : распознавание известных имен объектов (для людей и организаций), географических названий, временных выражений и определенных типов числовых выражений путем использования существующих знаний о предметной области или информации, извлеченной из других предложений. [ 10 ] Обычно задача распознавания включает присвоение уникального идентификатора извлеченному объекту. Более простая задача называется обнаружением сущностей и направлена на обнаружение сущностей без каких-либо существующих знаний об экземплярах сущностей. Например, при обработке предложения «М. Смит любит рыбалку» обнаружение именованного объекта будет означать обнаружение того, что фраза «М. Смит» действительно относится к человеку, но без обязательного наличия (или использования) каких-либо знаний о определенном М. Смит , который является (или «может быть») тем конкретным человеком, о котором говорится в этом предложении.
- Разрешение кореференции : обнаружение кореференции и анафорических связей между текстовыми объектами. В задачах IE это обычно ограничивается поиском связей между ранее извлеченными именованными объектами. Например, «Международные бизнес-машины» и «IBM» относятся к одному и тому же реальному объекту. Если мы возьмем два предложения «М. Смит любит рыбалку. Но он не любит кататься на велосипеде», было бы полезно обнаружить, что «он» относится к ранее обнаруженному человеку «М. Смит».
- Извлечение связей : идентификация отношений между сущностями, [ 10 ] такой как:
- ЧЕЛОВЕК работает на ОРГАНИЗАЦИЮ (извлечено из предложения «Билл работает на IBM».)
- ЧЕЛОВЕК, находящийся в МЕСТОПОЛОЖЕНИИ (извлечено из предложения «Билл находится во Франции»).
- Извлечение полуструктурированной информации, которое может относиться к любому IE, который пытается восстановить некоторую информационную структуру, которая была потеряна в результате публикации, например:
- Извлечение таблиц: поиск и извлечение таблиц из документов. [ 11 ] [ 12 ]
- Извлечение информации из таблиц: извлечение информации из таблиц в структурированном виде. Эта задача более сложна, чем извлечение таблицы, так как извлечение таблицы является лишь первым шагом, а понимание роли ячеек, строк, столбцов, связывание информации внутри таблицы и понимание информации, представленной в таблице, являются дополнительными задачами, необходимыми для таблицы. извлечение информации. [ 11 ] [ 13 ] [ 14 ]
- Извлечение комментариев: извлечение комментариев из реального содержания статей с целью восстановления связи между авторами каждого из предложений.
- Анализ языка и словарного запаса
- Извлечение терминологии : поиск соответствующих терминов для данного корпуса.
- Извлечение аудио
- Извлечение музыки на основе шаблонов: поиск соответствующих характеристик в аудиосигнале, взятом из заданного репертуара; например [ 15 ] можно извлечь временные индексы появления ударных звуков, чтобы представить существенный ритмический компонент музыкального произведения.
Обратите внимание, что этот список не является исчерпывающим и что точное значение деятельности ИИ не является общепринятым, и что многие подходы объединяют несколько подзадач ИИ для достижения более широкой цели. В IE часто используются машинное обучение, статистический анализ и/или обработка естественного языка.
IE для нетекстовых документов становится все более интересной темой [ когда? ] в исследованиях, а информация, извлеченная из мультимедийных документов, теперь может [ когда? ] быть выражено в структуре высокого уровня, как это делается в тексте. Это естественным образом приводит к объединению информации, извлеченной из различных видов документов и источников.
Приложения Всемирной паутины
[ редактировать ]IE был в центре внимания конференций MUC. Однако распространение Интернета усилило потребность в разработке систем IE, которые помогают людям справляться с огромными объемами данных , доступных в Интернете. Системы, реализующие IE из онлайн-текста, должны отвечать требованиям низкой стоимости, гибкости в разработке и легкой адаптации к новым доменам. Системы MUC не соответствуют этим критериям. Более того, лингвистический анализ, выполняемый для неструктурированного текста, не использует теги HTML/ XML и форматы макетов, доступные в онлайн-текстах. В результате для IE в Интернете были разработаны менее лингвистически интенсивные подходы с использованием оберток , которые представляют собой наборы высокоточных правил, извлекающих содержимое конкретной страницы. Разработка оберток вручную оказалась трудоемкой задачей, требующей высокого уровня знаний. машинного обучения методы , как с учителем , так и без него Для автоматического создания таких правил использовались .
Оболочки обычно обрабатывают высокоструктурированные коллекции веб-страниц, такие как каталоги продуктов и телефонные справочники. Однако они терпят неудачу, когда тип текста менее структурирован, что также распространено в Интернете. Недавние усилия по адаптивному извлечению информации стимулируют разработку систем IE, которые могут обрабатывать различные типы текста, от хорошо структурированного до почти свободного текста, где обычные оболочки не работают, включая смешанные типы. Такие системы могут использовать поверхностные знания естественного языка и, следовательно, могут применяться и к менее структурированным текстам.
Недавний [ когда? ] разработка - визуальное извлечение информации, [ 16 ] [ 17 ] который основан на рендеринге веб-страницы в браузере и создании правил, основанных на близости регионов на отображаемой веб-странице. Это помогает извлекать объекты из сложных веб-страниц, которые могут иметь визуальный шаблон, но не имеют заметного шаблона в исходном коде HTML.
Подходы
[ редактировать ]В настоящее время широкое распространение получили следующие стандартные подходы:
- Написанные от руки регулярные выражения (или вложенная группа регулярных выражений)
- Использование классификаторов
- Генеративный: наивный классификатор Байеса
- Дискриминационный: модели максимальной энтропии, такие как полиномиальная логистическая регрессия.
- Модели последовательности
- Рекуррентная нейронная сеть
- Скрытая модель Маркова
- Условная марковская модель (CMM) / Марковская модель максимальной энтропии (MEMM)
- Условные случайные поля (CRF) обычно используются в сочетании с IE для таких разнообразных задач, как извлечение информации из исследовательских работ. [ 18 ] для извлечения навигационных инструкций. [ 19 ]
Для IE существует множество других подходов, включая гибридные подходы, сочетающие в себе некоторые из ранее перечисленных стандартных подходов.
Бесплатное программное обеспечение и услуги или программное обеспечение с открытым исходным кодом
[ редактировать ]- Общая архитектура для текстовой инженерии (GATE) поставляется с бесплатной системой извлечения информации.
- Apache OpenNLP — это набор инструментов машинного обучения Java для обработки естественного языка.
- OpenCalais — это веб-сервис автоматического извлечения информации от Thomson Reuters (бесплатная ограниченная версия).
- Machine Learning for Language Toolkit (Mallet) — это пакет на основе Java для различных задач обработки естественного языка, включая извлечение информации.
- DBpedia Spotlight — это инструмент с открытым исходным кодом на Java/Scala (и бесплатный веб-сервис), который можно использовать для распознавания именованных объектов и разрешения имен .
- Natural Language Toolkit — это набор библиотек и программ для символьной и статистической обработки естественного языка (NLP) для языка программирования Python.
- См. также реализации CRF.
См. также
[ редактировать ]- Добыча
- Извлечение данных
- Извлечение ключевых слов
- Извлечение знаний
- Извлечение онтологии
- Открытое извлечение информации
- Извлечение таблицы
- Извлечение терминологии
- Майнинг, сканирование, парсинг и распознавание
- Apache Nutch , веб-сканер
- Концепция майнинга
- Распознавание названного объекта
- Анализ текста
- Парсинг веб-страниц
- Поиск и перевод
- Общий
- Списки
Ссылки
[ редактировать ]- ^ name=Kariampuzha2023 Кариампужа, Уильям; Алия, Джоконда; Цюй, Сью; Санджак, Джалеал; Мате, Эви; Сид, Эрик; Шатлен, Хейли; Ядо, Арджун; Сюй, Яньцзи; Чжу, Цянь (2023). «Точное извлечение информации для масштабной эпидемиологии редких заболеваний» . Журнал трансляционной медицины . 21 (1): 157. doi : 10.1186/s12967-023-04011-y . ПМЦ 9972634 . ПМИД 36855134 .
- ^ Кристина Никлаус, Маттиас Четто, Андре Фрейтас и Зигфрид Хандшу. 2018. Исследование по извлечению открытой информации. В материалах 27-й Международной конференции по компьютерной лингвистике , страницы 3866–3878, Санта-Фе, Нью-Мексико, США. Ассоциация компьютерной лингвистики.
- ^ ФРЕЙТАГ, ДЕН. «Машинное обучение для извлечения информации в неформальных сферах» (PDF) . 2000 Академическое издательство Kluwer. Напечатано в Нидерландах .
- ^ Коуи, Джим; Уилкс, Йорик (1996). Извлечение информации (PDF) . п. 3. CiteSeerX 10.1.1.61.6480 . S2CID 10237124 . Архивировано из оригинала (PDF) 20 февраля 2019 г.
- ^ Андерсен, Пегги М.; Хейс, Филип Дж.; Хюттнер, Элисон К.; Шмандт, Линда М.; Ниренбург, Ирен Б.; Вайнштейн, Стивен П. (1992). «Автоматическое извлечение фактов из пресс-релизов для создания новостей» . Материалы третьей конференции по прикладной обработке естественного языка - . стр. 170–177. CiteSeerX 10.1.1.14.7943 . дои : 10.3115/974499.974531 . S2CID 14746386 .
- ^ Марко Константино, Паоло Колетти, Извлечение информации в финансах, Wit Press, 2008. ISBN 978-1-84564-146-7
- ^ «Связанные данные — история на данный момент» (PDF) .
- ^ «Тим Бернерс-Ли в следующей сети» . Архивировано из оригинала 10 апреля 2011 г. Проверено 27 марта 2010 г.
- ^ Р.К. Шрихари , В. Ли, К. Ню и Т. Корнелл, «InfoXtract: настраиваемый механизм извлечения информации промежуточного уровня», Журнал инженерии естественного языка , [ мертвая ссылка ] Кембриджский университет Пресс, 14 (1), 2008 г., стр. 33–69.
- ^ Перейти обратно: а б Дат Куок Нгуен и Карин Верспур (2019). «Сквозное извлечение нейронных связей с использованием глубокого биаффинного внимания». Материалы 41-й Европейской конференции по информационному поиску (ECIR) . arXiv : 1812.11275 . дои : 10.1007/978-3-030-15712-8_47 .
- ^ Перейти обратно: а б Милошевич Н., Грегсон С., Эрнандес Р., Ненадич Г. (февраль 2019 г.). «Система извлечения информации из таблиц биомедицинской литературы». Международный журнал по анализу и распознаванию документов . 22 (1): 55–78. arXiv : 1902.10031 . Бибкод : 2019arXiv190210031M . дои : 10.1007/s10032-019-00317-0 . S2CID 62880746 .
- ^ Милошевич, Никола (2018). Многоуровневый подход к извлечению информации из таблиц биомедицинских документов (PDF) (доктор философии). Университет Манчестера.
- ^ Милошевич Н., Грегсон С., Эрнандес Р., Ненадич Г. (июнь 2016 г.). «Распутывание структуры таблиц в научной литературе» (PDF) . Системы обработки естественного языка и информационные системы . Конспекты лекций по информатике. Том. 21. С. 162–174. дои : 10.1007/978-3-319-41754-7_14 . ISBN 978-3-319-41753-0 . S2CID 19538141 .
- ^ Милошевич, Никола (2018). Многоуровневый подход к извлечению информации из таблиц биомедицинских документов (PDF) (доктор философии). Университет Манчестера.
- ^ А.Зилс, Ф.Паше, О.Делерю и Ф. Гуйон, Автоматическое извлечение барабанных дорожек из полифонических музыкальных сигналов, заархивировано 29 августа 2017 г. в Wayback Machine , Труды WedelMusic, Дармштадт, Германия, 2002.
- ^ Чентамаракшан, Виджил; Десфанд, Прасад М; Кришнапурам, Рагху; Варадараджан, Рамакришнан; Штольце, Кнут (2015). «WYSIWYE: алгебра для выражения пространственных и текстовых правил извлечения информации». arXiv : 1506.08454 [ cs.CL ].
- ^ Баумгартнер, Роберт; Флеска, Серджио; Готтлоб, Георг (2001). «Визуальное извлечение веб-информации с помощью Lixto». стр. 119–128. CiteSeerX 10.1.1.21.8236 .
- ^ Пэн, Ф.; МакКаллум, А. (2006). «Извлечение информации из научных работ с использованием условных случайных полей☆». Обработка информации и управление . 42 (4): 963. doi : 10.1016/j.ipm.2005.09.002 .
- ^ Симидзу, Нобуюки; Хасс, Эндрю (2006). «Извлечение представления знаний на основе фреймов из инструкций маршрута» (PDF) . Архивировано из оригинала (PDF) 1 сентября 2006 г. Проверено 27 марта 2010 г.
Эта статья нуждается в дополнительных цитатах для проверки . ( март 2017 г. ) |
Внешние ссылки
[ редактировать ]- Страница «конкурса» Alias-I Список академических и промышленных наборов инструментов для извлечения информации на естественном языке.
- Страница Габора Мелли в IE Подробное описание задачи извлечения информации.