Распознавание именованного объекта
Распознавание именованного объекта ( NER ) (также известное как (именованного) идентификация объекта , фрагментирование объекта и извлечение объекта ) — это подзадача извлечения информации , целью которой является поиск и классификация именованных объектов, упомянутых в неструктурированном тексте, по заранее определенным категориям, таким как человек. имена, организации, места, медицинские коды , выражения времени, количества, денежные значения, проценты и т. д.
Большинство исследований систем NER/NEE было структурировано как анализ неаннотированного блока текста, такого как этот:
Джим купил 300 акций Acme Corp. в 2006 году.
И создаем аннотированный блок текста, в котором выделяются имена объектов:
[Джим] Персон [Acme Corp.] купил 300 акций организации в [2006] Time .
В этом примере было обнаружено и классифицировано имя человека, состоящее из одного токена, названия компании из двух токенов и временного выражения.
Современные системы NER для английского языка обеспечивают почти человеческую производительность. Например, лучшая система, входящая в MUC-7, набрала 93,39% по F-мере , а люди-аннотаторы набрали 97,60% и 96,95%. [ 1 ] [ 2 ]
Платформы распознавания именованных объектов
[ редактировать ]Известные платформы NER включают:
- GATE поддерживает NER на многих языках и доменах «из коробки», его можно использовать через графический интерфейс и Java API.
- OpenNLP включает основанное на правилах и статистическое распознавание именованных объектов.
- SpaCy имеет быстрый статистический NER, а также визуализатор именованных объектов с открытым исходным кодом.
- Transformers поддерживает классификацию токенов с использованием моделей глубокого обучения. [ 3 ] [ 4 ]
Определение проблемы
[ редактировать ]В выражении с именем «entity » слово «named» ограничивает задачу теми объектами, для которых одна или несколько строк, таких как слова или фразы, (достаточно) последовательно обозначают некоторый референт. Это тесно связано с жесткими десигнаторами , как их определил Крипке : [ 5 ] [ 6 ] хотя на практике NER имеет дело со многими именами и референтами, которые не являются «жесткими» с философской точки зрения. Например, автомобильная компания, созданная Генри Фордом в 1903 году , может называться Ford или Ford Motor Company , хотя «Ford» может относиться и ко многим другим предприятиям (см. Ford ). Жесткие обозначения включают имена собственные, а также термины для определенных биологических видов и веществ. [ 7 ] но исключите местоимения (такие как «это»; см. разрешение коререференции ), описания, которые выбирают референт по его свойствам (см. также De dicto и de re ), и названия видов вещей, а не отдельных лиц (например, «Банк» ).
Полное распознавание именованного объекта часто разбивается концептуально и, возможно, также в реализациях. [ 8 ] как две отдельные проблемы: обнаружение имен и классификация имен по типу объекта, к которому они относятся (например, человек, организация или местоположение). [ 9 ] Первый этап обычно упрощается до задачи сегментации: имена определяются как непрерывные промежутки токенов без вложенности, так что «Bank of America» представляет собой одно имя, несмотря на тот факт, что внутри этого имени есть подстрока «Америка». само по себе является именем. Эта проблема сегментации формально аналогична разбиению на фрагменты . Второй этап требует выбора онтологии для организации категорий вещей.
Временные выражения и некоторые числовые выражения (например, деньги, проценты и т. д.) также могут рассматриваться как именованные сущности в контексте задачи NER. Хотя некоторые экземпляры этих типов являются хорошими примерами жестких обозначений (например, 2001 год), есть также много неверных (например, я беру отпуск в «июне»). В первом случае 2001 год относится к 2001-му году григорианского календаря . Во втором случае месяц июнь может относиться к месяцу неопределенного года ( прошлый июнь , следующий июнь , каждый июнь и т. д.). Можно утверждать, что определение поименованного объекта в таких случаях ослабляется по практическим соображениям. Таким образом, определение термина «именованная сущность» не является строгим и часто должно объясняться в контексте, в котором он используется. [ 10 ]
определенные иерархии В литературе были предложены именованных типов сущностей. Категории BBN , предложенные в 2002 году, используются для ответов на вопросы и состоят из 29 типов и 64 подтипов. [ 11 ] Расширенная иерархия Секина, предложенная в 2002 году, состоит из 200 подтипов. [ 12 ] Совсем недавно, в 2011 году, Риттер использовал иерархию, основанную на общих типах сущностей Freebase, в новаторских экспериментах с NER над текстом в социальных сетях . [ 13 ]
Формальная оценка
[ редактировать ]Для оценки качества продукции системы NER было определено несколько показателей. Обычные меры называются точностью, полнотой и оценкой F1 . Однако остается ряд проблем, связанных с расчетом этих значений.
Эти статистические меры достаточно хорошо работают в очевидных случаях точного обнаружения или отсутствия реального объекта; и для нахождения ничтожества. Однако NER может потерпеть неудачу по многим другим причинам, многие из которых, возможно, «частично верны», и их не следует считать полным успехом или провалом. Например, идентифицируя реальную сущность, но:
- с меньшим количеством токенов, чем хотелось бы (например, отсутствует последний токен «Джон Смит, доктор медицины»)
- с большим количеством токенов, чем хотелось бы (например, включая первое слово «Университет MD»)
- разделение соседних объектов по-разному (например, рассмотрение «Смит, Джонс Робинсон» как 2 или 3 объекта)
- присвоение ему совершенно неправильного типа (например, назвав организацию личным именем)
- присвоив ему родственный, но неточный тип (например, «вещество» против «лекарства» или «школа» против «организации»)
- правильная идентификация объекта, когда пользователю нужен объект меньшего или большего масштаба (например, идентификация «Джеймс Мэдисон» как личного имени, когда оно является частью «Университета Джеймса Мэдисона»). Некоторые системы NER налагают ограничение, согласно которому сущности никогда не могут перекрываться или вкладываться, что означает, что в некоторых случаях необходимо делать произвольный или специфичный для задачи выбор.
Один слишком простой метод измерения точности состоит в том, чтобы просто подсчитать, какая часть всех токенов в тексте была правильно или неправильно идентифицирована как часть ссылок на сущности (или как сущности правильного типа). Это имеет как минимум две проблемы: во-первых, подавляющее большинство токенов в реальном тексте не являются частью имен сущностей, поэтому базовая точность (всегда предсказывает «не сущность») чрезвычайно высока, обычно> 90%; и, во-вторых, неправильное предсказание полного имени объекта не наказывается должным образом (обнаружение только имени человека, за которым следует его фамилия, может быть оценено как точность ½).
На академических конференциях, таких как CoNLL, вариант оценки F1 определялся следующим образом: [ 9 ]
- Точность — это количество прогнозируемых интервалов имен объектов, которые точно совпадают с интервалами в данных оценки золотого стандарта . Т.е., когда [ Человек Ханс] [ Человек Блик] предсказано, но требуется [ Человек Ханс Блик], точность предсказанного имени равна нулю. Затем точность усредняется по всем предсказанным именам объектов.
- Напомним, это аналогично количеству имен в золотом стандарте, которые появляются в предсказаниях точно в одном и том же месте.
- Оценка F1 представляет собой среднее гармоническое значение этих двух показателей.
Из приведенного выше определения следует, что любой прогноз, который пропускает один токен, включает ложный токен или имеет неправильный класс, является серьезной ошибкой и не способствует положительному ни точности, ни полноте. Таким образом, эту меру можно назвать пессимистической: может случиться так, что многие «ошибки» близки к исправлению и могут быть адекватными для данной цели. Например, одна система может всегда опускать такие титулы, как «Мисс». или «Доктор философии», но сравнивать с системными или достоверными данными, которые ожидают включения названий. В этом случае каждое такое имя рассматривается как ошибка. Из-за таких проблем важно на самом деле изучить виды ошибок и решить, насколько они важны с учетом целей и требований.
Были предложены модели оценки, основанные на сопоставлении токенов. [ 14 ] Таким моделям можно частично отдать должное за перекрытие совпадений (например, использование критерия «Пересечение через объединение» ). Они позволяют более детально оценить и сравнить системы экстракции.
Подходы
[ редактировать ]Были созданы системы NER, в которых используются методы, основанные на лингвистической грамматике , а также статистические модели, такие как машинное обучение . Созданные вручную системы, основанные на грамматике, обычно обеспечивают более высокую точность, но за счет меньшего количества запоминаний и месяцев работы опытных компьютерных лингвистов . [ 15 ] Статистические системы NER обычно требуют большого объема обучающих данных, аннотированных вручную . полуконтролируемые подходы, чтобы избежать части усилий по аннотированию. Были предложены [ 16 ] [ 17 ]
Для выполнения NER с машинным обучением использовалось множество различных типов классификаторов, при этом условные случайные поля . типичным выбором являются [ 18 ]
Проблемные области
[ редактировать ]В 2001 году исследования показали, что даже самые современные системы NER были хрупкими, а это означает, что системы NER, разработанные для одной области, обычно не работали хорошо в других областях. [ 19 ] Значительные усилия требуются для настройки систем NER для хорошей работы в новой области; это верно как для основанных на правилах, так и для обучаемых статистических систем.
Ранние работы над системами NER в 1990-х годах были направлены в первую очередь на извлечение информации из журналистских статей. Затем внимание переключилось на обработку военных донесений и отчетов. Более поздние этапы оценки автоматического извлечения контента (ACE) также включали несколько типов неофициальных текстовых стилей, таких как блоги и текстовые расшифровки разговорных телефонных речевых разговоров. наблюдается большой интерес к идентификации объектов Примерно с 1998 года в сообществах молекулярной биологии , биоинформатики и медицинской обработки естественного языка . Наиболее распространенным предметом интереса в этой области являются названия генов и генных продуктов. Также наблюдался значительный интерес к признанию химических веществ и лекарств в контексте CHEMDNER. соревнование, в котором принимают участие 27 команд. [ 20 ]
Текущие проблемы и исследования
[ редактировать ]Этот раздел необходимо обновить . ( июль 2021 г. ) |
Несмотря на высокие цифры F1, зарегистрированные в наборе данных MUC-7, проблема распознавания названных объектов далека от решения. Основные усилия направлены на сокращение трудоемкости аннотирования за счет использования полуконтролируемого обучения , [ 16 ] [ 21 ] надежная производительность во всех доменах [ 22 ] [ 23 ] и масштабирование до более детальных типов сущностей. [ 12 ] [ 24 ] В последние годы многие проекты обратились к краудсорсингу , который является многообещающим решением для получения высококачественных совокупных человеческих суждений для контролируемых и полуконтролируемых подходов машинного обучения к NER. [ 25 ] Еще одна сложная задача — разработка моделей для работы с лингвистически сложными контекстами, такими как Twitter и поисковые запросы. [ 26 ]
Некоторые исследователи сравнили характеристики NER на основе различных статистических моделей, таких как HMM ( скрытая модель Маркова ), ME ( максимальная энтропия ) и CRF ( условные случайные поля ), а также наборов функций. [ 27 ] А некоторые исследователи недавно предложили модель обучения с полуконтролем на основе графов для задач NER, специфичных для языка. [ 28 ]
Недавно возникшая задача по выявлению «важных выражений» в тексте и их связыванию с Википедией. [ 29 ] [ 30 ] [ 31 ] можно рассматривать как пример чрезвычайно детального распознавания именованных объектов, где типы представляют собой реальные страницы Википедии, описывающие (потенциально неоднозначные) концепции. Ниже приведен пример вывода системы викификации:
<ENTITY url="https://en.wikipedia.org/wiki/Michael_I._Jordan"> Michael Jordan </ENTITY> is a professor at <ENTITY url="https://en.wikipedia.org/wiki/University_of_California,_Berkeley"> Berkeley </ENTITY>
Еще одна область, в которой наблюдается прогресс, но остается сложной задачей, — это применение NER в Twitter и других микроблогах, которые считаются «шумными» из-за нестандартной орфографии, краткости и неформальности текстов. [ 32 ] [ 33 ] Проблемы NER на английском языке Твиты были организованы исследовательскими сообществами для сравнения эффективности различных подходов, таких как двунаправленные LSTM , обучение поиску или CRF. [ 34 ] [ 35 ] [ 36 ]
См. также
[ редактировать ]- Контролируемый словарный запас
- Разрешение кореферента
- Связывание сущностей (также известное как нормализация именованных сущностей, устранение неоднозначности сущностей)
- Извлечение информации
- Извлечение знаний
- Ономастика
- Связь с записью
- Смарт-тег (Microsoft)
Ссылки
[ редактировать ]- ^ Элейн Марш, Деннис Перзановский, «Оценка технологии IE MUC-7: обзор результатов», 29 апреля 1998 г., PDF
- ^ Материалы MUC-07 (задачи поименованных организаций)
- ^ Волк; Дебют, Лисандра; Сан, Виктор; Шомон, Жюльен; Деланг, Клеман; Мой, Энтони; Систак, Пьеррик; Раулт, Тим; Луф, Реми; Фунтович, Морган; Дэвисон, Джо; Шлейфер, Сэм; фон Платен, Патрик; Ма, Клара; Джернит, Ясин; Плю, Жюльен; Сюй, Канвен; Ле Скао, Тевен; Гуггер, Сильвен; Драма, Мариама; Лоест, Квентин; Вольф, Томас; Раш, Александр (2020). Трансформеры: современная обработка естественного языка . Материалы конференции 2020 года по эмпирическим методам обработки естественного языка: системные демонстрации . стр. 38–45.
- ^ Кариампужа, Уильям; Алия, Джоконда; Цюй, Сью; Санджак, Джалеал; Мате, Эви; Сид, Эрик; Шатлен, Хейли; Ядо, Арджун; Сюй, Яньцзи; Чжу, Цянь (2023). «Точное извлечение информации для масштабной эпидемиологии редких заболеваний» . Журнал трансляционной медицины . 21 (1): 157. doi : 10.1186/s12967-023-04011-y . ПМЦ 9972634 . ПМИД 36855134 .
- ^ Крипке, Саул (1971). «Идентичность и необходимость». В МК Мунице (ред.). Личность и Индивидуация . Нью-Йорк: Издательство Нью-Йоркского университета. стр. 135–64.
- ^ ЛаПорт, Джозеф (2018). «Жесткие указатели» . Стэнфордская энциклопедия философии .
- ^ Надо, Дэвид; Секине, Сатоши (2007). Обзор распознавания и классификации названных объектов (PDF) . Лингвистические исследования.
- ^ Каррерас, Ксавье; Маркес, Луис; Падро, Луис (2003). Простой экстрактор именованных объектов с использованием AdaBoost (PDF) . КонНЛЛ.
- ^ Перейти обратно: а б Тьонг Ким Санг, Эрик Ф.; Де Мёлдер, Фьен (2003). Введение в общую задачу CoNLL-2003: Независимое от языка распознавание именованных объектов . КонНЛЛ.
- ^ Определение именованного объекта . Webknox.com. Проверено 21 июля 2013 г.
- ^ Брунштейн, Ада. «Рекомендации по аннотированию типов ответов» . Каталог ЛДС . Консорциум лингвистических данных. Архивировано из оригинала 16 апреля 2016 года . Проверено 21 июля 2013 г.
- ^ Перейти обратно: а б Расширенная иерархия именованных сущностей Секина . Nlp.cs.nyu.edu. Проверено 21 июля 2013 г.
- ^ Риттер, А.; Кларк, С.; Маусам; Эциони., О. (2011). Распознавание именованных объектов в твитах: экспериментальное исследование (PDF) . Учеб. Эмпирические методы обработки естественного языка.
- ^ Есули, Андреа; Себастьяни, Фабрицио (2010). Оценка извлечения информации (PDF) . Форум межъязыковой оценки (CLEF). стр. 100–111.
- ^ Капетаниос, Эпаминонд; татарский, Дойна; Захария, Кристиан (14 ноября 2013 г.). Обработка естественного языка: семантические аспекты . ЦРК Пресс. п. 298. ИСБН 9781466584969 .
- ^ Перейти обратно: а б Линь, Декан; Ву, Сяоюнь (2009). Кластеризация фраз для различительного обучения (PDF) . Ежегодное собрание ACL и IJCNLP. стр. 1030–1038.
- ^ Нотман, Джоэл; и др. (2013). «Изучение многоязычного распознавания именованных объектов из Википедии» . Искусственный интеллект . 194 : 151–175. дои : 10.1016/j.artint.2012.03.006 .
- ^ Дженни Роуз Финкель; Тронд Гренагер; Кристофер Мэннинг (2005). Включение нелокальной информации в системы извлечения информации с помощью выборки Гиббса (PDF) . 43-е ежегодное собрание Ассоциации компьютерной лингвистики . стр. 363–370.
- ^ Пуабо, Тьерри; Коссейм, Лейла (2001). «Извлечение имен собственных из нежурналистских текстов» (PDF) . Язык и компьютеры . 37 (1): 144–157. дои : 10.1163/9789004333901_011 . S2CID 12591786 . Архивировано из оригинала (PDF) 30 июля 2019 г.
- ^ Краллингер, М; Лейтнер, Ф; Рабаль, О; Васкес, М; Оярсабаль, Дж; Валенсия, А (2013). «Обзор задачи распознавания химического состава и названия лекарства (CHEMDNER)». Материалы четвертого семинара по оценке биокреативных задач, том. 2 . стр. 6–37. CiteSeerX 10.1.1.684.4118 .
- ^ Туриан Дж., Ратинов Л. и Бенджио Ю. (июль 2010 г.). Словесные представления: простой и общий метод обучения под учителем. В материалах 48-го ежегодного собрания Ассоциации компьютерной лингвистики (стр. 384–394). Ассоциация компьютерной лингвистики. PDF
- ^ Ратинов Л. и Рот Д. (2009, июнь). Проблемы проектирования и заблуждения при распознавании именованных объектов. В материалах тринадцатой конференции по компьютерному изучению естественного языка (стр. 147–155). Ассоциация компьютерной лингвистики.
- ^ «Ужасительно простая адаптация предметной области» (PDF) . Архивировано из оригинала (PDF) 13 июня 2010 г. Проверено 5 апреля 2012 г.
- ^ Ли, Чангки; Хван, И-Гю; О, Хё Чжон; Лим, Суджон; Хи, Чон; Ли, Чон Хи; Ким, Хён Джин; Ван, Джи-Хён; Чан, Мён Гиль (2006). «Детальное распознавание именованных объектов с использованием условных случайных полей для ответов на вопросы» . Информационно-поисковая технология . Конспекты лекций по информатике. Том. 4182. стр. 581–587. дои : 10.1007/11880592_49 . ISBN 978-3-540-45780-0 .
- ^ Краудсорсинг на основе Web 2.0 для разработки высококачественного золотого стандарта в области клинической обработки естественного языка.
- ^ Эйзельт, Андреас; Фигероа, Алехандро (2013). Двухшаговый распознаватель именованных сущностей для поисковых запросов в открытом домене . IJCNLP. стр. 829–833.
- ^ Хан, Ли-Фэн Аарон, Вонг, Фай, Чао, Лидия Сэм. (2013). Распознавание китайских именованных объектов с помощью условных случайных полей в свете китайских особенностей. Материалы Международной конференции по языковой обработке и интеллектуальным информационным системам. М.А. Клопотек и др. (Ред.): IIS 2013, LNCS Vol. 7912, стр. 57–68 [1]
- ^ Хан, Ли-Фэн Аарон, Вонг, Цзэн, Сяодун, Дерек Фай, Чао, Лидия Сэм. (2015). Распознавание китайских именованных объектов с помощью модели полуконтролируемого обучения на основе графов. В материалах семинара SIGHAN в ACL-IJCNLP. 2015. [2]
- ^ Связь документов с энциклопедическими знаниями.
- ^ «Учимся связываться с Википедией» (PDF) . Архивировано из оригинала (PDF) 25 января 2019 г. Проверено 21 июля 2014 г.
- ^ Локальные и глобальные алгоритмы устранения неоднозначности в Википедии.
- ^ Дерчински, Леон и Диана Мейнард , Джузеппе Риццо, Марике ван Эрп, Женевьева Горрелл, Рафаэль Тронси, Иоганн Петрак и Калиан Ботчева (2014). «Анализ распознавания названных объектов и ссылок на твиты». Обработка информации и управление 51 (2): страницы 32–49.
- ^ Болдуин, Тимоти; де Марнеф, Мария Катрин; Хан, Бо; Ким, Янг-Бом; Риттер, Алан; Сюй, Вэй (июль 2015 г.). «Общие задачи семинара 2015 года по зашумленному пользовательскому тексту: лексическая нормализация Twitter и распознавание именованных объектов» . Материалы семинара по зашумленному пользовательскому тексту . Пекин, Китай: Ассоциация компьютерной лингвистики: 126–135. дои : 10.18653/v1/W15-4319 . S2CID 14500933 .
- ^ «Семинар COLING 2016 по зашумленному пользовательскому тексту (W-NUT)» . шумный-текст.github.io . Проверено 13 августа 2022 г.
- ^ Парталас, Иоаннис; Лопес, Седрик; Дербас, Надя; Калитвянский, Руслан (декабрь 2016 г.). «Учимся искать распознаваемые именованные объекты в Твиттере» . Материалы 2-го семинара по зашумленному пользовательскому тексту (WNUT) . Осака, Япония: Оргкомитет COLING 2016: 171–177.
- ^ Лимсопатам, Нут; Коллиер, Найджел (декабрь 2016 г.). «Двунаправленный LSTM для распознавания именованных объектов в сообщениях Twitter» . Материалы 2-го семинара по зашумленному пользовательскому тексту (WNUT) . Осака, Япония: Оргкомитет COLING 2016: 145–152.