Именованный объект
![]() | Возможно, эту статью необходимо реорганизовать, чтобы она соответствовала рекомендациям Википедии по оформлению . ( Апрель 2021 г. ) |
При извлечении информации именованная сущность — это объект реального мира , например человек, местоположение, организация, продукт и т. д., который можно обозначить именем собственным . Оно может быть абстрактным или иметь физическое существование. Примеры именованных объектов включают Барака Обаму , Нью-Йорк , Volkswagen Golf или что-нибудь еще, что можно назвать. Именованные объекты можно просто рассматривать как экземпляры объектов (например, Нью-Йорк является экземпляром города ).
С исторической точки зрения термин «Именованная сущность» был придуман во время оценочной кампании MUC-6. [1] и содержал ENAMEX (выражения названий объектов, например, лица, места и организации) и NUMEX (числовые выражения).
Более формальное определение можно получить из жесткого обозначения Сола Крипке . В выражении «Именованный объект» слово «Именованный» имеет целью ограничить возможный набор объектов только теми, для которых референтом является один или несколько жестких обозначений. [2] Обозначение является жестким, когда оно обозначает одну и ту же вещь во всех возможных мирах. Напротив, вялые десигнаторы могут обозначать разные вещи в разных возможных мирах.
В качестве примера рассмотрим предложение: «Байден — президент Соединенных Штатов». И «Байден», и «Соединенные Штаты» являются именными сущностями, поскольку они относятся к конкретным объектам ( Джо Байден и Соединенные Штаты ). Однако «президент» не является именованным объектом, поскольку его можно использовать для обозначения множества разных объектов в разных мирах (в разные президентские периоды по отношению к разным людям или даже в разных странах или организациях по отношению к разным людям). Жесткие обозначения обычно включают имена собственные, а также определенные природные термины, такие как биологические виды и вещества.
также существует общее согласие В сообществе по распознаванию именованных объектов рассматривать временные и числовые выражения как именованные объекты, такие как суммы денег и другие типы единиц, что может нарушать жесткую точку зрения на обозначение.
Задача распознавания именованных объектов в тексте называется «Распознавание именованных объектов» , а задача определения идентичности именованных объектов, упомянутых в тексте, называется «Устранение неоднозначности именованных объектов» . Обе задачи требуют для решения специальных алгоритмов и ресурсов. [3]
См. также [ править ]
- Распознавание именованного объекта (также называемое идентификацией объекта, фрагментированием объекта и извлечением объекта)
- Связывание сущностей (также называемое связыванием именованных сущностей (NEL), устранением неоднозначности именованных сущностей (NED), распознаванием и устранением неоднозначности именованных сущностей (NERD) или нормализацией именованных сущностей)
- Извлечение информации
- Извлечение знаний
- Интеллектуальный анализ текста (также называемый интеллектуальным анализом текстовых данных)
- Истинный корпус
- Апач OpenNLP
- простор
- Общая архитектура текстовой инженерии
- Набор инструментов для естественного языка
Ссылки [ править ]
- ^ Гришман, Ральф; Сундхейм, Бет (1996). Дизайн оценки MUC-6 (PDF) . TIPSTER '96 Труды.
- ^ Надо, Дэвид; Секине, Сатоши (2007). Обзор распознавания и классификации названных объектов (PDF) . Лингвистические исследования.
- ^ Нувель, Дэмиен; Эрманн, Мод; Россе, Софи (2015). Уайли (ред.). Именованные объекты для компьютерной лингвистики . ISBN 978-1-84821-838-3 .