Структура лексической разметки
Управление языковыми ресурсами. Структура лексической разметки ( LMF ; ISO 24613 ), созданная ISO/TC 37 , является стандартом ISO для обработки естественного языка (NLP) и машиночитаемых словарей (MRD) лексиконов . [1] Областью применения является стандартизация принципов и методов, касающихся языковых ресурсов в контексте многоязычного общения.
Цели [ править ]
Цели LMF — предоставить общую модель для создания и использования лексических ресурсов , управлять обменом данными между этими ресурсами, а также обеспечить возможность объединения большого количества отдельных электронных ресурсов для формирования обширных глобальных электронных ресурсов.
Типы отдельных экземпляров LMF могут включать одноязычные, двуязычные или многоязычные лексические ресурсы. Одни и те же спецификации должны использоваться как для малых, так и для больших лексиконов, как для простых, так и для сложных лексиконов, как для письменных, так и для устных лексических представлений. Описания варьируются от морфологии , синтаксиса , вычислительной семантики до перевода с помощью компьютера . Охватываемые языки не ограничиваются европейскими языками , а охватывают все естественные языки . Спектр целевых применений НЛП не ограничен. LMF способен представлять большинство лексиконов, включая WordNet лексиконы , EDR и PAROLE.
История [ править ]
В прошлом стандартизация лексики изучалась и развивалась в рамках ряда проектов, таких как GENELEX, EDR, EAGLES, MULTEXT, PAROLE, SIMPLE и ISLE. Затем национальные делегации ISO/TC 37 решили рассмотреть стандарты, посвященные НЛП и представлению лексики. Работа над LMF началась летом 2003 г. с предложения нового рабочего пункта, представленного делегацией США. Осенью 2003 года французская делегация опубликовала техническое предложение по модели данных, посвященной лексикону НЛП. В начале 2004 года комитет ISO/TC 37 решил сформировать общий проект ISO с Николеттой Кальцолари ( CNR -ILC Италия) в качестве координатора и Хилем Франкопуло (Tagmatica Франция) и Монте Джорджем ( ANSI , США) в качестве редакторов. Первым шагом в разработке LMF было создание общей структуры, основанной на общих характеристиках существующих лексиконов, и разработка согласованной терминологии для описания компонентов этих лексиконов. Следующим шагом стала разработка комплексной модели, которая лучше всего представляла бы все словари в деталях. Большая группа из 60 экспертов представила широкий спектр требований к LMF, охватывающих многие типы лексиконов НЛП. Редакторы LMF тесно сотрудничали с группой экспертов, чтобы определить лучшие решения и достичь консенсуса по дизайну LMF. Особое внимание было уделено морфологии, чтобы обеспечить мощные механизмы решения проблем в нескольких языках, которые считались трудными для решения. 13 версий были написаны, разосланы (назначенным национальным экспертам), прокомментированы и обсуждены на различных технических совещаниях ИСО. После пяти лет работы, включая многочисленные личные встречи и обмен электронной почтой, редакторы пришли к последовательной модели UML. В заключение, LMF следует рассматривать как синтез современного уровня лексики НЛП.
Текущий этап [ править ]
Номер ISO — 24613. Спецификация LMF была официально опубликована как международный стандарт 17 ноября 2008 г.
семейства стандартов ISO/TC 37 один из членов . Как
Стандарты ISO/TC 37 в настоящее время разработаны как спецификации высокого уровня и касаются сегментации слов (ISO 24614), аннотаций (ISO 24611, также известного как MAF, ISO 24612, также известного как LAF, ISO 24615, также известного как SynAF, и ISO 24617-1, также известного как SemAF/Time). , структуры объектов (ISO 24610), мультимедийные контейнеры (ISO 24616, также известные как MLIF) и словари (ISO 24613). Эти стандарты основаны на спецификациях низкого уровня, посвященных константам, а именно категориям данных (пересмотр ISO 12620), языковым кодам ( ISO 639 ), кодам сценариев ( ISO 15924 ), кодам стран ( ISO 3166 ) и Unicode ( ISO 10646 ).
Двухуровневая организация образует целостное семейство стандартов со следующими общими и простыми правилами:
- спецификация высокого уровня предоставляет структурные элементы, дополненные стандартизированными константами;
- спецификации низкого уровня предоставляют стандартизированные константы в качестве метаданных.
Ключевые стандарты [ править ]
Лингвистические константы, такие как /feminine/ или /transitive/, не определены в LMF, но записываются в реестр категорий данных (DCR), который поддерживается ISO/TC 37 в качестве глобального ресурса в соответствии с ISO/IEC 11179-3:2003. . [2] И эти константы используются для украшения структурных элементов высокого уровня.
Спецификация LMF соответствует принципам моделирования Unified Modeling Language (UML), определенным Object Management Group (OMG). Структура задается с помощью диаграмм классов UML . Примеры представлены посредством диаграмм экземпляров (или объектов) UML.
XML DTD приведен в приложении к документу LMF.
Структура модели [ править ]
LMF состоит из следующих компонентов:
- Базовый пакет, представляющий собой структурный скелет, описывающий базовую иерархию информации в лексической статье.
- Расширения основного пакета, выраженные в структуре, описывающей повторное использование основных компонентов в сочетании с дополнительными компонентами, необходимыми для конкретного лексического ресурса.
Расширения специально предназначены для морфологии , MRD , NLP синтаксиса , NLP семантики , NLP многоязычных обозначений , NLP морфологических шаблонов , выражений из нескольких слов шаблонов и шаблонов выражений ограничений .
Пример [ править ]
В следующем примере лексическая статья связана с леммой «священнослужитель» и двумя флективными формами «священнослужитель» и «священнослужители» . Кодировка языка задается для всего лексического ресурса. Значение языка устанавливается для всего словаря, как показано на следующей UML диаграмме экземпляра .
Элементы Лексический ресурс , Глобальная информация , Лексикон , Лексическая запись , Лемма и Словоформа определяют структуру словаря. Они указаны в документе LMF. Напротив, LanguageCoding , Language , PartOfSpeech , commonNoun , WriteForm , grammaticalNumber , Единственное число , Множественное число — это категории данных, которые берутся из Реестра категорий данных. Эти знаки украшают конструкцию. Значения ISO 639-3 , священнослужитель , священнослужители представляют собой простые строки символов. Значение eng взято из списка языков, определенного стандартом ISO 639-3 .
С некоторой дополнительной информацией, такой как dtdVersion и feat , те же данные могут быть выражены следующим фрагментом XML :
<LexicalResource dtdVersion="15">
<GlobalInformation>
<feat att="languageCoding" val="ISO 639-3"/>
</GlobalInformation>
<Lexicon>
<feat att="language" val="eng"/>
<LexicalEntry>
<feat att="partOfSpeech" val="commonNoun"/>
<Lemma>
<feat att="writtenForm" val="clergyman"/>
</Lemma>
<WordForm>
<feat att="writtenForm" val="clergyman"/>
<feat att="grammaticalNumber" val="singular"/>
</WordForm>
<WordForm>
<feat att="writtenForm" val="clergymen"/>
<feat att="grammaticalNumber" val="plural"/>
</WordForm>
</LexicalEntry>
</Lexicon>
</LexicalResource>
Этот пример довольно прост, хотя LMF может представлять гораздо более сложные лингвистические описания, маркировка XML соответственно сложна.
Избранные публикации о LMF [ править ]
Первая публикация о спецификации LMF, ратифицированная ISO (эта статья стала (в 2015 г.) 9-й по популярности статьей на конференциях Language Resources and Evaluation среди статей LREC):
- Языковые ресурсы и оценка LREC-2006/Генуя: Хиль Франкопуло, Монте Джордж, Николетта Кальцолари, Моника Моначини, Нурия Бел, Мэнди Пет, Клаудия Сориа: Структура лексической разметки (LMF) [3]
О семантическом представлении:
- Общество лингвистической обработки данных GLDV-2007/Тюбинген: Хиль Франкопуло, Нурия Бел, Монте Джордж Николетта Кальцолари, Моника Моначини, Мэнди Пет, Клаудия Сориа: Структура лексической разметки Стандарт ISO для семантической информации в лексиконах НЛП [4]
Об африканских языках:
- Обработка естественного языка, Марсель, 2014: Моухамаду Хуле, Мухамад Ндианхо Тиам, Эль Хадж Мамаду Нгуер: На пути к созданию лексикона языка волоф на основе LMF) [на французском языке] [5]
Об азиатских языках:
- Лексикография, Журнал ASIALEX, Springer 2014: Структура лексической разметки: Гил Франкопуло, Чу-Рен Хуанг: Стандарт ISO для электронных лексиконов и его значение для азиатских языков DOI 10.1007/s40607-014-0006-z
О европейских языках:
- COLING 2010: Верена Хенрих, Эрхард Хинрикс: Стандартизация сетей Wordnet в стандарте ISO LMF: Wordnet-LMF для GermaNet [6]
- EACL 2012: Джудит Экл-Колер, Ирина Гуревич: Subcat-LMF: разработка стандартизированного формата для совместимости кадров подкатегоризации [7]
- EACL 2012: Ирина Гуревич, Джудит Экл-Колер, Сильвана Хартманн, Майкл Матушек, Кристиан Мейер, Кристиан Вирт: UBY - крупномасштабный унифицированный лексико-семантический ресурс на основе LMF. [8]
О семитских языках:
- Журнал инженерии естественного языка , издательство Кембриджского университета (выйдет весной 2015 г.): Аида Хемахем, Билель Гаргури, Абдельмаджид Бен Хамаду, Гил Франкопуло: Стандартное моделирование большого арабского словаря ISO.
- Материалы седьмой глобальной конференции Wordnet 2014: Надя Б.М. Кармани, Хсан Суссу, Адель М. Алими: Создание стандартизированной сети Wordnet в ISO LMF для языка aeb. [9]
- Материалы семинара: HLT и НЛП в арабском мире, LREC 2008: Нуреддин Лукил, Кайс Хаддар, Абдельмаджид Бен Хамаду: К синтаксическому лексикону арабских глаголов. [10]
- Обработка естественного языка, Тулуза (на французском языке), 2007: Хемахем А., Гаргури Б., Абдельвахед А., Франкопуло Г.: Моделирование парадигм склонения арабских глаголов в соответствии со стандартом LMF-ISO 24613. [11]
Специальная книга [ править ]
В 2013 году вышла книга: LMF Lexical Markup Framework. [12] который полностью посвящен LMF. Первая глава посвящена истории моделей лексики, вторая глава представляет собой формальное представление модели данных, а третья посвящена взаимосвязи с категориями данных ISO-DCR. Остальные 14 глав посвящены лексикону или системе гражданского или военного применения, либо в научно-исследовательских лабораториях, либо для промышленного применения. Это Wordnet-LMF, Prolmf, DUELME, UBY-LMF , LG-LMF, RELISH, GlobalAtlas (или Global Atlas) и Wordscape.
научные Связанные сообщения
- Языковые ресурсы и оценка LREC-2006/Генуя: Актуальность стандартов для исследовательских инфраструктур [2]
См. также [ править ]
- Компьютерная лексикология
- Лексическая семантика
- Морфология (лингвистика) для объяснения парадигм и морфосинтаксиса.
- Машинный перевод для представления различных типов многоязычных обозначений (см. раздел « Подходы »).
- Морфологическая закономерность отличия парадигмы от парадигмального образца
- WordNet для презентации самой известной семантической лексики английского языка
- Universal Terminology eXchange (UTX) для ориентированного на пользователя альтернативного формата машиночитаемых словарей.
- Универсальный сетевой язык
- UBY-LMF для применения LMF
- OntoLex-Lemon для модели на основе LMF для публикации словарей в виде графов знаний , в формате RDF и/или в виде лингвистически связанных открытых данных.
Ссылки [ править ]
- ^ «ISO 24613-1:2024 – Управление языковыми ресурсами. Структура лексической разметки (LMF). Часть 1. Базовая модель» . ИСО . Проверено 31 января 2024 г.
- ^ Jump up to: Перейти обратно: а б «Актуальность стандартов для исследовательских инфраструктур» (PDF) . Hal.inria.fr . Проверено 24 января 2016 г.
- ^ «Среда лексической разметки (LMF)» (PDF) . Hal.inria.fr . Проверено 24 января 2016 г.
- ^ «Среда лексической разметки (LMF) для многоязычных ресурсов НЛП» (PDF) . Hal.inria.fr . Проверено 24 января 2016 г.
- ^ «На пути к созданию лексики языка волоф на основе LMF» (PDF) . Aclweb.org . Проверено 24 января 2016 г.
- ^ «Стандартизация сетей Wordnet в стандарте ISO LMF: Wordnet-LMF для GermaNet» (PDF) . Aclweb.org . Проверено 24 января 2016 г.
- ^ «Subcat-LMF: разработка стандартизированного формата для совместимости кадров подкатегоризации» (PDF) . Aclweb.org : 550–560. Апрель 2012 года . Проверено 24 января 2016 г.
- ^ «UBY — Масштабный унифицированный лексико-семантический ресурс на основе LMF» (PDF) . Aclweb.org . Проверено 24 января 2016 г.
- ^ «Создание стандартизированной сети Wordnet в ISO LMF для языка aeb» (PDF) . Aclweb.org . Проверено 24 января 2016 г.
- ^ «Материалы ЛРЭК 2008» . Lrec-conf.org . Проверено 24 января 2016 г.
- ^ «Моделирование парадигм склонения арабских глаголов согласно стандарту LMF — ISO 24613» (PDF) . Aclweb.org . Проверено 24 января 2016 г.
- ^ Гил Франкопуло (под редакцией) LMF Lexical Markup Framework, ISTE / Wiley 2013 ( ISBN 978-1-84821-430-9 )