Структура лексической разметки

Управление языковыми ресурсами. Структура лексической разметки ( LMF ; ISO 24613 ), созданная ISO/TC 37 , является стандартом ISO для обработки естественного языка (NLP) и машиночитаемых словарей (MRD) лексиконов . [1] Областью применения является стандартизация принципов и методов, касающихся языковых ресурсов в контексте многоязычного общения.

Цели [ править ]

Цели LMF — предоставить общую модель для создания и использования лексических ресурсов , управлять обменом данными между этими ресурсами, а также обеспечить возможность объединения большого количества отдельных электронных ресурсов для формирования обширных глобальных электронных ресурсов.

Типы отдельных экземпляров LMF могут включать одноязычные, двуязычные или многоязычные лексические ресурсы. Одни и те же спецификации должны использоваться как для малых, так и для больших лексиконов, как для простых, так и для сложных лексиконов, как для письменных, так и для устных лексических представлений. Описания варьируются от морфологии , синтаксиса , вычислительной семантики до перевода с помощью компьютера . Охватываемые языки не ограничиваются европейскими языками , а охватывают все естественные языки . Спектр целевых применений НЛП не ограничен. LMF способен представлять большинство лексиконов, включая WordNet лексиконы , EDR и PAROLE.

История [ править ]

В прошлом стандартизация лексики изучалась и развивалась в рамках ряда проектов, таких как GENELEX, EDR, EAGLES, MULTEXT, PAROLE, SIMPLE и ISLE. Затем национальные делегации ISO/TC 37 решили рассмотреть стандарты, посвященные НЛП и представлению лексики. Работа над LMF началась летом 2003 г. с предложения нового рабочего пункта, представленного делегацией США. Осенью 2003 года французская делегация опубликовала техническое предложение по модели данных, посвященной лексикону НЛП. В начале 2004 года комитет ISO/TC 37 решил сформировать общий проект ISO с Николеттой Кальцолари ( CNR -ILC Италия) в качестве координатора и Хилем Франкопуло (Tagmatica Франция) и Монте Джорджем ( ANSI , США) в качестве редакторов. Первым шагом в разработке LMF было создание общей структуры, основанной на общих характеристиках существующих лексиконов, и разработка согласованной терминологии для описания компонентов этих лексиконов. Следующим шагом стала разработка комплексной модели, которая лучше всего представляла бы все словари в деталях. Большая группа из 60 экспертов представила широкий спектр требований к LMF, охватывающих многие типы лексиконов НЛП. Редакторы LMF тесно сотрудничали с группой экспертов, чтобы определить лучшие решения и достичь консенсуса по дизайну LMF. Особое внимание было уделено морфологии, чтобы обеспечить мощные механизмы решения проблем в нескольких языках, которые считались трудными для решения. 13 версий были написаны, разосланы (назначенным национальным экспертам), прокомментированы и обсуждены на различных технических совещаниях ИСО. После пяти лет работы, включая многочисленные личные встречи и обмен электронной почтой, редакторы пришли к последовательной модели UML. В заключение, LMF следует рассматривать как синтез современного уровня лексики НЛП.

Текущий этап [ править ]

Номер ISO — 24613. Спецификация LMF была официально опубликована как международный стандарт 17 ноября 2008 г.

семейства стандартов ISO/TC 37 один из членов . Как

Стандарты ISO/TC 37 в настоящее время разработаны как спецификации высокого уровня и касаются сегментации слов (ISO 24614), аннотаций (ISO 24611, также известного как MAF, ISO 24612, также известного как LAF, ISO 24615, также известного как SynAF, и ISO 24617-1, также известного как SemAF/Time). , структуры объектов (ISO 24610), мультимедийные контейнеры (ISO 24616, также известные как MLIF) и словари (ISO 24613). Эти стандарты основаны на спецификациях низкого уровня, посвященных константам, а именно категориям данных (пересмотр ISO 12620), языковым кодам ( ISO 639 ), кодам сценариев ( ISO 15924 ), кодам стран ( ISO 3166 ) и Unicode ( ISO 10646 ).

Двухуровневая организация образует целостное семейство стандартов со следующими общими и простыми правилами:

  • спецификация высокого уровня предоставляет структурные элементы, дополненные стандартизированными константами;
  • спецификации низкого уровня предоставляют стандартизированные константы в качестве метаданных.

Ключевые стандарты [ править ]

Лингвистические константы, такие как /feminine/ или /transitive/, не определены в LMF, но записываются в реестр категорий данных (DCR), который поддерживается ISO/TC 37 в качестве глобального ресурса в соответствии с ISO/IEC 11179-3:2003. . [2] И эти константы используются для украшения структурных элементов высокого уровня.

Спецификация LMF соответствует принципам моделирования Unified Modeling Language (UML), определенным Object Management Group (OMG). Структура задается с помощью диаграмм классов UML . Примеры представлены посредством диаграмм экземпляров (или объектов) UML.

XML DTD приведен в приложении к документу LMF.

Структура модели [ править ]

LMF состоит из следующих компонентов:

  • Базовый пакет, представляющий собой структурный скелет, описывающий базовую иерархию информации в лексической статье.
  • Расширения основного пакета, выраженные в структуре, описывающей повторное использование основных компонентов в сочетании с дополнительными компонентами, необходимыми для конкретного лексического ресурса.

Расширения специально предназначены для морфологии , MRD , NLP синтаксиса , NLP семантики , NLP многоязычных обозначений , NLP морфологических шаблонов , выражений из нескольких слов шаблонов и шаблонов выражений ограничений .

Пример [ править ]

В следующем примере лексическая статья связана с леммой «священнослужитель» и двумя флективными формами «священнослужитель» и «священнослужители» . Кодировка языка задается для всего лексического ресурса. Значение языка устанавливается для всего словаря, как показано на следующей UML диаграмме экземпляра .

Элементы Лексический ресурс , Глобальная информация , Лексикон , Лексическая запись , Лемма и Словоформа определяют структуру словаря. Они указаны в документе LMF. Напротив, LanguageCoding , Language , PartOfSpeech , commonNoun , WriteForm , grammaticalNumber , Единственное число , Множественное число — это категории данных, которые берутся из Реестра категорий данных. Эти знаки украшают конструкцию. Значения ISO 639-3 , священнослужитель , священнослужители представляют собой простые строки символов. Значение eng взято из списка языков, определенного стандартом ISO 639-3 .

С некоторой дополнительной информацией, такой как dtdVersion и feat , те же данные могут быть выражены следующим фрагментом XML :

<LexicalResource dtdVersion="15">
    <GlobalInformation>
        <feat att="languageCoding" val="ISO 639-3"/>
    </GlobalInformation>
    <Lexicon>
        <feat att="language" val="eng"/>
        <LexicalEntry>
            <feat att="partOfSpeech" val="commonNoun"/>
            <Lemma>
                <feat att="writtenForm" val="clergyman"/>
            </Lemma>
            <WordForm>
                 <feat att="writtenForm" val="clergyman"/>
                 <feat att="grammaticalNumber" val="singular"/>
            </WordForm>
            <WordForm>
                <feat att="writtenForm" val="clergymen"/>
                <feat att="grammaticalNumber" val="plural"/>
            </WordForm>
        </LexicalEntry>
    </Lexicon>
</LexicalResource>

Этот пример довольно прост, хотя LMF может представлять гораздо более сложные лингвистические описания, маркировка XML соответственно сложна.

Избранные публикации о LMF [ править ]

Первая публикация о спецификации LMF, ратифицированная ISO (эта статья стала (в 2015 г.) 9-й по популярности статьей на конференциях Language Resources and Evaluation среди статей LREC):

  • Языковые ресурсы и оценка LREC-2006/Генуя: Хиль Франкопуло, Монте Джордж, Николетта Кальцолари, Моника Моначини, Нурия Бел, Мэнди Пет, Клаудия Сориа: Структура лексической разметки (LMF) [3]

О семантическом представлении:

  • Общество лингвистической обработки данных GLDV-2007/Тюбинген: Хиль Франкопуло, Нурия Бел, Монте Джордж Николетта Кальцолари, Моника Моначини, Мэнди Пет, Клаудия Сориа: Структура лексической разметки Стандарт ISO для семантической информации в лексиконах НЛП [4]

Об африканских языках:

  • Обработка естественного языка, Марсель, 2014: Моухамаду Хуле, Мухамад Ндианхо Тиам, Эль Хадж Мамаду Нгуер: На пути к созданию лексикона языка волоф на основе LMF) [на французском языке] [5]

Об азиатских языках:

  • Лексикография, Журнал ASIALEX, Springer 2014: Структура лексической разметки: Гил Франкопуло, Чу-Рен Хуанг: Стандарт ISO для электронных лексиконов и его значение для азиатских языков DOI 10.1007/s40607-014-0006-z

О европейских языках:

  • COLING 2010: Верена Хенрих, Эрхард Хинрикс: Стандартизация сетей Wordnet в стандарте ISO LMF: Wordnet-LMF для GermaNet [6]
  • EACL 2012: Джудит Экл-Колер, Ирина Гуревич: Subcat-LMF: разработка стандартизированного формата для совместимости кадров подкатегоризации [7]
  • EACL 2012: Ирина Гуревич, Джудит Экл-Колер, Сильвана Хартманн, Майкл Матушек, Кристиан Мейер, Кристиан Вирт: UBY - крупномасштабный унифицированный лексико-семантический ресурс на основе LMF. [8]

О семитских языках:

  • Журнал инженерии естественного языка , издательство Кембриджского университета (выйдет весной 2015 г.): Аида Хемахем, Билель Гаргури, Абдельмаджид Бен Хамаду, Гил Франкопуло: Стандартное моделирование большого арабского словаря ISO.
  • Материалы седьмой глобальной конференции Wordnet 2014: Надя Б.М. Кармани, Хсан Суссу, Адель М. Алими: Создание стандартизированной сети Wordnet в ISO LMF для языка aeb. [9]
  • Материалы семинара: HLT и НЛП в арабском мире, LREC 2008: Нуреддин Лукил, Кайс Хаддар, Абдельмаджид Бен Хамаду: К синтаксическому лексикону арабских глаголов. [10]
  • Обработка естественного языка, Тулуза (на французском языке), 2007: Хемахем А., Гаргури Б., Абдельвахед А., Франкопуло Г.: Моделирование парадигм склонения арабских глаголов в соответствии со стандартом LMF-ISO 24613. [11]

Специальная книга [ править ]

В 2013 году вышла книга: LMF Lexical Markup Framework. [12] который полностью посвящен LMF. Первая глава посвящена истории моделей лексики, вторая глава представляет собой формальное представление модели данных, а третья посвящена взаимосвязи с категориями данных ISO-DCR. Остальные 14 глав посвящены лексикону или системе гражданского или военного применения, либо в научно-исследовательских лабораториях, либо для промышленного применения. Это Wordnet-LMF, Prolmf, DUELME, UBY-LMF , LG-LMF, RELISH, GlobalAtlas (или Global Atlas) и Wordscape.

научные Связанные сообщения

См. также [ править ]

Ссылки [ править ]

  1. ^ «ISO 24613-1:2024 – Управление языковыми ресурсами. Структура лексической разметки (LMF). Часть 1. Базовая модель» . ИСО . Проверено 31 января 2024 г.
  2. ^ Jump up to: Перейти обратно: а б «Актуальность стандартов для исследовательских инфраструктур» (PDF) . Hal.inria.fr . Проверено 24 января 2016 г.
  3. ^ «Среда лексической разметки (LMF)» (PDF) . Hal.inria.fr . Проверено 24 января 2016 г.
  4. ^ «Среда лексической разметки (LMF) для многоязычных ресурсов НЛП» (PDF) . Hal.inria.fr . Проверено 24 января 2016 г.
  5. ^ «На пути к созданию лексики языка волоф на основе LMF» (PDF) . Aclweb.org . Проверено 24 января 2016 г.
  6. ^ «Стандартизация сетей Wordnet в стандарте ISO LMF: Wordnet-LMF для GermaNet» (PDF) . Aclweb.org . Проверено 24 января 2016 г.
  7. ^ «Subcat-LMF: разработка стандартизированного формата для совместимости кадров подкатегоризации» (PDF) . Aclweb.org : 550–560. Апрель 2012 года . Проверено 24 января 2016 г.
  8. ^ «UBY — Масштабный унифицированный лексико-семантический ресурс на основе LMF» (PDF) . Aclweb.org . Проверено 24 января 2016 г.
  9. ^ «Создание стандартизированной сети Wordnet в ISO LMF для языка aeb» (PDF) . Aclweb.org . Проверено 24 января 2016 г.
  10. ^ «Материалы ЛРЭК 2008» . Lrec-conf.org . Проверено 24 января 2016 г.
  11. ^ «Моделирование парадигм склонения арабских глаголов согласно стандарту LMF — ISO 24613» (PDF) . Aclweb.org . Проверено 24 января 2016 г.
  12. ^ Гил Франкопуло (под редакцией) LMF Lexical Markup Framework, ISTE / Wiley 2013 ( ISBN   978-1-84821-430-9 )

Внешние ссылки [ править ]