Jump to content

Структура лексической разметки

(Перенаправлено из среды лексической разметки )

Управление языковыми ресурсами. Структура лексической разметки ( LMF ; ISO 24613 ), созданная ISO/TC 37 , является стандартом ISO для обработки естественного языка (NLP) и машиночитаемых словарей (MRD) лексиконов . [1] Областью применения является стандартизация принципов и методов, касающихся языковых ресурсов в контексте многоязычного общения.

Цели LMF — предоставить общую модель для создания и использования лексических ресурсов , управлять обменом данными между этими ресурсами, а также обеспечить возможность объединения большого количества отдельных электронных ресурсов для формирования обширных глобальных электронных ресурсов.

Типы отдельных экземпляров LMF могут включать одноязычные, двуязычные или многоязычные лексические ресурсы. Одни и те же спецификации должны использоваться как для малых, так и для больших лексиконов, как для простых, так и для сложных лексиконов, как для письменных, так и для устных лексических представлений. Описания варьируются от морфологии , синтаксиса , вычислительной семантики до перевода с помощью компьютера . Охватываемые языки не ограничиваются европейскими языками , а охватывают все естественные языки . Спектр целевых применений НЛП не ограничен. LMF способен представлять большинство лексиконов, включая WordNet лексиконы , EDR и PAROLE.

В прошлом стандартизация лексики изучалась и развивалась в рамках ряда проектов, таких как GENELEX, EDR, EAGLES, MULTEXT, PAROLE, SIMPLE и ISLE. Затем национальные делегации ISO/TC 37 решили рассмотреть стандарты, посвященные НЛП и представлению лексики. Работа над LMF началась летом 2003 г. с предложения нового рабочего пункта, представленного делегацией США. Осенью 2003 года французская делегация опубликовала техническое предложение по модели данных, посвященной лексикону НЛП. В начале 2004 года комитет ISO/TC 37 решил сформировать общий проект ISO с Николеттой Кальцолари ( CNR -ILC Италия) в качестве координатора и Хилем Франкопуло (Tagmatica Франция) и Монте Джорджем ( ANSI , США) в качестве редакторов. Первым шагом в разработке LMF было создание общей структуры, основанной на общих характеристиках существующих лексиконов, и разработка согласованной терминологии для описания компонентов этих лексиконов. Следующим шагом стала разработка комплексной модели, которая лучше всего представляла бы все словари в деталях. Большая группа из 60 экспертов представила широкий спектр требований к LMF, охватывающих многие типы лексиконов НЛП. Редакторы LMF тесно сотрудничали с группой экспертов, чтобы определить лучшие решения и достичь консенсуса по дизайну LMF. Особое внимание было уделено морфологии, чтобы обеспечить мощные механизмы решения проблем в нескольких языках, которые считались трудными для решения. 13 версий были написаны, разосланы (назначенным национальным экспертам), прокомментированы и обсуждены на различных технических совещаниях ИСО. После пяти лет работы, включая многочисленные личные встречи и обмен электронной почтой, редакторы пришли к последовательной модели UML. В заключение, LMF следует рассматривать как синтез современного уровня лексики НЛП.

Текущий этап

[ редактировать ]

Номер ISO — 24613. Спецификация LMF была официально опубликована как международный стандарт 17 ноября 2008 г.

Являясь одним из членов семейства стандартов ISO/TC 37.

[ редактировать ]

Стандарты ISO/TC 37 в настоящее время разработаны как спецификации высокого уровня и касаются сегментации слов (ISO 24614), аннотаций (ISO 24611, также известного как MAF, ISO 24612, также известного как LAF, ISO 24615, также известного как SynAF, и ISO 24617-1, также известного как SemAF/Time). , структуры объектов (ISO 24610), мультимедийные контейнеры (ISO 24616, также известные как MLIF) и словари (ISO 24613). Эти стандарты основаны на спецификациях низкого уровня, посвященных константам, а именно категориям данных (пересмотр ISO 12620), языковым кодам ( ISO 639 ), кодам сценариев ( ISO 15924 ), кодам стран ( ISO 3166 ) и Unicode ( ISO 10646 ).

Двухуровневая организация образует целостное семейство стандартов со следующими общими и простыми правилами:

  • спецификация высокого уровня предоставляет структурные элементы, дополненные стандартизированными константами;
  • спецификации низкого уровня предоставляют стандартизированные константы в качестве метаданных.

Ключевые стандарты

[ редактировать ]

Лингвистические константы, такие как /feminine/ или /transitive/, не определены в LMF, но записываются в реестр категорий данных (DCR), который поддерживается ISO/TC 37 в качестве глобального ресурса в соответствии с ISO/IEC 11179-3:2003. . [2] И эти константы используются для украшения структурных элементов высокого уровня.

Спецификация LMF соответствует принципам моделирования Unified Modeling Language (UML), определенным Object Management Group (OMG). Структура задается с помощью диаграмм классов UML . Примеры представлены посредством диаграмм экземпляров (или объектов) UML.

XML DTD приведен в приложении к документу LMF.

Структура модели

[ редактировать ]

LMF состоит из следующих компонентов:

  • Базовый пакет, представляющий собой структурный скелет, описывающий базовую иерархию информации в лексической статье.
  • Расширения основного пакета, выраженные в структуре, описывающей повторное использование основных компонентов в сочетании с дополнительными компонентами, необходимыми для конкретного лексического ресурса.

Расширения специально предназначены для морфологии , MRD , NLP синтаксиса , NLP семантики , NLP многоязычных обозначений , NLP морфологических шаблонов , выражений из нескольких слов шаблонов и шаблонов выражений ограничений .

В следующем примере лексическая статья связана с леммой «священнослужитель» и двумя флективными формами «священнослужитель» и «священнослужители» . Кодировка языка задается для всего лексического ресурса. Значение языка устанавливается для всего словаря, как показано на следующей UML диаграмме экземпляра .

Элементы Лексический ресурс , Глобальная информация , Лексикон , Лексическая запись , Лемма и Словоформа определяют структуру словаря. Они указаны в документе LMF. Напротив, LanguageCoding , Language , PartOfSpeech , commonNoun , WriteForm , grammaticalNumber , Единственное число , Множественное число — это категории данных, которые берутся из Реестра категорий данных. Эти знаки украшают конструкцию. Значения ISO 639-3 , священнослужитель , священнослужители представляют собой простые строки символов. Значение eng взято из списка языков, определенного стандартом ISO 639-3 .

С некоторой дополнительной информацией, такой как dtdVersion и feat , те же данные могут быть выражены следующим фрагментом XML :

<LexicalResource dtdVersion="15">
    <GlobalInformation>
        <feat att="languageCoding" val="ISO 639-3"/>
    </GlobalInformation>
    <Lexicon>
        <feat att="language" val="eng"/>
        <LexicalEntry>
            <feat att="partOfSpeech" val="commonNoun"/>
            <Lemma>
                <feat att="writtenForm" val="clergyman"/>
            </Lemma>
            <WordForm>
                 <feat att="writtenForm" val="clergyman"/>
                 <feat att="grammaticalNumber" val="singular"/>
            </WordForm>
            <WordForm>
                <feat att="writtenForm" val="clergymen"/>
                <feat att="grammaticalNumber" val="plural"/>
            </WordForm>
        </LexicalEntry>
    </Lexicon>
</LexicalResource>

Этот пример довольно прост, хотя LMF может представлять гораздо более сложные лингвистические описания, маркировка XML соответственно сложна.

Избранные публикации о LMF

[ редактировать ]

Первая публикация о спецификации LMF, ратифицированная ISO (эта статья стала (в 2015 г.) 9-й по популярности статьей на конференциях Language Resources and Evaluation среди статей LREC):

  • Языковые ресурсы и оценка LREC-2006/Генуя: Хиль Франкопуло, Монте Джордж, Николетта Кальцолари, Моника Моначини, Нурия Бел, Мэнди Пет, Клаудия Сориа: Структура лексической разметки (LMF) [3]

О семантическом представлении:

  • Общество лингвистической обработки данных GLDV-2007/Тюбинген: Хиль Франкопуло, Нурия Бел, Монте Джордж Николетта Кальцолари, Моника Моначини, Мэнди Пет, Клаудия Сориа: Структура лексической разметки Стандарт ISO для семантической информации в лексиконах НЛП [4]

Об африканских языках:

  • Обработка естественного языка, Марсель, 2014: Моухамаду Хуле, Мухамад Ндианхо Тиам, Эль Хадж Мамаду Нгуер: На пути к созданию лексикона языка волоф на основе LMF) [на французском языке] [5]

Об азиатских языках:

  • Лексикография, Журнал ASIALEX, Springer 2014: Структура лексической разметки: Гил Франкопуло, Чу-Рен Хуанг: Стандарт ISO для электронных лексиконов и его значение для азиатских языков DOI 10.1007/s40607-014-0006-z

О европейских языках:

  • COLING 2010: Верена Хенрих, Эрхард Хинрикс: Стандартизация сетей Wordnet в стандарте ISO LMF: Wordnet-LMF для GermaNet [6]
  • EACL 2012: Джудит Экл-Колер, Ирина Гуревич: Subcat-LMF: разработка стандартизированного формата для совместимости кадров подкатегоризации [7]
  • EACL 2012: Ирина Гуревич, Джудит Экл-Колер, Сильвана Хартманн, Майкл Матушек, Кристиан Мейер, Кристиан Вирт: UBY - крупномасштабный унифицированный лексико-семантический ресурс на основе LMF. [8]

О семитских языках:

  • Журнал инженерии естественного языка , издательство Кембриджского университета (выйдет весной 2015 г.): Аида Хемахем, Билель Гаргури, Абдельмаджид Бен Хамаду, Гил Франкопуло: Стандартное моделирование большого арабского словаря ISO.
  • Материалы седьмой глобальной конференции Wordnet 2014: Надя Б.М. Кармани, Хсан Суссу, Адель М. Алими: Создание стандартизированной сети Wordnet в ISO LMF для языка aeb. [9]
  • Материалы семинара: HLT и НЛП в арабском мире, LREC 2008: Нуреддин Лукил, Кайс Хаддар, Абдельмаджид Бен Хамаду: К синтаксическому лексикону арабских глаголов. [10]
  • Обработка естественного языка, Тулуза (на французском языке), 2007: Хемахем А., Гаргури Б., Абдельвахед А., Франкопуло Г.: Моделирование парадигм склонения арабских глаголов в соответствии со стандартом LMF-ISO 24613. [11]

Специальная книга

[ редактировать ]

В 2013 году вышла книга: LMF Lexical Markup Framework. [12] который полностью посвящен LMF. Первая глава посвящена истории моделей лексики, вторая глава представляет собой формальное представление модели данных, а третья посвящена взаимосвязи с категориями данных ISO-DCR. Остальные 14 глав посвящены лексикону или системе гражданского или военного применения, либо в научно-исследовательских лабораториях, либо для промышленного применения. Это Wordnet-LMF, Prolmf, DUELME, UBY-LMF , LG-LMF, RELISH, GlobalAtlas (или Global Atlas) и Wordscape.

[ редактировать ]

См. также

[ редактировать ]
  1. ^ «ISO 24613-1:2024 – Управление языковыми ресурсами. Структура лексической разметки (LMF). Часть 1. Базовая модель» . ИСО . Проверено 31 января 2024 г.
  2. ^ Jump up to: а б «Актуальность стандартов для исследовательских инфраструктур» (PDF) . Hal.inria.fr . Проверено 24 января 2016 г.
  3. ^ «Среда лексической разметки (LMF)» (PDF) . Hal.inria.fr . Проверено 24 января 2016 г.
  4. ^ «Среда лексической разметки (LMF) для многоязычных ресурсов НЛП» (PDF) . Hal.inria.fr . Проверено 24 января 2016 г.
  5. ^ «На пути к созданию лексики языка волоф на основе LMF» (PDF) . Aclweb.org . Проверено 24 января 2016 г.
  6. ^ «Стандартизация сетей Wordnet в стандарте ISO LMF: Wordnet-LMF для GermaNet» (PDF) . Aclweb.org . Проверено 24 января 2016 г.
  7. ^ «Subcat-LMF: разработка стандартизированного формата для совместимости кадров подкатегоризации» (PDF) . Aclweb.org : 550–560. Апрель 2012 года . Проверено 24 января 2016 г.
  8. ^ «UBY — Масштабный унифицированный лексико-семантический ресурс на основе LMF» (PDF) . Aclweb.org . Проверено 24 января 2016 г.
  9. ^ «Создание стандартизированной сети Wordnet в ISO LMF для языка aeb» (PDF) . Aclweb.org . Проверено 24 января 2016 г.
  10. ^ «Материалы ЛРЭК 2008» . Lrec-conf.org . Проверено 24 января 2016 г.
  11. ^ «Моделирование парадигм склонения арабских глаголов согласно стандарту LMF — ISO 24613» (PDF) . Aclweb.org . Проверено 24 января 2016 г.
  12. ^ Гил Франкопуло (под редакцией) LMF Lexical Markup Framework, ISTE / Wiley 2013 ( ISBN   978-1-84821-430-9 )
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 1b9b3e31cd750b14a910c4f33f660c94__1706671740
URL1:https://arc.ask3.ru/arc/aa/1b/94/1b9b3e31cd750b14a910c4f33f660c94.html
Заголовок, (Title) документа по адресу, URL1:
Lexical Markup Framework - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)