ОнтоЛекс
OntoLex — это короткое название словаря для лексических ресурсов в сети данных (OntoLex-Lemon) и краткое название группы сообщества W3C, которая его создала (W3C Ontology-Lexica Community Group). [1]
Словарь OntoLex-Lemon
[ редактировать ]Словарь OntoLex-Lemon представляет собой словарь для публикации лексических данных в виде графа знаний , в формате RDF и/или в виде лингвистически связанных открытых данных . С момента его публикации в качестве отчета сообщества W3C в 2016 году [2] он служит «стандартом де-факто для представления лексики онтологий в сети». [3] OntoLex-Lemon — это пересмотр словаря Lemon, первоначально предложенный McCrae et al. (2011). [4]
Основными элементами OntoLex-Lemon, показанными на рис. 1, являются:
- лексическая статья: единица анализа лексики, объединяющая одну или несколько форм и одно или несколько значений, соотв. концепции. Может предоставить дополнительную морфосинтаксическую информацию, например, об одной части речи. Обратите внимание, что каждая лексическая статья может иметь не более одной части речи. Для представления групп лексических статей с одинаковыми формами, но разными частями речи см. модуль лексикографии. [5]
- лексическая форма: поверхностная форма конкретной лексической статьи, например, ее письменное представление.
- лексический смысл: смысл слова конкретной лексической статьи. Обратите внимание, что смыслы OntoLex-Lemon лексикализованы , т. е. принадлежат ровно одной лексической статье. Для элементов значения, которые могут быть выражены разными лексемами, используйте лексическое понятие.
- Лексическое понятие: элементы значения с различной лексикализацией. Типичным примером являются синсеты WordNet, где несколько слов-синонимов сгруппированы в один набор.
Помимо основного модуля (пространство имен http://www.w3.org/ns/lemon/ontolex# ), другие модули определяют специальный словарь для представления метаданных словаря. [6] (пространство имен http://www.w3.org/ns/lemon/lime# ), лексико-семантические отношения (например, перевод и вариация, пространство имен http://www.w3.org/ns/lemon/vartrans# ), многословные выражения (декомпозиция, пространство имен http://www.w3.org/ns/lemon/decomp# ) и синтаксические фреймы (пространство имен http://www.w3.org/ns/lemon/synsem# ).
Структуры данных OntoLex-Lemon сопоставимы со структурами данных других форматов словарей (см. соответствующие словари ниже). Инновационный элемент OntoLex-Lemon заключается в том, что он предоставляет такую модель данных, как словарь RDF, поскольку это позволяет создавать новые варианты использования, основанные на веб-технологиях, а не на отдельных словарях (например, вывод перевода, см. приложения ниже). В обозримом будущем OntoLex-Lemon также останется уникальным в этой роли, поскольку сообщество (лингвистических) связанных открытых данных настоятельно рекомендует повторно использовать существующие словари. [7] и по состоянию на декабрь 2019 года OntoLex-Lemon является единственным установленным (т. е. опубликованным W3C или другой инициативой по стандартизации) словарем для этой цели. Это также отражено в недавних расширениях исходной спецификации OntoLex-Lemon, в которых были разработаны новые модули, расширяющие использование OntoLex-Lemon в новых областях применения:
- Модуль лексикографии OntoLex-Lemon, опубликованный как отчет группы сообщества W3C, [8] расширяет OntoLex-Lemon с учетом требований цифровой лексикографии .
- Модуль морфологии OntoLex-Lemon, по состоянию на декабрь 2019 г., в разработке, [9] [10] направлен на облегчение многоязычия за счет формализации морфологических словарей в OntoLex-Lemon, особенно для морфологически богатых языков.
- Модуль OntoLex-Lemon для частоты, аттестации и информации о корпусе, по состоянию на декабрь 2019 г., в разработке, [11] [12] призван облегчить использование OntoLex-Lemon в компьютерной лексикографии и обработке естественного языка.
- Обновления LexInfo: LexInfo предоставляет категории данных для данных OntoLex-Lemon. Текущая версия — Lexinfo 3.0, более ранние версии (до 2019 года) по-прежнему зависели от старого словаря Monnet-Lemon. [13]
Приложения
[ редактировать ]OntoLex-Lemon широко используется для лексических ресурсов в контексте лингвистически связанных открытых данных . Выбранные приложения включают в себя
- Модель данных и API лексикографической инфраструктуры OASIS (LEXIDMA), платформа для интероперабельной лексикографической работы. [14]
- Европейская общественная многоязычная инфраструктура знаний [15] [16]
- LexO, веб-редактор для совместной работы, используемый для создания и управления (многоязычными) лексическими и терминологическими ресурсами как связанными ресурсами данных. [17]
- VocBench , многоязычная веб-платформа совместной разработки для управления онтологиями, тезаурусами, лексиконами и данными RDF. [18] [19] [20]
- API Lexicala от K Dictionaries, обеспечивающий доступ к межъязыковым лексическим данным 50 языков и 150 языковых пар. [21]
- DiTMAO, лексикографический редактор, разработанный для создания Словаря древнеокситанской медико-ботанической терминологии. [22]
- серия общих задач по переводческому выводу в словарях (TIAD-2017, [23] [24] НЕТ-2019, [25] [26] НЕТ-2020 [27] )
- DBnary, RDF-издание из 16 языковых изданий Викисловаря. [28] [29]
- PanLex, крупномасштабная лексическая сеть, состоящая из около 2500 словарей и более чем 500 языков. [30]
- Princeton WordNet 3.1 , крупномасштабный, иерархически и реляционно структурированный лексический ресурс для английского языка. [31]
- Глобальная ассоциация WordNet, объединение усилий сообщества по созданию, поддержанию и взаимосвязи многоязычных сетей WordNet. [32]
- BabelNet — масштабная многоязычная лексическая сеть. [33] [34]
- LiLa, база знаний лингвистических ресурсов для латыни, основанная на большом словаре, состоящем из коллекции форм цитирования. [35] [36] [37]
Разработка OntoLex регулярно обсуждается на научных мероприятиях, посвященных онтологиям, связанным данным или лексикографии. С 2017 года серия семинаров по модулю OntoLex проводится два раза в год. [38]
Похожие словари
[ редактировать ]Связанные словари, ориентированные на стандартизацию и публикацию лексических ресурсов, включают DICT (текстовый формат), XML Dictionary eXchange Format , TEI-Dict (XML) и Lexical Markup Framework (абстрактная модель, обычно сериализуемая в XML; словарь Lemon первоначально развился из RDF-сериализация LMF). OntoLex-Lemon отличается от этих более ранних моделей тем, что представляет собой собственный словарь связанных открытых данных , который не (просто) формализует структуру и семантику машиночитаемых словарей, но предназначен для облегчения интеграции информации между ними.
Ссылки
[ редактировать ]- ^ «Портал сообщества ОнтоЛекс» . W3C . Проверено 6 декабря 2019 г.
- ^ Чимиано, Филипп; МакКрэй, Джон П.; Буителаар, Пол. «Лексиконная модель для онтологий: отчет сообщества, 10 мая 2016 г., окончательный отчет группы сообщества, 10 мая 2016 г.» . W3C . Проверено 6 декабря 2019 г.
- ^ Джулия Боске-Хиль, Хорхе Грасиа и Елена Монтьель-Понсода (июль 2017 г.). «На пути к модулю лексикографии в OntoLex» (PDF) . Новости словаря Кернермана . № 25 . Проверено 5 апреля 2020 г.
- ^ МакКрэй, Джон; Шпор, Деннис; Чимиано, Филипп (2011). «Связывание лексических ресурсов и онтологий в семантической сети с помощью Lemon». Материалы конференции расширенной семантической сети (ESWC-2011), Ираклион, Греция : 245–259.
- ^ Боске-Хиль, Джулия; Грасия, Хорхе. «Модуль лексикографии OntoLex Lemon» . W3C . Проверено 6 декабря 2019 г.
- ^ Фиорелли, Мануэль; Стеллато, Армандо; МакКрэй, Джон П.; Чимиано, Филипп; Пазиенца, Мария Тереза (2015). «LIME: Модуль метаданных для OntoLex». В Гандоне, Фабьен; Сабу, Марта; Сак, Харальд; д'Амато, Клаудия; Кудре-Мору, Филипп; Циммерманн, Антуан (ред.). Семантическая сеть. Последние достижения и новые домены . Конспекты лекций по информатике. Том. 9088. Международное издательство Springer. стр. 321–336. дои : 10.1007/978-3-319-18818-8_20 . ISBN 978-3-319-18818-8 .
- ^ «Лингвистически связанные открытые данные. Информация о текущем состоянии растущего облака лингвистически связанных открытых данных» . Проверено 10 декабря 2019 г.
- ^ Боске-Хиль, Джулия; Грасия, Хорхе. «Заключительный отчет группы сообщества OntoLex Lemon Lexicography от 17 сентября 2019 г.» . W3C . Проверено 10 декабря 2019 г.
- ^ «Морфология» . Проверено 10 декабря 2019 г.
- ^ Климек, Беттина; МакКрэй, Джон П.; Боске-Хиль, Джулия; Ионов, Максим; Таубер, Джеймс К.; Кьяркос, Кристиан. Проблемы представления морфологии в лексиконах онтологий, в: Косем И., Зингано Кун Т., Коррейя М., Феррериа Дж. П., Янсен М., Перейра И., Каллас Дж., Якубичек М. ., Крек С. и Тибериус К. (ред.) 2019. Электронная лексикография в 21 веке. Материалы конференции eLex 2019. 1–3 октября 2019 г., Синтра, Португалия (PDF) . Брно: Lexical Computing CZ, sro, стр. 570–591.
- ^ «Частота, аттестация и информация о корпусе» . Проверено 10 декабря 2019 г.
- ^ Кьяркос, Кристиан; Ионов, Максим. «Модуль OntoLex-Lemon для частотной, аттестационной и корпусной информации (проект спецификации)» . Гитхаб . Проверено 9 апреля 2020 г.
- ^ «LexInfo — онтология категорий данных для OntoLex-Lemon» . Гитхаб . Проверено 4 января 2020 г.
- ^ знамя. «Призыв к участию: Модель данных лексикографической инфраструктуры OASIS и API (LEXIDMA) TC» . ОАЗИС . Проверено 10 декабря 2019 г.
- ^ Шмитц, П.; Франческони, Э.; Хайлауи, Н.; Батуш, Б.; Стеллато, А. (2018). Семантическая совместимость многоязычных языковых ресурсов посредством автоматического картирования, В: Международная конференция по электронному правительству и перспективе информационных систем . Чам: Спрингер. стр. 153–163.
- ^ Батуш, Брахим; Шмитц, Питер; Франческони, Энрико; Хайлауи, Надже (2 декабря 2018 г.). PMKI – Общественные многоязычные знания. Документация по модели данных PMKIInfrastructure (PDF) . Европейская техническая спецификация . Проверено 10 декабря 2019 г.
- ^ Ленардич, Якоб. «CLARIN-IT представляет LexO: место, где лексикография встречается с семантической сетью» . КЛАРИН . Проверено 10 декабря 2019 г.
- ^ Команда АИМС. «Версия 4.0.2 VocBench была выпущена в августе 2018 года» . ФАО ООН в Италии . Проверено 10 декабря 2019 г.
- ^ Стеллато, Армандо; Раджбхандари, Сачит; Встревожен, Андреа; Фиорелли, Мануэль; Караччоло, Катерина; Лоренцетти, Тициан; Кайзер, Йоханнес; Пазиенца, Мария Тереза (2015). «VocBench: веб-приложение для совместной разработки многоязычных тезаурусов» (PDF) . В Гандоне, Фабьен; Сабу, Марта; Сак, Харальд; д'Амато, Клаудия; Кудре-Мору, Филипп; Циммерманн, Антуан (ред.). Семантическая сеть. Последние достижения и новые домены . Конспекты лекций по информатике. Том 9088. Международное издательство Springer. стр. 38–53. дои : 10.1007/978-3-319-18818-8_3 . ISBN 978-3-319-18818-8 .
- ^ «VocBench 3: Совместный семантический веб-редактор для онтологий, тезаурусов и лексиконов | www.semantic-web-journal.net» . semantic-web-journal.net . Проверено 17 января 2020 г.
- ^ Илан Кернерман и Дориэль Лонке (июль 2019 г.). «Lexicala API: новая эра словарных данных» (PDF) . Новости словаря Кернермана . № 27 . Проверено 5 апреля 2020 г.
- ^ «Словарь древнеокситанской медико-ботанической терминологии» . Проверено 10 декабря 2019 г.
- ^ «Общая задача TIAD-2017 — вывод перевода в словарях. Приглашаем к участию» . Проверено 10 декабря 2019 г.
- ^ МакКрэй, Джон П.; Бонд, Фрэнсис; Буителаар, Пол; Чимиано, Филипп; Деклерк, Тьерри; Грасия, Хорхе; Кернерман, Илан; Монтьель Понсода, Елена; Ордан, Ноам; Пясацкий, Мацей (18 июня 2017 г.). Материалы семинаров LDK 2017: 1-й семинар по модели OntoLex (OntoLex-2017), совместная задача по выводу перевода в словарях и задачи для сетей Wordnet . ЦЭУР . Проверено 10 декабря 2019 г.
- ^ «TIAD 2019. Вторая общая задача перевода по словарям (TIAD)» . Проверено 10 декабря 2019 г.
- ^ Грасия, Хорхе; Кабаши, Бесим; Кернерман, Илан (20 мая 2019 г.). Материалы совместной задачи TIAD-2019 — вывод перевода в словарях . Лейпциг, Германия: CEUR.
- ^ «TIAD 2020 — 2-я общая задача по выводу перевода через словари (TIAD)» .
- ^ «Дбнарий Викисловарь как лингвистически связанные открытые данные» . Проверено 10 декабря 2019 г.
- ^ Серассе, Жиль (2016). «DBnary: Викисловарь как многоязычный лексический ресурс на основе лимона в RDF» . Семантическая сеть . Проверено 10 декабря 2019 г.
- ^ Камхольц, Дэвид; Пул, Джонатан; Коловик, Сьюзан М. (2014). PanLex: Создание ресурса для панлингвального лексического перевода, в материалах 9-й конференции по языковым ресурсам и оценке (LREC-2014), Рейкьявик, Исландия, май 2014 г. Европейская ассоциация языковых ресурсов. стр. 3145–3150 . Проверено 10 декабря 2019 г.
- ^ «Принстон WordNet 3.1. WordNet RDF» . Проверено 10 декабря 2019 г.
- ^ «Глобальные форматы Wordnet: RDF» . Проверено 10 декабря 2019 г.
- ^ «Конечная точка BabelNet SPARQL» . Проверено 10 декабря 2019 г.
- ^ Эрманн, М.; Чеччони, Ф.; Ванелла, Д.; МакКрэй, JP; Чимиано, П.; Навильи, Р. Представление многоязычных данных как связанных данных: пример BabelNet 2.0. В: Материалы 9-й конференции по языковым ресурсам и оценке (LREC-2014), Рейкьявик, Исландия, май 2014 г. Европейская ассоциация языковых ресурсов. стр. 401–408 . Проверено 10 декабря 2019 г.
- ^ «Конечная точка LiLa SPARQL» . Проверено 4 апреля 2020 г.
- ^ «Интерфейс запросов LiLa» . Проверено 4 апреля 2020 г.
- ^ Пассаротти, MC; Чеккини, FM; Франзини, Дж.; Литта, Э.; Мамбрини, Ф.; Руффоло, П. Лила: Связь латыни. База знаний лингвистических ресурсов и инструментов НЛП. В: Материалы 2-й конференции по языку, данным и знаниям (LDK 2019), Лейпциг, Германия, 20-23 мая 2019 г. Материалы семинара CEUR . Проверено 4 апреля 2020 г.
- ^ Чимиано, Филипп (июль 2017 г.). «ОнтоЛекс 2017 – 1-й семинар по модели ОнтоЛекс» (PDF) . Новости словаря Кернермана . № 25 . Проверено 5 апреля 2020 г.