Лексический ресурс
В цифровой лексикографии , обработке естественного языка и цифровых гуманитарных науках лексический ресурс — это языковой ресурс, состоящий из данных о лексемах лексикона например одного или нескольких языков, , в форме базы данных . [1]
Характеристики [ править ]
Существуют различные стандарты машиночитаемого издания лексических ресурсов, например, Lexical Markup Framework (LMF) — стандарт ISO для кодирования лексических ресурсов, включающий абстрактную модель данных и сериализацию XML , [2] и OntoLex-Lemon , словарь RDF для публикации лексических ресурсов в виде графов знаний в сети, например, в виде лингвистических связанных открытых данных . [3]
В зависимости от типа языков, к которым обращается лексический ресурс, можно квалифицировать как одноязычный , двуязычный или многоязычный . В двуязычных и многоязычных лексических ресурсах слова могут быть связаны или не связаны с одним языком с другим. При подключении эквивалентность одного языка другому осуществляется через двуязычную ссылку (для двуязычных лексических ресурсов, например, с помощью отношения vartrans:translatableAs в OntoLex-Lemon ) или через многоязычные нотации (для многоязычных лексических ресурсов, например, путем ссылки на тот же онтолекс:Концепция в OntoLex-Lemon). [4]
Также возможно создавать и управлять лексическим ресурсом, состоящим из разных лексиконов одного и того же языка, например, одного словаря для общих слов и одного или нескольких словарей для разных специализированных областей.
Машиночитаемый словарь против словаря НЛП
Лексические ресурсы в цифровой лексикографии часто называют машиночитаемым словарем ( MRD ), словарем, хранящимся в виде машинных (компьютерных) данных, а не распечатанным на бумаге. Это электронный словарь и лексическая база данных. Термин MRD часто противопоставляется словарю НЛП в том смысле, что MRD — это электронная форма словаря, который раньше печатался на бумаге. Напротив, хотя оба термина используются программами, термин «словарь НЛП» предпочтительнее, когда словарь был создан с нуля с учетом НЛП. [5]
Лексическая база данных [ править ]
Лексическая база данных — это лексический ресурс, с которым связана база данных программной среды , обеспечивающая доступ к ее содержимому. База данных может быть специально разработана для лексической информации или может быть базой данных общего назначения, в которую была введена лексическая информация.
Информация, обычно хранящаяся в лексической базе данных, включает в себя орфографию , лексические категории и синонимы слов, а также семантические и фонологические отношения между различными словами или наборами слов.
См. также [ править ]
- Lexical Markup Framework (LMF) — стандарт ISO для кодирования лексических ресурсов, включающий абстрактную модель данных и XML. сериализацию
- OntoLex-Lemon , словарь RDF для публикации лексических ресурсов в Интернете, например, в виде лингвистически связанных открытых данных.
- LREC Серия конференций
- Машиночитаемый словарь
- ВордНет
- Арабская онтология
Ссылки [ править ]
- ^ САРМА, Шикхар Кр и др. Создание многоязычных лексических ресурсов с использованием ворднетов: структура, проектирование и реализация . В: Материалы 3-го семинара по когнитивным аспектам лексики . 2012. С. 161-170.
- ^ Франкопуло, Гил; Бел, Нурия; Джордж, Монте; Кальцолари, Николетта; Монакини, Моника; Пет, Мэнди; Сория, Клаудия (01 марта 2009 г.). «Многоязычные ресурсы для НЛП в системе лексической разметки (LMF)» (PDF) . Языковые ресурсы и оценка . 43 (1): 57–70. дои : 10.1007/s10579-008-9077-5 . ISSN 1574-0218 . S2CID 7697316 .
- ^ Чимиано, Филипп; Кьяркос, Кристиан; МакКрэй, Джон П.; Грасия, Хорхе (2020), Лингвистические связанные данные: представление, создание и применение , Springer International Publishing, стр. 45–59, doi : 10.1007/978-3-030-30225-2_4 , ISBN 978-3-030-30225-2 , S2CID 214148590
- ^ Чимиано, Филипп; МакКрэй, Джон П.; Буителаар, Пол. «Лексиконная модель для онтологий: отчет сообщества, 10 мая 2016 г., окончательный отчет группы сообщества, 10 мая 2016 г.» . W3C . Проверено 6 декабря 2019 г.
- ^ Гил Франкопуло (под редакцией) LMF Lexical Markup Framework, ISTE / Wiley 2013 ( ISBN 978-1-84821-430-9 )