Языковой ресурс
В лингвистике и языковых технологиях языковой ресурс — это «[композиция] лингвистического материала, используемого при создании, совершенствовании и/или оценке приложений языковой обработки, (...) в языковых и опосредованных языком исследованиях и приложениях». [1]
По данным Берда и Саймонса (2003), [2] это включает в себя
- данные, то есть «любая информация, которая документирует или описывает язык, например, опубликованная монография, файл компьютерных данных или даже коробка из-под обуви, полная рукописных учетных карточек. Содержание информации может варьироваться от непроанализированных звукозаписей до полностью расшифрованных и аннотированных текстов. к полной описательной грамматике", [2]
- инструменты, то есть «вычислительные ресурсы, которые облегчают создание, просмотр, запрос или иное использование языковых данных», [2] и
- совет, т. е. «любая информация о том, какие источники данных надежны, какие инструменты подходят в данной ситуации, какой практике следует следовать при создании новых данных». Последний аспект обычно называют «передовой практикой» или «стандартами (сообщества)». [2]
В более узком смысле языковой ресурс конкретно применяется к ресурсам, которые доступны в цифровой форме, а затем «охватывает (а) наборы данных (текстовые, мультимодальные/мультимедийные и лексические данные, грамматики, языковые модели и т. д.) в машиночитаемом виде. форме и (б) инструментам/технологиям/услугам, используемым для их обработки и управления». [1]
Типология [ править ]
По состоянию на май 2020 года не установлено широко используемой стандартной типологии языковых ресурсов (текущие предложения включают LREMap , [3] МЕТАШАРЕ, [4] и, для данных, классификация LLOD ). Важные классы языковых ресурсов включают
- данные
- лексические ресурсы , например машиночитаемые словари ,
- лингвистические корпуса , то есть цифровые коллекции данных естественного языка,
- базы лингвистических данных, такие как коллекция межлингвистических связанных данных ,
- инструменты
- лингвистические аннотации и инструменты для создания таких аннотаций в ручном или полуавтоматическом режиме (например, инструменты для аннотирования подстрочного глянцевого текста, такие как Toolbox и FLEx , или другие инструменты языковой документации ),
- приложения для поиска и извлечения по таким данным ( корпусные системы управления ), для автоматизированного аннотирования ( разметка частей речи , синтаксический анализ , семантический анализ и т. д.),
- метаданные и словари
- словари, хранилища лингвистической терминологии и языковых метаданных, например MetaShare (для метаданных языковых ресурсов), [4] реестр категорий данных ISO 12620 (для лингвистических функций, структур данных и аннотаций внутри языкового ресурса), [5] или базу данных Glottolog (идентификаторы языковых разновидностей и библиографическая база данных). [6]
ресурсов Публикация, распространение и создание языковых
Основной задачей сообщества языковых ресурсов было развитие инфраструктуры и платформ для представления, обсуждения и распространения языковых ресурсов. Отдельные материалы в этом отношении включают:
- серия международных конференций по языковым ресурсам и оценке (LREC),
- Европейская ассоциация языковых ресурсов (ELRA, штаб-квартира в ЕС) и Консорциум лингвистических данных (LDC, штаб-квартира в США), которые представляют собой коммерческие платформы хостинга и распространения языковых ресурсов,
- Сообщество открытых языковых архивов (OLAC) , которое предоставляет и объединяет метаданные языковых ресурсов,
- Журнал языковых ресурсов и оценки (LREJ), [7]
- European Language Grid — это европейская платформа для языковых технологий (например, услуг), данных и ресурсов.
Что касается разработки стандартов и передового опыта для языковых ресурсов, то они являются предметом деятельности нескольких общественных групп и усилий по стандартизации, в том числе
- Технический комитет ISO 37: Терминология и другие языковые и контентные ресурсы ( ISO/TC 37 ), разрабатывающий стандарты для всех аспектов языковых ресурсов,
- W3C Лучшие практики группы сообщества для многоязычных связанных открытых данных (BPMLOD), [8] работа над рекомендациями по передовой практике публикации языковых ресурсов в виде связанных данных или в формате RDF ,
- Связанные данные группы сообщества W3C для языковых технологий (LD4LT), [9] работа над лингвистическими аннотациями в Интернете и метаданными языковых ресурсов,
- Группа сообщества W3C Ontology-Lexica ( OntoLex ), [10] работа над лексическими ресурсами,
- рабочая группа Open Linguistics Фонда открытых знаний , работающая над соглашениями по публикации и связыванию открытых языковых ресурсов, разрабатывающая облако Linguistic Linked Open Data , [11]
- Инициатива по кодированию текста (TEI) , [12] работа над спецификациями на основе XML для языковых ресурсов и текста, отредактированного в цифровой форме.
Ссылки [ править ]
- ↑ Перейти обратно: Перейти обратно: а б LD4LT (2020), Онтология Metashare, созданная группой сообщества LD4LT , Связанные данные группы сообщества W3C для языковых технологий (LD4LT), ветка разработки, версия от 10 марта 2020 г.
- ↑ Перейти обратно: Перейти обратно: а б с д Берд, Стивен; Саймонс, Гэри (1 ноября 2003 г.). «Расширение метаданных Dublin Core для поддержки описания и обнаружения языковых ресурсов». Компьютеры и гуманитарные науки . 37 (4): 375–388. arXiv : cs/0308022 . Бибкод : 2003cs........8022B . дои : 10.1023/А:1025720518994 . ISSN 1572-8412 . S2CID 5969663 .
- ^ Кальцолари, Н., Дель Гратта, Р., Франкопуло, Г., Мариани, Дж., Рубино, Ф., Руссо, И. и Сория, К. (2012, май). Карта ЖРД. Гармонизация описаний ресурсов сообщества . В ЛРЭЦ (стр. 1084-1089).
- ↑ Перейти обратно: Перейти обратно: а б МакКрэй, Джон П.; Лабропулу, Пенни; Грасия, Хорхе; Вильегас, Марта; Родригес-Донсель, Виктор; Чимиано, Филипп (2015). «Одна онтология, которая свяжет их всех: онтология META-SHARE OWL для взаимодействия лингвистических наборов данных в Интернете». В Гандоне, Фабьен; Гере, Кристоф; Виллата, Серена; Бреслин, Джон; Фарон-Цукер, Кэтрин; Циммерманн, Антуан (ред.). Семантическая сеть: сателлиты ESWC 2015 . Конспекты лекций по информатике. Том. 9341. Чам: Springer International Publishing. стр. 271–282. дои : 10.1007/978-3-319-25639-9_42 . ISBN 978-3-319-25639-9 .
- ^ Кемпс-Снейдерс, М., Виндхаувер, М., Виттенбург, П., и Райт, SE (2008). ISOcat: объединение категорий данных в реальных условиях . На 6-й Международной конференции по языковым ресурсам и оценке (LREC 2008) .
- ^ Нордхофф, Себастьян (2012), Кьяркос, Кристиан; Нордхофф, Себастьян; Хеллманн, Себастьян (ред.), «Связанные данные для исследования лингвистического разнообразия: Glottolog/Langdoc и ASJP Online», Связанные данные в лингвистике: представление и соединение языковых данных и языковых метаданных , Springer, стр. 191–200, doi : 10.1007/ 978-3-642-28249-2_18 , ISBN 978-3-642-28249-2
- ^ «Языковые ресурсы и оценка» . Спрингер . Проверено 13 мая 2020 г.
- ^ «Лучшие практики для группы сообщества многоязычных связанных открытых данных» . www.w3.org . 2 октября 2015 г. Проверено 13 мая 2020 г.
- ^ «Связанные данные для группы сообщества языковых технологий» . www.w3.org . 26 июня 2015 г. Проверено 13 мая 2020 г.
- ^ «Группа сообщества Ontology-Lexica» . www.w3.org . 10 мая 2016 года . Проверено 13 мая 2020 г.
- ^ «Лингвистические связанные открытые данные» .
- ^ «TEI: Инициатива по кодированию текста» . tei-c.org . Проверено 13 мая 2020 г.