Jump to content

Языковой ресурс

В лингвистике и языковых технологиях языковой ресурс — это «[композиция] лингвистического материала, используемого при создании, совершенствовании и/или оценке приложений языковой обработки, (...) в языковых и опосредованных языком исследованиях и приложениях». [1]

По данным Берда и Саймонса (2003), [2] это включает в себя

  1. данные, то есть «любая информация, которая документирует или описывает язык, например, опубликованная монография, файл компьютерных данных или даже коробка из-под обуви, полная рукописных учетных карточек. Содержание информации может варьироваться от непроанализированных звукозаписей до полностью расшифрованных и аннотированных текстов. к полной описательной грамматике", [2]
  2. инструменты, то есть «вычислительные ресурсы, которые облегчают создание, просмотр, запрос или иное использование языковых данных», [2] и
  3. совет, т. е. «любая информация о том, какие источники данных надежны, какие инструменты подходят в данной ситуации, какой практике следует следовать при создании новых данных». Последний аспект обычно называют «передовой практикой» или «стандартами (сообщества)». [2]

В более узком смысле языковой ресурс конкретно применяется к ресурсам, которые доступны в цифровой форме, а затем «охватывает (а) наборы данных (текстовые, мультимодальные/мультимедийные и лексические данные, грамматики, языковые модели и т. д.) в машиночитаемом виде. форме и (б) инструментам/технологиям/услугам, используемым для их обработки и управления». [1]

Типология [ править ]

По состоянию на май 2020 года не установлено широко используемой стандартной типологии языковых ресурсов (текущие предложения включают LREMap , [3] МЕТАШАРЕ, [4] и, для данных, классификация LLOD ). Важные классы языковых ресурсов включают

  1. данные
    1. лексические ресурсы , например машиночитаемые словари ,
    2. лингвистические корпуса , то есть цифровые коллекции данных естественного языка,
    3. базы лингвистических данных, такие как коллекция межлингвистических связанных данных ,
  2. инструменты
    1. лингвистические аннотации и инструменты для создания таких аннотаций в ручном или полуавтоматическом режиме (например, инструменты для аннотирования подстрочного глянцевого текста, такие как Toolbox и FLEx , или другие инструменты языковой документации ),
    2. приложения для поиска и извлечения по таким данным ( корпусные системы управления ), для автоматизированного аннотирования ( разметка частей речи , синтаксический анализ , семантический анализ и т. д.),
  3. метаданные и словари
    1. словари, хранилища лингвистической терминологии и языковых метаданных, например MetaShare (для метаданных языковых ресурсов), [4] реестр категорий данных ISO 12620 (для лингвистических функций, структур данных и аннотаций внутри языкового ресурса), [5] или базу данных Glottolog (идентификаторы языковых разновидностей и библиографическая база данных). [6]

ресурсов Публикация, распространение и создание языковых

Основной задачей сообщества языковых ресурсов было развитие инфраструктуры и платформ для представления, обсуждения и распространения языковых ресурсов. Отдельные материалы в этом отношении включают:

Что касается разработки стандартов и передового опыта для языковых ресурсов, то они являются предметом деятельности нескольких общественных групп и усилий по стандартизации, в том числе

  • Технический комитет ISO 37: Терминология и другие языковые и контентные ресурсы ( ISO/TC 37 ), разрабатывающий стандарты для всех аспектов языковых ресурсов,
  • W3C Лучшие практики группы сообщества для многоязычных связанных открытых данных (BPMLOD), [8] работа над рекомендациями по передовой практике публикации языковых ресурсов в виде связанных данных или в формате RDF ,
  • Связанные данные группы сообщества W3C для языковых технологий (LD4LT), [9] работа над лингвистическими аннотациями в Интернете и метаданными языковых ресурсов,
  • Группа сообщества W3C Ontology-Lexica ( OntoLex ), [10] работа над лексическими ресурсами,
  • рабочая группа Open Linguistics Фонда открытых знаний , работающая над соглашениями по публикации и связыванию открытых языковых ресурсов, разрабатывающая облако Linguistic Linked Open Data , [11]
  • Инициатива по кодированию текста (TEI) , [12] работа над спецификациями на основе XML для языковых ресурсов и текста, отредактированного в цифровой форме.


Ссылки [ править ]

  1. Перейти обратно: Перейти обратно: а б LD4LT (2020), Онтология Metashare, созданная группой сообщества LD4LT , Связанные данные группы сообщества W3C для языковых технологий (LD4LT), ветка разработки, версия от 10 марта 2020 г.
  2. Перейти обратно: Перейти обратно: а б с д Берд, Стивен; Саймонс, Гэри (1 ноября 2003 г.). «Расширение метаданных Dublin Core для поддержки описания и обнаружения языковых ресурсов». Компьютеры и гуманитарные науки . 37 (4): 375–388. arXiv : cs/0308022 . Бибкод : 2003cs........8022B . дои : 10.1023/А:1025720518994 . ISSN   1572-8412 . S2CID   5969663 .
  3. ^ Кальцолари, Н., Дель Гратта, Р., Франкопуло, Г., Мариани, Дж., Рубино, Ф., Руссо, И. и Сория, К. (2012, май). Карта ЖРД. Гармонизация описаний ресурсов сообщества . В ЛРЭЦ (стр. 1084-1089).
  4. Перейти обратно: Перейти обратно: а б МакКрэй, Джон П.; Лабропулу, Пенни; Грасия, Хорхе; Вильегас, Марта; Родригес-Донсель, Виктор; Чимиано, Филипп (2015). «Одна онтология, которая свяжет их всех: онтология META-SHARE OWL для взаимодействия лингвистических наборов данных в Интернете». В Гандоне, Фабьен; Гере, Кристоф; Виллата, Серена; Бреслин, Джон; Фарон-Цукер, Кэтрин; Циммерманн, Антуан (ред.). Семантическая сеть: сателлиты ESWC 2015 . Конспекты лекций по информатике. Том. 9341. Чам: Springer International Publishing. стр. 271–282. дои : 10.1007/978-3-319-25639-9_42 . ISBN  978-3-319-25639-9 .
  5. ^ Кемпс-Снейдерс, М., Виндхаувер, М., Виттенбург, П., и Райт, SE (2008). ISOcat: объединение категорий данных в реальных условиях . На 6-й Международной конференции по языковым ресурсам и оценке (LREC 2008) .
  6. ^ Нордхофф, Себастьян (2012), Кьяркос, Кристиан; Нордхофф, Себастьян; Хеллманн, Себастьян (ред.), «Связанные данные для исследования лингвистического разнообразия: Glottolog/Langdoc и ASJP Online», Связанные данные в лингвистике: представление и соединение языковых данных и языковых метаданных , Springer, стр. 191–200, doi : 10.1007/ 978-3-642-28249-2_18 , ISBN  978-3-642-28249-2
  7. ^ «Языковые ресурсы и оценка» . Спрингер . Проверено 13 мая 2020 г.
  8. ^ «Лучшие практики для группы сообщества многоязычных связанных открытых данных» . www.w3.org . 2 октября 2015 г. Проверено 13 мая 2020 г.
  9. ^ «Связанные данные для группы сообщества языковых технологий» . www.w3.org . 26 июня 2015 г. Проверено 13 мая 2020 г.
  10. ^ «Группа сообщества Ontology-Lexica» . www.w3.org . 10 мая 2016 года . Проверено 13 мая 2020 г.
  11. ^ «Лингвистические связанные открытые данные» .
  12. ^ «TEI: Инициатива по кодированию текста» . tei-c.org . Проверено 13 мая 2020 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 7120814932e2e090351398800f73a348__1699406340
URL1:https://arc.ask3.ru/arc/aa/71/48/7120814932e2e090351398800f73a348.html
Заголовок, (Title) документа по адресу, URL1:
Language resource - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)