Лингвистические связанные открытые данные

В области обработки естественного языка , лингвистики и смежных областей лингвистические связанные открытые данные (LLOD) описывают метод и междисциплинарное сообщество, занимающееся созданием, совместным использованием и (повторным) использованием языковых ресурсов в соответствии с принципами связанных данных . Облако лингвистических связанных открытых данных было задумано и поддерживается Рабочей группой по открытой лингвистике (OWLG) Фонда открытых знаний оно стало центром внимания нескольких групп сообщества W3C , но с тех пор , исследовательских проектов и инфраструктурных усилий.

и Определение развитие

Лингвистические связанные открытые данные описывают публикацию данных для лингвистики и обработки естественного языка с использованием следующих принципов: ^[1]

Данные должны лицензироваться открыто с использованием таких лицензий, как лицензии Creative Commons .
Элементы набора данных должны быть однозначно идентифицированы посредством URI .
URI должен разрешиться, чтобы пользователи могли получить доступ к дополнительной информации с помощью веб-браузеров.
Разрешение ресурса LLOD должно возвращать результаты с использованием веб-стандартов, таких как платформа описания ресурсов (RDF).
ссылки на другие ресурсы, чтобы помочь пользователям находить новые ресурсы и предоставлять семантику. Должны быть включены

Основные преимущества LLOD были определены как: ^[2]

Представление. Связанные графики — это более гибкий формат представления лингвистических данных.
Совместимость: общие модели RDF можно легко интегрировать.
Федерация: данные из нескольких источников можно легко объединить.
Экосистема: инструменты для RDF и связанных данных широко доступны по лицензиям с открытым исходным кодом.
Выразительность: существующие словари помогают выражать лингвистические ресурсы.
Семантика: общие ссылки выражают то, что вы имеете в виду.
Динамичность: веб-данные можно постоянно улучшать.

Облачная диаграмма LLOD находится на сайте лингвистического-lod.org. ^[3]

Словари LLOD [ править ]

Помимо сбора метаданных и создания облачной диаграммы LLOD, сообщество LLOD способствует разработке стандартов сообщества в отношении словарей, метаданных и рекомендаций по передовому опыту.

Согласно современному обзору Cimiano et al. (2020), ^[4] к ним относятся:

для моделирования лексических ресурсов
- OntoLex-Lemon , стандарт сообщества для лексических ресурсов (машиночитаемые словари, многоязычная терминология, лексикализация онтологий) ^[5]
для моделирования лингвистических аннотаций (в корпусе или НЛП)
- Веб-аннотации — стандарт W3C для аннотирования веб-ресурсов (текстовых или иных). ^[6]
- Формат обмена NLP (NIF), стандарт сообщества для грамматических аннотаций текста. ^[7]
- CoNLL-RDF, словарь на основе NIF для представления корпусов RDF в обычных форматах TSV («CoNLL»). ^[8]
- POWLA, словарь для общих лингвистических структур данных, который можно использовать в дополнение к NIF, CoNLL-RDF или веб-аннотациям. ^[9]
для категорий лингвистических данных
- Онтологии лингвистических аннотаций (OLiA) для лингвистических аннотаций ^[10]
- lexinfo для грамматических и других функций в лексических ресурсах ^[11]
для идентификации языка
- в виде строк с языковыми тегами с использованием языковых тегов IETF BCP 47.
- с URI ISO 639-3, предоставленными lexvo.org ^[12]
- с URI Glottolog для разновидностей языка, не охваченных ISO 639
для метаданных
- Dublin Core — стандарт терминов сообщества, который можно использовать для описания веб-ресурсов.
- Словарь каталога данных (DCAT), стандарт W3C для каталогов данных, публикуемых в Интернете. ^[13]
- METASHARE-OWL, словарь метаданных языковых ресурсов. ^[14]

По состоянию на середину 2020 года над большинством этих стандартов сообщества активно работают. Особенно проблематичным является существование множества несовместимых стандартов лингвистических аннотаций, и в начале 2020 года группа сообщества W3C «Связанные данные для языковых технологий» начала работать над консолидацией этих (и других) словарей для лингвистических аннотаций в сети. ^[15]

Сообщество [ править ]

Облачная диаграмма LLOD была разработана и поддерживается Рабочей группой по открытой лингвистике (OWLG) Фонда открытых знаний (с 2014 года — Открытое знание), открытой междисциплинарной группы экспертов по языковым ресурсам.

OWLG организует общественные мероприятия, координирует разработки LLOD и способствует междисциплинарному общению между участниками и пользователями LLOD.

Несколько бизнес-групп и общественных групп W3C сосредоточены на специализированных аспектах LLOD:

Группа сообщества W3C Ontology-Lexica ( OntoLex ) разрабатывает и поддерживает спецификации машиночитаемых словарей в облаке LLOD.
Группа сообщества W3C «Лучшие практики для многоязычных связанных открытых данных» собирает информацию о лучших практиках создания многоязычных связанных открытых данных. ^[16]
Группа сообщества W3C «Связанные данные для языковых технологий» собирает пользовательские сценарии и требования к приложениям языковых технологий, использующим связанные данные. ^[17]

Развитие LLOD продвигается и документируется в серии международных семинаров, дататоннов и связанных с ними публикаций. Среди прочего, к ним относятся

Связанные данные в лингвистике (LDL), ежегодный научный семинар, начался в 2012 г.
Многоязычные связанные открытые данные для предприятий (MLODE), собрание сообщества, проводимое два раза в год (2012 и 2014 гг.)
Летний дататон по лингвистическим связанным открытым данным (SD-LLOD), дататон, проводимый раз в два года, с 2015 г.

Применение LLOD [ править ]

Лингвистические связанные открытые данные применяются для решения ряда научных исследовательских задач:

Во всех областях эмпирической лингвистики, компьютерной филологии и обработки естественного языка лингвистические аннотации и лингвистическая разметка представляют собой центральные элементы анализа. Однако прогрессу в этой области препятствуют проблемы совместимости , в первую очередь различия в словарях и схемах аннотаций, используемых для разных ресурсов и инструментов. Использование связанных данных для соединения языковых ресурсов и хранилищ онтологий / терминологии облегчает повторное использование общих словарей и их интерпретацию на общей основе.
В корпусной лингвистике и компьютерной филологии перекрывающаяся разметка представляет собой общеизвестную проблему для традиционных форматов XML . Таким образом, с конца 1990-х годов предлагались модели данных на основе графов. ^[18] Традиционно они представляются в виде нескольких взаимосвязанных XML-файлов (стоящий XML). ^[19] которые плохо поддерживаются стандартной технологией XML. ^[20] Моделирование таких сложных аннотаций, как связанные данные, представляет собой формализм, семантически эквивалентный противостоянию XML. ^[21] но устраняет необходимость в технологиях специального назначения и вместо этого полагается на существующую экосистему RDF.
Многоязычные вопросы, включая связывание лексических ресурсов, таких как WordNet , как это реализовано в Межъязыковом индексе Глобальной ассоциации WordNet, и соединение разнородных ресурсов, таких как WordNet и Arc.Ask3.Ru, как это было сделано в BabelNet .
Предоставление форумов для стандартизации информации о лингвистических ресурсах.

Лингвистические связанные открытые данные тесно связаны с развитием

лучшие практики связывания лексических данных в сети (для данных, опубликованных в соответствии с OntoLex ) соглашениями
лучшие практики создания аннотаций в Интернете (например, использование стандарта веб-аннотаций )
лучшие практики моделирования и совместного использования текстовых ресурсов с перекрывающейся разметкой

исследовательские Избранные проекты

Использование и развитие LLOD стали предметом нескольких крупномасштабных исследовательских проектов, в том числе

ЛОД2. Создание знаний из взаимосвязанных данных (11 стран ЕС + Корея, 2010–2014 гг.) ^[22]
МОННЕ. Многоязычные онтологии для сетевых знаний (5 стран ЕС, 2010–2013 гг.) ^[23]
ЛИДЕР. Связанные данные как инструмент кросс-медийной и многоязычной контент-аналитики для предприятий по всей Европе (5 стран ЕС, 2013–2015 гг.) ^[24]
QTLeap. Качественный перевод с использованием подходов глубокой языковой инженерии (6 стран ЕС, 2013–2016 гг.) ^[25]
ЛиОДи. Связанные открытые словари (Группа исследований ранней карьеры BMBF eHumanities, Университет Гете, Франкфурт, Германия, 2015–2020 гг.) ^[26]
ФРЕМ. Открытая структура электронных услуг для многоязычного и семантического обогащения цифрового контента (6 стран ЕС, 2015–2017 гг.) ^[27]
ПОСТДАННЫЕ. Стандартизация поэзии и связанные открытые данные (стартовый грант ERC, UNED, Испания, 2016–2021 гг.) ^[28]
Linking Latin (Грант ERC Consolidator, Каттолический университет Сакро Куоре, Италия, 2018–2023 гг.) ^[29]
Pret-a-LLOD (5 стран ЕС, 2019–2021 гг.) ^[30]
НексусЛингуарум. Европейская сеть веб-центрированной лингвистической науки о данных (COST Action, 35 стран COST, 2 соседних страны, одна международная страна-партнер, 2019–2023 гг.) ^[31]

Избранные ресурсы [ править ]

По состоянию на октябрь 2018 года 10 наиболее часто связанных ресурсов на диаграмме LLOD (в порядке количества связанных наборов данных):

Онтологии лингвистических аннотаций ( OLiA , связанные с 74 наборами данных) предоставляют справочную терминологию для лингвистических аннотаций и грамматических метаданных;
WordNet (связан с 51 набором данных), лексическая база данных для английского языка и основная для разработки аналогичных баз данных для других языков, с несколькими редакциями (версия для Принстона, связанная с 36 наборами данных; версия W3C, связанная с 8 наборами данных; версия VU, связанная с 7 наборами данных);
DBpedia (связанная с 50 наборами данных) многоязычная база общих мировых знаний, основанная на Википедии;
lexinfo.net (связан с 36 наборами данных) предоставляет справочную терминологию для лексических ресурсов;
BabelNet (связанная с 33 наборами данных) Многоязычная лексикализованная семантическая сеть , основанная на агрегировании различных других ресурсов, в первую очередь WordNet и Википедии;
lexvo.org (связанный с 26 наборами данных) предоставляет идентификаторы языков и другие данные, связанные с языком. Самое главное, что lexvo предоставляет RDF-представление ISO 639-3 для идентификаторов языков и информации об этих языках; трехбуквенных кодов
Реестр категорий данных ISO 12620 (ISOcat; версия RDF, связанная с 10 наборами данных) представляет собой полуструктурированный репозиторий для различной терминологии, связанной с языком. ISOcat размещается Языковым архивом, соответственно проектом DOBES , в Институте психолингвистики Макса Планка , но в настоящее время находится в процессе перехода на CLARIN ;
UBY (RDF-версия лимон-Uby , связанная с 9 наборами данных), лексическая сеть для английского языка, агрегированная из различных лексических ресурсов;
Glottolog (связанный с 7 наборами данных) предоставляет подробные идентификаторы языков с низким уровнем ресурсов, в частности, многие из которых не охвачены lexvo.org;
Викисловарь — на DBpedia ссылки ( wiktionary.dbpedia.org , связанные с 7 наборами данных), лексикализации на основе Викисловаря для концепций DBpedia.
DBnary - это RDF-версия 23 языковых изданий Wikionary .

Аспекты [ править ]

Существует ряд постоянных дискуссий относительно различных аспектов этого термина, его применимости и для определенного типа ресурсов. ^[32]

данные: объем классификация и Лингвистические

Помимо ресурсов, используемых и созданных для лингвистических исследований, облачная диаграмма LLOD также включает онтологии, терминологии и общие базы знаний, развитие которых изначально не было обусловлено интересом к языковым наукам или языковым технологиям, например, DBpedia . В качестве критерия включения в диаграмму LLOD OWLG требует «лингвистической релевантности»: «[Набор данных] является лингвистически релевантным, если он предоставляет или описывает языковые данные, которые могут быть использованы в целях лингвистических исследований или обработки естественного языка». ^[33] Сюда входят лингвистические ресурсы в строгом смысле («условие 1»: аннотированный или иным образом структурированный ресурс, созданный для применения в языковых науках или языковых технологиях, что продемонстрировано, например, научной публикацией в лингвистическом журнале или конференции). , но также и ресурсы, «которые могут быть использованы для аннотирования, обогащения, извлечения или классификации языковых ресурсов... [если их релевантность] может быть проверена путем существования связей между ресурсом (лингвистическая релевантность которого должна быть подтверждена) и ресурсами, выполняющими условие (1)» («условие 2»). ^[34]

Связанным с этим вопросом является классификация лингвистически релевантных наборов данных (или языковых ресурсов в целом). OWLG разработала следующую классификацию диаграммы облаков LLOD: ^[35]

корпус : лингвистически проанализированный набор языковых данных.
лексиконы: лексико-понятийные данные
- Лексические ресурсы : лексиконы и словари
- терминологические базы : терминологии, тезаурусы и базы знаний.
метаданные
- метаданные лингвистического ресурса (метаданные о языковых ресурсах, в том числе цифровых языковых ресурсах и печатных книгах)
- категории лингвистических данных (метаданные о лингвистической терминологии, в т.ч. лингвистические категории , идентификаторы языков)
- типологические базы данных (метаданные об отдельных языках, особенно, лингвистические особенности этих языков)
другое (заполнитель для ресурсов, которые (еще) не классифицированы) ^[1]

Обратите внимание, что в этой классификации терминологические базы могут немного отличаться тем, что они не предоставляют грамматическую информацию, однако, поскольку они формализуют семантические знания, они имеют имманентное значение для задач обработки естественного языка, таких как распознавание именованных объектов или разрешение анафор.

: доступность Открытые данные

LLOD определяется в отношении связанных открытых данных, и ресурсы LLOD ( данные ), таким образом, должны соответствовать лицензиям в соответствии с открытым определением . ^[36] Однако для создания облачной диаграммы LLOD (и диаграммы LOD) это, похоже, еще не применяется, так что техническим критерием является доступность через Интернет и запись метаданных. В OWLG неоднократно обсуждалось, могут ли быть включены некоммерческие (академические) ресурсы при общем консенсусе относительно их допуска на данный момент (2015 г.), но впоследствии с введением более строгих требований вместе с ростом облака LLOD. По состоянию на январь 2018 года еще не было согласовано, когда именно этот шаг должен был произойти. ^[37] По состоянию на январь 2020 года машиночитаемые метаданные лицензий были доступны для 86 ресурсов LLOD, из них 82 принятых открытых лицензий, 4 принятых некоммерческих лицензий. ^[38]

В более широком смысле термин технология LLOD (инфраструктура, инструменты, словари) также может использоваться для обозначения технологии независимо от того, задействованы ли на самом деле открытые ресурсы, например, в названии проекта ЕС Pret-a-LLOD , который включает несколько коммерческие бизнес-кейсы. ^[39] Это оправдано для приложений, которые потребляют (а не предоставляют) открытые данные, но, кроме того, также и тогда, когда технология связанных данных и принятие других соглашений LLOD (особенно использование словарей RDF, разработанных в контексте LLOD) применяются для того, чтобы для облегчения плавной интеграции ресурсов LLOD (открытых ресурсов).

Аббревиатура «LLOD» может использоваться для обозначения как технологии LLOD (использование связанных данных и словарей LLOD, независимо от правового статуса обрабатываемых данных), так и ресурсов LLOD (открытые данные). Для устранения неоднозначности можно использовать термины «ресурсы LLOD» и «технология LLOD». Чтобы подчеркнуть применение или применимость к закрытым ресурсам, также использовалось «LLD» (лингвистические связанные данные). ^[40] Возможным компромиссом является аббревиатура технологии «LL(O)D». Облако «Лицензионных лингвистических связанных данных», содержащее закрытые ресурсы, в настоящее время (июнь 2020 г.) не существует. ^[38]

Связанные данные: форматы [ править ]

Определение связанных данных требует применения RDF или связанных с ним стандартов. Сюда входят рекомендации W3C SPARQL, Turtle, JSON-LD, RDF-XML, RDFa и т. д. Однако в языковых технологиях и лингвистических науках в настоящее время более популярны другие формализмы, и включение таких данных в облачную диаграмму LLOD имеет большое значение. время от времени просили. ^[32] Для нескольких таких языков существуют стандартизованные W3C механизмы упаковки (например, для XML , CSV или реляционных баз данных, см. Извлечение знаний#Извлечение из структурированных источников в RDF ), и такие данные могут быть интегрированы при условии, что соответствующее сопоставление предоставляется вместе с с исходными данными.

Избранная литература [ править ]

Обзорный документ 2022 года:

Анас Фахад Хан; Кристиан Кьяркос; Тьерри Деклерк; и др. (26 сентября 2022 г.). «Когда лингвистика встречается с веб-технологиями. Последние достижения в моделировании лингвистических связанных данных». Семантическая сеть . 13 (6): 987–1050. дои : 10.3233/SW-222859 . ISSN 1570-0844 . Викиданные Q118877323 .

Исчерпывающее описание современного состояния LLOD предоставлено

Чимиано, Филипп; Кьяркос, Кристиан; МакКрэй, Джон П.; Грасия, Хорхе (2020). Лингвистические связанные данные: представление, создание и применение. Международное издательство Спрингер

Концепция облака лингвистически связанных открытых данных была первоначально представлена

Кьяркос, Кристиан, Хеллманн, Себастьян и Нордхофф, Себастьян (2011). На пути к лингвистически связанному облаку открытых данных: Рабочая группа по открытой лингвистике. TAL ( Traitement Automatique des Langues) , 52 (3), 245–275.

Первая книга по этой теме.

Кристиан Кьяркос, Себастьян Нордхофф и Себастьян Хеллманн (ред., 2012 г.). Связанные данные в лингвистике. Представление и соединение языковых данных и языковых метаданных. Спрингер, Гейдельберг.

По данным Чимиано и др. (2020), ^[41] другие плодотворные публикации с тех пор включают

Кристиан Кьяркос, Стивен Моран, Пабло Н. Мендес, Себастьян Нордхофф и Ричард Литтауэр. Создание связанного облака открытых данных лингвистических ресурсов: мотивы и разработки. В книге Ирины Гуревич и Юнги Ким (ред.), «Народная сеть встречается с НЛП». Совместно созданные языковые ресурсы. Springer, Гейдельберг, 2013.
Кристиан Кьяркос, Джон МакКрэй, Филипп Чимиано и Кристиан Феллбаум. На пути к открытым данным для лингвистики: Лексически связанные данные. В книге Алессандро Олтрамари, Пика Воссена, Лу Цинь и Эдуарда Хови (ред.), «Новые тенденции исследований в области онтологий и лексических ресурсов». Спрингер, Гейдельберг, 2013 г.
Хорхе Грасиа, Елена Монтьель-Понсода, Филипп Чимиано, Асунсьон Гомес-Перес, Пол Буителаар и Джон МакКрэй. Проблемы многоязычной сети данных. Журнал веб-семантики, том. 11, с. 63–71. Эльзевир Б.В., 2012 г.

События с 2015 по 2019 год обобщены в сборнике по

Пареха-Лора, Антонио; Похоть, Барбара; Блюм, Мария; Кьяркос, Кристиан (ред., 2020). Разработка лингвистически связанных ресурсов открытых данных для совместных исследований с интенсивным использованием данных в области языковых наук. Массачусетский технологический институт Пресс

Ссылки [ править ]

^ Jump up to: Перейти обратно: ^а ^б Открытая рабочая группа по лингвистике. «Лингвистический ЛОД» . лингвистический-lod.org . Проект ЛИДЕР . Проверено 24 мая 2016 г.
^ Кьяркос, Кристиан; МакКрэй, Джон; Чимиано, Филипп; Феллбаум, Кристиана (2013). На пути к открытым данным для лингвистики: Lexical Linked Data (PDF) . Гейдельберг: В: Алессандро Олтрамари, Пик Воссен, Лу Цинь и Эдуард Хови (ред.), Новые тенденции исследований в онтологиях и лексических ресурсах. Спрингер . Проверено 24 мая 2016 г.
^ «Лингвистически связанные открытые данные. Информация о текущем состоянии растущего облака лингвистически связанных открытых данных» . Проверено 10 декабря 2019 г.
^ Чимиано, Филипп; Кьяркос, Кристиан; МакКрэй, Джон П.; Грасия, Хорхе (2020). Лингвистические связанные данные: представление, создание и применение . Международное издательство Спрингер. ISBN 978-3-030-30224-5 .
^ «Лексиконная модель онтологий: отчет сообщества, 10 мая 2016 г.» . www.w3.org . Проверено 5 июня 2020 г.
^ «Результаты рабочей группы W3C по веб-аннотациям» . w3c.github.io . Проверено 5 июня 2020 г.
^ Хеллманн, Себастьян; Леманн, Йенс; Ауэр, Сёрен; Брюммер, Мартин (2013). «Интеграция НЛП с использованием связанных данных». В Алани, Харит; Кагал, Лалана; Фокуэ, Ахилл; Грот, Пол; Биманн, Крис; Паррейра, Жозиан Ксавье; Аройо, Лора; Ной, Наташа; Велти, Крис (ред.). Семантическая сеть – ISWC 2013, Материалы, часть II . 12-я Международная конференция по семантической сети, Сидней, Новый Южный Уэльс, Австралия, 21–25 октября 2013 г. Конспекты лекций по информатике. Том. 7908. Берлин, Гейдельберг: Springer. стр. 98–113. дои : 10.1007/978-3-642-41338-4_7 . ISBN 978-3-642-41338-4 .
^ Кьяркос, Кристиан; Фет, Кристиан (2017). «CoNLL-RDF: Связанная корпорация, созданная с учетом требований НЛП» . В Грасии, Хорхе; Бонд, Фрэнсис; МакКрэй, Джон П.; Буителаар, Пол; Кьяркос, Кристиан; Хеллманн, Себастьян (ред.). Язык, данные и знания . Конспекты лекций по информатике. Том. 10318. Чам: Springer International Publishing. стр. 74–88. дои : 10.1007/978-3-319-59888-8_6 . ISBN 978-3-319-59888-8 .
^ Кьяркос, Кристиан (2012). «POWLA: Моделирование лингвистического корпуса в OWL/DL». В Симперле, Елена; Чимиано, Филипп; Поллерес, Аксель; Корчо, Оскар; Пресутти, Валентина (ред.). Семантическая сеть: исследования и приложения . Конспекты лекций по информатике. Том. 7295. Берлин, Гейдельберг: Springer. стр. 225–239. дои : 10.1007/978-3-642-30284-8_22 . ISBN 978-3-642-30284-8 .
^ Кьяркос, Кристиан; Сухарева, Мария (01.01.2015). «ОЛиА – Онтологии лингвистической аннотации» . Семантическая сеть . 6 (4): 379–386. дои : 10.3233/SW-140167 . ISSN 1570-0844 . S2CID 5956950 .
^ Чимиано, П.; Буйтелаар, П.; МакКрэй, Дж.; Синтек, М. (01 марта 2011 г.). «LexInfo: декларативная модель интерфейса лексикона-онтологии» . Журнал веб-семантики . 9 (1): 29–51. дои : 10.1016/j.websem.2010.11.001 . ISSN 1570-8268 .
^ де Мело, Жерар (01 января 2015 г.). «Lexvo.org: языковая информация для облака лингвистических связанных данных» . Семантическая сеть . 6 (4): 393–400. дои : 10.3233/SW-150171 . ISSN 1570-0844 .
^ «Словарь каталога данных (DCAT) — версия 2» . www.w3.org . Проверено 5 июня 2020 г.
^ МакКрэй, Джон П.; Лабропулу, Пенни; Грасия, Хорхе; Вильегас, Марта; Родригес-Донсель, Виктор; Чимиано, Филипп (2015). «Одна онтология, которая свяжет их всех: онтология META-SHARE OWL для взаимодействия лингвистических наборов данных в Интернете». В Гандоне, Фабьен; Гере, Кристоф; Виллата, Серена; Бреслин, Джон; Фарон-Цукер, Кэтрин; Циммерманн, Антуан (ред.). Семантическая сеть: сателлиты ESWC 2015 . Конспекты лекций по информатике. Том. 9341. Чам: Springer International Publishing. стр. 271–282. дои : 10.1007/978-3-319-25639-9_42 . ISBN 978-3-319-25639-9 .
^ ld4lt/linguistic-annotation , ld4lt, 19 мая 2020 г. , получено 5 июня 2020 г.
^ «Лучшие практики для группы сообщества многоязычных связанных открытых данных» . 2 октября 2015 г. Проверено 9 декабря 2019 г.
^ «Связанные данные для группы сообщества языковых технологий» . 26 июня 2015 г. Проверено 9 декабря 2019 г.
^ Берд, Стивен; Либерман, Марк. «К формальной структуре лингвистических аннотаций» (PDF) . В: Материалы Международной конференции по обработке разговорной речи, Сидней, 1998 г. Проверено 25 мая 2016 г. ^{[ постоянная мертвая ссылка ]}
^ ИСО 24612:2012. «Управление языковыми ресурсами — Структура лингвистических аннотаций (LAF)» . ИСО . Проверено 25 мая 2016 г. {{cite web}}: CS1 maint: числовые имена: список авторов ( ссылка )
^ Эккарт, Ричард (2008). Выбор базы данных XML для лингвистически аннотированных корпусов . СДВ. Язык и обработка данных 32.1/2008: Международный журнал по обработке языковых данных, Семинар по технологиям баз данных для лингвистических приложений гипермедиа (KONVENS 2008), Universitätsverlag Rhein-Ruhr, Берлин, сентябрь 2008 г., стр. 7–22.
^ Кьяркос, Кристиан. «Взаимодействие Corpora и аннотаций (черновая версия)» (PDF) . В: Кристиан Кьяркос, Себастьян Нордхофф и Себастьян Хеллманн (ред.) Связанные данные в лингвистике. Представление и соединение языковых данных и языковых метаданных, 2012 . Проверено 25 мая 2016 г.
^ «lod2.okfn.org (архивная версия)» . Архивировано из оригинала 7 марта 2014 года . Проверено 9 декабря 2019 г.
^ «Многоязычные онтологии для сетевых знаний (Monnet)» . Европейская комиссия, результаты исследований CORDIS EU . Проверено 10 декабря 2019 г.
^ «ЛИДЕР: Связанные данные как инструмент кросс-медийной и многоязычной контент-аналитики для предприятий по всей Европе» . Европейская комиссия, результаты исследований CORDIS EU . Проверено 10 декабря 2019 г.
^ «Качественный перевод с помощью подходов глубокой языковой инженерии» . Европейская комиссия, результаты исследований CORDIS EU . Проверено 10 декабря 2019 г.
^ «Связанные открытые словари (LiODi)» . Проверено 10 декабря 2019 г.
^ «Открытая структура электронных услуг для многоязычного и семантического обогащения цифрового контента» . Проверено 10 декабря 2019 г.
^ «POSTDATA – Стандартизация поэзии и связанные открытые данные» . Проверено 10 декабря 2019 г.
^ «Связывание латыни. Создание базы знаний лингвистических ресурсов по латыни» . Проверено 10 декабря 2019 г.
^ «Домашняя страница проекта Pret-a-LLOD» . Проверено 10 декабря 2019 г. «Прет-а-Ллод» . Европейская комиссия, результаты исследований CORDIS EU . Проверено 10 декабря 2019 г.
^ «CA18209 — Европейская сеть веб-центрированной лингвистической науки о данных» . расходы. Европейское сотрудничество в области науки и технологий . Проверено 10 декабря 2019 г.
^ Jump up to: Перейти обратно: ^а ^б Историю этих обсуждений можно найти в архивах списка рассылки Open Linguistics, доступных только в качестве резервной копии по адресу https://github.com/open-linguistics/linguistics.okfn.org/tree/master/backup.
^ Чимиано, Филипп; Кьяркос, Кристиан; МакКрэй, Джон П.; Грасия, Хорхе (2020). Лингвистические связанные данные: представление, создание и применение . Международное издательство Спрингер. п. 33. ISBN 978-3-030-30224-5 .
^ Чимиано, Филипп; Кьяркос, Кристиан; МакКрэй, Джон П.; Грасия, Хорхе (2020). Лингвистические связанные данные: представление, создание и применение . Международное издательство Спрингер. стр. 33–34. ISBN 978-3-030-30224-5 .
^ Чимиано, Филипп; Кьяркос, Кристиан; МакКрэй, Джон П.; Грасия, Хорхе (2020). Лингвистические связанные данные: представление, создание и применение . Международное издательство Спрингер. стр. 36ф. ISBN 978-3-030-30224-5 .
^ Кьяркос, Кристиан и Пареха-Лора, Антонио (2020), Открытые данные — Связанные данные — Связанные открытые данные — Лингвистические связанные открытые данные (LLOD): общее введение. В: Пареха-Лора, Антонио; Похоть, Барбара; Блюм, Мария; Кьяркос, Кристиан (ред.). Разработка лингвистически связанных ресурсов открытых данных для совместных исследований с интенсивным использованием данных в области языковых наук . MIT Press, стр. 1-18.
^ «linguistics.okfn.org/003004.html на мастере · open-linguistics/linguistics.okfn.org · GitHub» . Гитхаб . Проверено 5 июня 2020 г.
^ Jump up to: Перейти обратно: ^а ^б Чимиано, Филипп; Кьяркос, Кристиан; МакКрэй, Джон П.; Грасия, Хорхе (2020). Лингвистические связанные данные: представление, создание и применение . Международное издательство Спрингер. п. 37. ИСБН 978-3-030-30224-5 .
^ «Ready-to-LLOD — Веб-сайт проекта Ready-to-LLOD» . Проверено 5 июня 2020 г.
↑ См. название книги Чимиано, Кьяркоса, Грасии, Маккрея (2020). Однако аббревиатура LLD (июнь 2020 г.: 7 однозначных совпадений с учеными Google ), похоже, используется редко по сравнению с LLOD (июнь 2020 г.: 309 однозначных совпадений с учеными Google ).
^ Чимиано, Филипп; Кьяркос, Кристиан; МакКрэй, Джон П.; Грасия, Хорхе (2020). Лингвистические связанные данные: представление, создание и применение . Международное издательство Спрингер. стр. VI. ISBN 978-3-030-30224-5 .

[:1-1] Jump up to: Перейти обратно: ^а ^б Открытая рабочая группа по лингвистике. «Лингвистический ЛОД» . лингвистический-lod.org . Проект ЛИДЕР . Проверено 24 мая 2016 г.

[2] Кьяркос, Кристиан; МакКрэй, Джон; Чимиано, Филипп; Феллбаум, Кристиана (2013). На пути к открытым данным для лингвистики: Lexical Linked Data (PDF) . Гейдельберг: В: Алессандро Олтрамари, Пик Воссен, Лу Цинь и Эдуард Хови (ред.), Новые тенденции исследований в онтологиях и лексических ресурсах. Спрингер . Проверено 24 мая 2016 г.

[3] «Лингвистически связанные открытые данные. Информация о текущем состоянии растущего облака лингвистически связанных открытых данных» . Проверено 10 декабря 2019 г.

[4] Чимиано, Филипп; Кьяркос, Кристиан; МакКрэй, Джон П.; Грасия, Хорхе (2020). Лингвистические связанные данные: представление, создание и применение . Международное издательство Спрингер. ISBN 978-3-030-30224-5 .

[5] «Лексиконная модель онтологий: отчет сообщества, 10 мая 2016 г.» . www.w3.org . Проверено 5 июня 2020 г.

[6] «Результаты рабочей группы W3C по веб-аннотациям» . w3c.github.io . Проверено 5 июня 2020 г.

[7] Хеллманн, Себастьян; Леманн, Йенс; Ауэр, Сёрен; Брюммер, Мартин (2013). «Интеграция НЛП с использованием связанных данных». В Алани, Харит; Кагал, Лалана; Фокуэ, Ахилл; Грот, Пол; Биманн, Крис; Паррейра, Жозиан Ксавье; Аройо, Лора; Ной, Наташа; Велти, Крис (ред.). Семантическая сеть – ISWC 2013, Материалы, часть II . 12-я Международная конференция по семантической сети, Сидней, Новый Южный Уэльс, Австралия, 21–25 октября 2013 г. Конспекты лекций по информатике. Том. 7908. Берлин, Гейдельберг: Springer. стр. 98–113. дои : 10.1007/978-3-642-41338-4_7 . ISBN 978-3-642-41338-4 .

[8] Кьяркос, Кристиан; Фет, Кристиан (2017). «CoNLL-RDF: Связанная корпорация, созданная с учетом требований НЛП» . В Грасии, Хорхе; Бонд, Фрэнсис; МакКрэй, Джон П.; Буителаар, Пол; Кьяркос, Кристиан; Хеллманн, Себастьян (ред.). Язык, данные и знания . Конспекты лекций по информатике. Том. 10318. Чам: Springer International Publishing. стр. 74–88. дои : 10.1007/978-3-319-59888-8_6 . ISBN 978-3-319-59888-8 .

[9] Кьяркос, Кристиан (2012). «POWLA: Моделирование лингвистического корпуса в OWL/DL». В Симперле, Елена; Чимиано, Филипп; Поллерес, Аксель; Корчо, Оскар; Пресутти, Валентина (ред.). Семантическая сеть: исследования и приложения . Конспекты лекций по информатике. Том. 7295. Берлин, Гейдельберг: Springer. стр. 225–239. дои : 10.1007/978-3-642-30284-8_22 . ISBN 978-3-642-30284-8 .

[10] Кьяркос, Кристиан; Сухарева, Мария (01.01.2015). «ОЛиА – Онтологии лингвистической аннотации» . Семантическая сеть . 6 (4): 379–386. дои : 10.3233/SW-140167 . ISSN 1570-0844 . S2CID 5956950 .

[11] Чимиано, П.; Буйтелаар, П.; МакКрэй, Дж.; Синтек, М. (01 марта 2011 г.). «LexInfo: декларативная модель интерфейса лексикона-онтологии» . Журнал веб-семантики . 9 (1): 29–51. дои : 10.1016/j.websem.2010.11.001 . ISSN 1570-8268 .

[12] де Мело, Жерар (01 января 2015 г.). «Lexvo.org: языковая информация для облака лингвистических связанных данных» . Семантическая сеть . 6 (4): 393–400. дои : 10.3233/SW-150171 . ISSN 1570-0844 .

[13] «Словарь каталога данных (DCAT) — версия 2» . www.w3.org . Проверено 5 июня 2020 г.

[14] МакКрэй, Джон П.; Лабропулу, Пенни; Грасия, Хорхе; Вильегас, Марта; Родригес-Донсель, Виктор; Чимиано, Филипп (2015). «Одна онтология, которая свяжет их всех: онтология META-SHARE OWL для взаимодействия лингвистических наборов данных в Интернете». В Гандоне, Фабьен; Гере, Кристоф; Виллата, Серена; Бреслин, Джон; Фарон-Цукер, Кэтрин; Циммерманн, Антуан (ред.). Семантическая сеть: сателлиты ESWC 2015 . Конспекты лекций по информатике. Том. 9341. Чам: Springer International Publishing. стр. 271–282. дои : 10.1007/978-3-319-25639-9_42 . ISBN 978-3-319-25639-9 .

[15] ld4lt/linguistic-annotation , ld4lt, 19 мая 2020 г. , получено 5 июня 2020 г.

[16] «Лучшие практики для группы сообщества многоязычных связанных открытых данных» . 2 октября 2015 г. Проверено 9 декабря 2019 г.

[17] «Связанные данные для группы сообщества языковых технологий» . 26 июня 2015 г. Проверено 9 декабря 2019 г.

[18] Берд, Стивен; Либерман, Марк. «К формальной структуре лингвистических аннотаций» (PDF) . В: Материалы Международной конференции по обработке разговорной речи, Сидней, 1998 г. Проверено 25 мая 2016 г. ^{[ постоянная мертвая ссылка ]}

[19] ИСО 24612:2012. «Управление языковыми ресурсами — Структура лингвистических аннотаций (LAF)» . ИСО . Проверено 25 мая 2016 г. {{cite web}}: CS1 maint: числовые имена: список авторов ( ссылка )

[20] Эккарт, Ричард (2008). Выбор базы данных XML для лингвистически аннотированных корпусов . СДВ. Язык и обработка данных 32.1/2008: Международный журнал по обработке языковых данных, Семинар по технологиям баз данных для лингвистических приложений гипермедиа (KONVENS 2008), Universitätsverlag Rhein-Ruhr, Берлин, сентябрь 2008 г., стр. 7–22.

[21] Кьяркос, Кристиан. «Взаимодействие Corpora и аннотаций (черновая версия)» (PDF) . В: Кристиан Кьяркос, Себастьян Нордхофф и Себастьян Хеллманн (ред.) Связанные данные в лингвистике. Представление и соединение языковых данных и языковых метаданных, 2012 . Проверено 25 мая 2016 г.

[22] «lod2.okfn.org (архивная версия)» . Архивировано из оригинала 7 марта 2014 года . Проверено 9 декабря 2019 г.

[23] «Многоязычные онтологии для сетевых знаний (Monnet)» . Европейская комиссия, результаты исследований CORDIS EU . Проверено 10 декабря 2019 г.

[24] «ЛИДЕР: Связанные данные как инструмент кросс-медийной и многоязычной контент-аналитики для предприятий по всей Европе» . Европейская комиссия, результаты исследований CORDIS EU . Проверено 10 декабря 2019 г.

[25] «Качественный перевод с помощью подходов глубокой языковой инженерии» . Европейская комиссия, результаты исследований CORDIS EU . Проверено 10 декабря 2019 г.

[26] «Связанные открытые словари (LiODi)» . Проверено 10 декабря 2019 г.

[27] «Открытая структура электронных услуг для многоязычного и семантического обогащения цифрового контента» . Проверено 10 декабря 2019 г.

[28] «POSTDATA – Стандартизация поэзии и связанные открытые данные» . Проверено 10 декабря 2019 г.

[29] «Связывание латыни. Создание базы знаний лингвистических ресурсов по латыни» . Проверено 10 декабря 2019 г.

[30] «Домашняя страница проекта Pret-a-LLOD» . Проверено 10 декабря 2019 г. «Прет-а-Ллод» . Европейская комиссия, результаты исследований CORDIS EU . Проверено 10 декабря 2019 г.

[31] «CA18209 — Европейская сеть веб-центрированной лингвистической науки о данных» . расходы. Европейское сотрудничество в области науки и технологий . Проверено 10 декабря 2019 г.

[:0-32] Jump up to: Перейти обратно: ^а ^б Историю этих обсуждений можно найти в архивах списка рассылки Open Linguistics, доступных только в качестве резервной копии по адресу https://github.com/open-linguistics/linguistics.okfn.org/tree/master/backup.

[33] Чимиано, Филипп; Кьяркос, Кристиан; МакКрэй, Джон П.; Грасия, Хорхе (2020). Лингвистические связанные данные: представление, создание и применение . Международное издательство Спрингер. п. 33. ISBN 978-3-030-30224-5 .

[34] Чимиано, Филипп; Кьяркос, Кристиан; МакКрэй, Джон П.; Грасия, Хорхе (2020). Лингвистические связанные данные: представление, создание и применение . Международное издательство Спрингер. стр. 33–34. ISBN 978-3-030-30224-5 .

[35] Чимиано, Филипп; Кьяркос, Кристиан; МакКрэй, Джон П.; Грасия, Хорхе (2020). Лингвистические связанные данные: представление, создание и применение . Международное издательство Спрингер. стр. 36ф. ISBN 978-3-030-30224-5 .

[36] Кьяркос, Кристиан и Пареха-Лора, Антонио (2020), Открытые данные — Связанные данные — Связанные открытые данные — Лингвистические связанные открытые данные (LLOD): общее введение. В: Пареха-Лора, Антонио; Похоть, Барбара; Блюм, Мария; Кьяркос, Кристиан (ред.). Разработка лингвистически связанных ресурсов открытых данных для совместных исследований с интенсивным использованием данных в области языковых наук . MIT Press, стр. 1-18.

[37] «linguistics.okfn.org/003004.html на мастере · open-linguistics/linguistics.okfn.org · GitHub» . Гитхаб . Проверено 5 июня 2020 г.

[Springer_International_Publishing-38] Jump up to: Перейти обратно: ^а ^б Чимиано, Филипп; Кьяркос, Кристиан; МакКрэй, Джон П.; Грасия, Хорхе (2020). Лингвистические связанные данные: представление, создание и применение . Международное издательство Спрингер. п. 37. ИСБН 978-3-030-30224-5 .

[39] «Ready-to-LLOD — Веб-сайт проекта Ready-to-LLOD» . Проверено 5 июня 2020 г.

[40] См. название книги Чимиано, Кьяркоса, Грасии, Маккрея (2020). Однако аббревиатура LLD (июнь 2020 г.: 7 однозначных совпадений с учеными Google ), похоже, используется редко по сравнению с LLOD (июнь 2020 г.: 309 однозначных совпадений с учеными Google ).

[41] Чимиано, Филипп; Кьяркос, Кристиан; МакКрэй, Джон П.; Грасия, Хорхе (2020). Лингвистические связанные данные: представление, создание и применение . Международное издательство Спрингер. стр. VI. ISBN 978-3-030-30224-5 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

и Определение развитие ​