Jump to content

Древесный берег

(Перенаправлено с Penn Treebank )
Большинство синтаксических древовидных банков аннотируют варианты либо структуры фраз (слева), либо структуры зависимостей (справа).

В лингвистике древовидный банк — это проанализированный текстовый корпус , который аннотирует синтаксическую или семантическую структуру предложения . Построение анализируемых корпусов в начале 1990-х произвело революцию в компьютерной лингвистике , которая извлекла выгоду из крупномасштабных эмпирических данных . [ 1 ]

Этимология

[ редактировать ]

Термин «банк деревьев» был придуман лингвистом Джеффри Личем в 1980-х годах по аналогии с другими хранилищами, такими как банк семян или банк крови . [ 2 ] Это связано с тем, что как синтаксическая, так и семантическая структура обычно композиционно представляются в виде древовидной структуры . Термин «разобранный корпус» часто используется как синоним термина «деревобанк», с упором на приоритет предложений, а не деревьев.

Строительство

[ редактировать ]

Древовидные банки часто создаются поверх корпуса, который уже был аннотирован тегами части речи . В свою очередь, деревья иногда дополняются семантической или другой лингвистической информацией. Древовидные банки могут создаваться полностью вручную, когда лингвисты аннотируют каждое предложение синтаксической структурой, или полуавтоматически, когда синтаксический анализатор присваивает некоторую синтаксическую структуру, которую лингвисты затем проверяют и, при необходимости, исправляют. На практике полная проверка и завершение анализа корпусов естественного языка — трудоемкий проект, который может занять у команды дипломированных лингвистов несколько лет. Уровень детализации аннотаций и широта лингвистической выборки определяют сложность задачи и продолжительность времени, необходимого для построения древовидного банка.

Пример дерева структуры фразы « Джон любит Мэри»
Гибридное дерево избирательных округов/зависимостей из Арабского корпуса Корана

Некоторые древовидные банки следуют определенной лингвистической теории в своих синтаксических аннотациях (например, BulTreeBank следует за HPSG ), но большинство стараются быть менее специфичными для теории. Однако можно выделить две основные группы: древовидные банки, которые аннотируют структуру фраз (например, Penn Treebank или ICE-GB ) и те, которые аннотируют структуру зависимостей (например, Prague Dependency Treebank или Quranic Arab Dependency Treebank ).

Важно уточнить различие между формальным представлением и форматом файла, используемым для хранения аннотированных данных. Древовидные банки обязательно строятся по определенной грамматике. Одна и та же грамматика может быть реализована в разных форматах файлов. Например, синтаксический анализ слова «Джон любит Мэри» , показанный на рисунке справа, может быть представлен простыми помеченными скобками в текстовом файле, например :

(S (NP (NNP John))
   (VP (VPZ loves)
       (NP (NNP Mary)))
   (. .))

Этот тип представления популярен, поскольку он требует мало ресурсов, а древовидную структуру относительно легко читать без программных инструментов. Однако, поскольку корпуса становятся все более сложными, предпочтение может отдаваться другим форматам файлов. Альтернативы включают XML- схемы, специфичные для древовидных банков, нумерованные отступы и различные типы обозначений отклонений.

Приложения

[ редактировать ]

Из компьютерной лингвистики [ 3 ] В перспективе древовидные банки использовались для разработки современных систем обработки естественного языка, таких как тегеры частей речи , синтаксические анализаторы , семантические анализаторы и системы машинного перевода. [ 4 ] Большинство вычислительных систем используют древовидные данные золотого стандарта. Однако автоматически анализируемый корпус, который не корректируется лингвистами-людьми, все равно может быть полезен. Это может предоставить анализатору подтверждение частоты правил. Синтаксический анализатор можно улучшить, применяя его к большим объемам текста и собирая частоты правил. Однако должно быть очевидно, что только путем исправления и дополнения корпуса вручную можно выявить правила, отсутствующие в базе знаний синтаксического анализатора. Кроме того, частоты, вероятно, будут более точными.

В корпусной лингвистике древовидные банки используются для изучения синтаксических явлений (например, диахронические корпуса могут использоваться для изучения динамики синтаксических изменений). После анализа корпус будет содержать данные о частоте использования, показывающие, насколько часто используются различные грамматические структуры. Treebanks также предоставляет доказательства освещения и поддерживает открытие новых, неожиданных грамматических явлений.

Еще одно использование деревьев в теоретической лингвистике и психолингвистике - это доказательства взаимодействия. Заполненный древовидный банк может помочь лингвистам проводить эксперименты относительно того, как решение использовать одну грамматическую конструкцию имеет тенденцию влиять на решение сформировать другие, а также попытаться понять, как говорящие и писатели принимают решения при формировании предложений. Исследования взаимодействия особенно плодотворны, когда к корпусу добавляются дополнительные уровни аннотации, например семантические и прагматические. Тогда можно оценить влияние несинтаксических явлений на грамматический выбор.

В лингвистических исследованиях аннотированные данные древовидных структур использовались в синтаксических исследованиях для проверки лингвистических теорий структуры предложений на большом количестве естественных примеров. [ нужна ссылка ]

Семантические древовидные банки

[ редактировать ]

Семантический древовидный банк — это совокупность предложений естественного языка, аннотированных смысловым представлением. Эти ресурсы используют формальное представление семантической структуры каждого предложения . Семантические древовидные банки различаются по глубине своего семантического представления. Ярким примером глубокой семантической аннотации является Гронингенский банк значений , разработанный в Гронингенском университете и аннотированный с использованием теории репрезентации дискурса . Примером мелкого семантического древовидного банка является PropBank , который обеспечивает аннотацию словесных предложений и их аргументов, не пытаясь представить каждое слово в корпусе в логической форме .

Язык Древесный берег Семантический формализм Распространение / Лицензия
китайский Китайские универсальные предложения ПропБанка Семантика CC BY-NC-SA 3.0 США
Английский Банк представления абстрактного значения (AMR) Глубокая семантика ?
Английский ФреймНет Поверхностная семантика ?
Английский Универсальная концептуальная когнитивная аннотация (UCCA) Глубокая семантика ?
Английский Команды робота Treebank [ 5 ] Глубокая семантика ?
Английский Банк значений Гронинген Глубокая семантика разные лицензии
Английский Банк параллельных значений Глубокая семантика разные лицензии
Голландский Банк параллельных значений Глубокая семантика разные лицензии
немецкий Банк параллельных значений Глубокая семантика разные лицензии
итальянский Банк параллельных значений Глубокая семантика разные лицензии
Английский Проект ДипБанк Глубокая семантика ?
Английский Анализируемый корпус семантики Treebank Глубокая семантика ?
Английский Корпус Робокубка Глубокая семантика ?
Английский Геозапрос Глубокая семантика ?
Английский ПропБанк ПропБанка Семантика разные лицензии
финский Финские универсальные предложения ПропБанка Семантика CC BY-NC-SA 3.0 США
финский Финский ПропБанк ПропБанка Семантика CC BY-SA 4.0
Французский Французские универсальные предложения ПропБанка Семантика CC BY-NC-SA 3.0 США
немецкий Немецкие универсальные предложения ПропБанка Семантика CC BY-NC-SA 3.0 США
итальянский Итальянские универсальные предложения ПропБанка Семантика CC BY-NC-SA 3.0 США
португальский Португальский ПортЛекс ПропБанка Семантика ?
португальский Португальские универсальные предложения ПропБанка Семантика CC BY-NC-SA 3.0 США
испанский Испанские универсальные предложения ПропБанка Семантика CC BY-NC-SA 3.0 США
турецкий Турецкий ПропБанк ПропБанка Семантика CC BY-NC-SA 4.0

Синтаксические древовидные банки

[ редактировать ]

Многие синтаксические древовидные банки были разработаны для самых разных языков:

Язык Древесный берег Синтаксический формализм Распространение / Лицензия
Он спрашивает Универсальные зависимости , ATB Зависимость CC BY-SA
Африканский Универсальные зависимости , AfriBooms Зависимость CC BY-SA
аккадский Универсальные зависимости , PISANDUB Зависимость CC BY-SA
албанский Универсальные зависимости , TSA Зависимость CC BY-SA
амхарский Универсальные зависимости , АТТ Зависимость CC BY-SA
Древнегреческий Универсальные зависимости , Персей Зависимость CC BY-NC-SA
Древнегреческий Универсальные зависимости , PROIEL Зависимость CC BY-NC-SA
Греческий (древний) Древнегреческий древовидный банк зависимостей [ 6 ] [ 7 ] Зависимость Открытый исходный код ( лицензия Creative Commons )
Греческий (древний) ПРОИЭЛ Древесный берег [ 8 ] Зависимость Открытый исходный код ( лицензия Creative Commons )
арабский Колумбийский арабский банк деревьев (CATiB) Зависимость Консорциум лингвистических данных
арабский Пражский банк арабских зависимостей (PADT) Зависимость Консорциум лингвистических данных
арабский Универсальные зависимости , NYUAD Зависимость CC BY-SA
арабский Универсальные зависимости , PADT Зависимость CC BY-NC-SA
арабский Универсальные зависимости , PUD Зависимость CC BY-SA
арабский Пенсильванский арабский древовидный банк Структура фразы Консорциум лингвистических данных
Армянский Универсальные зависимости , ArmTDP Зависимость CC BY-SA
Ассирийский (неоарамейский) Универсальные зависимости , AS Зависимость CC BY-SA
Они носят это Универсальные зависимости , CRB Зависимость CC BY-SA
Баскский Универсальные зависимости , BDT Зависимость CC BY-NC-SA
белорусский Универсальные зависимости , НИУ ВШЭ Зависимость CC BY-SA
Бходжпури Универсальные зависимости , BhEn Зависимость CC BY-SA
Бходжпури Универсальные зависимости , BHTB Зависимость CC BY-SA
бретонский Универсальные зависимости , KEB Зависимость CC BY-SA
болгарский Универсальные зависимости , BTB Зависимость CC BY-NC-SA
болгарский БыкДеревоБанк ГПСГ Свободно доступен для исследования
Buryat Универсальные зависимости , BDT Зависимость CC BY-SA
Кантонский диалект Универсальные зависимости , Гонконг Зависимость CC BY-SA
каталонский Cat3LB Структура фразы Свободно доступен для исследования
каталонский Универсальные зависимости , AnCora Зависимость лицензия GPL
китайский Синица Трибэнк Падежная грамматика Нет в свободном доступе
китайский Универсальные зависимости , КЛЛ Зависимость CC BY-SA
китайский Универсальные зависимости , GSD Зависимость CC BY-SA
китайский Универсальные зависимости , GSDSimp Зависимость CC BY-SA
китайский Универсальные зависимости , Гонконг Зависимость CC BY-SA
китайский Универсальные зависимости , PUD Зависимость CC BY-SA
китайский Пенн-Чайнас-Трибанк Структура фразы Консорциум лингвистических данных
китайский Дерево китайской зависимости Зависимость Консорциум лингвистических данных
арабский (классический) Древовидное дерево зависимостей Корана на арабском языке (QADT) ( Коран на арабском языке ) Зависимость Открытый исходный код ( общедоступная лицензия GNU )
Классический армянский ПРОИЭЛ Древесный берег [ 8 ] Зависимость Открытый исходный код ( лицензия Creative Commons )
Коптский Универсальные зависимости , Коптский скрипторий Зависимость CC BY
хорватский Древовидный банк хорватской зависимости Зависимость Открытый исходный код ( лицензия Creative Commons )
хорватский Универсальные зависимости , SET Зависимость CC BY-SA
чешский Пражский банк зависимостей Зависимость Открытый исходный код ( лицензия Creative Commons )
чешский Универсальные зависимости , CAC Зависимость CC BY-SA
чешский Универсальные зависимости , CLTT Зависимость CC BY-SA
чешский Универсальные зависимости , FicTree Зависимость CC BY-NC-SA
чешский Универсальные зависимости , PDT Зависимость CC BY-NC-SA
чешский Универсальные зависимости , PUD Зависимость CC BY-SA
датский Датский банк зависимостей Зависимость Открытый исходный код ( общедоступная лицензия GNU )
датский Дендрарий: синтаксический древовидный корпус датского языка. Структура фразы Лицензионный сбор
датский Универсальные зависимости , ДДТ Зависимость CC BY-SA
датский Универсальные зависимости , DTB Зависимость CC BY-SA
Голландский Разговорный голландский корпус (CGN) Структура фразы Лицензионный сбор
Голландский Универсальные зависимости , Alpino Зависимость CC BY-SA
Голландский Универсальные зависимости , LassySmall Зависимость CC BY-SA
Голландский ЛАССИ Маленький и Большой Зависимость Лицензионный сбор
Голландский Альпийский Трибэнк Зависимость Открытый исходный код ( общедоступная лицензия GNU )
Английский CCGбанк Комбинаторная категориальная грамматика Консорциум лингвистических данных
Английский LinGO Редвудс ГПСГ ?
Английский Ланкастерский анализируемый корпус Структура фразы ?
Английский Прага English Dependency Treebank Зависимость Консорциум лингвистических данных
Английский Универсальные зависимости , BhEn Зависимость CC BY-SA
Английский Универсальные зависимости , ESL Зависимость CC BY-SA
Английский Универсальные зависимости , EWT Зависимость CC BY-SA
Английский Универсальные зависимости , ГУМ Зависимость CC BY-NC-SA
Английский Универсальные зависимости , ГУМРеддит Зависимость CC BY
Английский Универсальные зависимости , LineES Зависимость CC BY-NC-SA
Английский Универсальные зависимости , ParTUT Зависимость CC BY-NC-SA
Английский Универсальные зависимости , Местоимения Зависимость CC BY-SA
Английский Универсальные зависимости , PUD Зависимость CC BY-SA
Английский Анализируемый корпус семантики Treebank Структура фразы Открытый исходный код ( лицензия Creative Commons )
Английский Кристина Боди Структура фразы Свободно доступен для исследования
Английский Люси Корпус Структура фразы Свободно доступен для исследования
Английский Сюзанна Корпус Структура фразы Свободно доступен для исследования
Английский Корпус BLLIP WSJ Структура фразы Консорциум лингвистических данных
Английский Тюбингенский древовидный банк английского языка / спонтанной речи (TüBa-E/S) ГПСГ Свободно доступен для исследования
Английский Диахронический корпус современного разговорного английского языка (DCPSE) Структура фразы Лицензионный сбор
Английский Британский компонент Международного корпуса английского языка (ICE-GB) Структура фразы Лицензионный сбор
Английский Банк зависимостей PARC 700 Зависимость ?
Английский Древовидный банк запросов Yahoo Зависимость Свободно доступен для исследования
Английский Пенн Трибэнк Структура фразы Консорциум лингвистических данных
Английский Мульти-Трибанк Структура фразы Доступно онлайн для сравнения
Английский CHILDES Корпус Brown Eve с аннотацией зависимостей Зависимость Открытый исходный код ( лицензия Creative Commons )
Английский SMULTRON - Параллельный Treebank EN-DE-SV Структура фразы Свободно доступен для исследования
Эрзя Универсальные зависимости , JR Зависимость CC BY-SA
эстонский Древесник Структура фразы ?
эстонский Синтаксически проанализированный и устраненный неоднозначность текстовый корпус Зависимость Свободно доступен для исследования
эстонский Универсальные зависимости , EDT Зависимость CC BY-NC-SA
эстонский Универсальные зависимости , EWT Зависимость CC BY-NC-SA
фарерский Универсальные зависимости , FarPaHC Зависимость CC BY-SA
фарерский Универсальные зависимости , OFT Зависимость CC BY-SA
финский Древовидный банк зависимостей Турку (TDT) Зависимость Открытый исходный код ( лицензия Creative Commons )
финский Универсальные зависимости , FTB Зависимость CC BY
финский Универсальные зависимости , PUD Зависимость CC BY-SA
финский Универсальные зависимости , TDT Зависимость CC BY-SA
французский (разговорный) Рапсодия Зависимость и макросинтаксическая аннотация Открытый исходный код ( лицензия Creative Commons )
Французский Беседка Структура фразы ?
Французский Универсальные зависимости , CrapBank Зависимость CC BY-SA
Французский Универсальные зависимости , FQB Зависимость лицензия GPL
Французский Универсальные зависимости , FTB Зависимость лицензия GPL
Французский Универсальные зависимости , GSD Зависимость CC BY-SA
Французский Универсальные зависимости , ParTUT Зависимость CC BY-NC-SA
Французский Универсальные зависимости , PUD Зависимость CC BY-SA
Французский Универсальные зависимости , Секвойя Зависимость лицензия GPL
Французский Универсальные зависимости , разговорная речь Зависимость CC BY-SA
Французский Французский древовидный банк Структура фразы Свободно доступен для исследования
Французский Бесплатный французский Treebank Структура фразы Лицензия с открытым исходным кодом LGPL-LR
Французский Секвойя Древесный Банк Структура фразы и зависимость Лицензия с открытым исходным кодом LGPL-LR
галисийский Универсальные зависимости , CTG Зависимость CC BY-NC-SA
галисийский Универсальные зависимости , TreeGal Зависимость лицензия GPL
немецкий Древовидный банк зависимостей Гамбурга (HDT) Зависимость Свободно доступен для исследования
немецкий Универсальные зависимости , GSD Зависимость CC BY-SA
немецкий Универсальные зависимости , LIT Зависимость CC BY-NC-SA
немецкий Универсальные зависимости , PUD Зависимость CC BY-SA
немецкий SMULTRON - Параллельный Treebank EN-DE-SV Структура фразы Свободно доступен для исследования
немецкий ЧЕРНЫЙ Структура фразы Свободно доступен для исследования
немецкий ТИГР Структура фразы Свободно доступен для исследования
немецкий Тюбингенский древовидный банк немецкой/спонтанной речи (TüBa-D/S) Структура фразы Свободно доступен для исследования
немецкий Тюбингенский древобанк письменного немецкого языка (TüBa-D/Z) Структура фразы Свободно доступен для исследования
немецкий Тюбингенский частично разобранный корпус письменного немецкого языка (TüPP-D/Z) Структура фразы Лицензионный сбор
Готика ПРОИЭЛ Древесный берег [ 8 ] Зависимость Открытый исходный код ( лицензия Creative Commons )
Готика Универсальные зависимости , PROIEL Зависимость CC BY-NC-SA
Греческий Дерево зависимостей Греции Зависимость Нет в свободном доступе
Греческий Универсальные зависимости , GDT Зависимость CC BY-NC-SA
иврит Универсальные зависимости , HTB Зависимость CC BY-NC-SA
иврит Древовидное дерево зависимостей на иврите Зависимость Открытый исходный код ( общедоступная лицензия GNU )
Не английский Универсальные зависимости , HIENCS Зависимость CC BY-SA
Неа Универсальные зависимости , HDTB Зависимость CC BY-NC-SA
Неа Универсальные зависимости , PUD Зависимость CC BY-SA
Неа АннКорра Зависимость ?
английский (исторический) Penn Parsed Corpora исторического английского языка ; Структура фразы Консорциум лингвистических данных (по состоянию на апрель 2020 г.)
английский (исторический) Анализируемый корпус древнеанглийской прозы Йорка-Торонто-Хельсинки (YCOE) Структура фразы Свободно доступен для исследования
Французский (исторический) Корпус MCVF Структура фразы Свободно доступен для исследования
Португальский (исторический) Тело Тихо Браге Структура фразы ?
венгерский Универсальные зависимости , Сегед Зависимость CC BY-NC-SA
венгерский Венгерский древовидный банк Структура фразы ?
исландский IcePaHC - анализируемый исторический корпус исландского языка Структура фразы Открытый исходный код ( GNU Lesser General Public License )
исландский Универсальные зависимости , IcePaHC Зависимость CC BY-SA
исландский Универсальные зависимости , PUD Зависимость CC BY-SA
индонезийский Универсальные зависимости , GSD Зависимость CC BY-SA
индонезийский Универсальные зависимости , PUD Зависимость CC BY-SA
индонезийский ИКОНА Структура фразы ?
ирландский Универсальные зависимости , IDT Зависимость CC BY-SA
итальянский ISST - Итальянский синтаксически-семантический древовидный банк Структура фразы и зависимость Лицензионный сбор
итальянский MIDT (Объединенный древовидный банк итальянских зависимостей), возникший в результате слияния и гармонизации древовидных банков TUT и ISST-CoNLL/TANL. зависимость Свободно доступен для исследования
итальянский VIT - Итальянский Treebank в Венеции Структура фразы и зависимость Лицензионный сбор
итальянский Универсальные зависимости , ISDT Зависимость CC BY-NC-SA
итальянский Универсальные зависимости , ParTUT Зависимость CC BY-NC-SA
итальянский Универсальные зависимости , PoSTWITA Зависимость CC BY-NC-SA
итальянский Универсальные зависимости , PUD Зависимость CC BY-SA
итальянский Универсальные зависимости , Твиттер Зависимость CC BY-SA
итальянский Универсальные зависимости , VIT Зависимость CC BY-NC-SA
итальянский Итальянский синтаксически-семантический древовидный банк для общей задачи CoNLL-2007 (ISST-CoNLL) зависимость Свободно доступен для исследования
итальянский SUT - Treebank Сиенского университета ? ?
итальянский TUT - Древовидный банк Туринского университета Зависимость Открытый исходный код ( лицензия Creative Commons )
итальянский ISDT (Итальянский Стэнфордский банк зависимостей) зависимость Свободно доступен для исследования
японский Киотский текстовый корпус ? ?
японский Универсальные зависимости , BCCWJ Зависимость CC BY-NC-SA
японский Универсальные зависимости , GSD Зависимость CC BY-SA
японский Универсальные зависимости , KTC Зависимость CC BY-SA
японский Универсальные зависимости , Современность Зависимость CC BY-NC-ND
японский Универсальные зависимости , PUD Зависимость CC BY-SA
японский Кейаки Древесный берег Структура фразы Открытый исходный код ( лицензия Creative Commons )
японский Тюбингенский древовидный банк японской/спонтанной речи (TüBa-J/S) Структура фразы Свободно доступен для исследования
японский Корпус зависимостей ATR Зависимость ?
карельский Универсальные зависимости , ККПП Зависимость CC BY-SA
казахский Универсальные зависимости , KTB Зависимость CC BY-SA
Коми пермяк Универсальные зависимости , хм Зависимость CC BY-SA
Коми Зырян Универсальные зависимости , ИКДП Зависимость CC BY-SA
Коми Зырян Универсальные зависимости , Решетка Зависимость CC BY-SA
корейский Универсальные зависимости , GSD Зависимость CC BY-SA
корейский Универсальные зависимости , Кейст Зависимость CC BY-SA
корейский Универсальные зависимости , Пенн. Зависимость CC BY-SA
корейский Универсальные зависимости , PUD Зависимость CC BY-SA
корейский Универсальные зависимости , Седжон Зависимость CC BY-SA
корейский Корейский древовидный банк Структура фразы Консорциум лингвистических данных
Курманджи Универсальные зависимости , MG Зависимость CC BY-SA
латинский Универсальные зависимости , ITTB Зависимость CC BY-NC-SA
латинский Универсальные зависимости , ОООТ Зависимость CC BY-SA
латинский Универсальные зависимости , Персей Зависимость CC BY-NC-SA
латинский Универсальные зависимости , PROIEL Зависимость CC BY-NC-SA
латинский Индекс Томистического дерева Зависимость Открытый исходный код ( лицензия Creative Commons )
латинский ПРОИЭЛ Древесный берег [ 8 ] Зависимость Открытый исходный код ( лицензия Creative Commons )
латинский Латинский древовидный банк зависимостей [ 9 ] Зависимость Открытый исходный код ( лицензия Creative Commons )
латышский Универсальные зависимости , LVTB Зависимость CC BY-SA
литовский Универсальные зависимости , АЛКСНИС Зависимость CC BY-SA
литовский Универсальные зависимости , НИУ ВШЭ Зависимость CC BY-SA
Жить Универсальные зависимости , ККПП Зависимость CC BY-SA
Сильнее Универсальные зависимости , MGTB Зависимость CC BY-SA
мальтийский Универсальные зависимости , MUDT Зависимость CC BY-SA
Маратхи Универсальные зависимости , UFAL Зависимость CC BY-SA
Мбья Гуарани Универсальные зависимости , Дули Зависимость CC BY-NC-SA
Мбья Гуарани Универсальные зависимости , Томас Зависимость CC BY-NC-SA
Среднеирландский Универсальные зависимости , CritMITB Зависимость CC BY-SA
Среднеирландский Универсальные зависимости , DipMITB Зависимость CC BY-SA
Мокша Универсальные зависимости , JR Зависимость CC BY-SA
Найджа Универсальные зависимости , NSC Зависимость CC BY-SA
Северосаамские Универсальные зависимости , Джелла Зависимость CC BY-SA
норвежский Древовидная инфраструктура INESS свалочный газ ?
норвежский Универсальные зависимости , Bokmaal Зависимость CC BY-SA
норвежский Универсальные зависимости , Нюнорск Зависимость CC BY-SA
норвежский Универсальные зависимости , NynorskLIA Зависимость CC BY-SA
Староцерковнославянский Универсальные зависимости , PROIEL Зависимость CC BY-NC-SA
Староцерковнославянский ТОРОТ Древесный берег [ 8 ] Зависимость Открытый исходный код ( лицензия Creative Commons )
Старый французский Универсальные зависимости , SRCMF Зависимость CC BY-NC-SA
Старый русский Универсальные зависимости , RNC Зависимость CC BY-SA
Старый русский Универсальные зависимости , ТОРОТ Зависимость CC BY-NC-SA
Старый русский ТОРОТ Древесный берег [ 8 ] Зависимость Открытый исходный код ( лицензия Creative Commons )
персидский Древовидный банк персидских зависимостей (PerDT) Зависимость Свободно доступен для исследования
персидский Пертрибанк ГПСГ Свободно доступен для исследования
персидский Универсальные зависимости , Сераджи Зависимость CC BY-SA
Польский Treebank / Тестовый набор для польского языка ГПСГ ?
Польский Универсальные зависимости , LFG Зависимость лицензия GPL
Польский Универсальные зависимости , PDB Зависимость CC BY-NC-SA
Польский Универсальные зависимости , PUD Зависимость CC BY-SA
Польский Репозиторий Структура фразы и зависимость Открытый исходный код ( общедоступная лицензия GNU )
португальский Универсальные зависимости , Боске Зависимость CC BY-SA
португальский Универсальные зависимости , GSD Зависимость CC BY-SA
португальский Универсальные зависимости , PUD Зависимость CC BY-SA
португальский Проект синта(к)тического леса Зависимость , Структура фразы Открытый исходный код ( общедоступная лицензия GNU )
румынский Румынский древовидный банк зависимостей Зависимость ?
румынский Универсальные зависимости , Нестандартные Зависимость CC BY-SA
румынский Универсальные зависимости , RRT Зависимость CC BY-SA
румынский Универсальные зависимости , SiMoNERo Зависимость CC BY-SA
Русский Универсальные зависимости , GSD Зависимость CC BY-SA
Русский Универсальные зависимости , PUD Зависимость CC BY-SA
Русский Универсальные зависимости , СинТагРус Зависимость CC BY-NC-SA
Русский Универсальные зависимости , Тайга Зависимость CC BY-SA
Русский Древовидный банк зависимостей SynTagRus ( Национальный корпус русского языка ) Зависимость Свободно доступен для исследования
санскрит Универсальные зависимости , UFAL Зависимость CC BY-SA
санскрит Универсальные зависимости , Ведические Зависимость CC BY-SA
Шотландский гэльский Универсальные зависимости , ARCOSG Зависимость CC BY-SA
сербский Универсальные зависимости , SET Зависимость CC BY-SA
Синдхи Универсальные зависимости , МажарДотио Зависимость CC BY-SA
Skolt Sami Универсальные зависимости , Джеллагас Зависимость CC BY-SA
словацкий Универсальные зависимости , SNK Зависимость CC BY-SA
Словенский Словенский древовидный банк зависимости Зависимость Свободно доступен для исследования
словенский Универсальные зависимости , SSJ Зависимость CC BY-NC-SA
словенский Универсальные зависимости , SST Зависимость CC BY-NC-SA
испанский Cast3LB Структура фразы и зависимость Свободно доступен для исследования
испанский Универсальные зависимости , AnCora Зависимость лицензия GPL
испанский Универсальные зависимости , GSD Зависимость CC BY-SA
испанский Универсальные зависимости , PUD Зависимость CC BY-SA
испанский UAM Treebank испанского языка Структура фразы Свободно доступен для исследования
Шведский Талбанкен05 Структура фразы и зависимость Свободно доступен для исследования
Шведский Шведский древовидный банк Структура фразы Свободно доступен для исследования
Шведский Универсальные зависимости , LineES Зависимость CC BY-NC-SA
Шведский Универсальные зависимости , PUD Зависимость CC BY-SA
Шведский Универсальные зависимости , Тальбанкен Зависимость CC BY-SA
Шведский SMULTRON - Параллельный Treebank EN-DE-SV Структура фразы Свободно доступен для исследования
Шведский язык жестов Универсальные зависимости , SSLC Зависимость CC BY-SA
швейцарский немецкий Universal Dependencies , UZH Зависимость CC BY-SA
Тагальский Универсальные зависимости , TRG Зависимость CC BY-SA
Тагальский Универсальные зависимости , отношения Зависимость CC BY-NC-SA
тамильский Универсальные зависимости , TTB Зависимость CC BY-NC-SA
телугу Универсальные зависимости , MTG Зависимость CC BY-SA
тайский NAiST Thai Treebank Зависимость Открытый исходный код ( общедоступная лицензия GNU )
тайский Универсальные зависимости , PUD Зависимость CC BY-SA
тайский ТТТБ Структура фразы CC BY 4.0
турецкий METU-Sabanci Турецкий Treebank Зависимость Свободно доступен для исследования
турецкий Универсальные зависимости , BOUN Зависимость CC BY-SA
турецкий Универсальные зависимости , ГБ Зависимость CC BY-SA
турецкий Универсальные зависимости , IMST Зависимость CC BY-NC-SA
турецкий Универсальные зависимости , PUD Зависимость CC BY-SA
Украинский Институт украинского языка, НПО Золотой стандарт Зависимость Открытый исходный код ( лицензия Creative Commons )
Украинский Универсальные зависимости , МЕ Зависимость CC BY-NC-SA
Верхнелужский Универсальные зависимости , UFAL Зависимость CC BY-SA
урду ИСПРАВЛЕНО Структура фразы Контакты в разделе «Стратегии и практики вычислительного обучения»
урду Древовидный банк URDU.KON-TB Фраза и структура гиперзависимости Контакты в разделе «Стратегии и практики вычислительного обучения»
урду Универсальные зависимости , UDTB Зависимость CC BY-NC-SA
уйгурский Универсальные зависимости , UDT Зависимость CC BY-SA
вьетнамский Универсальные зависимости , ВТБ Зависимость CC BY-SA
вьетнамский Вьетнамский древовидный банк Структура фразы Свободно доступен для исследования
вьетнамский Древесный банк вьетнамской зависимости Зависимость Свободно доступен для исследования
Варлпири Универсальные зависимости , UFAL Зависимость CC BY-SA
валлийский Универсальные зависимости , CCG Зависимость CC BY-SA
Волоф Универсальные зависимости , WTB Зависимость CC BY-SA
Йоруба Универсальные зависимости , YTB Зависимость CC BY-SA

Чтобы облегчить дальнейшие исследования многоязычных задач, некоторые исследователи обсудили универсальную схему аннотаций для разных языков. Таким образом, люди пытаются использовать или объединить преимущества различных древовидных корпораций. Например, Универсальный подход к аннотациям для банков деревьев зависимостей; [ 10 ] и универсальный подход к аннотациям для древовидных банков фразовой структуры. [ 11 ]

Инструменты поиска

[ редактировать ]

Одним из ключевых способов извлечения доказательств из дерева является использование инструментов поиска. Инструменты поиска для проанализированных корпусов обычно зависят от схемы аннотаций, примененной к корпусу. Пользовательские интерфейсы варьируются по сложности: от систем запросов на основе выражений, предназначенных для программистов, до полноценных исследовательских сред, предназначенных для лингвистов общего профиля. Уоллис (2008) подробно обсуждает принципы поиска на деревьях и анализирует современное состояние техники того времени. [ 12 ]

См. также

[ редактировать ]
  1. ^ Александр Кларк, Крис Фокс и Шалом Лаппин (2010). Справочник по компьютерной лингвистике и обработке естественного языка. Уайли.
  2. ^ Сэмпсон, Г. (2003) «Размышления дендрографа». В А. Уилсоне, П. Рэйсоне и Т. МакЭнери (ред.) Корпус лингвистики Lune: Festschrift для Джеффри Лича, Франкфурт-на-Майне: Питер Ланг, стр. 157-184.
  3. Хайтао Лю, Вэй Хуан — Китайский синтаксис зависимости для древовидных банков , опубликовано Китайским университетом связи , опубликовано (онлайн) Ассоциацией компьютерной лингвистики — по состоянию на 4 февраля 2020 г.
  4. ^ Кюблер, Сандра; Макдональд, Райан; Нивре, Йоаким (18 декабря 2008 г.). «Разбор зависимостей». Обобщающие лекции по технологиям человеческого языка . 2 (1): 1–127. дои : 10.2200/s00169ed1v01y200901hlt002 .
  5. ^ Кейс Дьюкс (2013) Семантическая аннотация пространственных команд роботов . Конференция по языку и технологиям (LTC). Познань, Польша.
  6. ^ Челано, Джузеппе Г.А. 2014. Рекомендации по аннотированию древовидного банка зависимостей Древней Греции 2.0. https://github.com/PerseusDL/treebank_data/edit/master/AGDT2/guidelines
  7. ^ Мамбрини, Ф. 2016. Древнегреческий древовидный банк зависимостей: лингвистическая аннотация в учебной среде. В: Бодар, Г. и Романелло, М. (ред.) Цифровая классика за пределами эхо-камеры: преподавание, обмен знаниями и взаимодействие с общественностью, стр. 83–99. Лондон: Ubiquity Press. два : 10.5334/bat.f
  8. ^ Перейти обратно: а б с д и ж Даг Хауг. 2015. Деревья в исторических лингвистических исследованиях. В Карлотте Вити (ред.), Перспективы исторического синтаксиса, Бенджаминс, 188–202. Препринт доступен по адресу http://folk.uio.no/daghaug/historical-treebanks.pdf .
  9. ^ Бэмман Дэвид и др. 2008. Рекомендации по синтаксической аннотации латинских деревьев (версия 1.3). http://nlp.perseus.tufts.edu/syntax/treebank/1.3/docs/guidelines.pdf
  10. ^ Макдональд, Р.; Нивр Дж., Кирмбах-Брандейдж Ю.; и др. «Универсальная аннотация зависимостей для многоязычного анализа». Материалы ACL 2013 . {{cite conference}}: CS1 maint: несколько имен: список авторов ( ссылка )
  11. ^ Хан, AL-F; Вонг, Д.Ф.; Чао, Л.С.; Лу, Ю.; Он, Л. и Тиан, Л. (2014). «Универсальный набор фразовых тегов для многоязычных деревьев» (PDF) . Proceedings of CCL и NLP-NABD 2014, LNAI 8801, стр. 247–258. © Springer International Publishing, Швейцария . дои : 10.1007/978-3-319-12277-9_22 .
  12. ^ Уоллис, Шон (2008). Поиск деревьев и других структурированных корпусов. Глава 34 в книге Люделинг А. и Кито М. (ред.) Корпусная лингвистика: Международный справочник. Серия «Справочники по изучению языка и коммуникации». Берлин: Мутон де Грюйтер.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 9d41a4cdc986e87a38dfc647df446e6f__1718317440
URL1:https://arc.ask3.ru/arc/aa/9d/6f/9d41a4cdc986e87a38dfc647df446e6f.html
Заголовок, (Title) документа по адресу, URL1:
Treebank - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)