Универсальные зависимости
![]() | Эта статья включает список общих ссылок , но в ней отсутствуют достаточные соответствующие встроенные цитаты . ( Апрель 2019 г. ) |
Universal Dependency , часто сокращенно UD , представляет собой международный совместный проект по созданию древовидных банков языков мира. [1] Эти деревья находятся в открытом доступе и доступны. Основными приложениями являются автоматизированная обработка текста в области обработки естественного языка (NLP) и исследования синтаксиса и грамматики естественного языка, особенно в рамках лингвистической типологии . Основная цель проекта — добиться межъязыковой согласованности аннотаций, при этом допуская при необходимости расширения для конкретного языка. Схема аннотаций уходит корнями в три связанных проекта: Стэнфордские зависимости, [2] универсальные теги части речи Google, [3] и интерлингва Interset [4] для морфосинтаксических наборов тегов.Схема аннотаций UD использует представление в виде деревьев зависимостей , а не деревьев структуры фраз . В настоящее время (январь 2022 г.) в инвентаре UD имеется чуть более 200 древовидных банков на более чем 100 языках.
Структуры зависимостей [ править ]
Схема аннотации UD производит синтаксический анализ предложений с точки зрения зависимостей грамматики зависимостей. Каждая зависимость характеризуется синтаксической функцией, которая отображается с помощью метки на краю зависимости. Например: [5]
Этот анализ показывает, что она , он и Нота являются иждивенцами левых . Местоимение she идентифицируется как номинальный субъект (nsubj), местоимение его как косвенный объект (iobj) и существительная фраза a note как прямой объект (obj) — существует еще одна зависимость, которая связывает a с note , хотя это не показано. Второй пример:
Этот анализ идентифицирует его как подлежащее (nsubj), как связку (cop) и как маркер падежа (case), все из которых показаны как зависимые от корневого слова her , которое является местоимением. Следующий пример включает в себя ругательство и наклонный объект:
Этот анализ идентифицирует там как ругательство (expl), еду как именное подлежащее (nsubj), кухню как наклонный объект (obl), а в как падежный маркер (case) — также существует зависимость, связывающая the с Kitchen , но это не показано. связка В этом случае позиционируется как корень предложения, что противоречит тому, как связка анализируется во втором примере, чуть выше, где она позиционируется как зависимая от корня.
Только что представленные примеры аннотаций UD, конечно, могут дать лишь представление о характере проекта UD и его схеме аннотаций. Акцент в UD делается на проведении межлингвистически согласованного анализа зависимостей, чтобы облегчить структурный параллелизм в разных языках. С этой целью UD использует универсальный набор тегов POS для всех языков, хотя для каждого языка не обязательно использовать каждый тег. Более конкретную информацию можно добавить к каждому слову с помощью бесплатного набора морфосинтаксических функций. Универсальные метки связей зависимостей могут быть указаны с помощью вторичных отношений, которые обозначаются как вторичные метки после двоеточия, например, nsubj:pass, после формата «universal:extension» .
Функциональные слова [ править ]
В сообществе грамматик зависимостей схема аннотаций UD вызывает споры. Основное яблоко раздора касается анализа служебных слов. UD предпочитает подчинять служебные слова словам содержания, [6] практика, которая противоречит большинству работ в традиции грамматики зависимостей. [7] Чтобы кратко проиллюстрировать это противоречие, UD провел следующий структурный анализ данного предложения:
Этот пример взят из статьи здесь . [8] Теперь используется альтернативное соглашение для отображения зависимостей, отличное от соглашения, приведенного выше. Поскольку синтаксические функции не имеют значения для рассматриваемого вопроса, они исключены из данного структурного анализа. Что важно, так это то, каким образом в этом UD-анализе вспомогательный глагол will подчиняется глаголу содержания Say , предлог to - местоимению you , подчиненный глагол that - глаголу содержания нравится , а частица to - глаголу содержания плавать .
Более традиционный анализ грамматики зависимостей этого предложения, мотивированный скорее синтаксическими соображениями, чем семантическими, выглядит следующим образом: [9]
В этом традиционном анализе глагол содержания Say подчиняется вспомогательному глаголу will , местоимение you предлогу to , глагол содержания нравится подчинителю that , а глагол содержания плавать — причастию to .
Примечания [ править ]
- ^ де Марнеф, Мария-Катрин; Мэннинг, Кристофер Д.; Нивр, Иоаким; Земан, Дэниел (13 июля 2021 г.). «Универсальные зависимости» . Компьютерная лингвистика . 47 (2): 255–308. дои : 10.1162/coli_a_00402 . S2CID 219304854 .
- ^ «Стэнфордские зависимости» . nlp.stanford.edu . Стэнфордская группа обработки естественного языка . Проверено 8 мая 2020 г.
- ^ Петров, Слав (11 апреля 2011 г.). «Универсальный набор тегов части речи». arXiv : 1104.2086 [ cs.CL ].
- ^ «Интерсет» . cuni.cz. Институт формальной и прикладной лингвистики (Чехия) . Проверено 8 мая 2020 г.
- ^ Три примера анализа, представленные в этом разделе, были взяты с веб-страницы UD здесь , примеры 3, 21 и 23.
- ↑ Выбор пал на Nivre (2015).
- ^ Споры вокруг UD и статуса функциональных слов в грамматике зависимостей в целом подробно обсуждаются в Osborne & Gerdes (2019) .
- ^ Структура (1b) в статье Osborne & Gerdes (2019).
- ^ Эта структура (1c) в статье Osborne & Gerdes (2019).
Ссылки [ править ]
- де Марнефф, Мари-Катрин, Кристофер Д. Мэннинг, Жоаким Нивр и Даниэль Земан. 2021. Универсальные зависимости. В компьютерной лингвистике 47 (2), 255–308. два : 10.1162/coli_a_00402
- де Марнефф, Мари-Катрин, Билл Маккартни и Кристофер Д. Мэннинг. 2006. Генерация анализа типизированных зависимостей на основе анализа структуры фраз. В материалах конференции по языковым ресурсам и оценке (LREC), 2006 г., 449–454. Генуя.
- де Марнефф, Мари-Катрин и Кристофер Д. Мэннинг. 2008. Стэнфордское типизированное представление зависимостей. Материалы семинара COLING по межструктурной и междоменной оценке парсеров, 92–97. София. дои : 10.3115/1608858.1608859
- де Марнефф, Мари-Катрин, Тимоти Доза, Наталья Сильвер, Катрин Хаверинен, Филип Гинтер, Йоаким Нивре, Кристофер Д. Мэннинг. 2014. Универсальные Стэнфордские зависимости: межлингвистическая типология. На Международной конференции по языковым ресурсам и оценке (LREC) 2014 г., 4585–4592.
- Нивре, Йоаким. 2015. К универсальной грамматике для обработки естественного языка. CICLING 2015: 16-я Международная конференция по интеллектуальной обработке текста и компьютерной лингвистике, 3–16. дои : 10.1007/978-3-319-18111-0_1
- Осборн, Тимоти и Ким Гердес. 2019. Статус служебных слов в грамматике зависимостей: критика универсальных зависимостей (UD). Глосса: Журнал общей лингвистики 4 (1), 17. два : 10.5334/gjgl.537 .
- Петров, Слав, Дипон Дас и Райан Макдональд. 2012. Универсальный набор тегов части речи. Международная конференция по языковым ресурсам и оценке (LREC) 2012, 2089–2096 гг. Стамбул.
- Земан, Дэниел. 2008. Многоразовое преобразование набора тегов с использованием драйверов набора тегов. На Международной конференции по языковым ресурсам и оценке (LREC), 2008 г., 213–218. Марракеш.