Jump to content

Универсальные зависимости

Universal Dependency , часто сокращенно UD , представляет собой международный совместный проект по созданию древовидных банков языков мира. [1] Эти деревья находятся в открытом доступе и доступны. Основными приложениями являются автоматизированная обработка текста в области обработки естественного языка (NLP) и исследования синтаксиса и грамматики естественного языка, особенно в рамках лингвистической типологии . Основная цель проекта — добиться межъязыковой согласованности аннотаций, при этом допуская при необходимости расширения для конкретного языка. Схема аннотаций уходит корнями в три связанных проекта: Стэнфордские зависимости, [2] универсальные теги части речи Google, [3] и интерлингва Interset [4] для морфосинтаксических наборов тегов.Схема аннотаций UD использует представление в виде деревьев зависимостей , а не деревьев структуры фраз . В настоящее время (январь 2022 г.) в инвентаре UD имеется чуть более 200 древовидных банков на более чем 100 языках.

Структуры зависимостей [ править ]

Схема аннотации UD производит синтаксический анализ предложений с точки зрения зависимостей грамматики зависимостей. Каждая зависимость характеризуется синтаксической функцией, которая отображается с помощью метки на краю зависимости. Например: [5]

Первое фото UD

Этот анализ показывает, что она , он и Нота являются иждивенцами левых . Местоимение she идентифицируется как номинальный субъект (nsubj), местоимение его как косвенный объект (iobj) и существительная фраза a note как прямой объект (obj) — существует еще одна зависимость, которая связывает a с note , хотя это не показано. Второй пример:

УД изображение 2

Этот анализ идентифицирует его как подлежащее (nsubj), как связку (cop) и как маркер падежа (case), все из которых показаны как зависимые от корневого слова her , которое является местоимением. Следующий пример включает в себя ругательство и наклонный объект:

УД изображение 3

Этот анализ идентифицирует там как ругательство (expl), еду как именное подлежащее (nsubj), кухню как наклонный объект (obl), а в как падежный маркер (case) — также существует зависимость, связывающая the с Kitchen , но это не показано. связка В этом случае позиционируется как корень предложения, что противоречит тому, как связка анализируется во втором примере, чуть выше, где она позиционируется как зависимая от корня.

Только что представленные примеры аннотаций UD, конечно, могут дать лишь представление о характере проекта UD и его схеме аннотаций. Акцент в UD делается на проведении межлингвистически согласованного анализа зависимостей, чтобы облегчить структурный параллелизм в разных языках. С этой целью UD использует универсальный набор тегов POS для всех языков, хотя для каждого языка не обязательно использовать каждый тег. Более конкретную информацию можно добавить к каждому слову с помощью бесплатного набора морфосинтаксических функций. Универсальные метки связей зависимостей могут быть указаны с помощью вторичных отношений, которые обозначаются как вторичные метки после двоеточия, например, nsubj:pass, после формата «universal:extension» .

Функциональные слова [ править ]

В сообществе грамматик зависимостей схема аннотаций UD вызывает споры. Основное яблоко раздора касается анализа служебных слов. UD предпочитает подчинять служебные слова словам содержания, [6] практика, которая противоречит большинству работ в традиции грамматики зависимостей. [7] Чтобы кратко проиллюстрировать это противоречие, UD провел следующий структурный анализ данного предложения:

Четвертое изображение UD иллюстрирует анализ служебных слов.

Этот пример взят из статьи здесь . [8] Теперь используется альтернативное соглашение для отображения зависимостей, отличное от соглашения, приведенного выше. Поскольку синтаксические функции не имеют значения для рассматриваемого вопроса, они исключены из данного структурного анализа. Что важно, так это то, каким образом в этом UD-анализе вспомогательный глагол will подчиняется глаголу содержания Say , предлог to - местоимению you , подчиненный глагол that - глаголу содержания нравится , а частица to - глаголу содержания плавать .

Более традиционный анализ грамматики зависимостей этого предложения, мотивированный скорее синтаксическими соображениями, чем семантическими, выглядит следующим образом: [9]

УД изображение 5

В этом традиционном анализе глагол содержания Say подчиняется вспомогательному глаголу will , местоимение you предлогу to , глагол содержания нравится подчинителю that , а глагол содержания плавать — причастию to .

Примечания [ править ]

  1. ^ де Марнеф, Мария-Катрин; Мэннинг, Кристофер Д.; Нивр, Иоаким; Земан, Дэниел (13 июля 2021 г.). «Универсальные зависимости» . Компьютерная лингвистика . 47 (2): 255–308. дои : 10.1162/coli_a_00402 . S2CID   219304854 .
  2. ^ «Стэнфордские зависимости» . nlp.stanford.edu . Стэнфордская группа обработки естественного языка . Проверено 8 мая 2020 г.
  3. ^ Петров, Слав (11 апреля 2011 г.). «Универсальный набор тегов части речи». arXiv : 1104.2086 [ cs.CL ].
  4. ^ «Интерсет» . cuni.cz. ​Институт формальной и прикладной лингвистики (Чехия) . Проверено 8 мая 2020 г.
  5. ^ Три примера анализа, представленные в этом разделе, были взяты с веб-страницы UD здесь , примеры 3, 21 и 23.
  6. Выбор пал на Nivre (2015).
  7. ^ Споры вокруг UD и статуса функциональных слов в грамматике зависимостей в целом подробно обсуждаются в Osborne & Gerdes (2019) .
  8. ^ Структура (1b) в статье Osborne & Gerdes (2019).
  9. ^ Эта структура (1c) в статье Osborne & Gerdes (2019).

Ссылки [ править ]

  • де Марнефф, Мари-Катрин, Кристофер Д. Мэннинг, Жоаким Нивр и Даниэль Земан. 2021. Универсальные зависимости. В компьютерной лингвистике 47 (2), 255–308. два : 10.1162/coli_a_00402
  • де Марнефф, Мари-Катрин, Билл Маккартни и Кристофер Д. Мэннинг. 2006. Генерация анализа типизированных зависимостей на основе анализа структуры фраз. В материалах конференции по языковым ресурсам и оценке (LREC), 2006 г., 449–454. Генуя.
  • де Марнефф, Мари-Катрин и Кристофер Д. Мэннинг. 2008. Стэнфордское типизированное представление зависимостей. Материалы семинара COLING по межструктурной и междоменной оценке парсеров, 92–97. София. дои : 10.3115/1608858.1608859
  • де Марнефф, Мари-Катрин, Тимоти Доза, Наталья Сильвер, Катрин Хаверинен, Филип Гинтер, Йоаким Нивре, Кристофер Д. Мэннинг. 2014. Универсальные Стэнфордские зависимости: межлингвистическая типология. На Международной конференции по языковым ресурсам и оценке (LREC) 2014 г., 4585–4592.
  • Нивре, Йоаким. 2015. К универсальной грамматике для обработки естественного языка. CICLING 2015: 16-я Международная конференция по интеллектуальной обработке текста и компьютерной лингвистике, 3–16. дои : 10.1007/978-3-319-18111-0_1
  • Осборн, Тимоти и Ким Гердес. 2019. Статус служебных слов в грамматике зависимостей: критика универсальных зависимостей (UD). Глосса: Журнал общей лингвистики 4 (1), 17. два : 10.5334/gjgl.537 .
  • Петров, Слав, Дипон Дас и Райан Макдональд. 2012. Универсальный набор тегов части речи. Международная конференция по языковым ресурсам и оценке (LREC) 2012, 2089–2096 гг. Стамбул.
  • Земан, Дэниел. 2008. Многоразовое преобразование набора тегов с использованием драйверов набора тегов. На Международной конференции по языковым ресурсам и оценке (LREC), 2008 г., 213–218. Марракеш.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 499ffbce4ab7076df4510a0b4361cb01__1699698540
URL1:https://arc.ask3.ru/arc/aa/49/01/499ffbce4ab7076df4510a0b4361cb01.html
Заголовок, (Title) документа по адресу, URL1:
Universal Dependencies - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)