Глубокая лингвистическая обработка
Глубокая лингвистическая обработка — это структура обработки естественного языка , основанная на теоретической и описательной лингвистике . Он моделирует язык преимущественно посредством теоретической синтаксической/семантической теории (например, CCG , HPSG , LFG , TAG , Пражская школа ). Подходы к глубокой лингвистической обработке отличаются от «более поверхностных» методов тем, что они дают более выразительные и структурные представления, которые напрямую фиксируют зависимости на больших расстояниях и лежащие в их основе структуры предикат - аргумент . [1]
Наукоемкий подход глубокой лингвистической обработки требует значительных вычислительных мощностей и в прошлом иногда считался трудноразрешимым. Однако исследования начала 2000-х годов значительно продвинулись в эффективности глубокой переработки. [2] [3] Сегодня эффективность больше не является серьезной проблемой для приложений, использующих глубокую лингвистическую обработку.
В отличие от «поверхностной лингвистической обработки» [ править ]
Традиционно глубокая лингвистическая обработка была связана с разработкой вычислительной грамматики (для использования как при синтаксическом анализе , так и при генерации). Эти грамматики разрабатывались и поддерживались вручную, и их выполнение требовало больших вычислительных затрат. В последние годы подходы машинного обучения (также известные как поверхностная лингвистическая обработка ) фундаментально изменили область обработки естественного языка . Быстрое создание надежных и широко охватываемых инструментов НЛП машинного обучения требует значительно меньшего количества ручного труда. Таким образом, методам глубокой лингвистической обработки уделяется меньше внимания.
Однако некоторые компьютерные лингвисты полагают, что [ ВОЗ? ] что для того, чтобы компьютеры понимали естественный язык или вывод детальное синтаксическое и семантическое представление , необходимо . Более того, хотя люди могут легко понять предложение и его значение, поверхностной лингвистической обработке может не хватать «понимания» человеческого языка. Например: [4]
- а) Все было бы иначе, если бы Microsoft располагалась в Джорджии.
В предложении (а) неглубокая система извлечения информации может ошибочно сделать вывод, что штаб-квартира Microsoft находится в Джорджии. Хотя мы, как люди, из этого предложения понимаем, что офиса Microsoft никогда не было в Грузии.
- б) Национальный институт психологии Израиля был основан в мае 1971 года как Израильский центр психобиологии профессором Джоэлом.
В предложении (б) поверхностная система может ошибочно сделать вывод, что Израиль был основан в мае 1971 года. Люди знают, что это Национальный институт психобиологии, основанный в 1971 году.
Подводя итог сравнению глубокой и поверхностной обработки языка, глубокая лингвистическая обработка обеспечивает богатый знаниями анализ языка с помощью разработанных вручную грамматик и языковых ресурсов. Принимая во внимание, что поверхностная лингвистическая обработка обеспечивает основанный на знаниях анализ языка посредством статистических/машинных манипуляций с текстами и/или аннотированными лингвистическими ресурсами.
Подсообщества [ править ]
«Глубокие» компьютерные лингвисты разделены на разные подсообщества на основе грамматического формализма, который они приняли для глубокой лингвистической обработки. Основные подсообщества включают в себя:
- DE ep Linguistic Processing with ) , H PSG - Инициатива IN ( DELPH-IN работающая с формализмом HPSG . Конференция HPSG — это центральная конференция для обмена знаниями и достижениями в области HPSG . глубокой обработки на основе
- ParGram / ParSem — это международное сотрудничество по LFG разработке грамматики и семантики на основе . Конференция по свалочному газу является центральной конференцией для обмена знаниями и достижениями в области глубокой переработки свалочного газа .
- Исследовательская группа XTAG, работающая с формализмом TAG. Конференция TAG+ является центральной конференцией для обмена знаниями и достижениями в области глубокой обработки на основе TAG .
Приведенный выше краткий список не является исчерпывающим образом репрезентативным для всех сообществ, работающих над глубокой лингвистической обработкой.
См. также [ править ]
- Комбинаторная категориальная грамматика
- Грамматика структуры фраз, управляемых головой
- Лексическая функциональная грамматика
- Обработка естественного языка
- Грамматика, примыкающая к дереву
Ссылки [ править ]
- ^ Тимоти Болдуин, Марк Драс, Джулия Хоккенмайер, Трейси Холлоуэй Кинг и Гертьян ван Ноорд. 2007. Влияние глубокой лингвистической обработки на технологию синтаксического анализа . В Proc. 10-го Международного семинара по технологиям синтаксического анализа (IWPT-2007), стр. 36–8, Прага, Чехия.
- ^ Ульрих Кальмейер. ПЭТ – платформа для экспериментов с эффективными методами обработки HPSG . Инженерия естественного языка, 6 (1): 99–108, 2000.
- ^ Ганс Ушкорейт. Новые возможности для глубокой лингвистической обработки . Архивировано 3 ноября 2005 г. в Wayback Machine . В Proceedings of COLING 2002, страницы xiv – xxvii, Тайбэй, Тайвань, 2002 г.
- ^ У. Шафер. 2007. ¨ Интеграция компонентов глубокой и поверхностной обработки естественного языка – представления и гибридные архитектуры . доктор философии диссертация, факультет математики и информатики, Саарский университет, Саарбрюкен, Германия.