Категориальная грамматика
Категориальная грамматика — это семейство формализмов естественного языка синтаксиса , которые разделяют центральное предположение о том, что синтаксические составляющие объединяются как функции и аргументы . Категориальная грамматика постулирует тесную связь между синтаксисом и семантическим составом , поскольку она обычно рассматривает синтаксические категории как соответствующие семантическим типам. Категориальные грамматики были разработаны в 1930-х годах Казимежем Айдукевичем и в 1950-х годах Иегошуа Бар-Гиллелем и Иоахимом Ламбеком . Всплеск интереса к нему наблюдался в 1970-х годах после работы Ричарда Монтегю , чья грамматика Монтегю предполагала аналогичный взгляд на синтаксис. Это продолжает оставаться основной парадигмой, особенно в рамках формальной семантики .
Основы [ править ]
Категориальная грамматика состоит из двух частей: словаря, который присваивает набор типов (также называемых категориями) каждому базовому символу, и некоторых правил вывода типа , которые определяют, как тип строки символов вытекает из типов ее составляющих. символы. Его преимущество состоит в том, что правила вывода типов могут быть установлены раз и навсегда, так что спецификация грамматики конкретного языка полностью определяется лексиконом.
Категориальная грамматика имеет некоторые общие черты с просто типизированным лямбда-исчислением . В то время как лямбда-исчисление имеет только один тип функции , категориальная грамматика обычно имеет два типа функций: один тип применяется слева, и один справа. Например, простая категориальная грамматика может иметь два типа функций. и . Первый, , — это тип фразы, результатом которой является фраза типа когда за ним (справа) следует фраза типа . Второй, , это тип фразы, которая получается во фразе типа когда ей предшествует (слева) фраза типа .
Обозначения основаны на алгебре. Дробь, умноженная на знаменатель (т.е. объединенная с ним), дает числитель. Поскольку конкатенация не является коммутативной , имеет значение, находится ли знаменатель слева или справа. Чтобы конкатенация была взаимной, она должна находиться на той же стороне, что и знаменатель.
Первый и простейший вид категориальной грамматики называется базовой категориальной грамматикой или иногда AB-грамматикой (по имени Айдукевича и Бар-Гиллеля ). Учитывая набор примитивных типов , позволять быть набором типов, созданных из примитивных типов. В основном случае это наименьшее множество такое, что и если затем . Думайте об этом как о чисто формальных выражениях, свободно созданных из примитивных типов; любая семантика будет добавлена позже. Некоторые авторы предполагают фиксированный бесконечный набор примитивных типов, используемых во всех грамматиках, но, делая примитивные типы частью грамматики, вся конструкция остается конечной.
Базовая категориальная грамматика — это кортеж где представляет собой конечный набор символов, является конечным набором примитивных типов, и .
Отношение это лексикон, который связывает типы с символами . Поскольку словарь конечен, его можно определить, перечислив набор пар, например .
Такая грамматика английского языка может иметь три основных типа. , присваивая счетным существительным тип , полные существительные фразы типа , и предлагает тип . Тогда прилагательное могло бы иметь тип , потому что если за ним следует существительное, то вся фраза будет существительным. Аналогично определитель имеет тип , потому что, если за ним следует существительное, оно образует полную именную группу. Непереходные глаголы имеют тип и переходные глаголы типа . Тогда строка слов является предложением, если она имеет общий тип. .
Например, возьмем строку «плохой мальчик устроил этот беспорядок». Теперь «the» и «that» являются определяющими, «мальчик» и «беспорядок» — существительными, «плохой» — прилагательным, а «сделанный» — переходным глаголом, поэтому лексикон { , , , , , }.
и последовательность типов в строке
теперь найдите функции и соответствующие аргументы и сократите их в соответствии с двумя правилами вывода и :
Тот факт, что результат означает, что строка представляет собой предложение, а последовательность сокращений показывает, что ее можно проанализировать как (((плохой мальчик)) (сделал (этот беспорядок))).
Категориальные грамматики этой формы (имеющие только правила применения функций) эквивалентны по порождающей способности контекстно-свободным грамматикам и поэтому часто считаются неадекватными для теорий синтаксиса естественного языка. В отличие от CFG, категориальные грамматики лексикализуются , что означает, что используется лишь небольшое количество правил (в основном независимых от языка), а все другие синтаксические явления происходят из лексических записей конкретных слов.
Другой привлекательный аспект категориальных грамматик заключается в том, что им часто легко присвоить композиционную семантику, сначала присвоив типы интерпретации всем базовым категориям, а затем связав все производные категории с соответствующими типами функций . Тогда интерпретация любой составляющей — это просто значение функции в качестве аргумента. С некоторыми модификациями для обработки интенсиональности и количественной оценки этот подход можно использовать для охвата широкого спектра семантических явлений.
Исчисление Ламбека [ править ]
Грамматика Ламбека представляет собой развитие этой идеи, имеющее оператор конкатенации типов и несколько других правил вывода. Мати Пентус показал, что они все еще обладают генеративной способностью контекстно-свободные грамматики.
Для исчисления Ламбека существует конкатенация типов оператор , так что и если затем .
Исчисление Ламбека состоит из нескольких правил вывода, которые определяют как можно получить утверждения о включении типов. В следующих правила, заглавные латинские буквы обозначают типы, греческие заглавные буквы буквы обозначают последовательности типов. Секвенция формы можно прочитать: строка имеет тип X , если она состоит из конкатенации строк каждого из типов в Γ . Если тип интерпретируется как набор строк, то ← можно интерпретировать как ⊇, то есть «включает как подмножество». Горизонтальная линия означает, что включение над линией подразумевает то, что находится под чертой.
Процесс начинается с правила Аксиомы, которое не имеет предшественников и просто говорит, что любой тип включает в себя самого себя.
Правило разреза гласит, что включения можно составлять.
Остальные правила идут парами, по паре для каждого типа конструкции. оператор, каждая пара состоит из одного правила для оператора в цель, одна в источнике стрелы. Имя правила состоит из оператора и стрелки с оператор на той стороне стрелки, на которой он стоит в заключении.
Цель Источник
Например, вот происхождение слова «повышение типа», в котором говорится, что . Справа — названия правил и использованных замен.
Отношение к контекстно-свободным грамматикам [ править ]
Напомним, что контекстно-свободная грамматика представляет собой четырехкортеж где
- — это конечный набор нетерминалов или переменных .
- — конечное множество терминальных символов .
- — конечное множество правил производства , то есть конечное отношение .
- является начальной переменной.
С точки зрения категориальных грамматик, контекстно-свободную грамматику можно рассматривать как исчисление с набором аксиом специального назначения для на каждом языке, но без операторов построения типов и правил вывода, кроме Cut.
В частности, учитывая контекстно-свободную грамматику, как указано выше, определите категориальную грамматику. где , и . Пусть будет аксиома за каждый символ , аксиома для каждого производственного правила , словарная статья для каждого символа терминала , и Cut для единственного правила. Эта категориальная грамматика генерирует тот же язык, что и данная CFG.
Конечно, это не базовая категориальная грамматика, поскольку она имеет особые аксиомы, зависящие от языка; т.е. он не лексикализован. Кроме того, он вообще не использует непримитивные типы.
Чтобы показать, что любой контекстно-свободный язык может быть порожден базовой категориальной грамматикой, вспомним, что любой контекстно-свободный язык может быть создан с помощью контекстно-свободной грамматики в нормальной форме Грейбаха .
Грамматика находится в нормальной форме Грейбаха, если каждое продукционное правило имеет вид , где заглавные буквы — переменные, , и , то есть правая часть продукции представляет собой один терминальный символ за которым следует ноль или более (нетерминальных) переменных.
Теперь, учитывая CFG в нормальной форме Грейбаха, определить базовую категориальную грамматику с примитивным типом для каждой нетерминальной переменной , и с записью в лексиконе , для каждого производственного правила . Довольно легко увидеть, что эта основная категориальная грамматика генерирует тот же язык, что и исходный CFG. Обратите внимание, что лексика этой грамматики, как правило, будет назначить несколько типов каждому символу.
Та же конструкция работает и для грамматик Ламбека, поскольку они являются расширением основных категориальных грамматик. Необходимо убедиться, что дополнительные правила вывода не меняют сгенерированный язык. Это можно сделать, и это показывает, что каждый контекстно-свободный язык порождается некоторой грамматикой Ламбека.
Гораздо сложнее доказать обратное, что каждый язык, порожденный грамматикой Ламбека, является контекстно-свободным. Эта проблема оставалась открытой в течение почти тридцати лет, с начала 1960-х годов примерно до 1991 года, когда она была доказана Пентусом.
Основная идея заключается в том, что, учитывая грамматику Ламбека, построить контекстно-свободную грамматику с тем же набором терминальных символов, тем же начальным символом, с переменными некоторых (не всех) типов , и с производственным правилом за каждую запись в лексике и правилах производства для определенных последовательностей которые выводятся в исчислении Ламбека.
Конечно, существует бесконечно много типов и бесконечно много выводимых секвенций, поэтому в Чтобы сделать конечную грамматику, необходимо ограничить размер типов и секвенций которые необходимы. Суть доказательства Пентуса — показать, что такая конечная граница существует.
Обозначения [ править ]
Обозначения в этом поле не стандартизированы. Обозначения, использованные в формальная теория языка, логика, теория категорий и лингвистика, конфликт друг с другом. В логике стрелки указывают на более общее от более частного. то есть к выводу из гипотез. В этой статье, соблюдается это соглашение, т. е. целью стрелки является более общий (инклюзивный) тип.
В логике стрелки обычно указывают слева направо. В этой статье это соглашение перевернуто для согласованности с обозначениями контекстно-свободных грамматик, где одиночный нетерминальный символ всегда находится слева. Мы используем символ в производственном правиле, как в форме Бэкуса–Наура . Некоторые авторы используют стрелку, которая к сожалению, может указывать в любом направлении, в зависимости от того, правильна ли грамматика. считается создающим или распознающим язык.
Некоторые авторы по категориальным грамматикам пишут вместо . Используемое здесь соглашение следует Ламбеку и алгебре.
Исторические заметки [ править ]
Основные идеи категориальной грамматики восходят к работе Казимежа Айдукевича (в 1935 году) и других ученых польской традиции математической логики, включая Станислава Лесневского , Эмиля Поста и Альфреда Тарского . На формальный подход Айдукевича к синтаксису повлияла Эдмунда Гуссерля чистая логическая грамматика , которая была формализована Рудольфом Карнапом . Он представляет собой развитие исторической идеи универсальной логической грамматики как базовой структуры всех языков. Основная концепция подхода — взаимозаменяемость синтаксических категорий — отсюда и название «категориальная грамматика». Принадлежность элемента (например, слова или фразы) к синтаксической категории (классу слова, типу фразы) устанавливается с помощью теста коммутации , а формальная грамматика строится с помощью серии таких тестов. [1]
Термин категориальная грамматика был введен Иеошуа Бар-Гиллелем (в 1953 году). В 1958 году Иоахим Ламбек представил синтаксическое исчисление функций , которое формализовало конструкторы типов , а также различные правила комбинации функций. Это исчисление является предшественником линейной логики , поскольку оно является субструктурной логикой .
Грамматика Монтегю использует специальную синтаксическую систему английского языка, основанную на принципах категориальной грамматики. [2] Хотя работу Монтегю иногда считают синтаксически неинтересной, она помогла поддержать интерес к категориальной грамматике, связав ее с весьма успешной формальной трактовкой семантики естественного языка . Более поздние работы в области категориальной грамматики были сосредоточены на улучшении синтаксического охвата. Одним из формализмов, который привлек значительное внимание в последние годы, является Стидмана и Сабольчи комбинаторная категориальная грамматика , которая основывается на комбинаторной логике , изобретенной Мозесом Шёнфинкелем и Хаскеллом Карри .
В лингвистике существует ряд родственных формализмов такого рода, таких как типовая логическая грамматика и абстрактная категориальная грамматика . [3]
Некоторые определения [ править ]
- Вывод
- Вывод — это двоичное дерево, которое кодирует доказательство.
- Дерево разбора
- Дерево разбора отображает деривацию, показывая синтаксическую структуру предложения.
- Функция и аргумент
- В правом (левом) применении функции узел типа A\B (B/A) называется функтором, а узел типа A — аргументом.
- Структура функция-аргумент [ нужны разъяснения ]
Уточнения категориальной грамматики [ править ]
Для улучшения синтаксического охвата были предложены различные изменения в категориальной грамматике. Некоторые из наиболее распространенных перечислены ниже.
Особенности и подкатегории [ править ]
Большинство систем категориальной грамматики подразделяют категории. Самый распространенный способ сделать это — пометить их такими характеристиками , как лицо , род , число и время . Иногда таким образом помечаются только атомарные категории. В грамматике Монтегю традиционно подразделяются категории функций с использованием соглашения о множественной косой черте, поэтому A/B и A//B будут двумя разными категориями функций, применяющих левую часть, которые принимают одни и те же аргументы, но могут различаться с помощью других функций. воспринимая их как аргументы.
Композиция функций [ править ]
Правила композиции функций включены во многие категориальные грамматики. Примером такого правила может быть правило, которое разрешает объединение компонента типа A/B с компонентом типа B/C для создания нового компонента типа A/C . Семантика такого правила будет просто включать в себя композицию задействованных функций. Композиция функций важна в категориальном описании соединения и извлечения, особенно когда они относятся к таким явлениям, как подъем правого узла . Введение композиции функций в категориальную грамматику приводит ко многим видам деривационной двусмысленности, которые являются пустыми в том смысле, что они не соответствуют семантическим двусмысленностям .
Союз [ править ]
Многие категориальные грамматики включают типичное правило конъюнкции общей формы X CONJ X → X , где X — категория. Конъюнкцию обычно можно применять к нестандартным компонентам, возникающим в результате повышения типа или композиции функций.
Прерывистость [ править ]
Грамматика расширена для обработки лингвистических явлений, таких как прерывистые идиомы, пропуски и извлечение. [4]
См. также [ править ]
- Комбинаторная категориальная грамматика
- Грамматика ссылок
- Некоммутативная логика
- Предварительная группа Грамматика
- Объем
- Тип переключатель
Ссылки [ править ]
- ^ Выбранец-Скардовска, Уршула; Рогальский, Анджей К. (1998). «Об универсальной грамматике и ее формализации» . Архив Пайдеи: Двадцатый Всемирный философский конгресс . 8 : 153–172 . Проверено 5 сентября 2023 г.
- ^ Парти, Барбара Холл; Монтегю, Ричард (1976). [Ричард] Грамматика Монтегю: Ред. Барбара Х[все] Парти . Нью-Йорк [усв.]: Акад. Пр. ISBN 978-0-12-545850-4 .
- ^ Моррилл, Глин (1994). Тип логической грамматики: категориальная логика знаков . Дордрехт: Клювер. ISBN 978-0-7923-3095-0 .
- ^ Хак, Джеффри Дж. (1985). Прерывность и порядок слов в категориальной грамматике . Лингвистический клуб Университета Индианы.
- Карри, Хаскелл Б .; Фейс, Ричард (1958), Комбинаторная логика , том. 1, Северная Голландия
- Джейкобсон, Полина (1999), «На пути к семантике без переменных», Linguistics and Philosophy , 22 (2): 117–184, doi : 10.1023/A:1005464228727 , S2CID 60578091
- Ламбек, Иоахим (1958), «Математика структуры предложений», Amer. Математика. Monthly , 65 (3): 154–170, CiteSeerX 10.1.1.538.885 , doi : 10.1080/00029890.1958.11989160
- Пентус, Мати (1997), Исчисление Ламбека и формальные грамматики (PDF) , Amer. Математика. Соц. Перевод
- Стидман, Марк (1987), «Комбинаторные грамматики и паразитические пробелы», Natural Language and Linguistic Theory , 5 (3): 403–439, doi : 10.1007/bf00134555 , S2CID 170899264
- Стидман, Марк (1996), Структура поверхности и интерпретация , MIT Press.
- Стидман, Марк (2000), Синтаксический процесс , MIT Press
- Сабольчи, Анна (1989). «Связанные переменные в синтаксисе (есть ли они?)» (PDF) . В Барче; ван Бентем; ван Эмде Боас (ред.). Семантика и контекстное выражение . Форис. стр. 294–318.
- Сабольчи, Анна (1992). «Комбинаторная грамматика и проекция из лексикона» (PDF) . В Саге; Сабольчи (ред.). Лексические вопросы . Том. 24. Стэнфорд: Публикации CSLI. стр. 241–269.
{{cite book}}
:|journal=
игнорируется ( помогите ) - Сабольчи, Анна (2003), «Связывание на лету: перекрестная анафора в семантике без переменных», в Kruijff; Эрле (ред.), Чувствительность к ресурсам, привязка и анафора , Исследования по лингвистике и философии, том. 80, Kluwer, стр. 215–229, CiteSeerX 10.1.1.205.3142 , doi : 10.1007/978-94-010-0037-6_8 , ISBN 978-1-4020-1692-9
- Моррил, Глин (1995), «Разрывы в категориальной грамматике», Linguistics and Philosophy , 18 (2): 175–219, doi : 10.1007/bf00985216 , S2CID 62533943
Дальнейшее чтение [ править ]
- Майкл Моортгат, Логика категориального типа , глава 2 в книге Дж. ван Бентема и А. тер Мейлена (ред.) Справочник по логике и языку . Эльзевир, 1997, ISBN 0-262-22053-9
- Войцех Бушковский, Математическая лингвистика и теория доказательств , глава 12 в книге Дж. ван Бентема и А. тер Мейлена (ред.) Справочник по логике и языку . Эльзевир, 1997, ISBN 0-262-22053-9
- Герхард Ягер (2005). Анафора и типовая логическая грамматика . Спрингер. ISBN 978-1-4020-3904-1 .
- Глин Моррилл (2010). Категориальная грамматика: логический синтаксис, семантика и обработка . Издательство Оксфордского университета. ISBN 978-0-19-958986-9 .
- Ричард Мут; Кристиан Реторе (2012). Логика категориальных грамматик: дедуктивный анализ синтаксиса и семантики естественного языка . Спрингер Верлаг. ISBN 978-3-642-31554-1 .