Категориальная грамматика
Категориальная грамматика — это семейство формализмов естественного языка синтаксиса , которые разделяют центральное предположение о том, что синтаксические составляющие объединяются как функции и аргументы . Категориальная грамматика постулирует тесную связь между синтаксисом и семантическим составом , поскольку она обычно рассматривает синтаксические категории как соответствующие семантическим типам. Категориальные грамматики были разработаны в 1930-х годах Казимежем Айдукевичем и в 1950-х годах Иегошуа Бар-Гиллелем и Иоахимом Ламбеком . Всплеск интереса к нему наблюдался в 1970-х годах после работы Ричарда Монтегю , чья грамматика Монтегю предполагала аналогичный взгляд на синтаксис. Это продолжает оставаться основной парадигмой, особенно в рамках формальной семантики .
Основы
[ редактировать ]Категориальная грамматика состоит из двух частей: словаря, который присваивает набор типов (также называемых категориями) каждому базовому символу, и некоторых правил вывода типа , которые определяют, как тип строки символов вытекает из типов ее составляющих. символы. Его преимущество состоит в том, что правила вывода типов могут быть фиксированы раз и навсегда, так что спецификация грамматики конкретного языка полностью определяется лексиконом.
Категориальная грамматика имеет некоторые общие черты с просто типизированным лямбда-исчислением .В то время как лямбда-исчисление имеет только один тип функции ,категориальная грамматика обычно имеет два типа функций: один тип применяется слева,и один справа. Например, простая категориальная грамматика может иметь два типа функций. и .Первый, , — это тип фразы, результатом которой является фраза типа когда за ним (справа) следует фраза типа .Второй, , это тип фразы, которая получаетсяво фразе типа когда ей предшествует (слева) фраза типа .
Обозначения основаны на алгебре. Дробь, умноженная на знаменатель (т.е. объединенная с ним), дает числитель. Поскольку конкатенация не является коммутативной , имеет значение, находится ли знаменатель слева или справа. Чтобы конкатенация была взаимной, она должна находиться на той же стороне, что и знаменатель.
Первый и простейший вид категориальной грамматики называется базовой категориальной грамматикой или иногда AB-грамматикой (по имени Айдукевича и Бар-Гиллеля ).Учитывая набор примитивных типов , позволять быть набором типов, созданных из примитивных типов. В основном случае это наименьшее множество такое, что и если затем .Думайте об этом как о чисто формальных выражениях, свободно созданных из примитивных типов; любая семантика будет добавлена позже. Некоторые авторы предполагают фиксированный бесконечный набор примитивных типов, используемых во всех грамматиках, но, делая примитивные типы частью грамматики, вся конструкция остается конечной.
Базовая категориальная грамматика — это кортеж где представляет собой конечный набор символов, является конечным набором примитивных типов, и .
Отношение это лексикон, который связывает типы с символами .Поскольку словарь конечен, его можно определить, перечислив набор пар, например .
Такая грамматика английского языка может иметь три основных типа. , присваивая счетным существительным тип , полные существительные фразы типа , и предлагает тип .Тогда прилагательное могло бы иметь тип , потому что если за ним следует существительное, то вся фраза будет существительным. Аналогично определитель имеет тип ,потому что, если за ним следует существительное, оно образует полную именную группу.Непереходные глаголы имеют тип и переходные глаголы типа .Тогда строка слов является предложением, если она имеет общий тип. .
Например, возьмем строку «плохой мальчик устроил этот беспорядок». Теперь «the» и «that» являются определяющими, «мальчик» и «беспорядок» — существительными, «плохой» — прилагательным, а «сделанный» — переходным глаголом, поэтому лексикон{ , , , , , }.
и последовательность типов в строке
теперь найдите функции и соответствующие аргументы и сократите их в соответствии с двумя правилами вывода и :
Тот факт, что результат означает, что строка представляет собой предложение, а последовательность сокращений показывает, что ее можно проанализировать как (((плохой мальчик)) (сделал (этот беспорядок))).
Категориальные грамматики этой формы (имеющие только правила применения функций) эквивалентны по порождающей способности контекстно-свободным грамматикам и поэтому часто считаются неадекватными для теорий синтаксиса естественного языка. В отличие от CFG, категориальные грамматики лексикализованы , что означает, что используется лишь небольшое количество правил (в основном независимых от языка), а все другие синтаксические явления происходят из лексических записей конкретных слов.
Еще одним привлекательным аспектом категориальных грамматик является то, что им часто легко присвоить композиционную семантику, сначала присвоив типы интерпретации всем базовым категориям, а затем связав все производные категории с соответствующими типами функций . Тогда интерпретация любой составляющей — это просто значение функции в качестве аргумента. С некоторыми модификациями для обработки интенсиональности и количественной оценки этот подход можно использовать для охвата широкого спектра семантических явлений.
Мягкое исчисление
[ редактировать ]Грамматика Ламбека представляет собой развитие этой идеи, имеющееоператор конкатенации типов и несколько других правил вывода.Мати Пентус показал, что они все еще обладают генеративной способностьюконтекстно-свободные грамматики.
Для исчисления Ламбека существует конкатенация типовоператор , такчто и если затем .
Исчисление Ламбека состоит из нескольких правил вывода, которые определяюткак можно получить утверждения о включении типов. В следующемправила, заглавные латинские буквы обозначают типы, греческие заглавные буквыбуквы обозначают последовательности типов. Секвенция формы можно прочитать: строка имеет тип X, если она состоит из конкатенациистрок каждого из типов в Γ . Если типинтерпретируется как набор строк, то← можно интерпретировать как ⊇,то есть «включает как подмножество». Горизонтальная черта означает, что включение над чертойподразумевает то, что находится под чертой.
Процесс начинается с правила Аксиомы, которое не имеет предшественников ипросто говорит, что любой тип включает в себя самого себя.
Правило разреза гласит, что включения можно составлять.
Остальные правила идут парами, по паре для каждого типа конструкции.оператор, каждая пара состоит из одного правила для оператора вцель, одна в источнике стрелы.Имя правила состоит из оператора и стрелки соператор на той стороне стрелки, на которой он стоит в заключении.
Цель Источник
Например, вот происхождение слова «повышение типа», в котором говорится, что . Справа — названия правил и использованных замен.
Отношение к контекстно-свободным грамматикам
[ редактировать ]Напомним, что контекстно-свободная грамматика представляет собой четырехкортеж. где
- — это конечный набор нетерминалов или переменных .
- — конечное множество терминальных символов .
- — конечное множество правил производства , то есть конечное отношение .
- является начальной переменной.
С точки зрения категориальных грамматик, контекстно-свободную грамматику можно рассматривать как исчисление с набором аксиом специального назначения дляна каждом языке, но без операторов построения типов и правил вывода, кроме Cut.
В частности, учитывая контекстно-свободную грамматику, как указано выше, определите категориальную грамматику. где ,и . Пусть будет аксиома за каждый символ ,аксиома для каждого производственного правила ,словарная статья для каждого символа терминала ,и Cut для единственного правила.Эта категориальная грамматика генерирует тот же язык, что и данная CFG.
Конечно, это не базовая категориальная грамматика, поскольку она имеет особые аксиомы, зависящие от языка; т.е. он не лексикализован.Кроме того, он вообще не использует непримитивные типы.
Чтобы показать, что любой контекстно-свободный язык может быть порожден базовой категориальной грамматикой, вспомним, что любой контекстно-свободный язык может быть создан с помощью контекстно-свободной грамматики в нормальной форме Грейбаха .
Грамматика находится в нормальной форме Грейбаха, если каждое продукционное правило имеет вид ,где заглавные буквы — переменные, ,и ,то есть правая часть продукции представляет собой один терминальный символза которым следует ноль или более (нетерминальных) переменных.
Теперь, учитывая CFG в нормальной форме Грейбаха,определить базовую категориальную грамматику с примитивным типомдля каждой нетерминальной переменной ,и с записью в лексиконе ,для каждого производственного правила .Довольно легко увидеть, что эта основная категориальная грамматикагенерирует тот же язык, что и исходный CFG.Обратите внимание, что лексика этой грамматики, как правило, будетназначить несколько типов каждому символу.
Та же конструкция работает и для грамматик Ламбека, поскольку они являются расширением основных категориальных грамматик. Необходимо убедиться, что дополнительные правила вывода не меняют сгенерированный язык. Это можно сделать, и это показывает, что каждый контекстно-свободный язык порождается некоторой грамматикой Ламбека.
Гораздо сложнее доказать обратное, что каждый язык, порожденный грамматикой Ламбека, является контекстно-свободным.Эта проблема оставалась открытой в течение почти тридцати лет, с начала 1960-х годов примерно до 1991 года, когда она была доказана Пентусом.
Основная идея заключается в том, что, учитывая грамматику Ламбека, построить контекстно-свободную грамматику с тем же набором терминальных символов, тем же начальным символом, с переменными некоторых (не всех) типов ,и с производственным правилом за каждую запись в лексике и правилах производства для определенных последовательностей которые выводятся в исчислении Ламбека.
Конечно, существует бесконечно много типов и бесконечно много выводимых секвенций, поэтому вЧтобы создать конечную грамматику, необходимо ограничить размер типов и секвенцийкоторые необходимы. Суть доказательства Пентуса — показать, что такая конечная граница существует.
Обозначения
[ редактировать ]Обозначения в этом поле не стандартизированы. Обозначения, использованные вформальная теория языка, логика, теория категорий и лингвистика, конфликтдруг с другом. В логике стрелки указывают на более общее от более частного.то есть к выводу из гипотез. В этой статьесоблюдается это соглашение, т. е. целью стрелки является более общий (инклюзивный) тип.
В логике стрелки обычно указывают слева направо. В этой статье это соглашениеперевернуто для согласованности с обозначениями контекстно-свободных грамматик, гдеодиночный нетерминальный символ всегда находится слева. Мы используем символ в производственном правиле, как в форме Бэкуса–Наура . Некоторые авторы используют стрелку, котораяк сожалению, может указывать в любом направлении, в зависимости от того, правильна ли грамматика.считается создающим или распознающим язык.
Некоторые авторы по категориальным грамматикам пишут вместо . Используемое здесь соглашение следует Ламбеку и алгебре.
Исторические заметки
[ редактировать ]Основные идеи категориальной грамматики восходят к работе Казимежа Айдукевича (в 1935 году) и других ученых польской традиции математической логики, включая Станислава Лесневского , Эмиля Поста и Альфреда Тарского . На формальный подход Айдукевича к синтаксису повлияла Эдмунда Гуссерля чистая логическая грамматика , которая была формализована Рудольфом Карнапом . Он представляет собой развитие исторической идеи универсальной логической грамматики как базовой структуры всех языков. Основная концепция подхода — взаимозаменяемость синтаксических категорий — отсюда и название «категориальная грамматика». Принадлежность элемента (например, слова или фразы) к синтаксической категории (классу слова, типу фразы) устанавливается с помощью теста коммутации , а формальная грамматика строится с помощью серии таких тестов. [1]
Термин категориальная грамматика был введен Иеошуа Бар-Гиллелем (в 1953 году). В 1958 году Иоахим Ламбек представил синтаксическое исчисление функций, , которое формализовало конструкторы типов а также различные правила комбинации функций. Это исчисление является предшественником линейной логики , поскольку оно является субструктурной логикой .
Грамматика Монтегю основана на тех же принципах, что и категориальная грамматика. [2] Работа Монтегю помогла укрепить интерес к категориальной грамматике, связав ее с его весьма успешной формальной трактовкой семантики естественного языка . Более поздние работы в области категориальной грамматики были сосредоточены на улучшении синтаксического охвата. Одним из формализмов, который привлек значительное внимание в последние годы, является и Сабольчи , Стидмана комбинаторная категориальная грамматика которая основывается на комбинаторной логике, изобретенной Мозесом Шенфинкелем и Хаскеллом Карри .
В лингвистике существует ряд родственных формализмов такого рода, таких как типовая логическая грамматика и абстрактная категориальная грамматика . [3]
Некоторые определения
[ редактировать ]- Вывод
- Вывод — это двоичное дерево, которое кодирует доказательство.
- Дерево разбора
- Дерево разбора отображает деривацию, показывая синтаксическую структуру предложения.
- Функтор и аргумент
- В правом (левом) применении функции узел типа A\B (B/A) называется функтором, а узел типа A — аргументом.
- Структура функция-аргумент [ нужны разъяснения ]
Уточнения категориальной грамматики
[ редактировать ]Для улучшения синтаксического охвата были предложены различные изменения в категориальной грамматике. Некоторые из наиболее распространенных перечислены ниже.
Особенности и подкатегории
[ редактировать ]Большинство систем категориальной грамматики подразделяют категории. Самый распространенный способ сделать это — пометить их такими характеристиками , как лицо , род , число и время . Иногда таким образом помечаются только атомарные категории. В грамматике Монтегю традиционно подразделяются категории функций с использованием соглашения о множественной косой черте, поэтому A/B и A//B будут двумя разными категориями функций, применяющих левую часть, которые принимают одни и те же аргументы, но могут различаться с помощью других функций. воспринимая их как аргументы.
Функциональная композиция
[ редактировать ]Правила композиции функций включены во многие категориальные грамматики. Примером такого правила может быть правило, которое разрешает объединение компонента типа A/B с компонентом типа B/C для создания нового компонента типа A/C . Семантика такого правила будет просто включать в себя композицию задействованных функций. Композиция функций важна в категориальных описаниях соединения и извлечения, особенно когда они относятся к таким явлениям, как подъем правого узла . Введение функциональной композиции в категориальную грамматику приводит ко многим видам деривационной двусмысленности, которые являются пустыми в том смысле, что они не соответствуют семантическим двусмысленностям .
Соединение
[ редактировать ]Многие категориальные грамматики включают типичное правило конъюнкции общей формы X CONJ X → X , где X — категория. Конъюнкцию обычно можно применять к нестандартным компонентам, возникающим в результате повышения типа или композиции функций.
Прерывистость
[ редактировать ]Грамматика расширена для обработки лингвистических явлений, таких как прерывистые идиомы, пропуски и извлечение. [4]
См. также
[ редактировать ]- Комбинаторная категориальная грамматика
- Грамматика ссылок
- Некоммутативная логика
- Предварительная группа Грамматика
- Объем
- Тип переключатель
Ссылки
[ редактировать ]- ^ Выбранец-Скардовска, Уршула; Рогальский, Анджей К. (1998). «Об универсальной грамматике и ее формализации» . Архив Пайдеи: Двадцатый Всемирный философский конгресс . 8 : 153–172. дои : 10.5840/wcp20-payeia19988195 . ISBN 978-1-63435-051-8 . Проверено 5 сентября 2023 г.
- ^ Парти, Барбара Холл; Монтегю, Ричард (1976). [Ричард] Грамматика Монтегю: Ред. Барбара Х[все] Парти . Нью-Йорк [усв.]: Акад. Пр. ISBN 978-0-12-545850-4 .
- ^ Моррилл, Глин (1994). Тип логической грамматики: категориальная логика знаков . Дордрехт: Клювер. ISBN 978-0-7923-3095-0 .
- ^ Хак, Джеффри Дж. (1985). Прерывность и порядок слов в категориальной грамматике . Лингвистический клуб Университета Индианы.
- Карри, Хаскелл Б .; Фейс, Ричард (1958), Комбинаторная логика , том. 1, Северная Голландия
- Джейкобсон, Полина (1999), «На пути к семантике без переменных», Linguistics and Philosophy , 22 (2): 117–184, doi : 10.1023/A:1005464228727 , S2CID 60578091
- Ламбек, Иоахим (1958), «Математика структуры предложений», Amer. Математика. Monthly , 65 (3): 154–170, CiteSeerX 10.1.1.538.885 , doi : 10.1080/00029890.1958.11989160
- Пентус, Мати (1997), Исчисление Ламбека и формальные грамматики (PDF) , Amer. Математика. Соц. Перевод
- Стидман, Марк (1987), «Комбинаторные грамматики и паразитические пробелы», Natural Language and Linguistic Theory , 5 (3): 403–439, doi : 10.1007/bf00134555 , S2CID 170899264
- Стидман, Марк (1996), Структура поверхности и интерпретация , MIT Press.
- Стидман, Марк (2000), Синтаксический процесс , MIT Press
- Сабольчи, Анна (1989). «Связанные переменные в синтаксисе (есть ли они?)» (PDF) . В Барче; ван Бентем; ван Эмде Боас (ред.). Семантика и контекстное выражение . Форис. стр. 294–318.
- Сабольчи, Анна (1992). «Комбинаторная грамматика и проекция из лексикона» (PDF) . В Саге; Сабольчи (ред.). Лексические вопросы . Том. 24. Стэнфорд: Публикации CSLI. стр. 241–269.
{{cite book}}
:|journal=
игнорируется ( помогите ) - Сабольчи, Анна (2003), «Связывание на лету: перекрестная анафора в семантике без переменных», в Kruijff; Эрле (ред.), Чувствительность к ресурсам, привязка и анафора , Исследования по лингвистике и философии, том. 80, Kluwer, стр. 215–229, CiteSeerX 10.1.1.205.3142 , doi : 10.1007/978-94-010-0037-6_8 , ISBN 978-1-4020-1692-9
- Моррил, Глин (1995), «Разрывы в категориальной грамматике», Linguistics and Philosophy , 18 (2): 175–219, doi : 10.1007/bf00985216 , S2CID 62533943
Дальнейшее чтение
[ редактировать ]- Майкл Моортгат, Логика категориального типа , глава 2 в книге Дж. ван Бентема и А. тер Мейлена (ред.) Справочник по логике и языку . Эльзевир, 1997, ISBN 0-262-22053-9
- Войцех Бушковский, Математическая лингвистика и теория доказательств , глава 12 в книге Дж. ван Бентема и А. тер Мейлена (ред.) Справочник по логике и языку . Эльзевир, 1997, ISBN 0-262-22053-9
- Герхард Ягер (2005). Анафора и типовая логическая грамматика . Спрингер. ISBN 978-1-4020-3904-1 .
- Глин Моррилл (2010). Категориальная грамматика: логический синтаксис, семантика и обработка . Издательство Оксфордского университета. ISBN 978-0-19-958986-9 .
- Ричард Мут; Кристиан Реторе (2012). Логика категориальных грамматик: дедуктивный анализ синтаксиса и семантики естественного языка . Спрингер Верлаг. ISBN 978-3-642-31554-1 .