Лингвистические категории
Лингвистические категории включают в себя
- Лексическая категория , часть речи, такая как существительное , предлог и т. д.
- Синтаксическая категория — аналогичное понятие, которое также может включать фразовые категории.
- Грамматическая категория , грамматический признак, такой как время , род и т. д.
Определение лингвистических категорий является основной задачей лингвистической теории , и, таким образом, определение и наименование категорий различаются в зависимости от различных теоретических основ и грамматических традиций разных языков. Операционализация . лингвистических категорий в лексикографии , компьютерной лингвистике , обработке естественного языка , корпусной лингвистике и управлении терминологией обычно требует определения лингвистических категорий с учетом ресурсов, проблем или приложений В когнитивной лингвистике утверждалось, что лингвистические категории имеют структуру прототипов, подобную структуре категорий общих слов в языке. [1]
Реестр лингвистических категорий
[ редактировать ]Чтобы облегчить взаимодействие между лексическими ресурсами , лингвистическими аннотациями и инструментами аннотации, а также для систематической обработки лингвистических категорий в различных теоретических рамках, был разработан и используется ряд перечней лингвистических категорий, примеры которых приведены ниже. Практическая цель таких реестров — выполнить количественную оценку (для языковых реестров), обучить инструментам НЛП или облегчить межлингвистическую оценку, запрос или аннотирование языковых данных. На теоретическом уровне существование универсальных категорий в человеческом языке постулировалось, например, в Универсальной грамматике , но также подвергалось резкой критике .
Наборы тегов части речи
[ редактировать ]что в английском языке существует 9 частей речи : существительное , глагол , артикль , прилагательное , предлог , наречие местоимение , союз , междометие и В школах обычно учат , . Однако очевидно, что существует гораздо больше категорий и подкатегорий. У существительных различают формы множественного, притяжательного и единственного числа. Во многих языках слова обозначаются также по падежу (роли подлежащего, дополнения и т. д.), грамматическому роду и т. д.; в то время как глаголы отмечены временем , видом и другими вещами. В некоторых системах тегов разные варианты изменения одного и того же корневого слова получают разные части речи, что приводит к большому количеству тегов. Например, NN для нарицательных существительных в единственном числе, NNS для нарицательных существительных во множественном числе, NP для имен собственных в единственном числе (см. теги POS , используемые в Brown Corpus). Другие системы тегов используют меньшее количество тегов и игнорируют мелкие различия или моделируют их как функции, несколько независимые от части речи. [2]
При компьютерной разметке частей речи для английского языка типично различать от 50 до 150 отдельных частей речи. Работа с тегами POS выполнялась на разных языках, и набор используемых тегов POS сильно различается в зависимости от языка. Теги обычно разрабатываются так, чтобы включать явные морфологические различия, хотя это приводит к несоответствиям, таким как маркировка регистра для местоимений, но не для существительных в английском языке, а также к гораздо большим межъязыковым различиям. Наборы тегов для сильно изменяемых языков, таких как греческий и латынь, могут быть очень большими; пометить слова в агглютинативных языках, таких как языки инуитов, может быть практически невозможно. В работе над стохастическими методами маркировки греческого койне (DeRose, 1990) использовалось более 1000 частей речи, и было обнаружено, что в этом языке примерно столько же слов двусмысленны , сколько и в английском. Морфосинтаксический дескриптор в случае морфологически богатых языков обычно выражается с использованием очень коротких мнемоник, таких как Ncmsan для Категория = Существительное, Тип = общий, Пол = мужской род, Число = единственное число, Падеж = винительный падеж, Оживление = нет.
Самым популярным «набором тегов» для маркировки POS-терминалов для американского английского языка, вероятно, является набор тегов Penn, разработанный в рамках проекта Penn Treebank.
Многоязычные схемы аннотаций
[ редактировать ]были разработаны применимые кросс-лингвистически схемы аннотации частей речи, морфосинтаксиса и синтаксиса Для западноевропейских языков в соответствии с Руководством EAGLES . «Экспертная консультативная группа по стандартам языковой инженерии» (EAGLES) была инициативой Европейской комиссии и инженерии DG XIII , которая осуществлялась в рамках программы лингвистических исследований с 1994 по 1998 год, координируемой Consorzio Pisa Ricerche, Пиза, Италия. Рекомендации EAGLES содержат рекомендации по разметке , которая будет использоваться с текстовыми корпусами , особенно для определения функций, важных для компьютерной лингвистики и лексикографии .Многочисленные компании, исследовательские центры, университеты и профессиональные организации по всему Европейскому Союзу совместно разработали Руководство EAGLES, в котором изложены рекомендации по фактическим стандартам и правилам передовой практики для: [3]
- Крупномасштабные языковые ресурсы (такие как текстовые корпуса, вычислительные словари и речевые корпуса );
- Средства манипулирования такими знаниями с помощью компьютерных лингвистических формализмов, языков разметки и различных программных инструментов;
- Средства оценки и анализа ресурсов, инструментов и продуктов.
Рекомендации Иглса вдохновили на последующую работу и в других регионах, например, в Восточной Европе. [4]
Поколение спустя аналогичные усилия были инициированы исследовательским сообществом под эгидой организации Universal Dependency . Петров и др. [5] [6] предложили «универсальный», но весьма редукционистский набор тегов с 12 категориями (например, без подтипов существительных, глаголов, знаков препинания и т. д.; без различия между «to» как маркером инфинитива и предлогом (вряд ли это «to»). «универсальное» совпадение) и др.). Впоследствии это было дополнено межъязыковыми спецификациями синтаксиса зависимостей (Стэнфордские зависимости), [7] и морфосинтаксис (Interset interlingua, [8] частично основываясь на традиции Multext- East/Eagles) в контексте Universal Dependances (UD), международного совместного проекта по созданию древовидных банков языков мира с кросс-лингвистически применимыми («универсальными») аннотациями для частей речи, зависимостей синтаксис и (необязательно) морфосинтаксические (морфологические) особенности. Основными приложениями являются автоматизированная обработка текста в области обработки естественного языка (NLP) и исследования синтаксиса и грамматики естественного языка, особенно в рамках лингвистической типологии . Схема аннотаций уходит корнями в три связанных проекта: Схема аннотаций UD использует представление в виде деревьев зависимостей , а не деревьев структуры фраз . По состоянию на февраль 2019 года в инвентаре UD имеется чуть более 100 деревьев на более чем 70 языках. [9] Основная цель проекта — добиться межъязыковой согласованности аннотаций. Однако для морфологических функций разрешены расширения для конкретного языка (отдельные языки или ресурсы могут добавлять дополнительные функции). В более ограниченной форме отношения зависимости могут быть расширены с помощью вторичной метки, которая сопровождает метку UD, например, aux:pass для вспомогательного слова (UD aux ), используемого для обозначения пассивного залога. [10]
Универсальные зависимости вдохновили аналогичные усилия в области флективной морфологии. [11] семантика фрейма [12] и кореференция . [13] Что касается синтаксиса фразовой структуры , похоже, что подобных усилий не существует, но спецификации Penn Treebank были применены (и расширены) к широкому кругу языков. [14] например, исландский, [15] Старый английский, [16] среднеанглийский, [17] средненижненемецкий, [18] ранний современный верхненемецкий, [19] Идиш, [20] Португальский, [21] японский, [22] арабский [23] и китайский. [24]
Условные обозначения для подстрочных глянцев
[ редактировать ]В лингвистике подстрочный глосс — это глосса (серия кратких пояснений, например определений или произношений), помещаемых между строками ( интер- + линейный ), например, между строкой исходного текста и его переводом на другой язык . При глоссировании каждая строка исходного текста приобретает одну или несколько строк транскрипции, известных как подстрочный текст или подстрочный глоссированный текст (IGT) — для краткости подстрочный. Такие глоссы помогают читателю проследить связь между исходным текстом и его переводом, а также структуру языка оригинала. Стандартного перечня глянцевых материалов не существует, но общие этикетки собраны в Лейпцигских правилах глянцевания. [25] Arc.Ask3.Ru также предоставляет список сокращений , основанный на этом и других источниках.
Общая онтология лингвистического описания (GOLD)
[ редактировать ]GOLD («Общая онтология лингвистического описания») — онтология описательной лингвистики . Он дает формализованное описание самых основных категорий и отношений, используемых в научном описании человеческого языка, например, в виде формализации подстрочных толкований. ЗОЛОТО было впервые представлено Фарраром и Лангендоеном (2003). [26] Первоначально он был задуман как решение проблемы разрешения несопоставимых схем разметки лингвистических данных, в частности данных из языков, находящихся под угрозой исчезновения . Однако GOLD имеет гораздо более общий характер и может применяться ко всем языкам. В этой функции GOLD пересекается с реестром категорий данных ISO 12620 (ISOcat); однако он более жестко структурирован.
ЗОЛОТО поддерживалось LINGUIST List и другими организациями с 2007 по 2010 год. [27] Проект RELISH создал зеркало издания GOLD 2010 года как выбор категории данных в ISOcat. По состоянию на 2018 год данные GOLD остаются важным терминологическим центром в контексте облака лингвистических связанных открытых данных , но, поскольку они больше не поддерживаются активно, их функция все чаще заменяется OLiA (для лингвистических аннотаций на основе GOLD и ISOcat) и lexinfo.net (для метаданных словаря на основе ISOcat).
ISO 12620 (Реестр категорий данных ISO TC37, ISOcat)
[ редактировать ]ISO 12620 — это стандарт ISO /TC 37 , который определяет реестр категорий данных — реестр для регистрации лингвистических терминов, используемых в различных областях перевода , компьютерной лингвистики и обработки естественного языка , а также определяет сопоставления как между разными терминами, так и между одними и теми же терминами, используемыми в разных областях. системы. [28] [29] [30]
Более ранняя реализация этого стандарта, ISOcat, предоставляет постоянные идентификаторы и URI для лингвистических категорий, включая реестр онтологии GOLD (см. ниже). Цель реестра состоит в том, чтобы новые системы могли повторно использовать существующую терминологию или, по крайней мере, легко сопоставляться с существующей терминологией для обеспечения совместимости . [31] Этот стандарт используется другими стандартами, такими как Lexical Markup Framework (ISO 24613:2008), и в реестр добавлен ряд терминологий, включая рекомендации Eagles, Национальный корпус польского языка и формат TermBase eXchange из библиотеки локализации. Ассоциация отраслевых стандартов .
Однако текущая редакция ISO 12620:2019 [32] больше не предоставляет реестр терминов для языковых технологий и терминологии, но теперь ограничен терминологическими ресурсами, отсюда и пересмотренное название «Управление терминологическими ресурсами — спецификации категорий данных». Соответственно, ISOcat больше не разрабатывается активно. [33] По состоянию на май 2020 г. системы-преемники реестра концепций CLARIN. [34] и ДатКатИнфо [35] только появляются.
Для лингвистических категорий, относящихся к лексическим ресурсам , словарь lexinfo представляет собой установленный стандарт сообщества. [36] в частности, в связи со словарем OntoLex и машиночитаемыми словарями в контексте технологий лингвистических связанных открытых данных . Подобно тому, как словарь OntoLex основан на платформе лексической разметки (LMF), lexinfo основан на ISOcat (раздел LMF). [37] Однако, в отличие от ISOcat, lexinfo активно поддерживается и в настоящее время (май 2020 г.) расширяется усилиями сообщества. [38]
Онтологии лингвистических аннотаций (OLiA)
[ редактировать ]Подобно GOLD, Онтологии лингвистических аннотаций (OLiA) предоставляют справочный перечень лингвистических категорий для синтаксических, морфологических и семантических явлений, имеющих отношение к лингвистическим аннотациям и лингвистическим корпусам, в форме онтологии . Кроме того, они также предоставляют машиночитаемые схемы аннотаций для более чем 100 языков, связанные с эталонной моделью OLiA. [39] Онтологии OLiA представляют собой основной центр терминологии аннотаций в облаке (лингвистических) связанных открытых данных с приложениями для поиска, извлечения и машинного обучения на гетерогенно аннотированных языковых ресурсах. [37]
Помимо схем аннотаций, эталонная модель OLiA также связана с Руководством Eagles, [40] ЗОЛОТО, [40] ISOcat, [41] Реестр концепций CLARIN, [42] Универсальные зависимости, [43] лексинфо, [43] и т. д., таким образом, они обеспечивают совместимость между этими словарями. OLiA разрабатывается как проект сообщества на GitHub. [44]
Ссылки
[ редактировать ]- ^ Джон Р. Тейлор (1995) Лингвистическая категоризация: прототипы в лингвистической теории , 2-е изд., глава 2, стр.21
- ^ Универсальные POS-теги
- ^ Основы EAGLES
- ^ Димитрова Л., Иде Н., Петкевич В., Эрьявец Т., Каалеп Х.Дж. и Туфис Д. (1998, август). Мультитекст-восток: параллельные и сопоставимые корпуса и словари для шести языков Центральной и Восточной Европы . В материалах 17-й международной конференции по компьютерной лингвистике. Том 1 (стр. 315–319). Ассоциация компьютерной лингвистики.
- ^ Петров, славянин; Дас, Дипанджан; Макдональд, Райан (11 апреля 2011 г.). «Универсальный набор тегов части речи». arXiv : 1104.2086 [ cs.CL ].
- ^ Петров, Слав (11 апреля 2011 г.). «Универсальный набор тегов части речи». arXiv : 1104.2086 [ cs.CL ].
- ^ «Стэнфордские зависимости» . nlp.stanford.edu . Стэнфордская группа обработки естественного языка . Проверено 8 мая 2020 г.
- ^ «Интерсет» . cuni.cz. Институт формальной и прикладной лингвистики (Чехия) . Проверено 8 мая 2020 г.
- ^ «Универсальные зависимости» . универсальные зависимости.org . Проверено 14 мая 2020 г.
- ^ "aux: пройти" . универсальные зависимости.org . Проверено 14 мая 2020 г.
- ^ УниМорф. «UniMorph: Универсальная морфологическая аннотация» . УниМорф . Проверено 14 мая 2020 г.
- ^ System-T/UniversalPropositions , System-T, 14 мая 2020 г. , получено 14 мая 2020 г.
- ^ Прейндж Дж., Шнайдер Н. и Абенд О. (август 2019 г.). Семантически ограниченная многослойная аннотация: случай кореференции . В материалах Первого международного семинара по проектированию смысловых представлений (стр. 164-176).
- ^ «Пеннский анализ исторического английского языка: другой корпус» . www.ling.upenn.edu . Проверено 14 мая 2020 г.
- ^ «Разобранный исторический корпус исландского языка (IcePaHC)» . www.linguist.is . Проверено 14 мая 2020 г.
- ^ Уорнер, Энтони, факультет языка и лингвистических наук Йоркского университета; Йорк; Тейлор, Энн; Уорнер, Энтони; Пинцук, Сьюзен; Бетс, Фрэнк (сентябрь 2003 г.). «Разобранный корпус древнеанглийской прозы Йорка-Торонто-Хельсинки (YCOE)» .
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ «Разобранный корпус среднеанглийского языка Пенн-Хельсинки 2» . www.ling.upenn.edu . Проверено 14 мая 2020 г.
- ^ «Корпус исторического нижненемецкого языка» . www.chlg.ac.uk. Проверено 14 мая 2020 г.
- ^ Лайт, К., и Валленберг, Дж. (2011). Об употреблении пассивов в германском языке. Представлено на 13-м заседании конференции по диахроническому генеративному синтаксису (DIGS) DIGS 13, Университет Пенсильвании. 5 июня 2011 г.
- ^ Беатрис Санторини (1993) [./ Ftp://babel.ling.upenn.edu/papers/faculty/beatrice%20santorini/santorini-1993.pdf Скорость изменения структуры фраз в истории идиша]. Языковые вариации и изменения 5, 257–283.
- ^ «Проект Тихо Браге» . www.tycho.iel.unicamp.br . Проверено 14 мая 2020 г.
- ^ «NPCMJ - Разобранный корпус современного японского языка Нинджала» . Проверено 14 мая 2020 г.
- ^ «Арабский Treebank: Часть 3 (полный корпус) v 2.0 (MPG + Синтаксический анализ) - Консорциум лингвистических данных» . каталог.ldc.upenn.edu . Проверено 14 мая 2020 г.
- ^ «Проект Penn Chinese Treebank» . verbs.colorado.edu . Проверено 14 мая 2020 г.
- ^ Комри Б., Хаспельмат М. и Бикель Б. (2008). Лейпцигские правила глоссирования: соглашения для подстрочных поморфемных глосс . Кафедра лингвистики Института эволюционной антропологии Макса Планка и кафедра лингвистики Лейпцигского университета. Проверено января 28 2010 г.
- ^ Скотт Фаррар и Д. Теренс Лангендоен (2003) «Лингвистическая онтология для семантической сети». ГЛОТ Интернешнл. 7 (3), стр. 97-100, [1] .
- ^ ЗОЛОТЫЕ версии
- ^ «ISO 12620:1999 – Компьютерные приложения в терминологии. Категории данных» . iso.org . 2011 . Проверено 9 ноября 2011 г.
- ^ «ISO 12620:2009. Терминология и другие языковые и контентные ресурсы. Спецификация категорий данных и управление реестром категорий данных для языковых ресурсов» . iso.org . 2011 . Проверено 9 ноября 2011 г.
- ^ «ISO 12620:2019 Управление терминологическими ресурсами. Спецификации категорий данных» . ИСО . Проверено 20 января 2020 г.
- ^ Бононно, Роберт (2011). «Терминология для переводчиков – реализация стандарта ISO 12620». Мета . 45 (4): 646–669. CiteSeerX 10.1.1.136.4771 . дои : 10.7202/002101ар .
- ^ «ISO 12620:2019 Управление терминологическими ресурсами. Спецификации категорий данных» . ИСО . Проверено 20 января 2020 г.
- ^ «Репозиторий категорий данных (DCR) изменил адрес» . www.iso.org . Проверено 8 мая 2020 г.
- ^ «Реестр концепций CLARIN | CLARIN ERIC» . www.clarin.eu . Проверено 8 мая 2020 г.
- ^ «ДатКатИнфо» . www.datcatinfo.net . Проверено 8 мая 2020 г.
- ^ «ЛексИнфо» . www.lexinfo.net . Проверено 14 мая 2020 г.
- ^ Перейти обратно: а б Чимиано П., Кьяркос К., МакКрэй Дж. П. и Грасия Дж. (2020). Лингвистические связанные данные (стр. 137-160). Спрингер, Чам.
- ^ ontolex/lexinfo , Группа сообщества OntoLex, 07 марта 2020 г. , получено 14 мая 2020 г.
- ^ «Онтологии ОЛиА» . purl.org/olia . Проверено 14 мая 2020 г.
- ^ Перейти обратно: а б Кьяркос, К. (2008). Онтология лингвистических аннотаций . В ЛДВ Форуме (Том 23, № 1, стр. 1-16).
- ^ Кьяркос, К. (2010, май). Обоснование онтологии лингвистических аннотаций в реестре категорий данных . На семинаре LREC 2010 по стандартам языковых ресурсов и языковых технологий (LT<S), Валетта, Мальта (стр. 37-40).
- ^ Рем, Г., Галанис, Д., Лабропулу, П., Пиперидис, С., Велсс, М., Усбек, Р. и др. (2020). На пути к совместимой экосистеме платформ искусственного интеллекта и LT: дорожная карта для реализации различных уровней совместимости. Препринт arXiv arXiv : 2004.08355 .
- ^ Перейти обратно: а б Кристиан Кьяркос, Максим Ионов и Кристиан Фет (2020), Совместимость аннотаций в эпоху после ISOcat, LREC 2020
- ^ acoli-repo/olia , ACoLi, 10 марта 2020 г. , получено 14 мая 2020 г.