Корпусная лингвистика

Корпусная лингвистика — эмпирический метод изучения языка с помощью текстового корпуса (множественного числа корпусов ). ^[1] Corpora — это сбалансированные, часто стратифицированные коллекции аутентичных, «реальных», речевых или письменных текстов, целью которых является представление данного языкового разнообразия . ^[1] Сегодня корпуса обычно представляют собой машиночитаемые коллекции данных.

Корпусная лингвистика предполагает, что надежный анализ языка более возможен с использованием корпусов, собранных в полевых условиях - естественном контексте («реалии») этого языка - с минимальным экспериментальным вмешательством. Большие коллекции текста, хотя корпуса также могут быть небольшими с точки зрения количества слов, позволяют лингвистам проводить количественный анализ лингвистических концепций, которые может быть трудно проверить качественно. ^[2]

Метод текстового корпуса использует текст на любом естественном языке для получения набора абстрактных правил, которые управляют этим языком. Эти результаты можно использовать для изучения отношений между этим изучаемым языком и другими языками, подвергшимися аналогичному анализу. Первые такие корпуса создавались вручную на основе исходных текстов, но сейчас эта работа автоматизирована.

Corpora использовались не только для лингвистических исследований, но и с 1969 года они все чаще использовались для составления словарей (начиная со «Словаря американского наследия английского языка» в 1969 году) и справочных грамматик, а также «Всеобъемлющей грамматики английского языка» , опубликованной в 1985 год, впервые.

Эксперты в этой области имеют разные точки зрения на аннотацию корпуса. Эти взгляды варьируются от Джона Макхарди Синклера , который выступает за минимальное количество аннотаций, чтобы тексты говорили сами за себя, ^[3] группе по исследованию использования английского языка ( Университетский колледж , Лондон), которая выступает за аннотацию как средство, позволяющее лучше понять язык посредством тщательной записи. ^[4]

История [ править ]

Некоторые из самых ранних попыток грамматического описания были основаны, по крайней мере частично, на корпусах, имеющих особое религиозное или культурное значение. Например, в литературе пратишакхьи звуковые модели санскрита описываются в Ведах , а Панини Грамматика классического санскрита была основана, по крайней мере частично, на анализе того же корпуса. Точно так же ранние арабские грамматики уделяли особое внимание языку Корана . В западноевропейской традиции ученые готовили симфонии , позволяющие детально изучить язык Библии и других канонических текстов.

Английский корпус [ править ]

Вехой в современной корпусной лингвистике стала публикация « Компьютерного анализа современного американского английского языка» в 1967 году. Написанная Генри Кучерой и У. Нельсоном Фрэнсисом , работа была основана на анализе Коричневого корпуса , который представляет собой структурированный и сбалансированный корпус. одного миллиона слов американского английского с 1961 года. Корпус включает 2000 образцов текста разных жанров. ^[5] Коричневый корпус был первым компьютеризированным корпусом, предназначенным для лингвистических исследований. ^[6] Кучера и Фрэнсис подвергли Коричневый корпус множеству компьютерного анализа, а затем объединили элементы лингвистики, преподавания языков, психологии , статистики и социологии, чтобы создать богатый и разнообразный опус. Еще одной ключевой публикацией стала книга Рэндольфа Квирка «К описанию использования английского языка» 1960 года. ^[7] в котором он представил Исследование использования английского языка . Корпус Квирка был первым современным корпусом, созданным с целью представления всего языка. ^[8]

Вскоре после этого бостонское издательство Houghton-Mifflin обратилось к Кучере с просьбой предоставить трехстрочную базу цитирования из миллиона слов для его нового словаря американского наследия , первого словаря, составленного с использованием корпусной лингвистики. AHD ) предпринял инновационный шаг, объединив предписывающие элементы (как следует использовать язык с описательной информацией (как он на самом деле используется ).

Другие издатели последовали этому примеру. британского издателя Collins COBUILD Одноязычный словарь для учащихся , предназначенный для пользователей, изучающих английский как иностранный , был составлен с использованием Bank of English . Корпус исследования использования английского языка использовался при разработке одной из наиболее важных грамматик на основе корпуса, написанной Quirk et al. и опубликовано в 1985 году под названием «Всеобъемлющая грамматика английского языка» . ^[9]

Коричневый корпус также породил ряд корпусов с аналогичной структурой: LOB Corpus ( британский английский 1960-х годов ), Kolhapur ( индийский английский ), Wellington ( новозеландский английский ), Австралийский корпус английского языка ( австралийский английский ), Frown Corpus (начало 1990-х). американский английский ) и FLOB Corpus (британский английский 1990-х годов). Другие корпуса представляют множество языков, разновидностей и модусов и включают Международный корпус английского языка и Британский национальный корпус , коллекцию из 100 миллионов слов различных устных и письменных текстов, созданную в 1990-х годах консорциумом издателей, университетов ( Оксфорд и Ланкастер ) и Британская библиотека . застопорилась Что касается современного американского английского, работа над Американским национальным корпусом более 400 миллионов слов , но Корпус современного американского английского языка, насчитывающий (с 1990 года по настоящее время), теперь доступен через веб-интерфейс.

Первый компьютеризированный корпус транскрибированной разговорной речи был создан в 1971 году в рамках Монреальского французского проекта. ^[10] содержащий один миллион слов, который вдохновил Шану Поплак на создание гораздо большего корпуса разговорного французского языка в районе Оттава-Халл. ^[11]

Многоязычные корпуса [ править ]

В 1990-х годах многие из первых заметных успехов статистических методов программирования на естественном языке (НЛП) были достигнуты в области машинного перевода , в первую очередь благодаря работе в IBM Research. Эти системы смогли воспользоваться преимуществами существующих многоязычных текстовых корпусов , которые были созданы Парламентом Канады и Европейского Союза в результате принятия законов, требующих перевода всех правительственных процедур на все официальные языки соответствующих систем управления.

Есть корпуса и на неевропейских языках. Например, Национальный институт японского языка и лингвистики в Японии создал ряд корпусов устного и письменного японского языка. Корпуса языка жестов также были созданы с использованием видеоданных. ^[12]

Корпуса древних языков [ править ]

Помимо этих корпусов живых языков, компьютеризированные корпуса также были созданы из коллекций текстов на древних языках. Примером может служить база данных Андерсена -Форбса еврейской Библии, разрабатываемая с 1970-х годов, в которой каждое предложение анализируется с использованием графиков, представляющих до семи уровней синтаксиса, и каждый сегмент помечен семью полями информации. ^[13]^[14] Корпус арабского языка Корана на классическом арабском языке — это аннотированный корпус Корана . Это недавний проект с несколькими уровнями аннотаций, включая морфологическую сегментацию, разметку частей речи и синтаксический анализ с использованием грамматики зависимостей. ^[15] Цифровой корпус санскрита (DCS) - это «корпус санскритских текстов, разделенный по принципу Сандхи, с полным морфологическим и лексическим анализом... предназначенный для историко-текстовых исследований в области санскритской лингвистики и филологии». ^[16]

Корпора из определенных областей [ править ]

Помимо чисто лингвистических исследований, исследователи начали применять корпусную лингвистику в других академических и профессиональных областях, таких как развивающаяся субдисциплина права и корпусная лингвистика , которая стремится понять юридические тексты с использованием корпусных данных и инструментов. Набор данных DBLP Discovery посвящен информатике и содержит соответствующие публикации по информатике с важными метаданными, такими как принадлежность авторов, цитаты или области исследований. ^[17] Более сфокусированный набор данных был представлен NLP Scholar, представляющим собой комбинацию статей ACL Anthology и метаданных Google Scholar . ^[18] Corpora также может помочь в переводе. ^[19] или в преподавании иностранных языков. ^[20]

Методы [ править ]

Корпусная лингвистика породила ряд исследовательских методов, которые пытаются проследить путь от данных к теории. Уоллис и Нельсон (2001) ^[21] впервые представили то, что они назвали перспективой 3А: аннотация, абстракция и анализ.

Аннотация состоит из приложения схемы к текстам. Аннотации могут включать структурную разметку, частей речи теги , синтаксический анализ и множество других представлений.
Абстракция состоит из перевода (сопоставления) терминов схемы с терминами теоретически обоснованной модели или набора данных. Абстракция обычно включает в себя поиск под руководством лингвиста, но может включать, например, изучение правил для парсеров.
Анализ состоит из статистического исследования, манипулирования и обобщения набора данных. Анализ может включать статистические оценки, оптимизацию баз правил или методов обнаружения знаний.

Сегодня большинство лексических корпусов имеют теги частей речи (POS-теги). Однако даже корпусные лингвисты, работающие с «неаннотированным открытым текстом», неизбежно применяют тот или иной метод для выделения важных терминов. В таких ситуациях аннотация и абстракция объединяются в лексическом поиске.

Преимущество публикации аннотированного корпуса состоит в том, что другие пользователи могут затем проводить эксперименты с корпусом (через менеджеров корпуса ). Эту работу могут использовать лингвисты с другими интересами и точками зрения, отличными от взглядов авторов. Обмениваясь данными, корпусные лингвисты могут рассматривать корпус как место лингвистических дебатов и дальнейших исследований. ^[22]

См. также [ править ]

Примечания и ссылки [ править ]

^ Jump up to: Перейти обратно: ^а ^б Мейер, Чарльз Ф. (2023). Корпусная лингвистика английского языка (2-е изд.). Кембридж: Издательство Кембриджского университета. п. 4.
^ Ханстон, С. (1 января 2006 г.), «Корпус лингвистики» , Браун, Кейт (редактор), Энциклопедия языка и лингвистики (второе издание) , Оксфорд: Elsevier, стр. 234–248, doi : 10.1016/b0- 08-044854-2/00944-5 , ISBN 978-0-08-044854-1 , получено 31 октября 2023 г.
^ Синклер, Дж. «Автоматический анализ корпусов», в Свартвик, Дж. (ред.) Направления корпусной лингвистики (Материалы Нобелевского симпозиума 82) . Берлин: Мутон де Грюйтер. 1992.
^ Уоллис, С. «Аннотация, поиск и экспериментирование», в Меурман-Солин, А. и Нурми, А.А. (ред.). Аннотирование вариаций и изменений. Хельсинки: Вариенг, [Хельсинкский университет]. 2007. Электронное издание .
^ Фрэнсис, В. Нельсон; Кучера, Генри (1 июня 1967 г.). Компьютерный анализ современного американского английского . Провиденс: Издательство Университета Брауна. ISBN 978-0870571053 .
^ Кеннеди, Г. (1 января 2001 г.), «Корпус лингвистики» , в Смелзере, Нил Дж.; Балтес, Пол Б. (ред.), Международная энциклопедия социальных и поведенческих наук , Оксфорд: Пергамон, стр. 2816–2820, ISBN 978-0-08-043076-8 , получено 31 октября 2023 г.
^ Квирк, Рэндольф (ноябрь 1960 г.). «К описанию использования английского языка». Труды Филологического общества . 59 (1): 40–61. дои : 10.1111/j.1467-968X.1960.tb00308.x .
^ Кеннеди, Г. (1 января 2001 г.), «Корпус лингвистики» , в Смелзере, Нил Дж.; Балтес, Пол Б. (ред.), Международная энциклопедия социальных и поведенческих наук , Оксфорд: Пергамон, стр. 2816–2820, doi : 10.1016/b0-08-043076-7/03056-4 , ISBN 978-0-08-043076-8 , получено 31 октября 2023 г.
^ Квирк, Рэндольф; Гринбаум, Сидней; Лич, Джеффри; Свартвик, Ян (1985). Комплексная грамматика английского языка . Лондон: Лонгман. ISBN 978-0582517349 .
^ Санкофф, Дэвид; Санкофф, Джиллиан (1973). Дарнелл, Р. (ред.). «Методы выборочного опроса и компьютерного анализа при изучении грамматических вариаций». Канадские языки в их социальном контексте . Эдмонтон: Linguistic Research Incorporated: 7–63.
^ Поплак, Шана (1989). Фасолд, Р.; Шиффрин, Д. (ред.). «Уход за мегакорпусом и обращение с ним». Языковые изменения и вариации . Актуальные проблемы лингвистической теории. 52 . Амстердам: Бенджаминс: 411–451. дои : 10.1075/cilt.52.25pop . ISBN 978-90-272-3546-6 .
^ «Национальный центр ресурсов языка жестов и жестов при BU» www.bu.edu . Проверено 31 октября 2023 г.
^ Андерсен, Фрэнсис I.; Форбс, А. Дин (2003), «Визуализация грамматики иврита: I. Синтаксис», Древние исследования Ближнего Востока , том. 40, стр. 43–61 [45]
^ Эйланд, Э. Энн (1987), «Откровения из подсчета слов», в Ньюинге, Эдвард Г.; Конрад, Эдгар В. (ред.), Перспективы языка и текста: очерки и стихи в честь шестидесятилетия Фрэнсиса И. Андерсена, 28 июля 1985 г. , Вайнона Лейк, IN: Eisenbrauns , стр. 51, ISBN 0-931464-26-9
^ Дьюкс, К., Этвелл, Э. и Хабаш, Н. «Контролируемое сотрудничество в области синтаксических аннотаций арабского языка Корана». Языковые ресурсы и журнал оценки . 2011.
^ «Цифровой корпус санскрита (DCS)» . Проверено 28 июня 2022 г.
^ Вале, Ян Филип; Руас, Терри; Мохаммед, Саиф; Гипп, Бела (2022). «D3: Массивный набор научных метаданных для анализа состояния исследований в области компьютерных наук» . Материалы тринадцатой конференции по языковым ресурсам и оценке . Марсель, Франция: Европейская ассоциация языковых ресурсов: 2642–2651. arXiv : 2204.13384 .
^ Мохаммад, Саиф М. (2020). «Ученый НЛП: набор данных для изучения состояния исследований НЛП» . Материалы двенадцатой конференции по языковым ресурсам и оценке . Марсель, Франция: Европейская ассоциация языковых ресурсов: 868–877. ISBN 979-10-95546-34-4 .
^ Бернардини, С. (1 января 2006 г.), «Машиночитаемая корпорация» , Браун, Кейт (ред.), Энциклопедия языка и лингвистики (второе издание) , Оксфорд: Elsevier, стр. 358–375, doi : 10.1016/b0 -08-044854-2/00476-4 , ISBN 978-0-08-044854-1 , получено 31 октября 2023 г.
^ Майнц, Университет Иоганна Гутенберга. «Корпусная лингвистика | АНГЛИЙСКАЯ ЛИНГВИСТИКА» . Йоханнес Гутенберг-Университет Майнца (на немецком языке) . Проверено 31 октября 2023 г.
^ Уоллис, С. и Нельсон Г. Открытие знаний в грамматически проанализированных корпусах . Интеллектуальный анализ данных и обнаружение знаний , 5 : 307–340. 2001.
^ Бейкер, Пол; Эгберт, Джесси, ред. (2016). Триангуляция методологических подходов в корпусно-лингвистических исследованиях . Нью-Йорк: Рутледж.

Дальнейшее чтение [ править ]

Книги [ править ]

Бибер Д., Конрад С., Реппен Р. Корпусная лингвистика, Исследование структуры и использования языка , Кембридж: Кембриджский университет, 1998. ISBN 0-521-49957-7
Маккарти Д. и Сэмпсон Г. Корпусная лингвистика: материалы по расширяющейся дисциплине , Continuum, 2005. ISBN 0-8264-8803-X
Факкинетти, Р. Теоретическое описание и практическое применение лингвистических корпусов . Верона: QuiEdit, 2007. ISBN 978-88-89480-37-3
Факкинетти, Р. (ред.) Корпусная лингвистика 25 лет спустя . Нью-Йорк/Амстердам: Родопи, 2007 г. ISBN 978-90-420-2195-2
Факкинетти Р. и Риссанен М. (ред.) Корпусные исследования диахронического английского языка . Берн: Питер Ланг, 2006 г. ISBN 3-03910-851-4
Лендерс, В. Компьютерная лексикография и корпусная лингвистика до ок. 1970/1980 , в: Гаус Р.Х., Хайд У., Швейкард В., Виганд Х.Е. (ред.) Словари - Международная энциклопедия лексикографии. Дополнительный том: Последние разработки с акцентом на электронную и компьютерную лексикографию . Берлин: Де Грюйтер Мутон, 2013 г. ISBN 978-3112146651
Фусс, Эрик и др. (Ред.): Grammar and Corpora 2016 , Гейдельберг: Издательство Гейдельбергского университета, 2018. doi : 10.17885/heiup.361.509 ( цифровой открытый доступ ).
Стефанович А. 2020. Корпусная лингвистика: Руководство по методологии . Берлин: Language Science Press. ISBN 978-3-96110-225-9 , doi : 10.5281/zenodo.3735822 Открытый доступ https://langsci-press.org/catalog/book/148 .

Серия книг [ править ]

Серии книг в этой области включают:

Журналы [ править ]

Есть несколько международных рецензируемых журналов, посвященных корпусной лингвистике, например:

Корпора
Корпусная лингвистика и лингвистическая теория
Журнал ICAME
Международный журнал корпусной лингвистики
Журнал «Языковые ресурсы и оценка» , поддерживаемый Европейской ассоциацией языковых ресурсов.
Исследования в области корпусной лингвистики при поддержке Испанской ассоциации корпусной лингвистики (AELINCO).

Внешние ссылки [ править ]

Penn разобрал корпус исторического английского языка

[:0-1] Jump up to: Перейти обратно: ^а ^б Мейер, Чарльз Ф. (2023). Корпусная лингвистика английского языка (2-е изд.). Кембридж: Издательство Кембриджского университета. п. 4.

[2] Ханстон, С. (1 января 2006 г.), «Корпус лингвистики» , Браун, Кейт (редактор), Энциклопедия языка и лингвистики (второе издание) , Оксфорд: Elsevier, стр. 234–248, doi : 10.1016/b0- 08-044854-2/00944-5 , ISBN 978-0-08-044854-1 , получено 31 октября 2023 г.

[3] Синклер, Дж. «Автоматический анализ корпусов», в Свартвик, Дж. (ред.) Направления корпусной лингвистики (Материалы Нобелевского симпозиума 82) . Берлин: Мутон де Грюйтер. 1992.

[4] Уоллис, С. «Аннотация, поиск и экспериментирование», в Меурман-Солин, А. и Нурми, А.А. (ред.). Аннотирование вариаций и изменений. Хельсинки: Вариенг, [Хельсинкский университет]. 2007. Электронное издание .

[5] Фрэнсис, В. Нельсон; Кучера, Генри (1 июня 1967 г.). Компьютерный анализ современного американского английского . Провиденс: Издательство Университета Брауна. ISBN 978-0870571053 .

[6] Кеннеди, Г. (1 января 2001 г.), «Корпус лингвистики» , в Смелзере, Нил Дж.; Балтес, Пол Б. (ред.), Международная энциклопедия социальных и поведенческих наук , Оксфорд: Пергамон, стр. 2816–2820, ISBN 978-0-08-043076-8 , получено 31 октября 2023 г.

[7] Квирк, Рэндольф (ноябрь 1960 г.). «К описанию использования английского языка». Труды Филологического общества . 59 (1): 40–61. дои : 10.1111/j.1467-968X.1960.tb00308.x .

[8] Кеннеди, Г. (1 января 2001 г.), «Корпус лингвистики» , в Смелзере, Нил Дж.; Балтес, Пол Б. (ред.), Международная энциклопедия социальных и поведенческих наук , Оксфорд: Пергамон, стр. 2816–2820, doi : 10.1016/b0-08-043076-7/03056-4 , ISBN 978-0-08-043076-8 , получено 31 октября 2023 г.

[9] Квирк, Рэндольф; Гринбаум, Сидней; Лич, Джеффри; Свартвик, Ян (1985). Комплексная грамматика английского языка . Лондон: Лонгман. ISBN 978-0582517349 .

[10] Санкофф, Дэвид; Санкофф, Джиллиан (1973). Дарнелл, Р. (ред.). «Методы выборочного опроса и компьютерного анализа при изучении грамматических вариаций». Канадские языки в их социальном контексте . Эдмонтон: Linguistic Research Incorporated: 7–63.

[11] Поплак, Шана (1989). Фасолд, Р.; Шиффрин, Д. (ред.). «Уход за мегакорпусом и обращение с ним». Языковые изменения и вариации . Актуальные проблемы лингвистической теории. 52 . Амстердам: Бенджаминс: 411–451. дои : 10.1075/cilt.52.25pop . ISBN 978-90-272-3546-6 .

[12] «Национальный центр ресурсов языка жестов и жестов при BU» www.bu.edu . Проверено 31 октября 2023 г.

[13] Андерсен, Фрэнсис I.; Форбс, А. Дин (2003), «Визуализация грамматики иврита: I. Синтаксис», Древние исследования Ближнего Востока , том. 40, стр. 43–61 [45]

[14] Эйланд, Э. Энн (1987), «Откровения из подсчета слов», в Ньюинге, Эдвард Г.; Конрад, Эдгар В. (ред.), Перспективы языка и текста: очерки и стихи в честь шестидесятилетия Фрэнсиса И. Андерсена, 28 июля 1985 г. , Вайнона Лейк, IN: Eisenbrauns , стр. 51, ISBN 0-931464-26-9

[15] Дьюкс, К., Этвелл, Э. и Хабаш, Н. «Контролируемое сотрудничество в области синтаксических аннотаций арабского языка Корана». Языковые ресурсы и журнал оценки . 2011.

[16] «Цифровой корпус санскрита (DCS)» . Проверено 28 июня 2022 г.

[17] Вале, Ян Филип; Руас, Терри; Мохаммед, Саиф; Гипп, Бела (2022). «D3: Массивный набор научных метаданных для анализа состояния исследований в области компьютерных наук» . Материалы тринадцатой конференции по языковым ресурсам и оценке . Марсель, Франция: Европейская ассоциация языковых ресурсов: 2642–2651. arXiv : 2204.13384 .

[18] Мохаммад, Саиф М. (2020). «Ученый НЛП: набор данных для изучения состояния исследований НЛП» . Материалы двенадцатой конференции по языковым ресурсам и оценке . Марсель, Франция: Европейская ассоциация языковых ресурсов: 868–877. ISBN 979-10-95546-34-4 .

[19] Бернардини, С. (1 января 2006 г.), «Машиночитаемая корпорация» , Браун, Кейт (ред.), Энциклопедия языка и лингвистики (второе издание) , Оксфорд: Elsevier, стр. 358–375, doi : 10.1016/b0 -08-044854-2/00476-4 , ISBN 978-0-08-044854-1 , получено 31 октября 2023 г.

[20] Майнц, Университет Иоганна Гутенберга. «Корпусная лингвистика | АНГЛИЙСКАЯ ЛИНГВИСТИКА» . Йоханнес Гутенберг-Университет Майнца (на немецком языке) . Проверено 31 октября 2023 г.

[21] Уоллис, С. и Нельсон Г. Открытие знаний в грамматически проанализированных корпусах . Интеллектуальный анализ данных и обнаружение знаний , 5 : 307–340. 2001.

[22] Бейкер, Пол; Эгберт, Джесси, ред. (2016). Триангуляция методологических подходов в корпусно-лингвистических исследованиях . Нью-Йорк: Рутледж.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]