Корпусная лингвистика
Корпусная лингвистика — эмпирический метод изучения языка с помощью текстового корпуса (множественного числа корпусов ). [1] Corpora — это сбалансированные, часто стратифицированные коллекции аутентичных, «реальных», речевых или письменных текстов, целью которых является представление данного языкового разнообразия . [1] Сегодня корпуса обычно представляют собой машиночитаемые коллекции данных.
Корпусная лингвистика предполагает, что надежный анализ языка более возможен с использованием корпусов, собранных в полевых условиях - естественном контексте («реалии») этого языка - с минимальным экспериментальным вмешательством. Большие коллекции текста, хотя корпусы также могут быть небольшими с точки зрения количества слов, позволяют лингвистам проводить количественный анализ лингвистических концепций, которые может быть трудно проверить качественно. [2]
Метод текстового корпуса использует текст на любом естественном языке для получения набора абстрактных правил, которые управляют этим языком. Эти результаты можно использовать для изучения отношений между этим изучаемым языком и другими языками, подвергшимися аналогичному анализу. Первые такие корпуса создавались вручную на основе исходных текстов, но сейчас эта работа автоматизирована.
Corpora использовались не только для лингвистических исследований, но с 1969 года они все чаще использовались для составления словарей (начиная с «Словаря американского наследия английского языка» в 1969 году) и справочных грамматик, а также «Всеобъемлющей грамматики английского языка» , опубликованной в 1985 год, впервые.
Эксперты в этой области имеют разные точки зрения на аннотацию корпуса. Эти взгляды варьируются от Джона Макхарди Синклера , который выступает за минимальное количество аннотаций, чтобы тексты говорили сами за себя, [3] группе по исследованию использования английского языка ( Университетский колледж , Лондон), которая выступает за аннотацию как средство, позволяющее лучше понять язык посредством тщательной записи. [4]
История [ править ]
Часть серии о |
Лингвистика |
---|
![]() |
Некоторые из самых ранних попыток грамматического описания были основаны, по крайней мере частично, на корпусах, имеющих особое религиозное или культурное значение. Например, в литературе пратишакхьи звуковые модели санскрита описываются в Ведах , а Панини Грамматика классического санскрита была основана, по крайней мере частично, на анализе того же корпуса. Точно так же ранние арабские грамматики уделяли особое внимание языку Корана . В западноевропейской традиции ученые готовили симфонии , позволяющие детально изучить язык Библии и других канонических текстов.
Английский корпус [ править ]
Вехой в современной корпусной лингвистике стала публикация « Компьютерного анализа современного американского английского языка» в 1967 году. Написанная Генри Кучерой и У. Нельсоном Фрэнсисом , работа была основана на анализе Коричневого корпуса , который представляет собой структурированный и сбалансированный корпус. одного миллиона слов американского английского с 1961 года. Корпус включает 2000 образцов текста разных жанров. [5] Коричневый корпус был первым компьютеризированным корпусом, предназначенным для лингвистических исследований. [6] Кучера и Фрэнсис подвергли Коричневый корпус множеству компьютерного анализа, а затем объединили элементы лингвистики, преподавания языков, психологии , статистики и социологии, чтобы создать богатый и разнообразный опус. Еще одной ключевой публикацией стала книга Рэндольфа Квирка «К описанию использования английского языка» 1960 года. [7] в котором он представил Исследование использования английского языка . Корпус Квирка был первым современным корпусом, созданным с целью представления всего языка. [8]
Вскоре после этого бостонское издательство Houghton-Mifflin обратилось к Кучере с просьбой предоставить трехстрочную базу цитирования из миллиона слов для его нового словаря американского наследия , первого словаря , составленного с использованием корпусной лингвистики. AHD предпринял инновационный шаг , объединив предписывающие элементы (как следует использовать язык) с описательной информацией (как он на самом деле используется ).
Другие издатели последовали этому примеру. британского издателя Collins COBUILD Одноязычный словарь для учащихся , предназначенный для пользователей, изучающих английский как иностранный , был составлен с использованием Bank of English . Корпус исследования использования английского языка использовался при разработке одной из наиболее важных грамматик на основе корпуса, написанной Quirk et al. и опубликовано в 1985 году под названием « Всеобъемлющая грамматика английского языка» . [9]
Коричневый корпус также породил ряд корпусов с аналогичной структурой: LOB Corpus ( британский английский 1960-х годов ), Kolhapur ( индийский английский ), Wellington ( новозеландский английский ), Австралийский корпус английского языка ( австралийский английский ), Frown Corpus (начало 1990-х). американский английский ) и FLOB Corpus (британский английский 1990-х годов). Другие корпуса представляют множество языков, разновидностей и модусов и включают Международный корпус английского языка и Британский национальный корпус , коллекцию из 100 миллионов слов различных устных и письменных текстов, созданную в 1990-х годах консорциумом издателей, университетов ( Оксфорд и Ланкастер ) и Британская библиотека . застопорилась Что касается современного американского английского языка, работа над Американским национальным корпусом , но Корпус современного американского английского языка, насчитывающий более 400 миллионов слов (с 1990 года по настоящее время), теперь доступен через веб-интерфейс.
Первый компьютеризированный корпус транскрибированной разговорной речи был создан в 1971 году в рамках Монреальского французского проекта. [10] содержащий один миллион слов, который вдохновил Шану Поплак на создание гораздо большего корпуса разговорного французского языка в районе Оттава-Халл. [11]
Многоязычные корпуса [ править ]
В 1990-х годах многие из первых заметных успехов статистических методов программирования на естественном языке (НЛП) были достигнуты в области машинного перевода , особенно благодаря работе в IBM Research. Эти системы смогли воспользоваться преимуществами существующих многоязычных текстовых корпусов , которые были созданы Парламентом Канады и Европейским Союзом в результате принятия законов, требующих перевода всех правительственных процедур на все официальные языки соответствующих систем управления.
Есть корпуса и на неевропейских языках. Например, Национальный институт японского языка и лингвистики в Японии создал ряд корпусов устного и письменного японского языка. Корпуса языка жестов также были созданы с использованием видеоданных. [12]
Корпуса древних языков [ править ]
Помимо этих корпусов живых языков, компьютеризированные корпуса также были созданы из коллекций текстов на древних языках. Примером может служить база данных еврейской Библии Андерсена -Форбса, разрабатываемая с 1970-х годов, в которой каждое предложение анализируется с использованием графиков, представляющих до семи уровней синтаксиса, и каждый сегмент помечен семью полями информации. [13] [14] Корпус арабского языка Корана — это аннотированный корпус Корана на классическом арабском языке . Это недавний проект с несколькими уровнями аннотаций, включая морфологическую сегментацию, разметку частей речи и синтаксический анализ с использованием грамматики зависимостей. [15] Цифровой корпус санскрита (DCS) - это «корпус санскритских текстов, разделенный по принципу Сандхи, с полным морфологическим и лексическим анализом... предназначенный для историко-текстовых исследований в области санскритской лингвистики и филологии». [16]
Корпора из определенных областей [ править ]
Помимо чисто лингвистических исследований, исследователи начали применять корпусную лингвистику в других академических и профессиональных областях, таких как развивающаяся субдисциплина права и корпусная лингвистика , которая стремится понять юридические тексты с использованием корпусных данных и инструментов. Набор данных DBLP Discovery посвящен информатике и содержит соответствующие публикации по информатике с важными метаданными, такими как принадлежность авторов, цитаты или области исследований. [17] Более сфокусированный набор данных был представлен NLP Scholar, представляющим собой комбинацию статей ACL Anthology и метаданных Google Scholar . [18] Corpora также может помочь в переводе. [19] или в преподавании иностранных языков. [20]
Методы [ править ]
Корпусная лингвистика породила ряд исследовательских методов, которые пытаются проследить путь от данных к теории. Уоллис и Нельсон (2001) [21] впервые представили то, что они назвали перспективой 3А: аннотация, абстракция и анализ.
- Аннотация состоит из приложения схемы к текстам. Аннотации могут включать структурную разметку, теги частей речи , синтаксический анализ и множество других представлений.
- Абстракция состоит из перевода (сопоставления) терминов схемы с терминами теоретически обоснованной модели или набора данных. Абстракция обычно включает в себя поиск под руководством лингвиста, но может включать, например, изучение правил для парсеров.
- Анализ состоит из статистического исследования, манипулирования и обобщения набора данных. Анализ может включать статистические оценки, оптимизацию баз правил или методов обнаружения знаний.
Сегодня большинство лексических корпусов имеют теги частей речи (POS-теги). Однако даже корпусные лингвисты, работающие с «неаннотированным открытым текстом», неизбежно применяют тот или иной метод для выделения важных терминов. В таких ситуациях аннотация и абстракция объединяются в лексическом поиске.
Преимущество публикации аннотированного корпуса состоит в том, что другие пользователи могут затем проводить эксперименты с корпусом (через менеджеров корпуса ). Эту работу могут использовать лингвисты с другими интересами и точками зрения, отличными от взглядов авторов. Обмениваясь данными, корпусные лингвисты могут рассматривать корпус как место лингвистических дебатов и дальнейших исследований. [22]
См. также [ править ]
- Лингвистический атлас раннего среднеанглийского языка
- Коллокация
- Коллоструктурный анализ
- Согласие ( ключевое слово в контексте )
- Ключевое слово (лингвистика)
- Консорциум лингвистических данных
- Список корпусов текстов
- Машинный перевод
- Набор инструментов для естественного языка
- Грамматика шаблонов
- Поисковые системы : они получают доступ к «веб-корпусу»
- Семантическая просодия
- Речевой корпус
- Текстовый корпус
- Память переводов
- Древесный берег
- Список слов
Примечания и ссылки [ править ]
- ^ Перейти обратно: а б Мейер, Чарльз Ф. (2023). Корпусная лингвистика английского языка (2-е изд.). Кембридж: Издательство Кембриджского университета. п. 4.
- ^ Ханстон, С. (1 января 2006 г.), «Корпус лингвистики» , Браун, Кейт (редактор), Энциклопедия языка и лингвистики (второе издание) , Оксфорд: Elsevier, стр. 234–248, doi : 10.1016/b0- 08-044854-2/00944-5 , ISBN 978-0-08-044854-1 , получено 31 октября 2023 г.
- ^ Синклер, Дж. «Автоматический анализ корпусов», в Свартвик, Дж. (ред.) Направления корпусной лингвистики (Материалы Нобелевского симпозиума 82) . Берлин: Мутон де Грюйтер. 1992.
- ^ Уоллис, С. «Аннотация, поиск и экспериментирование», в Меурман-Солин, А. и Нурми, А.А. (ред.). Аннотирование вариаций и изменений. Хельсинки: Вариенг, [Хельсинкский университет]. 2007. Электронное издание.
- ^ Фрэнсис, В. Нельсон; Кучера, Генри (1 июня 1967 г.). Компьютерный анализ современного американского английского . Провиденс: Издательство Университета Брауна. ISBN 978-0870571053 .
- ^ Кеннеди, Г. (1 января 2001 г.), «Корпус лингвистики» , в Смелзере, Нил Дж.; Балтес, Пол Б. (ред.), Международная энциклопедия социальных и поведенческих наук , Оксфорд: Пергамон, стр. 2816–2820, ISBN 978-0-08-043076-8 , получено 31 октября 2023 г.
- ^ Квирк, Рэндольф (ноябрь 1960 г.). «К описанию использования английского языка». Труды Филологического общества . 59 (1): 40–61. дои : 10.1111/j.1467-968X.1960.tb00308.x .
- ^ Кеннеди, Г. (1 января 2001 г.), «Корпус лингвистики» , в Смелзере, Нил Дж.; Балтес, Пол Б. (ред.), Международная энциклопедия социальных и поведенческих наук , Оксфорд: Пергамон, стр. 2816–2820, doi : 10.1016/b0-08-043076-7/03056-4 , ISBN 978-0-08-043076-8 , получено 31 октября 2023 г.
- ^ Квирк, Рэндольф; Гринбаум, Сидней; Лич, Джеффри; Свартвик, Ян (1985). Комплексная грамматика английского языка . Лондон: Лонгман. ISBN 978-0582517349 .
- ^ Санкофф, Дэвид; Санкофф, Джиллиан (1973). Дарнелл, Р. (ред.). «Методы выборочного опроса и компьютерный анализ при изучении грамматических вариаций». Канадские языки в их социальном контексте . Эдмонтон: Linguistic Research Incorporated: 7–63.
- ^ Поплак, Шана (1989). Фасолд, Р.; Шиффрин, Д. (ред.). «Уход за мегакорпусом и обращение с ним». Языковые изменения и вариации . Актуальные проблемы лингвистической теории. 52 . Амстердам: Бенджаминс: 411–451. дои : 10.1075/cilt.52.25pop . ISBN 978-90-272-3546-6 .
- ^ «Национальный центр ресурсов языка жестов и жестов при BU» www.bu.edu . Проверено 31 октября 2023 г.
- ^ Андерсен, Фрэнсис I .; Форбс, А. Дин (2003), «Визуализация грамматики иврита: I. Синтаксис», Древние исследования Ближнего Востока , том. 40, стр. 43–61 [45]
- ^ Эйланд, Э. Энн (1987), «Откровения из подсчета слов», в Ньюинге, Эдвард Г.; Конрад, Эдгар В. (ред.), Перспективы языка и текста: очерки и стихи в честь шестидесятилетия Фрэнсиса И. Андерсена, 28 июля 1985 г. , Вайнона Лейк, IN: Eisenbrauns , стр. 51, ISBN 0-931464-26-9
- ^ Дьюкс, К., Этвелл, Э. и Хабаш, Н. «Контролируемое сотрудничество в области синтаксических аннотаций арабского языка Корана». Языковые ресурсы и журнал оценки . 2011.
- ^ «Цифровой корпус санскрита (DCS)» . Проверено 28 июня 2022 г.
- ^ Вале, Ян Филип; Руас, Терри; Мохаммед, Саиф; Гипп, Бела (2022). «D3: Массивный набор научных метаданных для анализа состояния исследований в области компьютерных наук» . Материалы тринадцатой конференции по языковым ресурсам и оценке . Марсель, Франция: Европейская ассоциация языковых ресурсов: 2642–2651. arXiv : 2204.13384 .
- ^ Мохаммад, Саиф М. (2020). «Ученый НЛП: набор данных для изучения состояния исследований НЛП» . Материалы двенадцатой конференции по языковым ресурсам и оценке . Марсель, Франция: Европейская ассоциация языковых ресурсов: 868–877. ISBN 979-10-95546-34-4 .
- ^ Бернардини, С. (1 января 2006 г.), «Машиночитаемая корпорация» , Браун, Кейт (ред.), Энциклопедия языка и лингвистики (второе издание) , Оксфорд: Elsevier, стр. 101–116. 358–375, doi : 10.1016/b0-08-044854-2/00476-4 , ISBN 978-0-08-044854-1 , получено 31 октября 2023 г.
- ^ Майнц, Университет Иоганна Гутенберга. «Корпусная лингвистика | АНГЛИЙСКАЯ ЛИНГВИСТИКА» . Йоханнес Гутенберг-Университет Майнца (на немецком языке) . Проверено 31 октября 2023 г.
- ^ Уоллис, С. и Нельсон Г. Открытие знаний в грамматически проанализированных корпусах . Интеллектуальный анализ данных и обнаружение знаний , 5 : 307–340. 2001.
- ^ Бейкер, Пол; Эгберт, Джесси, ред. (2016). Триангуляция методологических подходов в корпусно-лингвистических исследованиях . Нью-Йорк: Рутледж.
Дальнейшее чтение [ править ]
Книги [ править ]
- Бибер Д., Конрад С., Реппен Р. Корпусная лингвистика, Исследование структуры и использования языка , Кембридж: Кембриджский университет, 1998. ISBN 0-521-49957-7
- Маккарти Д. и Сэмпсон Г. Корпусная лингвистика: материалы по расширяющейся дисциплине , Continuum, 2005. ISBN 0-8264-8803-X
- Факкинетти, Р. Теоретическое описание и практическое применение лингвистических корпусов . Верона: QuiEdit, 2007. ISBN 978-88-89480-37-3
- Факкинетти, Р. (ред.) Корпусная лингвистика 25 лет спустя . Нью-Йорк/Амстердам: Родопи, 2007 г. ISBN 978-90-420-2195-2
- Факкинетти Р. и Риссанен М. (ред.) Корпусные исследования диахронического английского языка . Берн: Питер Ланг, 2006 г. ISBN 3-03910-851-4
- Лендерс, В. Компьютерная лексикография и корпусная лингвистика до ок. 1970/1980 , в: Гаус Р.Х., Хайд У., Швейкард В., Виганд Х.Е. (ред.) Словари - Международная энциклопедия лексикографии. Дополнительный том: Последние разработки с акцентом на электронную и компьютерную лексикографию . Берлин: Де Грюйтер Мутон, 2013 г. ISBN 978-3112146651
- Фусс, Эрик и др. (Ред.): Grammar and Corpora 2016 , Гейдельберг: Издательство Гейдельбергского университета, 2018. doi : 10.17885/heiup.361.509 ( цифровой открытый доступ ).
- Стефанович А. 2020. Корпусная лингвистика: Руководство по методологии . Берлин: Language Science Press. ISBN 978-3-96110-225-9 , doi : 10.5281/zenodo.3735822 Открытый доступ https://langsci-press.org/catalog/book/148 .
Серия книг [ править ]
Серии книг в этой области включают:
- Язык и компьютеры (Брилл)
- Исследования в области корпусной лингвистики (Джон Бенджаминс)
- Корпусная лингвистика английского языка (Питер Лэнг)
- Корпус и дискурс (Блумсбери)
Журналы [ править ]
Есть несколько международных рецензируемых журналов, посвященных корпусной лингвистике, например:
- Корпора
- Корпусная лингвистика и лингвистическая теория
- Журнал ICAME
- Международный журнал корпусной лингвистики
- Журнал «Языковые ресурсы и оценка» , поддерживаемый Европейской ассоциацией языковых ресурсов.
- Исследования в области корпусной лингвистики при поддержке Испанской ассоциации корпусной лингвистики (AELINCO).
Внешние ссылки [ править ]
![](http://upload.wikimedia.org/wikipedia/en/thumb/4/4a/Commons-logo.svg/30px-Commons-logo.svg.png)