~~~~~~~~~~~~~~~~~~~~ Arc.Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~ 
Номер скриншота №:
✰ FE634F49062AFE5B5E1E823221ADDAB0__1718032920 ✰
Заголовок документа оригинал.:
✰ Corpus linguistics - Wikipedia ✰
Заголовок документа перевод.:
✰ Корпусная лингвистика — Википедия ✰
Снимок документа находящегося по адресу (URL):
✰ https://en.wikipedia.org/wiki/Corpus_linguistics ✰
Адрес хранения снимка оригинал (URL):
✰ https://arc.ask3.ru/arc/aa/fe/b0/fe634f49062afe5b5e1e823221addab0.html ✰
Адрес хранения снимка перевод (URL):
✰ https://arc.ask3.ru/arc/aa/fe/b0/fe634f49062afe5b5e1e823221addab0__translat.html ✰
Дата и время сохранения документа:
✰ 12.06.2024 23:16:50 (GMT+3, MSK) ✰
Дата и время изменения документа (по данным источника):
✰ 10 June 2024, at 18:22 (UTC). ✰ 

~~~~~~~~~~~~~~~~~~~~~~ Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~~ 
Сервисы Ask3.ru: 
 Архив документов (Снимки документов, в формате HTML, PDF, PNG - подписанные ЭЦП, доказывающие существование документа в момент подписи. Перевод сохраненных документов на русский язык.)https://arc.ask3.ruОтветы на вопросы (Сервис ответов на вопросы, в основном, научной направленности)https://ask3.ru/answer2questionТоварный сопоставитель (Сервис сравнения и выбора товаров) ✰✰
✰ https://ask3.ru/product2collationПартнерыhttps://comrades.ask3.ru


Совет. Чтобы искать на странице, нажмите Ctrl+F или ⌘-F (для MacOS) и введите запрос в поле поиска.
Arc.Ask3.ru: далее начало оригинального документа

Корпусная лингвистика — Википедия Jump to content

Корпусная лингвистика

Из Википедии, бесплатной энциклопедии

Корпусная лингвистика — эмпирический метод изучения языка с помощью текстового корпуса (множественного числа корпусов ). [1] Corpora — это сбалансированные, часто стратифицированные коллекции аутентичных, «реальных», речевых или письменных текстов, целью которых является представление данного языкового разнообразия . [1] Сегодня корпуса обычно представляют собой машиночитаемые коллекции данных.

Корпусная лингвистика предполагает, что надежный анализ языка более возможен с использованием корпусов, собранных в полевых условиях - естественном контексте («реалии») этого языка - с минимальным экспериментальным вмешательством. Большие коллекции текста, хотя корпусы также могут быть небольшими с точки зрения количества слов, позволяют лингвистам проводить количественный анализ лингвистических концепций, которые может быть трудно проверить качественно. [2]

Метод текстового корпуса использует текст на любом естественном языке для получения набора абстрактных правил, которые управляют этим языком. Эти результаты можно использовать для изучения отношений между этим изучаемым языком и другими языками, подвергшимися аналогичному анализу. Первые такие корпуса создавались вручную на основе исходных текстов, но сейчас эта работа автоматизирована.

Corpora использовались не только для лингвистических исследований, но с 1969 года они все чаще использовались для составления словарей (начиная с «Словаря американского наследия английского языка» в 1969 году) и справочных грамматик, а также «Всеобъемлющей грамматики английского языка» , опубликованной в 1985 год, впервые.

Эксперты в этой области имеют разные точки зрения на аннотацию корпуса. Эти взгляды варьируются от Джона Макхарди Синклера , который выступает за минимальное количество аннотаций, чтобы тексты говорили сами за себя, [3] группе по исследованию использования английского языка ( Университетский колледж , Лондон), которая выступает за аннотацию как средство, позволяющее лучше понять язык посредством тщательной записи. [4]

История [ править ]

Некоторые из самых ранних попыток грамматического описания были основаны, по крайней мере частично, на корпусах, имеющих особое религиозное или культурное значение. Например, в литературе пратишакхьи звуковые модели санскрита описываются в Ведах , а Панини Грамматика классического санскрита была основана, по крайней мере частично, на анализе того же корпуса. Точно так же ранние арабские грамматики уделяли особое внимание языку Корана . В западноевропейской традиции ученые готовили симфонии , позволяющие детально изучить язык Библии и других канонических текстов.

Английский корпус [ править ]

Вехой в современной корпусной лингвистике стала публикация « Компьютерного анализа современного американского английского языка» в 1967 году. Написанная Генри Кучерой и У. Нельсоном Фрэнсисом , работа была основана на анализе Коричневого корпуса , который представляет собой структурированный и сбалансированный корпус. одного миллиона слов американского английского с 1961 года. Корпус включает 2000 образцов текста разных жанров. [5] Коричневый корпус был первым компьютеризированным корпусом, предназначенным для лингвистических исследований. [6] Кучера и Фрэнсис подвергли Коричневый корпус множеству компьютерного анализа, а затем объединили элементы лингвистики, преподавания языков, психологии , статистики и социологии, чтобы создать богатый и разнообразный опус. Еще одной ключевой публикацией стала книга Рэндольфа Квирка «К описанию использования английского языка» 1960 года. [7] в котором он представил Исследование использования английского языка . Корпус Квирка был первым современным корпусом, созданным с целью представления всего языка. [8]

Вскоре после этого бостонское издательство Houghton-Mifflin обратилось к Кучере с просьбой предоставить трехстрочную базу цитирования из миллиона слов для его нового словаря американского наследия , первого словаря , составленного с использованием корпусной лингвистики. AHD предпринял инновационный шаг , объединив предписывающие элементы (как следует использовать язык) с описательной информацией (как он на самом деле используется ).

Другие издатели последовали этому примеру. британского издателя Collins COBUILD Одноязычный словарь для учащихся , предназначенный для пользователей, изучающих английский как иностранный , был составлен с использованием Bank of English . Корпус исследования использования английского языка использовался при разработке одной из наиболее важных грамматик на основе корпуса, написанной Quirk et al. и опубликовано в 1985 году под названием « Всеобъемлющая грамматика английского языка» . [9]

Коричневый корпус также породил ряд корпусов с аналогичной структурой: LOB Corpus ( британский английский 1960-х годов ), Kolhapur ( индийский английский ), Wellington ( новозеландский английский ), Австралийский корпус английского языка ( австралийский английский ), Frown Corpus (начало 1990-х). американский английский ) и FLOB Corpus (британский английский 1990-х годов). Другие корпуса представляют множество языков, разновидностей и модусов и включают Международный корпус английского языка и Британский национальный корпус , коллекцию из 100 миллионов слов различных устных и письменных текстов, созданную в 1990-х годах консорциумом издателей, университетов ( Оксфорд и Ланкастер ) и Британская библиотека . застопорилась Что касается современного американского английского языка, работа над Американским национальным корпусом , но Корпус современного американского английского языка, насчитывающий более 400 миллионов слов (с 1990 года по настоящее время), теперь доступен через веб-интерфейс.

Первый компьютеризированный корпус транскрибированной разговорной речи был создан в 1971 году в рамках Монреальского французского проекта. [10] содержащий один миллион слов, который вдохновил Шану Поплак на создание гораздо большего корпуса разговорного французского языка в районе Оттава-Халл. [11]

Многоязычные корпуса [ править ]

В 1990-х годах многие из первых заметных успехов статистических методов программирования на естественном языке (НЛП) были достигнуты в области машинного перевода , особенно благодаря работе в IBM Research. Эти системы смогли воспользоваться преимуществами существующих многоязычных текстовых корпусов , которые были созданы Парламентом Канады и Европейским Союзом в результате принятия законов, требующих перевода всех правительственных процедур на все официальные языки соответствующих систем управления.

Есть корпуса и на неевропейских языках. Например, Национальный институт японского языка и лингвистики в Японии создал ряд корпусов устного и письменного японского языка. Корпуса языка жестов также были созданы с использованием видеоданных. [12]

Корпуса древних языков [ править ]

Помимо этих корпусов живых языков, компьютеризированные корпуса также были созданы из коллекций текстов на древних языках. Примером может служить база данных еврейской Библии Андерсена -Форбса, разрабатываемая с 1970-х годов, в которой каждое предложение анализируется с использованием графиков, представляющих до семи уровней синтаксиса, и каждый сегмент помечен семью полями информации. [13] [14] Корпус арабского языка Корана — это аннотированный корпус Корана на классическом арабском языке . Это недавний проект с несколькими уровнями аннотаций, включая морфологическую сегментацию, разметку частей речи и синтаксический анализ с использованием грамматики зависимостей. [15] Цифровой корпус санскрита (DCS) - это «корпус санскритских текстов, разделенный по принципу Сандхи, с полным морфологическим и лексическим анализом... предназначенный для историко-текстовых исследований в области санскритской лингвистики и филологии». [16]

Корпора из определенных областей [ править ]

Помимо чисто лингвистических исследований, исследователи начали применять корпусную лингвистику в других академических и профессиональных областях, таких как развивающаяся субдисциплина права и корпусная лингвистика , которая стремится понять юридические тексты с использованием корпусных данных и инструментов. Набор данных DBLP Discovery посвящен информатике и содержит соответствующие публикации по информатике с важными метаданными, такими как принадлежность авторов, цитаты или области исследований. [17] Более сфокусированный набор данных был представлен NLP Scholar, представляющим собой комбинацию статей ACL Anthology и метаданных Google Scholar . [18] Corpora также может помочь в переводе. [19] или в преподавании иностранных языков. [20]

Методы [ править ]

Корпусная лингвистика породила ряд исследовательских методов, которые пытаются проследить путь от данных к теории. Уоллис и Нельсон (2001) [21] впервые представили то, что они назвали перспективой 3А: аннотация, абстракция и анализ.

  • Аннотация состоит из приложения схемы к текстам. Аннотации могут включать структурную разметку, теги частей речи , синтаксический анализ и множество других представлений.
  • Абстракция состоит из перевода (сопоставления) терминов схемы с терминами теоретически обоснованной модели или набора данных. Абстракция обычно включает в себя поиск под руководством лингвиста, но может включать, например, изучение правил для парсеров.
  • Анализ состоит из статистического исследования, манипулирования и обобщения набора данных. Анализ может включать статистические оценки, оптимизацию баз правил или методов обнаружения знаний.

Сегодня большинство лексических корпусов имеют теги частей речи (POS-теги). Однако даже корпусные лингвисты, работающие с «неаннотированным открытым текстом», неизбежно применяют тот или иной метод для выделения важных терминов. В таких ситуациях аннотация и абстракция объединяются в лексическом поиске.

Преимущество публикации аннотированного корпуса состоит в том, что другие пользователи могут затем проводить эксперименты с корпусом (через менеджеров корпуса ). Эту работу могут использовать лингвисты с другими интересами и точками зрения, отличными от взглядов авторов. Обмениваясь данными, корпусные лингвисты могут рассматривать корпус как место лингвистических дебатов и дальнейших исследований. [22]

См. также [ править ]

Примечания и ссылки [ править ]

  1. ^ Перейти обратно: а б Мейер, Чарльз Ф. (2023). Корпусная лингвистика английского языка (2-е изд.). Кембридж: Издательство Кембриджского университета. п. 4.
  2. ^ Ханстон, С. (1 января 2006 г.), «Корпус лингвистики» , Браун, Кейт (редактор), Энциклопедия языка и лингвистики (второе издание) , Оксфорд: Elsevier, стр. 234–248, doi : 10.1016/b0- 08-044854-2/00944-5 , ISBN  978-0-08-044854-1 , получено 31 октября 2023 г.
  3. ^ Синклер, Дж. «Автоматический анализ корпусов», в Свартвик, Дж. (ред.) Направления корпусной лингвистики (Материалы Нобелевского симпозиума 82) . Берлин: Мутон де Грюйтер. 1992.
  4. ^ Уоллис, С. «Аннотация, поиск и экспериментирование», в Меурман-Солин, А. и Нурми, А.А. (ред.). Аннотирование вариаций и изменений. Хельсинки: Вариенг, [Хельсинкский университет]. 2007. Электронное издание.
  5. ^ Фрэнсис, В. Нельсон; Кучера, Генри (1 июня 1967 г.). Компьютерный анализ современного американского английского . Провиденс: Издательство Университета Брауна. ISBN  978-0870571053 .
  6. ^ Кеннеди, Г. (1 января 2001 г.), «Корпус лингвистики» , в Смелзере, Нил Дж.; Балтес, Пол Б. (ред.), Международная энциклопедия социальных и поведенческих наук , Оксфорд: Пергамон, стр. 2816–2820, ISBN  978-0-08-043076-8 , получено 31 октября 2023 г.
  7. ^ Квирк, Рэндольф (ноябрь 1960 г.). «К описанию использования английского языка». Труды Филологического общества . 59 (1): 40–61. дои : 10.1111/j.1467-968X.1960.tb00308.x .
  8. ^ Кеннеди, Г. (1 января 2001 г.), «Корпус лингвистики» , в Смелзере, Нил Дж.; Балтес, Пол Б. (ред.), Международная энциклопедия социальных и поведенческих наук , Оксфорд: Пергамон, стр. 2816–2820, doi : 10.1016/b0-08-043076-7/03056-4 , ISBN  978-0-08-043076-8 , получено 31 октября 2023 г.
  9. ^ Квирк, Рэндольф; Гринбаум, Сидней; Лич, Джеффри; Свартвик, Ян (1985). Комплексная грамматика английского языка . Лондон: Лонгман. ISBN  978-0582517349 .
  10. ^ Санкофф, Дэвид; Санкофф, Джиллиан (1973). Дарнелл, Р. (ред.). «Методы выборочного опроса и компьютерный анализ при изучении грамматических вариаций». Канадские языки в их социальном контексте . Эдмонтон: Linguistic Research Incorporated: 7–63.
  11. ^ Поплак, Шана (1989). Фасолд, Р.; Шиффрин, Д. (ред.). «Уход за мегакорпусом и обращение с ним». Языковые изменения и вариации . Актуальные проблемы лингвистической теории. 52 . Амстердам: Бенджаминс: 411–451. дои : 10.1075/cilt.52.25pop . ISBN  978-90-272-3546-6 .
  12. ^ «Национальный центр ресурсов языка жестов и жестов при BU» www.bu.edu . Проверено 31 октября 2023 г.
  13. ^ Андерсен, Фрэнсис I .; Форбс, А. Дин (2003), «Визуализация грамматики иврита: I. Синтаксис», Древние исследования Ближнего Востока , том. 40, стр. 43–61 [45]
  14. ^ Эйланд, Э. Энн (1987), «Откровения из подсчета слов», в Ньюинге, Эдвард Г.; Конрад, Эдгар В. (ред.), Перспективы языка и текста: очерки и стихи в честь шестидесятилетия Фрэнсиса И. Андерсена, 28 июля 1985 г. , Вайнона Лейк, IN: Eisenbrauns , стр. 51, ISBN  0-931464-26-9
  15. ^ Дьюкс, К., Этвелл, Э. и Хабаш, Н. «Контролируемое сотрудничество в области синтаксических аннотаций арабского языка Корана». Языковые ресурсы и журнал оценки . 2011.
  16. ^ «Цифровой корпус санскрита (DCS)» . Проверено 28 июня 2022 г.
  17. ^ Вале, Ян Филип; Руас, Терри; Мохаммед, Саиф; Гипп, Бела (2022). «D3: Массивный набор научных метаданных для анализа состояния исследований в области компьютерных наук» . Материалы тринадцатой конференции по языковым ресурсам и оценке . Марсель, Франция: Европейская ассоциация языковых ресурсов: 2642–2651. arXiv : 2204.13384 .
  18. ^ Мохаммад, Саиф М. (2020). «Ученый НЛП: набор данных для изучения состояния исследований НЛП» . Материалы двенадцатой конференции по языковым ресурсам и оценке . Марсель, Франция: Европейская ассоциация языковых ресурсов: 868–877. ISBN  979-10-95546-34-4 .
  19. ^ Бернардини, С. (1 января 2006 г.), «Машиночитаемая корпорация» , Браун, Кейт (ред.), Энциклопедия языка и лингвистики (второе издание) , Оксфорд: Elsevier, стр. 101–116. 358–375, doi : 10.1016/b0-08-044854-2/00476-4 , ISBN  978-0-08-044854-1 , получено 31 октября 2023 г.
  20. ^ Майнц, Университет Иоганна Гутенберга. «Корпусная лингвистика | АНГЛИЙСКАЯ ЛИНГВИСТИКА» . Йоханнес Гутенберг-Университет Майнца (на немецком языке) . Проверено 31 октября 2023 г.
  21. ^ Уоллис, С. и Нельсон Г. Открытие знаний в грамматически проанализированных корпусах . Интеллектуальный анализ данных и обнаружение знаний , 5 : 307–340. 2001.
  22. ^ Бейкер, Пол; Эгберт, Джесси, ред. (2016). Триангуляция методологических подходов в корпусно-лингвистических исследованиях . Нью-Йорк: Рутледж.

Дальнейшее чтение [ править ]

Книги [ править ]

  • Бибер Д., Конрад С., Реппен Р. Корпусная лингвистика, Исследование структуры и использования языка , Кембридж: Кембриджский университет, 1998. ISBN   0-521-49957-7
  • Маккарти Д. и Сэмпсон Г. Корпусная лингвистика: материалы по расширяющейся дисциплине , Continuum, 2005. ISBN   0-8264-8803-X
  • Факкинетти, Р. Теоретическое описание и практическое применение лингвистических корпусов . Верона: QuiEdit, 2007. ISBN   978-88-89480-37-3
  • Факкинетти, Р. (ред.) Корпусная лингвистика 25 лет спустя . Нью-Йорк/Амстердам: Родопи, 2007 г. ISBN   978-90-420-2195-2
  • Факкинетти Р. и Риссанен М. (ред.) Корпусные исследования диахронического английского языка . Берн: Питер Ланг, 2006 г. ISBN   3-03910-851-4
  • Лендерс, В. Компьютерная лексикография и корпусная лингвистика до ок. 1970/1980 , в: Гаус Р.Х., Хайд У., Швейкард В., Виганд Х.Е. (ред.) Словари - Международная энциклопедия лексикографии. Дополнительный том: Последние разработки с акцентом на электронную и компьютерную лексикографию . Берлин: Де Грюйтер Мутон, 2013 г. ISBN   978-3112146651
  • Фусс, Эрик и др. (Ред.): Grammar and Corpora 2016 , Гейдельберг: Издательство Гейдельбергского университета, 2018. doi : 10.17885/heiup.361.509 ( цифровой открытый доступ ).
  • Стефанович А. 2020. Корпусная лингвистика: Руководство по методологии . Берлин: Language Science Press. ISBN   978-3-96110-225-9 , doi : 10.5281/zenodo.3735822 Открытый доступ https://langsci-press.org/catalog/book/148 .

Серия книг [ править ]

Серии книг в этой области включают:

Журналы [ править ]

Есть несколько международных рецензируемых журналов, посвященных корпусной лингвистике, например:

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец оригинального документа.
Arc.Ask3.Ru
Номер скриншота №: FE634F49062AFE5B5E1E823221ADDAB0__1718032920
URL1:https://en.wikipedia.org/wiki/Corpus_linguistics
Заголовок, (Title) документа по адресу, URL1:
Corpus linguistics - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть, любые претензии не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, денежную единицу можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)