Текстовый корпус

В лингвистике и обработке естественного языка корпус языковых ( мн.: corpora ) или текстовый корпус — это набор данных, состоящий из изначально цифровых и более старых, оцифрованных ресурсов , аннотированных или неаннотированных.

Аннотированные, они использовались в корпусной лингвистике для проверки статистических гипотез , проверки совпадений или проверки лингвистических правил на определенной языковой территории.

В технологии поиска корпус — это совокупность документов, по которым ведется поиск.

Обзор

Корпус может содержать тексты на одном языке ( одноязычный корпус ) или текстовые данные на нескольких языках ( многоязычный корпус ).

Чтобы сделать корпуса более полезными для лингвистических исследований, их часто подвергают процессу, известному как аннотация . Примером аннотирования корпуса является тегирование частей речи , или POS-тегирование , при котором информация о части речи каждого слова (глагол, существительное, прилагательное и т. д.) добавляется в корпус в виде тегов . Другой пример — указание леммической (основной) формы каждого слова. Когда язык корпуса не является рабочим языком исследователей, которые его используют, подстрочное глоссирование для придания аннотации двуязычной применяют .

В некоторых корпусах применяются дополнительные структурированные уровни анализа. В частности, можно полностью проанализировать небольшие корпуса . Такие корпорации обычно называют Treebanks или Parsed Corpora . Трудность обеспечения того, чтобы весь корпус был полностью и последовательно аннотирован, означает, что эти корпуса обычно меньше по размеру и содержат от одного до трех миллионов слов. Возможны и другие уровни лингвистического структурированного анализа, включая аннотации по морфологии , семантике и прагматике .

Приложения

Корпуса являются основной базой знаний в корпусной лингвистике . Другие известные области применения включают в себя:

Языковые технологии , обработка естественного языка , компьютерная лингвистика
- Анализ и обработка различных типов корпусов также являются предметом большого количества работ в области компьютерной лингвистики , распознавания речи и машинного перевода , где они часто используются для создания скрытых марковских моделей для разметки части речи и других целей. Корпуса и списки частот, полученные на их основе, полезны для преподавания языка . Corpora можно рассматривать как своего рода средство письма на иностранном языке, поскольку контекстуализированные грамматические знания, приобретенные пользователями неродного языка посредством воздействия на аутентичные тексты в корпусах, позволяют учащимся понять способ формирования предложений на целевом языке, что обеспечивает эффективное письмо. ^{[ 1 ]}

Машинный перевод
- Многоязычные корпуса, специально отформатированные для параллельного сравнения, называются выровненными параллельными корпусами . Существует два основных типа параллельных корпусов , содержащих тексты на двух языках. В корпусе переводов тексты на одном языке являются переводами текстов на другой язык. В сопоставимом корпусе тексты однотипны и охватывают одно и то же содержание, но не являются переводами друг друга. ^{[ 2 ]} Чтобы использовать параллельный текст, необходимым условием для анализа является некое выравнивание текста, определяющее эквивалентные сегменты текста (фразы или предложения). Алгоритмы машинного перевода для перевода между двумя языками часто обучаются с использованием параллельных фрагментов, включающих корпус первого языка и корпус второго языка, который представляет собой поэлементный перевод корпуса первого языка. ^{[ 3 ]}

Филологии
- Текстовые корпуса также используются при изучении исторических документов , например, при попытках расшифровать древние письмена или в библейских исследованиях . Некоторые археологические корпуса могут быть настолько короткими, что обеспечивают моментальный снимок во времени. Одним из самых коротких по времени корпусов могут быть тексты писем Амарны 15–30-летней давности ( 1350 г. до н.э. ). Корпус Тексты древнего города (например, « Кюльтепе » в Турции) может состоять из серии корпусов, определяемых датами их находок.

Некоторые известные текстовые корпуса

См. также

Ссылки

^ Юн, Х., и Хирвела, А. (2004). Отношение студентов ESL к использованию корпуса при написании L2 . Журнал письма на втором языке, 13 (4), 257–283. Проверено 21 марта 2012 г.
^ Волк, К.; Марасек, К. (7 апреля 2014 г.). «Статистический перевод речи в реальном времени». Новые перспективы в информационных системах и технологиях, Том 1 . Достижения в области интеллектуальных систем и вычислений. Том. 275. Спрингер. стр. 107–114. arXiv : 1509.09090 . дои : 10.1007/978-3-319-05951-8_11 . ISBN 978-3-319-05950-1 . ISSN 2194-5357 . S2CID 15361632 .
^ Волк, Кшиштоф; Марасек, Кшиштоф (2015). «Настроенный и параллельный анализ данных с ускорением на графическом процессоре из сопоставимых корпусов». Ин Краль, Павел; Матоусек, Вацлав (ред.). Текст, речь и диалог – 18-я Международная конференция TSD 2015, Пльзень, Чехия, 14–17 сентября 2015 г., Труды . Конспекты лекций по информатике. Том. 9302. Спрингер. стр. 32–40. arXiv : 1509.08639 . дои : 10.1007/978-3-319-24033-6_4 . ISBN 978-3-319-24032-9 .

Внешние ссылки

Ссылки на ресурсы ACL SIGLEX: Text Corpora, заархивировано 13 августа 2013 г. на Wayback Machine.
Развитие лингвистического корпуса: руководство по передовой практике
Бесплатные образцы (не бесплатно), веб-корпусы (45–425 миллионов слов каждый): американский (COCA, COHA, TIME), британский (BNC), испанский, португальский.
Intercorp Создание синхронных параллельных корпусов языков, преподаваемых на факультете искусств Карлова университета.
Sketch Engine: открытые корпуса со свободным доступом
Корпус TS – турецкий корпус, свободно доступный для академических исследований.
Турецкий национальный корпус – универсальный корпус современного турецкого языка.
Корпус политических речей . Бесплатный доступ к политическим выступлениям американских и китайских политиков, разработанный Библиотекой баптистского университета Гонконга.
Русский национальный корпус

[Yoon-1] Юн, Х., и Хирвела, А. (2004). Отношение студентов ESL к использованию корпуса при написании L2 . Журнал письма на втором языке, 13 (4), 257–283. Проверено 21 марта 2012 г.

[2] Волк, К.; Марасек, К. (7 апреля 2014 г.). «Статистический перевод речи в реальном времени». Новые перспективы в информационных системах и технологиях, Том 1 . Достижения в области интеллектуальных систем и вычислений. Том. 275. Спрингер. стр. 107–114. arXiv : 1509.09090 . дои : 10.1007/978-3-319-05951-8_11 . ISBN 978-3-319-05950-1 . ISSN 2194-5357 . S2CID 15361632 .

[3] Волк, Кшиштоф; Марасек, Кшиштоф (2015). «Настроенный и параллельный анализ данных с ускорением на графическом процессоре из сопоставимых корпусов». Ин Краль, Павел; Матоусек, Вацлав (ред.). Текст, речь и диалог – 18-я Международная конференция TSD 2015, Пльзень, Чехия, 14–17 сентября 2015 г., Труды . Конспекты лекций по информатике. Том. 9302. Спрингер. стр. 32–40. arXiv : 1509.08639 . дои : 10.1007/978-3-319-24033-6_4 . ISBN 978-3-319-24032-9 .

[ 1 ]

[ 2 ]

[ 3 ]