Текстовый корпус
В лингвистике и обработке естественного языка корпус языковых ( мн.: corpora ) или текстовый корпус — это набор данных, состоящий из изначально цифровых и более старых, оцифрованных ресурсов , аннотированных или неаннотированных.
Аннотированные, они использовались в корпусной лингвистике для проверки статистических гипотез , проверки совпадений или проверки лингвистических правил на определенной языковой территории.
В технологии поиска корпус — это совокупность документов, по которым ведется поиск.
Обзор
[ редактировать ]Корпус может содержать тексты на одном языке ( одноязычный корпус ) или текстовые данные на нескольких языках ( многоязычный корпус ).
Чтобы сделать корпуса более полезными для лингвистических исследований, их часто подвергают процессу, известному как аннотация . Примером аннотирования корпуса является тегирование частей речи , или POS-тегирование , при котором информация о части речи каждого слова (глагол, существительное, прилагательное и т. д.) добавляется в корпус в виде тегов . Другой пример — указание леммической (основной) формы каждого слова. Когда язык корпуса не является рабочим языком исследователей, которые его используют, подстрочное глоссирование для придания аннотации двуязычной применяют .
В некоторых корпусах применяются дополнительные структурированные уровни анализа. В частности, можно полностью проанализировать небольшие корпуса . Такие корпорации обычно называют Treebanks или Parsed Corpora . Трудность обеспечения того, чтобы весь корпус был полностью и последовательно аннотирован, означает, что эти корпуса обычно меньше по размеру и содержат от одного до трех миллионов слов. Возможны и другие уровни лингвистического структурированного анализа, включая аннотации по морфологии , семантике и прагматике .
Приложения
[ редактировать ]Корпуса являются основной базой знаний в корпусной лингвистике . Другие известные области применения включают в себя:
- Языковые технологии , обработка естественного языка , компьютерная лингвистика
- Анализ и обработка различных типов корпусов также являются предметом большого количества работ в области компьютерной лингвистики , распознавания речи и машинного перевода , где они часто используются для создания скрытых марковских моделей для разметки части речи и других целей. Корпуса и списки частот, полученные на их основе, полезны для преподавания языка . Corpora можно рассматривать как своего рода средство письма на иностранном языке, поскольку контекстуализированные грамматические знания, приобретенные пользователями неродного языка посредством воздействия на аутентичные тексты в корпусах, позволяют учащимся понять способ формирования предложений на целевом языке, что обеспечивает эффективное письмо. [ 1 ]
- Машинный перевод
- Многоязычные корпуса, специально отформатированные для параллельного сравнения, называются выровненными параллельными корпусами . Существует два основных типа параллельных корпусов , содержащих тексты на двух языках. В корпусе переводов тексты на одном языке являются переводами текстов на другой язык. В сопоставимом корпусе тексты однотипны и охватывают одно и то же содержание, но не являются переводами друг друга. [ 2 ] Чтобы использовать параллельный текст, необходимым условием для анализа является некое выравнивание текста, определяющее эквивалентные сегменты текста (фразы или предложения). Алгоритмы машинного перевода для перевода между двумя языками часто обучаются с использованием параллельных фрагментов, включающих корпус первого языка и корпус второго языка, который представляет собой поэлементный перевод корпуса первого языка. [ 3 ]
- Филологии
- Текстовые корпуса также используются при изучении исторических документов , например, при попытках расшифровать древние письмена или в библейских исследованиях . Некоторые археологические корпуса могут быть настолько короткими, что обеспечивают моментальный снимок во времени. Одним из самых коротких по времени корпусов могут быть тексты писем Амарны 15–30-летней давности ( 1350 г. до н.э. ). Корпус Тексты древнего города (например, « Кюльтепе » в Турции) может состоять из серии корпусов, определяемых датами их находок.
Некоторые известные текстовые корпуса
[ редактировать ]См. также
[ редактировать ]- Согласие
- Корпусная лингвистика
- Распределительно-реляционная база данных
- Консорциум лингвистических данных
- Обработка естественного языка
- Набор инструментов для естественного языка
- Параллельное выравнивание текста
- Поисковые системы : они получают доступ к «веб-корпусу».
- Речевой корпус
- Память переводов
- Древесный берег
- Закон Ципфа
Ссылки
[ редактировать ]- ^ Юн, Х., и Хирвела, А. (2004). Отношение студентов ESL к использованию корпуса при написании L2 . Журнал письма на втором языке, 13 (4), 257–283. Проверено 21 марта 2012 г.
- ^ Волк, К.; Марасек, К. (7 апреля 2014 г.). «Статистический перевод речи в реальном времени». Новые перспективы в информационных системах и технологиях, Том 1 . Достижения в области интеллектуальных систем и вычислений. Том. 275. Спрингер. стр. 107–114. arXiv : 1509.09090 . дои : 10.1007/978-3-319-05951-8_11 . ISBN 978-3-319-05950-1 . ISSN 2194-5357 . S2CID 15361632 .
- ^ Волк, Кшиштоф; Марасек, Кшиштоф (2015). «Настроенный и параллельный анализ данных с ускорением на графическом процессоре из сопоставимых корпусов». Ин Краль, Павел; Матоусек, Вацлав (ред.). Текст, речь и диалог – 18-я Международная конференция TSD 2015, Пльзень, Чехия, 14–17 сентября 2015 г., Труды . Конспекты лекций по информатике. Том. 9302. Спрингер. стр. 32–40. arXiv : 1509.08639 . дои : 10.1007/978-3-319-24033-6_4 . ISBN 978-3-319-24032-9 .
Внешние ссылки
[ редактировать ]- Ссылки на ресурсы ACL SIGLEX: Text Corpora, заархивировано 13 августа 2013 г. на Wayback Machine.
- Развитие лингвистического корпуса: руководство по передовой практике
- Бесплатные образцы (не бесплатно), веб-корпусы (45–425 миллионов слов каждый): американский (COCA, COHA, TIME), британский (BNC), испанский, португальский.
- Intercorp Создание синхронных параллельных корпусов языков, преподаваемых на факультете искусств Карлова университета.
- Sketch Engine: открытые корпуса со свободным доступом
- Корпус TS – турецкий корпус, свободно доступный для академических исследований.
- Турецкий национальный корпус – универсальный корпус современного турецкого языка.
- Корпус политических речей . Бесплатный доступ к политическим выступлениям американских и китайских политиков, разработанный Библиотекой баптистского университета Гонконга.
- Русский национальный корпус