Jump to content

Текстовый корпус

(Перенаправлено из текстовых данных )

В лингвистике и обработке естественного языка корпус языковых ( мн.: corpora ) или текстовый корпус — это набор данных, состоящий из изначально цифровых и более старых, оцифрованных ресурсов , аннотированных или неаннотированных.

Аннотированные, они использовались в корпусной лингвистике для проверки статистических гипотез , проверки совпадений или проверки лингвистических правил на определенной языковой территории.

В технологии поиска корпус — это совокупность документов, по которым ведется поиск.

Обзор [ править ]

Корпус может содержать тексты на одном языке ( одноязычный корпус ) или текстовые данные на нескольких языках ( многоязычный корпус ).

Чтобы сделать корпуса более полезными для лингвистических исследований, их часто подвергают процессу, известному как аннотация . Примером аннотирования корпуса является тегирование частей речи , или POS-тегирование , при котором информация о части речи каждого слова (глагол, существительное, прилагательное и т. д.) добавляется в корпус в виде тегов . Другой пример — указание леммической (основной) формы каждого слова. Когда язык корпуса не является рабочим языком использующих его исследователей, подстрочное глоссирование для придания аннотации двуязычной применяется .

В некоторых корпусах применяются дополнительные структурированные уровни анализа. В частности, можно полностью проанализировать небольшие корпуса . Такие корпорации обычно называют Treebanks или Parsed Corpora . Трудность обеспечения того, чтобы весь корпус был полностью и последовательно аннотирован, означает, что эти корпуса обычно меньше по размеру и содержат от одного до трех миллионов слов. Возможны и другие уровни лингвистического структурированного анализа, включая аннотации по морфологии , семантике и прагматике .

Приложения [ править ]

Корпуса являются основной базой знаний в корпусной лингвистике . Другие известные области применения включают в себя:

  • Машинный перевод
    • Многоязычные корпуса, специально отформатированные для параллельного сравнения, называются выровненными параллельными корпусами . Существует два основных типа параллельных корпусов , содержащих тексты на двух языках. В корпусе переводов тексты на одном языке являются переводами текстов на другом языке. В сопоставимом корпусе тексты однотипны и охватывают одно и то же содержание, но не являются переводами друг друга. [2] Чтобы использовать параллельный текст, необходимым условием для анализа является некое выравнивание текста, определяющее эквивалентные сегменты текста (фразы или предложения). Алгоритмы машинного перевода для перевода между двумя языками часто обучаются с использованием параллельных фрагментов, включающих корпус первого языка и корпус второго языка, который представляет собой поэлементный перевод корпуса первого языка. [3]

Некоторые примечательные корпуса текстов [ править ]

См. также [ править ]

Ссылки [ править ]

  1. ^ Юн, Х., и Хирвела, А. (2004). Отношение студентов ESL к использованию корпуса при написании L2 . Журнал письма на втором языке, 13 (4), 257–283. Проверено 21 марта 2012 г.
  2. ^ Волк, К.; Марасек, К. (7 апреля 2014 г.). «Статистический перевод речи в реальном времени». Новые перспективы в информационных системах и технологиях, Том 1 . Достижения в области интеллектуальных систем и вычислений. Том. 275. Спрингер. стр. 107–114. arXiv : 1509.09090 . дои : 10.1007/978-3-319-05951-8_11 . ISBN  978-3-319-05950-1 . ISSN   2194-5357 . S2CID   15361632 .
  3. ^ Волк, Кшиштоф; Марасек, Кшиштоф (2015). «Настроенный и параллельный анализ данных с ускорением на графическом процессоре из сопоставимых корпусов». Ин Краль, Павел; Матоусек, Вацлав (ред.). Текст, речь и диалог – 18-я Международная конференция TSD 2015, Пльзень, Чехия, 14–17 сентября 2015 г., Труды . Конспекты лекций по информатике. Том. 9302. Спрингер. стр. 32–40. arXiv : 1509.08639 . дои : 10.1007/978-3-319-24033-6_4 . ISBN  978-3-319-24032-9 .

Внешние ссылки [ править ]


Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 92d6d4d71ae9ce3370ebd4dc1537404a__1714624620
URL1:https://arc.ask3.ru/arc/aa/92/4a/92d6d4d71ae9ce3370ebd4dc1537404a.html
Заголовок, (Title) документа по адресу, URL1:
Text corpus - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)