Jump to content

Список корпусов текстов

Текстовые корпуса (единственное число: текстовый корпус ) представляют собой большие и структурированные наборы текстов, которые систематически собираются. Текстовые корпуса используются корпусными лингвистами и в других отраслях лингвистики для статистического анализа, проверки гипотез, поиска закономерностей использования языка, исследования языковых изменений и вариаций, а также обучения владению языком. [1]

английский язык

[ редактировать ]

Европейские языки

[ редактировать ]

славянский

[ редактировать ]

Восточнославянский

[ редактировать ]

Южнославянский

[ редактировать ]

Западнославянский

[ редактировать ]

немецкий

[ редактировать ]

Ближневосточные языки

[ редактировать ]

Деванагари

[ редактировать ]

Восточноазиатские языки

[ редактировать ]

Южноазиатские языки

[ редактировать ]

Африканские языки

[ редактировать ]

Параллельные корпуса разных языков

[ редактировать ]

Сопоставимая корпорация

[ редактировать ]
  • Корпус политических речей содержит четыре сборника политических речей на английском и китайском языках из «Корпуса президентских речей США (1789–2015 гг.), «Корпуса политических выступлений губернаторов Гонконга (1984–1996 гг.)» и руководителей Гонконга (1997–2014 гг.). ), Корпус речей президентов Тайваня в новогодние дни и двойные десятые дни (1978–2014 гг.) И Корпус докладов о работе правительства премьер-министров Китайской Народной Республики (1984–2013 гг.). Разработано Библиотекой ХКБУ.
  • WaCky - Инициатива Web-As-Corpus Kool Web as Corpus (англ, fre, deu, ita)
  • Устранение неоднозначности в коллекции корпусов похожих языков (DSLCC) [37] (боснийский, хорватский, сербский, индонезийский, малайский, чешский, словацкий, бразильский португальский, европейский португальский, полуостровный испанский, аргентинский испанский)
  • Wikipedia Comparable Corpora ( требуется регистрация ) , когда (41 миллион согласованных статей Википедии для 253 языковых пар)
  • Семейство TenTen Corpus — сопоставимые веб-корпусы целевого размера в 10 миллиардов слов. Эти корпуса доступны в системе управления корпусами Sketch Engine , в настоящее время существуют корпуса TenTen для более чем 30 языков (например, английский корпус TenTen, [38] арабский корпус TenTen, [39] испанский корпус TenTen, [40] Русский корпус Тентен, [41] [42] ). Обзор существующих корпораций TenTen можно найти по адресу https://www.sketchengine.co.uk/documentation/tenten-corpora/.
  • Веб-корпуса JSI с отметкой времени – веб-корпуса новостных статей, сканированные из списка RSS-каналов. Корпуса новостных лент готовятся в рамках проекта, реализуемого Институтом Йожефа Стефана при словенском научно-исследовательском институте. [43] и опубликован в Sketch Engine. Более подробная информация о проекте находится на сайтах проекта .

L2 (английский) Corpora

[ редактировать ]
  • Кембриджский учебный корпус [44]
  • Корпус академического письменного и разговорного английского языка (CAWSE), [45] коллекция образцов английского языка китайских студентов в академических условиях. Бесплатное скачивание в Интернете .
  • Английский как лингва-франка в академической среде (ELFA), [46] академический корпус ELF. [47] [48]
  • Международный корпус изучающего английский язык (ICLE), [49] корпус изучающих письменный английский язык.
  • Международная база данных разговорного английского языка Лувена (LINDSEI), [50] корпус изучающего разговорный английский язык.
  • Trinity Lancaster Corpus, один из крупнейших корпусов разговорного английского языка L2. [51] [52]
  • Корпус Института английского языка Питтсбургского университета (PELIC) [53]
  • Венско-Оксфордский международный корпус английского языка (VOICE), [54] корпус ELF. [47]
  1. ^ Пиявка, Джеффри (2007). «Обучение и языковые корпуса: конвергенция». В Вихманн, А.; и др. (ред.). Учебно-языковой корпус . Лондон: Лонгман. п. 9.
  2. ^ «База данных корпусных ресурсов (CoRD)» . Кафедра английского языка Хельсинкского университета.
  3. ^ Вале, Ян Филип; Руас, Терри; Мохаммед, Саиф; Гипп, Бела (2022). «D3: Массивный набор научных метаданных для анализа состояния исследований в области компьютерных наук» . Материалы тринадцатой конференции по языковым ресурсам и оценке . Марсель, Франция: Европейская ассоциация языковых ресурсов: 2642–2651. arXiv : 2204.13384 .
  4. ^ Профессор Марк Дэвис из BYU создал онлайн-инструмент для поиска в корпусе английского языка Google, взятом из Google Books, по адресу http://googlebooks.byu.edu/x.asp .
  5. ^ «Фразопоиск» . Поисковая система для Google Books Ngram Corpus, которая поддерживает запросы с подстановочными знаками и предлагает API.
  6. ^ [1] , Баскские тела
  7. ^ (на испанском языке) «Молинолабс-корпус» . molinolabs.com . Проверено 12 января 2014 г.
  8. ^ «CorALit — CorALit — учебник литовского научного языка» . coralit.lt . Проверено 12 января 2014 г.
  9. ^ «Турецкий национальный корпус - Türkçe Ulusal Derlemi - Домашняя страница» . tnc.org.tr. ​Проверено 12 января 2014 г.
  10. ^ Глазкова, А (2020). «Тематическая классификация фрагментов текста с учетом их ближайшего контекста» . Автоматизация и дистанционное управление . 81 (12): 2262–2276. дои : 10.1134/S0005117920120097 . S2CID   231929892 .
  11. ^ Рубцова, Ю (2015). «Построение корпуса для обучения классификации настроений» . Программное обеспечение и системы . 1 : 72–78. дои : 10.15827/0236-235X.109.072-078 .
  12. ^ «В стадии обновления» . search.dcl.bas.bg . Проверено 12 января 2014 г.
  13. ^ «Электронная коррупция македонских литературных текстов» .
  14. ^ «Портал | Чешский национальный корпус» .
  15. ^ Здравкова, Катрина; Туфис, Дэн; Симов Кирилл; Радзишевский, Адам; Касемизаде, Беранг; Прист-Дорман, Грег; Петкевич, Владимир; Оравец, Чаба; Крстев, Цветана; Коцыба, Наталья; Каалеп, Хейки-Яан; Иде, Нэнси; Гарабик, Радован; Димитрова, Людмила; Держанский Иван; Барбу, Ана-Мария; Эрьявец, Томаж (14 мая 2010 г.). «Доступно в CLARIN» . http://nl.ijs.si/me/v4/ . {{cite journal}}: Внешняя ссылка в |journal= ( помощь )
  16. ^ Jump up to: а б «Лаборатория НЛП Тегеранского университета» . ece.ut.ac.ir. Архивировано из оригинала 28 января 2014 года . Проверено 12 января 2014 г.
  17. ^ Хади Вейси, Мохаммад МохаммадАмини, Хавр Хоссейни; На пути к обработке курдского языка: эксперименты по сбору и обработке текстового корпуса AsoSoft, Цифровая стипендия в области гуманитарных наук, fqy074, https://doi.org/10.1093/llc/fqy074
  18. ^ "КОТОНОХА "Равновесный корпус современной японской письменности" Сёнагон" . Проверено 12 января 2014 г. .
  19. ^ «Загрузить Corpora Hindi» .
  20. ^ Д. Упекша, К. Виджаяратна, М. Сиривардена, Л. Ласандун, К. Вималасурия, Н. де Силва и Г. Диас. 2015. Внедрение корпуса сингальского языка . На симпозиуме по языковым технологиям для Южной Азии .
  21. ^ Блеск (uio.no)
  22. ^ «Креольская корпорация Гвинейского залива» . Май 2014. С. 523–529.
  23. ^ https://arxiv.org/pdf/2102.06991.pdf , https://wortschatz.uni-leipzig.de/en/download/Hausa
  24. ^ «IgTenTen — корпус игбо из Интернета | Sketch Engine» . 20 июня 2022 г.
  25. ^ «Текстовые корпуса Oromo | Sketch Engine» . 15 января 2019 г.
  26. ^ https://www.researchgate.net/publication/336274457_Digital_Yoruba_Corpus , https://www.sketchengine.eu/corpora-and-languages/yoruba-text-corpora/
  27. ^ «Загрузить Корпора Зулу» .
  28. ^ Пан, июнь (2019). «Китайско-английский корпус политических интерпретаторов (CEPIC). Библиотека баптистского университета Гонконга» . Проверено 3 января 2022 г.
  29. ^ Пан, июнь (30 октября 2019 г.). «Китайско-английский корпус политических устных переводов (CEPIC): новый электронный ресурс для письменных и устных переводчиков» . Материалы второго семинара «Человеческо-информированные технологии письменного и устного перевода, связанные с RANLP 2019» . ООО «Инкома», Шумен, Болгария: 82–88. дои : 10.26615/issn.2683-0078.2019_010 . S2CID   211257773 .
  30. ^ «EUR-Lex Corpus» . http://sketchengine.co.uk. 2 июня 2016 г. Проверено 27 октября 2016 г.
  31. ^ «OPUS — параллельный корпус с открытым исходным кодом» . opus.lingfil.uu.se . Проверено 12 января 2014 г.
  32. ^ «Татоэба — Количество предложений на язык» . tatoeba.org . Проверено 23 ноября 2020 г.
  33. ^ Лилинг Тан и Фрэнсис Бонд (14 мая 2012 г.). «Создание и аннотирование лингвистически разнообразного NTU-MC (NTU — многоязычный корпус)» (PDF) . Международный журнал обработки азиатских языков . 22 (4): 161–174. Архивировано из оригинала (PDF) 16 января 2014 года . Проверено 12 января 2014 г.
  34. ^ Гай Эмерсон, Лилинг Тан, Сюзанна Фертманн, Алексис Палмер и Микаэла Регнери. 2014. SeedLing: Создание и использование исходного корпуса для проекта Human Language Project . В материалах семинара по использованию вычислительных методов при изучении языков, находящихся под угрозой исчезновения (ComputEL). Балтимор, США.
  35. ^ Х. Санхурхо-Гонсалес и М. Искьердо. 2019. P-ACTRES 2.0: Параллельный корпус для межлингвистических исследований . В «Параллельном корпусе исследований контрастности и перевода: новые ресурсы и приложения» (стр. 215–231). Издательство Джона Бенджамина.
  36. ^ Ральф, Ральф Штайнбергер; Пуликен, Брюно; Видигер, Анна; Игнат, Камелия; Эрьявец, Томаж; Туфиш, Дэн; Варга, Даниэль (2006). JRC-Acquis: многоязычный параллельный корпус, содержащий более 20 языков . Материалы 5-й Международной конференции по языковым ресурсам и оценке (LREC'2006). Генуя, Италия, 24–26 мая 2006 г.
  37. ^ Лилинг Тан, Маркос Зампьери, Никола Любешич и Йорг Тидеманн. Объединение сопоставимых источников данных для распознавания схожих языков: коллекция корпуса DSL. В материалах 7-го семинара по созданию и использованию сопоставимых корпораций (BUCC). 2014.
  38. ^ Килгаррифф, Адам (2012). «Знакомство со своим корпусом». Текст, речь и диалог . Конспекты лекций по информатике. Том. 7499. стр. 3–15. CiteSeerX   10.1.1.452.8074 . дои : 10.1007/978-3-642-32790-2_1 . ISBN  978-3-642-32789-6 .
  39. ^ Белинков Ю., Хабаш Н., Килгаррифф А., Ордан Н., Рот Р. и Сухомель В. (2013). arTen-Ten: новый обширный корпус арабского языка . Труды ВАКЛ .
  40. ^ Килгаррифф А. и Ренау И. (2013). esTenTen, обширный веб-корпус полуостровного и американского испанского языка . Procedia – Социальные и поведенческие науки , 95, 12-19.
  41. ^ Хохлова, М. В. (2016). Обзор больших русскоязычных корпусов текстов . In Материалы научной конференции" Интернет и современное общество" (pp. 74-77).
  42. ^ Хохлова, М. (2016). Сравнение высокочастотных существительных с точки зрения большой корпорации . РАСЛАН 2016 Последние достижения в обработке славянского естественного языка , 9.
  43. ^ Трампуш М. и Новак Б. (октябрь 2012 г.). Внутреннее устройство агрегированного веб-канала новостей . В материалах Пятнадцатой Международной конференции по информатике IS SiKDD 2012 (стр. 431-434).
  44. ^ "Cambridge English Corpus" , Arc.Ask3.Ru , 27 сентября 2019 г. , получено 7 января 2020 г.
  45. ^ «Корпус CAWSE — Ноттингемский университет Нинбо, Китай — Ноттингемский университет Нинбо» . Nottingham.edu.cn Проверено 07 января 2020 г. .
  46. ^ «Английский язык как лингва-франка в академической среде» . Университет Хельсинки . 23 марта 2018 г. Проверено 7 января 2020 г.
  47. ^ Jump up to: а б «Английский язык как лингва-франка» , Arc.Ask3.Ru , 14 декабря 2019 г. , получено 7 января 2020 г.
  48. ^ Мауранен, А (2010). «Английский язык как академический лингва-франка: проект ELFA». Английский для специальных целей . 29 (3): 183–190. дои : 10.1016/j.esp.2009.10.001 .
  49. ^ «ИКЛ» . У.К.Лувен . Проверено 7 января 2020 г.
  50. ^ «ЛИНДСЕЙ» . ЮКЛувен (на французском языке) . Проверено 7 января 2020 г.
  51. ^ «Корпус Тринити Ланкастер | Центр корпусных подходов к социальным наукам ESRC (CASS)» . Проверено 7 января 2020 г.
  52. ^ Габласова, Д (2019). «Тринити-Ланкастерский корпус: развитие, описание и применение» . Международный журнал исследований корпуса учащихся . 5 (2): 126–158. doi : 10.1075/ijlcr.19001.gab .
  53. ^ Джаффс А., Хан Н.Р. и Нейсмит Б. (2020). Корпус английского языка Питтсбургского университета (PELIC) [набор данных]. дои : 10.5281/zenodo.3991977
  54. ^ "Проект" . univie.ac.at . Проверено 7 января 2020 г.

См. также

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: bc44e45b56227e0c061c409fc6f74a1c__1714624260
URL1:https://arc.ask3.ru/arc/aa/bc/1c/bc44e45b56227e0c061c409fc6f74a1c.html
Заголовок, (Title) документа по адресу, URL1:
List of text corpora - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)