Список корпусов текстов
Текстовые корпуса (единственное число: текстовый корпус ) представляют собой большие и структурированные наборы текстов, которые систематически собираются. Текстовые корпуса используются корпусными лингвистами и в других отраслях лингвистики для статистического анализа, проверки гипотез, поиска закономерностей использования языка, исследования языковых изменений и вариаций, а также обучения владению языком. [1]
английский язык
[ редактировать ]- Американский национальный корпус
- Банк английского языка
- КнигаКорпус
- Британский национальный корпус
- Бергенский корпус лондонского языка подростков (COLT)
- Brown Corpus , входящий в «Brown Family» корпусов вместе с LOB , Frown и F-LOB.
- Корпус современного американского английского языка (COCA) 425 миллионов слов, 1990–2011 гг. Свободный поиск в Интернете
- База данных ресурсов корпуса (CoRD), более 80 корпусов английского языка. [2]
- Coruña Corpus — корпус поздней современной английской научной литературы, охватывающий период 1700–1900 годов, разработанный исследовательской группой Muste в Университете Ла-Коруньи.
- DBLP Discovery Dataset (D3) — набор публикаций по информатике с разумными метаданными. [3]
- Корпус GUM , многослойный корпус Джорджтаунского университета с открытым исходным кодом, с очень большим количеством слоев аннотаций.
- Корпус Ngram Google Книги [4] [5]
- Международный корпус английского языка
- Оксфордский корпус английского языка
- RE3D (набор данных для оценки извлечения связей и сущностей)
- Корпус разговорного американского английского в Санта-Барбаре
- Шотландский корпус текстов и речи
- Страти Корпус канадского английского языка
Европейские языки
[ редактировать ]- CETENFолья
- Баскский: [6]
- Корпус электронных текстов
- Корпус кельтских надписей (CIIC), охватывающий примитивные ирландские надписи на огаме.
- Корпус Ngram Google Книги
- Корпус грузинского языка
- Тезаурус греческого языка (древнегреческий)
- Восточноармянский национальный корпус (ВАНК) 110 миллионов слов. Свободный поиск в Интернете.
- Корпус испанских текстов Молино де Идеи, содержащий 660 миллионов слов. [7]
- CorALit: Корпус академических литовских академических текстов, опубликованных в 1999–2009 гг. (около 9 миллионов слов). Составлено в Вильнюсском университете, Литва. [8]
- Справочный корпус современного португальского языка (CRPC)
- Турецкий национальный корпус [9]
- CoRoLa - Справочный корпус современного румынского языка
- TS Corpus — большой набор турецких корпусов. TS Corpus — это бесплатный и независимый проект, целью которого является создание турецких корпусов, инструментов НЛП и наборов лингвистических данных...
- MacMorpho - аннотированный корпус бразильско-португальского текста.
славянский
[ редактировать ]Восточнославянский
[ редактировать ]- Белорусский N-корпус
- Русский национальный корпус
- Общий интернет-корпус русского языка
- Общий регионально аннотированный корпус украинского языка
- Корпус украинского языка на лингвистическом портале Mova.info
- Корпус украинского языка
- Русский паук
- Русский корпус биографических текстов [10]
- RuTweetCorp [11]
- RusAge: Корпус возрастной классификации текстов
Южнославянский
[ редактировать ]- Болгарский национальный корпус [12]
- Македонский электронный корпус [13]
- Корпус хорватского языка
- Хорватский национальный корпус
- Словенский национальный корпус
Западнославянский
[ редактировать ]немецкий
[ редактировать ]- Справочный корпус немецкого языка (DeReKo) Более 4 миллиардов слов современного письменного немецкого языка.
- Бесплатный корпус немецких ошибок от людей с дислексией
Ближневосточные языки
[ редактировать ]- Корпус семитских надписей
- Ханаанские и арамейские надписи
- Корпус Хамшахри ( персидский )
- Персидский в корпусе MULTEXT-EAST (персидский) [15]
- Буквы Амарны ( аккадские , египетские, шумерограммы и т. д.)
- TEP: Тегеранский англо-персидский параллельный корпус [16]
- TMC: Тегеранский одноязычный корпус , Стандартный корпус для моделирования персидского языка [16]
- PTC: Корпус персидского языка сегодня: наиболее часто встречающиеся слова современного персидского языка, основанный на корпусе из миллиона слов (на персидском языке: Vāže-hā-ye Porkārbord-e Fārsi-ye Emrūz ), Хамид Хассани , Тегеран, Иранский языковой институт ( ИЛИ), 2005, 322 с. ISBN 964-8699-32-1
- Kurdish-corpus.uok.ac.ir (диалект курдского корпуса сорани) Университет Курдистана, факультет английского языка и лингвистики
- Корпус Биджанхана. Современный персидский корпус исследований НЛП, Тегеранский университет , 2012 г.
- Проект неоассирийского текстового корпуса
- Коранический арабский корпус (классический арабский язык)
- Электронный текстовый корпус шумерской литературы
- Открытый богато аннотированный клинописный корпус
- Текстовый корпус Asosoft [17] – Центральный курдский (Сорани)
- Тезаурус египетских языков (древнеегипетский, афро-азиатский)
Деванагари
[ редактировать ]- Корпус непальских текстов (более 90 миллионов слов/6,5+ миллионов предложений)
Восточноазиатские языки
[ редактировать ]- Корпус японского языка Котоноха [18]
- Синхронный корпус LIVAC (китайский)
Южноазиатские языки
[ редактировать ]- Нет : [19]
- SinMin Набор данных [20] ( сингальский )
Африканские языки
[ редактировать ]- Амхарский : [21]
- Креольский (Гвинейский залив) : [22]
- Английский : [23]
- Игбо : [24]
- Английский : [25]
- Йоруба : [26]
- Зулу : [27]
Параллельные корпуса разных языков
[ редактировать ]- Корпус политических устных переводов китайского и английского языков (CEPIC) [28] [29] состоит из стенограмм речей ведущих политических деятелей Гонконга, Пекина, Вашингтона и Лондона, а также их переведенных/интерпретированных текстов. Разработано Джун Паном и библиотекой HKBU.
- Europarl Corpus - протоколы Европейского парламента с 1996 по 2012 год.
- Корпус EUR-Lex - коллекция всех официальных языков Европейского Союза, созданная на основе базы данных EUR-Lex. [30]
- OPUS: Параллельный корпус с открытым исходным кодом на многих языках. [31]
- Татоэба Параллельный корпус, содержащий более 8,9 миллионов предложений на нескольких языках; В 107 языках содержится более 1000 предложений каждый; еще в 81 языке содержится от 100 до 1000 предложений каждый. [32]
- НТУ-Мультиязычный корпус на 7 языках (ara, eng, ind, jpn, kor, mcn, vie) [33] ( устаревшее репо )
- Корпус SeedLing — исходный корпус для проекта человеческого языка, включающий более 1000 языков из различных источников. [34]
- Параллельные тексты GRALIS для различных славянских языков, составленные Институтом славянских языков Университета Граца (Бранко Тошович и др.).
- Параллельный корпус ACTRES (P-ACTRES 2.0) — это двунаправленный англо-испанский корпус, состоящий из оригинальных текстов на одном языке и их переводов на другой. P-ACTRES 2.0 содержит более 6 миллионов слов, рассматривающих оба направления вместе. [35]
- Многоязычный параллельный корпус JRC-Acquis, содержащий полный свод законов Европейского Союза (ЕС): Acquis Communautaire с 231 языковой парой. [36]
- Параллельный корпус заседаний Европейского парламента, 1996–2011 гг.
- Целью проекта Opus является сбор параллельных корпусов в свободном доступе.
- Японско-английский двуязычный корпус статей о Киото в Википедии, заархивированный 22 августа 2012 г. в Wayback Machine.
- COMPARA – параллельные португальско-английские корпуса
- TERMSEARCH – параллельные корпуса на английском/русском/французском языках (основные международные договоры, конвенции, соглашения и т. д.).
- TradooIT – английский/французский/испанский – бесплатные онлайн-инструменты
- Нунавут Хансард - параллельный корпус английского и инуктитутского языков
- ПараСоль – параллельный корпус славянских и других языков.
- Glosbe: Многоязычные параллельные корпуса. Архивировано 27 мая 2013 г. в Wayback Machine с интерфейсом онлайн-поиска.
- InterCorp: многоязычный параллельный корпус из 40 языков, согласованный с чешским, интерфейс онлайн-поиска.
- myCAT — Olanto , concordancer (AGPL с открытым исходным кодом) с онлайн-поиском в корпусе JCR и UNO.
- TAUS с интерфейсом онлайн-поиска.
- linguatools многоязычные параллельные корпуса, интерфейс онлайн-поиска.
- EUR-Lex Corpus - корпус, созданный на основе базы данных EUR-Lex, состоит из законов Европейского Союза и других официальных документов Европейского Союза.
- Language Grid – многоязычная сервисная платформа, включающая параллельные текстовые сервисы.
Сопоставимая корпорация
[ редактировать ]- Корпус политических речей содержит четыре сборника политических речей на английском и китайском языках из «Корпуса президентских речей США (1789–2015 гг.), «Корпуса политических выступлений губернаторов Гонконга (1984–1996 гг.)» и руководителей Гонконга (1997–2014 гг.). ), Корпус речей президентов Тайваня в новогодние дни и двойные десятые дни (1978–2014 гг.) И Корпус докладов о работе правительства премьер-министров Китайской Народной Республики (1984–2013 гг.). Разработано Библиотекой ХКБУ.
- WaCky - Инициатива Web-As-Corpus Kool Web as Corpus (англ, fre, deu, ita)
- Устранение неоднозначности в коллекции корпусов похожих языков (DSLCC) [37] (боснийский, хорватский, сербский, индонезийский, малайский, чешский, словацкий, бразильский португальский, европейский португальский, полуостровный испанский, аргентинский испанский)
- Wikipedia Comparable Corpora ( требуется регистрация ) , когда (41 миллион согласованных статей Википедии для 253 языковых пар)
- Семейство TenTen Corpus — сопоставимые веб-корпусы целевого размера в 10 миллиардов слов. Эти корпуса доступны в системе управления корпусами Sketch Engine , в настоящее время существуют корпуса TenTen для более чем 30 языков (например, английский корпус TenTen, [38] арабский корпус TenTen, [39] испанский корпус TenTen, [40] Русский корпус Тентен, [41] [42] ). Обзор существующих корпораций TenTen можно найти по адресу https://www.sketchengine.co.uk/documentation/tenten-corpora/.
- Веб-корпуса JSI с отметкой времени – веб-корпуса новостных статей, сканированные из списка RSS-каналов. Корпуса новостных лент готовятся в рамках проекта, реализуемого Институтом Йожефа Стефана при словенском научно-исследовательском институте. [43] и опубликован в Sketch Engine. Более подробная информация о проекте находится на сайтах проекта .
L2 (английский) Corpora
[ редактировать ]- Кембриджский учебный корпус [44]
- Корпус академического письменного и разговорного английского языка (CAWSE), [45] коллекция образцов английского языка китайских студентов в академических условиях. Бесплатное скачивание в Интернете .
- Английский как лингва-франка в академической среде (ELFA), [46] академический корпус ELF. [47] [48]
- Международный корпус изучающего английский язык (ICLE), [49] корпус изучающих письменный английский язык.
- Международная база данных разговорного английского языка Лувена (LINDSEI), [50] корпус изучающего разговорный английский язык.
- Trinity Lancaster Corpus, один из крупнейших корпусов разговорного английского языка L2. [51] [52]
- Корпус Института английского языка Питтсбургского университета (PELIC) [53]
- Венско-Оксфордский международный корпус английского языка (VOICE), [54] корпус ELF. [47]
Ссылки
[ редактировать ]- ^ Пиявка, Джеффри (2007). «Обучение и языковые корпуса: конвергенция». В Вихманн, А.; и др. (ред.). Учебно-языковой корпус . Лондон: Лонгман. п. 9.
- ^ «База данных корпусных ресурсов (CoRD)» . Кафедра английского языка Хельсинкского университета.
- ^ Вале, Ян Филип; Руас, Терри; Мохаммед, Саиф; Гипп, Бела (2022). «D3: Массивный набор научных метаданных для анализа состояния исследований в области компьютерных наук» . Материалы тринадцатой конференции по языковым ресурсам и оценке . Марсель, Франция: Европейская ассоциация языковых ресурсов: 2642–2651. arXiv : 2204.13384 .
- ^ Профессор Марк Дэвис из BYU создал онлайн-инструмент для поиска в корпусе английского языка Google, взятом из Google Books, по адресу http://googlebooks.byu.edu/x.asp .
- ^ «Фразопоиск» . Поисковая система для Google Books Ngram Corpus, которая поддерживает запросы с подстановочными знаками и предлагает API.
- ^ [1] , Баскские тела
- ^ (на испанском языке) «Молинолабс-корпус» . molinolabs.com . Проверено 12 января 2014 г.
- ^ «CorALit — CorALit — учебник литовского научного языка» . coralit.lt . Проверено 12 января 2014 г.
- ^ «Турецкий национальный корпус - Türkçe Ulusal Derlemi - Домашняя страница» . tnc.org.tr. Проверено 12 января 2014 г.
- ^ Глазкова, А (2020). «Тематическая классификация фрагментов текста с учетом их ближайшего контекста» . Автоматизация и дистанционное управление . 81 (12): 2262–2276. дои : 10.1134/S0005117920120097 . S2CID 231929892 .
- ^ Рубцова, Ю (2015). «Построение корпуса для обучения классификации настроений» . Программное обеспечение и системы . 1 : 72–78. дои : 10.15827/0236-235X.109.072-078 .
- ^ «В стадии обновления» . search.dcl.bas.bg . Проверено 12 января 2014 г.
- ^ «Электронная коррупция македонских литературных текстов» .
- ^ «Портал | Чешский национальный корпус» .
- ^ Здравкова, Катрина; Туфис, Дэн; Симов Кирилл; Радзишевский, Адам; Касемизаде, Беранг; Прист-Дорман, Грег; Петкевич, Владимир; Оравец, Чаба; Крстев, Цветана; Коцыба, Наталья; Каалеп, Хейки-Яан; Иде, Нэнси; Гарабик, Радован; Димитрова, Людмила; Держанский Иван; Барбу, Ана-Мария; Эрьявец, Томаж (14 мая 2010 г.). «Доступно в CLARIN» . http://nl.ijs.si/me/v4/ .
{{cite journal}}
: Внешняя ссылка в
( помощь )|journal=
- ^ Jump up to: а б «Лаборатория НЛП Тегеранского университета» . ece.ut.ac.ir. Архивировано из оригинала 28 января 2014 года . Проверено 12 января 2014 г.
- ^ Хади Вейси, Мохаммад МохаммадАмини, Хавр Хоссейни; На пути к обработке курдского языка: эксперименты по сбору и обработке текстового корпуса AsoSoft, Цифровая стипендия в области гуманитарных наук, fqy074, https://doi.org/10.1093/llc/fqy074
- ^ "КОТОНОХА "Равновесный корпус современной японской письменности" Сёнагон" . Проверено 12 января 2014 г. .
- ^ «Загрузить Corpora Hindi» .
- ^ Д. Упекша, К. Виджаяратна, М. Сиривардена, Л. Ласандун, К. Вималасурия, Н. де Силва и Г. Диас. 2015. Внедрение корпуса сингальского языка . На симпозиуме по языковым технологиям для Южной Азии .
- ^ Блеск (uio.no)
- ^ «Креольская корпорация Гвинейского залива» . Май 2014. С. 523–529.
- ^ https://arxiv.org/pdf/2102.06991.pdf , https://wortschatz.uni-leipzig.de/en/download/Hausa
- ^ «IgTenTen — корпус игбо из Интернета | Sketch Engine» . 20 июня 2022 г.
- ^ «Текстовые корпуса Oromo | Sketch Engine» . 15 января 2019 г.
- ^ https://www.researchgate.net/publication/336274457_Digital_Yoruba_Corpus , https://www.sketchengine.eu/corpora-and-languages/yoruba-text-corpora/
- ^ «Загрузить Корпора Зулу» .
- ^ Пан, июнь (2019). «Китайско-английский корпус политических интерпретаторов (CEPIC). Библиотека баптистского университета Гонконга» . Проверено 3 января 2022 г.
- ^ Пан, июнь (30 октября 2019 г.). «Китайско-английский корпус политических устных переводов (CEPIC): новый электронный ресурс для письменных и устных переводчиков» . Материалы второго семинара «Человеческо-информированные технологии письменного и устного перевода, связанные с RANLP 2019» . ООО «Инкома», Шумен, Болгария: 82–88. дои : 10.26615/issn.2683-0078.2019_010 . S2CID 211257773 .
- ^ «EUR-Lex Corpus» . http://sketchengine.co.uk. 2 июня 2016 г. Проверено 27 октября 2016 г.
- ^ «OPUS — параллельный корпус с открытым исходным кодом» . opus.lingfil.uu.se . Проверено 12 января 2014 г.
- ^ «Татоэба — Количество предложений на язык» . tatoeba.org . Проверено 23 ноября 2020 г.
- ^ Лилинг Тан и Фрэнсис Бонд (14 мая 2012 г.). «Создание и аннотирование лингвистически разнообразного NTU-MC (NTU — многоязычный корпус)» (PDF) . Международный журнал обработки азиатских языков . 22 (4): 161–174. Архивировано из оригинала (PDF) 16 января 2014 года . Проверено 12 января 2014 г.
- ^ Гай Эмерсон, Лилинг Тан, Сюзанна Фертманн, Алексис Палмер и Микаэла Регнери. 2014. SeedLing: Создание и использование исходного корпуса для проекта Human Language Project . В материалах семинара по использованию вычислительных методов при изучении языков, находящихся под угрозой исчезновения (ComputEL). Балтимор, США.
- ^ Х. Санхурхо-Гонсалес и М. Искьердо. 2019. P-ACTRES 2.0: Параллельный корпус для межлингвистических исследований . В «Параллельном корпусе исследований контрастности и перевода: новые ресурсы и приложения» (стр. 215–231). Издательство Джона Бенджамина.
- ^ Ральф, Ральф Штайнбергер; Пуликен, Брюно; Видигер, Анна; Игнат, Камелия; Эрьявец, Томаж; Туфиш, Дэн; Варга, Даниэль (2006). JRC-Acquis: многоязычный параллельный корпус, содержащий более 20 языков . Материалы 5-й Международной конференции по языковым ресурсам и оценке (LREC'2006). Генуя, Италия, 24–26 мая 2006 г.
- ^ Лилинг Тан, Маркос Зампьери, Никола Любешич и Йорг Тидеманн. Объединение сопоставимых источников данных для распознавания схожих языков: коллекция корпуса DSL. В материалах 7-го семинара по созданию и использованию сопоставимых корпораций (BUCC). 2014.
- ^ Килгаррифф, Адам (2012). «Знакомство со своим корпусом». Текст, речь и диалог . Конспекты лекций по информатике. Том. 7499. стр. 3–15. CiteSeerX 10.1.1.452.8074 . дои : 10.1007/978-3-642-32790-2_1 . ISBN 978-3-642-32789-6 .
- ^ Белинков Ю., Хабаш Н., Килгаррифф А., Ордан Н., Рот Р. и Сухомель В. (2013). arTen-Ten: новый обширный корпус арабского языка . Труды ВАКЛ .
- ^ Килгаррифф А. и Ренау И. (2013). esTenTen, обширный веб-корпус полуостровного и американского испанского языка . Procedia – Социальные и поведенческие науки , 95, 12-19.
- ^ Хохлова, М. В. (2016). Обзор больших русскоязычных корпусов текстов . In Материалы научной конференции" Интернет и современное общество" (pp. 74-77).
- ^ Хохлова, М. (2016). Сравнение высокочастотных существительных с точки зрения большой корпорации . РАСЛАН 2016 Последние достижения в обработке славянского естественного языка , 9.
- ^ Трампуш М. и Новак Б. (октябрь 2012 г.). Внутреннее устройство агрегированного веб-канала новостей . В материалах Пятнадцатой Международной конференции по информатике IS SiKDD 2012 (стр. 431-434).
- ^ "Cambridge English Corpus" , Arc.Ask3.Ru , 27 сентября 2019 г. , получено 7 января 2020 г.
- ^ «Корпус CAWSE — Ноттингемский университет Нинбо, Китай — Ноттингемский университет Нинбо» . Nottingham.edu.cn Проверено 07 января 2020 г. .
- ^ «Английский язык как лингва-франка в академической среде» . Университет Хельсинки . 23 марта 2018 г. Проверено 7 января 2020 г.
- ^ Jump up to: а б «Английский язык как лингва-франка» , Arc.Ask3.Ru , 14 декабря 2019 г. , получено 7 января 2020 г.
- ^ Мауранен, А (2010). «Английский язык как академический лингва-франка: проект ELFA». Английский для специальных целей . 29 (3): 183–190. дои : 10.1016/j.esp.2009.10.001 .
- ^ «ИКЛ» . У.К.Лувен . Проверено 7 января 2020 г.
- ^ «ЛИНДСЕЙ» . ЮКЛувен (на французском языке) . Проверено 7 января 2020 г.
- ^ «Корпус Тринити Ланкастер | Центр корпусных подходов к социальным наукам ESRC (CASS)» . Проверено 7 января 2020 г.
- ^ Габласова, Д (2019). «Тринити-Ланкастерский корпус: развитие, описание и применение» . Международный журнал исследований корпуса учащихся . 5 (2): 126–158. doi : 10.1075/ijlcr.19001.gab .
- ^ Джаффс А., Хан Н.Р. и Нейсмит Б. (2020). Корпус английского языка Питтсбургского университета (PELIC) [набор данных]. дои : 10.5281/zenodo.3991977
- ^ "Проект" . univie.ac.at . Проверено 7 января 2020 г.