Семья Корпуса ТенТен
Семейство корпусов TenTen (также называемое корпусами TenTen ) представляет собой набор сопоставимых корпусов веб-текста , то есть коллекций текстов, которые были получены из Всемирной паутины и обработаны в соответствии с одними и теми же стандартами. Эти корпуса доступны через менеджер корпусов Sketch Engine . Существуют корпуса TenTen для более чем 35 языков. Их целевой размер составляет 10 миллиардов (10 10 ) слов на каждом языке, что дало начало названию семейства корпусов. [1]
При создании корпусов TenTen данные, полученные из Всемирной паутины, обрабатываются с помощью инструментов обработки естественного языка, разработанных Центром обработки естественного языка на факультете информатики Масариковского университета ( Брно , Чехия ) и компанией Lexical Computing ( разработчик Sketch Engine).
Корпусная лингвистика
[ редактировать ]В корпусной лингвистике текстовый корпус — это большая и структурированная коллекция текстов, которые хранятся и обрабатываются в электронном виде. Он используется для проверки гипотез о языках, проверки лингвистических правил или частотного распределения слов ( н-грамм ) внутри языков.
Электронно обработанные корпуса обеспечивают быстрый поиск. Процедуры обработки текста, такие как токенизация , маркировка частей речи и устранение смысловой неоднозначности, обогащают корпусные тексты подробной лингвистической информацией. Это позволяет сузить поиск до определенных частей речи , последовательностей слов или определенной части корпуса.
Первые корпуса текстов были созданы в 1960-х годах, например, Брауновский корпус американского английского языка на 1 миллион слов . Со временем было создано множество дополнительных корпусов (таких как Британский национальный корпус и Корпус LOB ), а также началась работа над корпусами большего размера, охватывающими другие языки, кроме английского. Это развитие было связано с появлением инструментов создания корпусов, которые помогают добиться большего размера, более широкого охвата, более чистых данных и т. д.
Производство корпуса TenTen
[ редактировать ]Процедура создания корпусов TenTen основана на более ранних исследованиях создателей по подготовке веб-корпусов и их последующей обработке. [2] [3] [4]
Вначале специальный веб-сканер SpiderLing загружает из Всемирной паутины огромное количество текстовых данных. [5] На более позднем этапе эти тексты подвергаются очистке , которая заключается в удалении любого нетекстового материала, такого как навигационные ссылки, верхние и нижние колонтитулы, из исходного HTML- кода веб-страниц с помощью инструмента jusText. [6] так что сохраняются только полные твердые предложения. В конце концов, инструмент ONION [6] применяется для удаления из корпуса повторяющихся частей текста , которые естественным образом возникают во Всемирной паутине из-за таких практик, как цитирование , цитирование , копирование и т. д. [1]
Структура данных TenTen Corp.
[ редактировать ]Корпорации TenTen следуют определенной структуре метаданных, которая является общей для всех них. Метаданные содержатся в структурных атрибутах, которые относятся к отдельным документам и параграфам корпуса. Некоторые корпорации TenTen могут иметь дополнительные особые атрибуты.
Атрибуты документа
[ редактировать ]- домен верхнего уровня – домен на самом высоком уровне иерархической системы доменных имен (например, «com»).
- веб-сайт – идентификационная строка, определяющая сферу административной автономии в Интернете (например, «wikipedia.org»).
- веб-домен – совокупность связанных веб-страниц (например, «la.wikipedia.org»).
- дата сканирования – дата, когда документ был загружен из Интернета.
- url — унифицированный указатель ресурса, ссылающийся на источник документа.
- wordcount – количество слов в документе
- длина – классификация документа на диапазон по его длине, измеряемой в тысячах слов.
Атрибуты абзаца
[ редактировать ]- заголовок – числовой атрибут, отличающий заголовки и аналогичные заголовки от обычного основного текста (1, если абзац является заголовком, 0 в противном случае)
Доступные корпорации TenTen
[ редактировать ]По состоянию на октябрь 2018 года через Sketch Engine можно получить доступ к следующим корпусам: [7]
- arTenTen ( арабский веб-корпус) [8]
- beTenTen ( Белорусский веб-корпус) [9]
- bgTenTen ( болгарский веб-корпус) [10]
- caTenTen ( каталонский веб-корпус)
- csTenTen ( чешский веб-корпус) [11]
- данные ( датский веб-корпус)
- deTenTen ( немецкий веб-корпус)
- elTenTen ( греческий веб-корпус)
- enTenTen ( английский веб-корпус) [12]
- esTenTen ( испанский веб-корпус с европейскими / американскими испанскими субкорпорациями) [13]
- etTenTen ( эстонский веб-корпус) [14]
- fiTenTen ( финский веб-корпус)
- frTenTen ( французский веб-корпус)
- heTenTen ( веб-корпус на иврите )
- hiTenTen ( веб-корпус на хинди )
- huTenTen ( венгерский веб-корпус)
- itTenTen ( итальянский веб-корпус)
- jaTenTen ( японский веб-корпус)
- kmTenTen ( кхмерский веб-корпус)
- koTenTen ( корейский веб-корпус)
- loTenTen ( веб-корпус Лаоса и Исана )
- ltTenTen ( литовский веб-корпус)
- lvTenTen ( Латвийский веб-корпус)
- mkTenTen ( македонский веб-корпус)
- nlTenTen ( голландский веб-корпус)
- noTenTen ( норвежский веб-корпус)
- plTenTen ( польский веб-корпус)
- ptTenTen ( португальский веб-корпус)
- roTenTen ( румынский веб-корпус)
- ruTenTen ( Русский веб-корпус)
- skTenTen ( словацкий веб-корпус)
- slTenTen ( словенский веб-корпус)
- svTenTen ( шведский веб-корпус)
- thTenTen ( тайский веб-корпус)
- tlTenTen ( тагальский веб-корпус)
- trTenTen ( турецкий веб-корпус) [15]
- ukTenTen ( украинский веб-корпус)
- zhTenTen ( веб-корпус китайских упрощенных символов )
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Перейти обратно: а б Якубичек, Милош; Килгаррифф, Адам ; Коварж, Войтех; Быстро, Павел; Сухомель, Вит (июль 2013 г.). Семья Тентен Корпус (PDF) . 7-я Международная конференция по корпусной лингвистике CL. Ланкастер, Великобритания: Ланкастерский университет. стр. 125–127 . Проверено 13 июня 2017 г.
- ^ Барони, Марко; Килгаррифф, Адам ; Коварж, Войтех; Рыхлый, Павел; Сухомель, Вит (июль 2013 г.). Большие лингвистически обработанные веб-корпуса для нескольких языков (PDF) . 11-я конференция европейского отделения Ассоциации компьютерной лингвистики: плакаты и демонстрации. Ассоциация компьютерной лингвистики. Тренто, Италия: Ланкастерский университет. стр. 87–90 . Проверено 13 июня 2017 г.
- ^ Килгаррифф, Адам ; Редди, Шива; Помикалек, Ян; Авинеш, ПВС (май 2010 г.). Фабрика корпусов для многих языков . 7-я конференция по языковым ресурсам и оценке. Валлетта, Мальта: ELRA . Проверено 13 июня 2017 г.
- ^ Шарофф, Серж (2006). «Создание корпусов общего назначения с использованием автоматических поисковых запросов» (PDF) . В Барони, Марко; Бернардини, Сильвия (ред.). Странно! Рабочие документы в Интернете как корпус . Болонья, Италия: GEDIT. стр. 63–98. ISBN 978-88-6027-004-7 .
- ^ Сухомель, Вит; Помикалек, январь (17 апреля 2012 г.). «Эффективное сканирование больших объемов текста в Интернете» (PDF) . Материалы седьмого семинара «Интернет как корпус» (WAC7) . Седьмой веб-семинар по корпусу. Лион, Франция: Ассоциация компьютерной лингвистики (ACL) в Интернете как корпусе. стр. 39–43 . Проверено 13 июня 2017 г.
- ^ Перейти обратно: а б Помикалек, Ян (2011). Удаление шаблонного и дублированного контента из веб-корпораций (доктор философии). Факультет информатики Масариковского университета . Проверено 17 апреля 2017 г.
- ^ «Семья Корпуса ТенТен» . www.sketchengine.eu . Эскизный движок . Проверено 23 октября 2018 г.
- ^ Белинков Ю., Хабаш Н., Килгаррифф А., Ордан Н., Рот Р. и Сухомель В. (2013). arTen-Ten: новый обширный корпус арабского языка . Труды ВАКЛ .
- ^ «Новый белорусский корпус (beTenTen)» . Эскизный движок . Лексические вычисления. 26 февраля 2018 г. Проверено 6 апреля 2018 г.
- ^ Килгаррифф А., Якубичек М., Помикалек Дж., Сардинья Т.Б. и Уайтлок П. (2014). PtTenTen: корпус португальской лексикографии . Работа с португальской корпорой , 111-30.
- ^ Сухомель, Вит (7–9 декабря 2012 г.). «Недавняя чешская веб-корпорация» . В Гораке, А.; Квик, П. (ред.). Материалы о последних достижениях в обработке славянского естественного языка, RASLAN 2012 . Трибуна ЕС. стр. 77–83.
- ^ Килгаррифф, Адам (2012). «Знакомство со своим корпусом». Текст, речь и диалог . Конспекты лекций по информатике. Том. 7499. стр. 3–15. CiteSeerX 10.1.1.452.8074 . дои : 10.1007/978-3-642-32790-2_1 . ISBN 978-3-642-32789-6 .
- ^ Килгаррифф А. и Ренау И. (2013). esTenTen, обширный веб-корпус полуостровного и американского испанского языка . Procedia – Социальные и поведенческие науки , 95, 12-19.
- ^ СРДАНОВИЧ, И. (2016). Исследовательский проект по языковым ресурсам для изучающих японский язык . Интерфакультетская , 6.
- ^ Байса, Вит; Сухомель, Вит (2015). «Поддержка тюркского языка в Sketch Engine» . Материалы международной конференции «Обработка тюркских языков: TurkLang 2015» . Казань: Академия наук Республики Татарстан. стр. 214–223. ISBN 978-5-9690-0262-3 – через ИС МУ.
Внешние ссылки
[ редактировать ]- Семейство TenTen Corpus (на веб-сайте Sketch Engine)