Jump to content

Семья Корпуса ТенТен

Семейство корпусов TenTen (также называемое корпусами TenTen ) представляет собой набор сопоставимых корпусов веб-текста , то есть коллекций текстов, которые были получены из Всемирной паутины и обработаны в соответствии с одними и теми же стандартами. Эти корпуса доступны через менеджер корпусов Sketch Engine . Существуют корпуса TenTen для более чем 35 языков. Их целевой размер составляет 10 миллиардов (10 10 ) слов на каждом языке, что дало начало названию семейства корпусов. [1]

При создании корпусов TenTen данные, полученные из Всемирной паутины, обрабатываются с помощью инструментов обработки естественного языка, разработанных Центром обработки естественного языка на факультете информатики Масариковского университета ( Брно , Чехия ) и компанией Lexical Computing ( разработчик Sketch Engine).

Корпусная лингвистика

[ редактировать ]

В корпусной лингвистике текстовый корпус — это большая и структурированная коллекция текстов, которые хранятся и обрабатываются в электронном виде. Он используется для проверки гипотез о языках, проверки лингвистических правил или частотного распределения слов ( н-грамм ) внутри языков.

Электронно обработанные корпуса обеспечивают быстрый поиск. Процедуры обработки текста, такие как токенизация , маркировка частей речи и устранение смысловой неоднозначности, обогащают корпусные тексты подробной лингвистической информацией. Это позволяет сузить поиск до определенных частей речи , последовательностей слов или определенной части корпуса.

Первые корпуса текстов были созданы в 1960-х годах, например, Брауновский корпус американского английского языка на 1 миллион слов . Со временем было создано множество дополнительных корпусов (таких как Британский национальный корпус и Корпус LOB ), а также началась работа над корпусами большего размера, охватывающими другие языки, кроме английского. Это развитие было связано с появлением инструментов создания корпусов, которые помогают добиться большего размера, более широкого охвата, более чистых данных и т. д.

Производство корпуса TenTen

[ редактировать ]

Процедура создания корпусов TenTen основана на более ранних исследованиях создателей по подготовке веб-корпусов и их последующей обработке. [2] [3] [4]

Вначале специальный веб-сканер SpiderLing загружает из Всемирной паутины огромное количество текстовых данных. [5] На более позднем этапе эти тексты подвергаются очистке , которая заключается в удалении любого нетекстового материала, такого как навигационные ссылки, верхние и нижние колонтитулы, из исходного HTML- кода веб-страниц с помощью инструмента jusText. [6] так что сохраняются только полные твердые предложения. В конце концов, инструмент ONION [6] применяется для удаления из корпуса повторяющихся частей текста , которые естественным образом возникают во Всемирной паутине из-за таких практик, как цитирование , цитирование , копирование и т. д. [1]

Структура данных TenTen Corp.

[ редактировать ]

Корпорации TenTen следуют определенной структуре метаданных, которая является общей для всех них. Метаданные содержатся в структурных атрибутах, которые относятся к отдельным документам и параграфам корпуса. Некоторые корпорации TenTen могут иметь дополнительные особые атрибуты.

Атрибуты документа

[ редактировать ]
  • домен верхнего уровня – домен на самом высоком уровне иерархической системы доменных имен (например, «com»).
  • веб-сайт – идентификационная строка, определяющая сферу административной автономии в Интернете (например, «wikipedia.org»).
  • веб-домен – совокупность связанных веб-страниц (например, «la.wikipedia.org»).
  • дата сканирования – дата, когда документ был загружен из Интернета.
  • url — унифицированный указатель ресурса, ссылающийся на источник документа.
  • wordcount – количество слов в документе
  • длина – классификация документа на диапазон по его длине, измеряемой в тысячах слов.

Атрибуты абзаца

[ редактировать ]

Доступные корпорации TenTen

[ редактировать ]

По состоянию на октябрь 2018 года через Sketch Engine можно получить доступ к следующим корпусам: [7]

  1. arTenTen ( арабский веб-корпус) [8]
  2. beTenTen ( Белорусский веб-корпус) [9]
  3. bgTenTen ( болгарский веб-корпус) [10]
  4. caTenTen ( каталонский веб-корпус)
  5. csTenTen ( чешский веб-корпус) [11]
  6. данные ( датский веб-корпус)
  7. deTenTen ( немецкий веб-корпус)
  8. elTenTen ( греческий веб-корпус)
  9. enTenTen ( английский веб-корпус) [12]
  10. esTenTen ( испанский веб-корпус с европейскими / американскими испанскими субкорпорациями) [13]
  11. etTenTen ( эстонский веб-корпус) [14]
  12. fiTenTen ( финский веб-корпус)
  13. frTenTen ( французский веб-корпус)
  14. heTenTen ( веб-корпус на иврите )
  15. hiTenTen ( веб-корпус на хинди )
  16. huTenTen ( венгерский веб-корпус)
  17. itTenTen ( итальянский веб-корпус)
  18. jaTenTen ( японский веб-корпус)
  19. kmTenTen ( кхмерский веб-корпус)
  20. koTenTen ( корейский веб-корпус)
  21. loTenTen ( веб-корпус Лаоса и Исана )
  22. ltTenTen ( литовский веб-корпус)
  23. lvTenTen ( Латвийский веб-корпус)
  24. mkTenTen ( македонский веб-корпус)
  25. nlTenTen ( голландский веб-корпус)
  26. noTenTen ( норвежский веб-корпус)
  27. plTenTen ( польский веб-корпус)
  28. ptTenTen ( португальский веб-корпус)
  29. roTenTen ( румынский веб-корпус)
  30. ruTenTen ( Русский веб-корпус)
  31. skTenTen ( словацкий веб-корпус)
  32. slTenTen ( словенский веб-корпус)
  33. svTenTen ( шведский веб-корпус)
  34. thTenTen ( тайский веб-корпус)
  35. tlTenTen ( тагальский веб-корпус)
  36. trTenTen ( турецкий веб-корпус) [15]
  37. ukTenTen ( украинский веб-корпус)
  38. zhTenTen ( веб-корпус китайских упрощенных символов )

См. также

[ редактировать ]
  1. ^ Перейти обратно: а б Якубичек, Милош; Килгаррифф, Адам ; Коварж, Войтех; Быстро, Павел; Сухомель, Вит (июль 2013 г.). Семья Тентен Корпус (PDF) . 7-я Международная конференция по корпусной лингвистике CL. Ланкастер, Великобритания: Ланкастерский университет. стр. 125–127 . Проверено 13 июня 2017 г.
  2. ^ Барони, Марко; Килгаррифф, Адам ; Коварж, Войтех; Рыхлый, Павел; Сухомель, Вит (июль 2013 г.). Большие лингвистически обработанные веб-корпуса для нескольких языков (PDF) . 11-я конференция европейского отделения Ассоциации компьютерной лингвистики: плакаты и демонстрации. Ассоциация компьютерной лингвистики. Тренто, Италия: Ланкастерский университет. стр. 87–90 . Проверено 13 июня 2017 г.
  3. ^ Килгаррифф, Адам ; Редди, Шива; Помикалек, Ян; Авинеш, ПВС (май 2010 г.). Фабрика корпусов для многих языков . 7-я конференция по языковым ресурсам и оценке. Валлетта, Мальта: ELRA . Проверено 13 июня 2017 г.
  4. ^ Шарофф, Серж (2006). «Создание корпусов общего назначения с использованием автоматических поисковых запросов» (PDF) . В Барони, Марко; Бернардини, Сильвия (ред.). Странно! Рабочие документы в Интернете как корпус . Болонья, Италия: GEDIT. стр. 63–98. ISBN  978-88-6027-004-7 .
  5. ^ Сухомель, Вит; Помикалек, январь (17 апреля 2012 г.). «Эффективное сканирование больших объемов текста в Интернете» (PDF) . Материалы седьмого семинара «Интернет как корпус» (WAC7) . Седьмой веб-семинар по корпусу. Лион, Франция: Ассоциация компьютерной лингвистики (ACL) в Интернете как корпусе. стр. 39–43 . Проверено 13 июня 2017 г.
  6. ^ Перейти обратно: а б Помикалек, Ян (2011). Удаление шаблонного и дублированного контента из веб-корпораций (доктор философии). Факультет информатики Масариковского университета . Проверено 17 апреля 2017 г.
  7. ^ «Семья Корпуса ТенТен» . www.sketchengine.eu . Эскизный движок . Проверено 23 октября 2018 г.
  8. ^ Белинков Ю., Хабаш Н., Килгаррифф А., Ордан Н., Рот Р. и Сухомель В. (2013). arTen-Ten: новый обширный корпус арабского языка . Труды ВАКЛ .
  9. ^ «Новый белорусский корпус (beTenTen)» . Эскизный движок . Лексические вычисления. 26 февраля 2018 г. Проверено 6 апреля 2018 г.
  10. ^ Килгаррифф А., Якубичек М., Помикалек Дж., Сардинья Т.Б. и Уайтлок П. (2014). PtTenTen: корпус португальской лексикографии . Работа с португальской корпорой , 111-30.
  11. ^ Сухомель, Вит (7–9 декабря 2012 г.). «Недавняя чешская веб-корпорация» . В Гораке, А.; Квик, П. (ред.). Материалы о последних достижениях в обработке славянского естественного языка, RASLAN 2012 . Трибуна ЕС. стр. 77–83.
  12. ^ Килгаррифф, Адам (2012). «Знакомство со своим корпусом». Текст, речь и диалог . Конспекты лекций по информатике. Том. 7499. стр. 3–15. CiteSeerX   10.1.1.452.8074 . дои : 10.1007/978-3-642-32790-2_1 . ISBN  978-3-642-32789-6 .
  13. ^ Килгаррифф А. и Ренау И. (2013). esTenTen, обширный веб-корпус полуостровного и американского испанского языка . Procedia – Социальные и поведенческие науки , 95, 12-19.
  14. ^ СРДАНОВИЧ, И. (2016). Исследовательский проект по языковым ресурсам для изучающих японский язык . Интерфакультетская , 6.
  15. ^ Байса, Вит; Сухомель, Вит (2015). «Поддержка тюркского языка в Sketch Engine» . Материалы международной конференции «Обработка тюркских языков: TurkLang 2015» . Казань: Академия наук Республики Татарстан. стр. 214–223. ISBN  978-5-9690-0262-3 – через ИС МУ.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 4b8b738a84edd131dba641290fd04f0e__1618864560
URL1:https://arc.ask3.ru/arc/aa/4b/0e/4b8b738a84edd131dba641290fd04f0e.html
Заголовок, (Title) документа по адресу, URL1:
TenTen Corpus Family - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)