Jump to content

Татоэба

Татоэба
Логотип Татоэба
Скриншот
Тип сайта
Онлайн параллельные корпуса
Доступно в 56 языков интерфейса; контент на 422 языках (февраль 2024 г.)
Страна происхождения Франция
Владелец Ассоциация Татоэба
Основатель(и) Транг Хо
Ключевые люди Аллан Саймон
URL-адрес татоэба .org
Коммерческий Нет
Регистрация Необязательный
Запущен 2006
Текущий статус Онлайн
Лицензия на контент
CC BY (некоторые предложения под CC0 ), звук различается

Tatoeba — это бесплатная коллекция примеров предложений с переводом, предназначенная для изучающих иностранный язык . Он доступен более чем на 400 языках. Его название происходит от японской фразы «татоэба» ( 例えば ), что означает «например». Он написан и поддерживается сообществом добровольцев по модели открытого сотрудничества . Отдельные участники известны как татоебцы. Им управляет Ассоциация Татоэба, французская некоммерческая организация, финансируемая за счет пожертвований.

История и развитие

[ редактировать ]

В 2006 году Транг Хо был разочарован тем, что, в отличие от некоторых японских аналогов, немецкие двуязычные словари не поддерживают полнотекстовый поиск примеров использования с переводом. [1] Это заставило ее представить себе свой идеальный словарь. [2] и создать прототип, размещенный на SourceForge под названием «multilangdict». [3] Основное внимание уже уделялось краудсорсингу переведенных предложений: «Что-то вроде Википедии, только люди добавляют предложения, а не статьи».

Параллельно с учебой в Технологическом университете Компьеня Транг Хо вместе с несколькими одноклассниками постепенно улучшала свой веб-сайт. Она дважды перестраивала проект с нуля и переименовывала его в Татоэба. В сентябре 2007 года около 150 000 пар англо-японских предложений из Корпуса Танака — общедоступного сборника, выпущенного в 2001 году профессором Университета Хёго Ясухито Танака и поддерживаемого Джимом Брином и Полом Блэем, — были импортированы в Корпус Татоэба. [4] В декабре 2008 года Транг Хо выпустил первую версию текущей кодовой базы, построенную на более гибкой модели данных . [5] В следующем месяце сайт переехал на домен tatoeba.org. [6]

В 2009-2010 учебном году Аллан Саймон — тогда студент SUPINFO — стал основным разработчиком Tatoeba. Вместе с Транг Хо и другими молодыми разработчиками они сделали Tatoeba более социальной: списки предложений, профили пользователей, личные сообщения и стена в стиле Facebook . Они также представили такие важные функции, как связывание предложений, тегирование и поиск «перевод перевода». В ноябре 2010 года Татоэба преодолела отметку в 600 000 предложений. За год количество добавляемых ежедневно предложений увеличилось почти в 50 раз. [7]

В период с 2014 по 2016 год вокруг Транг Хо сформировалась новая команда разработчиков. [8] Они были наставниками студентов на Google Summer of Code 2014. [9] и добавлены функции для улучшения качества корпуса.

За период 2018-2020 годов поддержка Mozilla Foundation в рамках проекта Common Voice позволила Tatoeba сделать свою платформу более открытой и удобной для пользователя. [10] [11]

Открытость

[ редактировать ]
Владельцы предложений добавлены на Татоэбу
Год Владельцы ±%
2012 2,177 —    
2013 2,287 +5.1%
2014 2,039 −10.8%
2015 2,247 +10.2%
2016 1,897 −15.6%
2017 1,413 −25.5%
2018  1,464 +3.6%
2019 1,309 −10.6%
2020 1,519 +16.0%
2021 1,365 −10.1%
2022 1,224 −10.3%
2023 1,166 −4.7%
Источник: подробные предложения Татоэбы.

Использовать

[ редактировать ]

Пользователи могут искать слова и находить предложения, в которых они используются. Результаты можно фильтровать по языку, количеству слов, тегу и другим критериям. [12]

Каждое предложение отображается рядом с его переводами и «переводами переводов». Раздел комментариев облегчает обратную связь и исправления.

Зарегистрированные пользователи могут создавать загружаемые списки предложений, которые могут быть частными, общедоступными или совместными.

Татоэбанцам предлагается вносить свой вклад на своем самом ярком языке. [13] Они могут добавлять оригинальные предложения и переводить существующие. Они могут корректировать или комментировать предложения других пользователей, а также «принимать» предложения без владельца. Опытным участникам также разрешено помечать, связывать и отключать предложения.

Если владелец предложения не отвечает на запрос на исправление, только специалист по сопровождению корпуса имеет право обновить или удалить предложение.

Управление

[ редактировать ]

проекта Будучи основателем Tatoeba, Транг Хо долгое время был BDFL .

В 2011 году она создала некоммерческую организацию для курирования проекта.

В 2022 году она решила отойти в сторону небольшой группы опытных татобанцев. [14]

Упрощенная диаграмма базовой структуры данных Tatoeba.

По состоянию на февраль 2024 года Корпус Татоэба насчитывает более 11 900 000 предложений на 422 языках. 59 из этих языков содержат 10 000 и более предложений. Более 1 миллиона предложений имеют аудиозаписи. [15]

Предложения взаимосвязаны внутри графа , содержащего более 23 700 000 ссылок. В 253 языковых парах переведено более 10 000 предложений. [16]

20 языков с наибольшим количеством ссылок (по состоянию на декабрь 2023 г.)
Язык Количество ссылок
Английский
6,403,428
Французский
1,856,168
Русский
1,796,490
эсперанто
1,743,558
немецкий
1,708,122
испанский
1,057,765
итальянский
1,033,393
турецкий
888,932
португальский
616,559
Голландский
611,647
японский
575,140
венгерский
438,392
Украинский
426,969
иврит
278,710
Кабиль
248,011
финский
229,026
Мандаринский китайский
202,868
Польский
200,271
датский
173,170
Шведский
123,577

Источник: еженедельный экспорт Татоэбы.

Операция

[ редактировать ]

Tatoeba получила грант от Mozilla Drumbeat в декабре 2010 года. [17] [18]

Некоторые работы над инфраструктурой Tatoeba спонсировались Google Summer of Code , издание 2014 года. [9]

В мае 2018 года они получили грант программы Mozilla Open Source Support (MOSS) в размере 25 000 долларов США. [10]

В августе 2019 года они получили грант программы Mozilla Open Source Support (MOSS) в размере 15 000 долларов США. [11]

Доступ к контенту

[ редактировать ]

Лицензирование

[ редактировать ]

По умолчанию предложения Tatoeba Corpus публикуются под лицензией CC BY . [19] освободив его для академических и других целей. Пользователи также могут добавлять предложения под лицензией CC0 , хотя переводы этих предложений в настоящее время не могут использовать одну и ту же лицензию. [20]

Для аудиозаписей предложений используется лицензия по выбору говорящего, например CC BY, CC BY-SA, CC BY-NC, или вообще не используется публичная лицензия. [21]

Автономное использование

[ редактировать ]

Посетители могут загрузить пары предложений, разделенных табуляцией, готовые для импорта в Anki и аналогичное программное обеспечение для интервальных повторений на веб-сайте Tatoeba. [16]

Инструменты разработки программного обеспечения

[ редактировать ]

нестабильный API . Разработчикам программного обеспечения доступен [22]

[ редактировать ]

Приобретение второго языка

[ редактировать ]

Предложения Татоэбы можно использовать для создания лексикографических справочников для изучающих язык. выбирает Японско-английский словарь JMdict примеры предложений из Tatoeba Corpus. [23] OpenEnglish — бесплатный словарь русского языка, созданный в основном на основе материалов Викисловаря и Tatoeba. [24] GoodExample пытается автоматически извлечь разнообразный набор высококачественных примеров предложений из английского корпуса Tatoeba. [25]

Наборы данных Tatoeba могут обеспечить случайное обучение , которое сочетает изучение иностранного языка с повседневной деятельностью пользователя, такой как просмотр веб-страниц или чтение книг. [26] [27] Команда MIT Media Lab использовала примеры предложений с Tatoeba в WordSense, платформе смешанной реальности , которая позволяет « по счастливой случайности изучать язык в дикой природе». [28] Совсем недавно японские исследователи внедрили функцию поиска Tatoeba в интегрированную среду помощи при письме. [29]

Хотя не все предложения в Tatoeba Corpus являются аутентичными, они иногда используются для создания обучающих приложений, управляемых данными . Поиск BES (Basic English Sentence) — это некоммерческий инструмент для поиска английских предложений начального уровня для использования в учебных материалах. [30] В нем более 1 миллиона предложений, большинство из них с Татоэбы. [31] Reverso использует параллельные корпуса Tatoeba в своем коммерческом двуязычном конкордансе . [32]

Примеры предложений также используются в качестве основы для упражнений. Чарльз Келли и Пол Рейн, преподаватели EFL в Японии, разработали упражнения по изучению языка , основанные на предложениях, взятых из корпуса Татоэба. [33] [34] Clozemaster — это программа самообучения языка , которая генерирует игровые тесты на основе пар предложений Tatoeba. [35] Некоторые Anki пользователи делятся карточками , созданными с помощью Tatoeba. [36]

Региональные языки или языки меньшинств

[ редактировать ]

языковых Некоторые активисты цифровых технологий вносят свой вклад в открытые совместные проекты, такие как Tatoeba, Wikipedia и Common Voice, для продвижения языка своего меньшинства в цифровых пространствах. [37] Региональные языки, такие как кабильский , каталанский или баскский, могут зарегистрировать на Татоэбе более сотни участников. [38]

Искусственные языки

[ редактировать ]

Избранный контент Tatoeba на эсперанто доступен на многоязычном DVD Esperanto Elektronike, изданном E@I. [39] Татоэбы По состоянию на ноябрь 2022 года эсперанто является пятым основным языком : более 330 000 предложений переведено как минимум на два языка. [16] Другие искусственные языки, такие как токипона , интерлингва , клингон , ложбан и идо , также имеют значительное влияние. [15]

Языковые технологии

[ редактировать ]
Исследовательские статьи о машинном переводе, в которых упоминается Татоэба [40]

С 2008 по 2011 год Фрэнсис Бонд использовал Корпус Татоэба для своих исследований японского языка. [41] [42]

С 2013 года Йорг Тидеманн более широко распространяет параллельные корпуса Tatoeba в сообществе машинного перевода , размещая их в репозитории OPUS и организуя «Tatoeba Translation Challenge». [43] [44] С развитием глубокого обучения исследователи все чаще используют наборы данных Tatoeba для обучения и оценки своих многоязычных моделей в таких задачах, как машинный перевод , [45] языковая идентификация , [46] смысловой поиск , [47] и распознавание речи . [48]

См. также

[ редактировать ]
  1. ^ Транг. «История Татоэбы» . Проверено 8 ноября 2022 г.
  2. ^ «Идеальный словарь Транга.pdf» . Гугл Документы . Проверено 8 ноября 2022 г.
  3. ^ «Проект словаря Транга» . sourceforge.net . 10 апреля 2013 г.
  4. ^ «Корпус Танака» . EDRDG Wiki . Группа исследований и разработок электронного словаря. 3 февраля 2011 года . Проверено 20 марта 2011 г.
  5. ^ Tatoeba Stream # 3 - Возвращение во времени , получено 8 ноября 2022 г.
  6. ^ Транг. «Новый адрес: tatoeba.org» . Проверено 8 ноября 2022 г.
  7. ^ Транг. «Немного статистики» . Проверено 8 ноября 2022 г.
  8. ^ Алан Ф. «Информация о разработке» . Проверено 8 ноября 2022 г.
  9. ^ Jump up to: а б «Google Summer of Code 2014, Ассоциация организаций Татоэба» . www.google-melange.com . Проверено 26 сентября 2022 г.
  10. ^ Jump up to: а б «Награда МОСС для Татоэбы» . Проверено 26 сентября 2022 г.
  11. ^ Jump up to: а б «Вторая награда МОСС» . Проверено 26 сентября 2022 г.
  12. ^ «Расширенный поиск — Татоэба» . tatoeba.org . Проверено 21 ноября 2023 г.
  13. ^ «Краткое руководство» .
  14. ^ «Тема № 38883 — Татоэба» . tatoeba.org . Проверено 21 ноября 2023 г.
  15. ^ Jump up to: а б «Количество предложений на язык — Татоэба» . tatoeba.org . Проверено 1 ноября 2022 г.
  16. ^ Jump up to: а б с «Скачать предложения — Татоэба» . tatoeba.org . Проверено 1 ноября 2022 г.
  17. ^ Хо, Транг (17 января 2011 г.). «Грант от Mozilla Drumbeat» . Блог проекта Татоэба . Проверено 20 марта 2011 г.
  18. ^ Мольтке, Хенрик (30 декабря 2010 г.). «Лучшие проекты Drumbeat: Tatoeba — бесплатная и открытая база данных предложений» . Yoyodyne.cc . Архивировано из оригинала 2 января 2011 года . Проверено 20 марта 2011 г. ...Фонд Mozilla хочет поддержать и помочь проекту Tatoeba, предоставив ему грант Mozilla Drumbeat Grant в размере 2,5 тысяч долларов США.
  19. ^ "Условия эксплуатации" . Татоэба.орг . Проверено 20 марта 2011 г.
  20. ^ «Как внести свой вклад в CC0» . ru.wiki.tatoeba.org . Проверено 25 октября 2021 г.
  21. ^ «Все публичные списки, содержащие слово «аудио» (140) — Татоэба» . tatoeba.org . Проверено 25 октября 2021 г.
  22. ^ «Татоэба API» . api.dev.tatoeba.org . Проверено 21 ноября 2023 г.
  23. ^ «WWWJDIC – ИНФОРМАЦИЯ» . www.edrdg.org . Проверено 13 ноября 2022 г. .
  24. ^ «Об OpenРусском» . ru.openrussian.org . Проверено 16 ноября 2022 г.
  25. ^ «Юридические соображения — GoodExample» . www.goodexample.is . Проверено 6 декабря 2022 г.
  26. ^ Винивартер, Вернер (11 декабря 2015 г.). «ДЖИЛЛ» . Материалы 17-й Международной конференции по информационной интеграции, веб-приложениям и услугам . iiWAS '15. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 1–9. дои : 10.1145/2837185.2837191 . ISBN  978-1-4503-3491-4 . S2CID   2130581 .
  27. ^ «Лизоны!» . fau.github.io . Проверено 2 декабря 2022 г.
  28. ^ Васкес, Кристиан Дэвид; Ньяти, Афика Аянда; Лух, Александр; Фу, Меган; Айкава, Такако; Мэйс, Патти (6 мая 2017 г.). «Случайное изучение языка в смешанной реальности» . Материалы конференции CHI 2017. Расширенные тезисы по человеческому фактору в вычислительных системах . ЧИ ЕА '17. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 2172–2179. дои : 10.1145/3027063.3053098 . ISBN  978-1-4503-4656-6 . S2CID   1557887 .
  29. ^ Масато Хагивара, Такуми Ито, Тацуки Курибаяши, Дзюн Судзуки и Кентаро Инуи. 2019. TEASPN: Структура и протокол для интегрированной среды помощи в написании. В материалах конференции 2019 года по эмпирическим методам обработки естественного языка и 9-й Международной совместной конференции по обработке естественного языка (EMNLP-IJCNLP): системные демонстрации , страницы 229–234, Гонконг, Китай. Ассоциация компьютерной лингвистики.
  30. ^ «БЭС Поиск» . bessearch.ddl-study.org . Проверено 14 июня 2023 г.
  31. ^ НИСИГАКИ, К., и АКАСЭГАВА, С. Учащиеся средних школ: что мы можем сделать, чтобы воспитать пользователей автономного корпуса?.
  32. ^ «Контекст Reverso | Юридические соображения относительно корпусов, используемых в контекстном словаре» . context.reverso.net . Проверено 2 декабря 2022 г.
  33. ^ Келли, Чарльз (2012). «Материалы по изучению языка с сайта www.ManyThings.org с использованием корпуса проектов Tatoeva» (PDF), Отчет об исследовании Технологического института Айти (47), 77-84.
  34. ^ Рейн, Пол (2018). «Построение предложений с помощью Web 2.0 и базы данных Tatoeba» (PDF) . Акценты Азии .
  35. ^ «Что такое тест Клоза? Тесты на удаление Клоза и изучение языка» . Блог Clozemaster . 17 октября 2017 г.
  36. ^ «Татоэба — АнкиВеб» . ankiweb.net . Проверено 2 декабря 2022 г.
  37. ^ «Rising Voices – Познакомьтесь с Прасантой Хембрамом, цифровым активистом языка сантали из Индии» . Восходящие голоса . 28 июня 2022 г. Проверено 15 ноября 2022 г.
  38. ^ «Языки участников — Татоэба» . tatoeba.org . Проверено 15 ноября 2022 г.
  39. ^ «Эсперанто электроника | E@I» . 13 октября 2017 г. Проверено 1 ноября 2022 г.
  40. ^ «Гугл Академика» . ученый.google.com . Проверено 13 ноября 2022 г. .
  41. ^ Фрэнсис Бонд, Такаюки Курибаяши, Хашимото Чикара (2008) Бесплатный японский Treebank на основе HPSG. На 14-м ежегодном собрании Ассоциации обработки естественного языка, Токио.
  42. ^ Эрик Николс, Фрэнсис Бонд, Даррен Скотт Эпплинг и Юджи Мацумото (2010) Перефразирование обучающих данных для статистического машинного перевода. Журнал обработки естественного языка, 17 (3), страницы 101–122.
  43. ^ «OPUS — параллельный корпус с открытым исходным кодом» . 30 июля 2013 года. Архивировано из оригинала 30 июля 2013 года . Проверено 13 ноября 2022 г. .
  44. ^ Тидеманн, Йорг (13 октября 2020 г.). «Задача перевода Татоэба: реалистичные наборы данных для малоресурсного и многоязычного машинного перевода». arXiv : 2010.06354 [ cs.CL ].
  45. ^ Команда НЛЛБ; Коста-Хусса, Марта Р.; Кросс, Джеймс; Челеби, Онур; Эльбаяд, Маха; Хифилд, Кеннет; Хеффернан, Кевин; Калбасси, Элахе; Лам, Дженис; Лихт, Дэниел; Майяр, Жан; Солнце, Анна; Ван, Скайлер; Венцек, Гийом; Янгблад, Эл (25 августа 2022 г.). «Ни один язык не останется позади: масштабирование человеко-ориентированного машинного перевода». arXiv : 2207.04672 [ cs.CL ].
  46. ^ «Идентификация языка · fastText» . fasttext.cc . Проверено 16 ноября 2022 г.
  47. ^ Ху, Цзюньцзе; Рудер, Себастьян; Сиддхант, Адитья; Нойбиг, Грэм; Фират, Орхан; Джонсон, Мелвин (4 сентября 2020 г.). «XTREME: многоязычный многозадачный тест для оценки межъязыкового обобщения». arXiv : 2003.11080 [ cs.CL ].
  48. ^ Ван, Чанхань; Пино, Хуан; Ву, Энн; Гу, Цзятао (9 июня 2020 г.). «CoVoST: разнообразный многоязычный корпус перевода речи в текст». arXiv : 2002.01320 [ cs.CL ].
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 7b0f8291b521f6021dae1023b7bdc225__1722227880
URL1:https://arc.ask3.ru/arc/aa/7b/25/7b0f8291b521f6021dae1023b7bdc225.html
Заголовок, (Title) документа по адресу, URL1:
Tatoeba - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)