Татоэба
Скриншот | |
Тип сайта | Онлайн параллельные корпуса |
---|---|
Доступно в | 56 языков интерфейса; контент на 422 языках (февраль 2024 г.) |
Страна происхождения | Франция |
Владелец | Ассоциация Татоэба |
Основатель(и) | Транг Хо |
Ключевые люди | Аллан Саймон |
URL-адрес | татоэба |
Коммерческий | Нет |
Регистрация | Необязательный |
Запущен | 2006 |
Текущий статус | Онлайн |
Лицензия на контент | CC BY (некоторые предложения под CC0 ), звук различается |
Tatoeba — это бесплатная коллекция примеров предложений с переводом, предназначенная для изучающих иностранный язык . Он доступен более чем на 400 языках. Его название происходит от японской фразы «татоэба» ( 例えば ), что означает «например». Он написан и поддерживается сообществом добровольцев по модели открытого сотрудничества . Отдельные участники известны как татоебцы. Им управляет Ассоциация Татоэба, французская некоммерческая организация, финансируемая за счет пожертвований.
История и развитие
[ редактировать ]В 2006 году Транг Хо был разочарован тем, что, в отличие от некоторых японских аналогов, немецкие двуязычные словари не поддерживают полнотекстовый поиск примеров использования с переводом. [1] Это заставило ее представить себе свой идеальный словарь. [2] и создать прототип, размещенный на SourceForge под названием «multilangdict». [3] Основное внимание уже уделялось краудсорсингу переведенных предложений: «Что-то вроде Википедии, только люди добавляют предложения, а не статьи».
Параллельно с учебой в Технологическом университете Компьеня Транг Хо вместе с несколькими одноклассниками постепенно улучшала свой веб-сайт. Она дважды перестраивала проект с нуля и переименовывала его в Татоэба. В сентябре 2007 года около 150 000 пар англо-японских предложений из Корпуса Танака — общедоступного сборника, выпущенного в 2001 году профессором Университета Хёго Ясухито Танака и поддерживаемого Джимом Брином и Полом Блэем, — были импортированы в Корпус Татоэба. [4] В декабре 2008 года Транг Хо выпустил первую версию текущей кодовой базы, построенную на более гибкой модели данных . [5] В следующем месяце сайт переехал на домен tatoeba.org. [6]
В 2009-2010 учебном году Аллан Саймон — тогда студент SUPINFO — стал основным разработчиком Tatoeba. Вместе с Транг Хо и другими молодыми разработчиками они сделали Tatoeba более социальной: списки предложений, профили пользователей, личные сообщения и стена в стиле Facebook . Они также представили такие важные функции, как связывание предложений, тегирование и поиск «перевод перевода». В ноябре 2010 года Татоэба преодолела отметку в 600 000 предложений. За год количество добавляемых ежедневно предложений увеличилось почти в 50 раз. [7]
В период с 2014 по 2016 год вокруг Транг Хо сформировалась новая команда разработчиков. [8] Они были наставниками студентов на Google Summer of Code 2014. [9] и добавлены функции для улучшения качества корпуса.
За период 2018-2020 годов поддержка Mozilla Foundation в рамках проекта Common Voice позволила Tatoeba сделать свою платформу более открытой и удобной для пользователя. [10] [11]
Открытость
[ редактировать ]Год | Владельцы | ±% |
---|---|---|
2012 | 2,177 | — |
2013 | 2,287 | +5.1% |
2014 | 2,039 | −10.8% |
2015 | 2,247 | +10.2% |
2016 | 1,897 | −15.6% |
2017 | 1,413 | −25.5% |
2018 | 1,464 | +3.6% |
2019 | 1,309 | −10.6% |
2020 | 1,519 | +16.0% |
2021 | 1,365 | −10.1% |
2022 | 1,224 | −10.3% |
2023 | 1,166 | −4.7% |
Источник: подробные предложения Татоэбы. |
Использовать
[ редактировать ]Пользователи могут искать слова и находить предложения, в которых они используются. Результаты можно фильтровать по языку, количеству слов, тегу и другим критериям. [12]
Каждое предложение отображается рядом с его переводами и «переводами переводов». Раздел комментариев облегчает обратную связь и исправления.
Зарегистрированные пользователи могут создавать загружаемые списки предложений, которые могут быть частными, общедоступными или совместными.
Вклад
[ редактировать ]Татоэбанцам предлагается вносить свой вклад на своем самом ярком языке. [13] Они могут добавлять оригинальные предложения и переводить существующие. Они могут корректировать или комментировать предложения других пользователей, а также «принимать» предложения без владельца. Опытным участникам также разрешено помечать, связывать и отключать предложения.
Если владелец предложения не отвечает на запрос на исправление, только специалист по сопровождению корпуса имеет право обновить или удалить предложение.
Управление
[ редактировать ]проекта Будучи основателем Tatoeba, Транг Хо долгое время был BDFL .
В 2011 году она создала некоммерческую организацию для курирования проекта.
В 2022 году она решила отойти в сторону небольшой группы опытных татобанцев. [14]
Языки
[ редактировать ]По состоянию на февраль 2024 года Корпус Татоэба насчитывает более 11 900 000 предложений на 422 языках. 59 из этих языков содержат 10 000 и более предложений. Более 1 миллиона предложений имеют аудиозаписи. [15]
Предложения взаимосвязаны внутри графа , содержащего более 23 700 000 ссылок. В 253 языковых парах переведено более 10 000 предложений. [16]
Язык | Количество ссылок | ||||||||
---|---|---|---|---|---|---|---|---|---|
Английский | |||||||||
Французский | |||||||||
Русский | |||||||||
эсперанто | |||||||||
немецкий | |||||||||
испанский | |||||||||
итальянский | |||||||||
турецкий | |||||||||
португальский | |||||||||
Голландский | |||||||||
японский | |||||||||
венгерский | |||||||||
Украинский | |||||||||
иврит | |||||||||
Кабиль | |||||||||
финский | |||||||||
Мандаринский китайский | |||||||||
Польский | |||||||||
датский | |||||||||
Шведский | |||||||||
Источник: еженедельный экспорт Татоэбы. |
Операция
[ редактировать ]Tatoeba получила грант от Mozilla Drumbeat в декабре 2010 года. [17] [18]
Некоторые работы над инфраструктурой Tatoeba спонсировались Google Summer of Code , издание 2014 года. [9]
В мае 2018 года они получили грант программы Mozilla Open Source Support (MOSS) в размере 25 000 долларов США. [10]
В августе 2019 года они получили грант программы Mozilla Open Source Support (MOSS) в размере 15 000 долларов США. [11]
Доступ к контенту
[ редактировать ]Лицензирование
[ редактировать ]По умолчанию предложения Tatoeba Corpus публикуются под лицензией CC BY . [19] освободив его для академических и других целей. Пользователи также могут добавлять предложения под лицензией CC0 , хотя переводы этих предложений в настоящее время не могут использовать одну и ту же лицензию. [20]
Для аудиозаписей предложений используется лицензия по выбору говорящего, например CC BY, CC BY-SA, CC BY-NC, или вообще не используется публичная лицензия. [21]
Автономное использование
[ редактировать ]Посетители могут загрузить пары предложений, разделенных табуляцией, готовые для импорта в Anki и аналогичное программное обеспечение для интервальных повторений на веб-сайте Tatoeba. [16]
Инструменты разработки программного обеспечения
[ редактировать ]нестабильный API . Разработчикам программного обеспечения доступен [22]
Связанные проекты
[ редактировать ]Приобретение второго языка
[ редактировать ]Предложения Татоэбы можно использовать для создания лексикографических справочников для изучающих язык. выбирает Японско-английский словарь JMdict примеры предложений из Tatoeba Corpus. [23] OpenEnglish — бесплатный словарь русского языка, созданный в основном на основе материалов Викисловаря и Tatoeba. [24] GoodExample пытается автоматически извлечь разнообразный набор высококачественных примеров предложений из английского корпуса Tatoeba. [25]
Наборы данных Tatoeba могут обеспечить случайное обучение , которое сочетает изучение иностранного языка с повседневной деятельностью пользователя, такой как просмотр веб-страниц или чтение книг. [26] [27] Команда MIT Media Lab использовала примеры предложений с Tatoeba в WordSense, платформе смешанной реальности , которая позволяет « по счастливой случайности изучать язык в дикой природе». [28] Совсем недавно японские исследователи внедрили функцию поиска Tatoeba в интегрированную среду помощи при письме. [29]
Хотя не все предложения в Tatoeba Corpus являются аутентичными, они иногда используются для создания обучающих приложений, управляемых данными . Поиск BES (Basic English Sentence) — это некоммерческий инструмент для поиска английских предложений начального уровня для использования в учебных материалах. [30] В нем более 1 миллиона предложений, большинство из них с Татоэбы. [31] Reverso использует параллельные корпуса Tatoeba в своем коммерческом двуязычном конкордансе . [32]
Примеры предложений также используются в качестве основы для упражнений. Чарльз Келли и Пол Рейн, преподаватели EFL в Японии, разработали упражнения по изучению языка , основанные на предложениях, взятых из корпуса Татоэба. [33] [34] Clozemaster — это программа самообучения языка , которая генерирует игровые тесты на основе пар предложений Tatoeba. [35] Некоторые Anki пользователи делятся карточками , созданными с помощью Tatoeba. [36]
Региональные языки или языки меньшинств
[ редактировать ]языковых Некоторые активисты цифровых технологий вносят свой вклад в открытые совместные проекты, такие как Tatoeba, Wikipedia и Common Voice, для продвижения языка своего меньшинства в цифровых пространствах. [37] Региональные языки, такие как кабильский , каталанский или баскский, могут зарегистрировать на Татоэбе более сотни участников. [38]
Искусственные языки
[ редактировать ]Избранный контент Tatoeba на эсперанто доступен на многоязычном DVD Esperanto Elektronike, изданном E@I. [39] Татоэбы По состоянию на ноябрь 2022 года эсперанто является пятым основным языком : более 330 000 предложений переведено как минимум на два языка. [16] Другие искусственные языки, такие как токипона , интерлингва , клингон , ложбан и идо , также имеют значительное влияние. [15]
Языковые технологии
[ редактировать ]С 2008 по 2011 год Фрэнсис Бонд использовал Корпус Татоэба для своих исследований японского языка. [41] [42]
С 2013 года Йорг Тидеманн более широко распространяет параллельные корпуса Tatoeba в сообществе машинного перевода , размещая их в репозитории OPUS и организуя «Tatoeba Translation Challenge». [43] [44] С развитием глубокого обучения исследователи все чаще используют наборы данных Tatoeba для обучения и оценки своих многоязычных моделей в таких задачах, как машинный перевод , [45] языковая идентификация , [46] смысловой поиск , [47] и распознавание речи . [48]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Транг. «История Татоэбы» . Проверено 8 ноября 2022 г.
- ^ «Идеальный словарь Транга.pdf» . Гугл Документы . Проверено 8 ноября 2022 г.
- ^ «Проект словаря Транга» . sourceforge.net . 10 апреля 2013 г.
- ^ «Корпус Танака» . EDRDG Wiki . Группа исследований и разработок электронного словаря. 3 февраля 2011 года . Проверено 20 марта 2011 г.
- ^ Tatoeba Stream # 3 - Возвращение во времени , получено 8 ноября 2022 г.
- ^ Транг. «Новый адрес: tatoeba.org» . Проверено 8 ноября 2022 г.
- ^ Транг. «Немного статистики» . Проверено 8 ноября 2022 г.
- ^ Алан Ф. «Информация о разработке» . Проверено 8 ноября 2022 г.
- ^ Jump up to: а б «Google Summer of Code 2014, Ассоциация организаций Татоэба» . www.google-melange.com . Проверено 26 сентября 2022 г.
- ^ Jump up to: а б «Награда МОСС для Татоэбы» . Проверено 26 сентября 2022 г.
- ^ Jump up to: а б «Вторая награда МОСС» . Проверено 26 сентября 2022 г.
- ^ «Расширенный поиск — Татоэба» . tatoeba.org . Проверено 21 ноября 2023 г.
- ^ «Краткое руководство» .
- ^ «Тема № 38883 — Татоэба» . tatoeba.org . Проверено 21 ноября 2023 г.
- ^ Jump up to: а б «Количество предложений на язык — Татоэба» . tatoeba.org . Проверено 1 ноября 2022 г.
- ^ Jump up to: а б с «Скачать предложения — Татоэба» . tatoeba.org . Проверено 1 ноября 2022 г.
- ^ Хо, Транг (17 января 2011 г.). «Грант от Mozilla Drumbeat» . Блог проекта Татоэба . Проверено 20 марта 2011 г.
- ^ Мольтке, Хенрик (30 декабря 2010 г.). «Лучшие проекты Drumbeat: Tatoeba — бесплатная и открытая база данных предложений» . Yoyodyne.cc . Архивировано из оригинала 2 января 2011 года . Проверено 20 марта 2011 г.
...Фонд Mozilla хочет поддержать и помочь проекту Tatoeba, предоставив ему грант Mozilla Drumbeat Grant в размере 2,5 тысяч долларов США.
- ^ "Условия эксплуатации" . Татоэба.орг . Проверено 20 марта 2011 г.
- ^ «Как внести свой вклад в CC0» . ru.wiki.tatoeba.org . Проверено 25 октября 2021 г.
- ^ «Все публичные списки, содержащие слово «аудио» (140) — Татоэба» . tatoeba.org . Проверено 25 октября 2021 г.
- ^ «Татоэба API» . api.dev.tatoeba.org . Проверено 21 ноября 2023 г.
- ^ «WWWJDIC – ИНФОРМАЦИЯ» . www.edrdg.org . Проверено 13 ноября 2022 г. .
- ^ «Об OpenРусском» . ru.openrussian.org . Проверено 16 ноября 2022 г.
- ^ «Юридические соображения — GoodExample» . www.goodexample.is . Проверено 6 декабря 2022 г.
- ^ Винивартер, Вернер (11 декабря 2015 г.). «ДЖИЛЛ» . Материалы 17-й Международной конференции по информационной интеграции, веб-приложениям и услугам . iiWAS '15. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 1–9. дои : 10.1145/2837185.2837191 . ISBN 978-1-4503-3491-4 . S2CID 2130581 .
- ^ «Лизоны!» . fau.github.io . Проверено 2 декабря 2022 г.
- ^ Васкес, Кристиан Дэвид; Ньяти, Афика Аянда; Лух, Александр; Фу, Меган; Айкава, Такако; Мэйс, Патти (6 мая 2017 г.). «Случайное изучение языка в смешанной реальности» . Материалы конференции CHI 2017. Расширенные тезисы по человеческому фактору в вычислительных системах . ЧИ ЕА '17. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 2172–2179. дои : 10.1145/3027063.3053098 . ISBN 978-1-4503-4656-6 . S2CID 1557887 .
- ^ Масато Хагивара, Такуми Ито, Тацуки Курибаяши, Дзюн Судзуки и Кентаро Инуи. 2019. TEASPN: Структура и протокол для интегрированной среды помощи в написании. В материалах конференции 2019 года по эмпирическим методам обработки естественного языка и 9-й Международной совместной конференции по обработке естественного языка (EMNLP-IJCNLP): системные демонстрации , страницы 229–234, Гонконг, Китай. Ассоциация компьютерной лингвистики.
- ^ «БЭС Поиск» . bessearch.ddl-study.org . Проверено 14 июня 2023 г.
- ^ НИСИГАКИ, К., и АКАСЭГАВА, С. Учащиеся средних школ: что мы можем сделать, чтобы воспитать пользователей автономного корпуса?.
- ^ «Контекст Reverso | Юридические соображения относительно корпусов, используемых в контекстном словаре» . context.reverso.net . Проверено 2 декабря 2022 г.
- ^ Келли, Чарльз (2012). «Материалы по изучению языка с сайта www.ManyThings.org с использованием корпуса проектов Tatoeva» (PDF), Отчет об исследовании Технологического института Айти (47), 77-84.
- ^ Рейн, Пол (2018). «Построение предложений с помощью Web 2.0 и базы данных Tatoeba» (PDF) . Акценты Азии .
- ^ «Что такое тест Клоза? Тесты на удаление Клоза и изучение языка» . Блог Clozemaster . 17 октября 2017 г.
- ^ «Татоэба — АнкиВеб» . ankiweb.net . Проверено 2 декабря 2022 г.
- ^ «Rising Voices – Познакомьтесь с Прасантой Хембрамом, цифровым активистом языка сантали из Индии» . Восходящие голоса . 28 июня 2022 г. Проверено 15 ноября 2022 г.
- ^ «Языки участников — Татоэба» . tatoeba.org . Проверено 15 ноября 2022 г.
- ^ «Эсперанто электроника | E@I» . 13 октября 2017 г. Проверено 1 ноября 2022 г.
- ^ «Гугл Академика» . ученый.google.com . Проверено 13 ноября 2022 г. .
- ^ Фрэнсис Бонд, Такаюки Курибаяши, Хашимото Чикара (2008) Бесплатный японский Treebank на основе HPSG. На 14-м ежегодном собрании Ассоциации обработки естественного языка, Токио.
- ^ Эрик Николс, Фрэнсис Бонд, Даррен Скотт Эпплинг и Юджи Мацумото (2010) Перефразирование обучающих данных для статистического машинного перевода. Журнал обработки естественного языка, 17 (3), страницы 101–122.
- ^ «OPUS — параллельный корпус с открытым исходным кодом» . 30 июля 2013 года. Архивировано из оригинала 30 июля 2013 года . Проверено 13 ноября 2022 г. .
- ^ Тидеманн, Йорг (13 октября 2020 г.). «Задача перевода Татоэба: реалистичные наборы данных для малоресурсного и многоязычного машинного перевода». arXiv : 2010.06354 [ cs.CL ].
- ^ Команда НЛЛБ; Коста-Хусса, Марта Р.; Кросс, Джеймс; Челеби, Онур; Эльбаяд, Маха; Хифилд, Кеннет; Хеффернан, Кевин; Калбасси, Элахе; Лам, Дженис; Лихт, Дэниел; Майяр, Жан; Солнце, Анна; Ван, Скайлер; Венцек, Гийом; Янгблад, Эл (25 августа 2022 г.). «Ни один язык не останется позади: масштабирование человеко-ориентированного машинного перевода». arXiv : 2207.04672 [ cs.CL ].
- ^ «Идентификация языка · fastText» . fasttext.cc . Проверено 16 ноября 2022 г.
- ^ Ху, Цзюньцзе; Рудер, Себастьян; Сиддхант, Адитья; Нойбиг, Грэм; Фират, Орхан; Джонсон, Мелвин (4 сентября 2020 г.). «XTREME: многоязычный многозадачный тест для оценки межъязыкового обобщения». arXiv : 2003.11080 [ cs.CL ].
- ^ Ван, Чанхань; Пино, Хуан; Ву, Энн; Гу, Цзятао (9 июня 2020 г.). «CoVoST: разнообразный многоязычный корпус перевода речи в текст». arXiv : 2002.01320 [ cs.CL ].
Внешние ссылки
[ редактировать ]- Компьютерная лингвистика
- Корпора
- Веб-сайты с лицензией Creative Commons
- Сайты с бесплатным контентом
- Французские образовательные сайты
- Программное обеспечение для изучения языков
- Обработка естественного языка
- Открытые данные
- Открытые образовательные ресурсы
- Социальные сети, сайты для изучения языков