ТИОН

ТИМИТ — это корпус фонематически и лексически транскрибируемой речи носителей американского английского языка разных полов и диалектов. Каждый транскрибируемый элемент разграничен во времени.

TIMIT был разработан для расширения акустико-фонетических знаний и систем автоматического распознавания речи. Он был заказан DARPA , а разработка корпуса была совместной работой Массачусетского технологического института , SRI International и Texas Instruments (TI). Речь была записана в TI, расшифрована в Массачусетском технологическом институте, проверена и подготовлена к публикации Национальным институтом стандартов и технологий (NIST). ^[1] Существует также версия с пропускной способностью телефона, называемая NTIMIT (Network TIMIT).

TIMIT и NTIMIT не доступны в свободном доступе — либо членство в Консорциуме лингвистических данных для доступа к набору данных требуется , либо денежная оплата.

История

Телефонный корпус TIMIT был ранней попыткой создать базу данных с образцами речи. ^[2] Он был опубликован в 1988 году на компакт-диске и состоит всего из 10 предложений на каждого докладчика. Каждый говорящий прочитал по два «диалектных» предложения, а также еще 8 предложений, выбранных из большего набора. ^[3] Каждое предложение длится в среднем 3 секунды и произносится 630 разными спикерами. ^[4] Это была первая заметная попытка создания и распространения речевого корпуса , и общая стоимость проекта составила 1,5 миллиона долларов США. ^[5]

Полное название проекта — Акустико-фонетический корпус непрерывной речи DARPA-TIMIT. ^[6] а аббревиатура TIMIT означает Texas Instruments/Массачусетский технологический институт. Основная причина создания корпуса телефонной речи заключалась в обучении программного обеспечения по распознаванию речи . В конкурсе Blizzard различное программное обеспечение обязано преобразовывать аудиозаписи в текстовые данные, а корпус TIMIT использовался в качестве стандартизированной базовой линии. ^[7]

См. также

Сравнение наборов данных в машинном обучении

Ссылки

^ Фишер, Уильям М.; Доддингтон, Джордж Р.; Гуди-Маршалл, Кэтлин М. (1986). «База данных исследований DARPA по распознаванию речи: характеристики и статус». Материалы семинара DARPA по распознаванию речи . стр. 93–99.
^ Моралес, Николас и Техедор, Хавьер и Гарридо, Хавьер и Колас, Хосе и Толедано, Доротео Т (2008). «НТЦ-ТИМИТ Генерация одноканального телефонного корпуса». Материалы шестого международного форума языковых ресурсов и оценки (LREC'08) : 391–395. {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ Лори Ф. Ламель , Роберт Х. Кассель и Стефани Сенефф (1986). Разработка речевой базы данных: проектирование и анализ акустико-фонетического корпуса (Технический отчет). DARPA (SAIC-86/1546).
^ Джон С. Гарофоло, Лори Ф. Ламел , Уильям М. Фишер, Джонатан Дж. Фискус, Дэвид С. Паллетт и Нэнси Л. Дальгрен (1993). DARPA TIMIT (Технический отчет). Национальный институт стандартов и технологий. дои : 10.6028/nist.ir.4930 .
^ Наттанун Чанчаочай, Кристофер Циери, Джафет Дебра, Хунвэй Дин, Юэ Цзян, Сиши Ляо, Марк Либерман, Джонатан Райт, Цзяхун Юань, Джухун Чжань и Юцин Чжань (2018). GlobalTIMIT: Наборы акустико-фонетических данных для языков мира . Интерспич 2018. ISCA. дои : 10.21437/interspeech.2018-1185 .
^ Бауэр, Патрик и Шелер, Дэвид и Фингшайдт, Тим (2010). WTIMIT: Речевой корпус TIMIT, передаваемый по широкополосной мобильной сети 3G AMR . ЛРЭК. {{cite conference}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ Савада, Кей и Асаи, Чиаки и Хашимото, Кей и Оура, Кейитиро и Токуда, Кейичи (2016). Система преобразования текста в речь NITech для Blizzard Challenge 2016 . Мастер-класс Blizzard Challenge 2016. {{cite conference}}: CS1 maint: несколько имен: список авторов ( ссылка )

Внешние ссылки

Акустико-фонетический корпус непрерывной речи TIMIT

[1] Фишер, Уильям М.; Доддингтон, Джордж Р.; Гуди-Маршалл, Кэтлин М. (1986). «База данных исследований DARPA по распознаванию речи: характеристики и статус». Материалы семинара DARPA по распознаванию речи . стр. 93–99.

[2] Моралес, Николас и Техедор, Хавьер и Гарридо, Хавьер и Колас, Хосе и Толедано, Доротео Т (2008). «НТЦ-ТИМИТ Генерация одноканального телефонного корпуса». Материалы шестого международного форума языковых ресурсов и оценки (LREC'08) : 391–395. {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )

[3] Лори Ф. Ламель , Роберт Х. Кассель и Стефани Сенефф (1986). Разработка речевой базы данных: проектирование и анализ акустико-фонетического корпуса (Технический отчет). DARPA (SAIC-86/1546).

[4] Джон С. Гарофоло, Лори Ф. Ламел , Уильям М. Фишер, Джонатан Дж. Фискус, Дэвид С. Паллетт и Нэнси Л. Дальгрен (1993). DARPA TIMIT (Технический отчет). Национальный институт стандартов и технологий. дои : 10.6028/nist.ir.4930 .

[5] Наттанун Чанчаочай, Кристофер Циери, Джафет Дебра, Хунвэй Дин, Юэ Цзян, Сиши Ляо, Марк Либерман, Джонатан Райт, Цзяхун Юань, Джухун Чжань и Юцин Чжань (2018). GlobalTIMIT: Наборы акустико-фонетических данных для языков мира . Интерспич 2018. ISCA. дои : 10.21437/interspeech.2018-1185 .

[6] Бауэр, Патрик и Шелер, Дэвид и Фингшайдт, Тим (2010). WTIMIT: Речевой корпус TIMIT, передаваемый по широкополосной мобильной сети 3G AMR . ЛРЭК. {{cite conference}}: CS1 maint: несколько имен: список авторов ( ссылка )

[7] Савада, Кей и Асаи, Чиаки и Хашимото, Кей и Оура, Кейитиро и Токуда, Кейичи (2016). Система преобразования текста в речь NITech для Blizzard Challenge 2016 . Мастер-класс Blizzard Challenge 2016. {{cite conference}}: CS1 maint: несколько имен: список авторов ( ссылка )

[1]

[2]

[3]

[4]

[5]

[6]

[7]

v т и Корпусная лингвистика
Текстовые корпуса, Английский	Американский национальный корпус Банк английского языка Бергенский корпус Лондонского языка подростков Британский национальный корпус Коричневый Корпус Бакай Корпус Кембриджский корпус английского языка Корпус современного американского английского языка Энрон Корпус ЭнТенТен Международный корпус английского языка Корпус Ланкастер-Осло-Берген Оксфордский корпус английского языка ПропБанк Разговорный корпус английского языка Коммутационный телефонный речевой корпус ТИОН ВербНет Веллингтонский корпус разговорного новозеландского английского языка
Текстовые корпуса, неанглоязычный	Корпус Биджанхана ЧАЙЛДС CorCenCC Национальный корпус современного валлийского языка Корпус хорватского языка Хорватский национальный корпус Чешский национальный корпус Корпус Европарла Справочный корпус немецкого языка Корпус Хамшахри Национальный корпус польского языка Проект неоассирийского текстового корпуса Персидский речевой корпус Коранический арабский корпус Русский национальный корпус Шотландский корпус текстов и речи Словенский национальный корпус TalkBank Татоэба Тегеранский одноязычный корпус Учебник эсперанто Семья Корпуса ТенТен Тезаурус греческого языка
Организации	Консорциум БНК КОБИЛД Эскизный движок