Whisper (система распознавания речи)
Оригинальный автор(ы) | ОпенАИ [1] |
---|---|
Первоначальный выпуск | 21 сентября 2022 г. |
Репозиторий | https://github.com/openai/whisper |
Тип |
Whisper — это модель машинного обучения для речи распознавания и транскрипции , созданная OpenAI и впервые выпущенная как программное обеспечение с открытым исходным кодом в сентябре 2022 года. [2]
Он способен транскрибировать речь на английском и нескольких других языках. [3] а также способен переводить несколько неанглийских языков на английский. OpenAI утверждает, что сочетание различных обучающих данных, использованных при его разработке, привело к улучшению распознавания акцентов, фонового шума и жаргона по сравнению с предыдущими подходами. [4]
Whisper — это слабоконтролируемая глубокого обучения акустическая модель , созданная с использованием архитектуры преобразователя кодер-декодер . [5]
Whisper V2 был выпущен 8 декабря 2022 года. [6] Whisper V3 был выпущен в ноябре 2023 года, в День разработчиков OpenAI. [7]
Предыстория [ править ]
Распознавание речи имеет долгую историю исследований; первые подходы использовали статистические методы, такие как динамическое искажение времени , а позже и скрытые марковские модели . Примерно в 2010-х годах подходы глубоких нейронных сетей стали более распространенными для моделей распознавания речи, что стало возможным благодаря наличию больших наборов данных (« большие данные ») и повышению вычислительной производительности. [8] Ранние подходы к глубокому обучению в распознавании речи включали сверточные нейронные сети , которые были ограничены из-за их неспособности захватывать последовательные данные, что позже привело к разработке подходов Seq2seq , которые включают рекуррентные нейронные сети , использующие длинную кратковременную память . [9]
Трансформеры, представленные Google в 2017 году , вытеснили многие предшествующие современные подходы к решению многих проблем машинного обучения и начали становиться основной нейронной архитектурой в таких областях, как языковое моделирование и компьютерное зрение ; [10] Подходы со слабым контролем к обучению акустических моделей были признаны в начале 2020-х годов перспективными для подходов к распознаванию речи с использованием глубоких нейронных сетей. [11]
Согласно отчету NYT , в 2021 году OpenAI посчитала, что исчерпала источники более качественных данных для обучения своих больших языковых моделей , и решила дополнить очищенный веб-текст транскрипциями видео и подкастов на YouTube и разработала Whisper для решения этой задачи. [12]
Обучение и возможности [ править ]
Whisper обучался с использованием полуконтролируемого обучения на 680 000 часов многоязычных и многозадачных данных, из которых около одной пятой (117 000 часов) были неанглоязычные аудиоданные. Whisper не превосходит модели, специализирующиеся на наборе данных LibriSpeech , хотя при тестировании на многих наборах данных он более надежен и допускает на 50% меньше ошибок, чем другие модели. [13]
Whisper имеет различную частоту ошибок при транскрипции на разных языках, причем более высокий уровень ошибок в словах наблюдается на языках, плохо представленных в обучающих данных. [14]
Модель была использована в качестве основы для унифицированной модели распознавания речи и более общего распознавания звука . [15]
Архитектура [ править ]
Архитектура Whisper основана на преобразователе кодер-декодер. Входной звук разбивается на 30-секундные фрагменты, преобразуемые в мел-частотный кепстр , который передается в кодер. Декодер обучен предсказывать последующие текстовые подписи. Специальные токены используются для выполнения нескольких задач, например, для отметок времени на уровне фраз. [13]
См. также [ править ]
- Программное обеспечение для транскрипции
- Список программного обеспечения для распознавания речи
- Программное обеспечение для распознавания речи для Linux
- Бум искусственного интеллекта
- Нейронный машинный перевод
Ссылки [ править ]
- ^ Рэдфорд, Алек; Ким, Чон Ук; Сюй, Тао; Брокман, Грег; МакЛиви, Кристина; Суцкевер, Илья (06.12.2022). «Надежное распознавание речи посредством крупномасштабного слабого контроля». arXiv : 2212.04356 [ eess.AS ].
- ^ Голла, Рамсри Гаутам (06 марта 2023 г.). «Вот шесть практических вариантов использования нового API Whisper» . Слатор . Архивировано из оригинала 25 марта 2023 г. Проверено 12 августа 2023 г.
- ^ Диксон, Бен (3 октября 2022 г.). «Как модель OpenAI Whisper повлияет на приложения искусственного интеллекта?» . ВенчурБит . Архивировано из оригинала 15 марта 2023 г. Проверено 12 августа 2023 г.
- ^ Виггерс, Кайл (21 сентября 2022 г.). «OpenAI открывает исходный код Whisper, многоязычной системы распознавания речи» . ТехКранч . Архивировано из оригинала 12 февраля 2023 года . Проверено 12 февраля 2023 г.
- ^ Рэдфорд, Алек; Ким, Чон Ук; Сюй, Тао; Брокман, Грег; МакЛиви, Кристина; Суцкевер, Илья (06.12.2022). «Надежное распознавание речи посредством крупномасштабного слабого контроля». п. 3. arXiv : 2212.04356 [ eess.AS ].
- ^ «Анонс модели big-v2 · openai/whisper · Обсуждение №661» . Гитхаб . Проверено 08 января 2024 г.
- ^ OpenAI DevDay: Вступительное выступление , получено 8 января 2024 г.
- ^ Ю, Донг; Дэн, Ли (2014). Автоматическое распознавание речи: подход глубокого обучения . Сигналы и коммуникационные технологии (изд. 2015). Лондон Гейдельберг: Springer. п. 9. ISBN 978-1-4471-5778-6 .
- ^ Сиддик, Латиф; Заиди, Аун; Вуд, Эриберто; Шамшад, Фахад; Шукат, Моаззам; Кадир, Джунаид (2023). «Трансформаторы в обработке речи: опрос». arXiv : 2303.11607v1 [ cs.CL ].
- ^ Камат, Удай; Грэм, Кеннет Л.; Эмара, Ваэль (2022). Трансформаторы для машинного обучения: глубокое погружение . Чепмен и Холл/CRC, машинное обучение и распознавание образов (первое издание). Бока-Ратон, Лондон, Нью-Йорк: CRC Press, Taylor & Francisco Group. стр. XIX. ISBN 978-0-367-76734-1 .
- ^ Паас, Герхард; Гиссельбах, Свен (16 февраля 2023 г.). «Основные модели речи, изображений, видео и управления». Базовые модели обработки естественного языка . Искусственный интеллект: основы, теория и алгоритмы. стр. 313–382. arXiv : 2302.08575 . дои : 10.1007/978-3-031-23190-2_7 . ISBN 978-3-031-23189-6 . S2CID 257019816 .
- ^ Дэвис, Уэс (6 апреля 2024 г.). «OpenAI расшифровала более миллиона часов видео с YouTube для обучения GPT-4» . Грань . Проверено 20 апреля 2024 г.
- ^ Jump up to: Перейти обратно: а б «Знакомство с шепотом» . openai.com . 21 сентября 2022 г. Архивировано из оригинала 20 августа 2023 г. Проверено 21 августа 2023 г.
- ^ Виггерс, Кайл (01 марта 2023 г.). «OpenAI представляет Whisper API для транскрипции и перевода речи в текст» . ТехКранч . Архивировано из оригинала 18 июля 2023 г. Проверено 21 августа 2023 г.
- ^ Юань, Гун; Хурана, Самир; Карлинский, Леонид; Гласс, Джеймс (2023). «Whisper-AT: устойчивые к шуму автоматические распознаватели речи также являются мощными средствами обнаружения общих аудиособытий». Интерспич 2023 . стр. 2798–2802. arXiv : 2307.03183 . doi : 10.21437/Interspeech.2023-2193 .