Whisper (система распознавания речи)

Whisper (система распознавания речи)
Оригинальный автор(ы)	ОпенАИ
Первоначальный выпуск	21 сентября 2022 г.
Репозиторий	https://github.com/openai/whisper
Тип	Программное обеспечение для транскрипции ; Преобразователь кодер-декодер ; Модель фундамента ; Акустическая модель ;

Whisper — это модель машинного обучения для речи распознавания и транскрипции , созданная OpenAI и впервые выпущенная как программное обеспечение с открытым исходным кодом в сентябре 2022 года. ^[2]

Он способен транскрибировать речь на английском и нескольких других языках. ^[3] а также способен переводить несколько неанглийских языков на английский. OpenAI утверждает, что сочетание различных обучающих данных, использованных при его разработке, привело к улучшению распознавания акцентов, фонового шума и жаргона по сравнению с предыдущими подходами. ^[4]

Whisper — это слабоконтролируемая глубокого обучения акустическая модель , созданная с использованием архитектуры преобразователя кодер-декодер . ^[5]

Whisper V2 был выпущен 8 декабря 2022 года. ^[6] Whisper V3 был выпущен в ноябре 2023 года, в День разработчиков OpenAI. ^[7]

Предыстория [ править ]

Распознавание речи имеет долгую историю исследований; первые подходы использовали статистические методы, такие как динамическое искажение времени , а позже и скрытые марковские модели . Примерно в 2010-х годах подходы глубоких нейронных сетей стали более распространенными для моделей распознавания речи, что стало возможным благодаря наличию больших наборов данных (« большие данные ») и повышению вычислительной производительности. ^[8] Ранние подходы к глубокому обучению в распознавании речи включали сверточные нейронные сети , которые были ограничены из-за их неспособности захватывать последовательные данные, что позже привело к разработке подходов Seq2seq , которые включают рекуррентные нейронные сети , использующие длинную кратковременную память . ^[9]

Трансформеры, представленные Google в 2017 году , вытеснили многие предшествующие современные подходы к решению многих проблем машинного обучения и начали становиться основной нейронной архитектурой в таких областях, как языковое моделирование и компьютерное зрение ; ^[10] Подходы со слабым контролем к обучению акустических моделей были признаны в начале 2020-х годов перспективными для подходов к распознаванию речи с использованием глубоких нейронных сетей. ^[11]

Согласно отчету NYT , в 2021 году OpenAI посчитала, что исчерпала источники более качественных данных для обучения своих больших языковых моделей , и решила дополнить очищенный веб-текст транскрипциями видео и подкастов на YouTube и разработала Whisper для решения этой задачи. ^[12]

Обучение и возможности [ править ]

Whisper обучался с использованием полуконтролируемого обучения на 680 000 часов многоязычных и многозадачных данных, из которых около одной пятой (117 000 часов) были неанглоязычные аудиоданные. Whisper не превосходит модели, специализирующиеся на наборе данных LibriSpeech , хотя при тестировании на многих наборах данных он более надежен и допускает на 50% меньше ошибок, чем другие модели. ^[13]

Whisper имеет различную частоту ошибок при транскрипции на разных языках, причем более высокий уровень ошибок в словах наблюдается на языках, плохо представленных в обучающих данных. ^[14]

Модель была использована в качестве основы для унифицированной модели распознавания речи и более общего распознавания звука . ^[15]

Архитектура [ править ]

Архитектура Whisper основана на преобразователе кодер-декодер. Входной звук разбивается на 30-секундные фрагменты, преобразуемые в мел-частотный кепстр , который передается в кодер. Декодер обучен предсказывать последующие текстовые подписи. Специальные токены используются для выполнения нескольких задач, например, для отметок времени на уровне фраз. ^[13]

См. также [ править ]

Ссылки [ править ]

^ Рэдфорд, Алек; Ким, Чон Ук; Сюй, Тао; Брокман, Грег; МакЛиви, Кристина; Суцкевер, Илья (06.12.2022). «Надежное распознавание речи посредством крупномасштабного слабого контроля». arXiv : 2212.04356 [ eess.AS ].
^ Голла, Рамсри Гаутам (06 марта 2023 г.). «Вот шесть практических вариантов использования нового API Whisper» . Слатор . Архивировано из оригинала 25 марта 2023 г. Проверено 12 августа 2023 г.
^ Диксон, Бен (3 октября 2022 г.). «Как модель OpenAI Whisper повлияет на приложения искусственного интеллекта?» . ВенчурБит . Архивировано из оригинала 15 марта 2023 г. Проверено 12 августа 2023 г.
^ Виггерс, Кайл (21 сентября 2022 г.). «OpenAI открывает исходный код Whisper, многоязычной системы распознавания речи» . ТехКранч . Архивировано из оригинала 12 февраля 2023 года . Проверено 12 февраля 2023 г.
^ Рэдфорд, Алек; Ким, Чон Ук; Сюй, Тао; Брокман, Грег; МакЛиви, Кристина; Суцкевер, Илья (06.12.2022). «Надежное распознавание речи посредством крупномасштабного слабого контроля». п. 3. arXiv : 2212.04356 [ eess.AS ].
^ «Анонс модели big-v2 · openai/whisper · Обсуждение №661» . Гитхаб . Проверено 08 января 2024 г.
^ OpenAI DevDay: Вступительное выступление , получено 8 января 2024 г.
^ Ю, Донг; Дэн, Ли (2014). Автоматическое распознавание речи: подход глубокого обучения . Сигналы и коммуникационные технологии (изд. 2015). Лондон Гейдельберг: Springer. п. 9. ISBN 978-1-4471-5778-6 .
^ Сиддик, Латиф; Заиди, Аун; Вуд, Эриберто; Шамшад, Фахад; Шукат, Моаззам; Кадир, Джунаид (2023). «Трансформаторы в обработке речи: опрос». arXiv : 2303.11607v1 [ cs.CL ].
^ Камат, Удай; Грэм, Кеннет Л.; Эмара, Ваэль (2022). Трансформаторы для машинного обучения: глубокое погружение . Чепмен и Холл/CRC, машинное обучение и распознавание образов (первое издание). Бока-Ратон, Лондон, Нью-Йорк: CRC Press, Taylor & Francisco Group. стр. XIX. ISBN 978-0-367-76734-1 .
^ Паас, Герхард; Гиссельбах, Свен (16 февраля 2023 г.). «Основные модели речи, изображений, видео и управления». Базовые модели обработки естественного языка . Искусственный интеллект: основы, теория и алгоритмы. стр. 313–382. arXiv : 2302.08575 . дои : 10.1007/978-3-031-23190-2_7 . ISBN 978-3-031-23189-6 . S2CID 257019816 .
^ Дэвис, Уэс (6 апреля 2024 г.). «OpenAI расшифровала более миллиона часов видео с YouTube для обучения GPT-4» . Грань . Проверено 20 апреля 2024 г.
^ Jump up to: Перейти обратно: ^а ^б «Знакомство с шепотом» . openai.com . 21 сентября 2022 г. Архивировано из оригинала 20 августа 2023 г. Проверено 21 августа 2023 г.
^ Виггерс, Кайл (01 марта 2023 г.). «OpenAI представляет Whisper API для транскрипции и перевода речи в текст» . ТехКранч . Архивировано из оригинала 18 июля 2023 г. Проверено 21 августа 2023 г.
^ Юань, Гун; Хурана, Самир; Карлинский, Леонид; Гласс, Джеймс (2023). «Whisper-AT: устойчивые к шуму автоматические распознаватели речи также являются мощными средствами обнаружения общих аудиособытий». Интерспич 2023 . стр. 2798–2802. arXiv : 2307.03183 . doi : 10.21437/Interspeech.2023-2193 .

[paper-1] Рэдфорд, Алек; Ким, Чон Ук; Сюй, Тао; Брокман, Грег; МакЛиви, Кристина; Суцкевер, Илья (06.12.2022). «Надежное распознавание речи посредством крупномасштабного слабого контроля». arXiv : 2212.04356 [ eess.AS ].

[2] Голла, Рамсри Гаутам (06 марта 2023 г.). «Вот шесть практических вариантов использования нового API Whisper» . Слатор . Архивировано из оригинала 25 марта 2023 г. Проверено 12 августа 2023 г.

[3] Диксон, Бен (3 октября 2022 г.). «Как модель OpenAI Whisper повлияет на приложения искусственного интеллекта?» . ВенчурБит . Архивировано из оригинала 15 марта 2023 г. Проверено 12 августа 2023 г.

[4] Виггерс, Кайл (21 сентября 2022 г.). «OpenAI открывает исходный код Whisper, многоязычной системы распознавания речи» . ТехКранч . Архивировано из оригинала 12 февраля 2023 года . Проверено 12 февраля 2023 г.

[5] Рэдфорд, Алек; Ким, Чон Ук; Сюй, Тао; Брокман, Грег; МакЛиви, Кристина; Суцкевер, Илья (06.12.2022). «Надежное распознавание речи посредством крупномасштабного слабого контроля». п. 3. arXiv : 2212.04356 [ eess.AS ].

[6] «Анонс модели big-v2 · openai/whisper · Обсуждение №661» . Гитхаб . Проверено 08 января 2024 г.

[7] OpenAI DevDay: Вступительное выступление , получено 8 января 2024 г.

[deepasr-8] Ю, Донг; Дэн, Ли (2014). Автоматическое распознавание речи: подход глубокого обучения . Сигналы и коммуникационные технологии (изд. 2015). Лондон Гейдельберг: Springer. п. 9. ISBN 978-1-4471-5778-6 .

[9] Сиддик, Латиф; Заиди, Аун; Вуд, Эриберто; Шамшад, Фахад; Шукат, Моаззам; Кадир, Джунаид (2023). «Трансформаторы в обработке речи: опрос». arXiv : 2303.11607v1 [ cs.CL ].

[10] Камат, Удай; Грэм, Кеннет Л.; Эмара, Ваэль (2022). Трансформаторы для машинного обучения: глубокое погружение . Чепмен и Холл/CRC, машинное обучение и распознавание образов (первое издание). Бока-Ратон, Лондон, Нью-Йорк: CRC Press, Taylor & Francisco Group. стр. XIX. ISBN 978-0-367-76734-1 .

[11] Паас, Герхард; Гиссельбах, Свен (16 февраля 2023 г.). «Основные модели речи, изображений, видео и управления». Базовые модели обработки естественного языка . Искусственный интеллект: основы, теория и алгоритмы. стр. 313–382. arXiv : 2302.08575 . дои : 10.1007/978-3-031-23190-2_7 . ISBN 978-3-031-23189-6 . S2CID 257019816 .

[12] Дэвис, Уэс (6 апреля 2024 г.). «OpenAI расшифровала более миллиона часов видео с YouTube для обучения GPT-4» . Грань . Проверено 20 апреля 2024 г.

[whisperoff-13] Jump up to: Перейти обратно: ^а ^б «Знакомство с шепотом» . openai.com . 21 сентября 2022 г. Архивировано из оригинала 20 августа 2023 г. Проверено 21 августа 2023 г.

[14] Виггерс, Кайл (01 марта 2023 г.). «OpenAI представляет Whisper API для транскрипции и перевода речи в текст» . ТехКранч . Архивировано из оригинала 18 июля 2023 г. Проверено 21 августа 2023 г.

[15] Юань, Гун; Хурана, Самир; Карлинский, Леонид; Гласс, Джеймс (2023). «Whisper-AT: устойчивые к шуму автоматические распознаватели речи также являются мощными средствами обнаружения общих аудиособытий». Интерспич 2023 . стр. 2798–2802. arXiv : 2307.03183 . doi : 10.21437/Interspeech.2023-2193 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]