Jump to content

Whisper (система распознавания речи)

Whisper (система распознавания речи)
Оригинальный автор(ы) ОпенАИ [1]
Первоначальный выпуск 21 сентября 2022 г.
Репозиторий https://github.com/openai/whisper
Тип

Whisper — это модель машинного обучения для речи распознавания и транскрипции , созданная OpenAI и впервые выпущенная как программное обеспечение с открытым исходным кодом в сентябре 2022 года. [2]

Он способен транскрибировать речь на английском и нескольких других языках. [3] а также способен переводить несколько неанглийских языков на английский. OpenAI утверждает, что сочетание различных обучающих данных, использованных при его разработке, привело к улучшению распознавания акцентов, фонового шума и жаргона по сравнению с предыдущими подходами. [4]

Whisper — это слабоконтролируемая глубокого обучения акустическая модель , созданная с использованием архитектуры преобразователя кодер-декодер . [5]

Whisper V2 был выпущен 8 декабря 2022 года. [6] Whisper V3 был выпущен в ноябре 2023 года, в День разработчиков OpenAI. [7]

Предыстория [ править ]

Распознавание речи имеет долгую историю исследований; первые подходы использовали статистические методы, такие как динамическое искажение времени , а позже и скрытые марковские модели . Примерно в 2010-х годах подходы глубоких нейронных сетей стали более распространенными для моделей распознавания речи, что стало возможным благодаря наличию больших наборов данных (« большие данные ») и повышению вычислительной производительности. [8] Ранние подходы к глубокому обучению в распознавании речи включали сверточные нейронные сети , которые были ограничены из-за их неспособности захватывать последовательные данные, что позже привело к разработке подходов Seq2seq , которые включают рекуррентные нейронные сети , использующие длинную кратковременную память . [9]

Трансформеры, представленные Google в 2017 году , вытеснили многие предшествующие современные подходы к решению многих проблем машинного обучения и начали становиться основной нейронной архитектурой в таких областях, как языковое моделирование и компьютерное зрение ; [10] Подходы со слабым контролем к обучению акустических моделей были признаны в начале 2020-х годов перспективными для подходов к распознаванию речи с использованием глубоких нейронных сетей. [11]

Согласно отчету NYT , в 2021 году OpenAI посчитала, что исчерпала источники более качественных данных для обучения своих больших языковых моделей , и решила дополнить очищенный веб-текст транскрипциями видео и подкастов на YouTube и разработала Whisper для решения этой задачи. [12]

Обучение и возможности [ править ]

Whisper обучался с использованием полуконтролируемого обучения на 680 000 часов многоязычных и многозадачных данных, из которых около одной пятой (117 000 часов) были неанглоязычные аудиоданные. Whisper не превосходит модели, специализирующиеся на наборе данных LibriSpeech , хотя при тестировании на многих наборах данных он более надежен и допускает на 50% меньше ошибок, чем другие модели. [13]

Whisper имеет различную частоту ошибок при транскрипции на разных языках, причем более высокий уровень ошибок в словах наблюдается на языках, плохо представленных в обучающих данных. [14]

Модель была использована в качестве основы для унифицированной модели распознавания речи и более общего распознавания звука . [15]

Архитектура [ править ]

Архитектура Whisper основана на преобразователе кодер-декодер. Входной звук разбивается на 30-секундные фрагменты, преобразуемые в мел-частотный кепстр , который передается в кодер. Декодер обучен предсказывать последующие текстовые подписи. Специальные токены используются для выполнения нескольких задач, например, для отметок времени на уровне фраз. [13]

См. также [ править ]

Ссылки [ править ]

  1. ^ Рэдфорд, Алек; Ким, Чон Ук; Сюй, Тао; Брокман, Грег; МакЛиви, Кристина; Суцкевер, Илья (06.12.2022). «Надежное распознавание речи посредством крупномасштабного слабого контроля». arXiv : 2212.04356 [ eess.AS ].
  2. ^ Голла, Рамсри Гаутам (06 марта 2023 г.). «Вот шесть практических вариантов использования нового API Whisper» . Слатор . Архивировано из оригинала 25 марта 2023 г. Проверено 12 августа 2023 г.
  3. ^ Диксон, Бен (3 октября 2022 г.). «Как модель OpenAI Whisper повлияет на приложения искусственного интеллекта?» . ВенчурБит . Архивировано из оригинала 15 марта 2023 г. Проверено 12 августа 2023 г.
  4. ^ Виггерс, Кайл (21 сентября 2022 г.). «OpenAI открывает исходный код Whisper, многоязычной системы распознавания речи» . ТехКранч . Архивировано из оригинала 12 февраля 2023 года . Проверено 12 февраля 2023 г.
  5. ^ Рэдфорд, Алек; Ким, Чон Ук; Сюй, Тао; Брокман, Грег; МакЛиви, Кристина; Суцкевер, Илья (06.12.2022). «Надежное распознавание речи посредством крупномасштабного слабого контроля». п. 3. arXiv : 2212.04356 [ eess.AS ].
  6. ^ «Анонс модели big-v2 · openai/whisper · Обсуждение №661» . Гитхаб . Проверено 08 января 2024 г.
  7. ^ OpenAI DevDay: Вступительное выступление , получено 8 января 2024 г.
  8. ^ Ю, Донг; Дэн, Ли (2014). Автоматическое распознавание речи: подход глубокого обучения . Сигналы и коммуникационные технологии (изд. 2015). Лондон Гейдельберг: Springer. п. 9. ISBN  978-1-4471-5778-6 .
  9. ^ Сиддик, Латиф; Заиди, Аун; Вуд, Эриберто; Шамшад, Фахад; Шукат, Моаззам; Кадир, Джунаид (2023). «Трансформаторы в обработке речи: опрос». arXiv : 2303.11607v1 [ cs.CL ].
  10. ^ Камат, Удай; Грэм, Кеннет Л.; Эмара, Ваэль (2022). Трансформаторы для машинного обучения: глубокое погружение . Чепмен и Холл/CRC, машинное обучение и распознавание образов (первое издание). Бока-Ратон, Лондон, Нью-Йорк: CRC Press, Taylor & Francisco Group. стр. XIX. ISBN  978-0-367-76734-1 .
  11. ^ Паас, Герхард; Гиссельбах, Свен (16 февраля 2023 г.). «Основные модели речи, изображений, видео и управления». Базовые модели обработки естественного языка . Искусственный интеллект: основы, теория и алгоритмы. стр. 313–382. arXiv : 2302.08575 . дои : 10.1007/978-3-031-23190-2_7 . ISBN  978-3-031-23189-6 . S2CID   257019816 .
  12. ^ Дэвис, Уэс (6 апреля 2024 г.). «OpenAI расшифровала более миллиона часов видео с YouTube для обучения GPT-4» . Грань . Проверено 20 апреля 2024 г.
  13. ^ Jump up to: Перейти обратно: а б «Знакомство с шепотом» . openai.com . 21 сентября 2022 г. Архивировано из оригинала 20 августа 2023 г. Проверено 21 августа 2023 г.
  14. ^ Виггерс, Кайл (01 марта 2023 г.). «OpenAI представляет Whisper API для транскрипции и перевода речи в текст» . ТехКранч . Архивировано из оригинала 18 июля 2023 г. Проверено 21 августа 2023 г.
  15. ^ Юань, Гун; Хурана, Самир; Карлинский, Леонид; Гласс, Джеймс (2023). «Whisper-AT: устойчивые к шуму автоматические распознаватели речи также являются мощными средствами обнаружения общих аудиособытий». Интерспич 2023 . стр. 2798–2802. arXiv : 2307.03183 . doi : 10.21437/Interspeech.2023-2193 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: a98fc1f88a62459aa236ffad5b22c6fc__1713597900
URL1:https://arc.ask3.ru/arc/aa/a9/fc/a98fc1f88a62459aa236ffad5b22c6fc.html
Заголовок, (Title) документа по адресу, URL1:
Whisper (speech recognition system) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)