~~~~~~~~~~~~~~~~~~~~ Arc.Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~ 
Номер скриншота №:
✰ A98FC1F88A62459AA236FFAD5B22C6FC__1713597900 ✰
Заголовок документа оригинал.:
✰ Whisper (speech recognition system) - Wikipedia ✰
Заголовок документа перевод.:
✰ Whisper (система распознавания речи) — Википедия ✰
Снимок документа находящегося по адресу (URL):
✰ https://en.wikipedia.org/wiki/Whisper_(speech_recognition_system) ✰
Адрес хранения снимка оригинал (URL):
✰ https://arc.ask3.ru/arc/aa/a9/fc/a98fc1f88a62459aa236ffad5b22c6fc.html ✰
Адрес хранения снимка перевод (URL):
✰ https://arc.ask3.ru/arc/aa/a9/fc/a98fc1f88a62459aa236ffad5b22c6fc__translat.html ✰
Дата и время сохранения документа:
✰ 09.06.2024 13:29:12 (GMT+3, MSK) ✰
Дата и время изменения документа (по данным источника):
✰ 20 April 2024, at 10:25 (UTC). ✰ 

~~~~~~~~~~~~~~~~~~~~~~ Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~~ 
Сервисы Ask3.ru: 
 Архив документов (Снимки документов, в формате HTML, PDF, PNG - подписанные ЭЦП, доказывающие существование документа в момент подписи. Перевод сохраненных документов на русский язык.)https://arc.ask3.ruОтветы на вопросы (Сервис ответов на вопросы, в основном, научной направленности)https://ask3.ru/answer2questionТоварный сопоставитель (Сервис сравнения и выбора товаров) ✰✰
✰ https://ask3.ru/product2collationПартнерыhttps://comrades.ask3.ru


Совет. Чтобы искать на странице, нажмите Ctrl+F или ⌘-F (для MacOS) и введите запрос в поле поиска.
Arc.Ask3.ru: далее начало оригинального документа

Whisper (система распознавания речи) — Википедия Jump to content

Whisper (система распознавания речи)

Из Википедии, бесплатной энциклопедии
Whisper (система распознавания речи)
Оригинальный автор(ы) ОпенАИ [1]
Начальная версия 21 сентября 2022 г.
Репозиторий https://github.com/openai/whisper
Тип

Whisper — это модель машинного обучения для распознавания и транскрипции речи , созданная OpenAI и впервые выпущенная как программное обеспечение с открытым исходным кодом в сентябре 2022 года. [2]

Он способен транскрибировать речь на английском и нескольких других языках. [3] а также способен переводить несколько неанглийских языков на английский. OpenAI утверждает, что сочетание различных обучающих данных, использованных при его разработке, привело к улучшению распознавания акцентов, фонового шума и жаргона по сравнению с предыдущими подходами. [4]

Whisper — это слабоконтролируемая глубокого обучения акустическая модель , созданная с использованием архитектуры преобразователя кодер-декодер . [5]

Whisper V2 был выпущен 8 декабря 2022 года. [6] Whisper V3 был выпущен в ноябре 2023 года, в День разработчиков OpenAI. [7]

Предыстория [ править ]

Распознавание речи имеет долгую историю исследований; первые подходы использовали статистические методы, такие как динамическое искажение времени , а позже и скрытые марковские модели . Примерно в 2010-х годах подходы глубоких нейронных сетей стали более распространенными для моделей распознавания речи, что стало возможным благодаря наличию больших наборов данных (« большие данные ») и повышению вычислительной производительности. [8] Ранние подходы к глубокому обучению в распознавании речи включали сверточные нейронные сети , которые были ограничены из-за их неспособности захватывать последовательные данные, что позже привело к разработке подходов Seq2seq , которые включают рекуррентные нейронные сети , использующие длинную кратковременную память . [9]

Трансформеры, представленные Google в 2017 году , вытеснили многие предшествующие современные подходы к решению многих проблем машинного обучения и начали становиться основной нейронной архитектурой в таких областях, как языковое моделирование и компьютерное зрение ; [10] Подходы со слабым контролем к обучению акустических моделей были признаны в начале 2020-х годов перспективными для подходов к распознаванию речи с использованием глубоких нейронных сетей. [11]

Согласно отчету NYT , в 2021 году OpenAI посчитала, что исчерпала источники более качественных данных для обучения своих больших языковых моделей , и решила дополнить очищенный веб-текст транскрипциями видео и подкастов на YouTube и разработала Whisper для решения этой задачи. [12]

Обучение и возможности [ править ]

Whisper обучался с использованием полуконтролируемого обучения на 680 000 часов многоязычных и многозадачных данных, из которых около одной пятой (117 000 часов) были неанглоязычные аудиоданные. Whisper не превосходит модели, специализирующиеся на наборе данных LibriSpeech , хотя при тестировании на многих наборах данных он более надежен и допускает на 50 % меньше ошибок, чем другие модели. [13]

Whisper имеет различную частоту ошибок при транскрипции на разных языках, причем более высокий уровень ошибок в словах наблюдается на языках, плохо представленных в обучающих данных. [14]

Модель была использована в качестве основы для унифицированной модели распознавания речи и более общего распознавания звука . [15]

Архитектура [ править ]

Архитектура Whisper основана на преобразователе кодер-декодер. Входной звук разбивается на 30-секундные фрагменты, преобразуемые в мел-частотный кепстр , который передается в кодер. Декодер обучен предсказывать последующие текстовые подписи. Специальные токены используются для выполнения нескольких задач, например, для отметок времени на уровне фраз. [13]

См. также [ править ]

Ссылки [ править ]

  1. ^ Рэдфорд, Алек; Ким, Чон Ук; Сюй, Тао; Брокман, Грег; МакЛиви, Кристина; Суцкевер, Илья (06.12.2022). «Надежное распознавание речи посредством крупномасштабного слабого контроля». arXiv : 2212.04356 [ eess.AS ].
  2. ^ Голла, Рамсри Гаутам (06 марта 2023 г.). «Вот шесть практических вариантов использования нового API Whisper» . Слатор . Архивировано из оригинала 25 марта 2023 г. Проверено 12 августа 2023 г.
  3. ^ Диксон, Бен (3 октября 2022 г.). «Как модель OpenAI Whisper повлияет на приложения искусственного интеллекта?» . ВенчурБит . Архивировано из оригинала 15 марта 2023 г. Проверено 12 августа 2023 г.
  4. ^ Виггерс, Кайл (21 сентября 2022 г.). «OpenAI открывает исходный код Whisper, многоязычной системы распознавания речи» . ТехКранч . Архивировано из оригинала 12 февраля 2023 года . Проверено 12 февраля 2023 г.
  5. ^ Рэдфорд, Алек; Ким, Чон Ук; Сюй, Тао; Брокман, Грег; МакЛиви, Кристина; Суцкевер, Илья (06.12.2022). «Надежное распознавание речи посредством крупномасштабного слабого контроля». п. 3. arXiv : 2212.04356 [ eess.AS ].
  6. ^ «Анонс модели big-v2 · openai/whisper · Обсуждение №661» . Гитхаб . Проверено 08 января 2024 г.
  7. ^ OpenAI DevDay: Вступительное выступление , получено 8 января 2024 г.
  8. ^ Ю, Донг; Дэн, Ли (2014). Автоматическое распознавание речи: подход глубокого обучения . Сигналы и коммуникационные технологии (изд. 2015). Лондон Гейдельберг: Springer. п. 9. ISBN  978-1-4471-5778-6 .
  9. ^ Сиддик, Латиф; Заиди, Аун; Куаяуитль, Эриберто; Шамшад, Фахад; Шукат, Моаззам; Кадир, Джунаид (2023). «Трансформаторы в обработке речи: опрос». arXiv : 2303.11607v1 [ cs.CL ].
  10. ^ Камат, Удай; Грэм, Кеннет Л.; Эмара, Ваэль (2022). Трансформаторы для машинного обучения: глубокое погружение . Чепмен и Холл/CRC, машинное обучение и распознавание образов (первое издание). Бока-Ратон, Лондон, Нью-Йорк: CRC Press, Taylor & Francisco Group. стр. XIX. ISBN  978-0-367-76734-1 .
  11. ^ Паас, Герхард; Гиссельбах, Свен (16 февраля 2023 г.). «Основные модели речи, изображений, видео и управления». Базовые модели обработки естественного языка . Искусственный интеллект: основы, теория и алгоритмы. стр. 313–382. arXiv : 2302.08575 . дои : 10.1007/978-3-031-23190-2_7 . ISBN  978-3-031-23189-6 . S2CID   257019816 .
  12. ^ Дэвис, Уэс (6 апреля 2024 г.). «OpenAI расшифровала более миллиона часов видео с YouTube для обучения GPT-4» . Грань . Проверено 20 апреля 2024 г.
  13. ^ Перейти обратно: а б «Знакомство с шепотом» . openai.com . 21 сентября 2022 г. Архивировано из оригинала 20 августа 2023 г. Проверено 21 августа 2023 г.
  14. ^ Виггерс, Кайл (01 марта 2023 г.). «OpenAI представляет Whisper API для транскрипции и перевода речи в текст» . ТехКранч . Архивировано из оригинала 18 июля 2023 г. Проверено 21 августа 2023 г.
  15. ^ Юань, Гун; Хурана, Самир; Карлинский, Леонид; Гласс, Джеймс (2023). «Whisper-AT: устойчивые к шуму автоматические распознаватели речи также являются сильными маркировщиками общих аудиособытий». Интерспич 2023 . стр. 2798–2802. arXiv : 2307.03183 . doi : 10.21437/Interspeech.2023-2193 .
Arc.Ask3.Ru: конец оригинального документа.
Arc.Ask3.Ru
Номер скриншота №: A98FC1F88A62459AA236FFAD5B22C6FC__1713597900
URL1:https://en.wikipedia.org/wiki/Whisper_(speech_recognition_system)
Заголовок, (Title) документа по адресу, URL1:
Whisper (speech recognition system) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть, любые претензии не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, денежную единицу можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)