Jump to content

Диаризация спикеров

(Перенаправлено с Диаризизации )

Диаризация говорящего ( или диаризация ) — это процесс разделения аудиопотока, содержащего человеческую речь, на однородные сегменты в соответствии с личностью каждого говорящего. [1] Он может улучшить читаемость автоматической транскрипции речи за счет структурирования аудиопотока в повороты говорящего и, при использовании вместе с системами распознавания говорящего , путем предоставления истинной личности говорящего. [2] Он используется для ответа на вопрос «кто когда говорил?» [3] Диаризация говорящих — это комбинация сегментации и кластеризации говорящих. Первый направлен на поиск точек смены динамиков в аудиопотоке. Второй направлен на группировку речевых сегментов на основе характеристик говорящего.

С увеличением количества трансляций, записей встреч и голосовой почты, собираемых с каждым годом, дневник докладчиков привлек большое внимание речевого сообщества, о чем свидетельствуют конкретные оценки, посвященные ему под эгидой Национального института стандартов и технологий телефонной связи. выступления, трансляции новостей и встреч. [4]

Основные типы диаризационных систем

[ редактировать ]

При диаризации говорящих один из самых популярных методов — использовать модель гауссовой смеси для моделирования каждого из говорящих и назначить соответствующие кадры для каждого говорящего с помощью скрытой марковской модели . Существует два основных типа стратегий кластеризации. Первый из них, безусловно, самый популярный и называется «Снизу вверх». Алгоритм начинается с разделения всего аудиоконтента на последовательность кластеров и постепенно пытается объединить избыточные кластеры, чтобы достичь ситуации, когда каждый кластер соответствует реальному говорящему. Вторая стратегия кластеризации называется нисходящей и начинается с одного кластера для всех аудиоданных и пытается итеративно разделить его до тех пор, пока не будет достигнуто количество кластеров, равное количеству динамиков.Обзор 2010 года можно найти по адресу [1] .

В последнее время диаризация говорящих осуществляется с помощью нейронных сетей с использованием крупномасштабных вычислений на графических процессорах и методологических разработок в области глубокого обучения . [5]

Программное обеспечение для дневников говорящих с открытым исходным кодом

[ редактировать ]

Существует несколько инициатив с открытым исходным кодом для ведения дневников выступающих (в алфавитном порядке):

  • ALIZE Speaking Diarization (последнее обновление репозитория: июль 2016 г.; последний выпуск: февраль 2013 г., версия: 3.0): Система ALIZE Diarization, разработанная в Авиньонском университете, доступна версия 2.0 [2] .
  • Audioseg (последнее обновление репозитория: май 2014 г.; последний выпуск: январь 2010 г., версия: 1.2): AudioSeg — это набор инструментов, предназначенный для сегментации аудио и классификации аудиопотоков. [3] .
  • pyannote.audio (последнее обновление репозитория: август 2022 г., последний выпуск: июль 2022 г., версия: 2.0): pyannote.audio — это набор инструментов с открытым исходным кодом, написанный на Python для ведения дневника говорящих. [4] .
  • pyAudioAnaанализ (последнее обновление репозитория: сентябрь 2022 г.): Библиотека анализа аудио Python: извлечение функций, классификация, сегментация и приложения [5]
  • SHoUT (последнее обновление: декабрь 2010 г.; версия: 0.3): SHoUT — это пакет программного обеспечения, разработанный в Университете Твенте для помощи в исследованиях по распознаванию речи. SHoUT — голландская аббревиатура от названия «Исследования по распознаванию речи», проводимые в Университете Твенте . [6]
  • LIUM SpkDiarization (последний выпуск: сентябрь 2013 г., версия: 8.4.1): инструмент LIUM_SpkDiarization [7] .
  1. ^ Сахидулла, Мэриленд; Патино, Хосе; Корнелл, Сэмюэл; Инь, Жуйкин; Сивасанкаран, Сунит; Бреден, Эрве; Коршунов Павел; Брутти, Алессио; Серизель, Ромен; Винсент, Эммануэль; Эванс, Николас; Марсель, Себастьян; Сквартини, Стефано; Баррас, Клод (6 ноября 2019 г.). «Скорая подача на DIHARD II: вклад и извлеченные уроки». arXiv : 1911.02388 [ eess.AS ].
  2. ^ Чжу, Сюань; Баррас, Клод; Менье, Сильвен; Говен, Жан-Люк. «Улучшенная диаризация говорящих с использованием идентификации говорящих» . Проверено 25 января 2012 г.
  3. ^ Котти, Маргарита; Москова, Василики; Котропулос, Константин. «Сегментация и кластеризация динамиков» (PDF) . Проверено 25 января 2012 г.
  4. ^ «Проект оценки богатой транскрипции» . НИСТ . Проверено 25 января 2012 г.
  5. ^ Пак, Тэ Джин; Канда, Наоюки; Димитриадис, Димитриос; Хан, Кю Дж.; Ватанабэ, Синдзи; Нарайанан, Шрикант (26 ноября 2021 г.). «Обзор диаризации спикеров: последние достижения в области глубокого обучения». arXiv : 2101.09624 [ eess.AS ].

Библиография

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: fc5f06e2611e6f413ec18894a7144a20__1705044600
URL1:https://arc.ask3.ru/arc/aa/fc/20/fc5f06e2611e6f413ec18894a7144a20.html
Заголовок, (Title) документа по адресу, URL1:
Speaker diarisation - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)