Диаризация спикеров
Эта статья нуждается в дополнительных цитатах для проверки . ( январь 2012 г. ) |
Диаризация говорящего ( или диаризация ) — это процесс разделения аудиопотока, содержащего человеческую речь, на однородные сегменты в соответствии с личностью каждого говорящего. [1] Он может улучшить читаемость автоматической транскрипции речи за счет структурирования аудиопотока в повороты говорящего и, при использовании вместе с системами распознавания говорящего , путем предоставления истинной личности говорящего. [2] Он используется для ответа на вопрос «кто когда говорил?» [3] Диаризация говорящих — это комбинация сегментации и кластеризации говорящих. Первый направлен на поиск точек смены динамиков в аудиопотоке. Второй направлен на группировку речевых сегментов на основе характеристик говорящего.
С увеличением количества трансляций, записей встреч и голосовой почты, собираемых с каждым годом, дневник докладчиков привлек большое внимание речевого сообщества, о чем свидетельствуют конкретные оценки, посвященные ему под эгидой Национального института стандартов и технологий телефонной связи. выступления, трансляции новостей и встреч. [4]
Основные типы диаризационных систем
[ редактировать ]При диаризации говорящих один из самых популярных методов — использовать модель гауссовой смеси для моделирования каждого из говорящих и назначить соответствующие кадры для каждого говорящего с помощью скрытой марковской модели . Существует два основных типа стратегий кластеризации. Первый из них, безусловно, самый популярный и называется «Снизу вверх». Алгоритм начинается с разделения всего аудиоконтента на последовательность кластеров и постепенно пытается объединить избыточные кластеры, чтобы достичь ситуации, когда каждый кластер соответствует реальному говорящему. Вторая стратегия кластеризации называется нисходящей и начинается с одного кластера для всех аудиоданных и пытается итеративно разделить его до тех пор, пока не будет достигнуто количество кластеров, равное количеству динамиков.Обзор 2010 года можно найти по адресу [1] .
В последнее время диаризация говорящих осуществляется с помощью нейронных сетей с использованием крупномасштабных вычислений на графических процессорах и методологических разработок в области глубокого обучения . [5]
Программное обеспечение для дневников говорящих с открытым исходным кодом
[ редактировать ]Существует несколько инициатив с открытым исходным кодом для ведения дневников выступающих (в алфавитном порядке):
- ALIZE Speaking Diarization (последнее обновление репозитория: июль 2016 г.; последний выпуск: февраль 2013 г., версия: 3.0): Система ALIZE Diarization, разработанная в Авиньонском университете, доступна версия 2.0 [2] .
- Audioseg (последнее обновление репозитория: май 2014 г.; последний выпуск: январь 2010 г., версия: 1.2): AudioSeg — это набор инструментов, предназначенный для сегментации аудио и классификации аудиопотоков. [3] .
- pyannote.audio (последнее обновление репозитория: август 2022 г., последний выпуск: июль 2022 г., версия: 2.0): pyannote.audio — это набор инструментов с открытым исходным кодом, написанный на Python для ведения дневника говорящих. [4] .
- pyAudioAnaанализ (последнее обновление репозитория: сентябрь 2022 г.): Библиотека анализа аудио Python: извлечение функций, классификация, сегментация и приложения [5]
- SHoUT (последнее обновление: декабрь 2010 г.; версия: 0.3): SHoUT — это пакет программного обеспечения, разработанный в Университете Твенте для помощи в исследованиях по распознаванию речи. SHoUT — голландская аббревиатура от названия «Исследования по распознаванию речи», проводимые в Университете Твенте . [6]
- LIUM SpkDiarization (последний выпуск: сентябрь 2013 г., версия: 8.4.1): инструмент LIUM_SpkDiarization [7] .
Ссылки
[ редактировать ]- ^ Сахидулла, Мэриленд; Патино, Хосе; Корнелл, Сэмюэл; Инь, Жуйкин; Сивасанкаран, Сунит; Бреден, Эрве; Коршунов Павел; Брутти, Алессио; Серизель, Ромен; Винсент, Эммануэль; Эванс, Николас; Марсель, Себастьян; Сквартини, Стефано; Баррас, Клод (6 ноября 2019 г.). «Скорая подача на DIHARD II: вклад и извлеченные уроки». arXiv : 1911.02388 [ eess.AS ].
- ^ Чжу, Сюань; Баррас, Клод; Менье, Сильвен; Говен, Жан-Люк. «Улучшенная диаризация говорящих с использованием идентификации говорящих» . Проверено 25 января 2012 г.
- ^ Котти, Маргарита; Москова, Василики; Котропулос, Константин. «Сегментация и кластеризация динамиков» (PDF) . Проверено 25 января 2012 г.
- ^ «Проект оценки богатой транскрипции» . НИСТ . Проверено 25 января 2012 г.
- ^ Пак, Тэ Джин; Канда, Наоюки; Димитриадис, Димитриос; Хан, Кю Дж.; Ватанабэ, Синдзи; Нарайанан, Шрикант (26 ноября 2021 г.). «Обзор диаризации спикеров: последние достижения в области глубокого обучения». arXiv : 2101.09624 [ eess.AS ].
Библиография
[ редактировать ]- Ангера, Ксавье (2012). «Диаризация спикеров: обзор недавних исследований» . Транзакции IEEE по обработке звука, речи и языка . 20 (2). Транзакции IEEE/ACM по обработке звука, речи и языка: 356–370. CiteSeerX 10.1.1.470.6149 . дои : 10.1109/TASL.2011.2125954 . ISSN 1558-7916 . S2CID 206602044 .
- Бейги, Хомайун (2011). Основы распознавания говорящего . Нью-Йорк: Спрингер. ISBN 978-0-387-77591-3 .