Диаризация спикеров

Диаризация говорящего ( или диаризация ) — это процесс разделения аудиопотока, содержащего человеческую речь, на однородные сегменты в соответствии с личностью каждого говорящего. ^[1] Он может улучшить читаемость автоматической транскрипции речи за счет структурирования аудиопотока в повороты говорящего и, при использовании вместе с системами распознавания говорящего , путем предоставления истинной личности говорящего. ^[2] Он используется для ответа на вопрос «кто когда говорил?» ^[3]Диаризация говорящих — это комбинация сегментации и кластеризации говорящих. Первый направлен на поиск точек смены динамиков в аудиопотоке. Второй направлен на группировку речевых сегментов на основе характеристик говорящего.

С увеличением количества трансляций, записей встреч и голосовой почты, собираемых с каждым годом, дневник докладчиков привлек большое внимание речевого сообщества, о чем свидетельствуют конкретные оценки, посвященные ему под эгидой Национального института стандартов и технологий телефонной связи. выступления, трансляции новостей и встреч. ^[4]

Основные типы диаризационных систем

При диаризации говорящих один из самых популярных методов — использовать модель гауссовой смеси для моделирования каждого из говорящих и назначить соответствующие кадры для каждого говорящего с помощью скрытой марковской модели . Существует два основных типа стратегий кластеризации. Первый из них, безусловно, самый популярный и называется «Снизу вверх». Алгоритм начинается с разделения всего аудиоконтента на последовательность кластеров и постепенно пытается объединить избыточные кластеры, чтобы достичь ситуации, когда каждый кластер соответствует реальному говорящему. Вторая стратегия кластеризации называется нисходящей и начинается с одного кластера для всех аудиоданных и пытается итеративно разделить его до тех пор, пока не будет достигнуто количество кластеров, равное количеству динамиков.Обзор 2010 года можно найти по адресу [1] .

В последнее время диаризация говорящих осуществляется с помощью нейронных сетей с использованием крупномасштабных вычислений на графических процессорах и методологических разработок в области глубокого обучения . ^[5]

Программное обеспечение для дневников говорящих с открытым исходным кодом

Существует несколько инициатив с открытым исходным кодом для ведения дневников выступающих (в алфавитном порядке):

ALIZE Speaking Diarization (последнее обновление репозитория: июль 2016 г.; последний выпуск: февраль 2013 г., версия: 3.0): Система ALIZE Diarization, разработанная в Авиньонском университете, доступна версия 2.0 [2] .
Audioseg (последнее обновление репозитория: май 2014 г.; последний выпуск: январь 2010 г., версия: 1.2): AudioSeg — это набор инструментов, предназначенный для сегментации аудио и классификации аудиопотоков. [3] .
pyannote.audio (последнее обновление репозитория: август 2022 г., последний выпуск: июль 2022 г., версия: 2.0): pyannote.audio — это набор инструментов с открытым исходным кодом, написанный на Python для ведения дневника говорящих. [4] .
pyAudioAnaанализ (последнее обновление репозитория: сентябрь 2022 г.): Библиотека анализа аудио Python: извлечение функций, классификация, сегментация и приложения [5]
SHoUT (последнее обновление: декабрь 2010 г.; версия: 0.3): SHoUT — это пакет программного обеспечения, разработанный в Университете Твенте для помощи в исследованиях по распознаванию речи. SHoUT — голландская аббревиатура от названия «Исследования по распознаванию речи», проводимые в Университете Твенте . [6]
LIUM SpkDiarization (последний выпуск: сентябрь 2013 г., версия: 8.4.1): инструмент LIUM_SpkDiarization [7] .

Ссылки

^ Сахидулла, Мэриленд; Патино, Хосе; Корнелл, Сэмюэл; Инь, Жуйкин; Сивасанкаран, Сунит; Бреден, Эрве; Коршунов Павел; Брутти, Алессио; Серизель, Ромен; Винсент, Эммануэль; Эванс, Николас; Марсель, Себастьян; Сквартини, Стефано; Баррас, Клод (6 ноября 2019 г.). «Скорая подача на DIHARD II: вклад и извлеченные уроки». arXiv : 1911.02388 [ eess.AS ].
^ Чжу, Сюань; Баррас, Клод; Менье, Сильвен; Говен, Жан-Люк. «Улучшенная диаризация говорящих с использованием идентификации говорящих» . Проверено 25 января 2012 г.
^ Котти, Маргарита; Москова, Василики; Котропулос, Константин. «Сегментация и кластеризация динамиков» (PDF) . Проверено 25 января 2012 г.
^ «Проект оценки богатой транскрипции» . НИСТ . Проверено 25 января 2012 г.
^ Пак, Тэ Джин; Канда, Наоюки; Димитриадис, Димитриос; Хан, Кю Дж.; Ватанабэ, Синдзи; Нарайанан, Шрикант (26 ноября 2021 г.). «Обзор диаризации спикеров: последние достижения в области глубокого обучения». arXiv : 2101.09624 [ eess.AS ].

Библиография

Ангера, Ксавье (2012). «Диаризация спикеров: обзор недавних исследований» . Транзакции IEEE по обработке звука, речи и языка . 20 (2). Транзакции IEEE/ACM по обработке звука, речи и языка: 356–370. CiteSeerX 10.1.1.470.6149 . дои : 10.1109/TASL.2011.2125954 . ISSN 1558-7916 . S2CID 206602044 .
Бейги, Хомайун (2011). Основы распознавания говорящего . Нью-Йорк: Спрингер. ISBN 978-0-387-77591-3 .

[1] Сахидулла, Мэриленд; Патино, Хосе; Корнелл, Сэмюэл; Инь, Жуйкин; Сивасанкаран, Сунит; Бреден, Эрве; Коршунов Павел; Брутти, Алессио; Серизель, Ромен; Винсент, Эммануэль; Эванс, Николас; Марсель, Себастьян; Сквартини, Стефано; Баррас, Клод (6 ноября 2019 г.). «Скорая подача на DIHARD II: вклад и извлеченные уроки». arXiv : 1911.02388 [ eess.AS ].

[2] Чжу, Сюань; Баррас, Клод; Менье, Сильвен; Говен, Жан-Люк. «Улучшенная диаризация говорящих с использованием идентификации говорящих» . Проверено 25 января 2012 г.

[3] Котти, Маргарита; Москова, Василики; Котропулос, Константин. «Сегментация и кластеризация динамиков» (PDF) . Проверено 25 января 2012 г.

[4] «Проект оценки богатой транскрипции» . НИСТ . Проверено 25 января 2012 г.

[5] Пак, Тэ Джин; Канда, Наоюки; Димитриадис, Димитриос; Хан, Кю Дж.; Ватанабэ, Синдзи; Нарайанан, Шрикант (26 ноября 2021 г.). «Обзор диаризации спикеров: последние достижения в области глубокого обучения». arXiv : 2101.09624 [ eess.AS ].

[1]

[2]

[3]

[4]

[5]