Голосовой анализ
Эта статья нуждается в дополнительных цитатах для проверки . ( февраль 2011 г. ) |
Анализ голоса — это исследование звуков речи для целей, отличных от лингвистического содержания, например, для распознавания речи . Такие исследования включают в себя в основном медицинский анализ голоса ( фониатрия ) , а также идентификацию говорящего . [1] Еще более спорно то, что некоторые полагают, что правдивость или эмоциональное состояние говорящих можно определить с помощью анализа голосового стресса или многоуровневого анализа голоса.
Методы анализа
[ редактировать ]Проблемы с голосом, требующие анализа голоса, чаще всего возникают из-за голосовых связок или контролирующих их мышц гортани, поскольку складки подвергаются воздействию сил столкновения при каждом цикле вибрации и высыханию из-за воздуха, проталкиваемого через небольшой зазор между ними, и мускулатура гортани интенсивно активна во время речи или пения и подвержена утомлению. Однако динамический анализ голосовых связок и их движений физически затруднителен. Расположение голосовых связок эффективно препятствует прямому инвазивному измерению движения. Менее инвазивные методы визуализации, такие как рентген или ультразвук, не работают, поскольку голосовые связки окружены хрящом, что искажает качество изображения. Движения голосовых связок быстрые, основные частоты обычно находятся в диапазоне от 80 до 300 Гц , что не позволяет использовать обычное видео. Стробоскопическое и высокоскоростное видео предоставляют возможность, но чтобы увидеть голосовые связки, волоконно-оптический датчик, ведущий к камере, должен быть расположен в горле, что затрудняет речь. Кроме того, помещение предметов в глотку обычно вызывает рвотный рефлекс, который прекращает голосовую связь и закрывает гортань. Кроме того, стробоскопическая визуализация полезна только в том случае, если характер вибрации голосовых связок очень периодический.
Самое важное [ по мнению кого? ] Косвенными методами в настоящее время являются обратная фильтрация записей микрофона или ротового воздушного потока и электроглоттография (ЭГГ). [ нужна ссылка ] При обратной фильтрации звук речи (форма волны излучаемого акустического давления, полученная от микрофона) или форма волны ротового воздушного потока от маски с круговой вентиляцией (CV) записывается вне рта, а затем фильтруется математическим методом для удаления эффектов голосовой тракт. Этот метод оценивает голосовой вклад в производство голоса путем записи выходного сигнала и использования вычислительной модели для инвертирования эффектов голосового тракта. Другим видом неинвазивного косвенного определения движения голосовых связок является электроглоттография, при которой электроды, расположенные по обе стороны горла испытуемого на уровне голосовых связок, регистрируют изменения проводимости горла в зависимости от того, насколько велика часть голосовых связок. голосовые связки соприкасаются друг с другом. Таким образом, это дает одномерную информацию о зоне контакта. Ни обратная фильтрация, ни EGG не являются достаточными для полного описания сложной трехмерной картины движения голосовых связок, но могут предоставить полезные косвенные доказательства этого движения.
Другой способ провести анализ голоса — изучить характеристики голоса. Некоторые характеристики голоса — это фонация , высота , громкость и скорость. Эти характеристики можно использовать для оценки голоса человека и помочь в процессе анализа голоса. Фонация обычно проверяется путем изучения различных типов данных, полученных от человека, таких как слова с долгими гласными, слова с множеством фонем или просто типичная речь. Высота звука человека можно оценить, заставив его издавать самые высокие и самые низкие звуки, которые он может, а также звуки между ними. В этом процессе можно использовать клавиатуру. На громкость важно обращать внимание, поскольку для некоторых людей громкость влияет на то, как они производят определенные звуки. Некоторым людям необходимо произносить определенные фонемы громче, чем другим, просто для того, чтобы они могли их произнести. [ нужна ссылка ] Это можно проверить, попросив человека использовать такую же громкость при пении гаммы. Скорость также важна, поскольку она учитывает, насколько быстро или медленно говорит человек.
Использование в медицине
[ редактировать ]Медицинским исследованием голоса может быть, например, анализ голоса пациентов, у которых был удален полип из голосовых связок в результате операции . Компьютеризированные методы могут использоваться для объективной оценки таких проблем. [3] Опытный голосовой терапевт может вполне достоверно оценить голос, но это требует обширной подготовки и все же носит субъективный характер.
Еще одной активной темой исследований в области медицинского анализа голоса является оценка голосовой нагрузки . Голосовые связки человека, говорящего в течение длительного времени, страдают от утомления, то есть процесс речи оказывает нагрузку на голосовые связки и утомляет ткани. У профессиональных пользователей голосовой связи (например, учителей, продавцов) эта утомляемость может привести к потере голоса и больничным листам. Голосовой анализ изучался как объективное средство оценки таких проблем. [4]
Анализ голоса был важным фактором в изучении паралича голосовых связок. Он влияет на различные функции голосовых связок, от речи до дыхания, а анализ голоса используется для изучения эффективности улучшения голосовых связок после операции. Традиционная запись голоса используется перед операцией для записи голосов выбранных пациентов для сравнения с использованием после операции, а также более сложные записи с использованием электроглоттографии , фотоглоттографии , [5] и видеокимография . Медицинские работники имеют возможность читать и понимать результаты сложных записей, но для получения точных результатов в этих экспериментах необходимы знания профессионального голосового специалиста. Эксперты по голосу сыграли важную роль в том, чтобы связать физическое обследование голосовых связок с неврологическим обследованием, чтобы гарантировать успех операции благодаря их тренированному уху. Перцептивная оценка голоса во многом зависит от качества голоса — фактора, который предпочтительно оценивают специалисты по голосу ( логопеды ). Профессиональный голосовой анализатор обладает тренированным слухом и может блокировать лишние варианты, которые могут ввести в заблуждение. [6]
Использование в криминалистике
[ редактировать ]Голосовой анализ используется в разделе криминалистики, называемом аудиокриминалистикой . Этот анализ обычно проводится на доказательствах с целью оценки подлинности рассматриваемого аудио, улучшения характеристик аудио, которые могут быть скрыты под отвлекающим фоновым шумом, интерпретации аудио с точки зрения судебно-медицинского эксперта, [7] или, в некоторых случаях, в целях идентификации говорящего . [8]
В своем анализе эксперт будет использовать различные методы. Минимум процедур — «критическое прослушивание, анализ формы сигнала и спектральный анализ ». [9] Критическое прослушивание включает в себя тщательное разделение звуков переднего плана и фона посредством многократного прослушивания. [9] Анализ формы волны визуализирует звук, чтобы эксперт мог увидеть любые возможные отклонения. Спектральный анализ визуализирует частоту звука, чтобы эксперт мог выделить интересующие его особенности. [9]
Одним из случаев, в котором звук сыграл большую роль, является дело Трейвона Мартина , где запись звонка в полицию была проанализирована, чтобы определить, исходили ли фоновые крики от Джорджа Циммермана или от Мартина .
Судебный голос
[ редактировать ]Эксперты в области судебно-медицинской экспертизы анализируют записи, исследуя передаваемую и сохраненную речь, улучшая ее и декодируя для уголовных расследований, судебных процессов и федеральных агентств.
Чтобы использовать аудиозаписи в суде, судебный фонетик должен подтвердить подлинность записи, чтобы обнаружить фальсификацию, улучшить звук и интерпретировать речь. Их первая задача — обеспечить, чтобы речь в используемой записи была понятной. Часто сэмплы имеют плохое качество звука из-за факторов окружающей среды, таких как ветер или движение. В других случаях ухудшение звука происходит из-за технологических проблем записывающего устройства. Любая следственная работа по идентификации говорящего не может быть проведена до тех пор, пока запись не будет надлежащего качества. Различные решения проблем плохой разборчивости выполняются с помощью компьютерных программ, которые позволяют пользователю фильтровать и устранять шум. Компьютерное программное обеспечение также способно преобразовывать речь в спектры и формы сигналов, что полезно для судебно-фонетолога. Однако любую работу с записью следует выполнять после того, как будет сделана копия оригинальной записи.
Основная часть работы судебно-фонетолога - идентификация говорящего. Процесс интерпретации может включать в себя составление временной шкалы, расшифровку диалога и выявление неизвестных или непонятных звуков в аудиозаписи. В суде эксперт в конечном итоге объясняет факты, связанные с аудиодоказательствами, предоставляя объяснение соответствующих акустических и физических принципов, чтобы объяснить, о чем свидетельствует запись. Отчеты составляются с подробной информацией, если в записи есть непонятный или неслышимый участок, объяснением того, что происходило (в записи), и описанием того, чего в записи не хватает.
Идентификация говорящего
[ редактировать ]Анализ голоса играет важную роль в идентификации говорящего . Это когда личность говорящего неизвестна, и его необходимо идентифицировать среди множества других голосов или подозреваемых при расследовании преступления или судебном процессе. Правильная идентификация говорящего и голосов, особенно в уголовных делах, зависит от ряда факторов, таких как знакомство, воздействие, задержка, тон голоса, маскировка голоса и акценты. Знакомство с говорящим увеличивает шансы правильно идентифицировать голос и различить его. Степень воздействия голоса также помогает правильно идентифицировать голос, даже если он незнакомый. Слушатель, который слушает более длинное высказывание или чаще подвергается воздействию голоса, лучше узнает голос, чем тот, кто, возможно, был способен услышать только одно слово. Задержка между моментом прослушивания голоса и временем идентификации говорящего также снижает вероятность идентификации правильного говорящего. Тон голоса влияет на способность определить нужного говорящего. Если тон не соответствует тону говорящего в момент сравнения, анализ будет сложнее. Маскировка голоса, например, когда говорящий шепчет, также препятствует возможности точно сопоставить и идентифицировать говорящего. В некоторых случаях людям, говорящим на том же языке, что и говорящий, чей голос анализируется, будет легче идентифицировать их из-за акцент и напряжение голоса. Идентификация говорящего дополнительно осложняется искажениями технического метода записи и проблемами, связанными с говорящим, такими как эмоциональное состояние или альтернативные мотивы, вызывающие несоответствие между его голосом и голосом записи. Методы идентификации говорящего в криминалистике включают использование свидетелей, которые используются для идентификации услышанных ими голосов, слухо-перцептивный подход, проводимый специалистом в отношении супрасегментальных частей речи человека, и компьютерные подходы.
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Саранги, Сусанта; Сахидулла, Мэриленд; Саха, Гутам (сентябрь 2020 г.). «Оптимизация набора фильтров на основе данных для автоматической проверки говорящих». Цифровая обработка сигналов . 104 : 102795. arXiv : 2007.10729 . дои : 10.1016/j.dsp.2020.102795 . S2CID 220665533 .
- ^ Хапнер, Эди; Стемпл, Джозеф (2014). Голосовая терапия: клинические примеры . Множественное издательство.
- ^ Торан, SiKC; Лал, БК (2010). «Объективный анализ голоса на наличие полипов голосовых связок после микроларингеальной фонохирургии» . Медицинский журнал Университета Катманду . 8 (2): 185–189. дои : 10.3126/kumj.v8i2.3555 . ISSN 1812-2078 . ПМИД 21209532 .
- ^ Стемпл, Джозеф К.; Стэнли, Дженнифер; Ли, Линда (1995). «Объективные измерения голосового производства у нормальных людей после длительного использования голоса». Журнал голоса . 9 (2): 127–133. дои : 10.1016/s0892-1997(05)80245-0 . ISSN 0892-1997 . ПМИД 7620534 .
- ^ Герратт, Брюс Р.; Хэнсон, Дэвид Г.; Берке, Джеральд С.; Прекода, Кристин (1 января 1991 г.). «Фотоглоттография: клинический обзор» . Журнал голоса . 5 (2): 98–105. дои : 10.1016/S0892-1997(05)80173-0 . Проверено 16 декабря 2020 г.
- ^ Чоудхури, Канишка; Саха, Сомнатх; Саха, Ведула Падмини; Пал, Судипта; Чаттерджи, Индранил (23 марта 2013 г.). «До и послеоперационный анализ голоса после медиализации тиропластики в случаях одностороннего паралича голосовых складок» . Индийский журнал отоларингологии и хирургии головы и шеи . 65 (4): 354–357. дои : 10.1007/s12070-013-0649-3 . ISSN 2231-3796 . ПМЦ 3851511 . ПМИД 24427598 .
- ^ Махер, Роберт С. (2018). Принципы судебно-медицинской аудиоанализа . Современная акустика и обработка сигналов. Чам: Международное издательство Springer. стр. 1–2. дои : 10.1007/978-3-319-99453-6. ISBN 978-3-319-99452-9 .
- ^ Солан, Лоуренс М.; Тиерсма, Питер М. (2004). Кстати о преступности . Издательство Чикагского университета. дои : 10.7208/Чикаго/9780226767871.001.0001 . ISBN 978-0-226-76793-2 .
- ^ Jump up to: а б с Махер, Роберт С. (2018). Принципы судебно-медицинской аудиоанализа . Современная акустика и обработка сигналов. Чам: Международное издательство Springer. стр. 48–49. дои : 10.1007/978-3-319-99453-6. ISBN 978-3-319-99452-9 .