Сегментация временных рядов
Сегментация временных рядов — это метод анализа временных рядов , при котором входной временной ряд делится на последовательность дискретных сегментов, чтобы выявить основные свойства его источника. Типичным применением сегментации временных рядов является диаризация говорящего , при которой аудиосигнал разделяется на несколько частей в зависимости от того, кто и в какое время говорит. Алгоритмы, основанные на обнаружении точек изменения, включают методы скользящего окна, методы «снизу вверх» и «сверху вниз». [1] Вероятностные методы, основанные на скрытых моделях Маркова, также оказались полезными при решении этой проблемы. [2]
Обзор проблемы сегментации
[ редактировать ]Часто временной ряд можно представить как последовательность дискретных сегментов конечной длины. Например, траекторию фондового рынка можно было бы разделить на регионы, лежащие между важными мировыми событиями, входные данные для приложения распознавания рукописного текста можно было бы сегментировать на различные слова или буквы, из которых они предположительно состояли, или аудиозапись. Конференцию можно разделить в зависимости от того, кто и когда выступал. В последних двух случаях можно воспользоваться тем фактом, что присвоение меток отдельным сегментам может повторяться (например, если человек выступает несколько раз во время конференции), пытаясь сгруппировать сегменты в соответствии с их отличительными свойствами. (например, спектральный состав голоса каждого говорящего). Существует два общих подхода к этой проблеме. Первый предполагает поиск точек изменения во временном ряду: например, можно назначить границу сегмента всякий раз, когда происходит большой скачок среднего значения сигнала. Второй подход предполагает предположение, что каждый сегмент временного ряда генерируется системой с различными параметрами, а затем выводит наиболее вероятные местоположения сегментов и параметры системы, которые их описывают. [3] В то время как первый подход имеет тенденцию искать изменения только в коротком временном интервале, второй подход обычно учитывает весь временной ряд при принятии решения о том, какую метку присвоить данной точке.
Алгоритмы сегментации
[ редактировать ]Скрытые марковские модели
[ редактировать ]В скрытой марковской модели временной ряд предполагается, что он генерируется при переходе системы между набором дискретных скрытых состояний. . В каждый момент времени , образец извлекается из распределения наблюдений (или выбросов), индексированного текущим скрытым состоянием, т. е. . Целью задачи сегментации является определение скрытого состояния в каждый момент времени, а также параметров, описывающих распределение выбросов, связанных с каждым скрытым состоянием. Последовательность скрытых состояний и параметры распределения выбросов можно узнать с помощью алгоритма Баума-Уэлча , который представляет собой вариант максимизации ожидания , применяемый к HMM. Обычно в задаче сегментации вероятности самоперехода между состояниями предполагаются высокими, так что система остается в каждом состоянии в течение немалого времени. Более надежные методы изучения параметров включают размещение иерархических априорных процессов Дирихле над матрицей переходов HMM. [4]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Кио, Имонн и др. « Сегментация временных рядов: исследование и новый подход ». Интеллектуальный анализ данных в базах данных временных рядов 57 (2004): 1-22.
- ^ Фокс, Эмили Б. и др. « HDP-HMM для систем с сохранением состояния ». Материалы 25-й международной конференции по машинному обучению. АКМ, 2008.
- ^ Ли, Ян; Чжао, Кайгуан; Ху, Тунси; Чжан, Сюэсун. «BEAST: байесовский ансамблевый алгоритм для обнаружения точек изменения и разложения временных рядов» . Гитхаб .
- ^ Тех, Йи Уай и др. « Иерархические процессы Дирихле ». Журнал Американской статистической ассоциации 101.476 (2006).
Дальнейшее чтение
[ редактировать ]- Сильва, Рикардо Петри; Сарпелао, Бруно Богас; Кано, Альберто; Младший, Сильвио Барбон (4 ноября 2021 г.). «Сегментация временных рядов на основе анализа стационарности для улучшения прогнозирования новых образцов» . Датчики . 21 (21): 7333. Бибкод : 2021Senso..21.7333S . дои : 10.3390/s21217333 . ПМЦ 8587387 . ПМИД 34770639 .