Приблизительная энтропия
В статистике приблизительная энтропия ( ApEn ) — это метод, используемый для количественной оценки регулярности и непредсказуемости колебаний данных временных рядов . [1] Например, рассмотрим две серии данных:
- Серия A: (0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, ...), в которой чередуются 0 и 1.
- Серия B: (0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 1, 0, 0, 1, ...), которая имеет значение 0 или 1. , выбранных случайно, каждый с вероятностью 1/2.
Моментная статистика , такая как среднее значение и дисперсия , не различает эти два ряда. также не В статистике ранжирования эти ряды различаются. Тем не менее, ряд A совершенно регулярен: знание того, что терм имеет значение 1, позволяет с уверенностью предсказать, что следующий член будет иметь значение 0. Напротив, ряд B оценивается случайным образом: знание того, что терм имеет значение 1, дает нет понимания того, какую ценность будет иметь следующий термин.
Первоначально регулярность измерялась с помощью точной статистики регулярности, которая в основном основывалась на различных мерах энтропии. [1] Однако точный расчет энтропии требует огромных объемов данных, и на результаты будет сильно влиять системный шум. [2] поэтому применять эти методы к экспериментальным данным нецелесообразно. ApEn был разработан Стивом М. Пинкусом, чтобы справиться с этими ограничениями путем изменения точной статистики регулярности, энтропии Колмогорова-Синая . ApEn изначально был разработан для анализа медицинских данных, таких как частота сердечных сокращений, [1] а позже распространил свои приложения в области финансов , [3] физиология , [4] инженерия человеческого фактора , [5] и климатические науки. [6]
Алгоритм
[ редактировать ]Доступно подробное пошаговое руководство с объяснением теоретических основ приближенной энтропии. [7] Алгоритм:
- Шаг 1
- Предположим, временной ряд данных . Это значения необработанных данных измерений, равномерно распределенных во времени.
- Шаг 2
- Позволять быть положительным целым числом , причем , который представляет длину серии данных (по сути, окна ).
Позволять быть положительным действительным числом , которое определяет уровень фильтрации.
Позволять . - Шаг 3
- Определять для каждого где . Другими словами, это -мерный вектор , содержащий серию данных, начинающуюся с .
Определить расстояние между двумя векторами и как максимум расстояний между их соответствующими компонентами, определяемый формулой - для .
- Шаг 4
- Определение количества как
- для каждого где . Обратите внимание, что поскольку принимает все значения от 1 до , совпадение будет засчитано, когда (т.е. когда тестовая подпоследовательность, , сопоставляется сам с собой, ).
- Шаг 5
- Определять
- где – натуральный логарифм , а для фиксированного , , и как установлено в шаге 2.
- Шаг 6
- Определим приблизительную энтропию ( ) как
- Выбор параметров
- Обычно выбирают или , тогда как сильно зависит от приложения.
Реализация на Physionet, [8] который основан на Пинкусе, [2] использовать вместо на шаге 4. Хотя это касается искусственно созданных примеров, на практике это обычно не вызывает беспокойства.
Пример
[ редактировать ]
Рассмотрим последовательность образцы частоты сердечных сокращений, равноотстоящие во времени:
Обратите внимание, что последовательность периодическая с периодом 3. Выберем и (значения и можно варьировать, не влияя на результат).
Сформируем последовательность векторов:
Расстояние рассчитывается повторно следующим образом. В первом расчете
- что меньше, чем .
Во втором расчете заметим, что , так
- что больше, чем .
Сходным образом,
В результате всего получается 17 терминов. такой, что . К ним относятся . В этих случаях является
Обратите внимание на шаг 4: для . Итак, условия такой, что включать , а общее число равно 16.
В конце этих вычислений мы имеем
Затем повторяем описанные выше шаги для . Сначала сформируйте последовательность векторов:
Путем расчета расстояний между векторами , мы находим, что векторы, удовлетворяющие уровню фильтрации, имеют следующую характеристику:
Поэтому,
В конце этих вычислений мы имеем
Окончательно,
Значение очень мало, поэтому оно означает, что последовательность регулярна и предсказуема, что согласуется с наблюдением.
Реализация Python
[ редактировать ]import numpy as np
def ApEn(U, m, r) -> float:
"""Approximate_entropy."""
def _maxdist(x_i, x_j):
return max([abs(ua - va) for ua, va in zip(x_i, x_j)])
def _phi(m):
x = [[U[j] for j in range(i, i + m - 1 + 1)] for i in range(N - m + 1)]
C = [
len([1 for x_j in x if _maxdist(x_i, x_j) <= r]) / (N - m + 1.0)
for x_i in x
]
return (N - m + 1.0) ** (-1) * sum(np.log(C))
N = len(U)
return abs(_phi(m + 1) - _phi(m))
Пример использования:
>>> U = np.array([85, 80, 89] * 17)
>>> print(ApEn(U, 2, 3))
1.0996541105257052e-05
>>> randU = np.random.choice([85, 80, 89], size=17*3)
>>> print(ApEn(randU, 2, 3))
0.8626664154888908
Реализация MATLAB
[ редактировать ]- Быстрая приближенная энтропия от MatLab Central
- приблизительнаяЭнтропия
Интерпретация
[ редактировать ]Наличие повторяющихся закономерностей колебаний во временном ряду делает его более предсказуемым, чем временной ряд, в котором такие закономерности отсутствуют. ApEn отражает вероятность того, что за аналогичными закономерностями наблюдений не последуют дополнительные аналогичные наблюдения. [9] Временной ряд, содержащий множество повторяющихся шаблонов, имеет относительно небольшой ApEn; менее предсказуемый процесс имеет более высокий ApEn.
Преимущества
[ редактировать ]К преимуществам ApEn относятся: [2]
- Меньшая вычислительная потребность. ApEn может быть разработан для работы с небольшими выборками данных ( баллов) и могут применяться в режиме реального времени.
- Меньший эффект от шума. Если данные зашумлены, показатель ApEn можно сравнить с уровнем шума в данных, чтобы определить, какое качество истинной информации может присутствовать в данных.
Ограничения
[ редактировать ]Алгоритм ApEn считает каждую последовательность совпадающей, чтобы избежать возникновения ошибок. в расчетах. Этот шаг может привести к смещению ApEn, из-за чего на практике ApEn будет иметь два плохих свойства: [10]
- ApEn сильно зависит от длины записи и равномерно ниже ожидаемого для коротких записей.
- Ему не хватает относительной последовательности. То есть, если ApEn одного набора данных выше, чем у другого, оно должно, но не остается, оставаться выше для всех тестируемых условий.
Приложения
[ редактировать ]ApEn применялся для классификации электроэнцефалографии (ЭЭГ) при психиатрических заболеваниях, таких как шизофрения, [11] эпилепсия, [12] и зависимость. [13]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Jump up to: а б с Пинкус, С.М.; Гладстон, ИМ; Эренкранц, Р.А. (1991). «Статистика регулярности для анализа медицинских данных». Журнал клинического мониторинга и вычислений . 7 (4): 335–345. дои : 10.1007/BF01619355 . ПМИД 1744678 . S2CID 23455856 .
- ^ Jump up to: а б с Пинкус, С.М. (1991). «Приблизительная энтропия как мера сложности системы» . Труды Национальной академии наук . 88 (6): 2297–2301. Бибкод : 1991PNAS...88.2297P . дои : 10.1073/pnas.88.6.2297 . ПМЦ 51218 . ПМИД 11607165 .
- ^ Пинкус, С.М.; Кальман, ЭК (2004). «Неравномерность, волатильность, риск и временные ряды финансового рынка» . Труды Национальной академии наук . 101 (38): 13709–13714. Бибкод : 2004PNAS..10113709P . дои : 10.1073/pnas.0405168101 . ПМК 518821 . ПМИД 15358860 .
- ^ Пинкус, С.М.; Голдбергер, Ал. (1994). «Физиологический анализ временных рядов: что количественно определяет регулярность?». Американский журнал физиологии . 266 (4): 1643–1656. дои : 10.1152/ajpheart.1994.266.4.H1643 . ПМИД 8184944 . S2CID 362684 .
- ^ МакКинли, РА; Макинтайр, ЛК; Шмидт, Р; Реппергер, Д.В.; Колдуэлл, Дж. А. (2011). «Оценка показателей глаза как детектор усталости». Человеческий фактор . 53 (4): 403–414. дои : 10.1177/0018720811411297 . ПМИД 21901937 . S2CID 109251681 .
- ^ Дельгадо-Бональ, Альфонсо; Маршак, Александр; Ян, Юекуй; Холдэуэй, Дэниел (22 января 2020 г.). «Анализ изменений сложности климата за последние четыре десятилетия с использованием радиационных данных MERRA-2» . Научные отчеты . 10 (1): 922. Бибкод : 2020НатСР..10..922Д . дои : 10.1038/s41598-020-57917-8 . ISSN 2045-2322 . ПМК 6976651 . ПМИД 31969616 .
- ^ Дельгадо-Бональ, Альфонсо; Маршак, Александр (июнь 2019 г.). «Приблизительная энтропия и выборочная энтропия: комплексное руководство» . Энтропия . 21 (6): 541. Бибкод : 2019Entrp..21..541D . дои : 10.3390/e21060541 . ПМК 7515030 . ПМИД 33267255 .
- ^ «ФизиоНет» . Архивировано из оригинала 18 июня 2012 г. Проверено 4 июля 2012 г.
- ^ Хо, К.К.; Муди, Великобритания; Пэн, СК; Миетус, Дж. Э.; Ларсон, МГ; сбор, Д; Голдбергер, Ал. (1997). «Прогнозирование выживаемости пациентов с сердечной недостаточностью и контрольной группы с использованием полностью автоматизированных методов получения нелинейных и традиционных показателей динамики сердечного ритма». Тираж . 96 (3): 842–848. дои : 10.1161/01.cir.96.3.842 . ПМИД 9264491 .
- ^ Ричман, Дж. С.; Мурман, младший (2000). «Физиологический анализ временных рядов с использованием приблизительной энтропии и энтропии выборки». Американский журнал физиологии. Физиология сердца и кровообращения . 278 (6): 2039–2049. дои : 10.1152/ajpheart.2000.278.6.H2039 . ПМИД 10843903 . S2CID 2389971 .
- ^ Сабети, Малихе (2009). «Меры энтропии и сложности для классификации сигналов ЭЭГ участников, больных шизофренией и контрольной группой». Искусственный интеллект в медицине . 47 (3): 263–274. doi : 10.1016/j.artmed.2009.03.003 . ПМИД 19403281 .
- ^ Юань, Ци (2011). «Классификация эпилептической ЭЭГ, основанная на экстремальной обучающей машине и нелинейных функциях». Исследования эпилепсии . 96 (1–2): 29–38. doi : 10.1016/j.eplepsyres.2011.04.013 . ПМИД 21616643 . S2CID 41730913 .
- ^ Юн, Кёнсик (2012). «Снижение сложности коры головного мозга у лиц, злоупотребляющих метамфетамином». Психиатрические исследования: нейровизуализация . 201 (3): 226–32. doi : 10.1016/j.pscychresns.2011.07.009 . ПМИД 22445216 . S2CID 30670300 .