Приблизительная энтропия

В статистике приблизительная энтропия ( ApEn ) — это метод, используемый для количественной оценки регулярности и непредсказуемости колебаний данных временных рядов . ^[1] Например, рассмотрим две серии данных:

Серия A: (0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, ...), в которой чередуются 0 и 1.

Серия B: (0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 1, 0, 0, 1, ...), которая имеет значение 0 или 1. , выбранных случайно, каждый с вероятностью 1/2.

Моментная статистика , такая как среднее значение и дисперсия , не различает эти два ряда. также не В статистике ранжирования эти ряды различаются. Тем не менее, ряд A совершенно регулярен: знание того, что терм имеет значение 1, позволяет с уверенностью предсказать, что следующий член будет иметь значение 0. Напротив, ряд B оценивается случайным образом: знание того, что терм имеет значение 1, дает нет понимания того, какую ценность будет иметь следующий термин.

Первоначально регулярность измерялась с помощью точной статистики регулярности, которая в основном основывалась на различных мерах энтропии. ^[1] Однако точный расчет энтропии требует огромных объемов данных, и на результаты будет сильно влиять системный шум. ^[2] поэтому применять эти методы к экспериментальным данным нецелесообразно. ApEn был разработан Стивом М. Пинкусом, чтобы справиться с этими ограничениями путем изменения точной статистики регулярности, энтропии Колмогорова-Синая . ApEn изначально был разработан для анализа медицинских данных, таких как частота сердечных сокращений, ^[1] а позже распространил свои приложения в области финансов , ^[3] физиология , ^[4] инженерия человеческого фактора , ^[5] и климатические науки. ^[6]

Алгоритм

Доступно подробное пошаговое руководство с объяснением теоретических основ приближенной энтропии. ^[7] Алгоритм:

Шаг 1

Предположим, временной ряд данных

u(1),u(2),\ldots ,u(N)

. Это

N

значения необработанных данных измерений, равномерно распределенных во времени.

Шаг 2

Позволять

m\in \mathbb {Z} ^{+}

быть положительным целым числом , причем

m\leq N

, который представляет длину серии данных (по сути, окна ).
Позволять

r\in \mathbb {R} ^{+}

быть положительным действительным числом , которое определяет уровень фильтрации.
Позволять

n=N-m+1

.

Шаг 3

Определять

\mathbf {x} (i)={\big [}u(i),u(i+1),\ldots ,u(i+m-1){\big ]}

для каждого

i

где

1\leq i\leq n

. Другими словами,

\mathbf {x} (i)

это

m

-мерный вектор , содержащий серию данных, начинающуюся с

u(i)

.
Определить расстояние между двумя векторами

\mathbf {x} (i)

и

\mathbf {x} (j)

как максимум расстояний между их соответствующими компонентами, определяемый формулой

{\begin{aligned}d[\mathbf {x} (i),\mathbf {x} (j)]&=\max _{k}{\big (}|\mathbf {x} (i)_{k}-\mathbf {x} (j)_{k}|{\big )}\\&=\max _{k}{\big (}|u(i+k-1)-u(j+k-1)|{\big )}\\\end{aligned}}

для

1\leq k\leq m

.

Шаг 4

Определение количества

C_{i}^{m}

как

C_{i}^{m}(r)={({\text{number of }}j{\text{ such that }}d[\mathbf {x} (i),\mathbf {x} (j)]\leq r) \over n}

для каждого

i

где

1\leq i,j\leq n

. Обратите внимание, что поскольку

j

принимает все значения от 1 до

n

, совпадение будет засчитано, когда

j=i

(т.е. когда тестовая подпоследовательность,

\mathbf {x} (j)

, сопоставляется сам с собой,

\mathbf {x} (i)

).

Шаг 5

Определять

\phi ^{m}(r)={1 \over n}\sum _{i=1}^{n}\log(C_{i}^{m}(r))

где

\log

– натуральный логарифм , а для фиксированного

m

,

r

, и

n

как установлено в шаге 2.

Шаг 6

Определим приблизительную энтропию (

\mathrm {ApEn}

) как

\mathrm {ApEn} (m,r,N)(u)=\phi ^{m}(r)-\phi ^{m+1}(r)

Выбор параметров: Обычно выбирают $m=2$ или $m=3$ , тогда как $r$ сильно зависит от приложения.

Реализация на Physionet, ^[8] который основан на Пинкусе, ^[2] использовать $d[\mathbf {x} (i),\mathbf {x} (j)]<r$ вместо $d[\mathbf {x} (i),\mathbf {x} (j)]\leq r$ на шаге 4. Хотя это касается искусственно созданных примеров, на практике это обычно не вызывает беспокойства.

Пример

Иллюстрация последовательности сердечного ритма

Рассмотрим последовательность $N=51$ образцы частоты сердечных сокращений, равноотстоящие во времени:

\ S_{N}=\{85,80,89,85,80,89,\ldots \}

Обратите внимание, что последовательность периодическая с периодом 3. Выберем $m=2$ и $r=3$ (значения $m$ и $r$ можно варьировать, не влияя на результат).

Сформируем последовательность векторов:

{\begin{aligned}\mathbf {x} (1)&=[u(1)\ u(2)]=[85\ 80]\\\mathbf {x} (2)&=[u(2)\ u(3)]=[80\ 89]\\\mathbf {x} (3)&=[u(3)\ u(4)]=[89\ 85]\\\mathbf {x} (4)&=[u(4)\ u(5)]=[85\ 80]\\&\ \ \vdots \end{aligned}}

Расстояние рассчитывается повторно следующим образом. В первом расчете

\ d[\mathbf {x} (1),\mathbf {x} (1)]=\max _{k}|\mathbf {x} (1)_{k}-\mathbf {x} (1)_{k}|=0

что меньше, чем

r

.

Во втором расчете заметим, что $|u(2)-u(3)|>|u(1)-u(2)|$ , так

\ d[\mathbf {x} (1),\mathbf {x} (2)]=\max _{k}|\mathbf {x} (1)_{k}-\mathbf {x} (2)_{k}|=|u(2)-u(3)|=9

что больше, чем

r

.

Сходным образом,

{\begin{aligned}d[\mathbf {x} (1)&,\mathbf {x} (3)]=|u(2)-u(4)|=5>r\\d[\mathbf {x} (1)&,\mathbf {x} (4)]=|u(1)-u(4)|=|u(2)-u(5)|=0<r\\&\vdots \\d[\mathbf {x} (1)&,\mathbf {x} (j)]=\cdots \\&\vdots \\\end{aligned}}

В результате всего получается 17 терминов. $\mathbf {x} (j)$ такой, что $d[\mathbf {x} (1),\mathbf {x} (j)]\leq r$ . К ним относятся $\mathbf {x} (1),\mathbf {x} (4),\mathbf {x} (7),\ldots ,\mathbf {x} (49)$ . В этих случаях $C_{i}^{m}(r)$ является

\ C_{1}^{2}(3)={\frac {17}{50}}

\ C_{2}^{2}(3)={\frac {17}{50}}

\ C_{3}^{2}(3)={\frac {16}{50}}

\ C_{4}^{2}(3)={\frac {17}{50}}\ \cdots

Обратите внимание на шаг 4: $1\leq i\leq n$ для $\mathbf {x} (i)$ . Итак, условия $\mathbf {x} (j)$ такой, что $d[\mathbf {x} (3),\mathbf {x} (j)]\leq r$ включать $\mathbf {x} (3),\mathbf {x} (6),\mathbf {x} (9),\ldots ,\mathbf {x} (48)$ , а общее число равно 16.

В конце этих вычислений мы имеем

\phi ^{2}(3)={1 \over 50}\sum _{i=1}^{50}\log(C_{i}^{2}(3))\approx -1.0982

Затем повторяем описанные выше шаги для $m=3$ . Сначала сформируйте последовательность векторов:

{\begin{aligned}\mathbf {x} (1)&=[u(1)\ u(2)\ u(3)]=[85\ 80\ 89]\\\mathbf {x} (2)&=[u(2)\ u(3)\ u(4)]=[80\ 89\ 85]\\\mathbf {x} (3)&=[u(3)\ u(4)\ u(5)]=[89\ 85\ 80]\\\mathbf {x} (4)&=[u(4)\ u(5)\ u(6)]=[85\ 80\ 89]\\&\ \ \vdots \end{aligned}}

Путем расчета расстояний между векторами $\mathbf {x} (i),\mathbf {x} (j),1\leq i\leq 49$ , мы находим, что векторы, удовлетворяющие уровню фильтрации, имеют следующую характеристику:

d[\mathbf {x} (i),\mathbf {x} (i+3)]=0<r

Поэтому,

\ C_{1}^{3}(3)={\frac {17}{49}}

\ C_{2}^{3}(3)={\frac {16}{49}}

\ C_{3}^{3}(3)={\frac {16}{49}}

\ C_{4}^{3}(3)={\frac {17}{49}}\ \cdots

В конце этих вычислений мы имеем

\phi ^{3}(3)={1 \over 49}\sum _{i=1}^{49}\log(C_{i}^{3}(3))\approx -1.0982

Окончательно,

\mathrm {ApEn} =\phi ^{2}(3)-\phi ^{3}(3)\approx 0.000010997

Значение очень мало, поэтому оно означает, что последовательность регулярна и предсказуема, что согласуется с наблюдением.

Реализация Python

import numpy as np


def ApEn(U, m, r) -> float:
    """Approximate_entropy."""

    def _maxdist(x_i, x_j):
        return max([abs(ua - va) for ua, va in zip(x_i, x_j)])

    def _phi(m):
        x = [[U[j] for j in range(i, i + m - 1 + 1)] for i in range(N - m + 1)]
        C = [
            len([1 for x_j in x if _maxdist(x_i, x_j) <= r]) / (N - m + 1.0)
            for x_i in x
        ]
        return (N - m + 1.0) ** (-1) * sum(np.log(C))

    N = len(U)

    return abs(_phi(m + 1) - _phi(m))

Пример использования:

>>> U = np.array([85, 80, 89] * 17)
>>> print(ApEn(U, 2, 3))
1.0996541105257052e-05
>>> randU = np.random.choice([85, 80, 89], size=17*3)
>>> print(ApEn(randU, 2, 3))
0.8626664154888908

Реализация MATLAB

Быстрая приближенная энтропия от MatLab Central
приблизительнаяЭнтропия

Интерпретация

Наличие повторяющихся закономерностей колебаний во временном ряду делает его более предсказуемым, чем временной ряд, в котором такие закономерности отсутствуют. ApEn отражает вероятность того, что за аналогичными закономерностями наблюдений не последуют дополнительные аналогичные наблюдения. ^[9] Временной ряд, содержащий множество повторяющихся шаблонов, имеет относительно небольшой ApEn; менее предсказуемый процесс имеет более высокий ApEn.

Преимущества

К преимуществам ApEn относятся: ^[2]

Меньшая вычислительная потребность. ApEn может быть разработан для работы с небольшими выборками данных ( $N<50$ баллов) и могут применяться в режиме реального времени.
Меньший эффект от шума. Если данные зашумлены, показатель ApEn можно сравнить с уровнем шума в данных, чтобы определить, какое качество истинной информации может присутствовать в данных.

Ограничения

Алгоритм ApEn считает каждую последовательность совпадающей, чтобы избежать возникновения ошибок. $\log(0)$ в расчетах. Этот шаг может привести к смещению ApEn, из-за чего на практике ApEn будет иметь два плохих свойства: ^[10]

ApEn сильно зависит от длины записи и равномерно ниже ожидаемого для коротких записей.
Ему не хватает относительной последовательности. То есть, если ApEn одного набора данных выше, чем у другого, оно должно, но не остается, оставаться выше для всех тестируемых условий.

Приложения

ApEn применялся для классификации электроэнцефалографии (ЭЭГ) при психиатрических заболеваниях, таких как шизофрения, ^[11] эпилепсия, ^[12] и зависимость. ^[13]

См. также

Ссылки

^ Jump up to: ^а ^б ^с Пинкус, С.М.; Гладстон, ИМ; Эренкранц, Р.А. (1991). «Статистика регулярности для анализа медицинских данных». Журнал клинического мониторинга и вычислений . 7 (4): 335–345. дои : 10.1007/BF01619355 . ПМИД 1744678 . S2CID 23455856 .
^ Jump up to: ^а ^б ^с Пинкус, С.М. (1991). «Приблизительная энтропия как мера сложности системы» . Труды Национальной академии наук . 88 (6): 2297–2301. Бибкод : 1991PNAS...88.2297P . дои : 10.1073/pnas.88.6.2297 . ПМЦ 51218 . ПМИД 11607165 .
^ Пинкус, С.М.; Кальман, ЭК (2004). «Неравномерность, волатильность, риск и временные ряды финансового рынка» . Труды Национальной академии наук . 101 (38): 13709–13714. Бибкод : 2004PNAS..10113709P . дои : 10.1073/pnas.0405168101 . ПМК 518821 . ПМИД 15358860 .
^ Пинкус, С.М.; Голдбергер, Ал. (1994). «Физиологический анализ временных рядов: что количественно определяет регулярность?». Американский журнал физиологии . 266 (4): 1643–1656. дои : 10.1152/ajpheart.1994.266.4.H1643 . ПМИД 8184944 . S2CID 362684 .
^ МакКинли, РА; Макинтайр, ЛК; Шмидт, Р; Реппергер, Д.В.; Колдуэлл, Дж. А. (2011). «Оценка показателей глаза как детектор усталости». Человеческий фактор . 53 (4): 403–414. дои : 10.1177/0018720811411297 . ПМИД 21901937 . S2CID 109251681 .
^ Дельгадо-Бональ, Альфонсо; Маршак, Александр; Ян, Юекуй; Холдэуэй, Дэниел (22 января 2020 г.). «Анализ изменений сложности климата за последние четыре десятилетия с использованием радиационных данных MERRA-2» . Научные отчеты . 10 (1): 922. Бибкод : 2020НатСР..10..922Д . дои : 10.1038/s41598-020-57917-8 . ISSN 2045-2322 . ПМК 6976651 . ПМИД 31969616 .
^ Дельгадо-Бональ, Альфонсо; Маршак, Александр (июнь 2019 г.). «Приблизительная энтропия и выборочная энтропия: комплексное руководство» . Энтропия . 21 (6): 541. Бибкод : 2019Entrp..21..541D . дои : 10.3390/e21060541 . ПМК 7515030 . ПМИД 33267255 .
^ «ФизиоНет» . Архивировано из оригинала 18 июня 2012 г. Проверено 4 июля 2012 г.
^ Хо, К.К.; Муди, Великобритания; Пэн, СК; Миетус, Дж. Э.; Ларсон, МГ; сбор, Д; Голдбергер, Ал. (1997). «Прогнозирование выживаемости пациентов с сердечной недостаточностью и контрольной группы с использованием полностью автоматизированных методов получения нелинейных и традиционных показателей динамики сердечного ритма». Тираж . 96 (3): 842–848. дои : 10.1161/01.cir.96.3.842 . ПМИД 9264491 .
^ Ричман, Дж. С.; Мурман, младший (2000). «Физиологический анализ временных рядов с использованием приблизительной энтропии и энтропии выборки». Американский журнал физиологии. Физиология сердца и кровообращения . 278 (6): 2039–2049. дои : 10.1152/ajpheart.2000.278.6.H2039 . ПМИД 10843903 . S2CID 2389971 .
^ Сабети, Малихе (2009). «Меры энтропии и сложности для классификации сигналов ЭЭГ участников, больных шизофренией и контрольной группой». Искусственный интеллект в медицине . 47 (3): 263–274. doi : 10.1016/j.artmed.2009.03.003 . ПМИД 19403281 .
^ Юань, Ци (2011). «Классификация эпилептической ЭЭГ, основанная на экстремальной обучающей машине и нелинейных функциях». Исследования эпилепсии . 96 (1–2): 29–38. doi : 10.1016/j.eplepsyres.2011.04.013 . ПМИД 21616643 . S2CID 41730913 .
^ Юн, Кёнсик (2012). «Снижение сложности коры головного мозга у лиц, злоупотребляющих метамфетамином». Психиатрические исследования: нейровизуализация . 201 (3): 226–32. doi : 10.1016/j.pscychresns.2011.07.009 . ПМИД 22445216 . S2CID 30670300 .

[Pincus1991-1] Jump up to: ^а ^б ^с Пинкус, С.М.; Гладстон, ИМ; Эренкранц, Р.А. (1991). «Статистика регулярности для анализа медицинских данных». Журнал клинического мониторинга и вычислений . 7 (4): 335–345. дои : 10.1007/BF01619355 . ПМИД 1744678 . S2CID 23455856 .

[Pincus21991-2] Jump up to: ^а ^б ^с Пинкус, С.М. (1991). «Приблизительная энтропия как мера сложности системы» . Труды Национальной академии наук . 88 (6): 2297–2301. Бибкод : 1991PNAS...88.2297P . дои : 10.1073/pnas.88.6.2297 . ПМЦ 51218 . ПМИД 11607165 .

[Pincus2004-3] Пинкус, С.М.; Кальман, ЭК (2004). «Неравномерность, волатильность, риск и временные ряды финансового рынка» . Труды Национальной академии наук . 101 (38): 13709–13714. Бибкод : 2004PNAS..10113709P . дои : 10.1073/pnas.0405168101 . ПМК 518821 . ПМИД 15358860 .

[Pincus1994-4] Пинкус, С.М.; Голдбергер, Ал. (1994). «Физиологический анализ временных рядов: что количественно определяет регулярность?». Американский журнал физиологии . 266 (4): 1643–1656. дои : 10.1152/ajpheart.1994.266.4.H1643 . ПМИД 8184944 . S2CID 362684 .

[humanfactor-5] МакКинли, РА; Макинтайр, ЛК; Шмидт, Р; Реппергер, Д.В.; Колдуэлл, Дж. А. (2011). «Оценка показателей глаза как детектор усталости». Человеческий фактор . 53 (4): 403–414. дои : 10.1177/0018720811411297 . ПМИД 21901937 . S2CID 109251681 .

[6] Дельгадо-Бональ, Альфонсо; Маршак, Александр; Ян, Юекуй; Холдэуэй, Дэниел (22 января 2020 г.). «Анализ изменений сложности климата за последние четыре десятилетия с использованием радиационных данных MERRA-2» . Научные отчеты . 10 (1): 922. Бибкод : 2020НатСР..10..922Д . дои : 10.1038/s41598-020-57917-8 . ISSN 2045-2322 . ПМК 6976651 . ПМИД 31969616 .

[7] Дельгадо-Бональ, Альфонсо; Маршак, Александр (июнь 2019 г.). «Приблизительная энтропия и выборочная энтропия: комплексное руководство» . Энтропия . 21 (6): 541. Бибкод : 2019Entrp..21..541D . дои : 10.3390/e21060541 . ПМК 7515030 . ПМИД 33267255 .

[8] «ФизиоНет» . Архивировано из оригинала 18 июня 2012 г. Проверено 4 июля 2012 г.

[9] Хо, К.К.; Муди, Великобритания; Пэн, СК; Миетус, Дж. Э.; Ларсон, МГ; сбор, Д; Голдбергер, Ал. (1997). «Прогнозирование выживаемости пациентов с сердечной недостаточностью и контрольной группы с использованием полностью автоматизированных методов получения нелинейных и традиционных показателей динамики сердечного ритма». Тираж . 96 (3): 842–848. дои : 10.1161/01.cir.96.3.842 . ПМИД 9264491 .

[10] Ричман, Дж. С.; Мурман, младший (2000). «Физиологический анализ временных рядов с использованием приблизительной энтропии и энтропии выборки». Американский журнал физиологии. Физиология сердца и кровообращения . 278 (6): 2039–2049. дои : 10.1152/ajpheart.2000.278.6.H2039 . ПМИД 10843903 . S2CID 2389971 .

[Sabeti2009-11] Сабети, Малихе (2009). «Меры энтропии и сложности для классификации сигналов ЭЭГ участников, больных шизофренией и контрольной группой». Искусственный интеллект в медицине . 47 (3): 263–274. doi : 10.1016/j.artmed.2009.03.003 . ПМИД 19403281 .

[Yuan2011-12] Юань, Ци (2011). «Классификация эпилептической ЭЭГ, основанная на экстремальной обучающей машине и нелинейных функциях». Исследования эпилепсии . 96 (1–2): 29–38. doi : 10.1016/j.eplepsyres.2011.04.013 . ПМИД 21616643 . S2CID 41730913 .

[Yun2012-13] Юн, Кёнсик (2012). «Снижение сложности коры головного мозга у лиц, злоупотребляющих метамфетамином». Психиатрические исследования: нейровизуализация . 201 (3): 226–32. doi : 10.1016/j.pscychresns.2011.07.009 . ПМИД 22445216 . S2CID 30670300 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]