Скользящее среднее
В статистике скользящее среднее ( скользящее среднее , скользящее среднее или скользящее среднее). [1] или скользящее среднее ) — это расчет для анализа точек данных путем создания серии средних значений различных выборок из полного набора данных. Варианты включают: простую , накопительную или взвешенную формы.
С математической точки зрения скользящее среднее — это разновидность свертки . Таким образом, при обработке сигналов он рассматривается как фильтр нижних частот с конечной импульсной характеристикой . Поскольку функция boxcar определяет коэффициенты фильтра, она называется фильтром boxcar . Иногда за этим следует понижающая дискретизация .
Учитывая серию чисел и фиксированный размер подмножества, первый элемент скользящего среднего получается путем взятия среднего значения исходного фиксированного подмножества числового ряда. Затем подмножество модифицируется путем «сдвига вперед»; то есть исключая первый номер серии и включая следующее значение в подмножестве.
Скользящее среднее обычно используется с данными временных рядов , чтобы сгладить краткосрочные колебания и выделить долгосрочные тенденции или циклы. Порог между краткосрочным и долгосрочным зависит от приложения, и параметры скользящего среднего будут установлены соответствующим образом. Он также используется в экономике для изучения валового внутреннего продукта, занятости или других макроэкономических временных рядов. При использовании с данными, не являющимися временными рядами, скользящее среднее фильтрует высокочастотные компоненты без какой-либо конкретной связи со временем, хотя обычно подразумевается некоторый вид упорядочения. Упрощенно это можно рассматривать как сглаживание данных.
Простая скользящая средняя
[ редактировать ]В финансовых приложениях простая скользящая средняя ( SMA ) — это невзвешенное среднее предыдущего значения. точки данных. Однако в науке и технике среднее значение обычно берется из равного количества данных по обе стороны от центрального значения. Это гарантирует, что изменения среднего значения совпадают с изменениями данных, а не смещаются во времени. Примером простого равновзвешенного скользящего среднего является среднее значение за последний записи набора данных, содержащие записи. Пусть эти точки данных будут . Это могут быть цены закрытия акции. Среднее значение за последний точки данных (дни в этом примере) обозначаются как и рассчитывается как:
При вычислении следующего среднего значения с той же шириной выборки диапазон от к считается. Новое значение входит в сумму и самое старое значение выпадает. Это упрощает расчеты за счет повторного использования предыдущего среднего значения. . Это означает, что фильтр скользящего среднего можно довольно дешево вычислить на данных реального времени с помощью FIFO/ циклического буфера и всего за 3 арифметических шага.
Во время первоначального заполнения FIFO/циклического буфера окно выборки равно размеру набора данных, таким образом и расчет среднего выполняется как совокупное скользящее среднее .
Выбранный период ( ) зависит от типа интересующего движения, например краткосрочного, среднесрочного или долгосрочного.
Если используемые данные не сосредоточены вокруг среднего значения, простое скользящее среднее отстает от последних данных на половину ширины выборки. На SMA также может непропорционально влиять выпадение старых данных или поступление новых данных. Одной из характеристик SMA является то, что если данные имеют периодические колебания, то применение SMA этого периода устранит это изменение (среднее значение всегда содержит один полный цикл). Но идеально регулярный цикл встречается редко. [2]
Для ряда приложений выгодно избегать сдвига, вызванного использованием только «прошлых» данных. Следовательно, центральное скользящее среднее можно вычислить, используя данные, равномерно расположенные по обе стороны от точки в ряду, где рассчитывается среднее значение. [3] Для этого необходимо использовать нечетное количество точек в окне выборки.
Основным недостатком SMA является то, что он пропускает значительный объем сигнала, длина которого меньше длины окна. Хуже того, он фактически переворачивает его. [ нужна ссылка ] Это может привести к неожиданным артефактам, таким как появление пиков в сглаженном результате там, где в данных были провалы. Это также приводит к тому, что результат оказывается менее плавным, чем ожидалось, поскольку некоторые из более высоких частот не удаляются должным образом.
Его частотная характеристика представляет собой тип фильтра нижних частот, называемый синхрочастотой .
Непрерывная скользящая средняя
[ редактировать ]Непрерывное скользящее среднее определяется с помощью следующего интеграла. среда вокруг определяет интенсивность сглаживания графика функции.
Непрерывное скользящее среднее функции определяется как:
Более крупный сглаживает исходный график функции (синий) более. Анимации слева показывают скользящее среднее как анимацию в зависимости от различных значений для . Фракция используется, потому что – ширина интервала для интеграла.
Совокупное среднее значение
[ редактировать ]При кумулятивном среднем ( CA ) данные поступают в упорядоченном потоке данных, и пользователь хотел бы получить среднее значение всех данных до текущих данных. Например, инвестору может потребоваться средняя цена всех сделок с акциями по конкретной акции до текущего момента. При возникновении каждой новой транзакции средняя цена на момент транзакции может быть рассчитана для всех транзакций до этого момента с использованием совокупного среднего значения, обычно равновзвешенного среднего значения последовательности из n значений. до настоящего времени:
Метод грубой силы для расчета этого состоит в том, чтобы сохранить все данные, вычислить сумму и разделить ее на количество точек каждый раз, когда поступают новые данные. Однако можно просто обновить совокупное среднее значение как новое значение. становится доступным по формуле
Таким образом, текущее совокупное среднее для нового значения равно предыдущему совокупному среднему, умноженному на n плюс последнее значение, разделенное на количество полученных на данный момент баллов, n +1. Когда все данные поступят ( n = N ), совокупное среднее будет равно итоговому среднему. Также возможно сохранить промежуточную сумму данных, а также количество точек и разделить сумму на количество точек, чтобы получить СА каждый раз при поступлении новых данных.
Вывод формулы кумулятивного среднего значения прост. С использованием и аналогично для n + 1 видно, что
Решая это уравнение для приводит к
Взвешенное скользящее среднее
[ редактировать ]Средневзвешенное значение — это среднее значение, которое имеет умножающие коэффициенты, позволяющие придать разный вес данным в разных позициях окна выборки. Математически взвешенное скользящее среднее представляет собой свертку данных с фиксированной весовой функцией. Одно из приложений удаляет пикселизацию из цифрового графического изображения. [ нужна ссылка ]
В финансовой сфере, а точнее, при анализе финансовых данных, взвешенное скользящее среднее (WMA) имеет особое значение весов, которые уменьшаются в арифметической прогрессии. [4] В n -дневном WMA последний день имеет вес n , второй по времени и т. д., вплоть до одного.
Знаменатель представляет собой число треугольника, равное В более общем случае знаменатель всегда будет суммой отдельных весов.
При расчете WMA для последовательных значений разница между числителями и является . Если обозначить сумму к , затем
График справа показывает, как веса уменьшаются от максимального веса для самых последних данных до нуля. Его можно сравнить с весами в следующей экспоненциальной скользящей средней.
Экспоненциальная скользящая средняя
[ редактировать ]Экспоненциальная скользящая средняя (EMA) , также известная как экспоненциально взвешенная скользящая средняя (EWMA) . [5] представляет собой фильтр первого порядка с бесконечной импульсной характеристикой , который применяет весовые коэффициенты, которые уменьшаются экспоненциально . Вес для каждого более старого элемента данных уменьшается экспоненциально, никогда не достигая нуля. Эта формулировка соответствует Хантеру (1986). [6]
Другие веса
[ редактировать ]Иногда используются другие системы взвешивания – например, при торговле акциями взвешивание по объему будет учитывать каждый период времени пропорционально объему торгов.
Еще одним методом взвешивания, используемым актуариями, является 15-пунктовая скользящая средняя Спенсера. [7] (центральная скользящая средняя). Его симметричные весовые коэффициенты равны [−3, −6, −5, 3, 21, 46, 67, 74, 67, 46, 21, 3, −5, −6, −3], что составляет [1, 1, 1, 1] × [1, 1, 1, 1] × [1, 1, 1, 1, 1] × [−3, 3, 4, 3, −3] / 320 и оставляет выборки любого квадратичного или кубического полинома неизменными. [8] [9]
За пределами мира финансов взвешенные средства бега имеют множество форм и применений. Каждая весовая функция или «ядро» имеет свои особенности. В технике и науке частотная и фазовая характеристика фильтра часто имеют первостепенное значение для понимания желаемых и нежелательных искажений, которые конкретный фильтр будет применять к данным.
Среднее значение не просто «сглаживает» данные. Среднее значение — это разновидность фильтра нижних частот. Чтобы сделать правильный выбор, следует понимать влияние конкретного используемого фильтра. По этому поводу во французской версии этой статьи обсуждаются спектральные эффекты трех видов средних (кумулятивных, экспоненциальных и гауссовских).
Движущаяся медиана
[ редактировать ]С статистической точки зрения скользящее среднее, когда оно используется для оценки основного тренда во временном ряду, подвержено редким событиям, таким как быстрые потрясения или другие аномалии. Более надежная оценка тренда — это простая скользящая медиана за n моментов времени: где медиана находится, например, путем сортировки значений внутри скобок и поиска значения в середине. Для больших значений n медиану можно эффективно вычислить путем обновления индексируемого списка пропуска . [10]
Статистически скользящее среднее оптимально для восстановления основного тренда временного ряда, когда колебания тренда нормально распределены . Однако нормальное распределение не придает высокой вероятности очень большие отклонения от тренда, что объясняет, почему такие отклонения будут иметь непропорционально большое влияние на оценку тренда. Можно показать, что если вместо этого предположить, что флуктуации распределены по Лапласу , то скользящая медиана является статистически оптимальной. [11] Для заданной дисперсии распределение Лапласа придает более высокую вероятность редким событиям, чем нормальное, что объясняет, почему скользящая медиана лучше переносит потрясения, чем скользящее среднее.
Когда простая скользящая медиана, описанная выше, является центральной, сглаживание идентично медианному фильтру , который применяется, например, при обработке сигналов изображений. Скользящая медиана является более надежной альтернативой скользящей средней, когда дело доходит до оценки основного тренда во временном ряду. Хотя скользящее среднее является оптимальным для восстановления тренда, если колебания вокруг тренда нормально распределены, оно подвержено влиянию редких событий, таких как быстрые потрясения или аномалии. Напротив, скользящая медиана, которая находится путем сортировки значений внутри временного окна и нахождения значения в середине, более устойчива к влиянию таких редких событий. Это связано с тем, что для данной дисперсии распределение Лапласа, которое предполагает скользящая медиана, придает более высокую вероятность редким событиям, чем нормальное распределение, которое предполагает скользящее среднее. В результате скользящая медиана обеспечивает более надежную и стабильную оценку основного тренда, даже если на временной ряд влияют большие отклонения от тренда. Кроме того, сглаживание скользящей медианы идентично медианному фильтру, который имеет различные применения при обработке сигналов изображения.
Модель регрессии скользящего среднего
[ редактировать ]В модели регрессии скользящего среднего предполагается, что интересующая переменная представляет собой взвешенное скользящее среднее ненаблюдаемых независимых членов ошибки; веса в скользящем среднем являются параметрами, которые необходимо оценить.
Эти две концепции часто путают из-за их названия, но, хотя они имеют много общего, они представляют собой разные методы и используются в очень разных контекстах.
См. также
[ редактировать ]- Экспоненциальное сглаживание
- Локальная регрессия (LOESS и LOWESS)
- Сглаживание ядра
- Индикатор схождения/расхождения скользящих средних
- Мартингейл (теория вероятностей)
- Пересечение скользящих средних
- Перемещение по методу наименьших квадратов
- Растущая скользящая средняя
- Роллинг хеша
- Промежуточная сумма
- Фильтр Савицкого – Голея
- Функция окна
- Экспоненциальная скользящая средняя с нулевой задержкой
Ссылки
[ редактировать ]- ^ Гидрологическая изменчивость поймы реки Косумнес (Бут и др., Наука об устье и водоразделе Сан-Франциско, том 4, выпуск 2, 2006 г.)
- ^ Статистический анализ , Я-Лунь Чжоу, Holt International, 1975, ISBN 0-03-089422-0 , раздел 17.9.
- ^ Вывод и свойства простого центрального скользящего среднего полностью приведены в фильтре Савицкого – Голея .
- ^ «Взвешенные скользящие средние: основы» . Инвестопедия.
- ^ «РАБОТА С ШУМОМ ИЗМЕРЕНИЙ — Усредняющий фильтр» . Архивировано из оригинала 29 марта 2010 г. Проверено 26 октября 2010 г.
- ^ Электронный справочник NIST/SEMATECH по статистическим методам: одиночное экспоненциальное сглаживание в Национальном институте стандартов и технологий
- ^ 15-пунктовая скользящая средняя Спенсера — из Wolfram MathWorld
- ^ Роб Дж. Гайндман. « Скользящие средние ». 08.11.2009. Доступ 20 августа 2020 г.
- ^ Адитья Гунтубойина. « Статистика 153 (временной ряд): третья лекция ». 24 января 2012 г. Доступ осуществлен 7 января 2024 г.
- ^ «Эффективная промежуточная медиана с использованием индексируемого списка пропусков «Рецепты Python «Код ActiveState» .
- ^ GR Arce, «Нелинейная обработка сигналов: статистический подход», Wiley: Нью-Джерси, США, 2005.