Экспоненциальное сглаживание
Экспоненциальное сглаживание или экспоненциальное скользящее среднее (EMA) — это эмпирический метод сглаживания данных временных рядов с использованием экспоненциальной оконной функции . В то время как в простом скользящем среднем прошлые наблюдения имеют одинаковый вес, экспоненциальные функции используются для присвоения экспоненциально уменьшающихся весов с течением времени. Это легко освоить и легко применить процедуру для принятия некоторых решений на основе предварительных предположений пользователя, таких как сезонность. Экспоненциальное сглаживание часто используется для анализа данных временных рядов.
Экспоненциальное сглаживание — одна из многих оконных функций, обычно применяемых для сглаживания данных при обработке сигналов , действующая как фильтры нижних частот для удаления высокочастотного шума . Этому методу предшествует использование Пуассоном рекурсивных экспоненциальных оконных функций в свертках из 19 века, а также использование Колмогоровым и Зурбенко рекурсивных скользящих средних из их исследований турбулентности в 1940-х годах.
Последовательность необработанных данных часто представляется как начиная с момента времени , а выходные данные алгоритма экспоненциального сглаживания обычно записываются как , что можно рассматривать как наилучшую оценку того, какое следующее значение будет. Когда последовательность наблюдений начинается в момент времени , простейший вид экспоненциального сглаживания задается формулами: [1]
где – коэффициент сглаживания , а . Если заменяется на непрерывно, так что формула полностью выражается в , затем экспоненциально затухающие весовые коэффициенты для каждого необработанных данных раскрывается, показывая, как называется экспоненциальное сглаживание.
Простое экспоненциальное сглаживание не может предсказать, что будет наблюдаться при на основе исходных данных до , тогда как для прогнозирования можно использовать двойное экспоненциальное сглаживание и тройное экспоненциальное сглаживание из-за наличия как последовательность лучших оценок линейного тренда.
Базовое (простое) экспоненциальное сглаживание [ править ]
Использование экспоненциальной оконной функции впервые приписывают Пуассону. [2] как расширение метода численного анализа 17 века, позднее принятого сообществом по обработке сигналов в 1940-х годах. Здесь экспоненциальное сглаживание — это применение экспоненциальной, или пуассоновской, оконной функции . Экспоненциальное сглаживание было впервые предложено в статистической литературе без ссылки на предыдущую работу Роберта Гуделла Брауна в 1956 году: [3] а затем расширен Чарльзом К. Холтом в 1957 году. [4] Приведенная ниже формула, которая широко используется, принадлежит Брауну и известна как «Простое экспоненциальное сглаживание Брауна». [5] Все методы Холта, Уинтерса и Брауна можно рассматривать как простое применение рекурсивной фильтрации, впервые обнаруженной в 1940-х годах. [2] для преобразования фильтров с конечной импульсной характеристикой (FIR) в фильтры с бесконечной импульсной характеристикой .
Простейший вид экспоненциального сглаживания задается формулой:
где – коэффициент сглаживания , а . Другими словами, сглаженная статистика представляет собой простое средневзвешенное значение текущего наблюдения и предыдущая сглаженная статистика . Простое экспоненциальное сглаживание легко применяется и дает сглаженную статистику, как только становятся доступны два наблюдения. Термин «коэффициент сглаживания» применяется к это неправильное название, так как большие значения фактически снижают уровень сглаживания, а в предельном случае с = 1, выходной ряд сглаживания — это просто текущее наблюдение. Ценности значения, близкие к 1, имеют меньший эффект сглаживания и придают больший вес недавним изменениям в данных, в то время как значения значения ближе к 0 имеют больший эффект сглаживания и менее чувствительны к недавним изменениям. В предельном случае с = 0, выходной ряд просто плоский или постоянный, как наблюдение в начале процесса сглаживания .
Формально корректной процедуры выбора не существует. . Иногда для выбора подходящего фактора используется суждение статистика. В качестве альтернативы можно использовать статистический метод для оптимизации значения . Например, метод наименьших квадратов можно использовать для определения значения для которого сумма величин сведен к минимуму. [6]
В отличие от некоторых других методов сглаживания, таких как простое скользящее среднее, этот метод не требует выполнения минимального количества наблюдений, прежде чем он начнет давать результаты. Однако на практике «хорошее среднее значение» не будет достигнуто до тех пор, пока не будут усреднены несколько образцов; например, постоянный сигнал займет примерно этапы до достижения 95% фактической стоимости. Чтобы точно восстановить исходный сигнал без потери информации, также должны быть доступны все этапы экспоненциального скользящего среднего, поскольку вес более старых выборок уменьшается экспоненциально. В этом отличие от простого скользящего среднего, в котором некоторые выборки можно пропустить без особой потери информации из-за постоянного взвешивания выборок в пределах среднего. Если известное количество выборок будет пропущено, можно также скорректировать средневзвешенное значение, придав равный вес новой выборке и всем тем, которые следует пропустить.
Эта простая форма экспоненциального сглаживания также известна как экспоненциально взвешенное скользящее среднее (EWMA). Технически ее также можно классифицировать как модель авторегрессионного интегрированного скользящего среднего (ARIMA) (0,1,1) без постоянного члена. [7]
Постоянная времени [ править ]
Постоянная времени экспоненциального скользящего среднего — это количество времени, за которое сглаженный отклик единичной ступенчатой функции достигает исходного сигнала. Связь между этой постоянной времени, и коэффициент сглаживания, , определяется формулой:
- , таким образом
где — интервал времени выборки реализации дискретного времени. Если время выборки меньше по сравнению с постоянной времени ( ) то, используя разложение Тейлора показательной функции ,
Выбор начального сглаженного значения [ править ]
что в приведенном выше определении Обратите внимание , (начальный результат алгоритма экспоненциального сглаживания) инициализируется как (исходные исходные данные или наблюдение). Потому что экспоненциальное сглаживание требует, чтобы на каждом этапе у нас был предыдущий прогноз , не очевидно, как запустить метод. Мы могли бы предположить, что первоначальный прогноз равен начальному значению спроса; однако этот подход имеет серьезный недостаток. Экспоненциальное сглаживание придает существенный вес прошлым наблюдениям, поэтому начальное значение спроса будет иметь неоправданно большое влияние на ранние прогнозы. Эту проблему можно решить, позволив процессу развиваться в течение разумного количества периодов (10 или более) и используя среднее значение спроса в течение этих периодов в качестве первоначального прогноза. Существует много других способов установки этого начального значения, но важно отметить, что чем меньше значение , тем более чувствительным будет ваш прогноз к выбору этого начального более сглаженного значения. . [8] [9]
Оптимизация [ править ]
Для каждого метода экспоненциального сглаживания нам также необходимо выбрать значение параметров сглаживания. Для простого экспоненциального сглаживания существует только один параметр сглаживания ( α ), но для последующих методов обычно имеется более одного параметра сглаживания.
Бывают случаи, когда параметры сглаживания могут быть выбраны субъективно – прогнозист указывает значение параметров сглаживания на основе предыдущего опыта. Однако более надежный и объективный способ получить значения неизвестных параметров, включенных в любой метод экспоненциального сглаживания, — это оценить их на основе наблюдаемых данных.
Неизвестные параметры и начальные значения для любого метода экспоненциального сглаживания можно оценить путем минимизации суммы квадратов ошибок (SSE). Ошибки указаны как для (ошибки прогноза на один шаг вперед в пределах выборки), где и являются переменной, которую нужно спрогнозировать и переменная в качестве результата прогнозирования в (на основе предыдущих данных или прогноза) соответственно. Отсюда находим значения неизвестных параметров и начальные значения, минимизирующие
В отличие от случая регрессии (где у нас есть формулы для непосредственного расчета коэффициентов регрессии, минимизирующих SSE), здесь возникает задача нелинейной минимизации, и для ее выполнения нам необходимо использовать инструмент оптимизации .
«Экспоненциальное» наименование [ править ]
Название «экспоненциальное сглаживание» связано с использованием экспоненциальной оконной функции во время свертки. Его больше не приписывают Холту, Уинтерсу и Брауну.
Непосредственной заменой определяющего уравнения простого экспоненциального сглаживания обратно в себя мы находим, что
Другими словами, с течением времени сглаженная статистика становится средневзвешенным значением все большего и большего числа прошлых наблюдений , а веса, присвоенные предыдущим наблюдениям, пропорциональны членам геометрической прогрессии
Геометрическая прогрессия — это дискретная версия экспоненциальной функции отсюда и произошло название этого метода сглаживания , поэтому, согласно знаниям статистики, .
Сравнение со скользящим средним [ править ]
Экспоненциальное сглаживание и скользящее среднее имеют схожие недостатки, заключающиеся в внесении задержки относительно входных данных. Хотя это можно исправить, сдвинув результат на половину длины окна для симметричного ядра, такого как скользящее среднее или гауссово, неясно, насколько это подходит для экспоненциального сглаживания. Они (скользящее среднее с симметричными ядрами) также имеют примерно одинаковое распределение ошибки прогноза, когда α = 2/( k + 1), где k — количество прошлых точек данных, учитываемых скользящим средним. Они отличаются тем, что экспоненциальное сглаживание учитывает все прошлые данные, тогда как скользящее среднее учитывает только k точек прошлых данных. С вычислительной точки зрения они также отличаются тем, что скользящее среднее требует k прошлых точек данных или точки данных с задержкой k сохранения + 1 плюс самое последнее прогнозируемое значение, тогда как для экспоненциального сглаживания требуется только самое последнее прогнозируемое значение. сохранился. [11]
В литературе по обработке сигналов использование непричинных (симметричных) фильтров является обычным явлением, и экспоненциальная оконная функция широко используется таким образом, но используется другая терминология: экспоненциальное сглаживание эквивалентно бесконечно-импульсному первому порядку. фильтр отклика (БИХ) и скользящее среднее эквивалентны фильтру с конечной импульсной характеристикой с равными весовыми коэффициентами.
Двойное экспоненциальное сглаживание (линейное Холта) [ править ]
Простое экспоненциальное сглаживание неэффективно, когда наблюдается тенденция . в данных [1] В таких ситуациях было разработано несколько методов под названием «двойное экспоненциальное сглаживание» или «экспоненциальное сглаживание второго порядка», которое представляет собой рекурсивное применение экспоненциального фильтра дважды, поэтому его называют «двойным экспоненциальным сглаживанием». Эта номенклатура аналогична четырехкратному экспоненциальному сглаживанию, которое также указывает на глубину рекурсии. [12] Основная идея двойного экспоненциального сглаживания заключается во введении термина, учитывающего возможность того, что ряд демонстрирует некоторую форму тренда. Этот компонент наклона сам обновляется посредством экспоненциального сглаживания.
Один метод работает следующим образом: [13]
Опять же, последовательность необработанных данных наблюдений представлена как , начиная с момента времени . Мы используем для представления сглаженного значения времени , и это наша лучшая оценка тенденции на данный момент . Вывод алгоритма теперь записывается как , оценка стоимости во время на основе необработанных данных на данный момент . Двойное экспоненциальное сглаживание задается формулами
И для к
где ( ) — коэффициент сглаживания данных , а ( ) – коэффициент сглаживания тренда .
Прогнозировать дальше определяется приближением:
Установка начального значения это вопрос предпочтений. Вариант, отличный от перечисленного выше, для некоторых .
Обратите внимание, что F 0 не определено (нет оценки для времени 0), и согласно определению F 1 = s 0 + b 0 , которое четко определено, таким образом, можно оценить дальнейшие значения.
Второй метод, называемый либо линейным экспоненциальным сглаживанием Брауна (LES), либо двойным экспоненциальным сглаживанием Брауна, работает следующим образом. [14]
где a t — предполагаемый уровень в момент времени t и b t — предполагаемая тенденция в момент времени t :
(Холт Уинтерс Тройное экспоненциальное сглаживание )
необходимо удалить три высокочастотных сигнала временного ряда Тройное экспоненциальное сглаживание применяет экспоненциальное сглаживание три раза, что обычно используется, когда из исследуемого . Существуют разные типы сезонности: «мультипликативная» и «аддитивная» по своей природе, подобно тому, как сложение и умножение являются основными операциями в математике.
Если каждый месяц в декабре мы продаем на 10 000 квартир больше, чем в ноябре, сезонность носит аддитивный характер. Однако если в летние месяцы мы продаем на 10% больше квартир, чем в зимние, то сезонность носит мультипликативный характер. Мультипликативную сезонность можно представить как постоянный коэффициент, а не абсолютную величину. [15]
Тройное экспоненциальное сглаживание было впервые предложено учеником Холта Питером Уинтерсом в 1960 году после прочтения книги 1940-х годов по обработке сигналов, посвященной экспоненциальному сглаживанию. [16] Новая идея Холта заключалась в том, чтобы повторить фильтрацию нечетное число раз больше 1 и меньше 5, что было популярно среди ученых предыдущих эпох. [16] Хотя рекурсивная фильтрация использовалась и раньше, она применялась дважды и четыре раза, чтобы совпасть с гипотезой Адамара , тогда как тройное применение требовало более чем удвоенного количества операций сингулярной свертки. Использование тройного нанесения считается эмпирическим методом, а не основанным на теоретических основах, и практики часто переоценивают его. Предположим, у нас есть последовательность наблюдений начиная с момента времени с циклом сезонного изменения длины .
Метод рассчитывает линию тренда для данных, а также сезонные индексы, которые взвешивают значения в линии тренда в зависимости от того, где этот момент времени попадает в цикл длины. .
Позволять представляют сглаженное значение постоянной части за время , представляет собой последовательность лучших оценок линейного тренда, наложенных на сезонные изменения, и – последовательность сезонных поправочных коэффициентов. Мы хотим оценить в любое время против в цикле, в котором происходят наблюдения. Как правило, минимум два полных сезона (или периоды) исторических данных необходимы для инициализации набора сезонных факторов.
Вывод алгоритма снова записывается как , оценка стоимости во время на основе необработанных данных на данный момент . Тройное экспоненциальное сглаживание с мультипликативной сезонностью задается формулами [1]
где ( ) — коэффициент сглаживания данных , ( ) – коэффициент сглаживания тренда , а ( ) – коэффициент сглаживания сезонных изменений .
Общая формула первоначальной оценки тренда является:
Установка первоначальных оценок сезонных индексов для это немного более сложно. Если — это количество полных циклов, присутствующих в ваших данных, тогда:
где
Обратите внимание, что это среднее значение в цикл ваших данных.
Тройное экспоненциальное сглаживание с аддитивной сезонностью определяется следующим образом:
Реализации в пакетах статистики [ править ]
- R : функция HoltWinters в пакете статистики. [17] и ets функционируют в пакете прогнозов [18] (более полная реализация, обычно приводящая к повышению производительности [19] ).
- Python : модуль holtwinters пакета statsmodels позволяет выполнять простое, двойное и тройное экспоненциальное сглаживание.
- IBM SPSS включает простой, простой сезонный, линейный тренд Холта, линейный тренд Брауна, затухающий тренд, добавку Уинтерса и мультипликатив Уинтерса в процедуру моделирования временных рядов в своих статистических пакетах Статистика и Modeler. Функция Expert Modeler по умолчанию оценивает все семь моделей экспоненциального сглаживания и модели ARIMA с диапазоном несезонных и сезонных значений p , d и q и выбирает модель с наименьшим показателем байесовского информационного критерия .
- Стата : команда tssmooth [20]
- ЛибреОфис 5.2 [21]
- Майкрософт Эксель 2016 [22]
См. также [ править ]
- Модель авторегрессии скользящего среднего (ARMA)
- Ошибки и остатки в статистике
- Скользящее среднее
- Непрерывная дробь
Примечания [ править ]
- ^ Jump up to: Перейти обратно: а б с «Электронный справочник NIST/SEMATECH по статистическим методам» . НИСТ . Проверено 23 мая 2010 г.
- ^ Jump up to: Перейти обратно: а б Оппенгейм, Алан В.; Шафер, Рональд В. (1975). Цифровая обработка сигналов . Прентис Холл . п. 5. ISBN 0-13-214635-5 .
- ^ Браун, Роберт Г. (1956). Экспоненциальное сглаживание для прогнозирования спроса . Кембридж, Массачусетс: Arthur D. Little Inc., с. 15.
- ^ Холт, Чарльз К. (1957). «Прогнозирование тенденций и сезонности с помощью экспоненциально взвешенных средних значений». Меморандум Управления военно-морских исследований . 52 . перепечатано в Холт, Чарльз К. (январь – март 2004 г.). «Прогнозирование тенденций и сезонности с помощью экспоненциально взвешенных средних значений». Международный журнал прогнозирования . 20 (1): 5–10. doi : 10.1016/j.ijforecast.2003.09.015 .
- ^ Браун, Роберт Гуделл (1963). Сглаживание прогнозирования и предсказание дискретных временных рядов . Энглвуд Клиффс, Нью-Джерси: Прентис-Холл.
- ^ «Электронный справочник NIST/SEMATECH по статистическим методам, 6.4.3.1. Одиночное экспоненциальное сглаживание» . НИСТ . Проверено 5 июля 2017 г.
- ^ Нау, Роберт. «Модели усреднения и экспоненциального сглаживания» . Проверено 26 июля 2010 г.
- ^ «Анализ производства и операций» Намиас. 2009.
- ^ Чисар П. и Чисар С.М. (2011). «Методы оптимизации статистики EWMA». Acta Polytechnica Hungarica , 8 (5), 73–87. Страница 78.
- ^ 7.1 Простое экспоненциальное сглаживание | Прогнозирование: принципы и практика .
- ^ Намиас, Стивен (3 марта 2008 г.). Анализ производства и операций (6-е изд.). ISBN 978-0-07-337785-8 . [ нужна страница ]
- ^ «Модель: Экспоненциальное сглаживание второго порядка» . SAP AG . Проверено 23 января 2013 г.
- ^ «6.4.3.3. Двойное экспоненциальное сглаживание» . itl.nist.gov . Проверено 25 сентября 2011 г.
- ^ «Модели усреднения и экспоненциального сглаживания» . герцог.edu . Проверено 25 сентября 2011 г.
- ^ Калехар, Праджакта С. «Прогнозирование временных рядов с использованием экспоненциального сглаживания Холта – Уинтерса» (PDF) . Проверено 23 июня 2014 г.
- ^ Jump up to: Перейти обратно: а б Уинтерс, PR (апрель 1960 г.). «Прогнозирование продаж с помощью экспоненциально взвешенных скользящих средних». Наука управления . 6 (3): 324–342. дои : 10.1287/mnsc.6.3.324 .
- ^ «Р: Фильтрация Холта – Уинтерса» . stat.ethz.ch. Проверено 5 июня 2016 г.
- ^ "ets {forecast} | Inside-R | Сайт сообщества R" . внутри-r.org . Архивировано из оригинала 16 июля 2016 года . Проверено 5 июня 2016 г.
- ^ «Сравнение HoltWinters() и ets()» . Взгляд на будущее . 29 мая 2011 года . Проверено 5 июня 2016 г.
- ^ tssmooth в руководстве Stata
- ^ «LibreOffice 5.2: Примечания к выпуску — Document Foundation Wiki» .
- ^ «Функции прогнозирования Excel 2016 | Реальная статистика с использованием Excel» .
Внешние ссылки [ править ]
- Конспект лекций по экспоненциальному сглаживанию (Роберт Нау, Университет Дьюка)
- Сглаживание данных , Джон МакЛун, Демонстрационный проект Wolfram
- Подход Холта-Уинтерса к экспоненциальному сглаживанию: 50 лет и набирает силу Пол Гудвин (2010) Форсайт: Международный журнал прикладного прогнозирования
- Алгоритмы для неравномерно распределенных временных рядов: скользящие средние и другие скользящие операторы Андреаса Экнера