Коррелограмма
При анализе данных коррелограмма представляет собой корреляционной статистики диаграмму . Например, при анализе временных рядов график выборочных автокорреляций против (время задержки) является автокоррелограммой . Если отображается взаимная корреляция , результат называется кросс-коррелограммой .
Коррелограмма — широко используемый инструмент для проверки случайности в наборе данных . В случае случайности автокорреляции должны быть близки к нулю для любого и всех разделений по времени. Если они неслучайны, то одна или несколько автокорреляций будут значительно отличны от нуля.
Кроме того, коррелограммы используются на этапе идентификации модели для Бокса – Дженкинса авторегрессии скользящего среднего моделей временных рядов . Для обеспечения случайности автокорреляции должны быть близки к нулю; если аналитик не проверяет случайность, то достоверность многих статистических выводов становится сомнительной. Коррелограмма — отличный способ проверить такую случайность.
В многомерном анализе , корреляционные матрицы представленные в виде изображений с цветовой картой, также могут называться «коррелограммами» или «коррограммами». [1] [2] [3]
Приложения
[ редактировать ]Коррелограмма может помочь дать ответы на следующие вопросы: [4]
- Являются ли данные случайными?
- Связано ли наблюдение с соседним наблюдением?
- Является ли наблюдение, связанное с наблюдением, удаленным дважды? (и т. д.)
- Является ли наблюдаемый временной ряд белым шумом ?
- Является ли наблюдаемый временной ряд синусоидальным?
- Является ли наблюдаемый временной ряд авторегрессией?
- Какая модель подходит для наблюдаемого временного ряда?
- Модель
- действительны и достаточны?
- Формула действительный?
Важность
[ редактировать ]Случайность (наряду с фиксированной моделью, фиксированной вариацией и фиксированным распределением) — это одно из четырех предположений, которые обычно лежат в основе всех процессов измерения. Предположение о случайности критически важно по следующим трем причинам:
- Большинство стандартных статистических тестов зависят от случайности. Обоснованность выводов теста напрямую связана с обоснованностью предположения о случайности.
- Многие обычно используемые статистические формулы зависят от предположения о случайности, наиболее распространенной формулой является формула для определения стандартной ошибки выборочного среднего:
где s — стандартное отклонение данных. Несмотря на широкое использование, результаты использования этой формулы не имеют никакой ценности, если не выполняется предположение о случайности.
- Для одномерных данных модель по умолчанию:
Если данные не случайны, эта модель неверна и недействительна, а оценки параметров (таких как константа) становятся бессмысленными и недействительными.
Оценка автокорреляций
[ редактировать ]Коэффициент автокорреляции при задержке h определяется выражением
где c h — автоковариационная функция
и c 0 — функция дисперсии
Результирующее значение r h будет находиться в диапазоне от −1 до +1.
Альтернативная оценка
[ редактировать ]В некоторых источниках может использоваться следующая формула для функции автоковариации:
Хотя это определение имеет меньшую предвзятость , формулировка (1/ N ) обладает некоторыми желательными статистическими свойствами и является формой, наиболее часто используемой в статистической литературе. Подробности смотрите на страницах 20 и 49–50 в Chatfield.
В отличие от приведенного выше определения, это определение позволяет нам вычислить немного более интуитивным способом. Рассмотрим образец , где для . Тогда пусть
Затем мы вычисляем матрицу Грама . Окончательно, рассчитывается как выборочное среднее й диагонали . Например, -я диагональ (основная диагональ) имеет элементов, а его выборочное среднее соответствует . первая диагональ (справа от главной диагонали) имеет элементов, а его выборочное среднее соответствует , и так далее.
Статистический вывод с помощью коррелограмм
[ редактировать ]На том же графике можно нарисовать верхнюю и нижнюю границы автокорреляции с уровнем значимости. :
- с как предполагаемая автокорреляция при задержке .
Если автокорреляция выше (ниже), чем эта верхняя (нижняя) граница, нулевая гипотеза об отсутствии автокорреляции при заданном лаге и за его пределами отклоняется на уровне значимости . Этот тест является приблизительным и предполагает, что временной ряд является гауссовским .
В приведенном выше примере z 1− α /2 является квантилем нормального распределения ; SE — это стандартная ошибка, которую можно вычислить по формуле Бартлетта для процессов MA( ℓ ):
- для
В приведенном примере мы можем отвергнуть нулевую гипотезу об отсутствии автокорреляции между моментами времени, которые разделены задержками до 4. Для большинства более длительных периодов нельзя отвергнуть нулевую гипотезу об отсутствии автокорреляции.
Обратите внимание, что существует две разные формулы для создания доверительных интервалов:
1. Если коррелограмма используется для проверки случайности (т. е. отсутствия зависимости данных от времени), рекомендуется использовать следующую формулу:
где N — размер выборки , z — функция квантиля стандартного нормального распределения , а α — уровень значимости . В этом случае доверительные интервалы имеют фиксированную ширину, которая зависит от размера выборки.
2. Коррелограммы также используются на этапе идентификации модели для подбора моделей ARIMA . В этом случае для данных предполагается модель скользящего среднего , и должны быть созданы следующие доверительные интервалы:
где k – задержка. В этом случае доверительные интервалы увеличиваются по мере увеличения лага.
Программное обеспечение
[ редактировать ]Коррелограммы доступны в большинстве статистических библиотек общего назначения.
Коррелограммы:
Коррграммы:
- питон морской родной :
heatmap
,pairplot
- Р :
corrgram
[2] [3]
Связанные методы
[ редактировать ]- Частичная автокорреляционная функция
- Задержка сюжета
- Спектральный сюжет
- Сюжет сезонного подсериала
- Масштабированная корреляция
- Вариограмма
Ссылки
[ редактировать ]- ^ Дружелюбный, Майкл (19 августа 2002 г.). «Коррограммы: исследовательское отображение корреляционных матриц» (PDF) . Американский статистик . 56 (4). Тейлор и Фрэнсис : 316–324. дои : 10.1198/000313002533 . Проверено 19 января 2014 г.
- ^ Jump up to: а б «CRAN – Пакетная корректировка» . cran.r-project.org . 29 августа 2013 года . Проверено 19 января 2014 г.
- ^ Jump up to: а б «Quick-R: Коррелограммы» . statmethods.net . Проверено 19 января 2014 г.
- ^ «1.3.3.1. График автокорреляции» . www.itl.nist.gov . Проверено 20 августа 2018 г.
- ^ «Визуализация § График автокорреляции» .
Дальнейшее чтение
[ редактировать ]- Ханке, Джон Э.; Райч, Артур Г.; Вичерн, Дин В. Бизнес-прогнозирование (7-е изд.). Река Аппер-Сэдл, Нью-Джерси: Прентис-Холл.
- Коробка, ГЭП; Дженкинс, Г. (1976). Анализ временных рядов: прогнозирование и контроль . Холден-Дэй.
- Чатфилд, К. (1989). Анализ временных рядов: Введение (Четвертое изд.). Нью-Йорк, штат Нью-Йорк: Чепмен и Холл.
Внешние ссылки
[ редактировать ]Эта статья включает общедоступные материалы Национального института стандартов и технологий.