Jump to content

Оценка линейного тренда

Оценка линейного тренда — это статистический метод, используемый для анализа закономерностей данных . данных Шаблоны или тенденции возникают, когда собранная информация имеет тенденцию увеличиваться или уменьшаться с течением времени или находится под влиянием изменений внешнего фактора. Оценка линейного тренда по существу создает прямую линию на графике данных , которая моделирует общее направление данных движения .

Соответствие тенденции: метод наименьших квадратов

[ редактировать ]

Учитывая набор данных , существует множество функций , которые можно выбрать для подгонки. Самая простая функция представляет собой прямую линию с зависимой переменной (обычно измеренными данными) на вертикальной оси и независимой переменной (часто временем) на горизонтальной оси.

Подбор методом наименьших квадратов — это распространенный метод, позволяющий провести прямую линию через данные. Этот метод минимизирует сумму квадратов ошибок в ряду данных. . Учитывая набор моментов времени и значения данных наблюдаемые для этих моментов времени значения и выбираются так, чтобы минимизировать сумму квадратов ошибок

.

Эта формула вычисляет разницу между наблюдаемыми данными и оценка . Разница в каждой точке данных возводится в квадрат, а затем суммируется, что дает измерение ошибки «сумма квадратов». Значения и полученные на основе данных, параметризуйте простую линейную оценку . Термин «тренд» относится к наклону в оценке наименьших квадратов.

Данные как тренд и шум

[ редактировать ]

Чтобы проанализировать (временной) ряд данных, можно предположить, что он может быть представлен как тренд плюс шум:

где и неизвестные константы, а Это случайно распределенные ошибки . Если можно отвергнуть нулевую гипотезу о нестационарности ошибок , то нестационарный ряд называется тренд-стационарным . Метод наименьших квадратов предполагает, что ошибки независимо распределяются с помощью нормального распределения. Если это не так, проверяется гипотеза о неизвестных параметрах. и может быть неточным. Проще всего, если все имеют одинаковое распределение, но если нет (если некоторые из них имеют более высокую дисперсию , что означает, что эти точки данных фактически менее надежны), то это можно принять во внимание во время аппроксимации методом наименьших квадратов, взвешивая каждую точку по обратному значению дисперсия этой точки.

Обычно, когда для анализа существует только один временной ряд, дисперсия оценивается путем подгонки тренда для получения расчетных значений параметров и таким образом позволяя прогнозируемые значения

вычесть из данных (таким образом уменьшая тренд данных), оставляя остатки в качестве данных без тренда и оценки дисперсии из остатков — часто это единственный способ оценить дисперсию х.

Как только «шум» ряда известен, значимость тренда можно оценить, выдвинув нулевую гипотезу о том, что тренд, , не отличается от 0. Из приведенного выше обсуждения тенденций в случайных данных с известной дисперсией следует ожидать распределения рассчитанных тенденций на основе случайных (безтрендовых) данных. Если предполагаемая тенденция, , больше критического значения для определенного уровня значимости , то предполагаемый тренд считается существенно отличающимся от нуля на этом уровне значимости, а нулевая гипотеза о нулевом основном тренде отклоняется.

Использование линейной линии тренда было предметом критики, что привело к поиску альтернативных подходов, позволяющих избежать ее использования при оценке модели. Один из альтернативных подходов включает тесты единичного корня и метод коинтеграции в эконометрических исследованиях.

Оценочный коэффициент, связанный с такой переменной линейного тренда, как время, интерпретируется как мера воздействия ряда неизвестных или известных, но неизмеримых факторов на зависимую переменную за одну единицу времени. Строго говоря, эта интерпретация применима только для временного интервала оценки. За пределами этих временных рамок невозможно определить, как эти неизмеримые факторы ведут себя как качественно, так и количественно.

Результаты исследований математиков, статистиков, эконометриков и экономистов были опубликованы в ответ на эти вопросы. Например, подробные примечания о значении линейных временных тенденций в регрессионной модели даны у Кэмерона (2005); [1] Грейнджер, Энгл и многие другие специалисты по эконометрике писали о стационарности, тестировании единичных корней, коинтеграции и связанных с ними вопросах (резюме некоторых работ в этой области можно найти в информационном документе). [2] Шведской королевской академией наук (2003 г.)); и Хо-Триу и Такер (1990) написали о логарифмических временных тенденциях, и результаты показали, что линейные временные тенденции являются особыми случаями циклов .

Шумный временной ряд

[ редактировать ]

Труднее увидеть тенденцию в зашумленном временном ряду. Например, если истинный ряд равен 0, 1, 2, 3, плюс некоторый независимый нормально распределенный «шум» e стандартного отклонения   E и задан выборочный ряд длиной 50, то если E   =   0,1, тренд будет быть очевидным; если E   =   100, вероятно, тренд будет виден; но если E   =   10000, тренд будет погребен в шуме.

Рассмотрим конкретный пример, такой как глобальный рекорд приземной температуры за последние 140 лет, представленный МГЭИК . [3] Межгодовое изменение составляет около 0,2   °C, а тренд составляет около 0,6   °C за 140 лет с 95% доверительным интервалом 0,2   °C (по совпадению, примерно того же значения, что и межгодовое изменение). Следовательно, тренд статистически отличается от 0. Однако, как отмечалось в другом месте, [4] этот временной ряд не соответствует предположениям, необходимым для справедливости метода наименьших квадратов.

Степень соответствия ( r -квадрат) и тенденция

[ редактировать ]
Иллюстрация влияния фильтрации на r 2 . Черный = нефильтрованные данные; красный = данные усреднены каждые 10 точек; синий = данные усреднены каждые 100 точек. У всех одна и та же тенденция, но усиление фильтрации приводит к более высокому r. 2 подобранной линии тренда.

Процесс аппроксимации методом наименьших квадратов дает значение r-квадрат ( r 2 ), что равно 1 минус отношение дисперсии остатков к дисперсии зависимой переменной. Он говорит, какая доля дисперсии данных объясняется подобранной линией тренда. Это не имеет отношения к статистической значимости линии тренда (см. график); статистическая значимость тренда определяется его t-статистикой . Часто фильтрация серии увеличивает r 2 при этом мало что меняя на подгонку тренда.

Продвинутые модели

[ редактировать ]

До сих пор предполагалось, что данные состоят из тренда и шума, причем шум в каждой точке данных является независимыми и одинаково распределенными случайными величинами с нормальным распределением. Реальные данные (например, климатические данные) могут не соответствовать этим критериям. Это важно, поскольку это имеет огромное значение для легкости анализа статистики с целью извлечения максимальной информации из рядов данных. Если существуют другие нелинейные эффекты, которые коррелируют с независимой переменной (например, циклические влияния), использование оценки тренда методом наименьших квадратов недопустимо. Кроме того, если вариации значительно превышают результирующий прямолинейный тренд, выбор начальной и конечной точек может существенно изменить результат. То есть модель математически неверно определена . Статистические выводы (тесты на наличие тенденции, доверительные интервалы тенденции и т. д.) недействительны, если отклонения от стандартных предположений не учтены должным образом, например, следующим образом:

В R линейный тренд данных можно оценить с помощью функции «tslm» пакета «прогноз».

[ редактировать ]

Медицинские и биомедицинские исследования часто направлены на определение связи между наборами данных, например, клиническими или научными показателями трех различных заболеваний. Но данные также могут быть связаны во времени (например, изменение эффекта препарата от исходного уровня до месяца 1, месяца 2) или внешним фактором, который может определяться или не определяться исследователем и/или его субъектом. (например, отсутствие боли, легкая боль, умеренная боль или сильная боль). В этих случаях можно было бы ожидать, что статистика воздействия (например, влияние статина на уровень холестерина , анальгетика на степень боли или увеличение доз лекарств различной силы на измеримый индекс, т.е. зависимость доза-реакция) эффект) изменяться в прямом порядке по мере развития эффекта. Предположим, что средний уровень холестерина до и после назначения статина падает с 5,6 ммоль/л в начале исследования до 3,4 ммоль/л через один месяц и до 3,7 ммоль/л через два месяца. При достаточной мощности ANOVA (дисперсионный анализ), скорее всего, обнаружит значительное падение через один и два месяца, но это падение не является линейным. Кроме того, может потребоваться апостериорный тест. Альтернативным тестом может быть повторное измерение (двусторонний) ANOVA или Критерий Фридмана в зависимости от характера данных. Тем не менее, поскольку группы упорядочены, стандартный дисперсионный анализ не подходит. Если уровень холестерина упадет с 5,4 до 4,1 и до 3,7, то будет наблюдаться четкая линейная тенденция. Тот же принцип можно применить к эффектам частоты аллелей/генотипов , где можно утверждать, что однонуклеотидный полиморфизм в нуклеотидах XX, XY, YY на самом деле представляет собой тенденцию отсутствия Y, одного Y, а затем двух Y. [3]

Математика оценки линейного тренда представляет собой вариант стандартного ANOVA, дающий различную информацию, и будет наиболее подходящим тестом, если исследователи выдвинут гипотезу о влиянии тренда в своей тестовой статистике. Одним из примеров являются уровни трипсина в сыворотке крови у шести групп субъектов, упорядоченных по десятилетиям возраста (от 10–19 лет до 60–69 лет). Уровни трипсина (нг/мл) повышаются по прямой линейной тенденции: 128, 152, 194, 207, 215, 218 (данные Альтмана). Неудивительно, что «стандартный» дисперсионный анализ дает p < 0,0001, тогда как оценка линейного тренда дает p = 0,00006. Между прочим, можно обоснованно утверждать, что, поскольку возраст является естественным непрерывно изменяющимся показателем, его не следует разбивать на десятилетия, а влияние возраста и уровня трипсина в сыворотке ищут путем корреляции (при условии, что исходные данные доступны). Еще одним примером является вещество, измеренное в четырех временных точках в разных группах:

# иметь в виду СД
1 1.6 0.56
2 1.94 0.75
3 2.22 0.66
4 2.40 0.79

Это явная тенденция. ANOVA дает p = 0,091, поскольку общая дисперсия превышает средние значения, тогда как оценка линейного тренда дает p = 0,012. Однако если бы данные были собраны в четырех временных точках у одних и тех же людей, оценка линейного тренда была бы неуместна, и был бы применен двусторонний (повторяющиеся измерения) ANOVA.

См. также

[ редактировать ]

Примечания

[ редактировать ]
  1. ^ «Как сделать регрессию более полезной II: чайники и тенденции» (PDF) . Проверено 17 июня 2012 г.
  2. ^ «Шведская королевская академия наук» (PDF) . 8 октября 2003 года . Проверено 17 июня 2012 г.
  3. ^ Jump up to: а б «Третий оценочный отчет МГЭИК – Изменение климата, 2001 г. – Полные онлайн-версии» . Архивировано из оригинала 20 ноября 2009 года . Проверено 17 июня 2012 г.
  4. ^ Jump up to: а б Прогнозирование: принципы и практика . 20 сентября 2014 года . Проверено 17 мая 2015 г.
  • Бьянки, М.; Бойл, М.; Холлингсворт, Д. (1999). «Сравнение методов оценки тенденций». Письма по прикладной экономике . 6 (2): 103–109. дои : 10.1080/135048599353726 .
  • Кэмерон, С. (2005). «Как сделать регрессионный анализ более полезным, II». Эконометрика . Мейденхед: Высшее образование Макгроу Хилл. стр. 171–198. ISBN  0077104285 .
  • Чатфилд, К. (1993). «Расчет интервальных прогнозов». Журнал деловой и экономической статистики . 11 (2): 121–135. дои : 10.1080/07350015.1993.10509938 .
  • Хо-Триу, Нидерланды; Такер, Дж. (1990). «Еще одно замечание об использовании логарифмического временного тренда». Обзор маркетинга и экономики сельского хозяйства . 58 (1): 89–90. дои : 10.22004/ag.econ.12288 .
  • Кунгл. Ветенскапсакадемия (2003). «Эконометрика временных рядов: коинтеграция и авторегрессионная условная гетероскедастичность». Предварительная информация о премии Банка Швеции в области экономических наук памяти Альфреда Нобеля . Шведская королевская академия наук.
  • Арианос, С.; Карбоне, А.; Терк, К. (2011). «Самоподобие скользящих средних высокого порядка» . Физический обзор E . 84 (4): 046113. Бибкод : 2011PhRvE..84d6113A . дои : 10.1103/physreve.84.046113 . ПМИД   22181233 .
  • Альтман, Д.Г. (1991). Практическая статистика медицинских исследований . Лондон: Чепмен и Холл. стр. 212–220. ISBN  041227630-5 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: c94c04c161b783ef5031cf20b6f5d2b1__1722632820
URL1:https://arc.ask3.ru/arc/aa/c9/b1/c94c04c161b783ef5031cf20b6f5d2b1.html
Заголовок, (Title) документа по адресу, URL1:
Linear trend estimation - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)