Оценщик Тейла – Сена
В непараметрической статистике оценщик Тейла -Сена метод надежной подгонки линии к точкам выборки на плоскости ( простая линейная регрессия ) путем выбора медианы наклонов представляет собой всех линий через пары точек. Его также называют оценщиком наклона Сена . [1] [2] выбор склона , [3] [4] метод одной медианы , [5] метод надежной подгонки линий Кендалла , [6] и надежная линия Кендалла-Тейла . [7] Он назван в честь Анри Тейля и Пранаба К. Сена , опубликовавших статьи по этому методу в 1950 и 1968 годах соответственно. [8] и после Мориса Кендалла из-за его связи с коэффициентом ранговой корреляции тау Кендалла . [9]
Регрессия Тейла-Сена имеет несколько преимуществ по сравнению с обычной регрессией наименьших квадратов . Он нечувствителен к выбросам . Его можно использовать для проверки значимости, даже если остатки не распределены нормально. [10] Он может быть значительно более точным, чем неробастная простая линейная регрессия (наименьшие квадраты) для асимметричных и гетероскедастических данных, и хорошо конкурирует с методом наименьших квадратов даже для нормально распределенных данных с точки зрения статистической мощности . [11] Его назвали «самым популярным непараметрическим методом оценки линейного тренда». [2] Существуют быстрые алгоритмы для эффективного вычисления параметров.
Определение
[ редактировать ]Согласно определению Тейла (1950) , оценка Тейла-Сена набора двумерных точек ( x i , y i ) представляет собой медиану m наклонов ( y j - y i )/( x j - x i ) определяется всеми парами точек выборки. Сен (1968) расширил это определение, чтобы охватить случай, когда две точки данных имеют одинаковую координату x . В определении Сена берется медиана наклонов, определенных только по парам точек, имеющих разные x . координаты [8]
наклона m После определения y можно определить линию из точек выборки, установив точку пересечения b как медиану значений y i − mx i . В этом случае подходящей линией является линия y = mx + b с коэффициентами m и b в форме наклона-пересечения . [12] Как заметил Сен, такой выбор наклона приводит к тому, что коэффициент ранговой корреляции Кендалла тау становится приблизительно равным нулю, когда он используется для сравнения значений x i с соответствующими остатками y i - mx i - b . Интуитивно это означает, что то, насколько далеко линия соответствия проходит выше или ниже точки данных, не коррелирует с тем, находится ли эта точка на левой или правой стороне набора данных. Выбор b не влияет на коэффициент Кендалла, но приводит к тому, что медианный остаток становится примерно равным нулю; то есть линия соответствия проходит выше и ниже равного количества точек. [9]
Доверительный интервал для оценки наклона можно определить как интервал, содержащий средние 95% наклонов линий, определяемых парами точек. [13] и может быть быстро оценен путем выборки пар точек и определения 95% интервала выбранных наклонов. Согласно результатам моделирования, для определения точного доверительного интервала достаточно примерно 600 пар выборок. [11]
Вариации
[ редактировать ]Вариант оценки Тейла-Сена, повторная медианная регрессия Сигела (1982) , определяет для каждой точки выборки ( x i , y i ) медиану m i наклонов ( y j − y i )/( x j − x i ) линий, проходящих через эту точку, а затем определяет общую оценку как медиану этих медиан. Он может допускать большее количество выбросов, чем оценщик Тейла – Сена, но известные алгоритмы его эффективного вычисления более сложны и менее практичны. [14]
Другой вариант объединяет точки выборки в пары по рангу их координат x : точка с наименьшей координатой соединяется с первой точкой над медианной координатой, вторая наименьшая точка соединяется со следующей точкой над медианой, и так на. Затем он вычисляет медиану наклонов линий, определенных этими парами точек, набирая скорость за счет проверки значительно меньшего количества пар, чем оценщик Тейла – Сена. [15]
варианты оценки Тейла-Сена, основанные на взвешенных медианах Также изучались , основанные на том принципе, что пары выборок, координаты x которых различаются сильнее, с большей вероятностью будут иметь точный наклон и, следовательно, должны получить более высокий вес. [16]
Для сезонных данных может оказаться целесообразным сгладить сезонные колебания данных, рассматривая только пары точек выборки, которые принадлежат одному и тому же месяцу или одному и тому же сезону года, и находя медиану наклонов линий, определяемых этот более ограниченный набор пар. [17]
Статистические свойства
[ редактировать ]Оценка Тейла-Сена представляет собой несмещенную оценку истинного наклона в простой линейной регрессии . [18] Для многих распределений ошибки ответа эта оценка имеет высокую асимптотическую эффективность по сравнению с оценкой методом наименьших квадратов . [19] Оценщики с низкой эффективностью требуют большего количества независимых наблюдений для достижения той же выборочной дисперсии, что и эффективные несмещенные оценки.
Оценка Тейла-Сена более надежна, чем оценка методом наименьших квадратов, поскольку она гораздо менее чувствительна к выбросам . Имеет разрушения точку
это означает, что он может допускать произвольное искажение до 29,3% входных данных без ухудшения его точности. [12] Однако точка пробоя уменьшается для многомерных обобщений метода. [20] Более высокая точка разбивки, 50%, справедлива для другого надежного алгоритма аппроксимации линии — повторной медианной оценки Зигеля. [12]
Оценщик Тейла-Сена эквивариантен при каждом линейном преобразовании своей переменной отклика, что означает, что сначала преобразование данных, а затем подгонка линии, или сначала подгонка линии, а затем ее преобразование одинаковым образом, оба метода дают один и тот же результат. [21] Однако он не эквивариантен при аффинных преобразованиях как предиктора, так и переменных отклика. [20]
Алгоритмы
[ редактировать ]Медианный наклон набора из n точек выборки можно точно вычислить, вычислив все O ( n 2 ) линии через пары точек, а затем применяя алгоритм поиска медианы линейного времени . Альтернативно, его можно оценить путем выборки пар точек. эта проблема эквивалентна В условиях проективной двойственности проблеме нахождения точки пересечения в расположении прямых , которое имеет среднюю координату x среди всех таких точек пересечения. [22]
Проблема точного, но более эффективного выбора наклона, чем алгоритм перебора квадратичного времени, широко изучалась в вычислительной геометрии . Известно несколько различных методов вычисления оценщика Тейла – Сена точно за O ( n log n ) , либо детерминистически, либо детерминированно. время [3] или с использованием рандомизированных алгоритмов . [4] Повторную медианную оценку Зигеля также можно построить за то же время. [23] В моделях вычислений, в которых входные координаты являются целыми числами и в которых побитовые операции с целыми числами занимают постоянное время, оценщик Тейла – Сена может быть построен еще быстрее, за рандомизированное ожидаемое время. . [24]
Оценка наклона с приблизительно медианным рангом, имеющая ту же точку разбивки, что и оценка Тейла – Сена, может поддерживаться в модели потока данных (в которой точки выборки обрабатываются одна за другой с помощью алгоритма, который не имеет достаточного количества постоянных хранилище для представления всего набора данных) с использованием алгоритма, основанного на ε-сетях . [25]
Реализации
[ редактировать ]В пакете статистики R как оценщик Тейла-Сена, так и повторный медианный оценщик Зигеля доступны через mblm
библиотека. [26] Бесплатное автономное приложение Visual Basic для оценки Тейла – Сена. KTRLine
, было предоставлено Геологической службой США . [27] Оценщик Тейла-Сена также был реализован на Python как часть библиотек SciPy и scikit-learn . [28]
Приложения
[ редактировать ]Оценка Тейла-Сена была применена в астрономии благодаря ее способности обрабатывать модели регрессии с цензурой . [29] В биофизике Фернандес и Леблан (2005) предлагают использовать его для приложений дистанционного зондирования, таких как оценка площади листьев на основе данных об отражательной способности, из-за его «простоты вычислений, аналитических оценок доверительных интервалов, устойчивости к выбросам, проверяемых предположений относительно остатков и… ...ограниченная априорная информация об ошибках измерения». [30] Для измерения сезонных данных об окружающей среде, таких как качество воды , сезонно скорректированный вариант оценки Тейла-Сена был предложен как предпочтительный по сравнению с оценкой методом наименьших квадратов из-за его высокой точности при наличии искаженных данных. [17] В информатике метод Тейла-Сена использовался для оценки тенденций старения программного обеспечения . [31] В метеорологии и климатологии он использовался для оценки долгосрочных тенденций возникновения и скорости ветра. [32]
См. также
[ редактировать ]- Медианно-медианный метод
- Разбавление регрессии для еще одной проблемы, влияющей на расчетные наклоны тренда.
Примечания
[ редактировать ]- ^ Гилберт (1987) .
- ^ Jump up to: а б Эль-Шарави и Пигорш (2001) .
- ^ Jump up to: а б Коул и др. (1989) ; Кац и Шарир (1993) ; Брённиманн и Шазель (1998) .
- ^ Jump up to: а б Дилленкур, Маунт и Нетаньяху (1992) ; Матушек (1991) ; Бланк и Варенхольд (2006) .
- ^ Массарт и др. (1997)
- ^ Сокал и Рольф (1995) ; Дитэм (2011) .
- ^ Гранат (2006)
- ^ Jump up to: а б Тейл (1950) ; Сен (1968)
- ^ Jump up to: а б Это (1968) ; Осборн (2008) .
- ^ Хелсель, Деннис Р.; Хирш, Роберт М.; Райберг, Карен Р.; Арчфилд, Стейси А.; Гилрой, Эдвард Дж. (2020). Статистические методы в водных ресурсах . Техники и методы. Рестон, Вирджиния: Геологическая служба США. п. 484 . Проверено 22 мая 2020 г.
- ^ Jump up to: а б Уилкокс (2001) .
- ^ Jump up to: а б с Руссеу и Лерой (2003) , стр. 67, 164.
- ^ Для определения доверительных интервалов необходимо выбрать пары точек с заменой ; это означает, что в набор пар, используемых в этом расчете, входят пары, в которых обе точки одинаковы. Эти пары всегда находятся за пределами доверительного интервала, поскольку они не определяют четко определенное значение наклона, но их использование в расчетах приводит к тому, что доверительный интервал становится шире, чем он был бы без них.
- ^ Логан (2010) , Раздел 8.2.7 Устойчивая регрессия ; Матоусек, Маунт и Нетаньяху (1998)
- ^ Мута (2006) .
- ^ Джекель (1972) ; Шольц (1978) ; Сиверс (1978) ; Биркс и Додж (1993) .
- ^ Jump up to: а б Хирш, Слэк и Смит (1982) .
- ^ Сен (1968) , Теорема 5.1, с. 1384; Ван и Ю (2005) .
- ^ Сен (1968) , Раздел 6; Уилкокс (1998) .
- ^ Jump up to: а б Уилкокс (2005) .
- ^ Сен (1968) , стр. 1383.
- ^ Коул и др. (1989) .
- ^ Матоусек, Маунт и Нетаньяху (1998) .
- ^ Чан и Патрашку (2010) .
- ^ Багчи и др. (2007) .
- ^ Логан (2010) , стр. 237 ; Ваннест, Дэвис и Паркер (2013)
- ^ Ваннест, Дэвис и Паркер (2013) ; Гранато (2006)
- ^ Сообщество SciPy (2015) ; Перссон и Мартинс (2016)
- ^ Акритас, Мерфи и ЛаВэлли (1995) .
- ^ Фернандес и Леблан (2005) .
- ^ Вайдьянатан и Триведи (2005) .
- ^ Романик и др. (2014) .
Ссылки
[ редактировать ]- Акритас, Майкл Г.; Мерфи, Сьюзен А .; ЛаВэлли, Майкл П. (1995), «Оценщик Тейла-Сена с данными двойной цензуры и приложениями к астрономии», Журнал Американской статистической ассоциации , 90 (429): 170–177, doi : 10.1080/01621459.1995.10476499 , JSTOR 2291140 , МР 1325124 .
- Багчи, Амитабха; Чаудхари, Амитабх; Эппштейн, Дэвид ; Гудрич, Майкл Т. (2007), «Детерминированная выборка и подсчет диапазонов в потоках геометрических данных», Транзакции ACM по алгоритмам , 3 (2): Ст. № 16, arXiv : cs/0307027 , doi : 10.1145/1240233.1240239 , MR 2335299 , S2CID 123315817 .
- Биркс, Дэвид; Додж, Ядола (1993), «6.3 Оценка линии регрессии», Альтернативные методы регрессии , Ряды Уайли по вероятности и статистике, том. 282, Wiley-Interscience, стр. 113–118, ISBN. 978-0-471-56881-0 .
- Бланк, Хенрик; Варенхольд, Январь (2006 г.), «Рандомизированный выбор наклона на месте», Международный симпозиум по алгоритмам и сложности , Конспекты лекций по информатике, том. 3998, Берлин: Springer-Verlag, стр. 30–41, номер документа : 10.1007/11758471_6 , ISBN. 978-3-540-34375-2 , МР 2263136 .
- Брённиманн, Эрве; Шазель, Бернар (1998), «Оптимальный выбор уклона с помощью выемок», Теория и приложения вычислительной геометрии , 10 (1): 23–29, doi : 10.1016/S0925-7721(97)00025-4 , MR 1614381 .
- Чан, Тимоти М .; Патрашку, Михай (2010), «Подсчет инверсий, подсчет ортогональных диапазонов в автономном режиме и связанные с ними проблемы» , Труды двадцать первого ежегодного симпозиума ACM-SIAM по дискретным алгоритмам (SODA '10) , стр. 161–173, doi : 10.1137 /1,9781611973075,15 .
- Коул, Ричард; Салове, Джеффри С.; Штайгер, В.Л.; Семереди, Эндре (1989), «Алгоритм оптимального времени для выбора наклона», SIAM Journal on Computing , 18 (4): 792–810, doi : 10.1137/0218055 , MR 1004799 .
- Де Мут, Э. Джеймс (2006), Базовая статистика и приложения фармацевтической статистики , Биостатистика, том. 16 (2-е изд.), CRC Press, с. 577, ISBN 978-0-8493-3799-4 .
- Дилленкур, Майкл Б.; Маунт, Дэвид М .; Нетаньяху, Натан С. (1992), «Рандомизированный алгоритм выбора наклона», Международный журнал вычислительной геометрии и приложений , 2 (1): 1–27, doi : 10.1142/S0218195992000020 , MR 1159839 .
- Дитэм, Кальвин (2011), Выбор и использование статистики: Руководство биолога (3-е изд.), John Wiley and Sons, стр. 230, ISBN 978-1-4051-9839-4 .
- Эль-Шарави, Абдель Х.; Пигорш, Уолтер В. (2001), Энциклопедия экологической метрики, Том 1 , John Wiley and Sons, стр. 19, ISBN 978-0-471-89997-6 .
- Фернандес, Ричард; Леблан, Сильвен Г. (2005), «Параметрические (модифицированные методы наименьших квадратов) и непараметрические (Тейла – Сена) линейные регрессии для прогнозирования биофизических параметров при наличии ошибок измерений», Дистанционное зондирование окружающей среды , 95 (3): 303 –316, Bibcode : 2005RSEnv..95..303F , doi : 10.1016/j.rse.2005.01.005 .
- Гилберт, Ричард О. (1987), «Непараметрическая оценка наклона Сена 6,5», Статистические методы мониторинга загрязнения окружающей среды , John Wiley and Sons, стр. 217–219, ISBN 978-0-471-28878-7 .
- Гранато, Грегори Э. (2006), «Глава A7: Робастная линия Кендалла – Тейла (KTRLine — версия 1.0) — визуальная базовая программа для расчета и построения графиков робастных непараметрических оценок коэффициентов линейной регрессии между двумя непрерывными переменными» , Гидрологический анализ и Интерпретация , Методы и методы геологической службы США, том. 4, Геологическая служба США .
- Хирш, Роберт М .; Слэк, Джеймс Р.; Смит, Ричард А. (1982), «Методы анализа тенденций для ежемесячных данных о качестве воды», Water Resources Research , 18 (1): 107–121, Бибкод : 1982WRR....18..107H , doi : 10.1029/ WR018i001p00107 .
- Джекель, Луи А. (1972), «Оценка коэффициентов регрессии путем минимизации дисперсии остатков», Annals of Mathematical Статистика , 43 (5): 1449–1458, doi : 10.1214/aoms/1177692377 , MR 0348930 .
- Кац, Мэтью Дж.; Шарир, Миха (1993), «Выбор оптимального уклона с помощью расширителей», Information Processing Letters , 47 (3): 115–122, doi : 10.1016/0020-0190(93)90234-Z , MR 1237287 .
- Логан, Мюррей (2010), Биостатистический дизайн и анализ с использованием R: Практическое руководство , John Wiley & Sons, ISBN 9781444362473
- Массарт, ДЛ; Вандегинсте, фоновая музыка; Байденс, LMC; Де Йонг, С.; Леви, Пи Джей; Смейерс-Вербеке, Дж. (1997), «12.1.5.1 Метод одной медианы», Справочник по хемометрике и квалиметрике: Часть A , Обработка данных в науке и технике, том. 20A, Elsevier, стр. 355–356, ISBN. 978-0-444-89724-4 .
- Матушек, Иржи (1991), «Рандомизированный оптимальный алгоритм выбора наклона», Information Processing Letters , 39 (4): 183–187, doi : 10.1016/0020-0190(91)90177-J , MR 1130747 .
- Матушек, Иржи ; Маунт, Дэвид М .; Нетаньяху, Натан С. (1998), «Эффективные рандомизированные алгоритмы для повторной оценки медианной линии», Algorithmica , 20 (2): 136–150, doi : 10.1007/PL00009190 , MR 1484533 , S2CID 17362967 .
- Осборн, Джейсон В. (2008), Передовой опыт в области количественных методов , Sage Publications, Inc., стр. 273, ISBN 9781412940658 .
- Перссон, Магнус Вильгельм; Мартинс, Луис Фелипе (2016), Освоение анализа данных Python , Packt Publishing, стр. 177, ISBN. 9781783553303
- Романич, Джордже; Чурич, Младен; Йовичич, Илия; Ломпар, Милош (2014), «Долгосрочные тенденции ветра Кошава в период 1949–2010 гг.», Международный журнал климатологии , 35 (2): 288–302, Бибкод : 2015IJCli..35..288R , doi : 10.1002/joc.3981 , S2CID 129402302 .
- Руссиу, Питер Дж .; Лерой, Анник М. (2003), Робастная регрессия и обнаружение выбросов , Ряд Уайли по вероятности и математической статистике, том. 516, Уайли, с. 67 , ISBN 978-0-471-48855-2 .
- Шольц, Фридрих-Вильгельм (1978), «Оценки взвешенной медианной регрессии», Анналы статистики , 6 (3): 603–609, doi : 10.1214/aos/1176344204 , JSTOR 2958563 , MR 0468054 .
- Сообщество SciPy (2015 г.), «scipy.stats.mstats.theilslopes» , Справочное руководство SciPy v0.15.1
- Сен, Пранаб Кумар (1968), «Оценки коэффициента регрессии на основе тау Кендалла», Журнал Американской статистической ассоциации , 63 (324): 1379–1389, doi : 10.2307/2285891 , JSTOR 2285891 , MR 0258201 .
- Сигел, Эндрю Ф. (1982), «Надежная регрессия с использованием повторяющихся медиан», Biometrika , 69 (1): 242–244, doi : 10.1093/biomet/69.1.242 .
- Сиверс, Джеральд Л. (1978), «Статистика взвешенных рангов для простой линейной регрессии», Журнал Американской статистической ассоциации , 73 (363): 628–631, doi : 10.1080/01621459.1978.10480067 , JSTOR 2286613 .
- Сокал, Роберт Р .; Рольф, Ф. Джеймс (1995), Биометрия: принципы и практика статистики в биологических исследованиях (3-е изд.), Macmillan, p. 539, ISBN 978-0-7167-2411-7 .
- Тейл, Х. (1950), «Ранг-инвариантный метод линейного и полиномиального регрессионного анализа. I, II, III», Nederl. Акад. Wetensch., Proc. , 53 : 386–392 , 521–525 , 1397–1412 , МР 0036489 .
- Вайдьянатан, Кальянараман; Триведи, Кишор С. (2005), «Комплексная модель обновления программного обеспечения», Транзакции IEEE на надежных и безопасных вычислениях , 2 (2): 124–137, doi : 10.1109/TDSC.2005.15 , S2CID 15105513 .
- Ваннест, Кимберли Дж.; Дэвис, Джон Л.; Паркер, Ричард И. (2013), Исследование отдельных случаев в школах: Практические рекомендации для школьных специалистов , Routledge, стр. 55, ISBN 9781136173622
- Ван, Сюэцинь; Ю, Цицин (2005), «Несмещенность оценки Тейла – Сена», Журнал непараметрической статистики , 17 (6): 685–695, doi : 10.1080/10485250500039452 , MR 2165096 , S2CID 121061001 .
- Уилкокс, Рэнд Р. (1998), «Заметки об оценщике регрессии Тейла – Сена, когда регрессор случайен, а член ошибки гетероскедастичен», Biometrical Journal , 40 (3): 261–268, doi : 10.1002/(SICI )1521-4036(199807)40:3<261::AID-BIMJ261>3.0.CO;2-V .
- Уилкокс, Рэнд Р. (2001), «Оценщик Тейла – Сена», Основы современных статистических методов: существенное повышение мощности и точности , Springer-Verlag, стр. 207–210, ISBN 978-0-387-95157-7 .
- Уилкокс, Рэнд Р. (2005), «10.2 Оценщик Тейла – Сена», Введение в робастную оценку и проверку гипотез , Academic Press, стр. 423–427, ISBN 978-0-12-751542-7 .