Jump to content

Оценщик Тейла – Сена

Это хорошая статья. Нажмите здесь для получения дополнительной информации.
(Перенаправлено из выбора уклона )

Оценка Тейла – Сена набора точек выборки с выбросами (черная линия) в сравнении с неробастной обычной линией наименьших квадратов для того же набора (синяя). Пунктирная зеленая линия представляет собой основную истину, на основе которой были созданы образцы.

В непараметрической статистике оценщик Тейла -Сена метод надежной подгонки линии к точкам выборки на плоскости ( простая линейная регрессия ) путем выбора медианы наклонов представляет собой всех линий через пары точек. Его также называют оценщиком наклона Сена . [1] [2] выбор склона , [3] [4] метод одной медианы , [5] метод надежной подгонки линий Кендалла , [6] и надежная линия Кендалла-Тейла . [7] Он назван в честь Анри Тейля и Пранаба К. Сена , опубликовавших статьи по этому методу в 1950 и 1968 годах соответственно. [8] и после Мориса Кендалла из-за его связи с коэффициентом ранговой корреляции тау Кендалла . [9]

Регрессия Тейла-Сена имеет несколько преимуществ по сравнению с обычной регрессией наименьших квадратов . Он нечувствителен к выбросам . Его можно использовать для проверки значимости, даже если остатки не распределены нормально. [10] Он может быть значительно более точным, чем неробастная простая линейная регрессия (наименьшие квадраты) для асимметричных и гетероскедастических данных, и хорошо конкурирует с методом наименьших квадратов даже для нормально распределенных данных с точки зрения статистической мощности . [11] Его назвали «самым популярным непараметрическим методом оценки линейного тренда». [2] Существуют быстрые алгоритмы для эффективного вычисления параметров.

Определение

[ редактировать ]

Согласно определению Тейла (1950) , оценка Тейла-Сена набора двумерных точек ( x i , y i ) представляет собой медиану m наклонов ( y j - y i )/( x j - x i ) определяется всеми парами точек выборки. Сен (1968) расширил это определение, чтобы охватить случай, когда две точки данных имеют одинаковую координату x . В определении Сена берется медиана наклонов, определенных только по парам точек, имеющих различные x . координаты [8]

наклона m После определения y можно определить линию из точек выборки, установив точку пересечения b как медиану значений y i mx i . В этом случае подходящей линией является линия y = mx + b с коэффициентами m и b в форме наклона-пересечения . [12] Как заметил Сен, такой выбор наклона приводит к тому, что коэффициент ранговой корреляции Кендалла тау становится приблизительно равным нулю, когда он используется для сравнения значений x i с соответствующими остатками y i - mx i - b . Интуитивно это означает, что то, насколько далеко линия соответствия проходит выше или ниже точки данных, не коррелирует с тем, находится ли эта точка на левой или правой стороне набора данных. Выбор b не влияет на коэффициент Кендалла, но приводит к тому, что медианный остаток становится примерно равным нулю; то есть линия соответствия проходит выше и ниже равного количества точек. [9]

Доверительный интервал для оценки наклона можно определить как интервал, содержащий средние 95% наклонов линий, определяемых парами точек. [13] и может быть быстро оценен путем выборки пар точек и определения 95% интервала выбранных наклонов. Согласно результатам моделирования, для определения точного доверительного интервала достаточно примерно 600 пар выборок. [11]

Вариации

[ редактировать ]

Вариант оценщика Тейла-Сена, повторная медианная регрессия Сигела (1982) , определяет для каждой точки выборки ( x i , y i ) медиану m i наклонов ( y j y i )/( x j x i ) линий, проходящих через эту точку, а затем определяет общую оценку как медиану этих медиан. Он может допускать большее количество выбросов, чем оценщик Тейла – Сена, но известные алгоритмы для его эффективного вычисления более сложны и менее практичны. [14]

Другой вариант объединяет точки выборки в пары по рангу их координат x : точка с наименьшей координатой соединяется с первой точкой над медианной координатой, вторая наименьшая точка соединяется со следующей точкой над медианой, и так на. Затем он вычисляет медиану наклонов линий, определенных этими парами точек, набирая скорость за счет проверки значительно меньшего количества пар, чем оценщик Тейла – Сена. [15]

варианты оценки Тейла – Сена, основанные на взвешенных медианах Также изучались , основанные на том принципе, что пары выборок, координаты x которых различаются сильнее, с большей вероятностью будут иметь точный наклон и, следовательно, должны получить более высокий вес. [16]

Для сезонных данных может оказаться целесообразным сгладить сезонные колебания данных, рассматривая только пары точек выборки, которые принадлежат одному и тому же месяцу или одному и тому же сезону года, и находя медиану наклонов линий, определяемых этот более ограниченный набор пар. [17]

Статистические свойства

[ редактировать ]

Оценка Тейла-Сена представляет собой несмещенную оценку истинного наклона в простой линейной регрессии . [18] Для многих распределений ошибки ответа эта оценка имеет высокую асимптотическую эффективность по сравнению с оценкой методом наименьших квадратов . [19] Оценщики с низкой эффективностью требуют большего количества независимых наблюдений для достижения той же выборочной дисперсии, что и эффективные несмещенные оценки.

Оценка Тейла-Сена более надежна, чем оценка методом наименьших квадратов, поскольку она гораздо менее чувствительна к выбросам . Имеет разрушения точку

это означает, что он может допускать произвольное искажение до 29,3% входных данных без ухудшения его точности. [12] Однако точка пробоя уменьшается для многомерных обобщений метода. [20] Более высокая точка разбивки, 50%, справедлива для другого надежного алгоритма аппроксимации линии — повторной медианной оценки Зигеля. [12]

Оценщик Тейла-Сена эквивариантен при каждом линейном преобразовании своей переменной отклика, что означает, что сначала преобразование данных, а затем подгонка линии, или сначала подгонка линии, а затем ее преобразование одинаковым образом, оба метода дают один и тот же результат. [21] Однако он не эквивариантен при аффинных преобразованиях как предиктора, так и переменных отклика. [20]

Алгоритмы

[ редактировать ]

Медианный наклон набора из n точек выборки можно точно вычислить, вычислив все O ( n 2 ) линии через пары точек, а затем применяя алгоритм поиска медианы линейного времени . Альтернативно, его можно оценить путем выборки пар точек. эта проблема эквивалентна В условиях проективной двойственности проблеме нахождения точки пересечения в расположении прямых , которое имеет среднюю координату x среди всех таких точек пересечения. [22]

Проблема точного, но более эффективного выбора наклона, чем алгоритм перебора квадратичного времени, широко изучалась в вычислительной геометрии . Известно несколько различных методов вычисления оценщика Тейла – Сена точно за O ( n log n ) , либо детерминистически, либо детерминированно. время [3] или с использованием рандомизированных алгоритмов . [4] Повторную медианную оценку Зигеля также можно построить за то же время. [23] В моделях вычислений, в которых входные координаты являются целыми числами и в которых побитовые операции с целыми числами занимают постоянное время, оценщик Тейла – Сена может быть построен еще быстрее, за рандомизированное ожидаемое время. . [24]

Оценка наклона примерно с медианным рангом, имеющая ту же точку разбивки, что и оценка Тейла – Сена, может поддерживаться в модели потока данных (в которой точки выборки обрабатываются одна за другой с помощью алгоритма, который не имеет достаточного количества постоянных хранилище для представления всего набора данных) с использованием алгоритма, основанного на ε-сетях . [25]

Реализации

[ редактировать ]

В пакете статистики R как оценщик Тейла-Сена, так и повторный медианный оценщик Зигеля доступны через mblm библиотека. [26] Бесплатное автономное приложение Visual Basic для оценки Тейла – Сена. KTRLine, было предоставлено Геологической службой США . [27] Оценщик Тейла-Сена также был реализован на Python как часть библиотек SciPy и scikit-learn . [28]

Приложения

[ редактировать ]

Оценка Тейла-Сена была применена в астрономии благодаря ее способности обрабатывать модели регрессии с цензурой . [29] В биофизике Фернандес и Леблан (2005) предлагают использовать его для приложений дистанционного зондирования, таких как оценка площади листьев на основе данных об отражательной способности, из-за его «простоты вычислений, аналитических оценок доверительных интервалов, устойчивости к выбросам, проверяемых предположений относительно остатков и… ...ограниченная априорная информация об ошибках измерения». [30] Для измерения сезонных данных об окружающей среде, таких как качество воды , сезонно скорректированный вариант оценки Тейла – Сена был предложен как предпочтительный по сравнению с оценкой по методу наименьших квадратов из-за его высокой точности при наличии искаженных данных. [17] В информатике метод Тейла-Сена использовался для оценки тенденций старения программного обеспечения . [31] В метеорологии и климатологии он использовался для оценки долгосрочных тенденций возникновения и скорости ветра. [32]

См. также

[ редактировать ]

Примечания

[ редактировать ]
  1. ^ Гилберт (1987) .
  2. ^ Перейти обратно: а б Эль-Шарави и Пигорш (2001) .
  3. ^ Перейти обратно: а б Коул и др. (1989) ; Кац и Шарир (1993) ; Брённиманн и Шазель (1998) .
  4. ^ Перейти обратно: а б Дилленкур, Маунт и Нетаньяху (1992) ; Матушек (1991) ; Бланк и Варенхольд (2006) .
  5. ^ Массарт и др. (1997)
  6. ^ Сокал и Рольф (1995) ; Дитэм (2011) .
  7. ^ Гранат (2006)
  8. ^ Перейти обратно: а б Тейл (1950) ; Сен (1968)
  9. ^ Перейти обратно: а б Сен (1968) ; Осборн (2008) .
  10. ^ Хелсель, Деннис Р.; Хирш, Роберт М.; Райберг, Карен Р.; Арчфилд, Стейси А.; Гилрой, Эдвард Дж. (2020). Статистические методы в водных ресурсах . Техники и методы. Рестон, Вирджиния: Геологическая служба США. п. 484 . Проверено 22 мая 2020 г.
  11. ^ Перейти обратно: а б Уилкокс (2001) .
  12. ^ Перейти обратно: а б с Руссеу и Лерой (2003) , стр. 67, 164.
  13. ^ Для определения доверительных интервалов необходимо выбрать пары точек с заменой ; это означает, что в набор пар, используемых в этом расчете, входят пары, в которых обе точки одинаковы. Эти пары всегда находятся за пределами доверительного интервала, поскольку они не определяют четко определенное значение наклона, но их использование в расчетах приводит к тому, что доверительный интервал становится шире, чем он был бы без них.
  14. ^ Логан (2010) , Раздел 8.2.7 Устойчивая регрессия ; Матоусек, Маунт и Нетаньяху (1998)
  15. ^ Мут (2006) .
  16. ^ Джекель (1972) ; Шольц (1978) ; Сиверс (1978) ; Биркс и Додж (1993) .
  17. ^ Перейти обратно: а б Хирш, Слэк и Смит (1982) .
  18. ^ Сен (1968) , Теорема 5.1, с. 1384; Ван и Ю (2005) .
  19. ^ Сен (1968) , Раздел 6; Уилкокс (1998) .
  20. ^ Перейти обратно: а б Уилкокс (2005) .
  21. ^ Сен (1968) , стр. 1383.
  22. ^ Коул и др. (1989) .
  23. ^ Матоусек, Маунт и Нетаньяху (1998) .
  24. ^ Чан и Патрашку (2010) .
  25. ^ Багчи и др. (2007) .
  26. ^ Логан (2010) , стр. 237 ; Ваннест, Дэвис и Паркер (2013)
  27. ^ Ваннест, Дэвис и Паркер (2013) ; Гранато (2006)
  28. ^ Сообщество SciPy (2015) ; Перссон и Мартинс (2016)
  29. ^ Акритас, Мерфи и ЛаВэлли (1995) .
  30. ^ Фернандес и Леблан (2005) .
  31. ^ Вайдьянатан и Триведи (2005) .
  32. ^ Романич и др. (2014) .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 78a5a56ca4cec8124bae988d3f39f1f3__1721113800
URL1:https://arc.ask3.ru/arc/aa/78/f3/78a5a56ca4cec8124bae988d3f39f1f3.html
Заголовок, (Title) документа по адресу, URL1:
Theil–Sen estimator - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)