Jump to content

Надежная регрессия и обнаружение выбросов

Робастная регрессия и обнаружение выбросов — это книга по надежной статистике , в которой особое внимание уделяется критическим моментам методов устойчивой регрессии . Он был написан Питером Руссиу и Анник М. Лерой и опубликован в 1987 году издательством Wiley.

цвету . Диаграмма звезд Герцшпрунга – Рассела, построенная по светимости и Робастные методы регрессии могут подогнать кривую к главной последовательности (центральной кривой на этой диаграмме), не подвергаясь сильному влиянию групп звезд, далеких от главной последовательности.

Линейная регрессия — это проблема вывода линейной функциональной связи между зависимой переменной и одной или несколькими независимыми переменными на основе наборов данных, в которых эта связь была скрыта шумом. Обычный метод наименьших квадратов предполагает, что все данные лежат вблизи подходящей линии или плоскости, но отклоняются от нее из-за добавления нормально распределенных остаточных значений. Напротив, надежные методы регрессии работают, даже если некоторые точки данных являются выбросами , не имеющими никакого отношения к подходящей линии или плоскости, возможно, потому, что данные получены из нескольких источников или, возможно, потому, что состязательный агент пытается исказить данные, чтобы привести к тому, что метод регрессии даст неточный результат. [1] Типичное применение, обсуждаемое в книге, включает в себя диаграмму типов звезд Герцшпрунга-Рассела , в которой нужно провести кривую через главную последовательность звезд, не нарушая ее соответствия отдаленными звездами-гигантами и белыми карликами . [2] Точкой разрушения надежного метода регрессии является доля посторонних данных, которую он может допустить, оставаясь при этом точным. Для этого стиля анализа лучше использовать более высокие точки разбивки. [1] Точка разбивки для обычного метода наименьших квадратов близка к нулю (один выброс может привести к тому, что подгонка станет сколь угодно далекой от оставшихся неповрежденных данных) [2] в то время как некоторые другие методы имеют предел прочности до 50%. [1] Хотя эти методы требуют небольшого количества предположений о данных и хорошо работают для данных, шум которых недостаточно понятен, они могут иметь несколько меньшую эффективность, чем обычные методы наименьших квадратов (требующие большего количества данных для заданной точности аппроксимации), и их реализация может быть сложной и сложной. медленный. [3]

В книге семь глав. [1] [4] Первый – вводный; он описывает простую линейную регрессию (в которой имеется только одна независимая переменная), обсуждает возможность выбросов, которые искажают зависимую или независимую переменную, приводит примеры, в которых выбросы дают вводящие в заблуждение результаты, определяет точку распада и кратко представляет несколько методов. для надежной простой регрессии, включая повторную медианную регрессию . [1] [2] Во второй и третьей главах более подробно анализируется метод наименьших медиан квадратов для регрессии (в котором ищут соответствие, минимизирующее медиану квадратов остатков ) и метод наименьших усеченных квадратов (в котором стремятся минимизировать сумму квадраты остатков, которые ниже медианы). Оба этих метода имеют точку пробоя 50% и могут применяться как для простой регрессии (глава вторая), так и для многомерной регрессии (глава третья). [1] [5] Хотя наименьшая медиана имеет привлекательное геометрическое описание (как нахождение полосы минимальной высоты, содержащей половину данных), ее низкая эффективность приводит к рекомендации использовать вместо нее наименее обрезанные квадраты; Наименьшие обрезанные квадраты также можно интерпретировать как использование метода наименьшей медианы для поиска и устранения выбросов с последующим использованием простой регрессии для оставшихся данных. [4] и приближается к простой регрессии по своей эффективности. [6] Помимо описания этих методов и анализа их статистических свойств, в этих главах также описывается, как использовать программное обеспечение авторов для реализации этих методов. [1] Третья глава также включает описания некоторых альтернативных оценок с высокими точками пробоя. [7]

В четвертой главе описывается одномерная оценка параметра местоположения или центральной тенденции и ее программная реализация, а в пятой главе более подробно рассматриваются алгоритмы, используемые программным обеспечением для эффективного расчета этих оценок. Шестая глава посвящена обнаружению выбросов , сравнению методов идентификации точек данных как выбросов на основе надежной статистики с другими широко используемыми методами, а последняя глава посвящена задачам многомерного местоположения, а также анализу временных рядов и проблемам подбора эллипсоида или ковариационной матрицы. к данным. [1] [4] [5] [7] Помимо использования точки разбивки для сравнения статистических методов, в книге также рассматривается их эквивалентность : для каких семейств преобразований данных соответствие преобразованных данных равно преобразованной версии соответствия исходных данных? [6]

В соответствии с тем, что книга ориентирована на приложения, в ней представлено множество примеров анализа, выполненного с использованием робастных методов, со сравнением полученных оценок с оценками, полученными стандартными неробастными методами. [3] [7] Теоретический материал включен, но отложен так, чтобы его могли легко пропустить менее теоретически подготовленные читатели. Авторы придерживаются позиции, что робастные методы можно использовать как для проверки применимости обычной регрессии (когда результаты обоих методов согласуются), так и для замены их в тех случаях, когда результаты не совпадают. [5]

Аудитория и прием

[ редактировать ]

Книга предназначена для специалистов по прикладной статистике с целью убедить их использовать описанные в ней надежные методы. [1] В отличие от предыдущих работ в области надежной статистики, она делает надежные методы понятными и (через соответствующее программное обеспечение) доступными для практиков. [3] Никаких предварительных знаний надежной статистики не требуется, [4] хотя предполагается наличие некоторого опыта в основных статистических методах. [5] Книгу можно использовать и как учебник. [5] хотя рецензент П. Дж. Лэйкок называет возможность такого использования «смелым и прогрессивным». [4] а рецензенты Сехолт и Грин отмечают, что такой курс вряд ли впишется в британские статистические учебные программы. [6]

Рецензенты Сехолт и Грин жалуются, что слишком большая часть книги служит руководством пользователя по программному обеспечению авторов и ее следовало бы сократить. [6] Однако рецензент Грегори Ф. Пипель пишет, что «презентация очень хорошая», и рекомендует книгу любому пользователю статистических методов. [1] И, предлагая изменить порядок некоторых материалов, Карен Кафадар настоятельно рекомендует книгу в качестве учебника для аспирантов и справочника для профессионалов. [5] А рецензент А.С. Аткинсон кратко резюмирует книгу как «интересную и важную». [8]

[ редактировать ]

Ранее было написано несколько книг по надежной регрессии и обнаружению выбросов, в том числе: [5] [7]

  • Идентификация выбросов по Д.М. Хокинсу (1980)
  • Надежная статистика Питера Дж. Хубера (1981)
  • Введение в робастные и квазиробастные статистические методы, WJJ Rey (1983)
  • «Понимание надежного и исследовательского анализа данных» , Дэвид К. Хоглин, Фредерик Мостеллер и Джон Тьюки (1983).
  • Надежная статистика Хампеля, Ронкетти, Руссеу и Стахеля (1986).

Для сравнения, робастная регрессия и обнаружение выбросов сочетают в себе как надежность, так и обнаружение выбросов. [5] Он менее теоретический, больше ориентирован на данные и программное обеспечение и больше ориентирован на точку отказа, чем на другие меры надежности. [7] Кроме того, он впервые подчеркивает важность «рычага» - явления, при котором выборки с выдающимися значениями независимой переменной могут оказывать более сильное влияние на соответствие, чем образцы, в которых независимая переменная имеет центральное значение. [8]

  1. ^ Перейти обратно: а б с д и ж г час я дж Пипель, Грегори Ф. (май 1989 г.), «Обзор надежной регрессии и обнаружения выбросов », Technometrics , 31 (2): 260–261, doi : 10.2307/1268828 , JSTOR   1268828
  2. ^ Перейти обратно: а б с Зоннбергер, Гарольд (июль – сентябрь 1989 г.), «Обзор устойчивой регрессии и обнаружения выбросов », Журнал прикладной эконометрики , 4 (3): 309–311, JSTOR   2096530
  3. ^ Перейти обратно: а б с Вайсберг, Стэнфорд (июль – август 1989 г.), «Обзор надежной регрессии и обнаружения выбросов », American Scientist , 77 (4): 402–403, JSTOR   27855903
  4. ^ Перейти обратно: а б с д и Лэйкок, П.Дж. (1989), «Обзор надежной регрессии и обнаружения выбросов », Журнал Королевского статистического общества, серия D (Статистик) , 38 (2): 138, doi : 10.2307/2348319 , JSTOR   2348319
  5. ^ Перейти обратно: а б с д и ж г час Кафадар, Карен (июнь 1989 г.), «Обзор надежной регрессии и обнаружения выбросов », Журнал Американской статистической ассоциации , 84 (406): 617–618, doi : 10.2307/2289958 , JSTOR   2289958
  6. ^ Перейти обратно: а б с д Сехолт, АХ; Грин, П.Дж. (1989), «Обзор надежной регрессии и обнаружения выбросов », Журнал Королевского статистического общества, серия A (Статистика в обществе) , 152 (1): 133–134, doi : 10.2307/2982847 , JSTOR   2982847
  7. ^ Перейти обратно: а б с д и Йохай, В.Дж. (1989), «Обзор устойчивой регрессии и обнаружения выбросов », Mathematical Reviews и zbMATH , MR   0914792 , Zbl   0711.62030
  8. ^ Перейти обратно: а б Аткинсон, AC (июнь 1988 г.), «Обзор надежной статистики , устойчивой регрессии и обнаружения выбросов », Biometrics , 44 (2): 626–627, doi : 10.2307/2531877 , JSTOR   2531877
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: e8c6531946db2e3d30949786986af0fd__1688474100
URL1:https://arc.ask3.ru/arc/aa/e8/fd/e8c6531946db2e3d30949786986af0fd.html
Заголовок, (Title) документа по адресу, URL1:
Robust Regression and Outlier Detection - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)