Квантильная регрессия
Часть серии о |
Регрессионный анализ |
---|
Модели |
Оценка |
Фон |
Квантильная регрессия — это тип регрессионного анализа, используемый в статистике и эконометрике. В то время как метод наименьших квадратов оценивает условное среднее переменной ответа по значениям переменных-предсказателей, квантильная регрессия оценивает условную медиану (или другие квантили ) переменной ответа. Квантильная регрессия — это расширение линейной регрессии, используемое, когда условия линейной регрессии не выполняются.

Преимущества и применение
[ редактировать ]Одним из преимуществ квантильной регрессии по сравнению с обычной регрессией по методу наименьших квадратов является то, что оценки квантильной регрессии более устойчивы к выбросам в измерениях ответа. Однако основная привлекательность квантильной регрессии выходит за рамки этого и полезна, когда интерес представляют условные квантильные функции. различные меры центральной тенденции и статистической дисперсии . Для более всестороннего анализа взаимосвязи между переменными можно использовать [1]
В экологии квантильная регрессия была предложена и использована как способ обнаружения более полезных прогностических связей между переменными в тех случаях, когда взаимосвязь отсутствует или имеется лишь слабая взаимосвязь между средними значениями таких переменных. Необходимость и успех квантильной регрессии в экологии объясняются сложностью взаимодействия между различными факторами, приводящей к получению данных с неодинаковым изменением одной переменной для разных диапазонов другой переменной. [2]
Другое применение квантильной регрессии находится в областях диаграмм роста, где процентильные кривые обычно используются для выявления аномального роста. [3] [4]
История
[ редактировать ]Идея оценки наклона медианной регрессии, основная теорема о минимизации суммы абсолютных отклонений и геометрический алгоритм построения медианной регрессии были предложены в 1760 году Руджером Йосипом Бошковичем , католическим священником-иезуитом из Дубровника. [1] : 4 [5] Он интересовался эллиптичностью Земли, опираясь на предположение Исаака Ньютона о том, что ее вращение может привести к ее выпуклости на экваторе с соответствующим уплощением на полюсах. [6] Наконец он разработал первую геометрическую процедуру определения экватора вращающейся планеты на основе трех наблюдений особенностей поверхности. Что еще более важно для квантильной регрессии, он смог разработать первые доказательства наименьшего абсолютного критерия и опередил метод наименьших квадратов, введенный Лежандром в 1805 году. на пятьдесят лет [7]
Другие мыслители начали развивать идею Бошковича, например Пьер-Симон Лаплас , который разработал так называемый «метод ситуации». Это привело к появлению Фрэнсиса Эджворта . медианы множественного числа [8] - геометрический подход к медианной регрессии - и признан предшественником симплексного метода . [7] Работы Бошковича, Лапласа и Эджворта были признаны прелюдией к Роджера Кенкера вкладу в квантильную регрессию.
Вычисления медианной регрессии для больших наборов данных довольно утомительны по сравнению с методом наименьших квадратов, по этой причине исторически он не пользовался популярностью среди статистиков до широкого распространения компьютеров во второй половине 20-го века.
Справочная информация: квантили
[ редактировать ]Квантильная регрессия выражает условные квантили зависимой переменной как линейную функцию объясняющих переменных. Решающим для практичности квантильной регрессии является то, что квантили могут быть выражены как решение задачи минимизации, как мы покажем в этом разделе, прежде чем обсуждать условные квантили в следующем разделе.
Квантиль случайной величины
[ редактировать ]Позволять быть действительной случайной величиной с кумулятивной функцией распределения . й квантиль Y определяется выражением
где
Определим функцию потерь как , где является индикаторной функцией .Конкретный квантиль можно найти, минимизировав ожидаемые потери относительно : [1] (стр. 5–6):
Это можно показать, вычислив производную ожидаемых потерь по отношению к применив правило интеграла Лейбница , установив его равным 0 и позволив быть решением
Это уравнение сводится к
а затем
Если решение не единственное, то нам нужно взять наименьшее такое решение, чтобы получитьтот й квантиль случайной величины Y .
Пример
[ редактировать ]Позволять быть дискретной случайной величиной, принимающей значения с с равными вероятностями. Задача — найти медиану Y, а значит и значение выбран. Тогда ожидаемая потеря является
С является константой, ее можно вынести из функции ожидаемых потерь (это верно только в том случае, если ). Тогда при u =3
Предположим, что u увеличено на 1 единицу. Тогда ожидаемый убыток изменится на при изменении u на 4. Если u = 5, ожидаемая потеря равна
и любое изменение в u увеличит ожидаемые потери. Таким образом, u =5 — медиана. В таблице ниже показаны ожидаемые потери (деленные на ) для разных значений u .
в | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
Ожидаемый убыток | 36 | 29 | 24 | 21 | 20 | 21 | 24 | 29 | 36 |
Интуиция
[ редактировать ]Учитывать и пусть q — начальное предположение для . Ожидаемый убыток, оцененный как q, равен
Чтобы минимизировать ожидаемые потери, мы перемещаем значение q немного , чтобы увидеть, вырастут или упадут ожидаемые потери.Предположим, мы увеличиваем q на 1 единицу. Тогда изменение ожидаемых потерь будет равно
Первый член уравнения и второй член уравнения . Следовательно, изменение функции ожидаемых потерь отрицательно тогда и только тогда, когда , то есть тогда и только тогда, когда q меньше медианы. Аналогично, если мы уменьшим q на 1 единицу, изменение функции ожидаемых потерь будет отрицательным тогда и только тогда, когда q больше медианы.
Чтобы минимизировать функцию ожидаемых потерь, мы будем увеличивать (уменьшать) L ( q ), если q меньше (больше), чем медиана, до тех пор, пока q не достигнет медианы. Идея минимизации состоит в том, чтобы подсчитать количество точек (взвешенных по плотности), которые больше или меньше q , а затем переместить q в точку, где q больше, чем % баллов.
Выборочный квантиль
[ редактировать ]The Квантиль выборки можно получить, используя оценку выборки важности и решая следующую задачу минимизации:
- ,
где функция — наклоненная функция абсолютного значения. Интуиция та же, что и для квантиля населения.
Условный квантиль и квантильная регрессия
[ редактировать ]The -й условный квантиль данный это -й квантиль Условное распределение вероятностей данный ,
- .
Мы используем капитал для обозначения условного квантиля, чтобы указать, что это случайная величина.
В квантильной регрессии для -й квантиль, мы предполагаем, что условный квантиль задается как линейная функция объясняющих переменных:
- .
Учитывая функцию распределения , можно получить, решив
Решение выборочного аналога дает оценку .
Обратите внимание, что когда , функция потерь пропорциональна функции абсолютного значения, и, таким образом, медианная регрессия аналогична линейная регрессия по наименьшим абсолютным отклонениям .
Вычисление оценок параметров регрессии
[ редактировать ]Математические формы, возникающие в результате квантильной регрессии, отличаются от форм, возникающих в методе наименьших квадратов . Метод наименьших квадратов приводит к рассмотрению проблем в пространстве внутреннего произведения , включающих проекцию на подпространства, и, таким образом, проблема минимизации квадратов ошибок может быть сведена к проблеме численной линейной алгебры . Квантильная регрессия не имеет такой структуры, и вместо этого проблему минимизации можно переформулировать как линейного программирования. задачу
где
- ,
Симплексные методы [1] : 181 или методы внутренней точки [1] : 190 можно применить для решения задачи линейного программирования.
Асимптотические свойства
[ редактировать ]Для , при некоторых условиях регулярности, нормально асимптотически :
где
- и
Прямая оценка асимптотической дисперсионно-ковариационной матрицы не всегда является удовлетворительной. Выводы о параметрах квантильной регрессии можно сделать с помощью тестов ранжирования регрессии или методов начальной загрузки. [9]
Эквивариантность
[ редактировать ]Дополнительную инвариантной информацию об инвариантности см. в оценке или см. эквивалентность .
Масштабная эквивалентность
[ редактировать ]Для любого и
Эквивариантность сдвига
[ редактировать ]Для любого и
Эквивариантность репараметризации проекта
[ редактировать ]Позволять быть любым невырожденная матрица и
Инвариантность к монотонным преобразованиям
[ редактировать ]Если является неубывающей функцией на следующее свойство инвариантности , применяется :
Пример (1):
Если и , затем . Средняя регрессия не обладает тем же свойством, поскольку
Вывод
[ редактировать ]Интерпретация параметров уклона
[ редактировать ]Линейная модель неверно определяет истинное систематическое отношение когда является нелинейным. Однако, минимизирует взвешенное расстояние до среди линейных моделей. [10] Кроме того, параметры наклона линейной модели можно интерпретировать как средневзвешенные производные так что можно использовать для причинно-следственных выводов. [11] В частности, гипотеза для всех подразумевает гипотезу , что можно проверить с помощью оценщика и его предельное распространение.
Хорошая посадка
[ редактировать ]Степень соответствия квантильной регрессии для Квантиль можно определить как: [12] где представляет собой сумму квадратов условного квантиля, а представляет собой сумму квадратов безусловного квантиля.
Варианты
[ редактировать ]Байесовские методы квантильной регрессии
[ редактировать ]Поскольку квантильная регрессия обычно не предполагает параметрического правдоподобия для условных распределений Y | X, байесовские методы работают с рабочим правдоподобием. Удобным выбором является асимметричное правдоподобие Лапласа: [13] потому что мода результирующего апостериора при плоском априоре представляет собой обычные оценки квантильной регрессии. Однако апостериорный вывод следует интерпретировать с осторожностью. Ян, Ван и Хэ [14] предоставил поправку на апостериорную дисперсию для достоверного вывода. Кроме того,Ян и Он [15] показал, что можно получить асимптотически действительный апостериорный вывод, если в качестве рабочего правдоподобия выбрано эмпирическое правдоподобие.
Методы машинного обучения для квантильной регрессии
[ редактировать ]Помимо простой линейной регрессии, существует несколько методов машинного обучения, которые можно расширить до квантильной регрессии. Переключение с квадратичной ошибки на наклонную функцию потери абсолютного значения (также известную как потеря пинбола) . [16] ) позволяет алгоритмам обучения на основе градиентного спуска изучать указанный квантиль вместо среднего значения. Это означает, что мы можем применить все алгоритмы нейронных сетей и глубокого обучения к квантильной регрессии. [17] [18] которая затем называется непараметрической квантильной регрессией. [19] Алгоритмы обучения на основе деревьев также доступны для квантильной регрессии (см., например, Леса квантильной регрессии, [20] как простое обобщение случайных лесов ).
Цензурированная квантильная регрессия
[ редактировать ]Если переменная ответа подвергается цензуре, условное среднее невозможно идентифицировать без дополнительных предположений о распределении, но условный квантиль часто можно идентифицировать. О недавних работах по цензурированной квантильной регрессии см.: Portnoy. [21] и Ван и Ван [22]
Пример (2):
Позволять и . Затем . Это модель квантильной регрессии с цензурой: оценочные значения можно получить без каких-либо предположений о распределении, но за счет вычислительных сложностей, [23] некоторых из них можно избежать, используя в качестве приближения простую трехэтапную процедуру цензурированной квантильной регрессии. [24]
Для случайной цензуры переменных ответа используется цензурированная квантильная регрессия Портного (2003). [21] обеспечивает последовательные оценки всех идентифицируемых квантильных функций на основе соответствующего повторного взвешивания каждой подвергнутой цензуре точки.
Цензурированная квантильная регрессия тесно связана с анализом выживания .

Гетероскедастические ошибки
[ редактировать ]Чтобы быть эффективными, потери квантильной регрессии необходимо адаптировать при наличии гетероскедастических ошибок . [25]
Реализации
[ редактировать ]Многочисленные пакеты статистического программного обеспечения включают реализации квантильной регрессии:
- Матлаба Функция
quantreg
[26] - у Гретл есть
quantreg
команда. [27] - R предлагает несколько пакетов, реализующих квантильную регрессию, в первую очередь
quantreg
Роджер Кенкер , [28] но иgbm
, [29]quantregForest
, [30]qrnn
[31] иqgam
[32] - Питон , через
Scikit-garden
[33] иstatsmodels
[34] - SAS через
proc quantreg
(версия 9.2) [35] иproc quantselect
(см. 9.3). [36] - Стата , через чай
qreg
команда. [37] [38] - Вопал Ваббит , через
--loss_function quantile
. [39] - Математика Пакет
QuantileRegression.m
[40] размещен в проекте MathematicaForPrediction на GitHub. - языка Wolfram Функция
QuantileRegression
[41] размещен в репозитории функций Wolfram.
См. также
[ редактировать ]Литература
[ редактировать ]
- Ангрист, Джошуа Д .; Пишке, Йорн-Штеффен (2009). «Квантильная регрессия» . В основном безобидная эконометрика: спутник эмпирика . Издательство Принстонского университета. стр. 269–291. ISBN 978-0-691-12034-8 .
- Кенкер, Роджер (2005). Квантильная регрессия . Издательство Кембриджского университета. ISBN 978-0-521-60827-5 .
Ссылки
[ редактировать ]- ^ Jump up to: а б с д и Кенкер, Роджер (2005). Квантильная регрессия . Издательство Кембриджского университета. стр. 146–7 . ISBN 978-0-521-60827-5 .
- ^ Кейд, Брайан С.; Полдень, Барри Р. (2003). «Нежное введение в квантильную регрессию для экологов» (PDF) . Границы в экологии и окружающей среде . 1 (8): 412–420. дои : 10.2307/3868138 . JSTOR 3868138 .
- ^ Вэй, Ю.; Пере, А.; Кенкер, Р.; Он, X. (2006). «Методы квантильной регрессии для диаграмм эталонного роста». Статистика в медицине . 25 (8): 1369–1382. дои : 10.1002/sim.2271 . ПМИД 16143984 . S2CID 7830193 .
- ^ Вэй, Ю.; Он, X. (2006). «Диаграммы условного роста (с обсуждениями)». Анналы статистики . 34 (5): 2069–2097 и 2126–2131. arXiv : math/0702634 . дои : 10.1214/009053606000000623 . S2CID 88516697 .
- ^ Стиглер, С. (1984). «Боскович, Симпсон и рукописная заметка 1760 года об установлении линейной зависимости». Биометрика . 71 (3): 615–620. дои : 10.1093/biomet/71.3.615 .
- ^ Кенкер, Роджер (2005). Квантильная регрессия . Кембридж: Издательство Кембриджского университета. стр. 2 . ISBN 9780521845731 .
- ^ Jump up to: а б Фурно, Марилена; Вистокко, Доменико (2018). Квантильная регрессия: оценка и моделирование . Хобокен, Нью-Джерси: John Wiley & Sons. стр. xv. ISBN 9781119975281 .
- ^ Кенкер, Роджер (август 1998 г.). «Гальтон, Эджворт, Фриш и перспективы квантильной регрессии в экономике» (PDF) . UIUC.edu . Проверено 22 августа 2018 г.
- ^ Кочергинский М.; Он, Х.; Му, Ю. (2005). «Практические доверительные интервалы для квантилей регрессии». Журнал вычислительной и графической статистики . 14 (1): 41–55. дои : 10.1198/106186005X27563 . S2CID 120598656 .
- ^ Ангрист, Дж.; Черножуков В.; Фернандес-Валь, И. (2006). «Квантильная регрессия при неверной спецификации с применением к структуре заработной платы в США» (PDF) . Эконометрика . 74 (2): 539–563. дои : 10.1111/j.1468-0262.2006.00671.x .
- ^ Като, Р.; Сасаки, Ю. (2017). «Об использовании линейной квантильной регрессии для причинного вывода» . Эконометрическая теория . 33 (3): 664–690. дои : 10.1017/S0266466616000177 .
- ^ Роджер Кенкер и Хосе А.Ф. Мачадо (1999) Качество соответствия и связанные с ним процессы вывода для квантильной регрессии, Журнал Американской статистической ассоциации, 94:448, 1296-1310, DOI: 10.1080/01621459.1999.10473882
- ^ Кодзуми, Х.; Кобаяши, Г. (2011). «Методы выборки Гиббса для байесовской квантильной регрессии» (PDF) . Журнал статистических вычислений и моделирования . 81 (11): 1565–1578. дои : 10.1080/00949655.2010.496117 . S2CID 44015988 .
- ^ Ян, Ю.; Ван, ХХ; Он, X. (2016). «Апостериорный вывод в байесовской квантильной регрессии с асимметричной вероятностью Лапласа». Международный статистический обзор . 84 (3): 327–344. дои : 10.1111/insr.12114 . hdl : 2027.42/135059 . S2CID 14947362 .
- ^ Ян, Ю.; Он, X. (2010). «Байесовская эмпирическая вероятность квантильной регрессии». Анналы статистики . 40 (2): 1102–1131. arXiv : 1207.5378 . дои : 10.1214/12-AOS1005 . S2CID 88519086 .
- ^ Стейнварт, Инго; Кристманн, Андреас (2011). «Оценка условных квантилей с помощью проигрыша пинбола» . Бернулли . 17 (1). Общество Бернулли математической статистики и вероятности: 211–225. arXiv : 1102.2101 . дои : 10.3150/10-BEJ267 .
- ^ Петнехази, Габор (21 августа 2019 г.). «QCNN: Квантильная сверточная нейронная сеть». arXiv : 1908.07978 [ cs.LG ].
- ^ Родригес, Филипе; Перейра, Франсиско К. (27 августа 2018 г.). «За пределами ожиданий: глубокая совместная средняя и квантильная регрессия для пространственно-временных проблем». arXiv : 1808.08798 [ стат ].
- ^ Непараметрическая квантильная регрессия: непересекающиеся ограничения и конформное предсказание, Венлу Тан, Гохао Шен, Юаньюань Линь, Цзянь Хуан, https://arxiv.org/pdf/2210.10161.pdf
- ^ Майнсхаузен, Николай (2006). «Леса квантильной регрессии» (PDF) . Журнал исследований машинного обучения . 7 (6): 983–999.
- ^ Jump up to: а б Портной, С.Л. (2003). «Цензурированные квантили регрессии». Журнал Американской статистической ассоциации . 98 (464): 1001–1012. дои : 10.1198/016214503000000954 . S2CID 120674851 .
- ^ Ван, Х .; Ван, Л. (2009). «Локально взвешенная цензурированная квантильная регрессия». Журнал Американской статистической ассоциации . 104 (487): 1117–1128. CiteSeerX 10.1.1.504.796 . дои : 10.1198/jasa.2009.tm08230 . S2CID 34494316 .
- ^ Пауэлл, Джеймс Л. (1986). «Цензурированные квантили регрессии». Журнал эконометрики . 32 (1): 143–155. дои : 10.1016/0304-4076(86)90016-3 .
- ^ Черножуков Виктор; Хун, Хан (2002). «Трехступенчатая цензурированная квантильная регрессия и внебрачные связи». Дж. Амер. Статист. доц. 97 (459): 872–882. дои : 10.1198/016214502388618663 . S2CID 1410755 .
- ^ Эффективная квантильная регрессия для гетероскедастическихМодели Юнсу Юнга, Юнгён Ли, Стивена Н. Макихерна, https://www.tandfonline.com/doi/abs/10.1080/00949655.2014.967244?journalCode=gscs20
- ^ "quantreg(x,y,tau,order,Nboot) - Обмен файлами - MATLAB Central" . www.mathworks.com . Проверено 1 февраля 2016 г.
- ^ «Справочник команд Гретл» (PDF) . Апрель 2017 г. Архивировано из оригинала (PDF) 15 декабря 2018 г. Проверено 22 апреля 2017 г.
- ^ «Квантрег: Квантильная регрессия» . Р-проект . 2018-12-18.
- ^ «gbm: модели обобщенной усиленной регрессии» . Р-проект . 14 января 2019 г.
- ^ «quantregForest: леса квантильной регрессии» . Р-проект . 19 декабря 2017 г.
- ^ «qrnn: нейронные сети квантильной регрессии» . Р-проект . 2018-06-26.
- ^ «qgam: модели плавной аддитивной квантильной регрессии» . Р-проект . 2019-05-23.
- ^ «Леса квантильной регрессии» . Scikit-сад . Проверено 3 января 2019 г.
- ^ «Статистические модели: квантильная регрессия» . Статистические модели . Проверено 15 ноября 2019 г. .
- ^ «Введение в квантильную регрессию и процедуру QUANTREG» (PDF) . Поддержка САС .
- ^ «Процедура QUANTSELECT» . Поддержка САС .
- ^ «qreg — Квантильная регрессия» (PDF) . Руководство по Стате .
- ^ Кэмерон, А. Колин; Триведи, Правин К. (2010). «Квантильная регрессия» . Микроэконометрика с использованием Stata (пересмотренная ред.). Колледж-Стейшн: Stata Press. стр. 211–234. ISBN 978-1-59718-073-3 .
- ^ "ДжонЛэнгфорд/vowpal_wabbit " Гитхаб . Проверено 0 июля 2016 г.
- ^ «КвантильРегрессия.м» . MathematicaForPrediction . Проверено 3 января 2019 г.
- ^ «Квантильная регрессия» . Репозиторий функций Wolfram . Проверено 14 сентября 2022 г.