Регрессия преследования проекций

В статистике , регрессия преследования прогнозов (PPR) — это статистическая модель, разработанная Джеромом Х. Фридманом и Вернером Штютцле которая расширяет аддитивные модели . Эта модель адаптирует аддитивные модели тем, что сначала проецирует матрицу данных объясняющих переменных в оптимальном направлении, а затем применяет функции сглаживания к этим объясняющим переменным.

Обзор модели

Модель состоит из линейных комбинаций ридж -функций : нелинейных преобразований линейных комбинаций объясняющих переменных. Базовая модель имеет вид

y_{i}=\beta _{0}+\sum _{j=1}^{r}f_{j}(\beta _{j}^{\mathrm {T} }x_{i})+\varepsilon _{i},

где x _i размером 1 × p, — это строка матрицы плана содержащая объясняющие переменные, например i , y _i — прогноз 1 × 1, { β _j } — это набор r векторов (каждый из которых представляет собой единичный вектор длины p ), который содержат неизвестные параметры, { f _j } представляет собой набор r изначально неизвестных гладких функций, которые отображаются из $\mathbb {R} \rightarrow \mathbb {R}$ , а r — гиперпараметр. Хорошие значения для r можно определить посредством перекрестной проверки или поэтапной стратегии, которая останавливается, когда соответствие модели не может быть значительно улучшено. Когда r приближается к бесконечности и с соответствующим набором функций { f _j }, модель PPR является универсальной оценкой , поскольку она может аппроксимировать любую непрерывную функцию в $\mathbb {R} ^{p}$ .

Оценка модели

Для заданного набора данных $\{(y_{i},x_{i})\}_{i=1}^{n}$ , цель состоит в том, чтобы минимизировать функцию ошибки

S=\sum _{i=1}^{n}\left[y_{i}-\sum _{j=1}^{r}f_{j}(\beta _{j}^{\mathrm {T} }x_{i})\right]^{2}

над функциями $f_{j}$ и векторы $\beta _{j}$ . Не существует метода решения для всех переменных одновременно, но его можно решить с помощью попеременной оптимизации . Сначала рассмотрим каждый $(f_{j},\beta _{j})$ соединяйте индивидуально: пусть все остальные параметры будут фиксированными, и найдите «остаток», дисперсию выходных данных, не учтенную этими другими параметрами, определяемую формулой

r_{i}=y_{i}-\sum _{l\neq j}f_{l}(\beta _{l}^{\mathrm {T} }x_{i})

Задача минимизации функции ошибок теперь сводится к решению

\min _{f_{j},\beta _{j}}S'=\min _{f_{j},\beta _{j}}\sum _{i=1}^{n}\left[r_{i}-f_{j}(\beta _{j}^{\mathrm {T} }x_{i})\right]^{2}

для каждого j по очереди. Обычно новый $(f_{j},\beta _{j})$ пары добавляются в модель поэтапно.

Кроме того: ранее подобранные пары могут быть скорректированы после того, как новые подходящие пары будут определены с помощью алгоритма, известного как обратная подгонка , который влечет за собой повторный анализ предыдущей пары, пересчет остатка с учетом того, как изменились другие пары, повторную подгонку с учетом этой новой информации, а затем циклический анализ. таким образом через все подходящие пары, пока параметры не сойдутся. Этот процесс обычно приводит к тому, что модель работает лучше с меньшим количеством пар подгонок, хотя обучение занимает больше времени, и обычно можно добиться той же производительности, пропуская обратную подгонку и просто добавляя к модели больше подгонок (увеличивая r ).

Решение упрощенной функции ошибок для определения $(f_{j},\beta _{j})$ пару можно сделать с поочередной оптимизацией, где сначала случайный $\beta _{j}$ используется для проецирования $X$ в одномерное пространство, а затем оптимальное $f_{j}$ Установлено, что он описывает взаимосвязь между этой проекцией и остатками с помощью вашего любимого метода регрессии точечной диаграммы. Тогда, если $f_{j}$ считается постоянным, предполагая $f_{j}$ когда-то дифференцируем, оптимальные обновленные веса $\beta _{j}$ может быть найдена с помощью метода Гаусса – Ньютона — квазиньютоновского метода, в котором отбрасывается часть гессиана, включающая вторую производную. Чтобы получить это, сначала Тейлор разложит $f_{j}(\beta _{j}^{T}x_{i})\approx f_{j}(\beta _{j,old}^{T}x_{i})+{\dot {f_{j}}}(\beta _{j,old}^{T}x_{i})(\beta _{j}^{T}x_{i}-\beta _{j,old}^{T}x_{i})$ , затем подключите расширение обратно к упрощенной функции ошибок $S'$ и проделайте некоторые алгебраические манипуляции, чтобы придать этому виду

\min _{\beta _{j}}S'\approx \min _{\beta _{j}}\sum _{i=1}^{n}\underbrace {{\dot {f_{j}}}(\beta _{j,old}^{T}x_{i})^{2}} _{w}{\Bigg [}{\bigg (}\underbrace {\beta _{j,old}^{T}x_{i}+{\frac {r_{i}-f_{j}(\beta _{j,old}^{T}x_{i})}{{\dot {f_{j}}}(\beta _{j,old}^{T}x_{i})}}} _{\hat {b}}{\bigg )}-\beta _{j}^{T}x_{i}{\Bigg ]}^{2}

Это взвешенная задача наименьших квадратов . Если мы решим для всех весов $w$ и поместим их в диагональную матрицу $W$ , сложите все новые цели ${\hat {b}}$ в вектор и использовать полную матрицу данных $X$ вместо одного примера $x_{i}$ , то оптимальный $\beta _{j}$ задается в закрытой форме

{\underset {\beta _{j}}{\operatorname {arg\,min} }}{\Big \|}{\vec {\hat {b}}}-X\beta _{j}{\Big \|}_{W}^{2}=(X^{\mathrm {T} }WX)^{-1}X^{\mathrm {T} }W{\vec {\hat {b}}}

Используйте это обновленное $\beta _{j}$ найти новую проекцию $X$ и переоборудовать $f_{j}$ к новой диаграмме рассеяния. Затем используйте этот новый $f_{j}$ обновить $\beta _{j}$ решая вышеизложенное, и продолжайте этот попеременный процесс до тех пор, пока $(f_{j},\beta _{j})$ сходится.

Было показано, что на скорость сходимости, смещение и дисперсию влияет оценка $\beta _{j}$ и $f_{j}$ .

Обсуждение

Модель PPR принимает форму базовой аддитивной модели, но с дополнительными $\beta _{j}$ компонент, поэтому каждый $f_{j}$ соответствует диаграмме рассеяния $\beta _{j}^{T}X^{T}$ по сравнению с остатком (необъяснимой дисперсией) во время обучения, а не с использованием самих необработанных входных данных. Это ограничивает проблему поиска каждого $f_{j}$ до низкой размерности, что делает ее разрешимой с помощью обычных методов наименьших квадратов или методов подбора сплайнов и позволяет избежать проклятия размерности во время обучения. Потому что $f_{j}$ берется из проекции $X$ , результат выглядит как «гребень», ортогональный размеру проекции, поэтому $\{f_{j}\}$ часто называют «гребневыми функциями». Направления $\beta _{j}$ выбираются для оптимизации соответствия соответствующих им функций гребней.

Обратите внимание: поскольку PPR пытается согласовать прогнозы данных, может быть сложно интерпретировать подобранную модель в целом, поскольку каждая входная переменная учитывалась сложным и многогранным образом. Это может сделать модель более полезной для прогнозирования, чем для понимания данных, хотя визуализация отдельных функций гребня и рассмотрение того, какие проекции обнаруживает модель, могут дать некоторое представление.

Преимущества оценки PPR

Он использует одномерные функции регрессии вместо их многомерной формы, тем самым эффективно справляясь с проклятием размерности.
Одномерная регрессия позволяет проводить простую и эффективную оценку.
По сравнению с обобщенными аддитивными моделями PPR может оценивать гораздо более богатый класс функций.
В отличие от методов локального усреднения (таких как k-ближайшие соседи ), PPR может игнорировать переменные с низкой объяснительной силой.

Недостатки оценки PPR

PPR требует изучения M-мерного пространства параметров, чтобы оценить $\beta _{j}$ .
Необходимо выбрать параметр сглаживания для $f_{j}$ .
Модель часто трудно интерпретировать.

Расширения PPR

Были предложены альтернативные сглаживатели, такие как радиальная функция, гармоническая функция и аддитивная функция, и их характеристики различаются в зависимости от используемых наборов данных.
Также использовались альтернативные критерии оптимизации, такие как стандартные абсолютные отклонения и средние абсолютные отклонения .
Обычные методы наименьших квадратов можно использовать для упрощения вычислений, поскольку зачастую данные не имеют сильных нелинейностей.
Срезная обратная регрессия (SIR) использовалась для выбора векторов направления для PPR.
Обобщенный PPR сочетает в себе обычный PPR с итеративно перевзвешенным методом наименьших квадратов (IRLS) и функцию связи для оценки двоичных данных.

PPR против нейронных сетей (NN)

И регрессия проекционного преследования, и полностью связанные нейронные сети с одним скрытым слоем проецируют входной вектор на одномерную гиперплоскость, а затем применяют нелинейное преобразование входных переменных, которые затем добавляются линейным образом. Таким образом, оба следуют одним и тем же шагам, чтобы преодолеть проклятие размерности. Основное отличие состоит в том, что функции $f_{j}$ подгонка в PPR может быть разной для каждой комбинации входных переменных и оценивается по одной, а затем обновляется с использованием весов, тогда как в NN все они указываются заранее и оцениваются одновременно.

Таким образом, при оценке PPR преобразования переменных в PPR управляются данными, тогда как в однослойной нейронной сети эти преобразования фиксированы.

См. также

Погоня за проекцией

Ссылки

Фридман Дж. Х. и Штетцле В. (1981) Регрессия преследования проекции . Журнал Американской статистической ассоциации, 76, 817–823.
Хэнд Д., Маннила Х. и Смит П. (2001) Принципы интеллектуального анализа данных. МТИ Пресс. ISBN 0-262-08290-X
Холл, П. (1988) Оценка направления, в котором набор данных является наиболее интересным, Probab. Области, связанные с теорией, 80, 51–77.
Хасти, Т.Дж., Тибширани, Р.Дж. и Фридман, Дж.Х. (2009). Элементы статистического обучения: интеллектуальный анализ данных, логические выводы и прогнозирование . Спрингер. ISBN 978-0-387-84857-0
Клинке С. и Грассманн Дж. (2000) «Регрессия преследования проекции» в книге «Сглаживание и регрессия: подходы, вычисления и применение». Эд. Шимек, МГ. Уайли Интерсайенс.
Линджарде, О.К. и Лиестол, К. (1998) Регрессия преследования обобщенной проекции . SIAM Journal of Scientific Computing, 20, 844–857.