Регрессия главных компонентов
Часть серии о |
Регрессионный анализ |
---|
Модели |
Оценка |
Фон |
В статистике регрессия главных компонентов ( PCR ) — это метод регрессионного анализа , основанный на анализе главных компонентов (PCA). Более конкретно, ПЦР используется для оценки неизвестных коэффициентов регрессии в стандартной модели линейной регрессии .
В ПЦР вместо прямой регрессии зависимой переменной на объясняющие переменные главные компоненты используются в качестве регрессоров независимых переменных . Обычно для регрессии используется только подмножество всех основных компонентов, что делает ПЦР своего рода регуляризованной процедурой, а также своего рода оценщиком усадки .
главные компоненты с более высокими дисперсиями (основанные на собственных векторах, более высоким собственным значениям выборочной соответствующих дисперсионно-ковариационной матрицы Часто в качестве регрессоров выбираются объясняющих переменных). Однако для прогнозирования результата главные компоненты с низкими дисперсиями также могут быть важны, а в некоторых случаях даже более важны. [1]
Одно из основных применений ПЦР заключается в преодолении проблемы мультиколлинеарности , которая возникает, когда две или более объясняющих переменных близки к коллинеарности . [2] ПЦР может успешно справиться с такими ситуациями, исключив некоторые основные компоненты с низкой дисперсией на этапе регрессии. Кроме того, обычно регрессируя только по подмножеству всех основных компонентов, PCR может привести к уменьшению размерности за счет существенного снижения эффективного количества параметров, характеризующих базовую модель. Это может быть особенно полезно в ситуациях с многомерными ковариатами . Кроме того, благодаря соответствующему выбору основных компонентов, которые будут использоваться для регрессии, ПЦР может привести к эффективному прогнозированию результата на основе предполагаемой модели.
Принцип
[ редактировать ]Метод ПЦР можно условно разделить на три основных этапа:
- 1. Выполните PCA на матрице наблюдаемых данных для независимых переменных, чтобы получить основные компоненты, а затем (обычно) выберите на основе некоторых подходящих критериев подмножество полученных таким образом главных компонентов для дальнейшего использования.
- 2. Теперь выполните регрессию наблюдаемого вектора результатов по выбранным главным компонентам как ковариатам, используя обычную регрессию наименьших квадратов ( линейную регрессию ), чтобы получить вектор оцененных коэффициентов регрессии (с размерностью, равной количеству выбранных главных компонентов).
- 3. Теперь преобразуйте этот вектор обратно в шкалу фактических ковариат, используя выбранные нагрузки PCA (собственные векторы, соответствующие выбранным главным компонентам), чтобы получить окончательную оценку PCR (с размерностью, равной общему количеству ковариат) для оценки коэффициентов регрессии. характеризующие исходную модель.
Подробности метода
[ редактировать ]Представление данных: Пусть обозначаем вектор наблюдаемых результатов и обозначают соответствующую матрицу данных наблюдаемых ковариат, где и обозначают размер наблюдаемой выборки и количество ковариат соответственно, где . Каждый из ряды обозначает один набор наблюдений для размерная ковариата и соответствующая запись обозначает соответствующий наблюдаемый результат.
Предварительная обработка данных: предположим, что и каждый из столбцы уже отцентрированы, так что все они имеют нулевые эмпирические средства . Этот шаг центрирования имеет решающее значение (по крайней мере, для колонн ), поскольку ПЦР предполагает использование PCA на и PCA чувствителен к центрированию данных.
Базовая модель: после центрирования используется стандартная Гаусса – Маркова модель линейной регрессии для на можно представить как: где обозначает неизвестный вектор параметров коэффициентов регрессии и обозначает вектор случайных ошибок с и для какого-то неизвестного дисперсии параметра
Цель: Основная цель — получить эффективный оценщик. для параметра , исходя из данных. Одним из часто используемых подходов для этого является обычная регрессия наименьших квадратов , которая, предполагая полный ранг столбца , дает несмещенную оценку : из . ПЦР — еще один метод, который можно использовать с той же целью оценки .
Шаг PCA: PCR начинается с выполнения PCA для центрированной матрицы данных. . Для этого пусть обозначают сингулярным значениям разложение по где, с обозначая неотрицательные сингулярные значения , столбцы а и оба являются ортонормированными наборами векторов, обозначающими левый и правый сингулярные векторы соответственно.
Основные компоненты: дает разложение спектральное где с обозначающие неотрицательные собственные значения (также известные как главные значения ) , а столбцы обозначаем соответствующий ортонормированный набор собственных векторов. Затем, и соответственно обозначают главный компонент и направление главного компонента (или нагрузка PCA ), соответствующее наибольшая основная стоимость для каждого .
Производные ковариаты: для любого , позволять обозначают матрица с ортонормированными столбцами, состоящими из первых столбцы . Позволять обозначают матрица, имеющая первый основные компоненты в качестве столбцов. можно рассматривать как матрицу данных, полученную с использованием преобразованных ковариат вместо использования исходных ковариат .
Оценщик ПЦР: Пусть обозначают вектор оцененных коэффициентов регрессии, полученных методом обычной регрессии наименьших квадратов вектора отклика. в матрице данных . Тогда для любого , окончательная оценка PCR на основе использования первого основные компоненты определяются как: .
Основные характеристики и применение оценщика PCR
[ редактировать ]Два основных свойства
[ редактировать ]Процесс подбора для получения оценки PCR включает регрессию вектора ответа в полученной матрице данных. который имеет ортогональные столбцы для любого поскольку главные компоненты взаимно ортогональны друг другу. Таким образом, на этапе регрессии совместное выполнение множественной линейной регрессии на выбранные главные компоненты в качестве ковариат эквивалентны выполнению независимые простые линейные регрессии (или одномерные регрессии) отдельно по каждому из выбранные главные компоненты в качестве ковариаты.
Когда все главные компоненты выбраны для регрессии так, что , то оценка PCR эквивалентна обычной оценке методом наименьших квадратов . Таким образом, . Это легко увидеть из того, что а также наблюдая за этим является ортогональной матрицей .
Уменьшение дисперсии
[ редактировать ]Для любого , дисперсия дается
В частности:
Следовательно для всех у нас есть:
Таким образом, для всех у нас есть:
где указывает на то, что квадратно-симметричная матрица является неотрицательно определенным . Следовательно, любая данная линейная форма оценки PCR имеет меньшую дисперсию по сравнению с той же линейной формой обычной оценки наименьших квадратов.
Решение проблемы мультиколлинеарности
[ редактировать ]При мультиколлинеарности две или более ковариаты сильно коррелируют , так что одну из них можно линейно предсказать на основе других с нетривиальной степенью точности. Следовательно, столбцы матрицы данных которые соответствуют наблюдениям для этих ковариат, имеют тенденцию становиться линейно зависимыми и, следовательно, имеет тенденцию терять свой ранг, теряя полную структуру ранга столбцов. В более количественном отношении одно или несколько меньших собственных значений получить(-ют) очень близко или стать(-ют) точно равными в таких ситуациях. Приведенные выше выражения дисперсии показывают, что эти небольшие собственные значения оказывают максимальное влияние инфляции на дисперсию оценки наименьших квадратов, тем самым значительно дестабилизируя оценку, когда они близки к . Эту проблему можно эффективно решить, используя оценщик PCR, полученный путем исключения главных компонентов, соответствующих этим небольшим собственным значениям.
Уменьшение размеров
[ редактировать ]ПЦР также может использоваться для уменьшения размеров . Чтобы увидеть это, позвольте обозначать любой матрица, имеющая ортонормированные столбцы, для любого Предположим теперь, что мы хотим аппроксимировать каждое из ковариатных наблюдений через звание линейное преобразование для некоторых .
Тогда можно показать, что
минимизируется при матрица с первым Направления главных компонентов в виде столбцов и соответствующий производные ковариаты размерностей. Таким образом, размерные главные компоненты обеспечивают лучшее линейное приближение ранга к матрице наблюдаемых данных .
Соответствующая ошибка реконструкции определяется выражением:
Таким образом, любое потенциальное уменьшение размеров может быть достигнуто путем выбора , количество главных компонентов, которые будут использоваться, посредством соответствующего порогового значения по кумулятивной сумме собственных значений . Поскольку меньшие собственные значения не вносят существенного вклада в совокупную сумму, соответствующие главные компоненты можно продолжать отбрасывать до тех пор, пока не будет превышен желаемый пороговый предел. Те же критерии могут также использоваться для решения проблемы мультиколлинеарности , при которой главные компоненты, соответствующие меньшим собственным значениям, могут игнорироваться до тех пор, пока сохраняется пороговый предел.
Эффект регуляризации
[ редактировать ]Поскольку оценщик PCR обычно использует только подмножество всех основных компонентов регрессии, его можно рассматривать как своего рода регуляризованную процедуру. Точнее, для любого , оценщик ПЦР обозначает регуляризованное решение следующей задачи минимизации с ограничениями :
Ограничение может быть эквивалентно записано как:
где:
Таким образом, когда для регрессии выбирается только правильное подмножество всех главных компонентов, полученная таким образом оценка PCR основана на жесткой форме регуляризации , которая ограничивает результирующее решение пространством столбцов выбранных направлений главных компонентов и, следовательно, ограничивает его. быть ортогональными исключенным направлениям.
Оптимальность ПЦР среди класса регуляризованных оценок
[ редактировать ]Учитывая задачу ограниченной минимизации, определенную выше, рассмотрим следующую ее обобщенную версию:
где, обозначает любую матрицу полного ранга столбца порядка с .
Позволять обозначим соответствующее решение. Таким образом
Тогда оптимальный выбор матрицы ограничения для которого соответствующая оценка достигает минимальной ошибки прогнозирования, определяется как: [3]
где
Совершенно очевидно, что полученная оптимальная оценка затем просто задается оценщиком PCR на основе первого основные компоненты.
Эффективность
[ редактировать ]Поскольку обычная оценка методом наименьших квадратов несмещена для , у нас есть
где MSE обозначает среднеквадратическую ошибку . Теперь, если для некоторых , у нас дополнительно есть: , то соответствующий также является беспристрастным для и поэтому
Мы это уже видели
что тогда подразумевает:
для этого конкретного . Таким образом, в этом случае соответствующий будет более эффективной оценкой по сравнению с , основанный на использовании среднеквадратической ошибки в качестве критерия производительности. Кроме того, любая заданная линейная форма соответствующего также будет иметь меньшую среднеквадратическую ошибку по сравнению с той же линейной формой .
Теперь предположим, что для данного . Тогда соответствующий относится предвзято к . Однако, поскольку
все еще возможно, что , особенно если таково, что исключенные главные компоненты соответствуют меньшим собственным значениям, что приводит к меньшему смещению .
Чтобы обеспечить эффективную оценку и прогнозирование производительности ПЦР как средства оценки , Парк (1981) [3] предлагает следующее руководство по выбору основных компонентов, которые будут использоваться для регрессии: главная компонента тогда и только тогда, когда Практическая реализация этого руководства, конечно, требует оценки неизвестных параметров модели. и . В общем, их можно оценить, используя неограниченные оценки наименьших квадратов, полученные из исходной полной модели. Однако Парк (1981) предлагает несколько модифицированный набор оценок, который, возможно, лучше подходит для этой цели. [3]
В отличие от критериев, основанных на накопленной сумме собственных значений , который, вероятно, больше подходит для решения проблемы мультиколлинеарности и для выполнения уменьшения размерности, вышеупомянутые критерии на самом деле пытаются улучшить эффективность прогнозирования и оценки оценщика PCR, вовлекая как результат, так и ковариаты в процесс выбора главного компоненты, которые будут использоваться на этапе регрессии. Альтернативные подходы с аналогичными целями включают выбор основных компонентов на основе перекрестной проверки или Маллоу критериев C p . Часто основные компоненты также выбираются на основе степени их связи с результатом.
Эффект усадки ПЦР
[ редактировать ]В общем, ПЦР, по сути, представляет собой средство оценки усадки , которое обычно сохраняет главные компоненты с высокой дисперсией (соответствующие более высоким собственным значениям ) как ковариаты в модели и отбрасывает оставшиеся компоненты с низкой дисперсией (соответствующие нижним собственным значениям ). Таким образом, он оказывает дискретный эффект сжатия на компоненты с низкой дисперсией, полностью сводя на нет их вклад в исходную модель. Напротив, оценщик гребневой регрессии оказывает эффект плавного сжатия за счет параметра регуляризации (или параметра настройки), который по своей сути участвует в его построении. Хотя он не отбрасывает полностью ни один из компонентов, он непрерывно оказывает эффект сжатия на все из них, так что степень сжатия выше для компонентов с низкой дисперсией и ниже для компонентов с высокой дисперсией. Фрэнк и Фридман (1993) [4] пришли к выводу, что для целей самого прогнозирования гребневый оценщик благодаря эффекту плавного сжатия, возможно, является лучшим выбором по сравнению с оценщиком PCR, имеющим дискретный эффект сжатия.
Кроме того, главные компоненты получаются из собственного разложения это включает в себя наблюдения только за объясняющими переменными. Следовательно, итоговая оценка ПЦР, полученная с использованием этих основных компонентов в качестве ковариат, не обязательно должна иметь удовлетворительную прогностическую эффективность для результата. Несколько похожий метод оценки, который пытается решить эту проблему посредством самой своей конструкции, — это метод частичной наименьших квадратов (PLS). Подобно ПЦР, PLS также использует производные ковариаты более низких размеров. Однако, в отличие от ПЦР, производные ковариаты для PLS получаются на основе использования как результата, так и ковариат. В то время как ПЦР ищет направления с высокой дисперсией в пространстве ковариат, PLS ищет направления в пространстве ковариат, которые наиболее полезны для прогнозирования результата.
В 2006 году был предложен вариант классической ПЦР, известный как контролируемая ПЦР . [5] По духу, аналогичному PLS, он пытается получить производные ковариаты более низких измерений на основе критерия, который включает в себя как результат, так и ковариаты. Метод начинается с выполнения набора простые линейные регрессии (или одномерные регрессии), в которых вектор результата регрессируется отдельно по каждому из ковариаты, взятые по одной. Затем для некоторых , первый ковариаты, которые оказываются наиболее коррелирующими с результатом (на основании степени значимости соответствующих оцененных коэффициентов регрессии), отбираются для дальнейшего использования. Затем проводится традиционная ПЦР, как описано ранее, но теперь она основана только на матрица данных, соответствующая наблюдениям для выбранных ковариат. Количество использованных ковариат: и последующее количество используемых основных компонентов: обычно выбираются путем перекрестной проверки .
Обобщение настроек ядра
[ редактировать ]Классический метод ПЦР, описанный выше, основан на классическом PCA и рассматривает модель линейной регрессии для прогнозирования результата на основе ковариат. Однако ее можно легко обобщить на настройку машины с ядром , при этом функция регрессии не обязательно должна быть линейной по ковариатам, а вместо этого может принадлежать воспроизводящему ядерному гильбертову пространству, связанному с любым произвольным (возможно, нелинейным ), симметричным положительным определенное ядро . Модель линейной регрессии оказывается частным случаем этого параметра, когда в качестве функции ядра выбрано линейное ядро .
В общем, при настройке машины ядра вектор ковариат сначала отображается в многомерное (потенциально бесконечномерное ) пространство признаков, характеризующееся выбранной функцией ядра . Полученное таким образом отображение известно как карта признаков , и каждая из его координат , также известная как элементы признаков , соответствует одному признаку (может быть линейным или нелинейным ) из ковариат. линейную комбинацию Предполагается, что функция регрессии представляет собой этих элементов признаков . Таким образом, базовая модель регрессии в настройках машины ядра по сути представляет собой модель линейной регрессии с пониманием того, что вместо исходного набора ковариат предикторы теперь задаются вектором (потенциально бесконечномерным ) элементов признаков, путем преобразования полученным фактические ковариаты с использованием карты признаков .
Однако трюк с ядром на самом деле позволяет нам работать в пространстве признаков даже без явного вычисления карты признаков . Оказывается, достаточно только вычислить попарные внутренние продукты среди карт признаков для наблюдаемых векторов ковариат, и эти внутренние продукты просто задаются значениями функции ядра , оцененной в соответствующих парах векторов ковариат. Таким образом, полученные таким образом попарные скалярные продукты можно представить в виде симметричная неотрицательно определенная матрица, также известная как матрица ядра .
PCR в настройках машины ядра теперь можно реализовать, сначала соответствующим образом центрируя эту матрицу ядра (скажем, K) относительно пространства признаков , а затем выполняя PCA ядра на центрированной матрице ядра (скажем, K'), в результате чего собственное разложение K ' получается. Затем ПЦР ядра (обычно) выбирает подмножество всех полученных таким образом собственных векторов и затем выполняет стандартную линейную регрессию конечного вектора на этих выбранных собственных векторах . Собственные векторы, которые будут использоваться для регрессии, обычно выбираются с помощью перекрестной проверки . Оцененные коэффициенты регрессии (имеющие ту же размерность, что и количество выбранных собственных векторов) вместе с соответствующими выбранными собственными векторами затем используются для прогнозирования результата будущего наблюдения. В машинном обучении этот метод также известен как спектральная регрессия .
Очевидно, что ядерная ПЦР имеет дискретный эффект сжатия на собственные векторы K', очень похожий на эффект дискретного сжатия классической ПЦР на главные компоненты, как обсуждалось ранее. Однако карта признаков, связанная с выбранным ядром, потенциально может быть бесконечномерной, и, следовательно, соответствующие главные компоненты и направления главных компонент также могут быть бесконечномерными. Следовательно, эти величины часто практически не поддаются измерению при настройке машины ядра. Kernel PCR по существу решает эту проблему, рассматривая эквивалентную двойную формулировку, основанную на использовании спектрального разложения соответствующей ядерной матрицы. В рамках модели линейной регрессии (которая соответствует выбору функции ядра в качестве линейного ядра) это равнозначно рассмотрению спектрального разложения соответствующих матрица ядра а затем регрессию вектора результата на выбранном подмножестве собственных векторов так получилось. Можно легко показать, что это то же самое, что регрессия вектора результата по соответствующим главным компонентам (которые в данном случае конечномерны), как это определено в контексте классической PCR. Таким образом, для линейного ядра PCR ядра, основанный на двойной формулировке, в точности эквивалентен классическому PCR, основанному на первичной формулировке. Однако для произвольных (и, возможно, нелинейных) ядер эта основная формулировка может стать трудноразрешимой из-за бесконечной размерности соответствующей карты признаков. Таким образом, классическая ПЦР в этом случае становится практически неосуществимой, но ядерная ПЦР, основанная на двойной формулировке, по-прежнему остается применимой и масштабируемой в вычислительном отношении.
См. также
[ редактировать ]- Анализ главных компонентов
- Частичная регрессия наименьших квадратов
- Гребневая регрессия
- Каноническая корреляция
- Регрессия Деминга
- Общая сумма квадратов
Ссылки
[ редактировать ]- ^ Джоллифф, Ян Т. (1982). «Заметки об использовании главных компонентов в регрессии». Журнал Королевского статистического общества, серия C. 31 (3): 300–303. дои : 10.2307/2348005 . JSTOR 2348005 .
- ^ Додж, Ю. (2003) Оксфордский словарь статистических терминов , OUP. ISBN 0-19-920613-9
- ^ Jump up to: а б с Сун Х. Пак (1981). «Коллинеарность и оптимальные ограничения на параметры регрессии для оценки ответов». Технометрика . 23 (3): 289–295. дои : 10.2307/1267793 .
- ^ Лльдико Э. Франк и Джером Х. Фридман (1993). «Статистический взгляд на некоторые инструменты хемометрической регрессии». Технометрика . 35 (2): 109–135. дои : 10.1080/00401706.1993.10485033 .
- ^ Эрик Бэйр; Тревор Хэсти; Дебашис Пол; Роберт Тибширани (2006). «Прогнозирование по контролируемым главным компонентам». Журнал Американской статистической ассоциации . 101 (473): 119–137. CiteSeerX 10.1.1.516.2313 . дои : 10.1198/016214505000000628 .
Дальнейшее чтение
[ редактировать ]- Амемия, Такеши (1985). Продвинутая эконометрика . Издательство Гарвардского университета. стр. 57–60 . ISBN 978-0-674-00560-0 .
- Тейл, Анри (1971). Принципы эконометрики . Уайли. стр. 46–55 . ISBN 978-0-471-85845-4 .