Частичная регрессия наименьших квадратов
Часть серии о |
Регрессионный анализ |
---|
Модели |
Оценка |
Фон |
Регрессия частичных наименьших квадратов (PLS) — это статистический метод, который имеет некоторое отношение к регрессии главных компонентов ; вместо поиска гиперплоскостей максимальной дисперсии между ответом и независимыми переменными он находит модель линейной регрессии, проецируя прогнозируемые переменные и наблюдаемые переменные в новое пространство. Поскольку данные X и Y проецируются в новые пространства, семейство методов PLS известно как билинейные факторные модели. Дискриминантный анализ частичных наименьших квадратов (PLS-DA) — это вариант, используемый, когда Y является категориальным.
PLS используется для поиска фундаментальных отношений между двумя матрицами ( X и Y ), т.е. подход со скрытыми переменными для моделирования ковариационных структур в этих двух пространствах. Модель PLS попытается найти многомерное направление в пространстве X , которое объясняет максимальное направление многомерной дисперсии в Y. пространстве PLS-регрессия особенно подходит, когда матрица предикторов имеет больше переменных, чем наблюдений, и когда существует мультиколлинеарность между значениями X . Напротив, стандартная регрессия в этих случаях потерпит неудачу (если она не регуляризована ).
Частичный метод наименьших квадратов был введен шведским статистиком Германом О.А. Вольдом , который затем разработал его вместе со своим сыном Сванте Вольдом. Альтернативный термин для PLS — проекция на латентные структуры . [1] [2] но термин «частичные наименьшие квадраты» по-прежнему доминирует во многих областях. Хотя первоначально PLS-регрессия применялась в социальных науках, сегодня она наиболее широко используется в хемометрике и смежных областях. Он также используется в биоинформатике , сенсометрике , нейробиологии и антропологии .
Основная идея
[ редактировать ]
Нам предоставлен образец парные наблюдения . На первом этапе , регрессия частичных наименьших квадратов ищет нормализованное направление , что максимизирует ковариацию [3]
Обратите внимание, что ниже алгоритм обозначен в матричной записи.
Базовая модель
[ редактировать ]Общая базовая модель многомерной PLS с компоненты
где
- X - это матрица предикторов
- Y - это матрица ответов
- Т и У матрицы, которые являются, соответственно, проекциями X ( показатель X , матрица компонентов или факторов ) и проекциями Y ( показатели Y )
- P и Q соответственно и загрузка матриц
- а матрицы E и F представляют собой члены ошибок, которые считаются независимыми и одинаково распределенными случайными нормальными величинами.
Разложения X и Y производятся так, чтобы ковариацию между T и U. максимизировать
Обратите внимание, что эта ковариация определяется попарно: ковариация столбца i из T (длина n ) со столбцом i из U (длина n ) максимальна. Кроме того, ковариация столбца i таблицы T со столбцом j таблицы U (с ) равен нулю.
Таким образом, в PLSR нагрузки выбираются так, чтобы баллы образовывали ортогональную основу. Это главное отличие от PCA, где ортогональность налагается на нагрузки (а не на оценки).
Алгоритмы
[ редактировать ]Существует несколько вариантов PLS для оценки фактора и матриц нагрузки T, U, и Q. P Большинство из них строят оценки линейной регрессии между X и Y как . Некоторые алгоритмы PLS подходят только для случая, когда Y другие имеют дело с общим случаем матрицы Y. — вектор-столбец, тогда как Алгоритмы также различаются в зависимости от того, оценивают ли они фактор-матрицу T как ортогональную (то есть ортонормированную ) матрицу или нет. [4] [5] [6] [7] [8] [9] Окончательный прогноз будет одинаковым для всех этих разновидностей PLS, но компоненты будут различаться.
PLS состоит из итеративного повторения следующих шагов k раз (для k компонентов):
- нахождение направлений максимальной ковариации во входном и выходном пространстве
- выполнение регрессии наименьших квадратов для входной оценки
- сдувание ввода и/или цель
Пожалуйста1
[ редактировать ]PLS1 — широко используемый алгоритм, подходящий для вектора Y. случая Он оценивает T как ортонормированную матрицу. (Внимание: векторы t в приведенном ниже коде могут быть ненормализованы должным образом; см. обсуждение.) В псевдокоде это выражается ниже (заглавные буквы — это матрицы, строчные буквы — векторы, если они имеют верхний индекс, и скаляры, если они имеют нижний индекс).
1 function PLS1(X, y, ℓ) 2 3 , an initial estimate of w. 4 for to 5 6 (note this is a scalar) 7 8 9 (note this is a scalar) 10 if 11 , break the for loop 12 if 13 14 15 end for 16 define W to be the matrix with columns . Do the same to form the P matrix and q vector. 17 18 19 return
Эта форма алгоритма не требует центрирования входных данных X и Y , поскольку это выполняется алгоритмом неявно. В этом алгоритме реализована «дефляция» матрицы X (вычитание ), но дефлирование вектора y не производится, так как в этом нет необходимости (можно доказать, что дефлирование y дает те же результаты, что и отсутствие дефлирования [10] ). Задаваемая пользователем переменная l представляет собой ограничение на количество скрытых факторов в регрессии; если он равен рангу матрицы X , алгоритм даст оценки регрессии по методу наименьших квадратов для B и

Расширения
[ редактировать ]ОПЛС
[ редактировать ]В 2002 году был опубликован новый метод под названием «ортогональные проекции на скрытые структуры» (OPLS). В OPLS данные непрерывных переменных разделяются на прогнозирующую и некоррелированную (ортогональную) информацию. Это приводит к улучшению диагностики, а также к более легко интерпретируемой визуализации. Однако эти изменения только улучшают интерпретируемость, а не прогнозируемость моделей PLS. [11] Аналогичным образом, OPLS-DA (дискриминантный анализ) может применяться при работе с дискретными переменными, например, в исследованиях классификации и биомаркеров.
Общая базовая модель OPLS:
или в O2-PLS [12]
L-пожалуйста
[ редактировать ]Другое расширение регрессии PLS, названное L-PLS из-за L-образных матриц, соединяет 3 связанных блока данных для повышения предсказуемости. [13] Короче говоря, к регрессионному анализу PLS добавляется новая матрица Z с тем же количеством столбцов, что и матрица X , и она может подходить для включения дополнительной исходной информации о взаимозависимости переменных-предикторов.
3ПРФ
[ редактировать ]В 2015 году метод частичных наименьших квадратов был связан с процедурой, называемой трехпроходным регрессионным фильтром (3PRF). [14] Если предположить, что количество наблюдений и переменных велико, 3PRF (и, следовательно, PLS) асимптотически нормальны для «лучшего» прогноза, подразумеваемого моделью линейного латентного фактора. На данных фондового рынка было показано, что PLS обеспечивает точные прогнозы доходности и роста денежных потоков за пределами выборки. [15]
Частичные наименьшие квадраты SVD
[ редактировать ]Версия PLS, основанная на разложении по сингулярным значениям (SVD), обеспечивает реализацию с эффективным использованием памяти, которую можно использовать для решения многомерных задач, таких как сопоставление миллионов генетических маркеров с тысячами функций визуализации при визуализации генетики на оборудовании потребительского уровня. [16]
PLS-корреляция
[ редактировать ]Корреляция PLS (PLSC) — еще одна методология, связанная с регрессией PLS. [17] который использовался в нейровизуализации [17] [18] [19] и спортивная наука, [20] количественно оценить силу связи между наборами данных. Обычно PLSC делит данные на два блока (подгруппы), каждый из которых содержит одну или несколько переменных, а затем использует разложение по сингулярным значениям (SVD), чтобы установить силу любой связи (т. е. количества общей информации), которая может существовать между две подгруппы компонентов. [21] Это делается с помощью SVD для определения инерции (то есть суммы сингулярных значений) ковариационной матрицы рассматриваемых подгрупп. [21] [17]
См. также
[ редактировать ]- Каноническая корреляция
- Интеллектуальный анализ данных
- Регрессия Деминга
- Извлечение признаков
- Машинное обучение
- Частичное моделирование пути методом наименьших квадратов
- Анализ главных компонентов
- Регрессионный анализ
- Общая сумма квадратов
- Регрессия преследования проекций
Ссылки
[ редактировать ]- ^ Уолд, С; Сьёстрем, М.; Эрикссон, Л. (2001). «PLS-регрессия: основной инструмент хемометрики». Хемометрика и интеллектуальные лабораторные системы . 58 (2): 109–130. дои : 10.1016/S0169-7439(01)00155-1 . S2CID 11920190 .
- ^ Абди, Эрве (2010). «Частичная регрессия наименьших квадратов и проекция на регрессию скрытой структуры (PLS-регрессия)» . ПРОВОДА Вычислительная статистика . 2 : 97–106. дои : 10.1002/wics.51 . S2CID 122685021 .
- ^ См. лекцию https://www.youtube.com/watch?v=Px2otK2nZ1c&t=46s.
- ^ Линдгрен, Ф; Гелади, П; Уолд, С. (1993). «Алгоритм ядра для PLS». Дж. Хемометрика . 7 : 45–59. дои : 10.1002/cem.1180070104 . S2CID 122950427 .
- ^ де Йонг, С.; тер Браак, CJF (1994). «Комментарии к алгоритму ядра PLS». Дж. Хемометрика . 8 (2): 169–174. дои : 10.1002/cem.1180080208 . S2CID 221549296 .
- ^ Даял, бакалавр наук; МакГрегор, Дж. Ф. (1997). «Улучшенные алгоритмы PLS». Дж. Хемометрика . 11 (1): 73–85. doi : 10.1002/(SICI)1099-128X(199701)11:1<73::AID-CEM435>3.0.CO;2-# . S2CID 120753851 .
- ^ де Йонг, С. (1993). «SIMPLS: альтернативный подход к регрессии частичных наименьших квадратов». Хемометрика и интеллектуальные лабораторные системы . 18 (3): 251–263. дои : 10.1016/0169-7439(93)85002-X .
- ^ Раннар, С.; Линдгрен, Ф.; Гелади, П.; Уолд, С. (1994). «Алгоритм ядра PLS для наборов данных со многими переменными и меньшим количеством объектов. Часть 1: Теория и алгоритм». Дж. Хемометрика . 8 (2): 111–125. дои : 10.1002/cem.1180080204 . S2CID 121613293 .
- ^ Абди, Х. (2010). «Частичная регрессия наименьших квадратов и проекция регрессии скрытой структуры (PLS-регрессия)». Междисциплинарные обзоры Wiley: вычислительная статистика . 2 : 97–106. дои : 10.1002/wics.51 . S2CID 122685021 .
- ^ Хёскульдссон, Агнар (1988). «Методы PLS-регрессии». Журнал хемометрики . 2 (3): 219. doi : 10.1002/cem.1180020306 . S2CID 120052390 .
- ^ Тригг, Дж; Уолд, С. (2002). «Ортогональные проекции на скрытые структуры». Журнал хемометрики . 16 (3): 119–128. дои : 10.1002/cem.695 . S2CID 122699039 .
- ^ Эрикссон, С. Уолд и Дж. Трюг. «O2PLS® для улучшенного анализа и визуализации сложных данных». https://www.dynacentrix.com/telecharg/SimcaP/O2PLS.pdf
- ^ Сэбёа, С.; Альмойя, Т.; Флатбергб, А.; Ааствейта, АХ; Мартенс, Х. (2008). «LPLS-регрессия: метод прогнозирования и классификации под влиянием исходной информации о переменных-предикторах». Хемометрика и интеллектуальные лабораторные системы . 91 (2): 121–132. дои : 10.1016/j.chemolab.2007.10.006 .
- ^ Келли, Брайан; Прюитт, Сет (1 июня 2015 г.). «Трехпроходной регрессионный фильтр: новый подход к прогнозированию с использованием множества предикторов». Журнал эконометрики . Многомерные задачи эконометрики. 186 (2): 294–316. doi : 10.1016/j.jeconom.2015.02.011 .
- ^ Келли, Брайан; Прюитт, Сет (1 октября 2013 г.). «Рыночные ожидания в разрезе приведенной стоимости». Журнал финансов . 68 (5): 1721–1756. CiteSeerX 10.1.1.498.5973 . дои : 10.1111/jofi.12060 . ISSN 1540-6261 .
- ^ Лоренци, Марко; Альтманн, Андре; Гутман, Борис; Рэй, Селина; Арбер, Чарльз; Хибар, Деррек П.; Джаханшад, Неда; Шотт, Джонатан М.; Александр, Дэниел С. (20 марта 2018 г.). «Восприимчивость атрофии мозга к TRIB3 при болезни Альцгеймера, свидетельства функциональной расстановки приоритетов в генетике изображений» . Труды Национальной академии наук . 115 (12): 3162–3167. дои : 10.1073/pnas.1706100115 . ISSN 0027-8424 . ПМК 5866534 . ПМИД 29511103 .
- ^ Jump up to: а б с Кришнан, Анджали; Уильямс, Линн Дж.; Макинтош, Энтони Рэндал; Абди, Эрве (май 2011 г.). «Методы частичных наименьших квадратов (PLS) для нейровизуализации: учебное пособие и обзор». НейроИмидж . 56 (2): 455–475. doi : 10.1016/j.neuroimage.2010.07.034 . ПМИД 20656037 . S2CID 8796113 .
- ^ Макинтош, Энтони Р.; Мишич, Братислав (3 января 2013 г.). «Многомерный статистический анализ данных нейровизуализации». Ежегодный обзор психологии . 64 (1): 499–525. doi : 10.1146/annurev-psych-113011-143804 . ISSN 0066-4308 . ПМИД 22804773 .
- ^ Беггс, Клайв Б.; Маньяно, Кристофер; Белов, Павел; Кравецки, Жаклин; Рамасами, Дипа П.; Хагемайер, Йеспер; Зивадинов, Роберт (2 мая 2016 г.). де Кастро, Фернандо (ред.). «Площадь поперечного сечения внутренней яремной вены и пульсация спинномозговой жидкости в сильвиевом водопроводе: сравнительное исследование между здоровыми субъектами и пациентами с рассеянным склерозом» . ПЛОС ОДИН . 11 (5): e0153960. Бибкод : 2016PLoSO..1153960B . дои : 10.1371/journal.pone.0153960 . ISSN 1932-6203 . ПМЦ 4852898 . ПМИД 27135831 .
- ^ Уивинг, Дэн; Джонс, Бен; Иретон, Мэтт; Уайтхед, Сара; Тилль, Кевин; Беггс, Клайв Б. (14 февраля 2019 г.). Коннабой, Крис (ред.). «Преодоление проблемы мультиколлинеарности данных о спортивных результатах: новое применение корреляционного анализа частичных наименьших квадратов» . ПЛОС ОДИН . 14 (2): e0211776. Бибкод : 2019PLoSO..1411776W . дои : 10.1371/journal.pone.0211776 . ISSN 1932-6203 . ПМК 6375576 . ПМИД 30763328 .
- ^ Jump up to: а б Абди, Эрве; Уильямс, Линн Дж. (2013), Рейсфельд, Брэд; Мэйено, Артур Н. (ред.), «Методы частичных наименьших квадратов: корреляция частичных наименьших квадратов и частичная регрессия наименьших квадратов», Computational Toxicology , vol. 930, Humana Press, стр. 549–579, номер документа : 10.1007/978-1-62703-059-5_23 , ISBN. 9781627030588 , PMID 23086857
Литература
[ редактировать ]- Крамер, Р. (1998). Хемометрические методы количественного анализа . Марсель-Деккер. ISBN 978-0-8247-0198-7 .
- Франк, Ильдико Э.; Фридман, Джером Х. (1993). «Статистический взгляд на некоторые инструменты хемометрической регрессии». Технометрика . 35 (2): 109–148. дои : 10.1080/00401706.1993.10485033 .
- Хэнляйн, Майкл; Каплан, Андреас М. (2004). «Руководство для начинающих по частичному анализу наименьших квадратов». Понимание статистики . 3 (4): 283–297. дои : 10.1207/s15328031us0304_4 .
- Хенселер, Йорг; Фассотт, Георг (2010). «Тестирование модерирующих эффектов в моделях пути PLS: иллюстрация доступных процедур». В Винци, Винченцо Эспозито; Чин, Винн В.; Хенселер, Йорг; Ван, Хуэйвэнь (ред.). Справочник по частичному наименьшим квадратам: концепции, методы и приложения . Спрингер. стр. 713–735. дои : 10.1007/978-3-540-32827-8_31 . ISBN 9783540328278 .
- Лингьерде, Оле-Кристиан; Кристоферсен, Нильс (2000). «Структура усадки частичных наименьших квадратов». Скандинавский статистический журнал . 27 (3): 459–473. дои : 10.1111/1467-9469.00201 . S2CID 121489764 .
- Тененхаус, Мишель (1998). PLS-регрессия: теория и практика. Париж: Технип .
- Росипал, Роман; Кремер, Николь (2006). «Обзор и последние достижения в области метода частичных наименьших квадратов». В Сондерсе, Крейг; Гробельник, Марко; Ганн, Стив; Шоу-Тейлор, Джон (ред.). Подпространство, скрытая структура и выбор функций: семинар по перспективам статистики и оптимизации, SLSFS 2005, Бохинь, Словения, 23–25 февраля 2005 г., Пересмотренные избранные статьи . Конспекты лекций по информатике. Спрингер. стр. 34–51. дои : 10.1007/11752790_2 . ISBN 9783540341383 .
- Хелланд, Инге С. (1990). «PLS-регрессия и статистические модели». Скандинавский статистический журнал . 17 (2): 97–114. JSTOR 4616159 .
- Вольд, Герман (1966). «Оценка главных компонентов и связанных с ними моделей методом итеративных наименьших квадратов». В Кришнайа, PR (ред.). Многомерный анализ . Нью-Йорк: Академическая пресса. стр. 391–420.
- Вольд, Герман (1981). Подход фиксированной точки к взаимозависимым системам . Амстердам: Северная Голландия.
- Вольд, Герман (1985). «Частичные наименьшие квадраты». В Коце, Сэмюэл; Джонсон, Норман Л. (ред.). Энциклопедия статистических наук . Том. 6. Нью-Йорк: Уайли. стр. 581–591.
- Вольд, Сванте; Руэ, Аксель; Вольд, Герман; Данн, WJ (1984). «Проблема коллинеарности в линейной регрессии. Подход частичных наименьших квадратов (PLS) к обобщенным обратным операциям». Журнал SIAM по научным и статистическим вычислениям . 5 (3): 735–743. дои : 10.1137/0905052 .
- Гартуэйт, Пол Х. (1994). «Интерпретация частичных наименьших квадратов». Журнал Американской статистической ассоциации . 89 (425): 122–7. дои : 10.1080/01621459.1994.10476452 . JSTOR 2291207 .
- Ван, Х., изд. (2010). Справочник по частичному наименьшим квадратам . ISBN 978-3-540-32825-4 .
- Стоун, М.; Брукс, Р.Дж. (1990). «Непрерывная регрессия: перекрестно проверенный последовательно построенный прогноз, охватывающий регрессию обычных наименьших квадратов, частичных наименьших квадратов и регрессию главных компонентов». Журнал Королевского статистического общества, серия B. 52 (2): 237–269. JSTOR 2345437 .