Jump to content

Частичная регрессия наименьших квадратов

Регрессия частичных наименьших квадратов (PLS) — это статистический метод, который имеет некоторое отношение к регрессии главных компонентов ; вместо поиска гиперплоскостей максимальной дисперсии между ответом и независимыми переменными он находит модель линейной регрессии, проецируя прогнозируемые переменные и наблюдаемые переменные в новое пространство. Поскольку данные X и Y проецируются в новые пространства, семейство методов PLS известно как билинейные факторные модели. Дискриминантный анализ частичных наименьших квадратов (PLS-DA) — это вариант, используемый, когда Y является категориальным.

PLS используется для поиска фундаментальных отношений между двумя матрицами ( X и Y ), т.е. подход со скрытыми переменными для моделирования ковариационных структур в этих двух пространствах. Модель PLS попытается найти многомерное направление в пространстве X , которое объясняет максимальное направление многомерной дисперсии в Y. пространстве PLS-регрессия особенно подходит, когда матрица предикторов имеет больше переменных, чем наблюдений, и когда существует мультиколлинеарность между значениями X . Напротив, стандартная регрессия в этих случаях потерпит неудачу (если она не регуляризована ).

Частичный метод наименьших квадратов был введен шведским статистиком Германом О.А. Вольдом , который затем разработал его вместе со своим сыном Сванте Вольдом. Альтернативный термин для PLS — проекция на латентные структуры . [1] [2] но термин «частичные наименьшие квадраты» по-прежнему доминирует во многих областях. Хотя первоначально PLS-регрессия применялась в социальных науках, сегодня она наиболее широко используется в хемометрике и смежных областях. Он также используется в биоинформатике , сенсометрике , нейробиологии и антропологии .

Основная идея

[ редактировать ]
Основная идея PLS. Векторы нагрузки во входном и выходном пространстве нарисованы красным (не нормализованы для лучшей наглядности). Когда увеличивается (независимо от ), и увеличивать.

Нам предоставлен образец парные наблюдения . На первом этапе , регрессия частичных наименьших квадратов ищет нормализованное направление , что максимизирует ковариацию [3]

Обратите внимание, что ниже алгоритм обозначен в матричной записи.

Базовая модель

[ редактировать ]

Общая базовая модель многомерной PLS с компоненты

где

  • X - это матрица предикторов
  • Y - это матрица ответов
  • Т и У матрицы, которые являются, соответственно, проекциями X ( показатель X , матрица компонентов или факторов ) и проекциями Y ( показатели Y )
  • P и Q соответственно и загрузка матриц
  • а матрицы E и F представляют собой члены ошибок, которые считаются независимыми и одинаково распределенными случайными нормальными величинами.

Разложения X и Y производятся так, чтобы ковариацию между T и U. максимизировать

Обратите внимание, что эта ковариация определяется попарно: ковариация столбца i из T (длина n ) со столбцом i из U (длина n ) максимальна. Кроме того, ковариация столбца i таблицы T со столбцом j таблицы U ) равен нулю.

Таким образом, в PLSR нагрузки выбираются так, чтобы баллы образовывали ортогональную основу. Это главное отличие от PCA, где ортогональность налагается на нагрузки (а не на оценки).

Алгоритмы

[ редактировать ]

Существует несколько вариантов PLS для оценки фактора и матриц нагрузки T, U, и Q. P Большинство из них строят оценки линейной регрессии между X и Y как . Некоторые алгоритмы PLS подходят только для случая, когда Y другие имеют дело с общим случаем матрицы Y. — вектор-столбец, тогда как Алгоритмы также различаются в зависимости от того, оценивают ли они фактор-матрицу T как ортогональную (то есть ортонормированную ) матрицу или нет. [4] [5] [6] [7] [8] [9] Окончательный прогноз будет одинаковым для всех этих разновидностей PLS, но компоненты будут различаться.

PLS состоит из итеративного повторения следующих шагов k раз (для k компонентов):

  1. нахождение направлений максимальной ковариации во входном и выходном пространстве
  2. выполнение регрессии наименьших квадратов для входной оценки
  3. сдувание ввода и/или цель

Пожалуйста1

[ редактировать ]

PLS1 — широко используемый алгоритм, подходящий для вектора Y. случая Он оценивает T как ортонормированную матрицу. (Внимание: векторы t в приведенном ниже коде могут быть ненормализованы должным образом; см. обсуждение.) В псевдокоде это выражается ниже (заглавные буквы — это матрицы, строчные буквы — векторы, если они имеют верхний индекс, и скаляры, если они имеют нижний индекс).

 1 function PLS1(X, y, ℓ)
 2     
 3     , an initial estimate of w.
 4     for  to 
 5         
 6          (note this is a scalar)
 7         
 8         
 9          (note this is a scalar)
10         if 
11             , break the for loop
12         if 
13             
14             
15     end for
16     define W to be the matrix with columns .
       Do the same to form the P matrix and q vector.
17     
18     
19     return 

Эта форма алгоритма не требует центрирования входных данных X и Y , поскольку это выполняется алгоритмом неявно. В этом алгоритме реализована «дефляция» матрицы X (вычитание ), но дефлирование вектора y не производится, так как в этом нет необходимости (можно доказать, что дефлирование y дает те же результаты, что и отсутствие дефлирования [10] ). Задаваемая пользователем переменная l представляет собой ограничение на количество скрытых факторов в регрессии; если он равен рангу матрицы X , алгоритм даст оценки регрессии по методу наименьших квадратов для B и

Геометрическая интерпретация шага дефляции во входном пространстве

Расширения

[ редактировать ]

В 2002 году был опубликован новый метод под названием «ортогональные проекции на скрытые структуры» (OPLS). В OPLS данные непрерывных переменных разделяются на прогнозирующую и некоррелированную (ортогональную) информацию. Это приводит к улучшению диагностики, а также к более легко интерпретируемой визуализации. Однако эти изменения только улучшают интерпретируемость, а не прогнозируемость моделей PLS. [11] Аналогичным образом, OPLS-DA (дискриминантный анализ) может применяться при работе с дискретными переменными, например, в исследованиях классификации и биомаркеров.

Общая базовая модель OPLS:

или в O2-PLS [12]

L-пожалуйста

[ редактировать ]

Другое расширение регрессии PLS, названное L-PLS из-за L-образных матриц, соединяет 3 связанных блока данных для повышения предсказуемости. [13] Короче говоря, к регрессионному анализу PLS добавляется новая матрица Z с тем же количеством столбцов, что и матрица X , и она может подходить для включения дополнительной исходной информации о взаимозависимости переменных-предикторов.

В 2015 году метод частичных наименьших квадратов был связан с процедурой, называемой трехпроходным регрессионным фильтром (3PRF). [14] Если предположить, что количество наблюдений и переменных велико, 3PRF (и, следовательно, PLS) асимптотически нормальны для «лучшего» прогноза, подразумеваемого моделью линейного латентного фактора. На данных фондового рынка было показано, что PLS обеспечивает точные прогнозы доходности и роста денежных потоков за пределами выборки. [15]

Частичные наименьшие квадраты SVD

[ редактировать ]

Версия PLS, основанная на разложении по сингулярным значениям (SVD), обеспечивает реализацию с эффективным использованием памяти, которую можно использовать для решения многомерных задач, таких как сопоставление миллионов генетических маркеров с тысячами функций визуализации при визуализации генетики на оборудовании потребительского уровня. [16]

PLS-корреляция

[ редактировать ]

Корреляция PLS (PLSC) — еще одна методология, связанная с регрессией PLS. [17] который использовался в нейровизуализации [17] [18] [19] и спортивная наука, [20] количественно оценить силу связи между наборами данных. Обычно PLSC делит данные на два блока (подгруппы), каждый из которых содержит одну или несколько переменных, а затем использует разложение по сингулярным значениям (SVD), чтобы установить силу любой связи (т. е. количества общей информации), которая может существовать между две подгруппы компонентов. [21] Это делается с помощью SVD для определения инерции (то есть суммы сингулярных значений) ковариационной матрицы рассматриваемых подгрупп. [21] [17]

См. также

[ редактировать ]
  1. ^ Уолд, С; Сьёстрем, М.; Эрикссон, Л. (2001). «PLS-регрессия: основной инструмент хемометрики». Хемометрика и интеллектуальные лабораторные системы . 58 (2): 109–130. дои : 10.1016/S0169-7439(01)00155-1 . S2CID   11920190 .
  2. ^ Абди, Эрве (2010). «Частичная регрессия наименьших квадратов и проекция на регрессию скрытой структуры (PLS-регрессия)» . ПРОВОДА Вычислительная статистика . 2 : 97–106. дои : 10.1002/wics.51 . S2CID   122685021 .
  3. ^ См. лекцию https://www.youtube.com/watch?v=Px2otK2nZ1c&t=46s.
  4. ^ Линдгрен, Ф; Гелади, П; Уолд, С. (1993). «Алгоритм ядра для PLS». Дж. Хемометрика . 7 : 45–59. дои : 10.1002/cem.1180070104 . S2CID   122950427 .
  5. ^ де Йонг, С.; тер Браак, CJF (1994). «Комментарии к алгоритму ядра PLS». Дж. Хемометрика . 8 (2): 169–174. дои : 10.1002/cem.1180080208 . S2CID   221549296 .
  6. ^ Даял, бакалавр наук; МакГрегор, Дж. Ф. (1997). «Улучшенные алгоритмы PLS». Дж. Хемометрика . 11 (1): 73–85. doi : 10.1002/(SICI)1099-128X(199701)11:1<73::AID-CEM435>3.0.CO;2-# . S2CID   120753851 .
  7. ^ де Йонг, С. (1993). «SIMPLS: альтернативный подход к регрессии частичных наименьших квадратов». Хемометрика и интеллектуальные лабораторные системы . 18 (3): 251–263. дои : 10.1016/0169-7439(93)85002-X .
  8. ^ Раннар, С.; Линдгрен, Ф.; Гелади, П.; Уолд, С. (1994). «Алгоритм ядра PLS для наборов данных со многими переменными и меньшим количеством объектов. Часть 1: Теория и алгоритм». Дж. Хемометрика . 8 (2): 111–125. дои : 10.1002/cem.1180080204 . S2CID   121613293 .
  9. ^ Абди, Х. (2010). «Частичная регрессия наименьших квадратов и проекция регрессии скрытой структуры (PLS-регрессия)». Междисциплинарные обзоры Wiley: вычислительная статистика . 2 : 97–106. дои : 10.1002/wics.51 . S2CID   122685021 .
  10. ^ Хёскульдссон, Агнар (1988). «Методы PLS-регрессии». Журнал хемометрики . 2 (3): 219. doi : 10.1002/cem.1180020306 . S2CID   120052390 .
  11. ^ Тригг, Дж; Уолд, С. (2002). «Ортогональные проекции на скрытые структуры». Журнал хемометрики . 16 (3): 119–128. дои : 10.1002/cem.695 . S2CID   122699039 .
  12. ^ Эрикссон, С. Уолд и Дж. Трюг. «O2PLS® для улучшенного анализа и визуализации сложных данных». https://www.dynacentrix.com/telecharg/SimcaP/O2PLS.pdf
  13. ^ Сэбёа, С.; Альмойя, Т.; Флатбергб, А.; Ааствейта, АХ; Мартенс, Х. (2008). «LPLS-регрессия: метод прогнозирования и классификации под влиянием исходной информации о переменных-предикторах». Хемометрика и интеллектуальные лабораторные системы . 91 (2): 121–132. дои : 10.1016/j.chemolab.2007.10.006 .
  14. ^ Келли, Брайан; Прюитт, Сет (1 июня 2015 г.). «Трехпроходной регрессионный фильтр: новый подход к прогнозированию с использованием множества предикторов». Журнал эконометрики . Многомерные задачи эконометрики. 186 (2): 294–316. doi : 10.1016/j.jeconom.2015.02.011 .
  15. ^ Келли, Брайан; Прюитт, Сет (1 октября 2013 г.). «Рыночные ожидания в разрезе приведенной стоимости». Журнал финансов . 68 (5): 1721–1756. CiteSeerX   10.1.1.498.5973 . дои : 10.1111/jofi.12060 . ISSN   1540-6261 .
  16. ^ Лоренци, Марко; Альтманн, Андре; Гутман, Борис; Рэй, Селина; Арбер, Чарльз; Хибар, Деррек П.; Джаханшад, Неда; Шотт, Джонатан М.; Александр, Дэниел С. (20 марта 2018 г.). «Восприимчивость атрофии мозга к TRIB3 при болезни Альцгеймера, свидетельства функциональной расстановки приоритетов в генетике изображений» . Труды Национальной академии наук . 115 (12): 3162–3167. дои : 10.1073/pnas.1706100115 . ISSN   0027-8424 . ПМК   5866534 . ПМИД   29511103 .
  17. ^ Jump up to: а б с Кришнан, Анджали; Уильямс, Линн Дж.; Макинтош, Энтони Рэндал; Абди, Эрве (май 2011 г.). «Методы частичных наименьших квадратов (PLS) для нейровизуализации: учебное пособие и обзор». НейроИмидж . 56 (2): 455–475. doi : 10.1016/j.neuroimage.2010.07.034 . ПМИД   20656037 . S2CID   8796113 .
  18. ^ Макинтош, Энтони Р.; Мишич, Братислав (3 января 2013 г.). «Многомерный статистический анализ данных нейровизуализации». Ежегодный обзор психологии . 64 (1): 499–525. doi : 10.1146/annurev-psych-113011-143804 . ISSN   0066-4308 . ПМИД   22804773 .
  19. ^ Беггс, Клайв Б.; Маньяно, Кристофер; Белов, Павел; Кравецки, Жаклин; Рамасами, Дипа П.; Хагемайер, Йеспер; Зивадинов, Роберт (2 мая 2016 г.). де Кастро, Фернандо (ред.). «Площадь поперечного сечения внутренней яремной вены и пульсация спинномозговой жидкости в сильвиевом водопроводе: сравнительное исследование между здоровыми субъектами и пациентами с рассеянным склерозом» . ПЛОС ОДИН . 11 (5): e0153960. Бибкод : 2016PLoSO..1153960B . дои : 10.1371/journal.pone.0153960 . ISSN   1932-6203 . ПМЦ   4852898 . ПМИД   27135831 .
  20. ^ Уивинг, Дэн; Джонс, Бен; Иретон, Мэтт; Уайтхед, Сара; Тилль, Кевин; Беггс, Клайв Б. (14 февраля 2019 г.). Коннабой, Крис (ред.). «Преодоление проблемы мультиколлинеарности данных о спортивных результатах: новое применение корреляционного анализа частичных наименьших квадратов» . ПЛОС ОДИН . 14 (2): e0211776. Бибкод : 2019PLoSO..1411776W . дои : 10.1371/journal.pone.0211776 . ISSN   1932-6203 . ПМК   6375576 ​​. ПМИД   30763328 .
  21. ^ Jump up to: а б Абди, Эрве; Уильямс, Линн Дж. (2013), Рейсфельд, Брэд; Мэйено, Артур Н. (ред.), «Методы частичных наименьших квадратов: корреляция частичных наименьших квадратов и частичная регрессия наименьших квадратов», Computational Toxicology , vol. 930, Humana Press, стр. 549–579, номер документа : 10.1007/978-1-62703-059-5_23 , ISBN.  9781627030588 , PMID   23086857

Литература

[ редактировать ]
  • Крамер, Р. (1998). Хемометрические методы количественного анализа . Марсель-Деккер. ISBN  978-0-8247-0198-7 .
  • Франк, Ильдико Э.; Фридман, Джером Х. (1993). «Статистический взгляд на некоторые инструменты хемометрической регрессии». Технометрика . 35 (2): 109–148. дои : 10.1080/00401706.1993.10485033 .
  • Хэнляйн, Майкл; Каплан, Андреас М. (2004). «Руководство для начинающих по частичному анализу наименьших квадратов». Понимание статистики . 3 (4): 283–297. дои : 10.1207/s15328031us0304_4 .
  • Хенселер, Йорг; Фассотт, Георг (2010). «Тестирование модерирующих эффектов в моделях пути PLS: иллюстрация доступных процедур». В Винци, Винченцо Эспозито; Чин, Винн В.; Хенселер, Йорг; Ван, Хуэйвэнь (ред.). Справочник по частичному наименьшим квадратам: концепции, методы и приложения . Спрингер. стр. 713–735. дои : 10.1007/978-3-540-32827-8_31 . ISBN  9783540328278 .
  • Лингьерде, Оле-Кристиан; Кристоферсен, Нильс (2000). «Структура усадки частичных наименьших квадратов». Скандинавский статистический журнал . 27 (3): 459–473. дои : 10.1111/1467-9469.00201 . S2CID   121489764 .
  • Тененхаус, Мишель (1998). PLS-регрессия: теория и практика. Париж: Технип .
  • Росипал, Роман; Кремер, Николь (2006). «Обзор и последние достижения в области метода частичных наименьших квадратов». В Сондерсе, Крейг; Гробельник, Марко; Ганн, Стив; Шоу-Тейлор, Джон (ред.). Подпространство, скрытая структура и выбор функций: семинар по перспективам статистики и оптимизации, SLSFS 2005, Бохинь, Словения, 23–25 февраля 2005 г., Пересмотренные избранные статьи . Конспекты лекций по информатике. Спрингер. стр. 34–51. дои : 10.1007/11752790_2 . ISBN  9783540341383 .
  • Хелланд, Инге С. (1990). «PLS-регрессия и статистические модели». Скандинавский статистический журнал . 17 (2): 97–114. JSTOR   4616159 .
  • Вольд, Герман (1966). «Оценка главных компонентов и связанных с ними моделей методом итеративных наименьших квадратов». В Кришнайа, PR (ред.). Многомерный анализ . Нью-Йорк: Академическая пресса. стр. 391–420.
  • Вольд, Герман (1981). Подход фиксированной точки к взаимозависимым системам . Амстердам: Северная Голландия.
  • Вольд, Герман (1985). «Частичные наименьшие квадраты». В Коце, Сэмюэл; Джонсон, Норман Л. (ред.). Энциклопедия статистических наук . Том. 6. Нью-Йорк: Уайли. стр. 581–591.
  • Вольд, Сванте; Руэ, Аксель; Вольд, Герман; Данн, WJ (1984). «Проблема коллинеарности в линейной регрессии. Подход частичных наименьших квадратов (PLS) к обобщенным обратным операциям». Журнал SIAM по научным и статистическим вычислениям . 5 (3): 735–743. дои : 10.1137/0905052 .
  • Гартуэйт, Пол Х. (1994). «Интерпретация частичных наименьших квадратов». Журнал Американской статистической ассоциации . 89 (425): 122–7. дои : 10.1080/01621459.1994.10476452 . JSTOR   2291207 .
  • Ван, Х., изд. (2010). Справочник по частичному наименьшим квадратам . ISBN  978-3-540-32825-4 .
  • Стоун, М.; Брукс, Р.Дж. (1990). «Непрерывная регрессия: перекрестно проверенный последовательно построенный прогноз, охватывающий регрессию обычных наименьших квадратов, частичных наименьших квадратов и регрессию главных компонентов». Журнал Королевского статистического общества, серия B. 52 (2): 237–269. JSTOR   2345437 .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: fd9f018611e7fcee6b25ec24447ff4ee__1719697140
URL1:https://arc.ask3.ru/arc/aa/fd/ee/fd9f018611e7fcee6b25ec24447ff4ee.html
Заголовок, (Title) документа по адресу, URL1:
Partial least squares regression - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)