Jump to content

Уменьшение размерности

(Перенаправлено из «Уменьшение размеров »)

Снижение размерности , или уменьшение размерности , — это преобразование данных из многомерного пространства в низкомерное пространство так, чтобы низкоразмерное представление сохраняло некоторые значимые свойства исходных данных, в идеале близкие к его внутренней размерности . Работа в многомерных пространствах может быть нежелательна по многим причинам; необработанные данные часто бывают скудными из-за проклятия размерности , а анализ данных обычно невыполним с вычислительной точки зрения (трудно контролировать или обрабатывать). Снижение размерности распространено в областях, которые имеют дело с большим количеством наблюдений и/или большим количеством переменных, таких как обработка сигналов , распознавание речи , нейроинформатика и биоинформатика . [1]

Методы принято разделять на линейные и нелинейные. [1] Подходы также можно разделить на выбор признаков и извлечение признаков . [2] Уменьшение размерности можно использовать для уменьшения шума , визуализации данных , кластерного анализа или в качестве промежуточного шага для облегчения других анализов.

Выбор функции [ править ]

Подходы к выбору функций пытаются найти подмножество входных переменных (также называемых функциями или атрибутами). Три стратегии: стратегия фильтрации (например, получение информации ), стратегия оболочки (например, поиск, основанный на точности) и встроенная стратегия (выбранные функции добавляются или удаляются при построении модели на основе ошибок прогнозирования).

Анализ данных , такой как регрессия или классификация, может быть выполнен в уменьшенном пространстве более точно, чем в исходном пространстве. [3]

Проекция объекта [ править ]

Проекция признаков (также называемая извлечением признаков) преобразует данные из многомерного пространства в пространство с меньшим количеством измерений. Преобразование данных может быть линейным, как в анализе главных компонентов (PCA), но множество нелинейных методов уменьшения размерности . также существует [4] [5] Для многомерных данных тензорное представление можно использовать для уменьшения размерности посредством многолинейного обучения подпространства . [6]

Диаграмма рассеяния, показывающая две групповые точки. Ось проходит через группы. Они переходят в гистограмму, показывающую, где находится каждая точка в проекции PCA.
Визуальное изображение полученной PCA-проекции для набора 2D-точек.

Анализ главных компонент (PCA) [ править ]

Основной линейный метод уменьшения размерности, анализ главных компонентов, выполняет линейное отображение данных в пространство меньшей размерности таким образом, чтобы дисперсия данных в низкоразмерном представлении была максимальной. На практике строится ковариационная (а иногда и корреляционная ) матрица данных и собственные векторы вычисляются этой матрицы. Собственные векторы, соответствующие наибольшим собственным значениям (главным компонентам), теперь можно использовать для восстановления значительной доли дисперсии исходных данных. Более того, первые несколько собственных векторов часто можно интерпретировать с точки зрения крупномасштабного физического поведения системы, поскольку они часто вносят большую часть энергии системы, особенно в низкоразмерных системах. Тем не менее, это необходимо доказывать в каждом конкретном случае, поскольку не все системы демонстрируют такое поведение. Исходное пространство (с размерностью количества точек) было уменьшено (с потерей данных, но, будем надеяться, с сохранением наиболее важной дисперсии) до пространства, охватываемого несколькими собственными векторами. [ нужна ссылка ]

Неотрицательная матричная факторизация NMF ) (

NMF разлагает неотрицательную матрицу на произведение двух неотрицательных, что является многообещающим инструментом в областях, где существуют только неотрицательные сигналы. [7] [8] например, астрономия. [9] [10] NMF хорошо известен со времен правила мультипликативного обновления Ли и Сына. [7] которая постоянно развивалась: включение неопределенностей, [9] учет недостающих данных и параллельные вычисления, [11] последовательное строительство [11] что приводит к стабильности и линейности НМП, [10] а также другие обновления , включая обработку недостающих данных при цифровой обработке изображений . [12]

Благодаря стабильной компонентной базе во время строительства и линейному процессу моделирования последовательный NMF [11] способен сохранять поток при прямых изображениях околозвездных структур в астрономии, [10] как один из методов обнаружения экзопланет , особенно для прямой визуализации околозвездных дисков . По сравнению с PCA, NMF не удаляет среднее значение матриц, что приводит к физическим неотрицательным потокам; поэтому NMF способен сохранить больше информации, чем PCA, как продемонстрировали Ren et al. [10]

Ядро PCA [ править ]

Анализ главных компонент можно использовать нелинейным способом с помощью трюка с ядром . Полученный метод способен создавать нелинейные отображения, которые максимизируют дисперсию данных. Полученный метод называется Kernel PCA .

Ядро PCA на основе графов [ править ]

Другие известные нелинейные методы включают методы многообразного обучения, такие как Isomap , локально линейное встраивание (LLE), [13] Гессианский LLE, собственные отображения Лапласа и методы, основанные на анализе касательного пространства. [14] Эти методы создают низкоразмерное представление данных с использованием функции стоимости, которая сохраняет локальные свойства данных и может рассматриваться как определение ядра на основе графов для Kernel PCA.

Совсем недавно были предложены методы, которые вместо определения фиксированного ядра пытаются изучить ядро ​​с помощью полуопределенного программирования . Наиболее ярким примером такого метода является развертывание максимальной дисперсии (MVU). Основная идея MVU состоит в том, чтобы точно сохранить все попарные расстояния между ближайшими соседями (во внутреннем пространстве продукта), одновременно максимизируя расстояния между точками, которые не являются ближайшими соседями.

Альтернативный подход к сохранению соседства заключается в минимизации функции стоимости, которая измеряет разницу между расстояниями во входном и выходном пространствах. Важные примеры таких методов включают: классическое многомерное масштабирование , идентичное PCA; Isomap , который использует геодезические расстояния в пространстве данных; карты диффузии , которые используют диффузионные расстояния в пространстве данных; t-распределенное стохастическое внедрение соседей (t-SNE), которое минимизирует расхождение между распределениями по парам точек; и анализ криволинейных компонентов.

Другой подход к нелинейному уменьшению размерности заключается в использовании автоэнкодеров — особого вида нейронных сетей прямого распространения со скрытым слоем с узким местом. [15] Обучение глубоких кодировщиков обычно выполняется с использованием жадного послойного предварительного обучения (например, с использованием стека ограниченных машин Больцмана ), за которым следует этап точной настройки на основе обратного распространения ошибки .

Визуальное изображение полученной проекции LDA для набора 2D-точек.

Линейный дискриминантный анализ (LDA) [ править ]

Линейный дискриминантный анализ (LDA) — это обобщение линейного дискриминанта Фишера, метода, используемого в статистике, распознавании образов и машинном обучении для поиска линейной комбинации признаков, которая характеризует или разделяет два или более классов объектов или событий.

Обобщенный дискриминантный анализ (GDA) [ править ]

GDA занимается нелинейным дискриминантным анализом с использованием оператора функции ядра. Основная теория близка к машинам опорных векторов (SVM), поскольку метод GDA обеспечивает отображение входных векторов в многомерное пространство признаков. [16] [17] Подобно LDA, цель GDA — найти проекцию функций в пространство более низкой размерности путем максимизации соотношения разброса между классами и разброса внутри класса.

Автоэнкодер [ править ]

Автоэнкодеры можно использовать для изучения функций и кодирования нелинейного уменьшения размерности вместе с обратной функцией от кодирования к исходному представлению.

t-SNE [ edit ]

T-распределенное стохастическое встраивание соседей (t-SNE) — это метод нелинейного уменьшения размерности, полезный для визуализации многомерных наборов данных. Его не рекомендуется использовать в таком анализе, как кластеризация или обнаружение выбросов, поскольку он не обязательно хорошо сохраняет плотность или расстояния. [18]

УМАП [ править ]

Аппроксимация и проекция равномерного многообразия (UMAP) — это метод нелинейного уменьшения размерности. Визуально он похож на t-SNE, но предполагает, что данные равномерно распределены на локально связном римановом многообразии и что риманова метрика локально постоянна или приблизительно локально постоянна.

ПаКМАп [ править ]

PaCMAp (приближение попарно управляемого многообразия) — это метод нелинейного уменьшения размерности, который можно использовать для визуализации. Систематическая оценка методов уменьшения размерности с учетом пяти компонентов (сохранение локальной структуры, сохранение глобальной структуры, чувствительность к выбору параметров, чувствительность к выбору предварительной обработки и эффективность вычислений) показала, что PaCMAp — это метод, который лучше сохраняет как глобальные, так и локальные структуры, в то время как быть менее чувствительным к выбору предварительной обработки. [19]

Уменьшение размеров [ править ]

Для наборов данных большой размерности (т.е. с числом измерений более 10) уменьшение размерности обычно выполняется до применения алгоритма K-ближайших соседей (k-NN), чтобы избежать эффектов проклятия размерности . [20]

Извлечение признаков и уменьшение размерности можно объединить за один этап с использованием методов анализа главных компонентов (PCA), линейного дискриминантного анализа (LDA), канонического корреляционного анализа (CCA) или неотрицательной матричной факторизации (NMF) в качестве последующего этапа предварительной обработки. путем кластеризации с помощью K-NN по векторам признаков в пространстве уменьшенной размерности. В машинном обучении этот процесс также называется низкоразмерным встраиванием . [21]

Для наборов данных очень большой размерности (например, при выполнении поиска по сходству в видеопотоках в реальном времени, данных ДНК или многомерных временных рядах ) выполняется быстрый приблизительный поиск K-NN с использованием локально-чувствительного хеширования , случайной проекции , [22] «эскизы», [23] или другие методы поиска по сходству большого размера из набора инструментов конференции VLDB могут быть единственным возможным вариантом.

Приложения [ править ]

Метод уменьшения размерности, который иногда используется в нейробиологии, — это максимально информативные измерения . [ нужна ссылка ] который находит низкомерное представление набора данных, при котором больше информации сохраняется как можно об исходных данных.

См. также [ править ]

Примечания [ править ]

  1. ^ Jump up to: Перейти обратно: а б ван дер Маатен, Лоренс; Постма, Эрик; ван ден Херик, Яап (26 октября 2009 г.). «Уменьшение размерности: сравнительный обзор» (PDF) . J Mach Learn Res . 10 :66–71.
  2. ^ Пудил, П.; Нововичова, Ю. (1998). «Новые методы выбора подмножества функций с учетом знания проблем». Ин Лю, Хуан; Мотода, Хироши (ред.). Извлечение признаков, построение и выбор . п. 101. дои : 10.1007/978-1-4615-5725-8_7 . ISBN  978-1-4613-7622-4 .
  3. ^ Рико-Сулайес, Антонио (2017). «Уменьшение размерности векторного пространства в автоматической классификации для установления авторства» . Журнал электроники, автоматики и связи . 38 (3): 26–35. ISSN   1815-5928 .
  4. ^ Самет, Х. (2006) Основы многомерных и метрических структур данных . Морган Кауфманн. ISBN   0-12-369446-9
  5. ^ К. Дин, X. Хе, Х. Чжа, HD Саймон, Адаптивное уменьшение размерности для кластеризации многомерных данных , Материалы международной конференции по интеллектуальному анализу данных, 2002 г.
  6. ^ Лу, Хайпин; Платаниотис, КН; Венецанопулос, АН (2011). «Обзор многолинейного обучения подпространства для тензорных данных» (PDF) . Распознавание образов . 44 (7): 1540–1551. Бибкод : 2011PatRe..44.1540L . дои : 10.1016/j.patcog.2011.01.004 .
  7. ^ Jump up to: Перейти обратно: а б Дэниел Д. Ли и Х. Себастьян Сын (1999). «Изучение частей объектов путем факторизации неотрицательной матрицы». Природа . 401 (6755): 788–791. Бибкод : 1999Natur.401..788L . дои : 10.1038/44565 . ПМИД   10548103 . S2CID   4428232 .
  8. ^ Дэниел Д. Ли и Х. Себастьян Сын (2001). Алгоритмы факторизации неотрицательной матрицы (PDF) . Достижения в области нейронных систем обработки информации 13: Материалы конференции 2000 года. МТИ Пресс . стр. 556–562.
  9. ^ Jump up to: Перейти обратно: а б Блэнтон, Майкл Р.; Роуэйс, Сэм (2007). «К-коррекции и преобразования фильтров в ультрафиолетовом, оптическом и ближнем инфракрасном диапазонах». Астрономический журнал . 133 (2): 734–754. arXiv : astro-ph/0606170 . Бибкод : 2007AJ....133..734B . дои : 10.1086/510127 . S2CID   18561804 .
  10. ^ Jump up to: Перейти обратно: а б с д Рен, Бин; Пуэйо, Лоран; Чжу, Гуантунь Б.; Дюшен, Гаспар (2018). «Неотрицательная матричная факторизация: надежное извлечение расширенных структур» . Астрофизический журнал . 852 (2): 104. arXiv : 1712.10317 . Бибкод : 2018ApJ...852..104R . дои : 10.3847/1538-4357/aaa1f2 . S2CID   3966513 .
  11. ^ Jump up to: Перейти обратно: а б с Чжу, Гуантунь Б. (19 декабря 2016 г.). «Неотрицательная матричная факторизация (NMF) с гетероскедастическими неопределенностями и отсутствующими данными». arXiv : 1612.06037 [ astro-ph.IM ].
  12. ^ Рен, Бин; Пуэйо, Лоран; Чен, Кристина; Шоке, Элоди; Дебес, Джон Х.; Дюшен, Гаспар; Менар, Франсуа; Перрин, Маршалл Д. (2020). «Использование вменения данных для разделения сигналов в высококонтрастных изображениях» . Астрофизический журнал . 892 (2): 74. arXiv : 2001.00563 . Бибкод : 2020ApJ...892...74R . дои : 10.3847/1538-4357/ab7024 . S2CID   209531731 .
  13. ^ Ровейс, ST; Саул, ЛК (2000). «Нелинейное уменьшение размерности путем локально линейного встраивания». Наука . 290 (5500): 2323–2326. Бибкод : 2000Sci...290.2323R . CiteSeerX   10.1.1.111.3313 . дои : 10.1126/science.290.5500.2323 . ПМИД   11125150 . S2CID   5987139 .
  14. ^ Чжан, Чжэньюэ; Чжа, Хунъюань (2004). «Основные многообразия и нелинейное уменьшение размерности посредством выравнивания касательного пространства». Журнал SIAM по научным вычислениям . 26 (1): 313–338. Бибкод : 2004SJSC...26..313Z . дои : 10.1137/s1064827502419154 .
  15. ^ Хунбин Ху, Стивен А. Захориан, (2010) «Методы уменьшения размерности для фонетического распознавания HMM» , ICASSP 2010, Даллас, Техас
  16. ^ Бода, Г.; Ануар, Ф. (2000). «Обобщенный дискриминантный анализ с использованием ядерного подхода». Нейронные вычисления . 12 (10): 2385–2404. CiteSeerX   10.1.1.412.760 . дои : 10.1162/089976600300014980 . ПМИД   11032039 . S2CID   7036341 .
  17. ^ Хагигат, Мохаммед; Зонуз, Саман; Абдель-Мотталеб, Мохамед (2015). «CloudID: надежная облачная и межкорпоративная биометрическая идентификация». Экспертные системы с приложениями . 42 (21): 7905–7916. дои : 10.1016/j.eswa.2015.06.025 .
  18. ^ Шуберт, Эрих; Герц, Майкл (2017). «Внутреннее t-стохастическое встраивание соседей для визуализации и обнаружения выбросов» . В Биксе, Кристиан; Борутта, Феликс; Крегер, Пер; Зайдль, Томас (ред.). Поиск по сходству и его применение . Конспекты лекций по информатике. Том. 10609. Чам: Springer International Publishing. стр. 188–203. дои : 10.1007/978-3-319-68474-1_13 . ISBN  978-3-319-68474-1 .
  19. ^ Хуанг Х., Ван Ю., Рудин К. и др. К комплексной оценке методов уменьшения размеров для визуализации транскриптомных данных. Коммун Биол 5, 719 (2022). https://doi.org/10.1038/s42003-022-03628-x
  20. ^ Кевин Бейер, Джонатан Гольдштейн, Рагху Рамакришнан, Ури Шафт (1999) «Когда имеет смысл слово «ближайший сосед»?» . Теория баз данных — ICDT99 , 217–235.
  21. ^ Шоу, Б.; Джебара, Т. (2009). «Встраивание, сохраняющее структуру» (PDF) . Материалы 26-й ежегодной международной конференции по машинному обучению – ICML '09 . п. 1. CiteSeerX   10.1.1.161.451 . дои : 10.1145/1553374.1553494 . ISBN  9781605585161 . S2CID   8522279 .
  22. ^ Бингэм, Э.; Маннила, Х. (2001). «Случайная проекция при уменьшении размерности». Материалы седьмой международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных – KDD '01 . п. 245. дои : 10.1145/502512.502546 . ISBN  978-1581133912 . S2CID   1854295 .
  23. ^ Шаша, D High (2004) Открытие производительности во временных рядах Берлин: Springer. ISBN   0-387-00857-8

Ссылки [ править ]

  • Бёмке, Брэд; Гринвелл, Брэндон М. (2019). «Уменьшение размеров» . Практическое машинное обучение с помощью R . Чепмен и Холл. стр. 343–396. ISBN  978-1-138-49568-5 .
  • Каннингем, П. (2007). Уменьшение размеров (Технический отчет). Университетский колледж Дублина. UCD-CSI-2007-7.
  • Фодор, И. (2002). Обзор методов уменьшения размеров (Технический отчет). Центр прикладных научных вычислений, Национальный Ливерморский национальный университет им. Лоуренса. UCRL-ID-148494.
  • Лакшми Падмаджа, Дьярам; Вишнувардхан, Б. (2016). «Сравнительное исследование методов выбора подмножества признаков для уменьшения размерности научных данных». 2016 6-я Международная конференция IEEE по передовым вычислениям (IACC) . стр. 31–34. дои : 10.1109/IACC.2016.16 . ISBN  978-1-4673-8286-1 . S2CID   14532363 .

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: bcaaac2abf24e5cc8a5018046e2ee0c9__1717458780
URL1:https://arc.ask3.ru/arc/aa/bc/c9/bcaaac2abf24e5cc8a5018046e2ee0c9.html
Заголовок, (Title) документа по адресу, URL1:
Dimensionality reduction - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)