Погоня за проекцией
Поиск проекций (PP) — это тип статистического метода, который включает в себя поиск наиболее «интересных» возможных проекций в многомерных данных. Зачастую прогнозы, которые больше отклоняются от нормального распределения более интересными считаются . По мере обнаружения каждой проекции данные сокращаются путем удаления компонента вдоль этой проекции, и процесс повторяется для поиска новых проекций; именно этот аспект «преследования» послужил причиной применения техники, известной как «соответствующее преследование» . [1] [2]
Идея поиска проекций состоит в том, чтобы найти проекцию или проекции из многомерного пространства в низкомерное пространство, которые раскрывают наиболее подробную информацию о структуре набора данных. Как только интересный набор проекций найден, существующие структуры (кластеры, поверхности и т. д.) можно извлечь и проанализировать отдельно.
Поиск проекций широко используется для слепого разделения источников , поэтому он очень важен при анализе независимых компонентов . Поиск проекций ищет одну проекцию за раз, чтобы извлеченный сигнал был как можно более негауссовым. [3]
История [ править ]
Техника преследования проекций была первоначально предложена и опробована Крускалом. [4] Связанные идеи встречаются в Свитцере (1970), «Численная классификация», стр. 31–43, в «Компьютерных приложениях в науках о Земле: геостатистика», а также в Свитцере и Райте (1971) «Численная классификация эоценовых нуммулитид», Математическая геология, стр. 297–311. Первый успешная реализация принадлежит Джерому Х. Фридману и Джону Тьюки (1974), которые назвали проекционное преследование.
Первоначальная цель поиска проекций заключалась в машинном выборе «интересных» низкоразмерных проекций многомерного облака точек путем численной максимизации определенной целевой функции или индекса проекции. [5]
Несколько лет спустя Фридман и Штютцле расширили идею преследования прогнозов и добавили регрессию преследования прогнозов (PPR), классификацию отслеживания прогнозов (PPC) и оценку плотности отслеживания прогнозов (PPDE).
Особенность [ править ]
Самая захватывающая особенность проекционного поиска заключается в том, что это один из очень немногих многомерных методов, способных обойти «проклятие размерности», вызванное тем фактом, что многомерное пространство в основном пусто. Кроме того, поиск прогнозов может игнорировать нерелевантные (т.е. зашумленные и малоинформационные) переменные. Это явное преимущество перед методами, основанными на расстояниях между точками, такими как минимальные остовные деревья, многомерное масштабирование и большинство методов кластеризации.
Многие методы классического многомерного анализа представляют собой частные случаи проекционного поиска. Примерами являются анализ главных компонент и дискриминантный анализ , а также методы квартимакса и облимакса в факторном анализе .
Серьезным недостатком методов поиска прогнозов является их высокая требовательность к компьютерному времени.
См. также [ править ]
Ссылки [ править ]
- ^ Дж. Х. Фридман и Дж. В. Тьюки (сентябрь 1974 г.). «Алгоритм поиска проекции для исследовательского анализа данных» (PDF) . Транзакции IEEE на компьютерах . С-23 (9): 881–890. дои : 10.1109/TC.1974.224051 . ISSN 0018-9340 .
- ^ MC Джонс и Р. Сибсон (1987). «Что такое преследование проекции?». Журнал Королевского статистического общества, серия A. 150 (1): 1–37. дои : 10.2307/2981662 . JSTOR 2981662 .
- ^ Джеймс В. Стоун (2004); «Независимый анализ компонентов: введение в учебное пособие», MIT Press Cambridge, Массачусетс, Лондон, Англия; ISBN 0-262-69315-1
- ^ Краскал, Дж.Б. 1969 год; «На пути к практическому методу, который помогает раскрыть структуру набора наблюдений путем нахождения преобразования линии, которое оптимизирует новый «индекс конденсации»», страницы 427–440 из: Милтон, Р.К., и Нелдер, Дж.А. (редакторы), Статистические данные. расчет; Нью-Йорк, Академик Пресс
- ^ Пи Джей Хубер (июнь 1985 г.). «Проекционная погоня» . Анналы статистики . 13 (2): 435–475. дои : 10.1214/aos/1176349519 .