Многомерное масштабирование
Часть серии по статистике. |
Визуализация данных и информации |
---|
Основные размеры |
Важные цифры |
Информационные графические типы |
|
Связанные темы |
Многомерное масштабирование ( MDS ) — средство визуализации уровня сходства отдельных случаев набора данных. MDS используется для перевода расстояний между каждой парой объекты в наборе в конфигурацию точки отображаются в абстрактном декартовом пространстве . [1]
С технической точки зрения, MDS относится к набору связанных методов ординации , используемых при визуализации информации , в частности, для отображения информации, содержащейся в матрице расстояний . Это форма нелинейного уменьшения размерности .
Учитывая матрицу расстояний с расстояниями между каждой парой объектов в наборе и выбранным числом измерений N MDS , алгоритм помещает каждый объект в N - мерное пространство (низкомерное представление) так, что расстояния между объектами сохраняются как можно лучше. Для N = 1, 2 и 3 полученные точки можно визуализировать на диаграмме рассеяния . [2]
Основной теоретический вклад в MDS был сделан Джеймсом О. Рамзи из Университета Макгилла , который также считается основателем функционального анализа данных . [3]
Типы
[ редактировать ]Алгоритмы MDS попадают в таксономию в зависимости от значения входной матрицы:
Классическое многомерное масштабирование
[ редактировать ]Он также известен как анализ главных координат (PCoA), масштабирование Торгерсона или масштабирование Торгерсона-Гауэра. Он принимает входную матрицу, дающую различия между парами элементов, и выводит координатную матрицу, конфигурация которой минимизирует функцию потерь, называемую напряжением . [2] который дается где обозначают векторы в N -мерном пространстве, обозначает скалярное произведение между и , и являются элементами матрицы определенные на шаге 2 следующего алгоритма, которые вычисляются на основе расстояний.
- Шаги классического алгоритма MDS:
- Классический MDS использует тот факт, что координатная матрица может быть получена путем разложения по собственным значениям из . И матрица можно вычислить по матрице близости с помощью двойного центрирования. [4]
- Настройте квадратную матрицу близости
- Примените двойное центрирование: с помощью центрирующей матрицы , где количество объектов, это идентификационная матрица и это матрица всех единиц.
- Определите наибольшие собственные значения и соответствующие собственные векторы из (где — количество измерений, желаемых для вывода).
- Сейчас, , где это матрица собственные векторы и матрица диагональная собственные значения .
- Классический MDS предполагает метрические расстояния. Таким образом, это неприменимо для прямых оценок несходства.
Метрическое многомерное масштабирование (mMDS)
[ редактировать ]Это расширенный набор классической MDS, который обобщает процедуру оптимизации на множество функций потерь и входных матриц известных расстояний с весами и так далее. Полезная функция потерь в этом контексте называется стрессом , который часто минимизируется с помощью процедуры, называемой мажорированием стресса . Метрический MDS минимизирует функцию стоимости, называемую «стресс», которая представляет собой остаточную сумму квадратов:
Метрическое масштабирование использует степенное преобразование с экспонентой, управляемой пользователем. : и для расстояния. В классическом масштабировании Неметрическое масштабирование определяется использованием изотонической регрессии для непараметрической оценки трансформации несходств.
Неметрическое многомерное масштабирование (NMDS)
[ редактировать ]В отличие от метрического MDS, неметрический MDS находит как непараметрическую монотонную связь между различиями в матрице элементов и евклидовыми расстояниями между элементами, так и расположением каждого элемента в низкомерном пространстве.
Позволять быть различием между точками . Позволять быть евклидовым расстоянием между внедренными точками .
Теперь для каждого выбора вложенных точек и представляет собой монотонно возрастающую функцию , определим функцию «напряжение»:
Фактор в знаменателе необходимо, чтобы не допустить «обвала». Предположим, что мы определяем вместо этого , то его можно тривиально минимизировать, установив , затем сверните каждую точку в одну и ту же точку.
Существует несколько вариантов этой функции стоимости. Программы MDS автоматически минимизируют стресс, чтобы получить решение MDS.
Ядром неметрического алгоритма MDS является двойной процесс оптимизации. Сначала необходимо найти оптимальное монотонное преобразование близостей. Во-вторых, точки конфигурации должны быть оптимально расположены так, чтобы их расстояния как можно ближе соответствовали масштабированным близостям.
NMDS необходимо одновременно оптимизировать две цели. Обычно это делается итеративно:
- Инициализировать случайным образом, например, путем выборки из нормального распределения.
- Делать до тех пор, пока не будет достигнут критерий остановки (например, )
- Решите для методом изотонической регрессии .
- Решите для градиентным спуском или другими методами.
- Возвращаться и
Анализ наименьшего пространства (SSA) Луиса Гутмана является примером неметрической процедуры MDS.
Обобщенное многомерное масштабирование (GMD)
[ редактировать ]Расширение метрического многомерного масштабирования, в котором целевым пространством является произвольное гладкое неевклидово пространство. В тех случаях, когда различия представляют собой расстояния на поверхности, а целевым пространством является другая поверхность, GMDS позволяет найти вложение одной поверхности в другую с минимальными искажениями. [5]
Подробности
[ редактировать ]Данные, подлежащие анализу, представляют собой совокупность объекты (цвета, лица, материалы и т. д.), для которых функция расстояния определена ,
- расстояние между -й и -ые объекты.
Эти расстояния являются элементами матрицы несходства.
Цель MDS, учитывая , чтобы найти векторы такой, что
- для всех ,
где является векторной нормой . В классической МДС этой нормой является евклидово расстояние , но в более широком смысле это может быть метрическая или произвольная функция расстояния. [6] Например, при работе с данными смешанного типа, которые содержат как числовые, так и категориальные дескрипторы, расстояние Гауэра . распространённой альтернативой является [ нужна ссылка ]
Другими словами, MDS пытается найти отображение из объекты в так, что расстояния сохраняются. Если размер выбрано равным 2 или 3, мы можем построить векторы чтобы получить представление о сходстве между объекты. Обратите внимание, что векторы не уникальны: с помощью евклидова расстояния их можно произвольно переносить, вращать и отражать, поскольку эти преобразования не меняют парных расстояний. .
(Примечание: символ указывает на набор действительных чисел , а обозначение относится к декартову произведению копии , который представляет собой -мерное векторное пространство над полем действительных чисел.)
Существуют различные подходы к определению векторов . Обычно MDS формулируется как задача оптимизации , где находится как минимизатор некоторой функции стоимости, например,
Затем решение может быть найдено с помощью методов численной оптимизации. Для некоторых конкретно выбранных функций стоимости минимизаторы могут быть сформулированы аналитически в терминах собственных разложений матрицы . [2]
Процедура
[ редактировать ]Проведение исследования МДС состоит из нескольких этапов:
- Формулируем задачу : какие переменные вы хотите сравнить? Сколько переменных вы хотите сравнить? С какой целью будет использоваться исследование?
- Получение входных данных . Например: - Респондентам задают ряд вопросов. Для каждой пары продуктов их просят оценить сходство (обычно по 7-балльной шкале Лайкерта от очень похожего до очень непохожего). Первый вопрос может быть, например, о Coke/Pepsi, следующий – о рутбире Coke/Hires, следующий – о Pepsi/Dr Pepper, следующий – о рутбире Dr Pepper/Hires и т. д. Количество вопросов зависит от количества вопросов. брендов и может быть рассчитана как где Q — количество вопросов, а N — количество брендов. Этот подход называется «Данные восприятия: прямой подход». Есть два других подхода. Существует «Данные восприятия: производный подход», в котором продукты разлагаются на атрибуты, которые оцениваются по семантической дифференциальной шкале. Другой вариант — «подход с данными о предпочтениях», при котором респондентам задают вопрос об их предпочтениях, а не о сходстве.
- Запуск статистической программы MDS . Программное обеспечение для запуска процедуры доступно во многих пакетах статистического программного обеспечения. Часто существует выбор между метрическим MDS (который имеет дело с данными на уровне интервалов или отношений) и неметрическим MDS. [7] (который имеет дело с порядковыми данными).
- Определите количество измерений . Исследователь должен решить, сколько измерений он хочет создать с помощью компьютера. Интерпретируемость решения MDS часто важна, а решения более низкой размерности обычно легче интерпретировать и визуализировать. Однако выбор размеров также является вопросом балансировки недостаточного и переобучения. Решения меньшей размерности могут оказаться неподходящими, если не учитывать важные измерения несходства данных. Решения более высоких размерностей могут соответствовать шуму при измерениях несходства. Таким образом, инструменты выбора модели, такие как AIC , BIC , факторы Байеса или перекрестная проверка , могут быть полезны для выбора размерности, которая уравновешивает недостаточное и переобучение.
- Картирование результатов и определение размеров . Статистическая программа (или связанный с ней модуль) будет отображать результаты. На карте будет отображен каждый продукт (обычно в двухмерном пространстве). Близость продуктов друг к другу указывает либо на то, насколько они похожи, либо на то, насколько они предпочтительны, в зависимости от того, какой подход использовался. Однако не совсем очевидно, как размеры встраивания на самом деле соответствуют измерениям поведения системы. Здесь можно вынести субъективное суждение о соответствии (см. картографирование восприятия ).
- Проверьте результаты на надежность и достоверность . Вычислите R-квадрат, чтобы определить, какая доля дисперсии масштабированных данных может быть учтена с помощью процедуры MDS. R-квадрат 0,6 считается минимально приемлемым уровнем. [ нужна ссылка ] R-квадрат 0,8 считается хорошим для метрического масштабирования, а 0,9 — для неметрического масштабирования. Другими возможными тестами являются стресс Крускала, тесты с разделением данных, тесты на стабильность данных (т. е. исключение одного бренда) и надежность повторных тестов.
- Подробно сообщайте о результатах . Наряду с картографированием , по крайней мере, показатель расстояния (например, индекс Соренсона , индекс Жаккара следует указать ) и надежность (например, значение напряжения). Также очень желательно указать алгоритм (например, Крускала, Мэзера), который часто определяется используемой программой (иногда заменяя отчет об алгоритме), если вы задали стартовую конфигурацию или имели случайный выбор, количество прогонов , оценка размерности, результаты метода Монте-Карло , количество итераций, оценка устойчивости и пропорциональная дисперсия каждой оси (r-квадрат).
Реализации
[ редактировать ]- ELKI включает две реализации MDS.
- MATLAB включает две реализации MDS (для классического ( cmdscale ) и неклассического ( mdscale ) MDS соответственно).
- Язык программирования R предлагает несколько реализаций MDS, например, базовую функцию cmdscale , пакеты smacof. [8] (мМДС и нМДС) и веганский (взвешенный МДС).
- scikit-learn содержит функцию sklearn.manifold.MDS .
См. также
[ редактировать ]- Кластеризация данных
- t-распределенное стохастическое встраивание соседей
- Факторный анализ
- Дискриминантный анализ
- Уменьшение размерности
- Геометрия расстояния
- Определитель Кэли – Менгера
- Картирование Сампо
- Иконография корреляций
Ссылки
[ редактировать ]- ^ Мид, А. (1992). «Обзор развития методов многомерного масштабирования». Журнал Королевского статистического общества. Серия D (Статист) . 41 (1): 27–39. JSTOR 2348634 .
Абстрактный. Методы многомерного масштабирования в настоящее время являются распространенным статистическим инструментом в психофизике и сенсорном анализе. Развитие этих методов показано на основе оригинального исследования Торгерсона (метрическое масштабирование), Шепарда и Краскала (неметрическое масштабирование) через масштабирование индивидуальных различий и методы максимального правдоподобия, предложенные Рамзи.
- ^ Перейти обратно: а б с Борг, И.; Гроенен, П. (2005). Современное многомерное масштабирование: теория и приложения (2-е изд.). Нью-Йорк: Springer-Verlag. стр. 207–212. ISBN 978-0-387-94845-4 .
- ^ Дженест, Кристиан; Нешлехова, Йоханна Г.; Рамзи, Джеймс О. (2014). «Разговор с Джеймсом О. Рамзи» . Международное статистическое обозрение/Revue Internationale de Statistique . 82 (2): 161–183. JSTOR 43299752 . Проверено 30 июня 2021 г.
- ^ Викельмайер, Флориан. «Введение в MDS». Отдел исследования качества звука, Ольборгский университет, Дания (2003 г.): 46
- ^ Бронштейн А.М., Бронштейн М.М., Киммел Р. (январь 2006 г.). «Обобщенное многомерное масштабирование: основа для изометрически-инвариантного частичного сопоставления поверхностей» . Учеб. Натл. акад. наук. США . 103 (5): 1168–72. Бибкод : 2006PNAS..103.1168B . дои : 10.1073/pnas.0508601103 . ПМЦ 1360551 . ПМИД 16432211 .
- ^ Крускал, Дж. Б. , и Виш, М. (1978), Многомерное масштабирование , Серия статей Университета Сейджа о количественном применении в социальных науках, 07-011. Беверли-Хиллз и Лондон: Sage Publications.
- ^ Краскал, Дж. Б. (1964). «Многомерное масштабирование путем оптимизации соответствия неметрической гипотезе». Психометрика . 29 (1): 1–27. дои : 10.1007/BF02289565 . S2CID 48165675 .
- ^ Леув, Ян де; Майр, Патрик (2009). «Многомерное масштабирование с использованием мажорирования: SMACOF в R» . Журнал статистического программного обеспечения . 31 (3). дои : 10.18637/jss.v031.i03 . ISSN 1548-7660 .
Библиография
[ редактировать ]- Кокс, ТФ; Кокс, MAA (2001). Многомерное масштабирование . Чепмен и Холл.
- Коксон, Энтони П.М. (1982). Руководство пользователя по многомерному масштабированию. Со специальной ссылкой на библиотеку компьютерных программ MDS(X) . Лондон: Образовательные книги Heinemann.
- Грин, П. (январь 1975 г.). «Маркетинговые приложения MDS: оценка и перспективы». Журнал маркетинга . 39 (1): 24–31. дои : 10.2307/1250799 . JSTOR 1250799 .
- МакКьюн Б. и Грейс Дж. Б. (2002). Анализ экологических сообществ . Орегон, Гленеден-Бич: Разработка программного обеспечения MjM. ISBN 978-0-9721290-0-8 .
- Янг, Форрест В. (1987). Многомерное масштабирование: история, теория и приложения . Лоуренс Эрлбаум Ассошиэйтс. ISBN 978-0898596632 .
- Торгерсон, Уоррен С. (1958). Теория и методы масштабирования . Нью-Йорк: Уайли. ISBN 978-0-89874-722-5 .