Стресс-мажоризация
Мажоризация напряжений — это стратегия оптимизации, используемая в многомерном масштабировании (MDS), где для набора -мерные элементы данных, конфигурация из указывает на ищется -мерное пространство, минимизирующее так называемую напряжения функцию . Обычно является или , то есть матрица перечисляет точки в или многомерное евклидово пространство , чтобы результат можно было визуализировать (т. е. график MDS ). Функция — это функция затрат или потерь , которая измеряет квадрат разницы между идеальными ( -мерные) расстояния и реальные расстояния в r -мерном пространстве. Он определяется как:
где это вес для измерения между парой точек , это евклидово расстояние между и и – идеальное расстояние между точками (их разделение) в -мерное пространство данных. Обратите внимание, что может использоваться для указания степени уверенности в сходстве между точками (например, можно указать 0, если для конкретной пары нет информации).
Конфигурация что сводит к минимуму дает график, на котором точки, находящиеся близко друг к другу, соответствуют точкам, также близким друг к другу в оригинале -мерное пространство данных.
Есть много способов, которые можно было бы свести к минимуму. Например, Крускал [1] рекомендовал итеративный подход наискорейшего спуска . Однако значительно лучший (с точки зрения гарантий и скорости сходимости) метод минимизации стресса был предложен Яном де Леу . [2] Де Леу Итеративный метод мажорирования на каждом этапе минимизирует простую выпуклую функцию, которая одновременно ограничивает сверху и касается поверхности в какой-то момент , называемая опорной точкой . В выпуклом анализе такая функция называется мажорирующей функцией. Этот итеративный процесс мажорирования также называется алгоритмом SMACOF («Масштабирование путем MAjorizing сложной функции»).
Алгоритм SMACOF
[ редактировать ]Функция стресса можно расширить следующим образом:
Обратите внимание, что первый член является константой а второй член квадратичен по (т.е. для матрицы Гессе второй член эквивалентен tr ) и поэтому относительно легко решается. Третий член ограничен:
где имеет:
- для
и для
и .
Доказательством этого неравенства является неравенство Коши-Шварца , см. Борг. [3] (стр. 152–153).
Таким образом, мы имеем простую квадратичную функцию который мажорирует стресс:
Тогда итеративная процедура минимизации выглядит следующим образом:
- в шаг, который мы установили
- остановись, если в противном случае повторите.
Было показано, что этот алгоритм монотонно уменьшает напряжение (см. de Leeuw [2] ).
Использование в рисовании графиков
[ редактировать ]Мажорирование напряжений и алгоритмы, подобные SMACOF, также имеют применение в области рисования графов . [4] [5] То есть можно найти достаточно эстетически привлекательную компоновку сети или графа, минимизируя функцию напряжения в положениях узлов графа. В этом случае обычно устанавливаются на теоретико-графовые расстояния между узлами и и веса считаются . Здесь, выбирается как компромисс между сохранением идеальных расстояний на большие или короткие расстояния. Хорошие результаты были показаны для . [6]
Ссылки
[ редактировать ]- ^ Крускал, Дж. Б. (1964), «Многомерное масштабирование путем оптимизации степени соответствия неметрической гипотезе», Psychometrika , 29 (1): 1–27, doi : 10.1007/BF02289565 .
- ^ Jump up to: а б де Леу, Дж. (1977), «Применение выпуклого анализа к многомерному масштабированию», Барра, младший; Бродо, Ф.; Роми, Г.; и др. (ред.), Последние достижения в статистике , стр. 133–145 .
- ^ Борг, И.; Гроенен, П. (1997), Современное многомерное масштабирование: теория и приложения , Нью-Йорк: Springer-Verlag .
- ^ Михаилидис, Г.; де Леу, Дж. (2001), «Визуализация данных посредством рисования графиков», Computation Stat. , 16 (3): 435–450, CiteSeerX 10.1.1.28.9372 , doi : 10.1007/s001800100077 .
- ^ Ганснер, Э.; Корен, Ю.; Норт, С. (2004), «Построение графика путем мажорирования напряжений», Труды 12-го Int. Симп. Рисование графиков (GD'04) , Конспекты лекций по информатике, том. 3383, Springer-Verlag, стр. 239–250 .
- ^ Коэн, Дж. (1997), «Рисование графиков для передачи близости: метод постепенного расположения», Транзакции ACM по взаимодействию компьютера и человека , 4 (3): 197–229, doi : 10.1145/264645.264657 .