k q -квартиры
В интеллектуальном анализе данных и обучении машинном k q - Flats алгоритм [1] [2] — это итерационный метод, целью которого является разделение m наблюдений на k кластеров, где каждый кластер близок к q -плоскому значению , где q — заданное целое число.
Это обобщение алгоритма k -средних . В алгоритме k -means кластеры формируются таким образом, что каждый кластер близок к одной точке, которая является 0 -плоской. Алгоритм k q - Flats дает лучший результат кластеризации, чем k алгоритм - средних для некоторого набора данных.
Описание
[ редактировать ]Эта статья может быть слишком технической для понимания большинства читателей . ( декабрь 2011 г. ) |
Формулировка задачи
[ редактировать ]Учитывая набор A из m наблюдений где каждое наблюдение представляет собой n-мерный действительный вектор, алгоритм k q -квартир направлен на разделение m точек наблюдения путем создания k q -квартир, которые минимизируют сумму квадратов расстояний каждого наблюдения до ближайшей q -плоскости.
q -бемоль — это подмножество это соответствует . Например, 0 – флэт – точка; бемоль 1- — линия; - квартира 2 – плоскость; а -плоскость – это гиперплоскость . q -плоская может быть охарактеризована множеством решений линейной системы уравнений: , где , .
Обозначим разбиение как . Проблему можно сформулировать как
( П1 ) |
где это проекция на . Обратите внимание, что это расстояние от к .
Алгоритм
[ редактировать ]Алгоритм аналогичен алгоритму k-средних (т. е. алгоритму Ллойда) тем, что он попеременно выполняет назначение кластера и обновление кластера. В частности, алгоритм начинается с начального набора q -квартир. и продолжает, чередуя следующие два шага:
- Назначение кластера
- (данные q -плоские, назначьте каждую точку ближайшему q -плоскому): i -й кластер обновляется как
- Обновление кластера
- (учитывая назначение кластера, обновите q -плоские значения): Для , позволять со строками, соответствующими всем отнесен к кластеру l . Набор быть матрицей, столбцы которой являются ортонормированными собственными векторами, соответствующими наименьшие собственные значения и .
Остановитесь, когда задания больше не меняются.
Шаг назначения кластера использует следующий факт: если задан q -плоский и вектор a , где , расстояние от a до q -плоской является
Ключевой частью этого алгоритма является то, как обновить кластер, т.е. по заданным m точкам, как найти q -плоскую поверхность, которая минимизирует сумму квадратов расстояний каждой точки до q -плоской плоскости. Математически эта задача такова: учитывая решить задачу квадратичной оптимизации
при условии | ( П2 ) |
где дано, и .
Проблему можно решить с помощью метода множителей Лагранжа, и решение указано на этапе обновления кластера.
Можно показать, что алгоритм завершится за конечное число итераций (не более общего числа возможных назначений, ограниченного ). Кроме того, алгоритм завершится в точке, в которой общая цель не может быть уменьшена ни путем другого назначения, ни путем определения новых плоскостей кластера для этих кластеров (такая точка в справочниках называется «локально оптимальной»).
Этот результат сходимости является следствием того, что задача (P2) может быть решена точно. Тот же результат сходимости справедлив и для алгоритма k -средних, поскольку проблема обновления кластера может быть решена точно.
Связь с другими методами машинного обучения
[ редактировать ]k -средних алгоритм
[ редактировать ]Алгоритм k q -flats является обобщением алгоритма k -means. Фактически, k алгоритм -средних является алгоритмом k 0 -квартир, поскольку точка является 0-плоской. Несмотря на их связь, их следует использовать в разных сценариях. k q -алгоритм плоских рамок для случая, когда данные лежат в нескольких низкоразмерных пространствах. Алгоритм k -средних желателен для случая, когда кластеры имеют окружающее измерение. Например, если все наблюдения лежат в двух строках, k q - Flats с алгоритм можно использовать; если наблюдения представляют собой два гауссовых облака , k можно использовать алгоритм -средних.
Обучение разреженному словарю
[ редактировать ]Естественные сигналы лежат в многомерном пространстве. Например, размер изображения размером 1024х1024 составляет около 10 6 , что слишком велико для большинства алгоритмов обработки сигналов. Один из способов избавиться от высокой размерности — найти такой набор базисных функций, при котором многомерный сигнал может быть представлен лишь несколькими базисными функциями. Другими словами, коэффициенты представления сигнала лежат в маломерном пространстве, в котором проще применять алгоритмы обработки сигналов. В литературе вейвлет-преобразование обычно используется при обработке изображений, а преобразование Фурье обычно используется при обработке звука. Набор базисных функций обычно называют словарем .
Однако неясно, какой словарь лучше всего использовать при наличии набора данных сигнала. Один из популярных подходов — найти словарь по набору данных, используя идею разреженного словарного обучения. Его цель — найти словарь, в котором сигнал может быть скудно представлен словарем. Задачу оптимизации можно записать следующим образом.
где
- X представляет собой d - N. матрицу Каждый столбец X представляет сигнал, всего имеется N сигналов.
- B является матрицей d - l . Каждый столбец B представляет базисную функцию, всего l базисных функций. в словаре
- R представляет собой l размера на N. матрицу ( i -й столбец R ) представляет собой коэффициенты, когда мы используем словарь для представления i -го столбца X. B
- обозначает нулевую норму вектора v .
- обозначает норму Фробениуса матрицы V .
Идея алгоритма k q - Flats по своей природе аналогична изучению разреженного словаря. Если мы ограничим q -плоское до q -мерного подпространства, то алгоритм k q- плоских площадей просто находит замкнутое q -мерное подпространство для данного сигнала. Разреженное обучение словарю делает то же самое, за исключением дополнительных ограничений на разреженность представления. Математически можно показать, что алгоритм k q - Flats представляет собой форму обучения разреженного словаря с дополнительной блочной структурой на R .
Позволять быть матрица, где столбцы являются основой k -й квартиры. Тогда проекция сигнала x на k -ю плоскость равна , где является q -мерным коэффициентом. Позволять обозначают конкатенацию базиса K квартир, легко показать, что k q -плоский алгоритм аналогичен следующему.
Блочная структура R связана с тем фактом, что каждый сигнал помечен только одной квартире. Сравнивая две формулировки, k q - Flat аналогичен моделированию разреженного словаря, когда с дополнительной блочной структурой на R. и Пользователи могут обратиться к статье Шлама. [3] для более подробного обсуждения взаимосвязи между этими двумя понятиями.
Приложения и вариации
[ редактировать ]Классификация
[ редактировать ]Классификация — это процедура, которая классифицирует входной сигнал по различным классам. Одним из примеров является классификация электронного письма на классы спама и неспама . Алгоритмы классификации обычно требуют контролируемого этапа обучения. На этапе контролируемого обучения данные обучения для каждого класса используются алгоритмом для изучения характеристик класса. На этапе классификации новое наблюдение классифицируется в класс с использованием уже обученных характеристик.
k q Для классификации можно использовать -плоский алгоритм. Предположим, что всего существует m классов. Для каждого класса k квартир априори обучаются с помощью набора обучающих данных. Когда появятся новые данные, найдите квартиру, которая ближе всего к новым данным. Затем новые данные привязываются к классу ближайшей квартиры.
Однако эффективность классификации можно еще улучшить, если мы наложим некоторую структуру на квартиры. Один из возможных вариантов — потребовать, чтобы разные квартиры разного класса находились на достаточном расстоянии друг от друга. Некоторые исследователи [4] используйте эту идею и разработайте дискриминативный k q-плоский алгоритм.
K-метрики [3]
[ редактировать ]В k q - Flats алгоритме используется для измерения ошибки представления. обозначает проекцию x на плоскость F . Если данные лежат в q -мерной плоскости, то одна q -плоская плоскость может очень хорошо представлять данные. Напротив, если данные лежат в пространстве очень высокой размерности, но вблизи общего центра, то алгоритм k-средних является лучшим способом k q представления данных, чем алгоритм -плоский. Это потому, что k -means. используется алгоритм для измерения ошибки, где обозначает центр. K-метрика — это обобщение, в котором используется как идея плоского, так и среднего значения. В k-метриках ошибка измеряется следующей метрикой Махаланобиса.
где A — положительная полуопределенная матрица.
Если A — единичная матрица, то метрика Махаланобиса точно такая же, как мера ошибки, используемая в k -средних. Если A не является единичной матрицей, то будет отдавать предпочтение определенным направлениям в качестве меры k q -плоской ошибки.
Ссылки
[ редактировать ]- ^ Брэдли, PS; Мангасарян, OL (2000). «Кластеризация в k-плоскости» . Журнал глобальной оптимизации . 16 (1): 23–32. дои : 10.1023/А:1008324625522 . S2CID 913034 .
- ^ Ценг, П. (2000). «Ближайшие q-плоские к m точкам» . Журнал теории оптимизации и приложений . 105 (1): 249–252. дои : 10.1023/А:1004678431677 . ISSN 0022-3239 . S2CID 118142932 .
- ^ Jump up to: а б Шлам, Артур; Сапиро, Гильермо (14 июня 2009 г.). «Дискриминационные k -метрики» . В Ботту, Леон; Литтман, Майкл (ред.). Материалы 26-й ежегодной международной конференции по машинному обучению . АКМ. стр. 1009–1016. дои : 10.1145/1553374.1553503 . hdl : 11299/180116 . ISBN 978-1-60558-516-1 . S2CID 2509292 .
- ^ Шлам, А.; Сапиро, Г. (2008). «Обучение с учителем с помощью дискриминативных k q -плоских квартир» (PDF) .