Генеративная топографическая карта

Генеративная топографическая карта ( GTM ) — это метод машинного обучения , который является вероятностным аналогом самоорганизующейся карты (SOM), вероятно, является конвергентным и не требует сокращения окрестности или уменьшения размера шага. Это генеративная модель : предполагается, что данные возникают путем сначала вероятностного выбора точки в низкомерном пространстве, сопоставления точки с наблюдаемым многомерным входным пространством (с помощью гладкой функции), а затем добавления шума в это пространство. Параметры низкоразмерного распределения вероятностей, гладкой карты и шума извлекаются из обучающих данных с использованием алгоритма максимизации ожидания (EM) . GTM был представлен в 1996 году в статье Кристофера Бишопа , Маркуса Свенсена и Кристофера К.И. Уильямса.

Подробности алгоритма

Этот подход тесно связан с сетями плотности , которые используют выборку по важности и многослойный персептрон для формирования нелинейной модели скрытых переменных . В GTM скрытое пространство представляет собой дискретную сетку точек, которая предполагается нелинейно проецируемой в пространство данных. Затем в пространстве данных делается предположение о гауссовском шуме , так что модель становится ограниченной смесью гауссиан . Тогда вероятность модели может быть максимизирована с помощью EM.

Теоретически можно использовать произвольную нелинейную параметрическую деформацию. Оптимальные параметры можно найти методом градиентного спуска и т.п.

Предлагаемый подход к нелинейному отображению заключается в использовании радиальной сети базисных функций (RBF) для создания нелинейного отображения между скрытым пространством и пространством данных. Узлы Затем сеть RBF образует пространство признаков , и нелинейное отображение затем можно рассматривать как линейное преобразование этого пространства признаков. Этот подход имеет преимущество перед предлагаемым подходом сети плотности, поскольку его можно оптимизировать аналитически.

Использование

В анализе данных GTM похожи на нелинейную версию анализа главных компонентов , которая позволяет моделировать многомерные данные как результат гауссовского шума, добавленного к источникам в скрытом пространстве более низкой размерности. Например, чтобы найти акции в двумерном пространстве, отображаемом на графике, на основе их форм временных рядов высокого разрешения. Другие приложения могут захотеть иметь меньше источников, чем точек данных, например модели смесей.

В генеративном деформационном моделировании скрытое пространство и пространство данных имеют одинаковые размеры, например, 2D-изображения или 1 звуковая звуковая волна. К источнику добавляются дополнительные «пустые» измерения (известные как «шаблон» в этой форме моделирования), например, размещение одномерной звуковой волны в двухмерном пространстве. Затем добавляются дополнительные нелинейные размеры, полученные путем объединения исходных размеров. Увеличенное скрытое пространство затем проецируется обратно в одномерное пространство данных. Вероятность данной проекции, как и прежде, определяется произведением правдоподобия данных в рамках модели гауссовского шума на априорный параметр деформации. В отличие от традиционного моделирования деформации на основе пружин, это имеет то преимущество, что его можно аналитически оптимизировать. Недостаток заключается в том, что это подход «добычи данных», т.е. форма предшествующей деформации вряд ли будет иметь смысл для объяснения возможных деформаций, поскольку он основан на очень высокой, искусственно и произвольно построенной скрытой нелинейной величине. космос. По этой причине априорное значение извлекается из данных, а не создается человеком-экспертом, как это возможно для моделей на основе пружин.

Сравнение с самоорганизующимися картами Кохонена.

В то время как узлы на самоорганизующейся карте (SOM) могут перемещаться по своему желанию, узлы GTM ограничены допустимыми преобразованиями и их вероятностями. Если деформации ведут себя хорошо, топология скрытого пространства сохраняется.

SOM был создан как биологическая модель нейронов и представляет собой эвристический алгоритм. Напротив, GTM не имеет ничего общего с нейробиологией или познанием и представляет собой модель, основанную на вероятностных принципах. Таким образом, он имеет ряд преимуществ перед СОМ, а именно:

он явно формулирует модель плотности данных.
он использует функцию стоимости, которая количественно определяет, насколько хорошо обучена карта.
он использует надежную процедуру оптимизации ( алгоритм EM ).

GTM был представлен Бишопом, Свенсеном и Уильямсом в их техническом отчете в 1997 году (Технический отчет NCRG/96/015, Астонский университет, Великобритания), опубликованном позже в журнале Neural Computation. Это также было описано в докторской диссертации Маркуса Свенсена (Астон, 1998).

Приложения

См. также

Самоорганизующаяся карта (СОМ)
Нейронная сеть (машинное обучение) , также известная как Искусственная нейронная сеть (ИНС)
Коннекционизм
Интеллектуальный анализ данных
Машинное обучение
Нелинейное уменьшение размерности
Программное обеспечение для нейронных сетей
Распознавание образов

Внешние ссылки

Документ Бишопа, Свенсена и Уильямса о генеративном топографическом картировании
Генеративное топографическое картографирование разработано в Исследовательской группе нейронных вычислений Астонского университета (Великобритания). (Набор инструментов Matlab)