Jump to content

Выравнивание коллектора

Выравнивание многообразия — это класс алгоритмов машинного обучения , которые создают проекции между наборами данных при условии, что исходные наборы данных лежат на общем многообразии . Эта концепция была впервые представлена ​​Хэмом, Ли и Солом в 2003 году. [1] добавление ограничения многообразия к общей проблеме корреляции наборов многомерных векторов. [2]

Выравнивание многообразия предполагает, что разрозненные наборы данных, созданные сходными процессами генерации, будут иметь одинаковое базовое представление многообразия . Путем изучения проекций из каждого исходного пространства на общее многообразие восстанавливаются соответствия и знания из одной области могут быть переданы в другую. Большинство методов выравнивания многообразия рассматривают только два набора данных, но эта концепция распространяется на произвольное количество исходных наборов данных.

Рассмотрим случай выравнивания двух наборов данных: и , с и .

Алгоритмы выравнивания коллектора пытаются спроецировать оба и в новое d -мерное пространство, такое, что проекции минимизируют расстояние между соответствующими точками и сохраняют структуру локального многообразия исходных данных. Проекционные функции обозначаются:

Позволять представляют двоичную матрицу соответствия между точками в и :

Позволять и представляют точечные сходства внутри наборов данных. Обычно это кодируется как тепловое ядро ​​матрицы смежности графа k -ближайших соседей .

Наконец, введем коэффициент , который можно настроить для корректировки веса цели «сохранить структуру многообразия» по сравнению с целью «минимизировать соответствующие расстояния между точками».

Имея эти определения, функцию потерь можно записать для выравнивания коллектора:

Решение этой задачи оптимизации эквивалентно решению обобщенной проблемы собственных значений с использованием лапласиана графа. [3] совместной матрицы, G :

Соответствия между данными

[ редактировать ]

Описанный выше алгоритм требует полной информации о попарном соответствии между наборами входных данных; контролируемая парадигма обучения . Однако эту информацию обычно трудно или невозможно получить в реальных приложениях. Недавняя работа расширила алгоритм выравнивания основного коллектора до полуконтролируемого режима. [4] , без присмотра [5] и многоэкземплярный [6] настройки.

Одноэтапное и двухэтапное выравнивание

[ редактировать ]

Описанный выше алгоритм выполняет «одношаговое» выравнивание, одновременно находя вложения для обоих наборов данных. Аналогичного эффекта можно добиться и при «двухэтапном» выравнивании. [7] [8] , следуя слегка измененной процедуре:

  1. Независимо проецируйте каждый набор входных данных в пространство меньшей размерности, используя любой из множества алгоритмов уменьшения размерности .
  2. Выполните линейное выравнивание многообразия для внедренных данных, удерживая первый набор данных фиксированным, сопоставляя каждый дополнительный набор данных с первым многообразием. Преимущество этого подхода состоит в том, что он разлагает необходимые вычисления, что снижает нагрузку на память и позволяет реализовать параллельные реализации.

Прогнозы на уровне экземпляра и на уровне объекта

[ редактировать ]

Выравнивание многообразия можно использовать для поиска линейных (на уровне объектов) проекций или нелинейных (на уровне экземпляра) вложений. Хотя версия на уровне экземпляра обычно обеспечивает более точное выравнивание, она жертвует большой степенью гибкости, поскольку изученное внедрение часто трудно параметризовать. Проекции на уровне объектов позволяют легко встраивать любые новые экземпляры в пространство многообразия, а проекции можно комбинировать для формирования прямых сопоставлений между исходными представлениями данных. Эти свойства особенно важны для приложений передачи знаний.

Приложения

[ редактировать ]

Выравнивание многообразия подходит для проблем с несколькими корпусами, которые лежат в общем многообразии, даже если каждый корпус имеет разную размерность. Многие реальные проблемы подходят под это описание, но традиционные методы не могут одновременно использовать преимущества всех корпусов. Выравнивание многообразия также облегчает трансферное обучение , при котором знания одной области используются для запуска обучения в коррелирующих областях.

Применение выравнивания коллектора включает в себя:

  • Межъязыковой поиск информации /автоматический перевод [8]
    • Представляя документы в виде вектора количества слов, выравнивание многообразия может восстановить сопоставление между документами на разных языках.
    • Переписку документов на разных языках относительно легко получить, особенно от многоязычных организаций, таких как Европейский Союз .
  • Передача обучения политике и государственным представлениям для обучения с подкреплением [8]
  • Выравнивание ЯМР белков структур [8]
  • Ускорение обучения моделей в робототехнике за счет обмена данными, созданными другими роботами. [9]

См. также

[ редактировать ]
  1. ^ Хам, Джи Хун; Дэниел Д. Ли; Лоуренс К. Сол (2003). «Изучение многомерных соответствий из многообразий низкой размерности» (PDF) . Материалы двадцатой международной конференции по машинному обучению (ICML-2003) .
  2. ^ Хотеллинг, Х (1936). «Отношения между двумя наборами переменных» (PDF) . Биометрика . 28 (3–4): 321–377. дои : 10.2307/2333955 . JSTOR   2333955 .
  3. ^ Белкин, М; П. Нийоги (2003). «Собственные карты Лапласа для уменьшения размерности и представления данных» (PDF) . Нейронные вычисления . 15 (6): 1373–1396. CiteSeerX   10.1.1.192.8814 . дои : 10.1162/089976603321780317 . S2CID   14879317 .
  4. ^ Хам, Джи Хун; Дэниел Д. Ли; Лоуренс К. Сол (2005). «Полуконтролируемое выравнивание коллекторов» (PDF) . Материалы ежегодной конференции по неопределенности в искусственном интеллекте .
  5. ^ Ван, Чанг; Шридхар Махадеван (2009). Выравнивание коллектора без соответствия (PDF) . 21-я Международная совместная конференция по искусственному интеллекту. [ постоянная мертвая ссылка ]
  6. ^ Ван, Чанг; Шридхар Махадеван (2011). Адаптация гетерогенных доменов с использованием выравнивания многообразия (PDF) . 22-я Международная совместная конференция по искусственному интеллекту. Архивировано из оригинала (PDF) 15 апреля 2012 г. Проверено 14 декабря 2011 г.
  7. ^ Лафон, Стефан; Йоси Келлер; Рональд Р. Койфман (2006). «Слияние данных и сопоставление нескольких данных с помощью карт распространения» (PDF) . Транзакции IEEE по анализу шаблонов и машинному интеллекту . 28 (11): 1784–1797. CiteSeerX   10.1.1.419.1814 . дои : 10.1109/tpami.2006.223 . ПМИД   17063683 . S2CID   1186335 . [ постоянная мертвая ссылка ]
  8. ^ Перейти обратно: а б с д Ван, Чанг; Шридхар Махадеван (2008). Выравнивание коллектора с использованием анализа Прокруста (PDF) . 25-я Международная конференция по машинному обучению. [ постоянная мертвая ссылка ]
  9. ^ Макондо, Ндивхуво; Бенджамин Росман; Осаму Хасэгава (2015). Передача знаний для обучения моделей роботов посредством локального анализа Прокруста . 15-я Международная конференция IEEE-РАН по роботам-гуманоидам (гуманоидам). CiteSeerX   10.1.1.728.8830 . дои : 10.1109/HUMANOIDS.2015.7363502 .

Дальнейшее чтение

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: fc862ab05148a8d61211196c5d7965bb__1705028580
URL1:https://arc.ask3.ru/arc/aa/fc/bb/fc862ab05148a8d61211196c5d7965bb.html
Заголовок, (Title) документа по адресу, URL1:
Manifold alignment - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)