Многообразная регуляризация

В машинном обучении регуляризация многообразия — это метод использования формы набора данных для ограничения функций, которые должны быть изучены в этом наборе данных. Во многих задачах машинного обучения данные, подлежащие изучению, не охватывают все входное пространство. Например, системе распознавания лиц может не потребоваться классифицировать какое-либо возможное изображение, а только подмножество изображений, содержащих лица. Методика многообразного обучения предполагает, что соответствующее подмножество данных поступает из многообразия — математической структуры с полезными свойствами. Этот метод также предполагает, что изучаемая функция является гладкой : данные с разными метками вряд ли будут находиться близко друг к другу, поэтому функция маркировки не должна быстро меняться в областях, где может быть много точек данных. Из-за этого предположения алгоритм регуляризации многообразия может использовать немаркированные данные, чтобы сообщать, где изученной функции разрешено быстро изменяться, а где нет, используя расширение метода регуляризации Тихонова. . Алгоритмы многообразной регуляризации могут расширить алгоритмы контролируемого обучения в условиях полуконтролируемого обучения и трансдуктивного обучения , где доступны немаркированные данные. Этот метод использовался для таких приложений, как медицинская визуализация, географическая визуализация и распознавание объектов.
Регуляризатор многообразия [ править ]
Мотивация [ править ]
Многообразная регуляризация — это тип регуляризации , семейство методов, которые уменьшают переобучение задачи и гарантируют корректность постановки путем наказания сложных решений. В частности, регуляризация многообразий расширяет технику тихоновской регуляризации применительно к воспроизведению ядерных гильбертовых пространств (RKHS). При стандартной регуляризации Тихонова на RKHS алгоритм обучения пытается изучить функцию из пространства гипотез функций . Пространство гипотез представляет собой RKHS, что означает, что оно связано с ядром , и поэтому каждая функция-кандидат имеет норму , который представляет сложность функции-кандидата в пространстве гипотез. Когда алгоритм рассматривает функцию-кандидат, он учитывает ее норму, чтобы наказать сложные функции.
Формально, учитывая набор размеченных обучающих данных с и функция потерь , алгоритм обучения, использующий регуляризацию Тихонова, попытается решить выражение
где — это гиперпараметр , который контролирует, насколько алгоритм будет отдавать предпочтение более простым функциям, а не функциям, которые лучше соответствуют данным.

Регуляризация многообразия добавляет второй термин регуляризации, внутренний регуляризатор , к объемлющему регуляризатору, используемому в стандартной регуляризации Тихонова. Согласно предположению о многообразии в машинном обучении, рассматриваемые данные не поступают из всего входного пространства. , но вместо этого из нелинейного многообразия . Геометрия этого многообразия, внутреннего пространства, используется для определения нормы регуляризации. [1]
Лапласова норма [ править ]
Существует множество возможных вариантов встроенного регуляризатора. . Многие естественные варианты включают градиент на многообразии. , который может дать представление о том, насколько гладкой является целевая функция. Гладкая функция должна изменяться медленно там, где входные данные плотные; то есть градиент должно быть небольшим там, где предельная плотность вероятности , плотность вероятности случайно нарисованной точки данных, появляющейся в точке , большой. Это дает один подходящий выбор для внутреннего регуляризатора:
На практике эту норму невозможно вычислить напрямую, поскольку предельное распределение неизвестно, но его можно оценить по предоставленным данным.
Графовый подход норме к Лапласа
Когда расстояния между входными точками интерпретируются как график, матрица Лапласа графика может помочь оценить предельное распределение. Предположим, что входные данные включают в себя помеченные примеры (пары входных и этикетка ) и немаркированные примеры (входные данные без связанных меток). Определять быть матрицей весов ребер графа, где это мера расстояния между точками данных и . Определять быть диагональной матрицей с и быть матрицей Лапласа . Тогда, поскольку количество точек данных увеличивается, сходится к оператору Лапласа–Бельтрами , что является дивергенцией градиента . [2] [3] Тогда, если представляет собой вектор значений по данным, , внутреннюю норму можно оценить:
Поскольку количество точек данных увеличивается, это эмпирическое определение сходится к определению, когда известно. [1]
Решение проблемы регуляризации с помощью графового подхода [ править ]
Использование весов и для окружающих и внутренних регуляризаторов окончательное выражение, которое необходимо решить, будет выглядеть следующим образом:
Как и в случае с другими методами ядра , может быть бесконечномерным пространством, поэтому, если выражение регуляризации не может быть решено явно, невозможно искать решение во всем пространстве. Вместо этого теорема о представителе показывает, что при определенных условиях выбора нормы , оптимальное решение должна быть линейной комбинацией ядра с центром в каждой из входных точек: для некоторых весов ,
Используя этот результат, можно найти оптимальное решение. путем поиска в конечномерном пространстве, определенном возможным выбором . [1]
лапласовой нормы подход Функциональный
Идея, выходящая за рамки граф-лапласа, состоит в том, чтобы использовать соседей для оценки лапласиана. Этот метод аналогичен методам локального усреднения , которые, как известно, плохо масштабируются в многомерных задачах.Действительно, граф Лапласа, как известно, страдает от проклятия размерности . [2] К счастью, можно использовать ожидаемую гладкость функции для оценки благодаря более сложному функциональному анализу.Этот метод заключается в оценке оператора Лапласа благодаря производным от чтения ядра где обозначает частные производные по j -й координате первой переменной. [4] Этот второй подход к норме Лапласа заключается в сопоставлении с бессеточными методами , которые контрастируют с методом конечных разностей в PDE.
Приложения [ править ]
Регуляризация многообразия может расширить множество алгоритмов, которые можно выразить с помощью регуляризации Тихонова, выбрав подходящую функцию потерь. и пространство гипотез . Двумя часто используемыми примерами являются семейства машин опорных векторов и регуляризованные алгоритмы наименьших квадратов . (Регуляризованный метод наименьших квадратов включает в себя алгоритм гребневой регрессии; связанные алгоритмы LASSO и регуляризации эластичной сети могут быть выражены как машины опорных векторов. [5] [6] ) Расширенные версии этих алгоритмов называются лапласовскими регуляризованными наименьшими квадратами (сокращенно LapRLS) и лапласовскими машинами опорных векторов (LapSVM) соответственно. [1]
наименьших квадратов (LapRLS Лапласов регуляризованный метод )
Регуляризованный метод наименьших квадратов (RLS) — это семейство алгоритмов регрессии : алгоритмов, которые прогнозируют значение. за его вклад , с целью, чтобы прогнозируемые значения были близки к истинным меткам данных. В частности, RLS предназначен для минимизации среднеквадратической ошибки между прогнозируемыми значениями и истинными метками при условии регуляризации. Ридж-регрессия — это одна из форм СБН; в общем, RLS — это то же самое, что гребневая регрессия в сочетании с методом ядра . [ нужна ссылка ] Постановка задачи для РЛС вытекает из выбора функции потерь в регуляризации Тихонова это среднеквадратическая ошибка:
Благодаря теореме о представителе решение можно записать как взвешенную сумму ядра, вычисленного в точках данных:
и решение для дает:
где определяется как матрица ядра, причем , и — вектор меток данных.
Добавление лапласова члена для регуляризации многообразия дает лапласовское утверждение RLS:
Теорема о представителе для регуляризации многообразия снова дает
и это дает выражение для вектора . Сдача в аренду быть матрицей ядра, как указано выше, быть вектором меток данных, и быть блочная матрица :
с решением
LapRLS применялся для решения проблем, включая сенсорные сети, [7] медицинская визуализация , [8] [9] обнаружение объектов, [10] спектроскопия , [11] классификация документов , [12] лекарственно-белковые взаимодействия, [13] и сжатие изображений и видео. [14]
( Машины опорных векторов Лапласа ) LapSVM
Машины опорных векторов (SVM) — это семейство алгоритмов, часто используемых для классификации данных на две или более группы или классы . Интуитивно SVM рисует границу между классами так, чтобы самые близкие к границе помеченные примеры находились как можно дальше. Это можно непосредственно выразить в виде линейной программы , но это также эквивалентно тихоновской регуляризации с функцией потерь шарнира : :
Добавление к этому выражению члена внутренней регуляризации дает постановку задачи LapSVM:
Опять же, теорема о представителе позволяет выразить решение через ядро, оцененное в точках данных:
можно найти, написав задачу в виде линейной программы и решив двойственную задачу . Снова позволяя быть матрицей ядра и быть блочной матрицей , можно показать, что решение
где это решение двойной проблемы
и определяется
LapSVM применялся для решения таких задач, как географическое отображение, [17] [18] [19] медицинская визуализация, [20] [21] [22] распознавание лиц, [23] обслуживание машины, [24] и интерфейсы мозг-компьютер . [25]
Ограничения [ править ]
- Регуляризация многообразия предполагает, что данные с разными метками вряд ли будут находиться близко друг к другу. Именно это предположение позволяет методу извлекать информацию из немаркированных данных, но оно применимо только к некоторым проблемным областям. В зависимости от структуры данных может потребоваться использование другого алгоритма полуконтролируемого или трансдуктивного обучения. [26]
- В некоторых наборах данных внутренняя норма функции может быть очень близко к норме окружающей среды : например, если данные состоят из двух классов, лежащих на перпендикулярных прямых, внутренняя норма будет равна внешней норме. В этом случае немаркированные данные не влияют на решение, полученное в результате регуляризации многообразия, даже если данные соответствуют предположению алгоритма о том, что сепаратор должен быть гладким. подходы, связанные с совместным обучением . Для устранения этого ограничения были предложены [27]
- Если имеется очень большое количество непомеченных примеров, матрица ядра становится очень большим, и алгоритм регуляризации многообразия может стать непомерно медленным в вычислениях. В этом случае могут помочь онлайн-алгоритмы и разреженные аппроксимации многообразия. [28]
См. также [ править ]
- Многообразное обучение
- Гипотеза многообразия
- Полуконтролируемое обучение
- Трансдукция (машинное обучение)
- Спектральная теория графов
- Воспроизведение ядра гильбертова пространства
- Tikhonov regularization
- Дифференциальная геометрия
Ссылки [ править ]
- ↑ Перейти обратно: Перейти обратно: а б с д и ж Белкин Михаил; Нийоги, Партха; Синдхвани, Викас (2006). «Регуляризация многообразия: геометрическая основа для обучения на помеченных и неразмеченных примерах» . Журнал исследований машинного обучения . 7 : 2399–2434 . Проверено 2 декабря 2015 г.
- ↑ Перейти обратно: Перейти обратно: а б Хейн, Матиас; Одибер, Жан-Ив; Фон Люксбург, Ульрике (2005). «От графов к многообразиям – слабая и сильная поточечная непротиворечивость лапласианов графа». Теория обучения . Конспекты лекций по информатике. Том. 3559. Спрингер. стр. 470–485. CiteSeerX 10.1.1.103.82 . дои : 10.1007/11503415_32 . ISBN 978-3-540-26556-6 .
- ^ Белкин Михаил; Нийоги, Парта (2005). «К теоретической основе методов многообразия, основанных на Лапласе». Теория обучения . Конспекты лекций по информатике. Том. 3559. Спрингер. стр. 486–500. CiteSeerX 10.1.1.127.795 . дои : 10.1007/11503415_33 . ISBN 978-3-540-26556-6 .
- ^ Кабанн, Вивьен; Пийо-Вивьен, Лукас; Бах, Фрэнсис; Руди, Алессандро (2021). «Преодоление проклятия размерности с помощью лапласовой регуляризации в полуконтролируемом обучении». arXiv : 2009.04324 [ stat.ML ].
- ^ Джагги, Мартин (2014). Суйкенс, Йохан; Синьоретто, Марко; Аргириу, Андреас (ред.). Эквивалентность машин Лассо и машин опорных векторов . Чепмен и Холл/CRC.
- ^ Чжоу, Цюань; Чен, Вэньлинь; Сон, Шиджи; Гарднер, Джейкоб; Вайнбергер, Килиан; Чен, Исинь. Сокращение эластичной сети для поддержки векторных машин с применением к вычислениям на графическом процессоре . Ассоциация по развитию искусственного интеллекта .
- ^ Пан, Джеффри Цзюньфэн; Ян, Цян; Чанг, Хонг; Юнг, Дит-Ян (2006). «Множественный подход к регуляризации к уменьшению калибровки для отслеживания на основе сенсорной сети» (PDF) . Материалы национальной конференции по искусственному интеллекту . Том. 21. Менло-Парк, Калифорния; Кембридж, Массачусетс; Лондон; АААИ Пресс; Массачусетский технологический институт Пресс; 1999. с. 988 . Проверено 2 декабря 2015 г.
- ^ Чжан, Даоцян; Шен, Динган (2011). «Полуконтролируемая мультимодальная классификация болезни Альцгеймера». Биомедицинская визуализация: от нано к макросу, Международный симпозиум IEEE 2011 г., посвященный . IEEE. стр. 1628–1631. дои : 10.1109/ISBI.2011.5872715 .
- ^ Пак, Сан Хён; Гао, Яоцзун; Ши, Инхуань; Шен, Динган (2014). «Интерактивная сегментация простаты на основе адаптивного выбора признаков и регуляризации многообразия». Машинное обучение в медицинской визуализации . Конспекты лекций по информатике. Том. 8679. Спрингер. стр. 264–271. дои : 10.1007/978-3-319-10581-9_33 . ISBN 978-3-319-10580-2 .
- ^ Пиллаи, Судип. «Полуконтролируемый детектор объектов, обучение по минимальным меткам» (PDF) . Проверено 15 декабря 2015 г.
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ Ван, Сунцзин; Ву, Ди; Лю, Каншэн (2012). «Алгоритм полуконтролируемого машинного обучения для спектральной калибровки в ближнем инфракрасном диапазоне: пример дизельного топлива». Письма о передовой науке . 11 (1): 416–419. дои : 10.1166/asl.2012.3044 .
- ^ Ван, Цзыцян; Сунь, Ся; Чжан, Лицзе; Цянь, Сюй (2013). «Классификация документов на основе оптимальных лапрлов». Журнал программного обеспечения . 8 (4): 1011–1018. дои : 10.4304/jsw.8.4.1011-1018 .
- ^ Ся, Чжэн; Ву, Лин-Юнь; Чжоу, Сяобо; Вонг, Стивен Т.К. (2010). «Полуконтролируемое предсказание взаимодействия лекарств и белков из гетерогенных биологических пространств» . Системная биология BMC . 4 (Приложение 2): –6. CiteSeerX 10.1.1.349.7173 . дои : 10.1186/1752-0509-4-S2-S6 . ПМЦ 2982693 . ПМИД 20840733 .
- ^ Ченг, Ли; Вишванатан, SVN (2007). «Учимся сжимать изображения и видео» . Материалы 24-й международной конференции по машинному обучению . АКМ. стр. 161–168 . Проверено 16 декабря 2015 г.
- ^ Лин, Йи; Вахба, Грейс; Чжан, Хао; Ли, Юнкён (2002). «Статистические свойства и адаптивная настройка машин опорных векторов» . Машинное обучение . 48 (1–3): 115–136. дои : 10.1023/А:1013951620650 .
- ^ Вахба, Грейс; другие (1999). «Машины опорных векторов, воспроизводящие ядро гильбертовых пространств и рандомизированную GACV». Достижения в методах ядра — векторное обучение с поддержкой . 6 : 69–87. CiteSeerX 10.1.1.53.2114 .
- ^ Ким, Вонкук; Кроуфорд, Мельба М. (2010). «Адаптивная классификация данных гиперспектральных изображений с использованием машин ядра регуляризации многообразия». Транзакции IEEE по геонаукам и дистанционному зондированию . 48 (11): 4110–4121. дои : 10.1109/TGRS.2010.2076287 . S2CID 29580629 .
- ^ Кампс-Вальс, Густаво; Туя, Дэвис; Бруззоне, Лоренцо; Атли Бенедиктссон, Джон (2014). «Достижения в классификации гиперспектральных изображений: мониторинг Земли с помощью статистических методов обучения». Журнал обработки сигналов IEEE . 31 (1): 45–54. arXiv : 1310.5107 . Бибкод : 2014ISPM...31...45C . дои : 10.1109/msp.2013.2279179 . S2CID 11945705 .
- ^ Гомес-Чова, Луис; Кампс-Вальс, Густаво; Муньос-Мари, Хорди; Кальпе, Хавьер (2007). «Полуконтролируемый скрининг облаков с помощью лапласовой SVM». Симпозиум по геонаукам и дистанционному зондированию, 2007 г. IGARSS 2007 г. IEEE International . IEEE. стр. 1521–1524. дои : 10.1109/IGARSS.2007.4423098 .
- ^ Ченг, Бо; Чжан, Даоцян; Шен, Динган (2012). «Обучение переносу домена для прогнозирования конверсий MCI». Вычисление медицинских изображений и компьютерное вмешательство – MICCAI 2012 . Конспекты лекций по информатике. Том. 7510. Спрингер. стр. 82–90. дои : 10.1007/978-3-642-33415-3_11 . ISBN 978-3-642-33414-6 . ПМЦ 3761352 . ПМИД 23285538 .
- ^ Джеймисон, Эндрю Р.; Гигер, Мэриеллен Л.; Друккер, Карен; Пеше, Лоренцо Л. (2010). «Усиление CADx молочной железы с помощью немаркированных данныхa)» . Медицинская физика . 37 (8): 4155–4172. Бибкод : 2010MedPh..37.4155J . дои : 10.1118/1.3455704 . ПМЦ 2921421 . ПМИД 20879576 .
- ^ Ву, Цзян; Дяо, Юань-Бо; Ли, Мэн-Лонг; Фанг, Я-Пин; Ма, Дай-Чуан (2009). «Метод, основанный на полуконтролируемом обучении: машина опорных векторов Лапласа, используемая при диагностике диабета». Междисциплинарные науки: Вычислительные науки о жизни . 1 (2): 151–155. дои : 10.1007/s12539-009-0016-2 . ПМИД 20640829 . S2CID 21860700 .
- ^ Ван, Цзыцян; Чжоу, Чжицян; Сунь, Ся; Цянь, Сюй; Сунь, Лицзюнь (2012). «Усовершенствованный алгоритм LapSVM для распознавания лиц» . Международный журнал достижений в области вычислительных технологий . 4 (17) . Проверено 16 декабря 2015 г.
- ^ Чжао, Сюкуань; Ли, Мин; Сюй, Цзиньву; Песня, Групповуха (2011). «Эффективная процедура, использующая немаркированные данные для построения системы мониторинга». Экспертные системы с приложениями . 38 (8): 10199–10204. дои : 10.1016/j.eswa.2011.02.078 .
- ^ Чжун, Цзи-Ин; Лей, Сюй; Яо, Д. (2009). «Полу-контролируемое обучение на основе многообразия в BCI» (PDF) . Журнал электронной науки и технологий Китая . 7 (1): 22–26 . Проверено 16 декабря 2015 г.
- ^ Чжу, Сяоцзинь (2005). «Обзор учебной литературы с полуконтролем». CiteSeerX 10.1.1.99.9681 .
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ Синдхвани, Викас; Розенберг, Дэвид С. (2008). «RKHS для многопредставленного обучения и совместной регуляризации многообразий» . Материалы 25-й международной конференции по машинному обучению . АКМ. стр. 976–983 . Проверено 2 декабря 2015 г.
- ^ Гольдберг, Эндрю; Ли, Мин; Чжу, Сяоцзинь (2008). «Регуляризация онлайн-многообразия: новые условия обучения и эмпирическое исследование». Машинное обучение и обнаружение знаний в базах данных . Конспекты лекций по информатике. Том. 5211. стр. 393–407. дои : 10.1007/978-3-540-87479-9_44 . ISBN 978-3-540-87478-2 .
Внешние ссылки [ править ]
Программное обеспечение [ править ]
- Библиотека ManifoldLearn и библиотека Primal LapSVM реализуют LapRLS и LapSVM в MATLAB .
- Библиотека Dlib для C++ включает функцию регуляризации линейного многообразия.