Многообразная регуляризация
![](http://upload.wikimedia.org/wikipedia/commons/thumb/d/d0/Example_of_unlabeled_data_in_semisupervised_learning.png/250px-Example_of_unlabeled_data_in_semisupervised_learning.png)
В машинном обучении регуляризация многообразия — это метод использования формы набора данных для ограничения функций, которые должны быть изучены в этом наборе данных. Во многих задачах машинного обучения данные, подлежащие изучению, не охватывают все входное пространство. Например, системе распознавания лиц может не потребоваться классифицировать какое-либо возможное изображение, а только подмножество изображений, содержащих лица. Методика многообразного обучения предполагает, что соответствующее подмножество данных поступает из многообразия — математической структуры с полезными свойствами. Этот метод также предполагает, что изучаемая функция является гладкой : данные с разными метками вряд ли будут находиться близко друг к другу, поэтому функция маркировки не должна быстро меняться в областях, где может быть много точек данных. Из-за этого предположения алгоритм регуляризации многообразия может использовать немаркированные данные, чтобы сообщить, где изученной функции разрешено быстро изменяться, а где нет, используя расширение метода регуляризации Тихонова. . Алгоритмы многообразной регуляризации могут расширить алгоритмы контролируемого обучения в условиях полуконтролируемого обучения и трансдуктивного обучения , где доступны немаркированные данные. Этот метод использовался для таких приложений, как медицинская визуализация, географическая визуализация и распознавание объектов.
Регуляризатор многообразия [ править ]
Мотивация [ править ]
Многообразная регуляризация — это тип регуляризации , семейство методов, которые уменьшают переобучение задачи и гарантируют корректность постановки путем наказания сложных решений. В частности, регуляризация многообразий расширяет технику тихоновской регуляризации применительно к воспроизведению ядерных гильбертовых пространств (RKHS). При стандартной тихоновской регуляризации на RKHS алгоритм обучения пытается изучить функцию из пространства гипотез функций . Пространство гипотез представляет собой RKHS, что означает, что оно связано с ядром , и поэтому каждая функция-кандидат имеет норму , который представляет сложность функции-кандидата в пространстве гипотез. Когда алгоритм рассматривает функцию-кандидат, он учитывает ее норму, чтобы наказать сложные функции.
Формально, учитывая набор размеченных обучающих данных с и функция потерь , алгоритм обучения, использующий регуляризацию Тихонова, попытается решить выражение
где — это гиперпараметр , который контролирует, насколько алгоритм будет отдавать предпочтение более простым функциям, а не функциям, которые лучше соответствуют данным.
![](http://upload.wikimedia.org/wikipedia/commons/thumb/4/4a/Swissroll_manifold_unrolled.png/300px-Swissroll_manifold_unrolled.png)
Регуляризация многообразия добавляет второй термин регуляризации, внутренний регуляризатор , к объемлющему регуляризатору, используемому в стандартной регуляризации Тихонова. Согласно предположению о многообразии в машинном обучении, рассматриваемые данные не поступают из всего входного пространства. , но вместо этого из нелинейного многообразия . Геометрия этого многообразия, внутреннего пространства, используется для определения нормы регуляризации. [1]
Лапласова норма [ править ]
Существует множество возможных вариантов встроенного регуляризатора. . Многие естественные варианты выбора связаны с градиентом на многообразии. , который может дать представление о том, насколько гладкой является целевая функция. Гладкая функция должна изменяться медленно, если входные данные плотные; то есть градиент должно быть небольшим там, где предельная плотность вероятности , плотность вероятности случайно нарисованной точки данных, появляющейся в точке , большой. Это дает один подходящий выбор для внутреннего регуляризатора:
На практике эту норму невозможно вычислить напрямую, поскольку предельное распределение неизвестно, но его можно оценить по предоставленным данным.
Графовый нормы подход лапласовой
Когда расстояния между входными точками интерпретируются как график, матрица Лапласа графика может помочь оценить предельное распределение. Предположим, что входные данные включают в себя помеченные примеры (пары входных и этикетка ) и немаркированные примеры (входные данные без связанных меток). Определять быть матрицей весов ребер графа, где это мера расстояния между точками данных и . Определять быть диагональной матрицей с и быть матрицей Лапласа . Тогда, поскольку количество точек данных увеличивается, сходится к оператору Лапласа–Бельтрами , что является дивергенцией градиента . [2] [3] Тогда, если представляет собой вектор значений по данным, , внутреннюю норму можно оценить:
Поскольку количество точек данных увеличивается, это эмпирическое определение сходится к определению, когда известен. [1]
Решение проблемы регуляризации с помощью графового подхода [ править ]
Использование весов и для окружающих и внутренних регуляризаторов окончательное выражение, которое необходимо решить, будет выглядеть следующим образом:
Как и в случае с другими методами ядра , может быть бесконечномерным пространством, поэтому, если выражение регуляризации не может быть решено явно, невозможно искать решение во всем пространстве. Вместо этого теорема о представителе показывает, что при определенных условиях выбора нормы , оптимальное решение должна быть линейной комбинацией ядра с центром в каждой из входных точек: для некоторых весов ,
Используя этот результат, можно найти оптимальное решение. путем поиска в конечномерном пространстве, определенном возможным выбором . [1]
лапласовой нормы Функциональный подход
Идея, выходящая за рамки граф-лапласа, состоит в том, чтобы использовать соседей для оценки лапласиана. Этот метод аналогичен методам локального усреднения , которые, как известно, плохо масштабируются в многомерных задачах. Действительно, граф Лапласа, как известно, страдает от проклятия размерности . [2] К счастью, можно использовать ожидаемую гладкость функции для оценки благодаря более сложному функциональному анализу. Этот метод заключается в оценке оператора Лапласа благодаря производным от чтения ядра где обозначает частные производные по j -й координате первой переменной. [4] Этот второй подход к норме Лапласа заключается в сопоставлении с бессеточными методами , которые контрастируют с методом конечных разностей в PDE.
Приложения [ править ]
Регуляризация многообразия может расширить множество алгоритмов, которые можно выразить с помощью регуляризации Тихонова, выбрав подходящую функцию потерь. и пространство гипотез . Двумя часто используемыми примерами являются семейства машин опорных векторов и наименьших квадратов регуляризованные алгоритмы . (Регуляризованный метод наименьших квадратов включает в себя алгоритм гребневой регрессии; связанные алгоритмы LASSO и регуляризации эластичной сети могут быть выражены как машины опорных векторов. [5] [6] ) Расширенные версии этих алгоритмов называются лапласовскими регуляризованными наименьшими квадратами (сокращенно LapRLS) и лапласовскими машинами опорных векторов (LapSVM) соответственно. [1]
наименьших квадратов ( LapRLS ) Лапласов регуляризованный метод
Регуляризованный метод наименьших квадратов (RLS) — это семейство алгоритмов регрессии : алгоритмов, которые прогнозируют значение. за его вклад , с целью, чтобы прогнозируемые значения были близки к истинным меткам данных. В частности, RLS предназначен для минимизации среднеквадратической ошибки между прогнозируемыми значениями и истинными метками при условии регуляризации. Ридж-регрессия — это одна из форм СБН; в общем, RLS — это то же самое, что гребневая регрессия в сочетании с методом ядра . [ нужна цитата ] Постановка задачи для РЛС вытекает из выбора функции потерь в регуляризации Тихонова это среднеквадратическая ошибка:
Благодаря теореме о представителе решение можно записать как взвешенную сумму ядра, вычисленного в точках данных:
и решение для дает:
где определяется как матрица ядра, причем , и — вектор меток данных.
Добавление лапласова члена для регуляризации многообразия дает лапласовское утверждение RLS:
Теорема о представителе для регуляризации многообразия снова дает
и это дает выражение для вектора . Сдача в аренду быть матрицей ядра, как указано выше, быть вектором меток данных, и быть блочная матрица :
с решением
LapRLS применялся для решения проблем, включая сенсорные сети, [7] медицинская визуализация , [8] [9] обнаружение объектов, [10] спектроскопия , [11] классификация документов , [12] лекарственно-белковые взаимодействия, [13] и сжатие изображений и видео. [14]
опорных векторов Лапласа ( LapSVM ) Машины
Машины опорных векторов (SVM) — это семейство алгоритмов, часто используемых для классификации данных на две или более группы или классы . Интуитивно SVM рисует границу между классами так, чтобы самые близкие к границе помеченные примеры находились как можно дальше. Это можно непосредственно выразить в виде линейной программы , но это также эквивалентно регуляризации Тихонова с потерь шарнира : функцией :
Добавление к этому выражению члена внутренней регуляризации дает постановку задачи LapSVM:
Опять же, теорема о представителе позволяет выразить решение через ядро, оцененное в точках данных:
можно найти, написав задачу в виде линейной программы и решив двойственную задачу . Снова позволяя быть матрицей ядра и быть блочной матрицей , можно показать, что решение
где это решение двойной проблемы
и определяется
LapSVM применялся для решения таких задач, как географическое отображение, [17] [18] [19] медицинская визуализация, [20] [21] [22] распознавание лица, [23] обслуживание машины, [24] и интерфейсы мозг-компьютер . [25]
Ограничения [ править ]
- Регуляризация многообразия предполагает, что данные с разными метками вряд ли будут находиться близко друг к другу. Именно это предположение позволяет методу извлекать информацию из немаркированных данных, но оно применимо только к некоторым проблемным областям. В зависимости от структуры данных может потребоваться использование другого алгоритма полуконтролируемого или трансдуктивного обучения. [26]
- В некоторых наборах данных внутренняя норма функции может быть очень близко к норме окружающей среды : например, если данные состоят из двух классов, лежащих на перпендикулярных прямых, внутренняя норма будет равна внешней норме. В этом случае немаркированные данные не влияют на решение, полученное в результате регуляризации многообразия, даже если данные соответствуют предположению алгоритма о том, что сепаратор должен быть гладким. подходы, связанные с совместным обучением . Для устранения этого ограничения были предложены [27]
- Если имеется очень большое количество непомеченных примеров, матрица ядра становится очень большим, и алгоритм регуляризации многообразия может стать непомерно медленным в вычислениях. В этом случае могут помочь онлайн-алгоритмы и разреженные аппроксимации многообразия. [28]
См. также [ править ]
- Многообразное обучение
- Гипотеза многообразия
- Полуконтролируемое обучение
- Трансдукция (машинное обучение)
- Спектральная теория графов
- Воспроизведение ядра гильбертова пространства
- Tikhonov regularization
- Дифференциальная геометрия
Ссылки [ править ]
- ^ Перейти обратно: а б с д Это ж Белкин Михаил; Нийоги, Партха; Синдхвани, Викас (2006). «Регуляризация многообразия: геометрическая основа для обучения на помеченных и неразмеченных примерах» . Журнал исследований машинного обучения . 7 : 2399–2434 . Проверено 2 декабря 2015 г.
- ^ Перейти обратно: а б Хейн, Матиас; Одибер, Жан-Ив; Фон Люксбург, Ульрике (2005). «От графов к многообразиям – слабая и сильная поточечная непротиворечивость лапласианов графа». Теория обучения . Конспекты лекций по информатике. Том. 3559. Спрингер. стр. 470–485. CiteSeerX 10.1.1.103.82 . дои : 10.1007/11503415_32 . ISBN 978-3-540-26556-6 .
- ^ Белкин Михаил; Нийоги, Парта (2005). «К теоретической основе методов многообразия, основанных на Лапласе». Теория обучения . Конспекты лекций по информатике. Том. 3559. Спрингер. стр. 486–500. CiteSeerX 10.1.1.127.795 . дои : 10.1007/11503415_33 . ISBN 978-3-540-26556-6 .
- ^ Кабанн, Вивьен; Пийо-Вивьен, Лукас; Бах, Фрэнсис; Руди, Алессандро (2021). «Преодоление проклятия размерности с помощью лапласовой регуляризации в полуконтролируемом обучении». arXiv : 2009.04324 [ stat.ML ].
- ^ Джагги, Мартин (2014). Суйкенс, Йохан; Синьоретто, Марко; Аргириу, Андреас (ред.). Эквивалентность машин Лассо и машин опорных векторов . Чепмен и Холл/CRC.
- ^ Чжоу, Цюань; Чен, Вэньлинь; Сон, Шиджи; Гарднер, Джейкоб; Вайнбергер, Килиан; Чен, Исинь. Сокращение эластичной сети для поддержки векторных машин с применением к вычислениям на графическом процессоре . Ассоциация по развитию искусственного интеллекта .
- ^ Пан, Джеффри Цзюньфэн; Ян, Цян; Чанг, Хонг; Юнг, Дит-Ян (2006). «Множественный подход к регуляризации к уменьшению калибровки для отслеживания на основе сенсорной сети» (PDF) . Материалы национальной конференции по искусственному интеллекту . Том. 21. Менло-Парк, Калифорния; Кембридж, Массачусетс; Лондон; АААИ Пресс; Массачусетский технологический институт Пресс; 1999. с. 988 . Проверено 2 декабря 2015 г.
- ^ Чжан, Даоцян; Шен, Динган (2011). «Полуконтролируемая мультимодальная классификация болезни Альцгеймера». Биомедицинская визуализация: от нано к макросу, Международный симпозиум IEEE 2011 г., посвященный . IEEE. стр. 1628–1631. дои : 10.1109/ISBI.2011.5872715 .
- ^ Пак, Сан Хён; Гао, Яоцзун; Ши, Инхуань; Шен, Динган (2014). «Интерактивная сегментация простаты на основе адаптивного выбора признаков и регуляризации многообразия». Машинное обучение в медицинской визуализации . Конспекты лекций по информатике. Том. 8679. Спрингер. стр. 264–271. дои : 10.1007/978-3-319-10581-9_33 . ISBN 978-3-319-10580-2 .
- ^ Пиллаи, Судип. «Полуконтролируемый детектор объектов, обучение по минимальным меткам» (PDF) . Проверено 15 декабря 2015 г.
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ Ван, Сунцзин; Ву, Ди; Лю, Каншэн (2012). «Алгоритм полуконтролируемого машинного обучения для спектральной калибровки в ближнем инфракрасном диапазоне: пример дизельного топлива». Письма о передовой науке . 11 (1): 416–419. дои : 10.1166/asl.2012.3044 .
- ^ Ван, Цзыцян; Сунь, Ся; Чжан, Лицзе; Цянь, Сюй (2013). «Классификация документов на основе оптимальных лапрлов». Журнал программного обеспечения . 8 (4): 1011–1018. дои : 10.4304/jsw.8.4.1011-1018 .
- ^ Ся, Чжэн; Ву, Лин-Юнь; Чжоу, Сяобо; Вонг, Стивен Т.К. (2010). «Полуконтролируемое предсказание взаимодействия лекарств и белков из гетерогенных биологических пространств» . Системная биология BMC . 4 (Приложение 2): –6. CiteSeerX 10.1.1.349.7173 . дои : 10.1186/1752-0509-4-S2-S6 . ПМК 2982693 . ПМИД 20840733 .
- ^ Ченг, Ли; Вишванатан, SVN (2007). «Учимся сжимать изображения и видео» . Материалы 24-й международной конференции по машинному обучению . АКМ. стр. 161–168 . Проверено 16 декабря 2015 г.
- ^ Лин, Йи; Вахба, Грейс; Чжан, Хао; Ли, Юнкён (2002). «Статистические свойства и адаптивная настройка машин опорных векторов» . Машинное обучение . 48 (1–3): 115–136. дои : 10.1023/А:1013951620650 .
- ^ Вахба, Грейс; другие (1999). «Машины опорных векторов, воспроизводящие ядро гильбертовых пространств и рандомизированную GACV». Достижения в методах ядра — векторное обучение с поддержкой . 6 : 69–87. CiteSeerX 10.1.1.53.2114 .
- ^ Ким, Вонкук; Кроуфорд, Мельба М. (2010). «Адаптивная классификация данных гиперспектральных изображений с использованием машин ядра регуляризации многообразия». Транзакции IEEE по геонаукам и дистанционному зондированию . 48 (11): 4110–4121. дои : 10.1109/TGRS.2010.2076287 . S2CID 29580629 .
- ^ Кампс-Вальс, Густаво; Туя, Дэвис; Бруззоне, Лоренцо; Атли Бенедиктссон, Джон (2014). «Достижения в классификации гиперспектральных изображений: мониторинг Земли с помощью статистических методов обучения». Журнал обработки сигналов IEEE . 31 (1): 45–54. arXiv : 1310.5107 . Бибкод : 2014ISPM...31...45C . дои : 10.1109/msp.2013.2279179 . S2CID 11945705 .
- ^ Гомес-Чова, Луис; Кампс-Вальс, Густаво; Муньос-Мари, Хорди; Кальпе, Хавьер (2007). «Полуконтролируемый скрининг облаков с помощью лапласовой SVM». Симпозиум по геонаукам и дистанционному зондированию, 2007 г. IGARSS 2007. IEEE International . IEEE. стр. 1521–1524. дои : 10.1109/IGARSS.2007.4423098 .
- ^ Ченг, Бо; Чжан, Даоцян; Шен, Динган (2012). «Обучение переносу домена для прогнозирования конверсий MCI». Вычисление медицинских изображений и компьютерное вмешательство – MICCAI 2012 . Конспекты лекций по информатике. Том. 7510. Спрингер. стр. 82–90. дои : 10.1007/978-3-642-33415-3_11 . ISBN 978-3-642-33414-6 . ПМЦ 3761352 . ПМИД 23285538 .
- ^ Джеймисон, Эндрю Р.; Гигер, Мэриеллен Л.; Друккер, Карен; Пеше, Лоренцо Л. (2010). «Усиление CADx молочной железы с помощью немаркированных данныхa)» . Медицинская физика . 37 (8): 4155–4172. Бибкод : 2010MedPh..37.4155J . дои : 10.1118/1.3455704 . ПМЦ 2921421 . ПМИД 20879576 .
- ^ Ву, Цзян; Дяо, Юань-Бо; Ли, Мэн-Лонг; Фанг, Я-Пин; Ма, Дай-Чуан (2009). «Метод, основанный на полуконтролируемом обучении: машина опорных векторов Лапласа, используемая при диагностике диабета». Междисциплинарные науки: Вычислительные науки о жизни . 1 (2): 151–155. дои : 10.1007/s12539-009-0016-2 . ПМИД 20640829 . S2CID 21860700 .
- ^ Ван, Цзыцян; Чжоу, Чжицян; Сунь, Ся; Цянь, Сюй; Сунь, Лицзюнь (2012). «Усовершенствованный алгоритм LapSVM для распознавания лиц» . Международный журнал достижений в области вычислительных технологий . 4 (17) . Проверено 16 декабря 2015 г.
- ^ Чжао, Сюкуань; Ли, Мин; Сюй, Цзиньву; Песня, Групповуха (2011). «Эффективная процедура, использующая немаркированные данные для построения системы мониторинга». Экспертные системы с приложениями . 38 (8): 10199–10204. дои : 10.1016/j.eswa.2011.02.078 .
- ^ Чжун, Цзи-Ин; Лей, Сюй; Яо, Д. (2009). «Полу-контролируемое обучение на основе многообразия в BCI» (PDF) . Журнал электронной науки и технологий Китая . 7 (1): 22–26 . Проверено 16 декабря 2015 г.
- ^ Чжу, Сяоцзинь (2005). «Обзор учебной литературы с полуконтролем». CiteSeerX 10.1.1.99.9681 .
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ Синдхвани, Викас; Розенберг, Дэвид С. (2008). «RKHS для многопредставленного обучения и совместной регуляризации многообразий» . Материалы 25-й международной конференции по машинному обучению . АКМ. стр. 976–983 . Проверено 2 декабря 2015 г.
- ^ Гольдберг, Эндрю; Ли, Мин; Чжу, Сяоцзинь (2008). «Регуляризация онлайн-многообразия: новые условия обучения и эмпирическое исследование». Машинное обучение и обнаружение знаний в базах данных . Конспекты лекций по информатике. Том. 5211. стр. 393–407. дои : 10.1007/978-3-540-87479-9_44 . ISBN 978-3-540-87478-2 .
Внешние ссылки [ править ]
Программное обеспечение [ править ]
- Библиотека ManifoldLearn и библиотека Primal LapSVM реализуют LapRLS и LapSVM в MATLAB .
- Библиотека Dlib для C++ включает функцию регуляризации линейного многообразия.