Обучаемый класс функций
В статистической теории обучения класс обучаемых функций — это набор функций , для которых можно разработать алгоритм, позволяющий асимптотически минимизировать ожидаемый риск равномерно по всем распределениям вероятностей. Концепция обучаемых классов тесно связана с регуляризацией в машинном обучении и предоставляет большие выборки обоснований для определенных алгоритмов обучения.
Определение
[ редактировать ]Фон
[ редактировать ]Позволять быть пространством выборки, где это этикетки и являются ковариатами (предикторами). представляет собой совокупность рассматриваемых отображений (функций), связывающих к . — заранее заданная функция потерь (обычно неотрицательная). Учитывая распределение вероятностей на , определить ожидаемый риск быть:
Общая цель статистического обучения — найти функцию в это минимизирует ожидаемый риск. То есть найти решение следующей проблемы: [1]
Но на практике распределение неизвестно, и любая задача обучения может быть основана только на конечных выборках. Таким образом, вместо этого мы стремимся найти алгоритм, который асимптотически минимизирует эмпирический риск, т. е. найти последовательность функций это удовлетворяет
Одним из обычных алгоритмов поиска такой последовательности является минимизация эмпирического риска .
Обучаемый класс функций
[ редактировать ]Мы можем усилить условие, данное в приведенном выше уравнении, потребовав, чтобы сходимость была равномерной для всех распределений вероятностей. То есть:
( 1 ) |
Интуиция, лежащая в основе более строгих требований, такова: скорость, с которой последовательность сходится к минимизатору ожидаемого риска, может сильно различаться для разных . Потому что в реальном мире истинное распределение всегда неизвестен, мы хотели бы выбрать последовательность, которая хорошо работает во всех случаях.
Однако по теореме об отсутствии бесплатного обеда такая последовательность, удовлетворяющая ( 1 ), не существует, если слишком сложно. Это означает, что нам нужно быть осторожными и не допускать слишком «много» функций в если мы хотим, чтобы ( 1 ) было значимым требованием. В частности, классы функций, обеспечивающие существование последовательности. которые удовлетворяют ( 1 ), известны как обучаемые классы . [1]
Стоит отметить, что, по крайней мере, для задач контролируемой классификации и регрессии, если класс функции является обучаемым, то минимизация эмпирического риска автоматически удовлетворяет ( 1 ). [2] Таким образом, в этих условиях мы не только знаем, что проблема, поставленная ( 1 ), разрешима, но и сразу же имеем алгоритм, который дает решение.
Интерпретации
[ редактировать ]Если истинные отношения между и является , затем, выбрав соответствующую функцию потерь, всегда можно выразить как минимизатор ожидаемых потерь по всем возможным функциям. То есть,
Здесь мы позволяем быть совокупностью всех возможных функций, отображающих на . можно интерпретировать как реальный механизм генерации данных. Однако теорема об отсутствии бесплатного обеда говорит нам, что на практике с конечными выборками мы не можем надеяться на поиск ожидаемого минимизатора риска за . Таким образом, мы часто рассматриваем подмножество , , для проведения поиска. Поступая так, мы рискуем может не быть элементом . Этот компромисс можно математически выразить как
( 2 ) |
В приведенном выше разложении часть не зависит от данных и не является стохастическим. Он описывает, насколько далеки наши предположения ( ) от истины ( ). будет строго больше 0, если мы сделаем слишком сильные предположения ( слишком маленький). С другой стороны, если не установить достаточных ограничений на приведет к тому, что его невозможно будет изучить, и часть не будет стохастически сходиться к 0. Это хорошо известная проблема переобучения в литературе по статистике и машинному обучению.
Пример: Тихоновская регуляризация
[ редактировать ]Хорошим примером использования обучаемых классов является так называемая тихоновская регуляризация при воспроизведении ядра гильбертова пространства (RKHS). Конкретно, пусть быть RKHS, и быть нормой для задано его внутренним продуктом. Это показано в [3] что является обучаемым классом для любого конечного положительного . Алгоритм эмпирической минимизации двойственной формы этой задачи:
Впервые это было предложено Тихоновым. [4] решать некорректные задачи. Многие алгоритмы статистического обучения можно выразить в такой форме (например, известная ридж-регрессия ).
Компромисс между и в ( 2 ) геометрически более интуитивно понятен с регуляризацией Тихонова в RKHS. Мы можем рассмотреть последовательность , которые по сути представляют собой шарики в с центрами в 0. Поскольку становится больше, приближается ко всему пространству и скорее всего, станет меньше. Однако мы также будем страдать от меньших темпов конвергенции в . Способ выбора оптимального в условиях ограниченной выборки обычно осуществляется посредством перекрестной проверки .
Связь с теорией эмпирических процессов
[ редактировать ]Часть в ( 2 ) тесно связан с теорией эмпирических процессов в статистике, где эмпирический риск известны как эмпирические процессы. [5] В этом поле класс функции который удовлетворяет стохастической сходимости
( 3 ) |
известны как равномерные классы Гливенко–Кантелли . Показано, что при определенных условиях регулярности обучаемые классы и равномерно классы Гливенко-Кантелли эквивалентны. [1] Взаимодействие между и в статистической литературе часто называют компромиссом смещения-дисперсии .
Однако обратите внимание, что в [2] авторы привели пример стохастической выпуклой оптимизации для общих условий обучения, где обучаемость не эквивалентна равномерной сходимости.
Ссылки
[ редактировать ]- ^ Jump up to: а б с Владимир Н. Вапник (17 апреля 2013 г.). Природа статистической теории обучения . Springer Science & Business Media. ISBN 978-1-4757-2440-0 .
- ^ Jump up to: а б «Обучаемость, стабильность и равномерная сходимость». Журнал исследований машинного обучения .
- ^ «Обучаемость в гильбертовых пространствах с воспроизводящими ядрами». Журнал сложности .
- ^ Andreĭ Nikolaevich Tikhonov; Vasiliĭ I︠A︡kovlevich Arsenin (1977). Solutions of ill-posed problems . Winston. ISBN 978-0-470-99124-4 .
- ^ А.В. ван дер Ваарт; Джон Веллнер (9 марта 2013 г.). Слабая сходимость и эмпирические процессы: с приложениями к статистике . Springer Science & Business Media. стр. 116–. ISBN 978-1-4757-2545-2 .