Jump to content

Обучаемый класс функций

В статистической теории обучения класс обучаемых функций — это набор функций , для которых можно разработать алгоритм, позволяющий асимптотически минимизировать ожидаемый риск равномерно по всем распределениям вероятностей. Концепция обучаемых классов тесно связана с регуляризацией в машинном обучении и предоставляет большие выборки обоснований для определенных алгоритмов обучения.

Определение

[ редактировать ]

Позволять быть пространством выборки, где это этикетки и являются ковариатами (предикторами). представляет собой совокупность рассматриваемых отображений (функций), связывающих к . — заранее заданная функция потерь (обычно неотрицательная). Учитывая распределение вероятностей на , определить ожидаемый риск быть:

Общая цель статистического обучения — найти функцию в это минимизирует ожидаемый риск. То есть найти решение следующей проблемы: [1]

Но на практике распределение неизвестно, и любая задача обучения может быть основана только на конечных выборках. Таким образом, вместо этого мы стремимся найти алгоритм, который асимптотически минимизирует эмпирический риск, т. е. найти последовательность функций это удовлетворяет

Одним из обычных алгоритмов поиска такой последовательности является минимизация эмпирического риска .

Обучаемый класс функций

[ редактировать ]

Мы можем усилить условие, данное в приведенном выше уравнении, потребовав, чтобы сходимость была равномерной для всех распределений вероятностей. То есть:

( 1 )

Интуиция, лежащая в основе более строгих требований, такова: скорость, с которой последовательность сходится к минимизатору ожидаемого риска, может сильно различаться для разных . Потому что в реальном мире истинное распределение всегда неизвестен, мы хотели бы выбрать последовательность, которая хорошо работает во всех случаях.

Однако по теореме об отсутствии бесплатного обеда такая последовательность, удовлетворяющая ( 1 ), не существует, если слишком сложно. Это означает, что нам нужно быть осторожными и не допускать слишком «много» функций в если мы хотим, чтобы ( 1 ) было значимым требованием. В частности, классы функций, обеспечивающие существование последовательности. которые удовлетворяют ( 1 ), известны как обучаемые классы . [1]

Стоит отметить, что, по крайней мере, для задач контролируемой классификации и регрессии, если класс функции является обучаемым, то минимизация эмпирического риска автоматически удовлетворяет ( 1 ). [2] Таким образом, в этих условиях мы не только знаем, что проблема, поставленная ( 1 ), разрешима, но и сразу же имеем алгоритм, который дает решение.

Интерпретации

[ редактировать ]

Если истинные отношения между и является , затем, выбрав соответствующую функцию потерь, всегда можно выразить как минимизатор ожидаемых потерь по всем возможным функциям. То есть,

Здесь мы позволяем быть совокупностью всех возможных функций, отображающих на . можно интерпретировать как реальный механизм генерации данных. Однако теорема об отсутствии бесплатного обеда говорит нам, что на практике с конечными выборками мы не можем надеяться на поиск ожидаемого минимизатора риска за . Таким образом, мы часто рассматриваем подмножество , , для проведения поиска. Поступая так, мы рискуем может не быть элементом . Этот компромисс можно математически выразить как

( 2 )

В приведенном выше разложении часть не зависит от данных и не является стохастическим. Он описывает, насколько далеки наши предположения ( ) от истины ( ). будет строго больше 0, если мы сделаем слишком сильные предположения ( слишком маленький). С другой стороны, если не установить достаточных ограничений на приведет к тому, что его невозможно будет изучить, и часть не будет стохастически сходиться к 0. Это хорошо известная проблема переобучения в литературе по статистике и машинному обучению.

Пример: Тихоновская регуляризация

[ редактировать ]

Хорошим примером использования обучаемых классов является так называемая тихоновская регуляризация при воспроизведении ядра гильбертова пространства (RKHS). Конкретно, пусть быть RKHS, и быть нормой для задано его внутренним продуктом. Это показано в [3] что является обучаемым классом для любого конечного положительного . Алгоритм эмпирической минимизации двойственной формы этой задачи:

Впервые это было предложено Тихоновым. [4] решать некорректные задачи. Многие алгоритмы статистического обучения можно выразить в такой форме (например, известная ридж-регрессия ).

Компромисс между и в ( 2 ) геометрически более интуитивно понятен с регуляризацией Тихонова в RKHS. Мы можем рассмотреть последовательность , которые по сути представляют собой шарики в с центрами в 0. Поскольку становится больше, приближается ко всему пространству и скорее всего, станет меньше. Однако мы также будем страдать от меньших темпов конвергенции в . Способ выбора оптимального в условиях ограниченной выборки обычно осуществляется посредством перекрестной проверки .

Связь с теорией эмпирических процессов

[ редактировать ]

Часть в ( 2 ) тесно связан с теорией эмпирических процессов в статистике, где эмпирический риск известны как эмпирические процессы. [5] В этом поле класс функции который удовлетворяет стохастической сходимости

( 3 )

известны как равномерные классы Гливенко–Кантелли . Показано, что при определенных условиях регулярности обучаемые классы и равномерно классы Гливенко-Кантелли эквивалентны. [1] Взаимодействие между и в статистической литературе часто называют компромиссом смещения-дисперсии .

Однако обратите внимание, что в [2] авторы привели пример стохастической выпуклой оптимизации для общих условий обучения, где обучаемость не эквивалентна равномерной сходимости.

  1. ^ Jump up to: а б с Владимир Н. Вапник (17 апреля 2013 г.). Природа статистической теории обучения . Springer Science & Business Media. ISBN  978-1-4757-2440-0 .
  2. ^ Jump up to: а б «Обучаемость, стабильность и равномерная сходимость». Журнал исследований машинного обучения .
  3. ^ «Обучаемость в гильбертовых пространствах с воспроизводящими ядрами». Журнал сложности .
  4. ^ Andreĭ Nikolaevich Tikhonov; Vasiliĭ I︠A︡kovlevich Arsenin (1977). Solutions of ill-posed problems . Winston. ISBN  978-0-470-99124-4 .
  5. ^ А.В. ван дер Ваарт; Джон Веллнер (9 марта 2013 г.). Слабая сходимость и эмпирические процессы: с приложениями к статистике . Springer Science & Business Media. стр. 116–. ISBN  978-1-4757-2545-2 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 92b29a360ad71c7b6bc0fe8f14317be7__1699981140
URL1:https://arc.ask3.ru/arc/aa/92/e7/92b29a360ad71c7b6bc0fe8f14317be7.html
Заголовок, (Title) документа по адресу, URL1:
Learnable function class - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)