Статистическая теория обучения

Статистическая теория обучения — это основа машинного обучения, основанная на областях статистики и функционального анализа . ^[1]^[2]^[3] Статистическая теория обучения занимается проблемой статистического вывода по поиску прогностической функции на основе данных. Статистическая теория обучения привела к успешным применениям в таких областях, как компьютерное зрение , распознавание речи и биоинформатика .

Введение

Целями обучения являются понимание и прогнозирование. Обучение подразделяется на множество категорий, включая обучение с учителем , обучение без учителя , онлайн-обучение и обучение с подкреплением . С точки зрения статистической теории обучения лучше всего понимается обучение с учителем. ^[4] Обучение с учителем предполагает обучение на обучающем наборе данных. Каждая точка обучения представляет собой пару ввода-вывода, где входные данные сопоставляются с выходными данными. Проблема обучения состоит в определении функции, которая сопоставляет входные и выходные данные, так что изученную функцию можно использовать для прогнозирования выходных данных на основе будущих входных данных.

В зависимости от типа выходных данных проблемы обучения с учителем представляют собой либо проблемы регрессии , либо проблемы классификации . Если выходные данные принимают непрерывный диапазон значений, это проблема регрессии. Используя в качестве примера закон Ома , регрессию можно выполнить с напряжением в качестве входного сигнала и током в качестве выходного сигнала. Регрессия обнаружит, что функциональная связь между напряжением и током равна $R$ , такой, что $V=IR$ Задачи классификации — это те, для которых выходными данными будет элемент из дискретного набора меток. Классификация очень распространена в приложениях машинного обучения. Например, при распознавании лиц изображение лица человека будет входными данными, а выходной меткой будет имя этого человека. Входные данные будут представлены большим многомерным вектором, элементы которого представляют пиксели изображения.

После изучения функции на основе данных обучающего набора эта функция проверяется на тестовом наборе данных, данных, которые не появлялись в обучающем наборе.

Формальное описание

Брать $X$ быть векторным пространством всех возможных входных данных, и $Y$ быть векторным пространством всех возможных выходов. Статистическая теория обучения исходит из того, что существует некоторое неизвестное распределение вероятностей в пространстве продукта. $Z=X\times Y$ , т.е. существует какое-то неизвестное $p(z)=p(\mathbf {x} ,y)$ . Тренировочный комплекс состоит из $n$ выборки из этого распределения вероятностей и обозначается $S=\{(\mathbf {x} _{1},y_{1}),\dots ,(\mathbf {x} _{n},y_{n})\}=\{\mathbf {z} _{1},\dots ,\mathbf {z} _{n}\}$ Каждый $\mathbf {x} _{i}$ является входным вектором из обучающих данных, а $y_{i}$ это выход, который соответствует ему.

В этом формализме задача вывода состоит в нахождении функции $f:X\to Y$ такой, что $f(\mathbf {x} )\sim y$ . Позволять ${\mathcal {H}}$ быть пространством функций $f:X\to Y$ называется пространством гипотез. Пространство гипотез — это пространство функций, которые будет искать алгоритм. Позволять $V(f(\mathbf {x} ),y)$ быть функцией потерь , метрикой разницы между прогнозируемым значением $f(\mathbf {x} )$ и реальная стоимость $y$ . Ожидаемый риск определяется как $I[f]=\int _{X\times Y}V(f(\mathbf {x} ),y)\,p(\mathbf {x} ,y)\,d\mathbf {x} \,dy$ Целевая функция, наилучшая возможная функция $f$ которое можно выбрать, определяется $f$ это удовлетворяет $f=\mathop {\operatorname {argmin} } _{h\in {\mathcal {H}}}I[h]$

Поскольку распределение вероятностей $p(\mathbf {x} ,y)$ неизвестно, необходимо использовать косвенную меру ожидаемого риска. Эта мера основана на обучающем наборе, выборке из этого неизвестного распределения вероятностей. Это называется эмпирическим риском. $I_{S}[f]={\frac {1}{n}}\sum _{i=1}^{n}V(f(\mathbf {x} _{i}),y_{i})$ Алгоритм обучения, который выбирает функцию $f_{S}$ Минимизация эмпирического риска называется минимизацией эмпирического риска .

Функции потерь

Выбор функции потерь является определяющим фактором для функции $f_{S}$ который будет выбран алгоритмом обучения. Функция потерь также влияет на скорость сходимости алгоритма. Важно, чтобы функция потерь была выпуклой . ^[5]

В зависимости от того, является ли проблема регрессией или классификацией, используются разные функции потерь.

Регрессия

Наиболее распространенной функцией потерь для регрессии является функция квадратичных потерь (также известная как L2-норма ). Эта знакомая функция потерь используется в регрессии по методу наименьших квадратов . Форма: $V(f(\mathbf {x} ),y)=(y-f(\mathbf {x} ))^{2}$

потеря абсолютного значения (также известная как L1-норма Также иногда используется ): $V(f(\mathbf {x} ),y)=|y-f(\mathbf {x} )|$

Классификация

В некотором смысле индикаторная функция 0-1 является наиболее естественной функцией потерь для классификации. Он принимает значение 0, если прогнозируемый результат совпадает с фактическим выходом, и принимает значение 1, если прогнозируемый результат отличается от фактического. Для бинарной классификации с $Y=\{-1,1\}$ , Это: $V(f(\mathbf {x} ),y)=\theta (-yf(\mathbf {x} ))$ где $\theta$ – ступенчатая функция Хевисайда .

Регуляризация

В задачах машинного обучения основной проблемой является переобучение . Поскольку обучение представляет собой проблему прогнозирования, цель состоит не в том, чтобы найти функцию, которая наиболее точно соответствует (ранее наблюдаемым) данным, а в том, чтобы найти такую функцию, которая наиболее точно предскажет результат на основе будущих входных данных. Минимизация эмпирического риска сопряжена с риском переоснащения: нахождение функции, которая точно соответствует данным, но не позволяет хорошо прогнозировать будущие результаты.

Переобучение является симптомом нестабильных решений; небольшое возмущение в данных обучающего набора может привести к значительному изменению обучаемой функции. Можно показать, что если можно гарантировать устойчивость решения, то также гарантируются обобщение и непротиворечивость. ^[6]^[7] Регуляризация может решить проблему переобучения и придать проблеме стабильность.

Регуляризация может быть достигнута путем ограничения пространства гипотез. ${\mathcal {H}}$ . Типичным примером может быть ограничение ${\mathcal {H}}$ к линейным функциям: это можно рассматривать как сведение к стандартной задаче линейной регрессии . ${\mathcal {H}}$ также может быть ограничено полиномом степени $p$ , экспоненты или ограниченные функции на L1 . Ограничение пространства гипотез позволяет избежать переобучения, поскольку форма потенциальных функций ограничена, и поэтому не позволяет выбрать функцию, которая дает эмпирический риск, сколь угодно близкий к нулю.

Одним из примеров регуляризации является регуляризация Тихонова . Это заключается в минимизации ${\frac {1}{n}}\sum _{i=1}^{n}V(f(\mathbf {x} _{i}),y_{i})+\gamma \left\|f\right\|_{\mathcal {H}}^{2}$ где $\gamma$ — фиксированный и положительный параметр, параметр регуляризации. Тихоновская регуляризация обеспечивает существование, единственность и устойчивость решения. ^[8]

Ограничивающий эмпирический риск

Рассмотрим двоичный классификатор $f:{\mathcal {X}}\to \{0,1\}$ . Мы можем применить неравенство Хёффдинга , чтобы ограничить вероятность того, что эмпирический риск отклоняется от истинного риска и становится субгауссовым распределением . $\mathbb {P} (|{\hat {R}}(f)-R(f)|\geq \epsilon )\leq 2e^{-2n\epsilon ^{2}}$ Но обычно, когда мы проводим эмпирическую минимизацию риска, нам не дают классификатора; мы должны выбрать его. Поэтому более полезный результат — оценить вероятность супремума разности по всему классу. $\mathbb {P} {\bigg (}\sup _{f\in {\mathcal {F}}}|{\hat {R}}(f)-R(f)|\geq \epsilon {\bigg )}\leq 2S({\mathcal {F}},n)e^{-n\epsilon ^{2}/8}\approx n^{d}e^{-n\epsilon ^{2}/8}$ где $S({\mathcal {F}},n)$ число Разрушения и $n$ — это количество образцов в вашем наборе данных. Экспоненциальный член взят из Хеффдинга, но есть дополнительные затраты на получение супремума по всему классу, то есть числа Разрушения.

См. также

Воспроизведение ядерных гильбертовых пространств — полезный выбор для ${\mathcal {H}}$ .
Проксимальные градиентные методы обучения
Сложность Радемахера
Vapnik–Chervonenkis dimension

Ссылки

^ Вапник, Владимир Н. (1995). Природа статистической теории обучения . Нью-Йорк: Спрингер. ISBN 978-1-475-72440-0 .
^ Хасти, Тревор ; Тибширани, Роберт; Фридман, Джером Х. (2009). Элементы статистического обучения: интеллектуальный анализ данных, логический вывод и прогнозирование . Серия Спрингера по статистике. Нью-Йорк, штат Нью-Йорк: Спрингер. ISBN 978-0-387-84857-0 .
^ Мори, Мехриар ; Ростамизаде, Афшин; Талвалкар, Амит (2012). Основы машинного обучения . США, Массачусетс: MIT Press. ISBN 9780262018258 .
^ Томазо Поджо, Лоренцо Росаско и др. Статистическая теория обучения и ее приложения , 2012, 1 класс
^ Росаско, Лоренцо; Де Вито, Эрнесто; Капоннетто, Андреа; Пиана, Мишель; Верри, Алессандро (1 мая 2004 г.). «Все ли функции потерь одинаковы?» . Нейронные вычисления . 16 (5): 1063–1076. дои : 10.1162/089976604773135104 . ISSN 0899-7667 . ПМИД 15070510 .
^ Вапник В. Н. и Червоненкис А. Ю. 1971. О равномерной сходимости относительных частот событий к их вероятностям . Теория вероятностей и ее приложения , том 16, стр. 264–280.
^ Мукерджи С., Нийоги П. Поджио Т. и Рифкин Р. 2006. Теория обучения: стабильность достаточна для обобщения, а также необходима и достаточна для последовательности минимизации эмпирического риска . Достижения в области вычислительной математики . Том 25, стр. 161–193.
^ Томазо Поджо, Лоренцо Росаско и др. Статистическая теория обучения и ее приложения , 2012, 2 класс

[1] Вапник, Владимир Н. (1995). Природа статистической теории обучения . Нью-Йорк: Спрингер. ISBN 978-1-475-72440-0 .

[2] Хасти, Тревор ; Тибширани, Роберт; Фридман, Джером Х. (2009). Элементы статистического обучения: интеллектуальный анализ данных, логический вывод и прогнозирование . Серия Спрингера по статистике. Нью-Йорк, штат Нью-Йорк: Спрингер. ISBN 978-0-387-84857-0 .

[3] Мори, Мехриар ; Ростамизаде, Афшин; Талвалкар, Амит (2012). Основы машинного обучения . США, Массачусетс: MIT Press. ISBN 9780262018258 .

[4] Томазо Поджо, Лоренцо Росаско и др. Статистическая теория обучения и ее приложения , 2012, 1 класс

[5] Росаско, Лоренцо; Де Вито, Эрнесто; Капоннетто, Андреа; Пиана, Мишель; Верри, Алессандро (1 мая 2004 г.). «Все ли функции потерь одинаковы?» . Нейронные вычисления . 16 (5): 1063–1076. дои : 10.1162/089976604773135104 . ISSN 0899-7667 . ПМИД 15070510 .

[6] Вапник В. Н. и Червоненкис А. Ю. 1971. О равномерной сходимости относительных частот событий к их вероятностям . Теория вероятностей и ее приложения , том 16, стр. 264–280.

[7] Мукерджи С., Нийоги П. Поджио Т. и Рифкин Р. 2006. Теория обучения: стабильность достаточна для обобщения, а также необходима и достаточна для последовательности минимизации эмпирического риска . Достижения в области вычислительной математики . Том 25, стр. 161–193.

[8] Томазо Поджо, Лоренцо Росаско и др. Статистическая теория обучения и ее приложения , 2012, 2 класс

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]