Vapnik–Chervonenkis theory
Часть серии о |
Машинное обучение и интеллектуальный анализ данных |
---|
Теория Вапника–Червоненкиса (также известная как теория ВК ) была разработана в 1960–1990 годах Владимиром Вапником и Алексеем Червоненкисом . Теория представляет собой форму теории вычислительного обучения , которая пытается объяснить процесс обучения со статистической точки зрения.
Введение
[ редактировать ]Теория венчурного капитала охватывает как минимум четыре части (как объяснено в Природе статистической теории обучения). [1] ):
- Теория последовательности процессов обучения
- Каковы (необходимые и достаточные) условия последовательности процесса обучения, основанного на принципе минимизации эмпирического риска ?
- Неасимптотическая теория скорости конвергенции процессов обучения
- Насколько высока скорость конвергенции процесса обучения?
- Теория управления обобщающей способностью процессов обучения
- Как можно контролировать скорость конвергенции ( способность к обобщению ) процесса обучения?
- Теория построения обучающихся машин
- Как можно построить алгоритмы, которые смогут контролировать способность к обобщению?
Теория венчурного капитала является основным разделом статистической теории обучения . Одним из его основных приложений в статистической теории обучения является обеспечение условий обобщения алгоритмов обучения. С этой точки зрения теория ВК связана со стабильностью , которая является альтернативным подходом к характеристике обобщения.
Кроме того, теория VC и размерность VC играют важную роль в теории эмпирических процессов в случае процессов, индексируемых классами VC. Возможно, это наиболее важные применения теории ВК, которые используются для доказательства обобщения. Будут представлены несколько методов, которые широко используются в эмпирическом процессе и теории венчурного капитала. Обсуждение в основном основано на книге « Слабая сходимость и эмпирические процессы: с приложениями к статистике» . [2]
Обзор теории венчурного капитала в эмпирических процессах
[ редактировать ]Общие сведения об эмпирических процессах
[ редактировать ]Позволять быть измеримым пространством . По любой мере на и любые измеримые функции , определять
Проблемы измеримости здесь будут проигнорированы, более подробную техническую информацию см. [1] Позволять быть классом измеримых функций и определим:
Позволять быть независимыми, одинаково распределенными случайными элементами . Затем определим эмпирическую меру
где δ здесь обозначает меру Дирака . Эмпирическая мера порождает отображение предоставлено:
Теперь предположим, что P — это истинное распределение данных, которое неизвестно. Теория эмпирических процессов направлена на выявление классов. для которых справедливы такие утверждения, как следующие:
- единый закон больших чисел :
- То есть, как ,
- одинаково для всех .
- равномерная центральная предельная теорема :
В первом случае называется классом Гливенко–Кантелли , и в последнем случае (в предположении ) класс называется Донскер или П -Донскер. Класс Донскера является по вероятности Гливенко–Кантелли в соответствии с теоремой Слуцкого .
Эти утверждения справедливы для одного , по стандартному LLN , аргументы CLT при условиях регулярности, и трудность в Эмпирических процессах возникает, потому что совместные утверждения делаются для всех . Тогда интуитивно множество не может быть слишком большим, и как оказывается, геометрия играет очень важную роль.
Один из способов измерения размера набора функций заключается в использовании так называемых покрывающих чисел . Покрывающий номер
минимальное количество шаров нужно, чтобы покрыть набор (здесь, очевидно, предполагается, что существует базовая норма о ). Энтропия — это логарифм покрывающего числа.
Ниже приведены два достаточных условия, при которых можно доказать, что множество это Гливенко–Кантелли или Донскер.
Класс является P -Гливенко–Кантелли, если он P -измерим с огибающей F такой, что и удовлетворяет:
Следующее условие представляет собой вариант знаменитой теоремы Дадли . Если — это класс функций таких, что
затем является P -Донскером для каждой вероятностной меры P такой, что . В последнем интеграле обозначения означают
- .
Симметризация
[ редактировать ]Большинство аргументов в пользу того, как ограничить эмпирический процесс, основано на симметризации, неравенствах максимального и концентрационного неравенства и цепочке. Симметризация обычно является первым шагом доказательства, и, поскольку она используется во многих доказательствах машинного обучения для ограничивающих эмпирических функций потерь (включая доказательство неравенства ВК, которое обсуждается в следующем разделе), она представлена здесь.
Рассмотрим эмпирический процесс:
Оказывается, существует связь между эмпирическим и следующим симметризованным процессом:
Симметризованный процесс — это процесс Радемахера , условно по данным . , это субгауссов процесс Следовательно, согласно неравенству Хеффдинга .
Лемма (симметризация). Для любого неубывающего выпуклого Φ: R → R и класса измеримых функций ,
Доказательство леммы симметризации основано на введении независимых копий исходных переменных. (иногда называемый призрачным образцом ) и замену внутреннего ожидания LHS этими копиями. После применения неравенства Йенсена можно было ввести разные знаки (отсюда и название «симметризация») без изменения математического ожидания. Доказательство можно найти ниже ввиду его поучительного характера. Тот же метод доказательства можно использовать для доказательства теоремы Гливенко–Кантелли . [3]
Представляем «призрачный образец» быть независимыми копиями . Для фиксированных значений у одного есть:
Следовательно, по неравенству Йенсена :
Ожидание относительно дает:
Обратите внимание, что добавление знака минус перед термином не меняет правую часть, потому что это симметричная функция и . Следовательно, правая часть остается неизменной при «возмущении знака»:
для любого . Поэтому:
Наконец, используя сначала неравенство треугольника, а затем выпуклость дает:
Где последние два выражения в правой части совпадают, что и завершает доказательство.
Типичный способ доказательства эмпирических CLT сначала использует симметризацию, чтобы передать эмпирический процесс а затем условно аргументировать данные, используя тот факт, что процессы Радемахера — это простые процессы с хорошими свойствами.
Соединение ВК
[ редактировать ]Оказывается, существует интересная связь между некоторыми комбинаторными свойствами множества. и энтропийные числа. Равномерными покрывающими числами можно управлять с помощью понятия классов множеств Вапника–Червоненкиса – или сокращенно множеств VC .
Рассмотрим коллекцию подмножеств выборочного пространства . говорят, что он выбирает определенное подмножество конечного множества если для некоторых . говорят, что он разбивает S, если выберет каждый из двух его н подмножества. Индекс VC (аналогично размеру VC + 1 для правильно выбранного набора классификаторов) из — это наименьшее n , для которого ни одно множество размера n не разрушается .
Тогда лемма Зауэра утверждает, что число подмножеств, выбранных классом VC удовлетворяет:
Что является полиномиальным числом подмножеств, а не экспоненциальное число. Интуитивно это означает, что конечный индекс VC означает, что имеет кажущуюся упрощенную структуру.
Аналогичную оценку можно показать (с другой константой и той же скоростью) для так называемых классов подграфов VC . Для функции подграф подмножеством является такой, что: . Коллекция называется классом подграфа VC, если все подграфы образуют VC-класс.
Рассмотрим набор индикаторных функций в для дискретного эмпирического типа меры Q (или, что то же самое, для любой вероятностной меры Q ). Тогда можно показать, что совершенно замечательно, что :
Далее рассмотрим симметричную выпуклую оболочку множества : являющийся набором функций вида с . Тогда, если
для выпуклой оболочки справедливо следующее :
Важным следствием этого факта является то, что
этого достаточно, чтобы интеграл энтропии сходился, и, следовательно, класс будет П -Донскер.
Наконец, рассматривается пример класса VC-подграфа. Любое конечномерное векторное пространство измеримых функций является VC-подграфом индекса, меньшим или равным .
Доказательство: Возьмите очки . Векторы:
находятся в n − 1- мерном подпространстве R н . Возьмем a ≠ 0 — вектор, ортогональный этому подпространству. Поэтому:
Рассмотрим набор . Этот набор невозможно выбрать, так как если он есть такой, что это означало бы, что левая шкала строго положительна, а правая не положительна.
Существуют обобщения понятия класса подграфа VC, например, понятие псевдоразмерности. [4]
Неравенство венчурного капитала
[ редактировать ]Рассматривается аналогичная настройка, более характерная для машинного обучения . Позволять представляет собой пространство признаков и . Функция называется классификатором. Позволять быть набором классификаторов. Аналогично предыдущему разделу определите коэффициент разрушения (также известный как функция роста):
Обратите внимание, что между каждой из функций существует соотношение 1:1. и множество, на котором функция равна 1. Таким образом, мы можем определить быть совокупностью подмножеств, полученных из приведенного выше отображения для каждого . Следовательно, в терминах предыдущего раздела коэффициент разрушения равен именно
- .
Из этой эквивалентности вместе с леммой Зауэра следует, что будет полиномиальным по n для достаточно большого n при условии, что набор имеет конечный VC-индекс.
Позволять представляет собой наблюдаемый набор данных. Предположим, что данные генерируются неизвестным распределением вероятностей. . Определять будет ожидаемая потеря 0/1 . Конечно, поскольку вообще неизвестно, у человека нет доступа к . Однако эмпирический риск определяется следующим образом:
конечно можно оценить. Тогда имеет место следующая Теорема:
Теорема (неравенство ВК)
[ редактировать ]Для двоичной классификации и функции потерь 0/1 мы имеем следующие границы обобщения:
На словах неравенство VC означает, что по мере увеличения выборки при условии, что имеет конечное измерение VC, эмпирический риск 0/1 становится хорошим показателем ожидаемого риска 0/1. Обратите внимание, что обе правые части двух неравенств будут сходиться к 0, если растет полиномиально по n .
Связь между этой структурой и структурой эмпирического процесса очевидна. Здесь мы имеем дело с модифицированным эмпирическим процессом.
но неудивительно, что идеи одни и те же. Доказательство (первой части) неравенства ВК опирается на симметризацию, а затем условно аргументирует данные, используя неравенства концентрации (в частности, неравенство Хеффдинга ). Заинтересованный читатель может ознакомиться с книгой. [5] Теоремы 12.4 и 12.5.
Ссылки
[ редактировать ]- ^ Jump up to: а б Вапник, Владимир Н (2000). Природа статистической теории обучения . Информатика и статистика. Спрингер-Верлаг . ISBN 978-0-387-98780-4 .
- ^ ван дер Ваарт, Аад В .; Веллнер, Джон А. (2000). Слабая сходимость и эмпирические процессы: с приложениями к статистике (2-е изд.). Спрингер. ISBN 978-0-387-94640-5 .
- ^ Деврой Л., Дьерфи Л. и Лугоши Г. Вероятностная теория распознавания образов. Дискретная прикладная математика 73 , 192–194 (1997).
- ^ Поллард, Дэвид (1990). Эмпирические процессы: теория и приложения . Серия региональных конференций NSF-CBMS по теории вероятности и статистике, том 2. ISBN 978-0-940600-16-4 .
- ^ Дьерфи, Л.; Деврой, Л.; Лугоши, Г. (1996). Вероятностная теория распознавания образов (1-е изд.). Спрингер. ISBN 978-0387946184 .
- См. ссылки в статьях: Ричард М. Дадли , Эмпирические процессы , Разрушенное множество . [ циклическая ссылка ]
- Буске, Оливье; Елисеев, Андре (1 марта 2002 г.). «Стабильность и обобщение» . Журнал исследований машинного обучения . 2 : 499–526. дои : 10.1162/153244302760200704 . S2CID 1157797 . Проверено 10 декабря 2022 г.
- Вапник, В.; Червоненкис, А. (2004). «О равномерной сходимости относительных частот событий к их вероятностям». Теория вероятностей. Приложение . 16 (2): 264–280. дои : 10.1137/1116025 .