Воспроизведение ядра гильбертова пространства
В функциональном анализе (раздел математики ) воспроизводящее ядерное гильбертово пространство ( РКХС ) — это гильбертово пространство функций, в котором точечная оценка представляет собой непрерывный линейный функционал . Грубо говоря, это означает, что если две функции и в РХС близки к норме, т.е. мал, то и также поточечно близки, т.е. мал для всех . Обратное не обязательно должно быть правдой. Неформально это можно показать, взглянув на верхнюю норму : последовательность функций сходится поточечно, но не сходится равномерно, т. е. не сходится по супремумной норме. (Это не контрпример, поскольку норма супремума не возникает из какого-либо внутреннего продукта из-за неудовлетворения закона параллелограмма .)
Не совсем просто построить гильбертово пространство функций, не являющееся RKHS. [1] Однако некоторые примеры были найдены. [2] [3]
л 2 пространства являются не гильбертовыми пространствами функций (и, следовательно, не RKHS), а гильбертовыми пространствами классов эквивалентности функций (например, функций и определяется и эквивалентны в L 2 ). Однако существуют РХС, в которых нормой является L 2 -норма, такая как пространство функций с ограниченной зоной (см. пример ниже).
RKHS связан с ядром, которое воспроизводит каждую функцию в пространстве в том смысле, что для каждого в множестве, на котором определены функции, «вычисление при "можно выполнить, взяв внутренний продукт с функцией, определяемой ядром. Такое воспроизводящее ядро существует тогда и только тогда, когда каждый оценочный функционал непрерывен.
Воспроизводящее ядро было впервые введено в 1907 году в работе Станислава Зарембы о краевых задачах для гармонических и бигармонических функций . Джеймс Мерсер Одновременно исследовал функции , удовлетворяющие воспроизводящему свойству, в теории интегральных уравнений . Идея воспроизводящегося ядра оставалась нетронутой в течение почти двадцати лет, пока она не появилась в диссертациях Габора Сеге , Стефана Бергмана и Саломона Бохнера . В конечном итоге эта тема была систематически развита в начале 1950-х годов Нахманом Ароншайном и Стефаном Бергманом. [4]
Эти пространства имеют широкие приложения, включая комплексный анализ , гармонический анализ и квантовую механику . Воспроизведение ядерных гильбертовых пространств особенно важно в области статистической теории обучения из-за знаменитой теоремы о репрезентаторе , которая гласит, что каждая функция в RKHS, которая минимизирует эмпирический функционал риска, может быть записана как линейная комбинация ядерной функции, оцененной в точках обучения. . Это практически полезный результат, поскольку он эффективно упрощает эмпирическую задачу минимизации риска с бесконечномерной до конечномерной задачи оптимизации.
Для простоты понимания мы предоставляем основу для вещественных гильбертовых пространств. Теорию можно легко распространить на пространства комплекснозначных функций и, следовательно, включить множество важных примеров воспроизведения ядерных гильбертовых пространств, которые являются пространствами аналитических функций . [5]
Определение
[ редактировать ]Позволять быть произвольным множеством и гильбертово пространство вещественных функций на , оснащенный поточечным сложением и поточечным скалярным умножением. Функционал оценки в гильбертовом пространстве функций представляет собой линейный функционал, который оценивает каждую функцию в точке ,
Будем говорить, что H является воспроизводящим ядерным гильбертовым пространством , если для всех в , является непрерывным в каждом в или, что то же самое, если является ограниченным оператором на , т.е. существует некоторый такой, что
( 1 ) |
Хотя предполагается для всех , все еще может быть так, что .
Хотя свойство ( 1 ) является самым слабым условием, обеспечивающим как существование внутреннего продукта, так и вычисление каждой функции в в каждой точке предметной области его нелегко применить на практике. Более интуитивное определение RKHS можно получить, заметив, что это свойство гарантирует, что оценочный функционал может быть представлен как внутренний продукт с функцией в . Эта функция является так называемым воспроизводящим ядром. [ нужна ссылка ] для гильбертова пространства от которого RKHS получил свое название. Более формально, теорема о представлении Рисса означает, что для всех в существует уникальный элемент из с воспроизводящим свойством,
( 2 ) |
С сама по себе является функцией, определенной на со значениями в поле (или в случае комплексных гильбертовых пространств) и как находится в у нас есть это
где это элемент в связанный с .
Это позволяет определить воспроизводящее ядро как функция (или в сложном случае)
Из этого определения легко увидеть, что (или в комплексном случае) является одновременно симметричным (соответственно сопряженно-симметричным) и положительно определенным , т.е.
для каждого [6] Теорема Мура – Ароншайна (см. ниже) является своего рода обратной к этому: если функция удовлетворяет этим условиям, то существует гильбертово пространство функций на для которого оно является воспроизводящим ядром.
Пример
[ редактировать ]Пространство с ограниченной полосой пропускания непрерывных функций как мы теперь покажем, это RKHS. Формально, исправить некоторую частоту среза и определим гильбертово пространство
где - набор непрерывных функций, интегрируемых с квадратом, и представляет собой Фурье преобразование . В качестве внутреннего продукта этого гильбертова пространства мы используем
По теореме обращения Фурье имеем
Тогда из неравенства Коши–Шварца и теоремы Планшереля следует , что для всех ,
Это неравенство показывает, что функционал оценки ограничен, что доказывает, что действительно RKHS.
Функция ядра в данном случае определяется
Преобразование Фурье определенное выше, определяется выражением
что является следствием свойства сдвига во времени преобразования Фурье . Следовательно, используя теорему Планшереля , имеем
Таким образом, мы получаем воспроизводящее свойство ядра.
в данном случае это «версия с ограниченной полосой пропускания» дельта -функции Дирака , и это сходится к в слабом смысле как частота среза стремится к бесконечности.
Теорема Мура – Ароншайна
[ редактировать ]Мы видели, как гильбертово пространство с воспроизводящим ядром определяет воспроизводящую ядерную функцию, которая одновременно симметрична и положительно определена . Теорема Мура-Ароншайна идет в другом направлении; он утверждает, что каждое симметричное положительно определенное ядро определяет уникальное воспроизводящее ядро гильбертова пространства. Теорема впервые появилась в «Теории воспроизведения ядер» Ароншайна , хотя он приписывает ее Э.Х. Муру .
- Теорема . Предположим, K — симметричное положительно определенное ядро на множестве X. что Тогда существует единственное гильбертово пространство функций на X, для которого K — воспроизводящее ядро.
Доказательство . Для всех x в X определите K x = K ( x , ⋅ ). Пусть H 0 — линейная оболочка { K x : x ∈ X }. Определим скалярный продукт на H 0 по формуле
что подразумевает .Симметрия этого скалярного произведения следует из симметрии K , а невырожденность следует из того факта, что K положительно определен.
Пусть H — пополнение H . 0 относительно этого скалярного произведения Тогда H состоит из функций вида
Теперь мы можем проверить свойство воспроизведения ( 2 ):
Для доказательства единственности пусть G — другое гильбертово пространство функций, для которого K — воспроизводящее ядро. Для каждого x и y в X из ( 2 ) следует, что
По линейности, на протяжении . Затем поскольку G полна и содержит H 0 и, следовательно, содержит свое пополнение.
Теперь нам нужно доказать, что каждый элемент находится в H. G Позволять быть элементом G . Поскольку H — замкнутое подпространство G , мы можем написать где и . Теперь, если тогда, поскольку K — воспроизводящее ядро G и H :
где мы использовали тот факт, что принадлежит H так, что его внутренний продукт с в G равен нулю.Это показывает, что в G и завершает доказательство.
Интегральные операторы и теорема Мерсера
[ редактировать ]Мы можем охарактеризовать симметричное положительно определенное ядро через интегральный оператор с использованием теоремы Мерсера и получить дополнительный вид RKHS. Позволять — компакт, наделенный строго положительной конечной борелевской мерой и непрерывная, симметричная и положительно определенная функция. Определим интегральный оператор как
где – пространство функций, интегрируемых с квадратом относительно .
Теорема Мерсера утверждает, что спектральное разложение интегрального оператора из дает представление в виде ряда в терминах собственных значений и собственных функций . Тогда это означает, что является воспроизводящим ядром, так что соответствующее RKHS можно определить через эти собственные значения и собственные функции. Мы предоставляем подробную информацию ниже.
При этих предположениях — компактный, непрерывный, самосопряженный и положительный оператор. Спектральная теорема для самосопряженных операторов означает, что существует не более чем счетная убывающая последовательность такой, что и , где образуют ортонормированный базис . По позитивности для всех Можно также показать, что непрерывно отображается в пространство непрерывных функций и поэтому мы можем выбрать в качестве собственных векторов непрерывные функции, т. е. для всех Тогда по теореме Мерсера может быть записано через собственные значения и непрерывные собственные функции как
для всех такой, что
Это представленное выше представление серии называется ядром Мерсера или представлением Мерсера. .
Кроме того, можно показать, что RKHS из дается
где внутренний продукт данный
Это представление RKHS имеет применение в теории вероятности и статистике, например, в представлении Карунена-Лоэва для случайных процессов и ядра PCA .
Карты объектов
[ редактировать ]Карта объектов — это карта , где — это гильбертово пространство, которое мы будем называть пространством признаков. В первых разделах была представлена связь между ограниченными/непрерывными функциями оценки, положительно определенными функциями и интегральными операторами, а в этом разделе мы даем другое представление RKHS в терминах карт признаков.
Каждая карта функций определяет ядро через
( 3 ) |
Четко симметричен, а положительная определенность следует из свойств скалярного произведения в . И наоборот, каждая положительно определенная функция и соответствующее воспроизводящее ядро гильбертова пространства имеют бесконечно много связанных карт признаков, таких что ( 3 ) выполняется.
Например, мы можем тривиально взять и для всех . Тогда ( 3 ) удовлетворяет воспроизводящему свойству. Другой классический пример карты признаков относится к предыдущему разделу, посвященному интегральным операторам: и .
Эта связь между ядрами и картами признаков дает нам новый способ понять положительно определенные функции и, следовательно, воспроизвести ядра как внутренние продукты в . Более того, каждая карта признаков может естественным образом определять RKHS посредством определения положительно определенной функции.
Наконец, карты признаков позволяют нам создавать функциональные пространства, которые раскрывают другой взгляд на RKHS. Рассмотрим линейное пространство
Мы можем определить норму к
Можно показать, что представляет собой RKHS с ядром, определяемым . Это представление подразумевает, что элементы RKHS являются внутренними продуктами элементов пространства признаков и, соответственно, могут рассматриваться как гиперплоскости. Этот взгляд на RKHS связан с трюком с ядром в машинном обучении. [7]
Характеристики
[ редактировать ]Полезные свойства РХС:
- Позволять быть последовательностью множеств и — совокупность соответствующих положительно определенных функций на Отсюда следует, что
- включено ли ядро
- Позволять тогда ограничение к также является воспроизводящим ядром.
- Рассмотрим нормализованное ядро такой, что для всех . Определите псевдометрику на X как
- По неравенству Коши–Шварца ,
- Это неравенство позволяет нам увидеть как мера сходства между входными данными. Если тогда похожи будет ближе к 1, а если тогда они непохожи будет ближе к 0.
- Закрытие пролета совпадает с . [8]
Общие примеры
[ редактировать ]Билинейные ядра
[ редактировать ]РХС этому ядру соответствует двойственное пространство, состоящее из функций удовлетворяющий .
Полиномиальные ядра
[ редактировать ]Это еще один распространенный класс ядер, которые удовлетворяют . Вот некоторые примеры:
- Гауссово или квадратичное экспоненциальное ядро :
- Ядро Лапласа :
Мы также приводим примеры ядер Бергмана . Пусть X конечно и H состоит из всех комплекснозначных функций на X . Тогда элемент H можно представить как массив комплексных чисел. обычное скалярное произведение Если используется , то K x — это функция, значение которой равно 1 в точке x и 0 везде, и можно рассматривать как единичную матрицу, поскольку
В этом случае H изоморфен .
Случай (где обозначает единичный диск ) является более сложным. Вот пространство Бергмана — пространство интегрируемых с квадратом голоморфных функций на . Можно показать, что воспроизводящее ядро для является
Наконец, пространство ограниченных по полосе функций в с пропускной способностью представляет собой RKHS с воспроизводящим ядром
Расширение векторных функций
[ редактировать ]В этом разделе мы расширяем определение RKHS на пространства векторных функций, поскольку это расширение особенно важно в многозадачном обучении и регуляризации многообразий . Основное отличие состоит в том, что воспроизводящее ядро - симметричная функция, которая теперь является положительной полуопределенной матрицей для каждого в . Более формально, мы определяем векторнозначное RKHS (vvRKHS) как гильбертово пространство функций такой, что для всех и
и
Это второе свойство аналогично свойству воспроизведения для скалярного случая. Это определение также может быть связано с интегральными операторами, ограниченными функциями оценки и картами признаков, как мы видели для скалярнозначного RKHS. Мы можем эквивалентным образом определить vvRKHS как векторное гильбертово пространство с ограниченным функционалом оценки и показать, что из этого следует существование уникального воспроизводящего ядра по теореме о представлении Рисса. Теорему Мерсера также можно распространить на векторнозначную настройку, и поэтому мы можем получить представление карты признаков vvRKHS. Наконец, можно также показать, что замыкание промежутка совпадает с , еще одно свойство, похожее на случай со скалярным знаком.
Мы можем получить представление о vvRKHS, взглянув на эти пространства покомпонентно. В частности, мы находим, что каждый vvRKHS изометрически изоморфен скалярнозначному RKHS в конкретном входном пространстве. Позволять . Рассмотрим пространство и соответствующее воспроизводящее ядро
( 4 ) |
Как отмечалось выше, RKHS, связанный с этим воспроизводящим ядром, определяется замыканием диапазона где для каждого набора пар .
Тогда связь со скалярнозначным RKHS может быть установлена тем фактом, что каждое матричное ядро можно отождествить с ядром вида ( 4 ) через
Более того, каждое ядро вида ( 4 ) определяет матричное ядро с приведенным выше выражением. Теперь позволяем карте быть определен как
где это составляющая канонической основы , можно показать, что является биективным и изометрией между и .
Хотя этот взгляд на vvRKHS может быть полезен при многозадачном обучении, эта изометрия не сводит изучение векторного случая к изучению скалярного случая. Фактически, эта процедура изометрии может сделать как скалярное ядро, так и входное пространство слишком трудными для работы на практике, поскольку свойства исходных ядер часто теряются. [11] [12] [13]
Важным классом матричных воспроизводящих ядер являются разделимые ядра, которые можно факторизовать как произведение скалярного ядра и -мерная симметричная положительная полуопределенная матрица. В свете нашего предыдущего обсуждения эти ядра имеют вид
для всех в и в . Поскольку скалярное ядро кодирует зависимости между входными данными, мы можем наблюдать, что матричное ядро кодирует зависимости как между входными, так и выходными данными.
Наконец, отметим, что изложенную выше теорию можно распространить и на пространства функций со значениями в функциональных пространствах, но получение ядер для этих пространств представляет собой более сложную задачу. [14]
Соединение между RKHS и функцией ReLU
[ редактировать ]Функция ReLU обычно определяется как и является основой архитектуры нейронных сетей, где он используется в качестве функции активации. Можно построить ReLU-подобную нелинейную функцию, используя теорию воспроизведения ядерных гильбертовых пространств. Ниже мы выведем эту конструкцию и покажем, как она подразумевает возможности представления нейронных сетей с активациями ReLU.
Мы будем работать с гильбертовым пространством. абсолютно непрерывных функций с и интегрируемое с квадратом (т.е. ) производная. Имеет внутренний продукт
Для построения воспроизводящего ядра достаточно рассмотреть плотное подпространство, поэтому пусть и . Тогда Основная теорема исчисления дает
где
и т.е.
Это подразумевает воспроизводит .
Более того, минимальная функция на имеет следующие представления с функцией ReLu:
Используя эту формулировку, мы можем применить теорему о репрезентаторе к RKHS, позволяя доказать оптимальность использования активаций ReLU в настройках нейронной сети. [ нужна ссылка ]
См. также
[ редактировать ]- Положительно определенное ядро
- Теорема Мерсера
- Трюк с ядром
- Встраивание дистрибутивов в ядро
- Представление теоремы
Примечания
[ редактировать ]- ^ Алпай, Д. и Т.М. Миллс. «Семейство гильбертовых пространств, не воспроизводящих ядро гильбертовых пространств». Дж. Анал. Прил. 1.2 (2003): 107–111.
- ^ З. Пастернак-Винарский, «О весах, допускающих воспроизведение ядра типа Бергмана», Международный журнал математики и математических наук , том. 15, выпуск 1, 1992.
- ^ Т.Л. Жында, «О весах, допускающих воспроизведение ядра типа Сегё», Журнал современного математического анализа (Академия наук Армении), 55, 2020.
- ^ Окутмуст
- ^ Полсон
- ^ Дарретт
- ^ Росаско
- ^ Росаско
- ^ Берлине, Ален и Томас, Кристина. Воспроизведение ядерных гильбертовых пространств в книге «Вероятность и статистика» , Kluwer Academic Publishers, 2004 г.
- ^ Томас-Аньян С. Вычисление семейства воспроизводящих ядер для статистических приложений. Численные алгоритмы, 13, стр. 21-32 (1996).
- ^ ДеВито
- ^ Чжан
- ^ Альварес
- ^ Росаско
Ссылки
[ редактировать ]- Альварес, Маурисио, Росаско, Лоренцо и Лоуренс, Нил, «Ядра для векторнозначных функций: обзор», https://arxiv.org/abs/1106.6251 , июнь 2011 г.
- Аронсайн, Нахман (1950). «Теория воспроизведения ядер» . Труды Американского математического общества . 68 (3): 337–404. дои : 10.1090/S0002-9947-1950-0051437-7 . JSTOR 1990404 . МР 0051437 .
- Берлине, Ален и Томас, Кристина. Воспроизведение ядерных гильбертовых пространств в книге «Вероятность и статистика» , Kluwer Academic Publishers, 2004.
- Какер, Фелипе; Смейл, Стив (2002). «О математических основах обучения» . Бюллетень Американского математического общества . 39 (1): 1–49. дои : 10.1090/S0273-0979-01-00923-5 . МР 1864085 .
- Де Вито, Эрнест, Уманита, Вероника и Вилла, Сильвия. «Распространение теоремы Мерсера на векторно-измеримые ядра», arXiv : 1110.4017 , июнь 2013 г.
- Дарретт, Грег. 9.520 Конспекты курса, Массачусетский технологический институт, https://www.mit.edu/~9.520/scribe-notes/class03_gdurett.pdf , февраль 2010 г.
- Кимельдорф, Джордж; Вахба, Грейс (1971). «Некоторые результаты по чебышевским сплайн-функциям» (PDF) . Журнал математического анализа и приложений . 33 (1): 82–95. дои : 10.1016/0022-247X(71)90184-3 . МР 0290013 .
- Окутмустур, Бавер. «Воспроизведение ядерных гильбертовых пространств», магистерская диссертация, Университет Билкента, http://www.thesis.bilkent.edu.tr/0002953.pdf , август 2005 г.
- Полсен, Верн. «Введение в теорию воспроизведения ядерных гильбертовых пространств», https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=440218056738e05b5ab43679f932a9f33fccee87 .
- Стейнварт, Инго; Сковел, Клинт (2012). «Теорема Мерсера об общих областях: о взаимодействии мер, ядер и RKHS». Констр. Прибл . 35 (3): 363–417. дои : 10.1007/s00365-012-9153-3 . МР 2914365 . S2CID 253885172 .
- Розаско, Лоренцо и Поджо, Томас. Рукопись «Регуляризация машинного обучения – конспекты лекций MIT 9.520», декабрь 2014 г.
- Вахба, Грейс , Сплайновые модели для данных наблюдений , SIAM , 1990.
- Чжан, Хайчжан; Сюй, Юешэн; Чжан, Цинхуэй (2012). «Уточнение операторно-воспроизводящих ядер» (PDF) . Журнал исследований машинного обучения . 13 : 91–136.