Положительно определенное ядро
В теории операторов , разделе математики, положительно определенное ядро является обобщением положительно определенной функции или положительно определенной матрицы . Впервые он был введен Джеймсом Мерсером в начале 20 века в контексте решения интегрально-операторных уравнений . С тех пор положительно определенные функции и их различные аналоги и обобщения возникли в различных разделах математики. Они естественным образом возникают в анализе Фурье , теории вероятностей , теории операторов , теории комплексных функций , проблемах моментов , интегральных уравнениях , краевых задачах для уравнений в частных производных , машинном обучении , задаче встраивания , теории информации и других областях.
Определение
[ редактировать ]Позволять быть непустым набором, иногда называемым набором индексов. функция Симметричная называется положительно определенным (pd) ядром на если
( 1.1 ) |
держится для всех , .
В теории вероятностей иногда различают положительно определенные ядра, для которых из равенства в (1.1) следует и положительные полуопределенные (psd) ядра, которые не накладывают это условие. Обратите внимание, что это эквивалентно требованию, чтобы каждая конечная матрица, построенная путем попарного вычисления, , имеет либо полностью положительные (pd), либо неотрицательные (psd) собственные значения .
В математической литературе ядра обычно представляют собой комплексные функции. То есть комплексная функция называется эрмитовым ядром, если и положительно определена, если для любого конечного множества точек и любые комплексные числа ,
где обозначает комплексно-сопряженное число . [1] В оставшейся части статьи мы предполагаем функции с действительным знаком, что является обычной практикой в приложениях ядер pd.
Некоторые общие свойства
[ редактировать ]- Для семейства ядер pd
- Коническая сумма это pd, учитывая
- Продукт это pd, учитывая
- Предел равно pd, если предел существует.
- Если представляет собой последовательность множеств, а последовательность ядер pd, затем оба и ядра pd включены .
- Позволять . Тогда ограничение из к также является ядром pd.
Примеры ядер pd
[ редактировать ]- Общие примеры ядер pd, определенных в евклидовом пространстве включать:
- Линейное ядро: .
- Полиномиальное ядро : .
- Гауссово ядро ( ядро RBF ): .
- Лапласово ядро: .
- Ядро Абеля: .
- Kernel generating Sobolev spaces : , где – функция Бесселя третьего рода .
- Ядро, генерирующее пространство Пэли – Винера: .
- Если является гильбертовым пространством , то его соответствующее скалярное произведение это ядро pd. Действительно, у нас есть
- Ядра определены на и гистограммы. Гистограммы часто встречаются при решении реальных задач. Большинство наблюдений обычно доступны в виде неотрицательных векторов отсчетов, которые при нормализации дают гистограммы частот. Было показано [2] что следующее семейство квадратов метрик, соответственно дивергенция Йенсена, -квадрат, общая вариация и две вариации расстояния Хеллингера: может использоваться для определения ядер pd, используя следующую формулу
История
[ редактировать ]Положительно определенные ядра, определенные в (1.1), впервые появились в 1909 году в статье Джеймса Мерсера по интегральным уравнениям. [3] Несколько других авторов использовали эту концепцию в последующие два десятилетия, но ни один из них явно не использовал ядра. , функции iepd (действительно, М. Матиас и С. Бохнер , похоже, не знали об изучении ядер pd). Работа Мерсера возникла из статьи Гильберта 1904 года. [4] об интегральных уравнениях Фредгольма второго рода:
( 1.2 ) |
В частности, Гильберт показал, что
( 1.3 ) |
где является непрерывным вещественным симметричным ядром, является непрерывным, — полная система ортонормированных собственных функций и 's — соответствующие собственные значения (1.2). Гильберт определил «определенное» ядро как такое, для которого двойной интеграл удовлетворяет за исключением . Первоначальной целью статьи Мерсера была характеристика ядер, определенных в смысле Гильберта, но вскоре Мерсер обнаружил, что класс таких функций слишком ограничен, чтобы их можно было характеризовать в терминах определителей. Поэтому он определил непрерывное вещественное симметричное ядро иметь положительный тип (т.е. положительно определенный), если для всех действительных непрерывных функций на и доказал, что (1.1) является необходимым и достаточным условием того, что ядро имеет положительный тип. Затем Мерсер доказал, что для любого непрерывного ядра pd расширение выполняется абсолютно и равномерно.
Примерно в то же время У.Х. Янг, [5] мотивированный другим вопросом теории интегральных уравнений, показал, что для непрерывных ядер условие (1.1) эквивалентно для всех .
Э. Х. Мур [6] [7] инициировал изучение очень общего вида ядра pd. Если это абстрактный набор, он вызывает функции определено на «положительные эрмитовы матрицы», если они удовлетворяют (1.1) для всех . Мур интересовался обобщением интегральных уравнений и показал, что каждому такому существует гильбертово пространство функций таких, что для каждой . Это свойство называется воспроизводящим свойством ядра и оказывается важным при решении краевых задач для эллиптических уравнений в частных производных.
Другим направлением развития, в котором большую роль сыграли pd-ядра, была теория гармоник в однородных пространствах, начатая Э. Картаном в 1929 г. и продолженная Г. Вейлем и С. Ито. Наиболее полная теория pd-ядер в однородных пространствах принадлежит М. Крейну. [8] который включает в качестве частных случаев работу над pd-функциями и неприводимыми унитарными представлениями локально компактных групп.
В теории вероятностей ядра pd возникают как ковариационные ядра случайных процессов. [9]
Связь с воспроизведением ядерных гильбертовых пространств и карт признаков.
[ редактировать ]Положительно определенные ядра обеспечивают основу, охватывающую некоторые основные конструкции гильбертового пространства. Далее мы представляем тесную связь между положительно определенными ядрами и двумя математическими объектами, а именно воспроизведением гильбертовых пространств и карт признаков.
Позволять быть набором, гильбертово пространство функций , и соответствующий внутренний продукт на . Для любого функционал оценки определяется .Сначала мы определим воспроизводящее ядро гильбертова пространства (RKHS):
Определение : Пространство называется воспроизводящим ядерным гильбертовым пространством, если функционалы оценки непрерывны.
С каждым RKHS связана особая функция, а именно воспроизводящее ядро:
Определение : Воспроизведение ядра — это функция. такой, что
- , и
- , для всех и .
Последнее свойство называется воспроизводящим свойством.
Следующий результат показывает эквивалентность между RKHS и воспроизводящими ядрами:
Теорема . Каждое воспроизводящее ядро индуцирует уникальный RKHS, и каждый RKHS имеет уникальное воспроизводящее ядро.
Теперь связь между положительно определенными ядрами и RKHS дается следующей теоремой
Теорема . Каждое воспроизводящее ядро является положительно определенным, и каждое положительно определенное ядро определяет уникальный RKHS, единственным воспроизводящим ядром которого оно является.
Таким образом, для положительно определенного ядра , можно построить ассоциированную РКХС с как воспроизводящее ядро.
Как говорилось ранее, положительно определенные ядра могут быть построены из скалярных произведений. Этот факт можно использовать для связи ядер pd с другим интересным объектом, возникающим в приложениях машинного обучения, а именно с картой признаков. Позволять быть гильбертовым пространством и соответствующий внутренний продукт. Любая карта называется картой признаков. В этом случае мы вызываем пространство признаков. Это легко увидеть [10] что каждая карта объектов определяет уникальное ядро pd с помощью Действительно, положительная определенность следует из свойства pd внутреннего произведения. С другой стороны, каждое ядро pd и соответствующее ему RKHS имеют множество связанных карт объектов. Например: Пусть , и для всех . Затем , по воспроизводящему свойству.Это предполагает новый взгляд на ядра pd как на внутренние продукты в соответствующих гильбертовых пространствах, или, другими словами, ядра pd можно рассматривать как карты сходства, которые эффективно количественно определяют, насколько похожи две точки. и через значение . Более того, благодаря эквивалентности ядер pd и соответствующего RKHS, каждая карта признаков может использоваться для построения RKHS.
Ядра и расстояния
[ редактировать ]Методы ядра часто сравнивают с методами, основанными на расстоянии, такими как метод ближайших соседей . В этом разделе мы обсуждаем параллели между двумя соответствующими ингредиентами, а именно ядрами. и расстояния .
Здесь функцией расстояния между каждой парой элементов некоторого множества , мы имеем в виду метрику, определенную на этом множестве, т.е. любую функцию с неотрицательным знаком на который удовлетворяет
- , и тогда и только тогда, когда ,
Одна связь между расстояниями и ядрами pd задается особым типом ядра, называемым отрицательно определенным ядром и определяемым следующим образом.
Определение : симметричная функция. называется отрицательно определенным (nd) ядром на если
( 1.4 ) справедливо для любого и такой, что .
Параллель между nd ядрами и расстояниями заключается в следующем: всякий раз, когда nd ядро обращается в нуль на множестве , и равен нулю только на этом множестве, то его квадратный корень является расстоянием для . [11] При этом каждое расстояние не обязательно соответствует ядру. Это справедливо только для гильбертовых расстояний, где расстояние называется гильбертовым, если можно вложить метрическое пространство изометрически в некоторое гильбертово пространство.
С другой стороны, ядра nd можно отождествить с подсемейством ядер pd, известным как бесконечно делимые ядра. Ядро с неотрицательным знаком называется бесконечно делимым, если для каждого существует положительно определенное ядро такой, что .
Другая связь заключается в том, что ядро pd вызывает псевдометрику , где первое ограничение на функцию расстояния ослабляется, чтобы позволить для . Учитывая положительно определенное ядро , мы можем определить функцию расстояния как:
Некоторые приложения
[ редактировать ]Ядра в машинном обучении
[ редактировать ]Положительно определенные ядра, благодаря их эквивалентности с воспроизводящими ядерными гильбертовыми пространствами (RKHS), особенно важны в области статистической теории обучения из-за знаменитой теоремы о репрезентаторе , которая утверждает, что каждая минимизирующая функция в RKHS может быть записана как линейная комбинация функция ядра, оцениваемая в точках обучения. Это практически полезный результат, поскольку он эффективно упрощает эмпирическую задачу минимизации риска с бесконечномерной до конечномерной задачи оптимизации.
Ядра в вероятностных моделях
[ редактировать ]В теории вероятностей существует несколько различных способов возникновения ядер.
- Недетерминированные задачи восстановления: предположим, что мы хотим найти ответ. неизвестной модельной функции в новой точке из набора , при условии, что у нас есть выборка пар вход-ответ данные наблюдения или эксперимента. Ответ в не является фиксированной функцией а скорее реализация вещественной случайной величины . Цель – получить информацию о функции который заменяет в детерминированной обстановке. Для двух элементов случайные величины и не будет некоррелированным, потому что, если слишком близко к случайные эксперименты, описанные и часто будет демонстрировать подобное поведение. Это описывается ковариационным ядром . Такое ядро существует и является положительно определенным при слабых дополнительных предположениях. Теперь хорошая оценка может быть получена с помощью интерполяции ядра с ковариационным ядром, полностью игнорируя вероятностный фон.
Предположим теперь, что шумовая переменная , с нулевым средним значением и дисперсией , добавляется к , так что шум независим для разных и независимо от вот тогда проблема найти хорошую оценку для идентичен приведенному выше, но с модифицированным ядром, заданным .
- Оценка плотности по ядрам. Задача состоит в том, чтобы восстановить плотность. многомерного распределения по области , из большой выборки включая повторы. Если точки отбора проб расположены плотно, истинная функция плотности должна принимать большие значения. Простую оценку плотности можно получить, подсчитав количество выборок в каждой ячейке сетки и построив полученную гистограмму, которая дает кусочно-постоянную оценку плотности. Более лучшую оценку можно получить, используя неотрицательное трансляционно-инвариантное ядро. , с полным интегралом, равным единице, и определим как гладкая оценка.
Численное решение уравнений в частных производных
[ редактировать ]Одной из крупнейших областей применения так называемых бессеточных методов является численное решение уравнений в частных уравнениях . Некоторые из популярных бессеточных методов тесно связаны с положительно определенными ядрами (например, бессеточный локальный метод Петрова Галеркина (МЛПГ) , метод воспроизводящих ядерных частиц (РКПМ) и гидродинамика сглаженных частиц (SPH) ). Эти методы используют радиальное базисное ядро для коллокации . [12]
Теорема о расширении Стайнспринга
[ редактировать ]Другие приложения
[ редактировать ]В литературе по компьютерным экспериментам [13] и других инженерных экспериментах все чаще встречаются модели, основанные на ядрах pd, RBF или кригинге . Одной из таких тем является методология поверхности отклика . Другими типами приложений, которые сводятся к подбору данных, являются быстрое прототипирование и компьютерная графика . Здесь часто используются неявные модели поверхности для аппроксимации или интерполяции данных облака точек.
Ядра pd применяются в различных других областях математики в многомерной интеграции, многомерной оптимизации, а также в численном анализе и научных вычислениях, где изучаются быстрые, точные и адаптивные алгоритмы, идеально реализуемые в высокопроизводительных вычислительных средах. [14]
См. также
[ редактировать ]- Ковариационная функция
- Интегральное уравнение
- Интегральное преобразование
- Положительно определенная функция на группе
- Воспроизведение ядра гильбертова пространства
- Метод ядра
Ссылки
[ редактировать ]- ^ Березанский, Юрий Макарович (1968). Разложения по собственным функциям самосопряженных операторов . Провиденс, Род-Айленд: Американское математическое общество. стр. 45–47. ISBN 978-0-8218-1567-0 .
- ^ Хейн М. и Буске О. (2005). « Гильбертовы метрики и положительно определенные ядра вероятностных мер ». Гахрамани З. и Коуэлл Р., редакторы, Труды AISTATS 2005.
- ^ Мерсер, Дж. (1909). «Функции положительного и отрицательного типа и их связь с теорией интегральных уравнений». Философские труды Лондонского королевского общества, серия A 209, стр. 415–446.
- ^ Гильберт, Д. (1904). «Основы общей теории линейных интегральных уравнений I», Gott. Новости, матем.-физ. К1 (1904), стр. 49–91.
- ^ Янг, WH (1909). «Заметка об одном классе симметрических функций и теореме, необходимой в теории интегральных уравнений», Филос. Пер. Рой.Сок. Лондон, сер. А, 209, стр. 415–446.
- ^ Мур, Э.Х. (1916). «О правильно положительных эрмитовых матрицах», Bull. амер. Математика. Соц. 23, 59, стр. 66–67.
- ^ Мур, Э.Х. (1935). «Общий анализ, часть I», Мемуары амер. Филос. Соц. 1, Филадельфия.
- ^ Крейн. М (1949/1950). "Эрмитово-положительные ядра на однородных пространствах I и II" (на русском языке), Украина. Мат. З. 1 (1949), стр. 64–98 и 2 (1950), стр. 10–59. Английский перевод: амер. Математика. Соц. Переводы Сер. 2, 34 (1963), стр. 69–164.
- ^ Лоев, М. (1960). «Теория вероятностей», 2-е изд., Ван Ностранд, Принстон, Нью-Джерси.
- ^ Росаско Л. и Поджо Т. (2015). Рукопись «Регуляризация машинного обучения – конспекты лекций MIT 9.520».
- ^ Берг, К., Кристенсен, JPR, и Рессел, П. (1984). «Гармонический анализ полугрупп». Номер 100 в текстах для выпускников по математике, Springer Verlag.
- ^ Шабак Р. и Вендланд Х. (2006). «Техники ядра: от машинного обучения к бессеточным методам», Cambridge University Press, Acta Numerica (2006), стр. 1–97.
- ^ Хааланд, Б. и Цянь, PZG (2010). «Точные эмуляторы для масштабных компьютерных экспериментов», Анн. Стат.
- ^ Гумеров Н.А. и Дурайсвами Р. (2007). « Быстрая интерполяция радиальной базисной функции с помощью предварительно обусловленной итерации Крылова ». СИАМ Дж. Сайент. Computing 29/5, стр. 1876–1899.