Теория обучения распределению
Теория распределенного обучения или изучение распределения вероятностей является основой теории вычислительного обучения . Его предложили Майкл Кернс , Ишай Мансур , Дана Рон , Ронитт Рубинфельд , Роберт Шапир и Линда Селли в 1994 году. [1] и он был вдохновлен структурой PAC, представленной Лесли Валиант . [2]
В этой структуре входными данными является количество выборок, взятых из распределения, принадлежащего определенному классу распределений. Цель состоит в том, чтобы найти эффективный алгоритм, который на основе этих выборок с высокой вероятностью определяет распределение, из которого были взяты выборки. Из-за своей общности эта структура использовалась в самых разных областях, таких как машинное обучение , алгоритмы аппроксимации , прикладная вероятность и статистика .
В этой статье объясняются основные определения, инструменты и результаты этой структуры с точки зрения теории вычислений.
Определения
[ редактировать ]Позволять быть поддержкой распределения процентов. Как и в оригинальной работе Кернса и др. [1] если конечно, то без ограничения общности можно считать, что где количество битов, которые необходимо использовать для представления любого . Мы фокусируемся на распределениях вероятностей по .
Есть два возможных представления распределения вероятностей. над .
- функция распределения вероятностей (или оценщик) оценщик для принимает на вход любой и выводит действительное число что обозначает вероятность того, что в соответствии с , то есть если .
- генератор генератор для принимает на вход строку действительно случайных битов и результаты в соответствии с распределением . Генератор можно интерпретировать как процедуру, имитирующую выборку из распределения. учитывая последовательность честных подбрасываний монеты.
Распределение называется имеющим полиномиальный генератор (соответственно вычислитель), если его генератор (соответственно вычислитель) существует и может быть вычислен за полиномиальное время.
Позволять класс распределения над X, то есть такое множество, что каждое представляет собой распределение вероятностей с поддержкой . также можно записать как для простоты.
Прежде чем определять обучаемость, необходимо определить хорошие аппроксимации распределения. . Существует несколько способов измерения расстояния между двумя распределениями. Три наиболее распространенные возможности:
Самым сильным из этих расстояний является расхождение Кульбака-Лейблера , а самым слабым — расстояние Колмогорова . Это означает, что для любой пары распределений , :
Поэтому, например, если и близки относительно расходимости Кульбака-Лейблера , то они также близки относительно на все остальные расстояния.
Следующие определения справедливы для всех расстояний и, следовательно, символа обозначает расстояние между распределением и распределение используя одно из расстояний, которые мы описали выше. Хотя обучаемость класса распределений можно определить с использованием любого из этих расстояний, приложения относятся к конкретному расстоянию.
Основной ввод, который мы используем для изучения распределения, — это количество выборок, взятых с помощью этого распределения. С вычислительной точки зрения предполагается, что такая выборка предоставляется в постоянный промежуток времени. Так что это похоже на доступ к оракулу который возвращает образец из распределения . Иногда интерес, помимо измерения временной сложности, состоит в измерении количества выборок, которые необходимо использовать для изучения конкретного распределения. в классе дистрибутивов . Эта величина называется выборочной сложностью алгоритма обучения.
Чтобы проблема распределения обучения стала более ясной, рассмотрим проблему обучения с учителем, как она определена в. [3] В рамках статистической теории обучения обучающий набор и цель состоит в том, чтобы найти целевую функцию это минимизирует некоторую функцию потерь, например, функцию квадратичных потерь. Более формально , где это функция потерь, например и распределение вероятностей, согласно которому отбираются элементы обучающего набора. Если условное распределение вероятностей известно, то целевая функция имеет замкнутый вид . Итак, набор представляет собой набор выборок из распределения вероятностей . Теперь цель теории распределенного обучения, если найти данный который можно использовать для нахождения целевой функции .
Определение обучаемости
Класс дистрибутивов называется эффективно обучаемым, если для каждого и предоставлен доступ к для неизвестного дистрибутива , существует алгоритм с полиномиальным временем , называемый алгоритмом обучения , который выводит генератор или оценщик распределения такой, что
Если мы это знаем затем называется правильным алгоритмом обучения , иначе называется неправильным алгоритмом обучения .
В некоторых случаях класс распределений — класс с хорошо известными распределениями, которые можно описать набором параметров. Например может быть классом всех гауссовских распределений . В этом случае алгоритм должен уметь оценивать параметры . В этом случае называется алгоритмом обучения параметров .
Очевидно, что изучение параметров простых распределений — это очень хорошо изученная область, которая называется статистической оценкой, и существует очень длинная библиография по различным оценкам для разных типов простых известных распределений. Но теория обучения распределений занимается изучением класса распределений, которые имеют более сложное описание.
Первые результаты
[ редактировать ]В своей плодотворной работе Кернс и др. разобраться со случаем, когда описывается в терминах схемы конечного полиномиального размера, и они доказали следующее для некоторых конкретных классов распределения. [1]
- Для распределений такого типа не существует вычислителя полиномиального размера, если только . С другой стороны, этот класс эффективно изучается с помощью генератора.
- Распределения контроля четности. Этот класс эффективно изучается как с помощью генератора, так и с помощью вычислителя.
- Смесь шаров Хэмминга. Этот класс эффективно изучается как с помощью генератора, так и с помощью оценщика.
- Вероятностные конечные автоматы. Этот класс невозможно эффективно изучить с помощью оценщика в соответствии с предположением о шумовой четности, которое является предположением о невозможности в структуре обучения PAC.
Обложки
[ редактировать ]Один очень распространенный метод поиска алгоритма обучения для класса распределений. это сначала найти небольшой обложка .
Определение
Набор называется -обложка если для каждого есть такой, что . Ан покрытие мало, если оно имеет полиномиальный размер по отношению к параметрам, описывающим .
Как только появится эффективная процедура, которая для каждого находит небольшой крышка C, то единственная оставшаяся задача — выбрать из распределение это ближе к распределению этому нужно научиться.
Проблема в том, что учитывая это нетривиально, как мы можем сравнивать и чтобы решить, какой из них ближе всего , потому что неизвестно. Поэтому образцы из необходимо использовать для этих сравнений. Очевидно, что результат сравнения всегда имеет вероятность ошибки. Таким образом, задача аналогична поиску минимума в наборе элементов с использованием шумных сравнений. Для достижения этой цели существует множество классических алгоритмов. Самый последний вариант, обеспечивающий наилучшие гарантии, был предложен Даскалакисом и Каматом. [4] Этот алгоритм устраивает быстрый турнир между элементами где победитель этого турнира является элементом, который близко к (т.е. ) с вероятностью по крайней мере . Для этого их алгоритм использует образцы из и вбегает время, где .
Обучение суммам случайных величин
[ редактировать ]Изучение простых, хорошо известных распределений — хорошо изученная область, и существует множество оценщиков, которые можно использовать. Еще один более сложный класс распределений — это распределения суммы переменных, которые следуют простым распределениям. Эти процедуры обучения тесно связаны с предельными теоремами, такими как центральная предельная теорема, поскольку они имеют тенденцию исследовать один и тот же объект, когда сумма стремится к бесконечной сумме. Недавно здесь были описаны два результата: обучение биномиальным распределениям Пуассона и обучение суммам независимых целочисленных случайных величин. Все приведенные ниже результаты справедливы при использовании общего вариационного расстояния в качестве меры расстояния.
Изучение биномиальных распределений Пуассона
[ редактировать ]Учитывать независимые случайные величины Бернулли с вероятностью успеха . Биномиальное распределение Пуассона порядка. это распределение суммы . Для изучения класса . Первый из следующих результатов касается случая неправильного обучения а второй при правильном изучении . [5]
Теорема
Позволять тогда есть алгоритм, который дает , , и доступ к находит такой, что . Примерная сложность этого алгоритма составляет и время работы .
Теорема
Позволять тогда есть алгоритм, который дает , , и доступ к находит такой, что . Примерная сложность этого алгоритма составляет и время работы .
Одна часть приведенных выше результатов заключается в том, что выборочная сложность алгоритма обучения не зависит от , хотя описание линейна по . Кроме того, второй результат почти оптимален с точки зрения сложности выборки, поскольку существует нижняя граница .
В доказательстве используется небольшой обложка продюсерами выступили Даскалакис и Пападимитриу, [6] чтобы получить этот алгоритм.
Изучение сумм независимых целочисленных случайных величин
[ редактировать ]Учитывать независимые случайные величины каждый из которых следует произвольному распределению с поддержкой . А сумма независимых целых случайных величин порядка это распределение суммы . Для изучения класса
есть следующий результат
Теорема
Позволять тогда есть алгоритм, который дает , и доступ к находит такой, что . Примерная сложность этого алгоритма составляет и время работы тоже .
Другая часть заключается в том, что выборка и временная сложность не зависят от . К этой независимости можно прийти из предыдущего раздела, если положить . [7]
Обучение смесям гауссиан
[ редактировать ]Пусть случайные величины и . Определите случайную величину который принимает то же значение, что и с вероятностью и то же значение, что и с вероятностью . Тогда, если плотность и плотность плотность является . В этом случае Говорят, что он следует за смесью гауссиан. Пирсон [8] был первым, кто ввел понятие смеси гауссианов в своей попытке объяснить распределение вероятностей, из которого он получил те же данные, которые хотел проанализировать. Поэтому, проведя множество вычислений вручную, он, наконец, подогнал свои данные к смеси гауссиан. Задачей обучения в этом случае является определение параметров смеси. .
Первая попытка решить эту проблему была со стороны Дасгупты . [9] В этой работе Дасгупта предполагает, что два средних гауссиана достаточно далеки друг от друга. Это означает, что существует нижняя граница расстояния . Используя это предположение, Дасгупта и многие учёные после него смогли узнать параметры смеси. Процедура обучения начинается с кластеризации выборок в два разных кластера, минимизирующих некоторую метрику. Используя предположение, что средние значения гауссианов находятся далеко друг от друга, с высокой вероятностью выборки в первом кластере соответствуют выборкам из первого гауссиана, а выборки во втором кластере - выборкам из второго. Теперь, когда образцы разделены можно вычислить с помощью простых статистических оценок и путем сравнения величины кластеров.
Если представляет собой множество всех смесей двух гауссианов, используя приведенные выше процедурные теоремы, можно доказать следующие.
Теорема [9]
Позволять с , где и наибольшее собственное значение , то существует алгоритм, который, учитывая , и доступ к находит приближение параметров таких, что (соответственно для и . Примерная сложность этого алгоритма составляет и время работы .
Приведенный выше результат также можно обобщить на смесь гауссиан. [9]
Для случая смеси двух гауссианов есть результаты обучения без предположения о расстоянии между их средними значениями, как показано в следующем примере, в котором общее расстояние вариации используется в качестве меры расстояния.
Теорема [10]
Позволять тогда есть алгоритм, который дает , и доступ к находит такое, что если , где затем . Сложность выборки и время работы этого алгоритма равны .
Расстояние между и не влияет на качество результата алгоритма, а влияет только на сложность выборки и время работы. [9] [10]
Ссылки
[ редактировать ]- ^ Jump up to: а б с М. Кернс, Ю. Мансур, Д. Рон, Р. Рубинфельд, Р. Шапире, Л. Селли Об обучаемости дискретных распределений . Симпозиум ACM по теории вычислений, 1994 г. [1]
- ^ Л. Валиант Теория обучаемого . Сообщения ACM, 1984 г.
- ^ Лоренцо Росаско, Томазо Поджо, «Экскурсия по машинному обучению по регуляризации - конспекты лекций MIT-9.520», рукопись, декабрь 2014 г. [2]
- ^ К. Даскалакис, Г. Камат Фастер и примеры почти оптимальных алгоритмов для правильного обучения смесей гауссиан . Ежегодная конференция по теории обучения, 2014 г. [3]
- ^ К. Даскалакис, И. Диакониколас, Р. Серведио Изучение биномиальных распределений Пуассона . Симпозиум ACM по теории вычислений, 2012 г. [4]
- ^ К. Даскалакис, К. Пападимитриу Разреженные покрытия для сумм показателей . Теория вероятностей и смежные области, 2014 [5]
- ^ К. Даскалакис, И. Диакониколас, Р. О'Доннелл, Р. Серведио, Л. Тан. Изучение сумм независимых целых случайных величин . Симпозиум IEEE по основам информатики, 2013 г. [6]
- ^ Вклад К. Пирсона в математическую теорию эволюции . Философские труды Королевского общества в Лондоне, 1894 г. [7]
- ^ Jump up to: а б с д С. Дасгупта Обучающие смеси гауссиан . Симпозиум IEEE по основам информатики, 1999 г. [8]
- ^ Jump up to: а б А. Калаи, А. Мойтра, Г. Валиант, эффективно обучающиеся смеси двух гауссиан. Симпозиум ACM по теории вычислений, 2010 г. [9]