Jump to content

Теория обучения распределению

Теория распределенного обучения или изучение распределения вероятностей является основой теории вычислительного обучения . Его предложили Майкл Кернс , Ишай Мансур , Дана Рон , Ронитт Рубинфельд , Роберт Шапир и Линда Селли в 1994 году. [1] и он был вдохновлен структурой PAC, представленной Лесли Валиант . [2]

В этой структуре входными данными является количество выборок, взятых из распределения, принадлежащего определенному классу распределений. Цель состоит в том, чтобы найти эффективный алгоритм, который на основе этих выборок с высокой вероятностью определяет распределение, из которого были взяты выборки. Из-за своей общности эта структура использовалась в самых разных областях, таких как машинное обучение , алгоритмы аппроксимации , прикладная вероятность и статистика .

В этой статье объясняются основные определения, инструменты и результаты этой структуры с точки зрения теории вычислений.

Определения

[ редактировать ]

Позволять быть поддержкой распределения процентов. Как и в оригинальной работе Кернса и др. [1] если конечно, то без ограничения общности можно считать, что где количество битов, которые необходимо использовать для представления любого . Мы фокусируемся на распределениях вероятностей по .

Есть два возможных представления распределения вероятностей. над .

  • функция распределения вероятностей (или оценщик) оценщик для принимает на вход любой и выводит действительное число что обозначает вероятность того, что в соответствии с , то есть если .
  • генератор генератор для принимает на вход строку действительно случайных битов и результаты в соответствии с распределением . Генератор можно интерпретировать как процедуру, имитирующую выборку из распределения. учитывая последовательность честных подбрасываний монеты.

Распределение называется имеющим полиномиальный генератор (соответственно вычислитель), если его генератор (соответственно вычислитель) существует и может быть вычислен за полиномиальное время.

Позволять класс распределения над X, то есть такое множество, что каждое представляет собой распределение вероятностей с поддержкой . также можно записать как для простоты.

Прежде чем определять обучаемость, необходимо определить хорошие аппроксимации распределения. . Существует несколько способов измерения расстояния между двумя распределениями. Три наиболее распространенные возможности:

Самым сильным из этих расстояний является расхождение Кульбака-Лейблера , а самым слабым — расстояние Колмогорова . Это означает, что для любой пары распределений ,  :

Поэтому, например, если и близки относительно расходимости Кульбака-Лейблера , то они также близки относительно на все остальные расстояния.

Следующие определения справедливы для всех расстояний и, следовательно, символа обозначает расстояние между распределением и распределение используя одно из расстояний, которые мы описали выше. Хотя обучаемость класса распределений можно определить с использованием любого из этих расстояний, приложения относятся к конкретному расстоянию.

Основной ввод, который мы используем для изучения распределения, — это количество выборок, взятых с помощью этого распределения. С вычислительной точки зрения предполагается, что такая выборка предоставляется в постоянный промежуток времени. Так что это похоже на доступ к оракулу который возвращает образец из распределения . Иногда интерес, помимо измерения временной сложности, состоит в измерении количества выборок, которые необходимо использовать для изучения конкретного распределения. в классе дистрибутивов . Эта величина называется выборочной сложностью алгоритма обучения.

Чтобы проблема распределения обучения стала более ясной, рассмотрим проблему обучения с учителем, как она определена в. [3] В рамках статистической теории обучения обучающий набор и цель состоит в том, чтобы найти целевую функцию это минимизирует некоторую функцию потерь, например, функцию квадратичных потерь. Более формально , где это функция потерь, например и распределение вероятностей, согласно которому отбираются элементы обучающего набора. Если условное распределение вероятностей известно, то целевая функция имеет замкнутый вид . Итак, набор представляет собой набор выборок из распределения вероятностей . Теперь цель теории распределенного обучения, если найти данный который можно использовать для нахождения целевой функции .

Определение обучаемости

Класс дистрибутивов называется эффективно обучаемым, если для каждого и предоставлен доступ к для неизвестного дистрибутива , существует алгоритм с полиномиальным временем , называемый алгоритмом обучения , который выводит генератор или оценщик распределения такой, что

Если мы это знаем затем называется правильным алгоритмом обучения , иначе называется неправильным алгоритмом обучения .

В некоторых случаях класс распределений — класс с хорошо известными распределениями, которые можно описать набором параметров. Например может быть классом всех гауссовских распределений . В этом случае алгоритм должен уметь оценивать параметры . В этом случае называется алгоритмом обучения параметров .

Очевидно, что изучение параметров простых распределений — это очень хорошо изученная область, которая называется статистической оценкой, и существует очень длинная библиография по различным оценкам для разных типов простых известных распределений. Но теория обучения распределений занимается изучением класса распределений, которые имеют более сложное описание.

Первые результаты

[ редактировать ]

В своей плодотворной работе Кернс и др. разобраться со случаем, когда описывается в терминах схемы конечного полиномиального размера, и они доказали следующее для некоторых конкретных классов распределения. [1]

  • Для распределений такого типа не существует вычислителя полиномиального размера, если только . С другой стороны, этот класс эффективно изучается с помощью генератора.
  • Распределения контроля четности. Этот класс эффективно изучается как с помощью генератора, так и с помощью вычислителя.
  • Смесь шаров Хэмминга. Этот класс эффективно изучается как с помощью генератора, так и с помощью оценщика.
  • Вероятностные конечные автоматы. Этот класс невозможно эффективно изучить с помощью оценщика в соответствии с предположением о шумовой четности, которое является предположением о невозможности в структуре обучения PAC.

Обложки

[ редактировать ]

Один очень распространенный метод поиска алгоритма обучения для класса распределений. это сначала найти небольшой обложка .

Определение

Набор называется -обложка если для каждого есть такой, что . Ан покрытие мало, если оно имеет полиномиальный размер по отношению к параметрам, описывающим .

Как только появится эффективная процедура, которая для каждого находит небольшой крышка C, то единственная оставшаяся задача — выбрать из распределение это ближе к распределению этому нужно научиться.

Проблема в том, что учитывая это нетривиально, как мы можем сравнивать и чтобы решить, какой из них ближе всего , потому что неизвестно. Поэтому образцы из необходимо использовать для этих сравнений. Очевидно, что результат сравнения всегда имеет вероятность ошибки. Таким образом, задача аналогична поиску минимума в наборе элементов с использованием шумных сравнений. Для достижения этой цели существует множество классических алгоритмов. Самый последний вариант, обеспечивающий наилучшие гарантии, был предложен Даскалакисом и Каматом. [4] Этот алгоритм устраивает быстрый турнир между элементами где победитель этого турнира является элементом, который близко к (т.е. ) с вероятностью по крайней мере . Для этого их алгоритм использует образцы из и вбегает время, где .

Обучение суммам случайных величин

[ редактировать ]

Изучение простых, хорошо известных распределений — хорошо изученная область, и существует множество оценщиков, которые можно использовать. Еще один более сложный класс распределений — это распределения суммы переменных, которые следуют простым распределениям. Эти процедуры обучения тесно связаны с предельными теоремами, такими как центральная предельная теорема, поскольку они имеют тенденцию исследовать один и тот же объект, когда сумма стремится к бесконечной сумме. Недавно здесь были описаны два результата: обучение биномиальным распределениям Пуассона и обучение суммам независимых целочисленных случайных величин. Все приведенные ниже результаты справедливы при использовании общего вариационного расстояния в качестве меры расстояния.

Изучение биномиальных распределений Пуассона

[ редактировать ]

Учитывать независимые случайные величины Бернулли с вероятностью успеха . Биномиальное распределение Пуассона порядка. это распределение суммы . Для изучения класса . Первый из следующих результатов касается случая неправильного обучения а второй при правильном изучении . [5]

Теорема

Позволять тогда есть алгоритм, который дает , , и доступ к находит такой, что . Примерная сложность этого алгоритма составляет и время работы .

Теорема

Позволять тогда есть алгоритм, который дает , , и доступ к находит такой, что . Примерная сложность этого алгоритма составляет и время работы .

Одна часть приведенных выше результатов заключается в том, что выборочная сложность алгоритма обучения не зависит от , хотя описание линейна по . Кроме того, второй результат почти оптимален с точки зрения сложности выборки, поскольку существует нижняя граница .

В доказательстве используется небольшой обложка продюсерами выступили Даскалакис и Пападимитриу, [6] чтобы получить этот алгоритм.

Изучение сумм независимых целочисленных случайных величин

[ редактировать ]

Учитывать независимые случайные величины каждый из которых следует произвольному распределению с поддержкой . А сумма независимых целых случайных величин порядка это распределение суммы . Для изучения класса

есть следующий результат

Теорема

Позволять тогда есть алгоритм, который дает , и доступ к находит такой, что . Примерная сложность этого алгоритма составляет и время работы тоже .

Другая часть заключается в том, что выборка и временная сложность не зависят от . К этой независимости можно прийти из предыдущего раздела, если положить . [7]

Обучение смесям гауссиан

[ редактировать ]

Пусть случайные величины и . Определите случайную величину который принимает то же значение, что и с вероятностью и то же значение, что и с вероятностью . Тогда, если плотность и плотность плотность является . В этом случае Говорят, что он следует за смесью гауссиан. Пирсон [8] был первым, кто ввел понятие смеси гауссианов в своей попытке объяснить распределение вероятностей, из которого он получил те же данные, которые хотел проанализировать. Поэтому, проведя множество вычислений вручную, он, наконец, подогнал свои данные к смеси гауссиан. Задачей обучения в этом случае является определение параметров смеси. .

Первая попытка решить эту проблему была со стороны Дасгупты . [9] В этой работе Дасгупта предполагает, что два средних гауссиана достаточно далеки друг от друга. Это означает, что существует нижняя граница расстояния . Используя это предположение, Дасгупта и многие учёные после него смогли узнать параметры смеси. Процедура обучения начинается с кластеризации выборок в два разных кластера, минимизирующих некоторую метрику. Используя предположение, что средние значения гауссианов находятся далеко друг от друга, с высокой вероятностью выборки в первом кластере соответствуют выборкам из первого гауссиана, а выборки во втором кластере - выборкам из второго. Теперь, когда образцы разделены можно вычислить с помощью простых статистических оценок и путем сравнения величины кластеров.

Если представляет собой множество всех смесей двух гауссианов, используя приведенные выше процедурные теоремы, можно доказать следующие.

Теорема [9]

Позволять с , где и наибольшее собственное значение , то существует алгоритм, который, учитывая , и доступ к находит приближение параметров таких, что (соответственно для и . Примерная сложность этого алгоритма составляет и время работы .

Приведенный выше результат также можно обобщить на смесь гауссиан. [9]

Для случая смеси двух гауссианов есть результаты обучения без предположения о расстоянии между их средними значениями, как показано в следующем примере, в котором общее расстояние вариации используется в качестве меры расстояния.

Теорема [10]

Позволять тогда есть алгоритм, который дает , и доступ к находит такое, что если , где затем . Сложность выборки и время работы этого алгоритма равны .

Расстояние между и не влияет на качество результата алгоритма, а влияет только на сложность выборки и время работы. [9] [10]

  1. ^ Jump up to: а б с М. Кернс, Ю. Мансур, Д. Рон, Р. Рубинфельд, Р. Шапире, Л. Селли Об обучаемости дискретных распределений . Симпозиум ACM по теории вычислений, 1994 г. [1]
  2. ^ Л. Валиант Теория обучаемого . Сообщения ACM, 1984 г.
  3. ^ Лоренцо Росаско, Томазо Поджо, «Экскурсия по машинному обучению по регуляризации - конспекты лекций MIT-9.520», рукопись, декабрь 2014 г. [2]
  4. ^ К. Даскалакис, Г. Камат Фастер и примеры почти оптимальных алгоритмов для правильного обучения смесей гауссиан . Ежегодная конференция по теории обучения, 2014 г. [3]
  5. ^ К. Даскалакис, И. Диакониколас, Р. Серведио Изучение биномиальных распределений Пуассона . Симпозиум ACM по теории вычислений, 2012 г. [4]
  6. ^ К. Даскалакис, К. Пападимитриу Разреженные покрытия для сумм показателей . Теория вероятностей и смежные области, 2014 [5]
  7. ^ К. Даскалакис, И. Диакониколас, Р. О'Доннелл, Р. Серведио, Л. Тан. Изучение сумм независимых целых случайных величин . Симпозиум IEEE по основам информатики, 2013 г. [6]
  8. ^ Вклад К. Пирсона в математическую теорию эволюции . Философские труды Королевского общества в Лондоне, 1894 г. [7]
  9. ^ Jump up to: а б с д С. Дасгупта Обучающие смеси гауссиан . Симпозиум IEEE по основам информатики, 1999 г. [8]
  10. ^ Jump up to: а б А. Калаи, А. Мойтра, Г. Валиант, эффективно обучающиеся смеси двух гауссиан. Симпозиум ACM по теории вычислений, 2010 г. [9]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 1bc08cccc641c013a8cf166bbfcb9b90__1650119880
URL1:https://arc.ask3.ru/arc/aa/1b/90/1bc08cccc641c013a8cf166bbfcb9b90.html
Заголовок, (Title) документа по адресу, URL1:
Distribution learning theory - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)