Обучение Оккама
Часть серии о |
Машинное обучение и интеллектуальный анализ данных |
---|
В вычислительного обучения теории обучение Оккама — это модель алгоритмического обучения, в которой цель учащегося — вывести краткое представление полученных обучающих данных. Это тесно связано с вероятно приблизительно правильным (PAC) обучением , когда учащегося оценивают по его прогнозирующей способности на тестовом наборе.
Обучаемость по Оккаму подразумевает обучение с помощью PAC, а для широкого спектра концептуальных классов верно и обратное: обучаемость с помощью PAC подразумевает обучаемость по Оккаму.
Введение
[ редактировать ]Occam Learning назван в честь бритвы Оккама , которая представляет собой принцип, утверждающий, что при прочих равных условиях более короткое объяснение наблюдаемых данных должно быть предпочтительнее более длинного объяснения. Теория обучения Оккама является формальным и математическим обоснованием этого принципа. Впервые это было показано Блюмером и др. [ 1 ] что обучение Оккама подразумевает обучение PAC, которое является стандартной моделью обучения в теории компьютерного обучения. Другими словами, экономность (выходной гипотезы) подразумевает предсказательную силу .
Определение обучения Оккама
[ редактировать ]Краткость концепции в концептуальном классе можно выразить длиной кратчайшей битовой строки, которая может представлять в . Обучение Оккама связывает краткость результатов алгоритма обучения с его способностью прогнозировать невидимые данные.
Позволять и быть классами понятий, содержащими целевые понятия и гипотезы соответственно. Тогда для констант и , алгоритм обучения это -Алгоритм Оккама с использованием если дано множество из образцы, маркированные в соответствии с концепцией , выводит гипотезу такой, что
где максимальная длина любого образца . Алгоритм Оккама называется эффективным , если он работает за полиномиальное время. , , и Мы говорим концептуальный класс можно ли научиться Оккаму в отношении класса гипотез? если существует эффективный алгоритм Оккама для с использованием
Связь между Оккамом и обучением PAC
[ редактировать ]Обучаемость Оккама предполагает обучаемость PAC, как гласит следующая теорема Блюмера и др. [ 2 ] показывает:
Теорема ( обучение Оккама подразумевает обучение PAC )
[ редактировать ]Позволять быть эффективным -Алгоритм Оккама с использованием . Тогда существует константа такой, что для любого , для любого распределения , данный образцы, взятые из и маркированы в соответствии с концепцией длины бит каждый, алгоритм выведет гипотезу такой, что с вероятностью по крайней мере .
Здесь, это по отношению к концепции и распространение . Это означает, что алгоритм также изучает PAC в концептуальном классе. использование класса гипотез . Несколько более общая формулировка выглядит следующим образом:
Теорема ( обучение Оккама подразумевает обучение PAC, кардинальная версия )
[ редактировать ]Позволять . Позволять — такой алгоритм, что при заданном образцы взяты из фиксированного, но неизвестного распределения и маркированы в соответствии с концепцией длины бит каждый, выводит гипотезу это соответствует маркированным образцам. Тогда существует константа такое, что если , затем гарантированно выдаст гипотезу такой, что с вероятностью по крайней мере .
Хотя приведенные выше теоремы показывают, что обучение Оккама достаточно для обучения PAC, они ничего не говорят о необходимости. Борд и Питт показывают, что для широкого спектра концептуальных классов обучение Оккама фактически необходимо для обучения PAC. [ 3 ] Они доказали, что для любого класса концепций, полиномиально замкнутого относительно списков исключений, обучаемость PAC предполагает существование алгоритма Оккама для этого класса концепций. Классы понятий, полиномиально замкнутые по спискам исключений, включают логические формулы, схемы, детерминированные конечные автоматы , списки решений, деревья решений и другие геометрически определенные классы понятий.
Концептуальный класс полиномиально замкнут относительно списков исключений, если существует алгоритм с полиномиальным временем так что, когда дано представление понятия и конечный список исключений концепции , выводит представление такие, что понятия и согласен, кроме съемок .
Доказательство того, что обучение Оккама подразумевает обучение PAC
[ редактировать ]Сначала мы докажем версию кардинальности. Вызов гипотезы плохо, если , где снова это относительно истинной концепции и основное распределение . Вероятность того, что набор образцов соответствует самое большее , по независимости выборок. Согласно границе объединения, вероятность существования плохой гипотезы в самое большее , что меньше, чем если . На этом завершается доказательство второй теоремы, приведенной выше.
Используя вторую теорему, мы можем доказать первую теорему. Поскольку у нас есть -Алгоритм Оккама, это означает, что любая гипотеза, выведенная может быть представлено не более чем бит и, таким образом, . Это меньше, чем если мы установим для некоторой константы . Таким образом, по теореме о мощности, выведет непротиворечивую гипотезу с вероятностью по крайней мере . На этом завершается доказательство первой теоремы, приведенной выше.
Повышение сложности выборки для распространенных проблем
[ редактировать ]Хотя обучаемость по Оккаму и PAC эквивалентна, структуру Оккама можно использовать для получения более жестких ограничений выборочной сложности классических задач, включая конъюнкции, [ 2 ] союзы с небольшим количеством соответствующих переменных, [ 4 ] и списки решений. [ 5 ]
Расширения
[ редактировать ]Также было показано, что алгоритмы Оккама эффективны для обучения PAC при наличии ошибок. [ 6 ] [ 7 ] вероятностные концепции, [ 8 ] функциональное обучение [ 9 ] и марковские ненезависимые примеры. [ 10 ]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Перейти обратно: а б Блюмер А., Эренфойхт А., Хаусслер Д. и Вармут М.К. (1987). Бритва Оккама . Письма об обработке информации, 24(6), 377-380.
- ^ Перейти обратно: а б с Кернс, М.Дж., и Вазирани, У.В. (1994). Введение в теорию компьютерного обучения , глава 2. MIT Press.
- ^ Борд Р. и Питт Л. (1990, апрель). О необходимости алгоритмов Оккама. В материалах двадцать второго ежегодного симпозиума ACM по теории вычислений (стр. 54–63). АКМ.
- ^ Хаусслер, Д. (1988). Количественная оценка индуктивной предвзятости: алгоритмы обучения ИИ и система обучения Valiant. Архивировано 12 апреля 2013 г. в Wayback Machine . Искусственный интеллект, 36(2), 177-221.
- ^ Ривест, РЛ (1987). Списки учебных решений. Машинное обучение , 2(3), 229-246.
- ^ Англуин Д. и Лэрд П. (1988). Обучение на шумных примерах. Машинное обучение, 2(4), 343–370.
- ^ Кернс, М., и Ли, М. (1993). Обучение при наличии вредоносных ошибок. SIAM Journal on Computing, 22 (4), 807–837.
- ^ Кернс, MJ, и Шапир, RE (1990, октябрь). Эффективное изучение вероятностных концепций без распределения . В «Основах информатики», 1990. Труды 31-го ежегодного симпозиума (стр. 382–391). IEEE.
- ^ Натараджан, Б.К. (1993, август). Бритва Оккама для функций. В материалах шестой ежегодной конференции по теории вычислительного обучения (стр. 370–376). АКМ.
- ^ Олдос Д. и Вазирани У. (1990, октябрь). Марковское расширение модели обучения Valiant . В «Основах информатики», 1990. Труды 31-го ежегодного симпозиума (стр. 392–396). IEEE.
Дальнейшее чтение
[ редактировать ]- Блюмер, А.; Эренфойхт, А.; Хаусслер, Д.; Вармут М.К. Обучаемость и измерение Вапника-Червоненкиса . Журнал ACM, 36(4):929–865, 1989.