Jump to content

Минимизация эмпирического риска

Минимизация эмпирического риска — это принцип статистической теории обучения , который определяет семейство алгоритмов обучения, основанных на оценке производительности по известному и фиксированному набору данных. Основная идея основана на применении закона больших чисел ; более конкретно, мы не можем точно знать, насколько хорошо алгоритм прогнозирования будет работать на практике (т. е. истинный «риск»), поскольку мы не знаем истинного распределения данных, но вместо этого мы можем оценить и оптимизировать производительность алгоритма на известный набор обучающих данных. Производительность на известном наборе обучающих данных называется «эмпирическим риском».

Предыстория [ править ]

Следующая ситуация является общей постановкой многих задач обучения с учителем . Есть два пространства объектов и и хотел бы изучить функцию (часто называемая гипотезой ), которая выводит объект , данный . Для этого существует обучающий набор примеры где является входом и – это соответствующий ответ, который требуется от .

Говоря более формально, предполагая, что существует совместное распределение вероятностей. над и , и что обучающий набор состоит из случаи взято из . Предположение о совместном распределении вероятностей позволяет моделировать неопределенность в прогнозах (например, из-за шума в данных), поскольку не является детерминированной функцией , а случайная величина с условным распределением за фиксированную .

Также предполагается, что существует неотрицательная действительная функция потерь. который измеряет, насколько различаются прогнозы гипотеза исходит из истинного результата . Для задач классификации эти функции потерь могут быть правилами оценки .Риск , связанный с гипотезой затем определяется как математическое ожидание функции потерь:

Функция потерь, обычно используемая в теории, — это функция потерь 0–1 : .

Конечная цель алгоритма обучения — найти гипотезу. среди фиксированного класса функций для которых риск является минимальным:

Для задач классификации классификатор Байеса определяется как классификатор, минимизирующий риск, определенный с помощью функции потерь 0–1.

риска эмпирического Минимизация

В целом риск невозможно вычислить, поскольку распределение неизвестен алгоритму обучения (эта ситуация называется агностическим обучением). [ нужна ссылка ] ). Однако, учитывая выборку точек данных обучения iid , мы можем вычислить оценку , называемую эмпирическим риском , путем вычисления среднего значения функции потерь по обучающему набору; более формально, вычисляя математическое ожидание относительно эмпирической меры :

Принцип минимизации эмпирического риска [1] утверждает, что алгоритм обучения должен выбрать гипотезу который минимизирует эмпирический риск для класса гипотез :

Таким образом, алгоритм обучения, определяемый принципом минимизации эмпирического риска, заключается в решении указанной выше задачи оптимизации .

Свойства [ править ]

Гарантии эффективности минимизации эмпирического риска сильно зависят от выбранного класса функций, а также от сделанных предположений о распределении. [2] В общем, методы, не требующие распространения, слишком грубы и не приводят к практическим ограничениям. Однако они по-прежнему полезны для получения асимптотических свойств алгоритмов обучения, таких как согласованность . В частности, нераспределенные границы эффективности минимизации эмпирического риска при фиксированном классе функций могут быть получены с использованием границ сложности VC класса функций.

Для простоты, рассматривая случай задач бинарной классификации, можно ограничить вероятность выбранного классификатора: быть намного хуже, чем лучший из возможных классификаторов . Учитывайте риск определенный в классе гипотез с функцией роста учитывая набор данных размером . Тогда для каждого : [3]

Аналогичные результаты справедливы и для задач регрессии. [2] Эти результаты часто основаны на единых законах больших чисел , которые контролируют отклонение эмпирического риска от истинного риска равномерно по всему классу гипотез. [3]

Результаты невозможности [ править ]

Также возможно показать нижние границы производительности алгоритма, если не делать никаких предположений о распределении. [4] Иногда это называют теоремой отсутствия бесплатных обедов . Несмотря на то, что конкретный алгоритм обучения может обеспечить асимптотически оптимальную производительность для любого распределения, производительность на конечной выборке всегда низкая, по крайней мере, для одного распределения данных. Это означает, что ни один классификатор не может указать ошибку для данного размера выборки для всех распределений. [3]

В частности, пусть и рассмотрим размер выборки и правило классификации , существует распределение с риском (это означает, что идеальное предсказание возможно), такое, что: [3]

Кроме того, можно показать, что скорость сходимости алгоритма обучения низкая для некоторых распределений. В частности, дана последовательность убывающих положительных чисел стремясь к нулю, можно найти такое распределение, что:

для всех . Этот результат показывает, что универсально хороших правил классификации не существует в том смысле, что правило должно быть низкого качества хотя бы для одного распределения. [3]

Вычислительная сложность [ править ]

Минимизация эмпирического риска для задачи классификации с функцией потерь 0–1, как известно, является NP-трудной задачей даже для относительно простого класса функций, таких как линейные классификаторы . [5] Тем не менее, ее можно эффективно решить, когда минимальный эмпирический риск равен нулю, т. е. данные линейно разделимы . [ нужна ссылка ]

На практике алгоритмы машинного обучения справляются с этой проблемой либо путем использования выпуклой аппроксимации функции потерь 0–1 (например, шарнирных потерь для SVM ), которую легче оптимизировать, либо путем наложения допущений на распределение (и, таким образом, перестать быть независимыми от алгоритмов обучения, к которым применим приведенный выше результат).

В случае овыпуклости лемма Чжана учитывает избыточный риск исходной задачи, используя избыточный риск овыпуклой задачи. [6] Минимизация последнего с помощью выпуклой оптимизации также позволяет контролировать первое.

риска эмпирического минимизация Наклонная

Наклонная минимизация эмпирического риска — это метод машинного обучения, используемый для изменения стандартных функций потерь, таких как квадратичная ошибка, путем введения параметра наклона. Этот параметр динамически регулирует вес точек данных во время обучения, позволяя алгоритму сосредоточиться на определенных регионах или характеристиках распределения данных. Наклонная минимизация эмпирического риска особенно полезна в сценариях с несбалансированными данными или когда необходимо подчеркнуть ошибки в определенных частях пространства прогнозирования.

См. также [ править ]


Ссылки [ править ]

  1. ^ В. Вапник (1992). Принципы минимизации рисков для теории обучения.
  2. Перейти обратно: Перейти обратно: а б Дьёрфи, Ласло; Колер, Майкл; Кшизак, Адам; Уок, Харро (01 декабря 2010 г.). Теория непараметрической регрессии без распределения (перепечатка оригинального 1-го изд. в мягкой обложке). Нью-Йорк: Спрингер. ISBN  978-1-4419-2998-3 .
  3. Перейти обратно: Перейти обратно: а б с д и Деврой Л., Дьерфи Л. и Лугоши Г. Вероятностная теория распознавания образов. Дискретная прикладная математика 73, 192–194 (1997)
  4. ^ Деврой, Люк; Дьёрфи, Ласло; Лугоши, Габор (1996). «Вероятностная теория распознавания образов» . Стохастическое моделирование и прикладная теория вероятности . 31 . дои : 10.1007/978-1-4612-0711-5 . ISBN  978-1-4612-6877-2 . ISSN   0172-4568 .
  5. ^ В. Фельдман, В. Гурусвами, П. Рагхавендра и И Ву (2009). Агностическое изучение мономов с помощью полупространств сложно. (См. статью и ссылки в ней)
  6. ^ «Математика машинного обучения. Лекция 9. Конспект | Математика машинного обучения | Математика» . MIT OpenCourseWare . Проверено 28 октября 2023 г.

Дальнейшее чтение [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: d339cd3f31153bebad0c00e4c2eab7c7__1718089920
URL1:https://arc.ask3.ru/arc/aa/d3/c7/d339cd3f31153bebad0c00e4c2eab7c7.html
Заголовок, (Title) документа по адресу, URL1:
Empirical risk minimization - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)