Jump to content

Ошибка обобщения

Для обучения с учителем приложений в машинном обучении и теории статистического обучения ошибка обобщения [1] (также известная как ошибка вне выборки [2] или риск ) — это мера того, насколько точно алгоритм способен предсказать значения результата для ранее невидимых данных. Поскольку алгоритмы обучения оцениваются на конечных выборках, оценка алгоритма обучения может быть чувствительной к ошибке выборки . В результате измерения ошибки прогнозирования текущих данных могут не дать много информации о возможности прогнозирования новых данных. Ошибку обобщения можно свести к минимуму, избегая переобучения алгоритма обучения. Производительность машинного обучения алгоритма визуализируется с помощью графиков, на которых показаны значения оценок ошибки обобщения в процессе обучения, которые называются кривыми обучения .

Определение [ править ]

Целью задачи обучения является разработка функции который предсказывает выходные значения для каждой входной базы данных . Нижний индекс указывает на то, что функция разрабатывается на основе набора данных точки данных. Ошибка обобщения или ожидаемая потеря или риск определенной функции по всем возможным значениям и - ожидаемое значение функции потерь : [1]

где неизвестное совместное распределение вероятностей для и .

Не зная совместного распределения вероятностей , невозможно вычислить . Вместо этого мы можем вычислить ошибку на выборочных данных, которая называется эмпирической ошибкой (или эмпирическим риском ). Данный точки данных, эмпирическая ошибка функции-кандидата является:

Говорят, что алгоритм обобщает, если:

Особое значение имеет ошибка обобщения функции, зависящей от данных который находится с помощью алгоритма обучения на основе выборки. Опять же, для неизвестного распределения вероятностей не может быть вычислено. Вместо этого цель многих задач статистической теории обучения состоит в том, чтобы ограничить или охарактеризовать разницу ошибки обобщения и эмпирической ошибки вероятности:

То есть цель состоит в том, чтобы охарактеризовать вероятность что ошибка обобщения меньше эмпирической ошибки плюс некоторая связанная ошибка (обычно зависит от и ).Для многих типов алгоритмов было показано, что алгоритм имеет границы обобщения, если он соответствует определенным устойчивости критериям . В частности, если алгоритм симметричен (порядок входных данных не влияет на результат), имеет ограниченные потери и удовлетворяет двум условиям устойчивости, он будет обобщать. Первое условие стабильности, стабильность перекрестной проверки с исключением одного , говорит, что для того, чтобы быть стабильным, ошибка прогнозирования для каждой точки данных при использовании перекрестной проверки с исключением одного должна сходиться к нулю как . Второе условие — устойчивость к ожидаемой ошибке (также известная как устойчивость гипотезы, если она работает в норма ) выполняется, если прогноз по пропущенной точке данных не меняется, когда одна точка данных удаляется из набора обучающих данных. [3]

Эти условия можно формализовать как:

Перекрестная проверка с исключением одного Стабильность . .

Алгоритм имеет стабильность, если для каждого , существует и такой, что:

и и перейти к нулю, как уходит в бесконечность. [3]

«ожидаемый пропуск одного » Ошибка Стабильность

Алгоритм имеет стабильность, если для каждого существует и такой, что:

с и стремится к нулю для .

Для абсолютной стабильности в норма, это то же самое, что устойчивость гипотезы:

с стремится к нулю, как уходит в бесконечность. [3]

с доказанной стабильностью Алгоритмы

Доказано, что ряд алгоритмов стабильны и, как следствие, имеют границы ошибки обобщения. Список этих алгоритмов и статей, доказавших устойчивость, доступен здесь .

Отношение к переоснащению [ править ]

Этот рисунок иллюстрирует связь между переоснащением и ошибкой обобщения I [ f n ] - I S [ f n ]. Точки данных были получены на основе соотношения y = x с добавлением белого шума к значениям y . В левом столбце набор тренировочных очков показан синим цветом. Полиномиальная функция седьмого порядка была адаптирована к обучающим данным. В правом столбце функция тестируется на данных, выбранных из основного совместного распределения вероятностей x и y . В верхнем ряду функция соответствует выборке данных из 10 точек данных. В нижнем ряду функция соответствует образцу набора данных из 100 точек данных. Как мы видим, для небольших размеров выборки и сложных функций ошибка в обучающем наборе невелика, но ошибка в базовом распределении данных велика, и мы переопределили данные. В результате ошибка обобщения велика. По мере увеличения количества точек выборки ошибка прогнозирования обучающих и тестовых данных сходится, а ошибка обобщения стремится к 0.

Понятия ошибки обобщения и переобучения тесно связаны. Переобучение происходит, когда изученная функция становится чувствительным к шуму в образце. В результате функция будет хорошо работать на обучающем наборе, но не будет хорошо работать на других данных из совместного распределения вероятностей и . Таким образом, чем больше происходит переоснащение, тем больше ошибка обобщения.

Степень переобучения можно проверить с помощью методов перекрестной проверки , которые разбивают выборку на смоделированные обучающие выборки и тестовые выборки. Затем модель обучается на обучающей выборке и оценивается на тестовой выборке. Тестовая выборка ранее невидима для алгоритма и поэтому представляет собой случайную выборку из совместного распределения вероятностей и . Эта тестовая выборка позволяет нам аппроксимировать ожидаемую ошибку и, как следствие, аппроксимировать конкретную форму ошибки обобщения.

Существует множество алгоритмов для предотвращения переобучения. Алгоритм минимизации может наказывать более сложные функции (известные как регуляризация Тихонова ), или пространство гипотез может быть ограничено либо явно в форме функций, либо путем добавления ограничений к функции минимизации (регуляризация Иванова).

Подход к поиску функции, которая не переоснащается, противоречит цели найти функцию, которая является достаточно сложной, чтобы уловить конкретные характеристики данных. Это известно как компромисс между смещением и дисперсией . Сохранение простоты функции во избежание переобучения может привести к смещению получаемых прогнозов, в то время как разрешение сделать ее более сложной приводит к переобучению и более высокой дисперсии прогнозов. Невозможно минимизировать и то, и другое одновременно.

Ссылки [ править ]

  1. ^ Jump up to: а б Мори М., Ростамизаде А., Талвакар А. (2018) Основы машинного обучения , 2-е изд., Бостон: MIT Press
  2. ^ Ю. С. Абу-Мостафа, М. Магдон-Исмаил и Х.-Т. Лин (2012) Обучение на основе данных, AMLBook Press. ISBN   978-1600490064
  3. ^ Jump up to: а б с Мукерджи, С.; Нийоги, П.; Поджо, Т.; Рифкин., Р.М. (2006). «Теория обучения: стабильность достаточна для обобщения и необходима и достаточна для последовательности минимизации эмпирического риска» (PDF) . Адв. Вычислить. Математика . 25 (1–3): 161–193. дои : 10.1007/s10444-004-7634-z . S2CID   2240256 .

Дальнейшее чтение [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: e05ada54f1bf95f6bd1786b5ddc94a43__1716603180
URL1:https://arc.ask3.ru/arc/aa/e0/43/e05ada54f1bf95f6bd1786b5ddc94a43.html
Заголовок, (Title) документа по адресу, URL1:
Generalization error - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)