Обучение под присмотром

Обучение с учителем ( SL ) — это парадигма машинного обучения , в которой входные объекты (например, вектор переменных-предсказателей) и желаемое выходное значение (также известное как контрольный сигнал , помеченный человеком ) обучают модель. Обучающие данные обрабатываются, создавая функцию, которая сопоставляет новые данные с ожидаемыми выходными значениями. ^[1] Оптимальный сценарий позволит алгоритму правильно определить выходные значения для невидимых экземпляров. Это требует, чтобы алгоритм обучения «разумным» образом обобщал обучающие данные на невидимые ситуации (см. Индуктивное смещение ). Это статистическое качество алгоритма измеряется через так называемую ошибку обобщения .

Тенденция к использованию в задаче контролируемых и неконтролируемых методов. Названия задач, выходящие за границы круга, созданы намеренно. Это показывает, что классическое разделение творческих задач (слева) с использованием неконтролируемых методов размыто в современных схемах обучения.

Действия, которые необходимо выполнить [ править ]

Для решения данной задачи контролируемого обучения необходимо выполнить следующие шаги:

Определить тип обучающих примеров. Прежде чем делать что-либо еще, пользователь должен решить, какие данные будут использоваться в качестве обучающего набора. Например, в случае анализа почерка это может быть один рукописный символ, целое рукописное слово, целое рукописное предложение или, возможно, целый рукописный абзац.
Соберите тренировочный набор . Обучающий набор должен быть репрезентативным для реального использования функции. Таким образом, собирается набор входных объектов, а также собираются соответствующие выходные данные либо от экспертов, либо в результате измерений.
Определите входное представление изучаемой функции. Точность изученной функции сильно зависит от того, как представлен входной объект. Обычно входной объект преобразуется в вектор признаков , который содержит ряд признаков, описывающих объект. Число функций не должно быть слишком большим из-за проклятия размерности ; но должен содержать достаточно информации, чтобы точно предсказать результат.
Определите структуру изучаемой функции и соответствующий алгоритм обучения. Например, инженер может использовать машины опорных векторов или деревья решений .
Завершите дизайн. Запустите алгоритм обучения на собранном обучающем наборе. Некоторые алгоритмы обучения с учителем требуют от пользователя определения определенных параметров управления . Эти параметры можно настроить путем оптимизации производительности на подмножестве (называемом проверочным набором ) обучающего набора или с помощью перекрестной проверки .
Оцените точность изученной функции. После настройки параметров и обучения производительность результирующей функции должна быть измерена на тестовом наборе , отдельном от обучающего набора.

Выбор алгоритма [ править ]

Доступен широкий спектр алгоритмов обучения с учителем, каждый из которых имеет свои сильные и слабые стороны. Не существует единого алгоритма обучения, который лучше всего работал бы для всех задач контролируемого обучения (см. теорему «Нет бесплатных обедов» ).

При контролируемом обучении следует учитывать четыре основных вопроса:

Компромисс смещения и дисперсии [ править ]

Первый вопрос – это компромисс между предвзятостью и дисперсией . ^[2] Представьте, что у нас есть несколько разных, но одинаково хороших наборов обучающих данных. Алгоритм обучения смещен для конкретного входного сигнала $x$ если при обучении на каждом из этих наборов данных он систематически неверен при прогнозировании правильного результата для $x$ . Алгоритм обучения имеет высокую дисперсию для конкретного входного сигнала. $x$ если он прогнозирует разные выходные значения при обучении на разных обучающих наборах. Ошибка прогнозирования обученного классификатора связана с суммой систематической ошибки и дисперсии алгоритма обучения. ^[3] Как правило, существует компромисс между предвзятостью и дисперсией. Алгоритм обучения с низким смещением должен быть «гибким», чтобы хорошо соответствовать данным. Но если алгоритм обучения слишком гибок, он будет по-разному подходить к каждому набору обучающих данных и, следовательно, иметь высокую дисперсию. Ключевым аспектом многих методов обучения с учителем является то, что они способны регулировать этот компромисс между смещением и дисперсией (либо автоматически, либо путем предоставления параметра смещения/дисперсии, который может регулировать пользователь).

функции и объем обучающих Сложность данных

Вторая проблема связана с объемом доступных обучающих данных относительно сложности «истинной» функции (классификатора или функции регрессии). Если истинная функция проста, то «негибкий» алгоритм обучения с высоким смещением и низкой дисперсией сможет изучить ее на небольшом объеме данных. Но если истинная функция очень сложна (например, потому что она включает в себя сложные взаимодействия между множеством различных входных функций и ведет себя по-разному в разных частях входного пространства), тогда функция сможет обучаться только с большим объемом парных обучающих данных. с «гибким» алгоритмом обучения с низким смещением и высокой дисперсией.

Размерность входного пространства [ править ]

Третья проблема — размерность входного пространства. Если входные векторы признаков имеют большие размеры, изучение функции может быть затруднено, даже если истинная функция зависит только от небольшого числа этих признаков. Это связано с тем, что множество «дополнительных» измерений могут запутать алгоритм обучения и привести к его высокой дисперсии. Следовательно, входные данные больших размеров обычно требуют настройки классификатора для обеспечения низкой дисперсии и высокого смещения. На практике, если инженер сможет вручную удалить ненужные функции из входных данных, это, скорее всего, повысит точность изученной функции. Кроме того, существует множество алгоритмов выбора признаков , которые стремятся идентифицировать релевантные признаки и отбросить ненужные. Это пример более общей стратегии уменьшения размерности , которая стремится отобразить входные данные в пространство меньшей размерности перед запуском алгоритма обучения с учителем.

Шум в выходных значениях [ править ]

Четвертая проблема – это степень шума в желаемых выходных значениях ( целевых переменных контроля ). Если желаемые выходные значения часто неверны (из-за человеческой ошибки или ошибок датчиков), то алгоритм обучения не должен пытаться найти функцию, которая точно соответствует примерам обучения. Попытка слишком тщательно подогнать данные приводит к переобучению . Вы можете переобучиться, даже если нет ошибок измерения (стохастический шум), если функция, которую вы пытаетесь изучить, слишком сложна для вашей модели обучения. В такой ситуации часть целевой функции, которую невозможно смоделировать, «искажает» ваши обучающие данные — это явление получило название детерминированного шума . Когда присутствует любой тип шума, лучше использовать оценку более высокого смещения и меньшей дисперсии.

На практике существует несколько подходов к уменьшению шума в выходных значениях, таких как ранняя остановка для предотвращения переобучения , а также обнаружение и удаление зашумленных обучающих примеров перед обучением алгоритма обучения с учителем. Существует несколько алгоритмов, которые идентифицируют зашумленные примеры обучения, а удаление подозрительных зашумленных примеров обучения перед обучением снижает ошибку обобщения со статистической значимостью . ^[4]^[5]

Другие факторы, которые следует учитывать [ править ]

Другие факторы, которые следует учитывать при выборе и применении алгоритма обучения, включают следующее:

Неоднородность данных. Если векторы признаков включают в себя признаки разных типов (дискретные, дискретно упорядоченные, числовые, непрерывные значения), некоторые алгоритмы применять легче, чем другие. Многие алгоритмы, включая машины опорных векторов , линейную регрессию , логистическую регрессию , нейронные сети и методы ближайшего соседа , требуют, чтобы входные признаки были числовыми и масштабировались до аналогичных диапазонов (например, до интервала [-1,1]). Особенно чувствительны к этому методы, использующие функцию расстояния, такие как методы ближайшего соседа и машины опорных векторов с ядрами Гаусса . Преимущество деревьев решений заключается в том, что они легко обрабатывают разнородные данные.
Избыточность данных. Если входные признаки содержат избыточную информацию (например, высококоррелированные признаки), некоторые алгоритмы обучения (например, линейная регрессия , логистическая регрессия и методы, основанные на расстоянии ) будут работать плохо из-за числовой нестабильности. Эти проблемы часто можно решить, введя некоторую форму регуляризации .
Наличие взаимодействий и нелинейностей. Если каждая из функций вносит независимый вклад в выходные данные, то алгоритмы, основанные на линейных функциях (например, линейная регрессия , логистическая регрессия , машины опорных векторов , наивный Байес ) и функциях расстояния (например, методы ближайшего соседа , машины опорных векторов) с ядрами Гаусса ) обычно работают хорошо. Однако если между функциями существуют сложные взаимодействия, то такие алгоритмы, как деревья решений и нейронные сети, работают лучше, поскольку они специально разработаны для обнаружения этих взаимодействий. Линейные методы также могут применяться, но при их использовании инженер должен вручную указывать взаимодействия.

Рассматривая новое приложение, инженер может сравнить несколько алгоритмов обучения и экспериментально определить, какой из них лучше всего работает для решения поставленной задачи (см. перекрестную проверку ). Настройка производительности алгоритма обучения может занять очень много времени. Учитывая фиксированные ресурсы, зачастую лучше потратить больше времени на сбор дополнительных обучающих данных и более информативных функций, чем тратить дополнительное время на настройку алгоритмов обучения.

Алгоритмы [ править ]

Наиболее широко используемые алгоритмы обучения:

алгоритмы контролируемого обучения работают Как

Учитывая набор $N$ обучающие примеры формы $\{(x_{1},y_{1}),...,(x_{N},\;y_{N})\}$ такой, что $x_{i}$ вектор признаков $i$ -й пример и $y_{i}$ является его меткой (т. е. классом), алгоритм обучения ищет функцию $g:X\to Y$ , где $X$ это входное пространство и $Y$ это выходное пространство. Функция $g$ является элементом некоторого пространства возможных функций $G$ , обычно называемое пространством гипотез . Иногда удобно представить $g$ используя функцию оценки $f:X\times Y\to \mathbb {R}$ такой, что $g$ определяется как возвращение $y$ значение, которое дает наивысший балл: $g(x)={\underset {y}{\arg \max }}\;f(x,y)$ . Позволять $F$ обозначим пространство скоринговых функций.

Хотя $G$ и $F$ может быть любым пространством функций, многие алгоритмы обучения представляют собой вероятностные модели, в которых $g$ принимает форму условной вероятности модели $g(x)={\underset {y}{\arg \max }}\;P(y|x)$ , или $f$ принимает форму совместной вероятностной модели $f(x,y)=P(x,y)$ . Например, наивный байесовский и линейный дискриминантный анализ представляют собой модели совместной вероятности, тогда как логистическая регрессия представляет собой модель условной вероятности.

Существует два основных подхода к выбору $f$ или $g$ : минимизация эмпирического риска и минимизация структурного риска . ^[6] Минимизация эмпирического риска ищет функцию, которая лучше всего соответствует обучающим данным. Структурная минимизация риска включает штрафную функцию , которая контролирует компромисс между смещением и дисперсией.

В обоих случаях предполагается, что обучающая выборка состоит из выборки независимых и одинаково распределенных пар , $(x_{i},\;y_{i})$ . Чтобы измерить, насколько хорошо функция соответствует обучающим данным, используется функция потерь. $L:Y\times Y\to \mathbb {R} ^{\geq 0}$ определяется. Для примера обучения $(x_{i},\;y_{i})$ , потеря возможности прогнозирования значения ${\hat {y}}$ является $L(y_{i},{\hat {y}})$ .

Риск $R(g)$ функции $g$ определяется как ожидаемая потеря $g$ . Это можно оценить на основе обучающих данных как

R_{emp}(g)={\frac {1}{N}}\sum _{i}L(y_{i},g(x_{i}))

.

риска эмпирического Минимизация

При минимизации эмпирического риска алгоритм обучения с учителем ищет функцию $g$ что сводит к минимуму $R(g)$ . Следовательно, алгоритм обучения с учителем может быть построен путем применения алгоритма оптимизации для поиска $g$ .

Когда $g$ это условное распределение вероятностей $P(y|x)$ а функция потерь — это отрицательная логарифмическая вероятность: $L(y,{\hat {y}})=-\log P(y|x)$ , то минимизация эмпирического риска эквивалентна оценке максимального правдоподобия .

Когда $G$ содержит много функций-кандидатов или обучающий набор недостаточно велик, минимизация эмпирического риска приводит к высокой дисперсии и плохому обобщению. Алгоритм обучения способен запоминать обучающие примеры без каких-либо обобщений. Это называется переоснащением .

рисков Структурная минимизация

Минимизация структурного риска направлена на предотвращение переоснащения путем включения штрафа за регуляризацию в оптимизацию . Штраф за регуляризацию можно рассматривать как реализацию бритвы Оккама , которая предпочитает более простые функции более сложным.

Были применены самые разнообразные штрафы, соответствующие разным определениям сложности. Например, рассмотрим случай, когда функция $g$ является линейной функцией вида

g(x)=\sum _{j=1}^{d}\beta _{j}x_{j}

.

Популярным штрафом за регуляризацию является $\sum _{j}\beta _{j}^{2}$ , который представляет собой квадрат евклидовой нормы весов, также известный как $L_{2}$ норма. Другие нормы включают в себя $L_{1}$ норма, $\sum _{j}|\beta _{j}|$ и $L_{0}$ «норма» , то есть количество ненулевых $\beta _{j}$ с. Наказание будет обозначаться $C(g)$ .

Задача оптимизации обучения с учителем состоит в нахождении функции $g$ что сводит к минимуму

J(g)=R_{emp}(g)+\lambda C(g).

Параметр $\lambda$ контролирует компромисс между смещением и дисперсией. Когда $\lambda =0$ , это дает минимизацию эмпирического риска с низким смещением и высокой дисперсией. Когда $\lambda$ велик, алгоритм обучения будет иметь высокую предвзятость и низкую дисперсию. Стоимость $\lambda$ может быть выбран эмпирически посредством перекрестной проверки .

Штраф за сложность имеет байесовскую интерпретацию как отрицательный логарифм априорной вероятности $g$ , $-\log P(g)$ , в этом случае $J(g)$ апостериорная вероятность $g$ .

Генеративное обучение [ править ]

Описанные выше методы обучения являются дискриминационными методами обучения, поскольку они направлены на поиск функции $g$ который хорошо различает различные выходные значения (см. дискриминативную модель ). Для особого случая, когда $f(x,y)=P(x,y)$ - это совместное распределение вероятностей , а функция потерь - это отрицательное логарифмическое правдоподобие. $-\sum _{i}\log P(x_{i},y_{i}),$ Говорят, что алгоритм минимизации риска выполняет генеративное обучение , потому что $f$ можно рассматривать как генеративную модель , объясняющую, как были сгенерированы данные. Алгоритмы генеративного обучения часто проще и более эффективны в вычислительном отношении, чем алгоритмы дискриминационного обучения. В некоторых случаях решение можно вычислить в замкнутой форме, как в наивном байесовском и линейном дискриминантном анализе .

Обобщения [ править ]

Есть несколько способов обобщить стандартную задачу обучения с учителем:

Обучение с полуконтролем или слабый контроль : желаемые выходные значения предоставляются только для подмножества обучающих данных. Остальные данные не помечены или помечены неточно.
Активное обучение . Вместо того, чтобы предполагать, что все обучающие примеры даны в начале, алгоритмы активного обучения в интерактивном режиме собирают новые примеры, обычно отправляя запросы пользователю-человеку. Часто запросы основаны на немаркированных данных, что представляет собой сценарий, сочетающий полуконтролируемое обучение с активным обучением.
Структурированное предсказание . Если желаемое выходное значение представляет собой сложный объект, например дерево разбора или помеченный граф, необходимо расширить стандартные методы.
Обучение ранжированию : когда входными данными является набор объектов, а желаемым результатом является ранжирование этих объектов, тогда снова необходимо расширить стандартные методы.

Подходы и алгоритмы [ править ]

Аналитическое обучение
Искусственная нейронная сеть
Обратное распространение ошибки
Бустинг (мета-алгоритм)
Байесовская статистика
Рассуждение на основе прецедентов
Обучение дереву решений
Индуктивное логическое программирование
Регрессия гауссовского процесса
Генетическое программирование
Групповой метод обработки данных
Оценщики ядра
Обучающиеся автоматы
Обучение системам классификаторов
Обучение векторному квантованию
Минимальная длина сообщения ( деревья решений , графы решений и т. д.)
Мультилинейное обучение подпространству
Наивный классификатор Байеса
Классификатор максимальной энтропии
Условное случайное поле
Алгоритм ближайшего соседа
Вероятно, приблизительно правильное обучение (PAC) обучение
Правила Ripple Down , методология приобретения знаний
Символьные алгоритмы машинного обучения
Алгоритмы субсимвольного машинного обучения
Машины опорных векторов
Машины минимальной сложности (МКМ)
Случайные леса
Ансамбли классификаторов
Порядковая классификация
Предварительная обработка данных
Обработка несбалансированных наборов данных
Статистическое реляционное обучение
Proaftn — алгоритм многокритериальной классификации.

Приложения [ править ]

Биоинформатика
Хеминформатика
- Количественная связь структура-активность
Маркетинг баз данных
Распознавание рукописного ввода
Поиск информации
- Учимся ранжировать
Извлечение информации
Распознавание объектов в компьютерном зрении
Оптическое распознавание символов
Обнаружение спама
Распознавание образов
Распознавание речи
Обучение с учителем — это особый случай нисходящей причинно-следственной связи в биологических системах.
Классификация рельефа с использованием спутниковых снимков ^[7]
Классификация расходов в закупок процессах ^[8]

Общие вопросы [ править ]

См. также [ править ]

Список наборов данных для исследований в области машинного обучения

Ссылки [ править ]

^ Мехриар Мори , Афшин Ростамизаде, Амит Талвалкар (2012) Основы машинного обучения , MIT Press ISBN 9780262018258 .
^ С. Геман, Э. Биненшток и Р. Дурса (1992). Нейронные сети и дилемма смещения/дисперсии . Нейронные вычисления 4, 1–58.
^ Дж. Джеймс (2003) Дисперсия и смещение для общих функций потерь, Machine Learning 51, 115-135. ( http://www-bcf.usc.edu/~gareth/research/bv.pdf )
^ CE Brodely и MA Friedl (1999). Выявление и устранение неправильно помеченных примеров обучения, Журнал исследований искусственного интеллекта 11, 131–167. ( http://jair.org/media/606/live-606-1803-jair.pdf )
^ Г-н Смит и Т. Мартинес (2011). «Повышение точности классификации путем выявления и удаления экземпляров, которые следует неправильно классифицировать». Материалы Международной совместной конференции по нейронным сетям (IJCNN, 2011) . стр. 2690–2697. CiteSeerX 10.1.1.221.1371 . дои : 10.1109/IJCNN.2011.6033571 .
^ Вапник, В.Н. Природа статистической теории обучения (2-е изд.), Springer Verlag, 2000.
^ А. Майти (2016). «Контролируемая классификация поляриметрических данных RADARSAT-2 для различных объектов суши». arXiv : 1608.00501 [ cs.CV ].
^ «Ключевые технологии для гибких закупок | Публикации SIPMM» . публикация.sipmm.edu.sg . 09.10.2020 . Проверено 16 июня 2022 г.

Внешние ссылки [ править ]

Программное обеспечение с открытым исходным кодом для машинного обучения (MLOSS)

[1] Мехриар Мори , Афшин Ростамизаде, Амит Талвалкар (2012) Основы машинного обучения , MIT Press ISBN 9780262018258 .

[2] С. Геман, Э. Биненшток и Р. Дурса (1992). Нейронные сети и дилемма смещения/дисперсии . Нейронные вычисления 4, 1–58.

[3] Дж. Джеймс (2003) Дисперсия и смещение для общих функций потерь, Machine Learning 51, 115-135. ( http://www-bcf.usc.edu/~gareth/research/bv.pdf )

[4] CE Brodely и MA Friedl (1999). Выявление и устранение неправильно помеченных примеров обучения, Журнал исследований искусственного интеллекта 11, 131–167. ( http://jair.org/media/606/live-606-1803-jair.pdf )

[5] Г-н Смит и Т. Мартинес (2011). «Повышение точности классификации путем выявления и удаления экземпляров, которые следует неправильно классифицировать». Материалы Международной совместной конференции по нейронным сетям (IJCNN, 2011) . стр. 2690–2697. CiteSeerX 10.1.1.221.1371 . дои : 10.1109/IJCNN.2011.6033571 .

[6] Вапник, В.Н. Природа статистической теории обучения (2-е изд.), Springer Verlag, 2000.

[7] А. Майти (2016). «Контролируемая классификация поляриметрических данных RADARSAT-2 для различных объектов суши». arXiv : 1608.00501 [ cs.CV ].

[8] «Ключевые технологии для гибких закупок | Публикации SIPMM» . публикация.sipmm.edu.sg . 09.10.2020 . Проверено 16 июня 2022 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]