Многозадачное обучение

Из Википедии, бесплатной энциклопедии

Многозадачное обучение (MTL) — это область машинного обучения , в которой одновременно решаются несколько задач обучения, при этом используются общие черты и различия между задачами. Это может привести к повышению эффективности обучения и точности прогнозирования для моделей, ориентированных на конкретные задачи, по сравнению с обучением моделей по отдельности. [1] [2] [3] Ранние версии MTL назывались «подсказками». [4] [5]

В широко цитируемой статье 1997 года Рич Каруана дал следующую характеристику:

Многозадачное обучение — это подход к индуктивному переносу , который улучшает обобщение за счет использования информации о предметной области, содержащейся в обучающих сигналах связанных задач, в качестве индуктивного смещения . Это достигается путем параллельного изучения задач при использовании общего представления ; то, что изучено для каждой задачи, может помочь лучше выучить другие задачи. [3]

В контексте классификации MTL направлен на повышение производительности нескольких задач классификации путем их совместного изучения. Одним из примеров является спам-фильтр, который можно рассматривать как отдельные, но связанные задачи классификации для разных пользователей. Чтобы сделать это более конкретным, учтите, что разные люди имеют разное распределение функций, которые отличают спам-сообщения от законных. Например, англоговорящий человек может обнаружить, что все электронные письма на русском языке являются спамом, но не для русскоязычных. Тем не менее, существует определенная общность в этой задаче классификации среди пользователей, например, одной общей особенностью может быть текст, связанный с денежным переводом. Совместное решение проблемы классификации спама каждого пользователя с помощью MTL может позволить решениям информировать друг друга и повысить производительность. [ нужна цитата ] Дополнительные примеры настроек для MTL включают многоклассовую классификацию и классификацию по нескольким меткам . [6]

Многозадачное обучение работает, потому что регуляризация , вызванная требованием, чтобы алгоритм хорошо выполнял соответствующую задачу, может превосходить регуляризацию, которая предотвращает переобучение путем равномерного наказания за всю сложность. Одна из ситуаций, в которой MTL может оказаться особенно полезным, — это если задачи имеют значительные общие черты и, как правило, выборка немного недостаточна. [7] Однако, как обсуждается ниже, MTL также оказался полезен для изучения несвязанных задач. [7] [8]

Методы [ править ]

Ключевая проблема в многозадачном обучении заключается в том, как объединить обучающие сигналы из нескольких задач в единую модель. Это может сильно зависеть от того, насколько разные задачи согласуются друг с другом или противоречат друг другу. Есть несколько способов решения этой задачи:

Группировка задач и дублирование [ править ]

В рамках парадигмы MTL информация может распределяться между некоторыми или всеми задачами. В зависимости от структуры связи задач может потребоваться выборочное разделение информации между задачами. Например, задачи могут быть сгруппированы, существовать в иерархии или быть связаны по какой-то общей метрике. Предположим, как это будет более формально описано ниже, что вектор параметров, моделирующий каждую задачу, представляет собой линейную комбинацию некоторого базиса. Сходство по этому признаку может указывать на родственность задач. Например, при разреженности перекрытие ненулевых коэффициентов между задачами указывает на общность. Группировка задач тогда соответствует тем задачам, которые лежат в подпространстве, созданном некоторым подмножеством базовых элементов, где задачи в разных группах могут быть непересекающимися или перекрываться произвольно с точки зрения их базисов. [9] Связность задач может быть задана априори или изучена на основе данных. [6] [10] Иерархическую связь задач также можно использовать неявно, без явного предположения об априорных знаниях или отношениях обучения. [7] [11] Например, явное изучение релевантности выборки для разных задач может быть сделано, чтобы гарантировать эффективность совместного обучения в нескольких областях. [7]

Использование несвязанных задач [ править ]

Можно попытаться изучить группу основных задач, используя группу вспомогательных задач, не связанных с основными. Во многих приложениях может оказаться полезным совместное изучение несвязанных задач, в которых используются одни и те же входные данные. Причина в том, что предварительные знания о связи задач могут привести к более разреженным и более информативным представлениям для каждой группы задач, по существу, за счет выявления особенностей распределения данных. Были предложены новые методы, которые основываются на предшествующей методологии многозадачности, отдавая предпочтение общему низкоразмерному представлению внутри каждой группы задач. Программист может налагать штрафы на задачи из разных групп, что способствует ортогонализации двух представлений . Эксперименты на синтетических и реальных данных показали, что включение несвязанных задач может привести к значительным улучшениям по сравнению со стандартными методами многозадачного обучения. [8]

Передача знаний [ править ]

С многозадачным обучением связана концепция передачи знаний. В то время как традиционное многозадачное обучение подразумевает, что общее представление создается одновременно для всех задач, передача знаний предполагает последовательное совместное представление. Крупномасштабные проекты машинного обучения, такие как глубокая сверточная нейронная сеть GoogLeNet , [12] Классификатор объектов на основе изображений может создавать надежные представления, которые могут быть полезны для дальнейших алгоритмов, изучающих связанные задачи. Например, предварительно обученную модель можно использовать в качестве средства извлечения признаков для выполнения предварительной обработки для другого алгоритма обучения. Или предварительно обученную модель можно использовать для инициализации модели с аналогичной архитектурой, которая затем настраивается для изучения другой задачи классификации. [13]

Множественные нестационарные задачи [ править ]

Традиционно многозадачное обучение и передача знаний применяются в условиях стационарного обучения. Их распространение на нестационарные среды называется групповым онлайн-адаптивным обучением (ЦЕЛЬ). [14] Обмен информацией может быть особенно полезен, если учащиеся работают в постоянно меняющихся условиях, поскольку учащийся может извлечь выгоду из предыдущего опыта другого учащегося, чтобы быстро адаптироваться к новой среде. Такое групповое адаптивное обучение имеет множество применений: от прогнозирования финансовых временных рядов через системы рекомендаций по контенту до визуального понимания для адаптивных автономных агентов.

Многозадачная оптимизация [ править ]

Многозадачная оптимизация . В некоторых случаях одновременное обучение, казалось бы, связанных задач может снизить производительность по сравнению с однозадачными моделями. [15] Обычно модели MTL используют модули для конкретных задач поверх общего представления функций, полученного с использованием общего модуля. Поскольку это совместное представление должно охватывать полезные функции всех задач, MTL может препятствовать выполнению отдельных задач, если разные задачи требуют противоречивого представления, т. е. градиенты разных задач указывают на противоположные направления или значительно различаются по величине. Это явление обычно называют отрицательным переносом. Чтобы решить эту проблему, были предложены различные методы оптимизации MTL. Обычно градиенты для каждой задачи объединяются в совместное направление обновления с помощью различных алгоритмов агрегирования или эвристики. Эти методы включают вычитание проекции конфликтующих градиентов, [16] применение методов теории игр, [17] и использование байесовского моделирования для получения распределения по градиентам. [18]

Математика [ править ]

Воспроизведение гильбертова пространства векторнозначных функций (RKHSvv) [ править ]

Задачу MTL можно поставить в контексте RKHSvv ( полное внутреннее пространство оснащенное векторных функций, воспроизводящим ядром ). В частности, в последнее время основное внимание уделялось случаям, когда структуру задачи можно определить с помощью разделимого ядра, описанного ниже. Представленная здесь презентация взята из Ciliberto et al., 2015. [6]

Концепции RKHSvv [ править ]

Предположим, что набор обучающих данных , с , , где t индексирует задачу, а . Позволять . В этом случае имеется согласованное пространство ввода и вывода и одна и та же функция потерь . для каждой задачи: . Это приводит к регуляризованной задаче машинного обучения:

( 1 )

где является векторным, воспроизводящим ядерное гильбертово пространство с функциями наличие компонентов .

Воспроизводящее ядро ​​пространства функций представляет собой симметричную матрицу-функцию , такой, что и следующие воспроизводящие свойства:

( 2 )

Воспроизводящее ядро ​​приводит к теореме о представителе, показывающей, что любое решение уравнения 1 имеет вид:

( 3 )

Отделимые ядра [ править ]

Форма ядра Γ обеспечивает как представление пространства признаков , так и структурирование результатов по задачам. Естественным упрощением является выбор сепарабельного ядра, которое разлагается на отдельные ядра на входном пространстве X и на задачах . В этом случае ядро, связывающее скалярные компоненты и дан кем-то . Для векторных функций мы можем написать , где k — скалярное воспроизводящее ядро, а A — симметричный положительно полуопределенный матрица. В дальнейшем обозначаем .

Это свойство факторизации, разделимость, подразумевает, что представление входного пространства признаков не меняется в зависимости от задачи. То есть нет взаимодействия между входным ядром и ядром задачи. представлена ​​исключительно A. Структура по задачам Методы для неразделимых ядер Γ — современная область исследований.

Для сепарабельного случая теорема о представлении сводится к . Выходные данные модели для обучающих данных тогда будут KCA , где K — это эмпирическая матрица ядра с записями , а C – это матрица строк .

При наличии сепарабельного ядра уравнение 1 можно переписать как

( П )

где V — это (взвешенное) среднее значение L по входу , примененное к Y и KCA . (Вес равен нулю, если это недостающее наблюдение).

Обратите внимание, что второй член в P можно получить следующим образом:

Известная структура задачи [ править ]

Представления структуры задач [ править ]

Существует три во многом эквивалентных способа представления структуры задачи: через регуляризатор; через выходную метрику и через выходное отображение.

Регуляризатор . С помощью отделимого ядра можно показать (ниже), что , где это элемент псевдообратного , и это RKHS на основе скалярного ядра , и . Эта формулировка показывает, что контролирует тяжесть наказания, связанного с . (Обратите внимание, что возникает из .)

Доказательство

Выходная метрика альтернативная выходная метрика на может быть вызвано внутренним произведением . С квадратом потерь существует эквивалентность между сепарабельными ядрами по альтернативной метрике, и , по канонической метрике.

Сопоставление выходов . Выходы можно сопоставить как в пространство более высокой размерности для кодирования сложных структур, таких как деревья, графы и строки. Для линейных отображений L при соответствующем выборе сепарабельного ядра можно показать, что .

Примеры структуры задач [ править ]

С помощью формулировки регуляризатора можно легко представить различные структуры задач.

  • Сдача в аренду (где - единичная матрица T x T , и матрица единиц T x T ) эквивалентно тому, что Γ контролирует дисперсию задач от их среднего значения . Например, уровни некоторых биомаркеров в крови можно измерить у с Т. пациентов моменты времени в течение дня, и интерес может заключаться в упорядочении дисперсии прогнозов у ​​разных пациентов.
  • Сдача в аренду , где эквивалентно тому, чтобы позволить контролировать дисперсию, измеренную относительно группового среднего: . (Здесь мощность группы r и – индикаторная функция). Например, люди из разных политических партий (групп) могут быть регуляризованы вместе с целью прогнозирования рейтинга благосклонности того или иного политика. Обратите внимание, что этот штраф уменьшается до первого, когда все задачи находятся в одной группе.
  • Сдача в аренду , где лапласиан графа с матрицей смежности M , дающей попарное сходство задач. Это эквивалентно увеличению штрафа за расстояние, разделяющее задачи t и s , когда они более похожи (в соответствии с весом ,) т.е. упорядочивает .
  • Все вышеперечисленные варианты выбора A также приводят к появлению дополнительного члена регуляризации что наказывает сложность в f в более широком смысле.

Учебные задачи вместе с их структурой [ править ]

Задачу обучения P можно обобщить, включив в нее матрицу задач обучения A следующим образом:

( В )

Выбор должен быть предназначен для изучения матриц A заданного типа. См. «Особые случаи» ниже.

Оптимизация Q [ править ]

Ограничиваясь случаем выпуклых потерь и принудительных санкций, Ciliberto et al. показали, что, хотя Q не является совместно выпуклой в C и A, родственная проблема является совместно выпуклой.

Конкретно на выпуклом множестве , эквивалентная задача

( Р )

является выпуклым с тем же минимальным значением. И если является минимизатором для R , тогда является минимизатором для Q .

R можно решить барьерным методом на замкнутом множестве, введя следующее возмущение:

( С )

Возмущение через барьер заставляет целевые функции быть равными на границе .

S можно решить с помощью метода спуска блочных координат, чередуя C и A. В результате получается последовательность минимизаторов. в S , которое сходится к решению в R как , и, следовательно, дает решение Q .

Особые случаи [ править ]

Спектральные штрафы - Диннузо и др. [19] предложил установить F как норму Фробениуса. . Они оптимизировали Q напрямую, используя блочный спуск по координатам, не учитывая трудности на границе .

Обучение кластерным задачам - Джейкоб и др. [20] предложил изучать A в условиях, когда T задач организованы в R непересекающихся кластеров. В этом случае пусть быть матрицей с . Параметр , и , матрица задач может быть параметризован как функция : , с условиями, которые наказывают среднее значение дисперсии между кластерами и дисперсии внутри кластеров соответственно прогнозов задачи. М не выпуклая, но имеется выпуклая релаксация . В этой формулировке .

Обобщения [ править ]

Невыпуклые штрафы . Штрафы могут быть построены так, что A ограничено лапласианом графа или что A имеет факторизацию низкого ранга. Однако эти штрафы не являются выпуклыми, и анализ барьерного метода, предложенного Ciliberto et al. в этих случаях не проходит.

Неразделимые ядра . Разделимые ядра ограничены, в частности, они не учитывают структуры в пространстве взаимодействия между входными и выходными доменами совместно. Необходима дальнейшая работа по разработке моделей для этих ядер.

Пакет программного обеспечения [ править ]

Пакет Matlab под названием «Многозадачное обучение посредством структурной регуляризации» (MALSAR). [21] реализует следующие алгоритмы многозадачного обучения: Средне-регуляризованное многозадачное обучение, [22] [23] Многозадачное обучение с совместным выбором функций, [24] Надежное многозадачное обучение, [25] Регуляризованное многозадачное обучение Trace-Norm, [26] Поочередная структурная оптимизация, [27] [28] Некогерентное низкоранговое и разреженное обучение, [29] Надежное многозадачное обучение низкого ранга, кластерное многозадачное обучение, [30] [31] Многозадачное обучение с графовыми структурами.

См. также [ править ]

Ссылки [ править ]

  1. ^ Бакстер, Дж. (2000). Модель обучения с индуктивной предвзятостью». Журнал исследований искусственного интеллекта 12: 149–198, Интернет-статья.
  2. ^ Трун, С. (1996). Легче ли выучить n-ю вещь, чем первую? В «Достижениях в области нейронных систем обработки информации» 8, стр. 640–646. МТИ Пресс. Бумага в Citeseer
  3. ^ Перейти обратно: а б Каруана, Р. (1997). «Многозадачное обучение» (PDF) . Машинное обучение . 28 : 41–75. дои : 10.1023/А:1007379606734 .
  4. ^ Суддарт С., Кергосиен Ю. (1990). Подсказки по внедрению правил как средство повышения производительности сети и сокращения времени обучения. Семинар ЕВРАСИП. Нейронные сети стр. 120-129. Конспекты лекций по информатике. Спрингер.
  5. ^ Абу-Мостафа, Ю.С. (1990). «Обучение по подсказкам в нейронных сетях» . Журнал сложности . 6 (2): 192–198. дои : 10.1016/0885-064x(90)90006-y .
  6. ^ Перейти обратно: а б с Силиберто, К. (2015). «Выпуклое обучение множественным задачам и их структура». arXiv : 1504.03101 [ cs.LG ].
  7. ^ Перейти обратно: а б с д Хаджирамезанали, Э., Дадане, С.З., Карбалайгаре, А., Чжоу, З. и Цянь, К. Байесовское многодоменное обучение для обнаружения подтипов рака на основе данных подсчета секвенирования следующего поколения. 32-я конференция по нейронным системам обработки информации (NIPS 2018), Монреаль, Канада. arXiv : 1810.09433
  8. ^ Перейти обратно: а б Ромера-Паредес Б., Аргириу А., Бьянки-Бертуз Н. и Понтиль М. (2012) Использование несвязанных задач в многозадачном обучении. http://jmlr.csail.mit.edu/proceedings/papers/v22/romera12/romera12.pdf
  9. ^ Кумар А. и Дауме III Х. (2012) Группировка задач обучения и перекрытие в многозадачном обучении. http://icml.cc/2012/papers/690.pdf
  10. ^ Джаванпурия, П., и Сакета Нат, Дж., (2012) Формулировка обучения выпуклых функций для обнаружения скрытой структуры задачи. http://icml.cc/2012/papers/90.pdf
  11. ^ Цвейг, А. и Вайншалл, Д. Каскад иерархической регуляризации для совместного обучения. Материалы: 30-й Международной конференции по машинному обучению (ICML), Атланта, Джорджия, июнь 2013 г. http://www.cs.huji.ac.il/~daphna/papers/Zweig_ICML2013.pdf .
  12. ^ Сегеди, Кристиан; Вэй Лю, Юсеф; Янцин Цзя, Томазо; Сермане, Пьер; Рид, Скотт; Ангелов, Драгомир; Эрхан, Дмитрий; Ванхук, Винсент; Рабинович, Андрей (2015). «Углубляемся с извилинами». Конференция IEEE 2015 по компьютерному зрению и распознаванию образов (CVPR) . стр. 1–9. arXiv : 1409.4842 . дои : 10.1109/CVPR.2015.7298594 . ISBN  978-1-4673-6964-0 . S2CID   206592484 .
  13. ^ Ройг, Джемма. «Обзор глубокого обучения» (PDF) . Архивировано из оригинала (PDF) 6 марта 2016 г. Проверено 26 августа 2019 г.
  14. ^ Цвейг, А. и Чечик, Г. Групповое адаптивное онлайн-обучение. Машинное обучение, DOI 10.1007/s10994-017-5661-5, август 2017 г. http://rdcu.be/uFSv.
  15. ^ Стэндли, Тревор; Замир, Амир Р.; Чен, Рассвет; Гибас, Леонидас; Малик, Джитендра; Саварезе, Сильвио (13 июля 2020 г.). «Изучение фронта Парето с помощью гиперсетей» . Международная конференция по машинному обучению (ICML) : 9120–9132. arXiv : 1905.07553 .
  16. ^ Ю, Тяньхэ; Кумар, Саураб; Гупта, Абхишек; Левин, Сергей; Хаусман, Кароль; Финн, Челси (2020). «Градиентная хирургия для многозадачного обучения» (PDF) . Достижения в области нейронных систем обработки информации . arXiv : 2001.06782 .
  17. ^ Навон, Авив; Шамсян, Авив; Ачитуве, Идан; Марон, Аггей; Кавагути, Кенджи; Чечик, Гал; Фетайя, Итан (2022). «Многозадачное обучение как игра в торг» . Международная конференция по машинному обучению : 16428–16446. arXiv : 2202.01017 .
  18. ^ Ачитуве, Идан; Диамант, Идит; Нетцер, Арнон; Чечик, Гал; Фетайя, Итан (2024). «Байесовская неопределенность для агрегирования градиентов в многозадачном обучении». arXiv : 2402.04005 [ cs.LG ].
  19. ^ Динуццо, Франческо (2011). «Изучение выходных ядер с помощью блочного спуска по координатам» (PDF) . Материалы 28-й Международной конференции по машинному обучению (ICML-11) . Архивировано из оригинала (PDF) 8 августа 2017 г.
  20. ^ Джейкоб, Лоран (2009). «Кластерное многозадачное обучение: выпуклая формулировка». Достижения в области нейронных систем обработки информации . arXiv : 0809.2085 . Бибкод : 2008arXiv0809.2085J .
  21. ^ Чжоу Дж., Чен Дж. и Йе Дж. MALSAR: Многозадачное обучение посредством структурной регуляризации. Университет штата Аризона, 2012. http://www.public.asu.edu/~jye02/Software/MALSAR . Онлайн-руководство
  22. ^ Евгениу Т. и Понтиль М. (2004). Регуляризованное многозадачное обучение . Материалы десятой международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных (стр. 109–117).
  23. ^ Евгениу, Т.; Миккелли, К.; Понтил, М. (2005). «Изучение нескольких задач с помощью методов ядра» (PDF) . Журнал исследований машинного обучения . 6 : 615.
  24. ^ Аргириу, А.; Евгениу, Т.; Понтил, М. (2008a). «Выпуклое многозадачное обучение» . Машинное обучение . 73 (3): 243–272. дои : 10.1007/s10994-007-5040-8 .
  25. ^ Чен Дж., Чжоу Дж. и Йе Дж. (2011). Интеграция структур низкого ранга и разреженных групп для надежного многозадачного обучения [ мертвая ссылка ] . Материалы десятой международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных.
  26. ^ Джи, С., и Йе, Дж. (2009). Ускоренный градиентный метод минимизации нормы следа . Материалы 26-й ежегодной международной конференции по машинному обучению (стр. 457–464).
  27. ^ Андо, Р.; Чжан, Т. (2005). «Среда для изучения прогнозирующих структур на основе нескольких задач и немаркированных данных» (PDF) . Журнал исследований машинного обучения . 6 : 1817–1853.
  28. ^ Чен Дж., Тан Л., Лю Дж. и Йе Дж. (2009). Выпуклая формулировка для изучения общих структур из нескольких задач . Материалы 26-й ежегодной международной конференции по машинному обучению (стр. 137–144).
  29. ^ Чен, Дж., Лю, Дж., и Йе, Дж. (2010). Изучение бессвязных разреженных и низкоранговых шаблонов из нескольких задач . Материалы 16-й международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных (стр. 1179–1188).
  30. ^ Джейкоб Л., Бах Ф. и Верт Дж. (2008). Кластерное многозадачное обучение: выпуклая формулировка . Достижения в области нейронных систем обработки информации, 2008 г.
  31. ^ Чжоу Дж., Чен Дж. и Йе Дж. (2011). Кластерное многозадачное обучение посредством оптимизации попеременной структуры . Достижения в области нейронных систем обработки информации.

Внешние ссылки [ править ]

Программное обеспечение [ править ]