Многократное обучение

В машинном обучении множественное обучение (MIL) — это тип обучения с учителем . Вместо набора экземпляров с индивидуальной маркировкой учащийся получает набор маркированных пакетов , каждый из которых содержит множество экземпляров. В простом случае бинарной классификации с несколькими экземплярами пакет может быть помечен как отрицательный, если все экземпляры в нем отрицательны. С другой стороны, пакет считается положительным, если в нем есть хотя бы один экземпляр, который является положительным. Из коллекции маркированных сумок учащийся пытается либо (i) создать концепцию, которая будет правильно маркировать отдельные экземпляры, либо (ii) научиться маркировать сумки, не вызывая при этом концепцию.

Babenko (2008) ^[1] дает простой пример для MIL. Представьте себе несколько человек, и у каждого из них есть брелок, в котором находится несколько ключей. Некоторые из этих людей могут войти в определенную комнату, а некоторые нет. Задача состоит в том, чтобы предсказать, сможет ли определенный ключ или определенная цепочка ключей привести вас в эту комнату. Для решения этой задачи нам необходимо найти именно тот ключ, который является общим для всех «положительных» брелоков. Если мы сможем правильно идентифицировать этот ключ, мы также сможем правильно классифицировать всю цепочку ключей: положительную, если она содержит требуемый ключ, или отрицательную, если его нет.

Машинное обучение

В зависимости от типа и вариаций обучающих данных машинное обучение можно условно разделить на три структуры: обучение с учителем, обучение без учителя и обучение с подкреплением. Множественное обучение (MIL) подпадает под структуру контролируемого обучения, где каждый экземпляр обучения имеет метку, дискретную или действительную. MIL занимается проблемами неполного знания меток в обучающих наборах. Точнее, при множественном обучении обучающий набор состоит из помеченных «мешков», каждый из которых представляет собой набор непомеченных экземпляров. Пакет помечен положительно, если хотя бы один экземпляр в нем положителен, и помечен отрицательно, если все экземпляры в нем отрицательны. Цель MIL — предсказать этикетки на новых, ранее неизвестных сумках.

История

Килер и др., ^[2] в своей работе в начале 1990-х годов был первым, кто исследовал область МИГ. Фактический термин «многоэкземплярное обучение» был введен в середине 1990-х годов Дитеррихом и др. пока они исследовали проблему прогнозирования активности наркотиков. ^[3] Они попытались создать систему обучения, которая могла бы предсказать, способна ли новая молекула производить какое-либо лекарство или нет, путем анализа набора известных молекул. Молекулы могут иметь множество альтернативных низкоэнергетических состояний, но только одно или несколько из них подходят для производства лекарства. Проблема возникла потому, что ученые могли только определить, является ли молекула квалифицированной или нет, но они не могли точно сказать, какие из ее низкоэнергетических форм ответственны за это.

Один из предложенных способов решения этой проблемы состоял в том, чтобы использовать обучение с учителем и рассматривать все низкоэнергетические формы квалифицированной молекулы как положительные примеры обучения, а все низкоэнергетические формы неквалифицированных молекул - как отрицательные примеры. Дитерих и др. показали, что такой метод будет иметь высокий ложноположительный шум от всех низкоэнергетических форм, которые ошибочно помечены как положительные, и поэтому не будет действительно полезен. ^[3] Их подход заключался в том, чтобы рассматривать каждую молекулу как маркированный пакет, а все альтернативные низкоэнергетические формы этой молекулы — как экземпляры в пакете без индивидуальных меток. Таким образом, формулируется многоэкземплярное обучение.

Решение проблемы множественного обучения, которую Dietterich et al. предложен алгоритм прямоугольника с параллельными осями (APR). ^[3] Он пытается найти подходящие прямоугольники, параллельные осям, построенные путем объединения объектов. Они протестировали алгоритм на наборе данных Маска. ^[4]^[5]^{[ сомнительно – обсудить ]} который представляет собой конкретные тестовые данные прогнозирования активности лекарств и наиболее часто используемый тест в множественном обучении. Алгоритм APR показал лучший результат, но APR был разработан с учетом данных Маска.

Проблема множественного обучения характерна не только для поиска лекарств. В 1998 году Марон и Ратан нашли другое применение множественного обучения для классификации сцен в машинном зрении и разработали структуру Diverse Density. ^[6] Учитывая изображение, экземпляр считается одним или несколькими фрагментами изображения фиксированного размера, а набор экземпляров считается всем изображением. Изображение считается положительным, если оно содержит целевую сцену (например, водопад), и отрицательным в противном случае. Обучение с несколькими экземплярами можно использовать для изучения свойств фрагментов изображений, которые характеризуют целевую сцену. С тех пор эти структуры применялись к широкому спектру приложений: от изучения концепций изображений и категоризации текста до прогнозирования фондового рынка.

Примеры

Возьмем, к примеру, классификацию изображений Amores (2013) . Учитывая изображение, мы хотим узнать его целевой класс на основе его визуального контента. Например, целевым классом может быть «пляж», где изображение содержит как «песок», так и «воду». В терминах MIL изображение описывается как сумка. $X=\{X_{1},..,X_{N}\}$ , где каждый $X_{i}$ — вектор признаков (называемый экземпляром ), извлеченный из соответствующего $i$ -я область на изображении и $N$ — общее количество регионов (экземпляров), разделяющих изображение. Пакет помечен как положительный («пляж»), если он содержит экземпляры как «песчаного» региона, так и «водного» региона.

Примеры применения MIL:

Молекулярная активность
Прогнозирование сайтов связывания кальмодулин . белков, связывающих ^[7]
Функция прогнозирования для альтернативно сплайсированных изоформ Li, Menon & et al. (2014) , Eksi et al. (2013)
Классификация изображений Марон и Ратан (1998)
Категоризация текста или документов Kotzias et al. (2015)
Прогнозирование функциональных сайтов связывания микроРНК нацелено на Bandyopadhyay, Ghosh & et al. (2015)
Классификация медицинских изображений Zhu et al. (2016) , PJSudharshan et al. (2019)

Многочисленные исследователи работали над адаптацией классических методов классификации, таких как машины опорных векторов или повышение , для работы в контексте множественного обучения.

Определения

Если пространство экземпляров ${\mathcal {X}}$ , то набор сумок — это набор функций $\mathbb {N} ^{\mathcal {X}}=\{B:{\mathcal {X}}\rightarrow \mathbb {N} \}$ , который изоморфен множеству мультиподмножеств ${\mathcal {X}}$ . За каждую сумку $B\in \mathbb {N} ^{\mathcal {X}}$ и каждый экземпляр $x\in {\mathcal {X}}$ , $B(x)$ рассматривается как количество раз $x$ происходит в $B$ . ^[8] Позволять ${\mathcal {Y}}$ быть пространством меток, тогда «концепция множественного экземпляра» — это карта $c:\mathbb {N} ^{\mathcal {X}}\rightarrow {\mathcal {Y}}$ . Цель МИГ – изучить такую концепцию. Оставшаяся часть статьи будет посвящена бинарной классификации , где ${\mathcal {Y}}=\{0,1\}$ .

Предположения

Большая часть работ по множественному обучению, в том числе Dietterich et al. (1997) и ранние статьи Марона и Лозано-Переса (1997), ^[3]^[9] сделать предположение относительно связи между экземплярами внутри пакета и меткой класса пакета. Из-за своей важности это предположение часто называют стандартным предположением МИ.

Стандартное предположение

Стандартное предположение принимает каждый экземпляр $x\in {\mathcal {X}}$ иметь связанный ярлык $y\in \{0,1\}$ которое скрыто от обучающегося. Пара $(x,y)$ называется «концепцией уровня экземпляра». Сумка теперь рассматривается как мультимножество концепций уровня экземпляра и помечается положительной, если хотя бы один из ее экземпляров имеет положительную метку, и отрицательной, если все ее экземпляры имеют отрицательные метки. Формально пусть $B=\{(x_{1},y_{1}),\ldots ,(x_{n},y_{n})\}$ быть сумкой. Этикетка $B$ тогда $c(B)=1-\prod _{i=1}^{n}(1-y_{i})$ . Стандартное предположение МИ асимметрично, а это означает, что если положительные и отрицательные метки поменяны местами, предположение будет иметь другой смысл. По этой причине, когда мы используем это предположение, нам необходимо четко понимать, какой ярлык должен быть положительным.

Стандартное предположение может рассматриваться как слишком строгое, и поэтому в последние годы исследователи попытались смягчить эту позицию, что привело к появлению других, более расплывчатых предположений. ^[10] Причиной этого является убеждение, что стандартное предположение MI подходит для набора данных Маска, но, поскольку MIL может быть применено к множеству других проблем, некоторые другие предположения, вероятно, могут быть более подходящими. Руководствуясь этой идеей, Вайдманн ^[11] сформулировал иерархию обобщенных предположений, основанных на конкретных примерах, для МИГ. Оно состоит из стандартного предположения МИ и трех типов обобщенных предположений МИ, каждое из которых более общее, чем последнее, в том смысле, что первое можно получить как конкретный выбор параметров второго, стандартного $\subset$ на основе присутствия $\subset$ на основе пороговых значений $\subset$ на основе подсчета, при этом предположение, основанное на подсчете, является наиболее общим, а стандартное предположение - наименее общим. (Однако обратите внимание, что любая сумка, отвечающая допущению, основанному на подсчете, соответствует допущению, основанному на пороге, которое, в свою очередь, соответствует допущению, основанному на присутствии, которое, в свою очередь, соответствует стандартному предположению. В этом смысле также правильно утверждать, что стандартное предположение является самым слабым и, следовательно, наиболее общим, а предположение, основанное на подсчете, является самым сильным и, следовательно, наименее общим.) Можно было бы ожидать, что алгоритм, который хорошо работает при одном из этих предположений, будет работать, по крайней мере, так же хорошо и при менее общих предположениях.

Допущения, основанные на присутствии, пороге и подсчете

Предположение, основанное на присутствии, является обобщением стандартного предположения, согласно которому сумка должна содержать все экземпляры, принадлежащие набору требуемых концепций уровня экземпляра, чтобы ее можно было пометить как позитивную. Формально пусть $C_{R}\subseteq {\mathcal {X}}\times {\mathcal {Y}}$ быть набором необходимых концепций уровня экземпляра, и пусть $\#(B,c_{i})$ обозначают количество раз, когда концепция уровня экземпляра $c_{i}$ происходит в сумке $B$ . Затем $c(B)=1\Leftrightarrow \#(B,c_{i})\geq 1$ для всех $c_{i}\in C_{R}$ . Обратите внимание, что, взяв $C_{R}$ Чтобы содержать только одну концепцию уровня экземпляра, предположение, основанное на присутствии, сводится к стандартному предположению.

Дальнейшее обобщение связано с предположением, основанным на пороговых значениях, согласно которому каждая требуемая концепция уровня экземпляра должна встречаться в пакете не только один раз, но и некоторое минимальное (пороговое) количество раз, чтобы пакет можно было пометить как положительный. С учетом приведенных выше обозначений для каждой требуемой концепции уровня экземпляра $c_{i}\in C_{R}$ связан с порогом $l_{i}\in \mathbb {N}$ . Для сумки $B$ , $c(B)=1\Leftrightarrow \#(B,c_{i})\geq l_{i}$ для всех $c_{i}\in C_{R}$ .

Допущение, основанное на подсчете, представляет собой окончательное обобщение, которое устанавливает как нижнюю, так и верхнюю границы количества раз, когда требуемое понятие может встретиться в пакете с положительной маркировкой. Каждая необходимая концепция уровня экземпляра $c_{i}\in C_{R}$ имеет нижний порог $l_{i}\in \mathbb {N}$ и верхний порог $u_{i}\in \mathbb {N}$ с $l_{i}\leq u_{i}$ . Сумка $B$ маркируется в соответствии с $c(B)=1\Leftrightarrow l_{i}\leq \#(B,c_{i})\leq u_{i}$ для всех $c_{i}\in C_{R}$ .

Предположение GMIL

Скотт, Чжан и Браун (2005) ^[12] описывают другое обобщение стандартной модели, которое они называют «обобщенным множественным обучением» (GMIL). Предположение GMIL определяет набор необходимых экземпляров. $Q\subseteq {\mathcal {X}}$ . Сумка $X$ называется положительным, если он содержит экземпляры, достаточно близкие, по крайней мере, к $r$ требуемых экземпляров $Q$ . ^[12] Только при этом условии предположение GMIL эквивалентно предположению, основанному на присутствии. ^[8] Однако Скотт и др. описать дальнейшее обобщение, в котором существует набор точек притяжения $Q\subseteq {\mathcal {X}}$ и набор точек отталкивания ${\overline {Q}}\subseteq {\mathcal {X}}$ . Пакет считается положительным тогда и только тогда, когда он содержит экземпляры, достаточно близкие по крайней мере к $r$ точек притяжения и находятся достаточно близко не более чем к $s$ точек отталкивания. ^[12] Это условие строго более общее, чем условие, основанное на присутствии, хотя оно не попадает в вышеуказанную иерархию.

Коллективное предположение

В отличие от предыдущих предположений, в которых сумки рассматривались как фиксированные, коллективное предположение рассматривает сумку как фиксированную. $B$ как распределение $p(x|B)$ над экземплярами ${\mathcal {X}}$ и аналогичным образом рассматривать метки как распределение $p(y|x)$ над экземплярами. Целью алгоритма, действующего в рамках коллективного предположения, является моделирование распределения $p(y|B)=\int _{\mathcal {X}}p(y|x)p(x|B)dx$ .

С $p(x|B)$ обычно считается фиксированным, но неизвестным, вместо этого алгоритмы сосредотачиваются на вычислении эмпирической версии: ${\widehat {p}}(y|B)={\frac {1}{n_{B}}}\sum _{i=1}^{n_{B}}p(y|x_{i})$ , где $n_{B}$ количество экземпляров в сумке $B$ . С $p(y|x)$ также обычно считается фиксированным, но неизвестным, большинство методов, основанных на коллективных предположениях, сосредоточены на изучении этого распределения, как и в версии с одним экземпляром. ^[8]^[10]

Хотя коллективное предположение оценивает каждый случай с одинаковой важностью, Фулдс расширил коллективное предположение, включив в него веса экземпляров. Тогда взвешенное коллективное предположение состоит в том, что ${\widehat {p}}(y|B)={\frac {1}{w_{B}}}\sum _{i=1}^{n_{B}}w(x_{i})p(y|x_{i})$ , где $w:{\mathcal {X}}\rightarrow \mathbb {R} ^{+}$ является весовой функцией над экземплярами и $w_{B}=\sum _{x\in B}w(x)$ . ^[8]

Алгоритмы

Существует два основных варианта алгоритмов множественного обучения: алгоритмы на основе экземпляров и на основе метаданных или алгоритмы на основе внедрения. Термин «на основе экземпляров» означает, что алгоритм пытается найти набор репрезентативных экземпляров на основе предположения MI и классифицировать будущие пакеты из этих представителей. Напротив, алгоритмы на основе метаданных не делают никаких предположений о взаимосвязи между экземплярами и этикетками пакетов, а вместо этого пытаются извлечь независимую от экземпляра информацию (или метаданные) о сумках, чтобы изучить концепцию. ^[10] Обзор некоторых современных алгоритмов МИ см. в книге Foulds and Frank. ^[8]

Алгоритмы на основе экземпляров

Самыми ранними предложенными алгоритмами MI были набор алгоритмов «итерационной дискриминации», разработанных Дитерихом и др., и Diverse Density, разработанный Мароном и Лозано-Пересом. ^[3]^[9] Оба эти алгоритма работали в соответствии со стандартным предположением.

Итерационная дискриминация

В общих чертах все алгоритмы итерационной дискриминации состоят из двух этапов. Первый этап — вырастить прямоугольник, параллельный оси (APR), который содержит по крайней мере один экземпляр из каждого положительного пакета и ни одного экземпляра из отрицательного пакета. Это делается итеративно: начиная со случайного экземпляра. $x_{1}\in B_{1}$ в положительном пакете годовая процентная ставка увеличивается до наименьшей годовой процентной ставки, охватывающей любой экземпляр. $x_{2}$ в новой позитивной сумке $B_{2}$ . Этот процесс повторяется до тех пор, пока годовая процентная ставка не охватит хотя бы один экземпляр из каждого положительного пакета. Затем каждый экземпляр $x_{i}$ содержащемуся в Годовой процентной ставке присваивается «релевантность», соответствующая тому, сколько отрицательных моментов он исключает из Годовой процентной ставки в случае удаления. Затем алгоритм выбирает репрезентативные экземпляры-кандидаты в порядке убывания релевантности до тех пор, пока ни один экземпляр, содержащийся в отрицательном пакете, не будет содержаться и в APR. Алгоритм повторяет эти шаги роста и выбора представителей до сходимости, где размер APR на каждой итерации принимается только вдоль представителей-кандидатов.

Считается, что после первого этапа годовая процентная ставка будет содержать только репрезентативные атрибуты. На втором этапе эта жесткая годовая процентная ставка расширяется следующим образом: распределение Гаусса центрируется по каждому атрибуту и рисуется более свободная годовая процентная ставка, так что положительные экземпляры будут выходить за пределы жесткой годовой процентной ставки с фиксированной вероятностью. ^[4] Хотя повторяющиеся методы дискриминации хорошо работают со стандартным предположением, они плохо обобщаются на другие предположения МИ. ^[8]

Разнообразная плотность

В своей простейшей форме Diverse Density (DD) предполагает наличие единственного репрезентативного экземпляра. $t^{*}$ как концепция. Этот репрезентативный экземпляр должен быть «плотным» в том смысле, что он гораздо ближе к экземплярам из положительных пакетов, чем из отрицательных пакетов, а также «разнообразным» в том смысле, что он близок хотя бы к одному экземпляру из каждого положительного пакета.

Позволять ${\mathcal {B}}^{+}=\{B_{i}^{+}\}_{1}^{m}$ быть набором мешков с положительной маркировкой и пусть ${\mathcal {B}}^{-}=\{B_{i}^{-}\}_{1}^{n}$ — набор мешков с отрицательной маркировкой, тогда лучший кандидат на роль репрезентативного экземпляра определяется выражением ${\hat {t}}=\arg \max _{t}DD(t)$ , где разнообразная плотность $DD(t)=Pr\left(t|{\mathcal {B}}^{+},{\mathcal {B}}^{-}\right)=\arg \max _{t}\prod _{i=1}^{m}Pr\left(t|B_{i}^{+}\right)\prod _{i=1}^{n}Pr\left(t|B_{i}^{-}\right)$ в предположении, что сумки распределяются независимо, учитывая концепцию $t^{*}$ . Сдача в аренду $B_{ij}$ обозначаем j-й экземпляр сумки i, модель шумного ИЛИ дает:

Pr(t|B_{i}^{+})=1-\prod _{j}\left(1-Pr\left(t|B_{ij}^{+}\right)\right)

Pr(t|B_{i}^{-})=\prod _{j}\left(1-Pr\left(t|B_{ij}^{-}\right)\right)

$P(t|B_{ij})$ принимается масштабированное расстояние $P(t|B_{ij})\propto \exp \left(-\sum _{k}s_{k}^{2}\left(x_{k}-(B_{ij})_{k}\right)^{2}\right)$ где $s=(s_{k})$ вектор масштабирования. Таким образом, если каждый положительный пакет имеет экземпляр, близкий к $t$ , затем $Pr(t|B_{i}^{+})$ будет высоким для каждого $i$ , но если какой-либо отрицательный мешок $B_{i}^{-}$ имеет экземпляр, близкий к $t$ , $Pr(t|B_{i}^{-})$ будет низким. Следовательно, $DD(t)$ высок только в том случае, если в каждом положительном пакете есть экземпляр, близкий к $t$ и никакие отрицательные пакеты не имеют экземпляра, близкого к $t$ . Концепция кандидата ${\hat {t}}$ можно получить градиентными методами. Классификацию новых сумок можно затем выполнить, оценив близость к ${\hat {t}}$ . ^[9] Хотя идея разнообразной плотности была первоначально предложена Мароном и др. в 1998 году более поздние алгоритмы MIL используют структуру DD, например EM-DD в 2001 году. ^[13] и ДД-СВМ в 2004 г., ^[14] и МИЛЬ в 2006 г. ^[8]

Ряд одноэкземплярных алгоритмов также был адаптирован к контексту с несколькими экземплярами в соответствии со стандартным предположением, в том числе

После 2000 года произошел отход от стандартных предположений и разработка алгоритмов, предназначенных для решения более общих предположений, перечисленных выше. ^[10]

Вайдман ^[11] предлагает алгоритм двухуровневой классификации (TLC) для изучения концепций на основе предположения, основанного на подсчете. На первом этапе предпринимается попытка изучить концепции уровня экземпляра путем построения дерева решений для каждого экземпляра в каждом пакете обучающего набора. Затем каждая сумка сопоставляется с вектором признаков на основе подсчетов в дереве решений. На втором этапе на векторах признаков запускается одноэкземплярный алгоритм для изучения концепции.
Скотт и др. ^[12] предложил алгоритм GMIL-1 для изучения концепций в рамках предположения GMIL в 2005 году. GMIL-1 перечисляет все прямоугольники, параллельные осям. $\{R_{i}\}_{i\in I}$ в исходном пространстве экземпляров и определяет новое пространство признаков логических векторов. Сумка $B$ отображается в вектор $\mathbf {b} =(b_{i})_{i\in I}$ в этом новом пространстве функций, где $b_{i}=1$ если год $R_{i}$ обложки $B$ , и $b_{i}=0$ в противном случае. Затем можно применить одноэкземплярный алгоритм для изучения концепции в этом новом пространстве функций.

Из-за высокой размерности нового пространства признаков и стоимости явного перечисления всех APR исходного пространства экземпляров GMIL-1 неэффективен как с точки зрения вычислений, так и с точки зрения памяти. GMIL-2 был разработан как усовершенствованная версия GMIL-1 с целью повышения эффективности. GMIL-2 предварительно обрабатывает экземпляры, чтобы найти набор экземпляров-кандидатов-представителей. Затем GMIL-2 сопоставляет каждую сумку с логическим вектором, как и в GMIL-1, но учитывает только APR, соответствующие уникальным подмножествам экземпляров-кандидатов-репрезентатов. Это значительно снижает требования к памяти и вычислениям. ^[8]

Сюй (2003) ^[10] предложил несколько алгоритмов, основанных на логистической регрессии и методах повышения, для изучения концепций в рамках коллективного предположения.

Алгоритмы на основе метаданных (или внедрения)

Сопоставляя каждую сумку с вектором признаков метаданных, алгоритмы на основе метаданных позволяют гибко использовать произвольный одноэкземплярный алгоритм для выполнения фактической задачи классификации. Будущие пакеты просто отображаются (встраиваются) в пространство признаков метаданных и помечаются выбранным классификатором. Поэтому основное внимание в алгоритмах на основе метаданных уделяется тому, какие функции или какой тип внедрения приводят к эффективной классификации. Обратите внимание, что некоторые из ранее упомянутых алгоритмов, такие как TLC и GMIL, можно считать основанными на метаданных.

Один из подходов состоит в том, чтобы метаданные для каждого пакета представляли собой некоторый набор статистических данных по экземплярам в пакете. Алгоритм SimpleMI использует этот подход, при котором метаданные пакета рассматриваются как простая сводная статистика, такая как среднее или минимальное и максимальное значение каждой переменной экземпляра, взятой для всех экземпляров в пакете. Существуют и другие алгоритмы, использующие более сложную статистику, но SimpleMI оказался на удивление конкурентоспособным для ряда наборов данных, несмотря на кажущуюся нехватку сложности. ^[8]
Другой распространенный подход — рассматривать геометрию самих сумок как метаданные. Этот подход используется в алгоритмах MIGraph и miGraph, которые представляют каждый пакет в виде графа, узлами которого являются экземпляры пакета. Ребро между двумя узлами существует, если расстояние (до некоторой метрики в пространстве экземпляров) между соответствующими экземплярами меньше некоторого порога. Классификация осуществляется через SVM с графовым ядром (MIGraph и miGraph отличаются только выбором ядра). ^[8] Аналогичные подходы применяются MILES ^[19] и РАЗУМ. ^[20] MILES представляет сумку по ее сходству с экземплярами в обучающем наборе, а MInD представляет сумку по ее расстоянию до других сумок.
Модификацию k-ближайших соседей (kNN) также можно рассматривать как алгоритм на основе метаданных с геометрическими метаданными, хотя сопоставление между пакетами и функциями метаданных не является явным. Однако необходимо указать метрику, используемую для расчета расстояния между мешками. Ван и Цукер (2000) ^[21] предложите (максимальную и минимальную соответственно) метрику Хаусдорфа для сумок $A$ и $B$ :

H(A,B)=\max \left\{\max _{A}\min _{B}\|a-b\|,\max _{B}\min _{A}\|a-b\|\right\}

h_{1}(A,B)=\min _{A}\min _{B}\|a-b\|

Они определяют две разновидности kNN, байесовскую kNN и цитируемую kNN, как адаптацию традиционной задачи ближайшего соседа к ситуации с несколькими экземплярами.

Обобщения

До сих пор в этой статье множественное обучение рассматривалось исключительно в контексте бинарных классификаторов. Однако обобщения одноэкземплярных бинарных классификаторов могут быть перенесены на случай нескольких экземпляров.

Одним из таких обобщений является проблема нескольких экземпляров нескольких меток (MIML), где каждая сумка теперь может быть связана с любым подмножеством пространства меток. Формально, если ${\mathcal {X}}$ это пространство признаков и ${\mathcal {Y}}$ — это пространство меток, концепция MIML — это карта $c:\mathbb {N} ^{\mathcal {X}}\rightarrow 2^{\mathcal {Y}}$ . Чжоу и Чжан (2006) ^[22] предложить решение проблемы MIML путем сведения к проблеме с несколькими экземплярами или несколькими концепциями.
Еще одно очевидное обобщение — это множественная регрессия. Здесь каждая сумка связана с одним действительным числом, как и в стандартной регрессии. Как и стандартное предположение, регрессия MI предполагает, что в каждом пакете есть один экземпляр, называемый «простым экземпляром», который определяет метку пакета (с точностью до шума). Идеальная цель МИ-регрессии — найти гиперплоскость, которая минимизирует потерю квадратов простых экземпляров в каждом пакете, но при этом простые экземпляры скрыты. Фактически, Рэй и Пейдж (2001) ^[23] покажите, что найти наиболее подходящую гиперплоскость, которая соответствует одному экземпляру из каждого пакета, сложно, если в каждом пакете меньше трех экземпляров, и вместо этого разработайте алгоритм аппроксимации. Многие из алгоритмов, разработанных для классификации ИМ, также могут обеспечить хорошее приближение к проблеме регрессии МИ. ^[8]

См. также

Ссылки

^ Бабенко, Борис. «Множественное обучение: алгоритмы и приложения». Посмотреть статью PubMed/NCBI Google Scholar (2008).
^ Килер, Джеймс Д., Дэвид Э. Румельхарт и Ви-Кхенг Леоу. Интегрированная сегментация и распознавание цифр, напечатанных вручную. Корпорация микроэлектроники и компьютерных технологий, 1991.
^ Jump up to: ^а ^б ^с ^д ^и Дитерих, Томас Г., Ричард Х. Латроп и Томас Лосано-Перес. «Решение задачи множественных экземпляров с помощью прямоугольников, параллельных осям». Искусственный интеллект 89.1 (1997): 31-71.
^ Jump up to: ^а ^б К. Блейк, Э. Кио и Си Джей Мерц. Репозиторий UCI баз данных машинного обучения [1] , Департамент информации и компьютерных наук, Калифорнийский университет, Ирвин, Калифорния, 1998.
^ Ван, Вэй-Хонг; Ду, Ян-е; Ли, Цюй; Фан, Чжао-линь (2011). «Оценка кредита на основе программирования экспрессии генов и клональной селекции» . Процедия Инжиниринг . 15 : 3759–3763. дои : 10.1016/j.proeng.2011.08.704 .
^ О. Марон и А.Л. Ратан. Многократное обучение для классификации естественных сцен. В материалах 15-й Международной конференции по машинному обучению, Мэдисон, Висконсин, стр. 341–349, 1998.
^ Минхас, Ф.у. А. А; Бен-Гур, А (2012). «Многократное изучение сайтов связывания кальмодулина» . Биоинформатика . 28 (18): i416–i422. doi : 10.1093/биоинформатика/bts416 . ПМЦ 3436843 . ПМИД 22962461 .
^ Jump up to: ^а ^б ^с ^д ^и ^ж ^г ^час ^я ^дж ^к Фулдс, Джеймс и Эйбе Франк. «Обзор предположений многоэкземплярного обучения». Обзор инженерии знаний 25.01 (2010): 1-25.
^ Jump up to: ^а ^б ^с Марон, Одед и Томаш Лосано-Перес. «Структура для многоэкземплярного обучения». Достижения в области нейронных систем обработки информации (1998): 570-576.
^ Jump up to: ^а ^б ^с ^д ^и Сюй, X. Статистическое обучение в множественных задачах. Магистерская диссертация, Университет Вайкато (2003 г.).
^ Jump up to: ^а ^б Вайдманн, Нильс Б. «Двухуровневая классификация обобщенных данных из нескольких экземпляров». Дисс. Университет Альберта Людвига, 2003.
^ Jump up to: ^а ^б ^с ^д Скотт, Стивен, Цзюнь Чжан и Джошуа Браун. «Об обобщенном множественном обучении». Международный журнал вычислительной разведки и приложений 5.01 (2005): 21-35.
^ Чжан, Ци и Салли А. Голдман . «EM-DD: улучшенная техника многоэкземплярного обучения». Достижения в области нейронных систем обработки информации. (2001): 1073 – 80
^ Чен, Исинь и Джеймс З. Ван. «Категоризация изображений путем изучения и рассуждения о регионах». Журнал исследований машинного обучения 5 (2004): 913-939.
^ Эндрюс, Стюарт, Иоаннис Цочантаридис и Томас Хофманн. «Поддержка векторных машин для многоэкземплярного обучения». Достижения в области нейронных систем обработки информации (2003). стр. 561 - 658
^ Чжоу, Чжи-Хуа и Минь-Лин Чжан. «Нейронные сети для многоэкземплярного обучения». Материалы Международной конференции по интеллектуальным информационным технологиям, Пекин, Китай. (2002). стр. 455 - 459
^ Блокил, Хендрик, Дэвид Пейдж и Эшвин Шринивасан. «Многоэкземплярное древовидное обучение». Материалы 22-й международной конференции по машинному обучению. ACM, 2005. стр. 57–64.
^ Ауэр, Питер и Рональд Ортнер. «Улучшенный подход к множественному обучению». Машинное обучение: ECML 2004. Springer Berlin Heidelberg, 2004. 63–74.
^ Чен, Исинь; Би, Джинбо; Ван, JZ (1 декабря 2006 г.). «MILES: множественное обучение посредством выбора встроенного экземпляра». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 28 (12): 1931–1947. дои : 10.1109/TPAMI.2006.248 . ISSN 0162-8828 . ПМИД 17108368 . S2CID 18137821 .
^ Чеплыгина Вероника; Налог, Дэвид М.Дж.; Луг, Марко (01 января 2015 г.). «Множественное обучение с различиями в сумках». Распознавание образов . 48 (1): 264–275. arXiv : 1309.5643 . Бибкод : 2015PatRe..48..264C . дои : 10.1016/j.patcog.2014.07.022 . S2CID 17606924 .
^ Ван, Цзюнь и Жан-Даниэль Цукер. «Решение проблемы с несколькими экземплярами: ленивый подход к обучению». ИКМЛ (2000): 1119-25.
^ Чжоу, Чжи-Хуа и Минь-Лин Чжан. «Многоэкземплярное обучение по нескольким меткам с применением классификации сцен». Достижения в области нейронных систем обработки информации. 2006. стр. 1609 - 16.
^ Рэй, Сумья и Дэвид Пейдж. «Множественная регрессия». ИКМЛ. Том. 1. 2001. С. 425 – 32.

Дальнейшее чтение

Недавние обзоры литературы по МИГ включают:

Amores (2013) , в котором представлен обширный обзор и сравнительное исследование различных парадигм.
Foulds & Frank (2010) , в котором представлен тщательный обзор различных предположений, используемых различными парадигмами в литературе.
Дитерих, Томас Дж; Латроп, Ричард Х; Лосано-Перес, Томас (1997). «Решение задачи множественных экземпляров с прямоугольниками, параллельными осям». Искусственный интеллект . 89 (1–2): 31–71. дои : 10.1016/S0004-3702(96)00034-3 .
Эррера, Франциско; Вентура, Себастьян; Белло, Рафаэль; Корнелис, Крис; Сафра, Амелия; Санчес-Тарраго, Данель; Влюйманс, Сара (2016). Многократное обучение . дои : 10.1007/978-3-319-47759-6 . ISBN 978-3-319-47758-9 . S2CID 24047205 .
Аморес, Жауме (2013). «Множественная классификация: обзор, таксономия и сравнительное исследование» . Искусственный интеллект . 201 : 81–105. дои : 10.1016/j.artint.2013.06.003 .
Фулдс, Джеймс; Франк, Эйбе (2010). «Обзор предположений многоэкземплярного обучения». Обзор инженерии знаний . 25 : 1–25. CiteSeerX 10.1.1.148.2333 . дои : 10.1017/S026988890999035X . S2CID 8601873 .
Килер, Джеймс Д.; Румельхарт, Дэвид Э.; Леоу, Ви-Кенг (1990). «Комплексная сегментация и распознавание цифр, напечатанных вручную». Материалы конференции 1990 года по достижениям в области нейронных систем обработки информации (NIPS 3) . Издательство Морган Кауфманн. стр. 557–563. ISBN 978-1-55860-184-0 .
Ли, Хонг-Донг; Менон, Раджасри; Оменн, Гилберт С; Гуань, Юаньфан (2014). «Новая эра интеграции геномных данных для анализа функции изоформ сплайсинга» . Тенденции в генетике . 30 (8): 340–7. дои : 10.1016/j.tig.2014.05.005 . ПМЦ 4112133 . ПМИД 24951248 .
Экси, Ризван; Ли, Хонг-Донг; Менон, Раджасри; Вэнь, Юйчен; Оменн, Гилберт С; Крецлер, Матиас; Гуань, Юаньфан (2013). «Систематическое дифференцирование функций альтернативно сплайсированных изоформ посредством интеграции данных RNA-seq» . PLOS Вычислительная биология . 9 (11): e1003314. Бибкод : 2013PLSCB...9E3314E . дои : 10.1371/journal.pcbi.1003314 . ПМЦ 3820534 . ПМИД 24244129 .
Марон, О.; Ратан, Алабама (1998). «Многоэкземплярное обучение для классификации естественных сцен». Материалы пятнадцатой международной конференции по машинному обучению . Издательство Морган Кауфманн. стр. 341–349. ISBN 978-1-55860-556-5 .
Коциас, Димитриос; Денил, Миша; Де Фрейтас, Нандо; Смит, Падраик (2015). «От группы к индивидуальным меткам с использованием глубоких функций». Материалы 21-й Международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных - KDD '15 . стр. 597–606. дои : 10.1145/2783258.2783380 . ISBN 9781450336642 . S2CID 7729996 .
Рэй, Сумья; Пейдж, Дэвид (2001). Множественная регрессия (PDF) . ИКМЛ.
Бандйопадхьяй, Сангамитра; Гоша, Дип; Митра, Рамкришна; Чжао, Чжунмин (2015). «MBSTAR: множественное обучение для прогнозирования конкретных функциональных сайтов связывания в мишенях микроРНК» . Научные отчеты . 5 : 8004. Бибкод : 2015NatSR...5E8004B . дои : 10.1038/srep08004 . ПМЦ 4648438 . ПМИД 25614300 .
Чжу, Вэньтао; Лу, Ци; Ванг, Йеленг Скотт; Се, Сяохуэй (2017). «Глубокие сети с несколькими экземплярами с редким присвоением меток для классификации всей маммограммы». Вычисление медицинских изображений и компьютерное вмешательство — MICCAI 2017 . Конспекты лекций по информатике. Том. 10435. стр. 603–11. arXiv : 1612.05968 . дои : 10.1007/978-3-319-66179-7_69 . ISBN 978-3-319-66178-0 . S2CID 9623929 .

[Babenko-1] Бабенко, Борис. «Множественное обучение: алгоритмы и приложения». Посмотреть статью PubMed/NCBI Google Scholar (2008).

[Keeler-2] Килер, Джеймс Д., Дэвид Э. Румельхарт и Ви-Кхенг Леоу. Интегрированная сегментация и распознавание цифр, напечатанных вручную. Корпорация микроэлектроники и компьютерных технологий, 1991.

[Dietterich-3] Jump up to: ^а ^б ^с ^д ^и Дитерих, Томас Г., Ричард Х. Латроп и Томас Лосано-Перес. «Решение задачи множественных экземпляров с помощью прямоугольников, параллельных осям». Искусственный интеллект 89.1 (1997): 31-71.

[Musk-4] Jump up to: ^а ^б К. Блейк, Э. Кио и Си Джей Мерц. Репозиторий UCI баз данных машинного обучения [1] , Департамент информации и компьютерных наук, Калифорнийский университет, Ирвин, Калифорния, 1998.

[5] Ван, Вэй-Хонг; Ду, Ян-е; Ли, Цюй; Фан, Чжао-линь (2011). «Оценка кредита на основе программирования экспрессии генов и клональной селекции» . Процедия Инжиниринг . 15 : 3759–3763. дои : 10.1016/j.proeng.2011.08.704 .

[Maron-6] О. Марон и А.Л. Ратан. Многократное обучение для классификации естественных сцен. В материалах 15-й Международной конференции по машинному обучению, Мэдисон, Висконсин, стр. 341–349, 1998.

[pmid22962461-7] Минхас, Ф.у. А. А; Бен-Гур, А (2012). «Многократное изучение сайтов связывания кальмодулина» . Биоинформатика . 28 (18): i416–i422. doi : 10.1093/биоинформатика/bts416 . ПМЦ 3436843 . ПМИД 22962461 .

[Review-8] Jump up to: ^а ^б ^с ^д ^и ^ж ^г ^час ^я ^дж ^к Фулдс, Джеймс и Эйбе Франк. «Обзор предположений многоэкземплярного обучения». Обзор инженерии знаний 25.01 (2010): 1-25.

[Perez-9] Jump up to: ^а ^б ^с Марон, Одед и Томаш Лосано-Перес. «Структура для многоэкземплярного обучения». Достижения в области нейронных систем обработки информации (1998): 570-576.

[Xu-10] Jump up to: ^а ^б ^с ^д ^и Сюй, X. Статистическое обучение в множественных задачах. Магистерская диссертация, Университет Вайкато (2003 г.).

[Weidmann-11] Jump up to: ^а ^б Вайдманн, Нильс Б. «Двухуровневая классификация обобщенных данных из нескольких экземпляров». Дисс. Университет Альберта Людвига, 2003.

[GMIL-12] Jump up to: ^а ^б ^с ^д Скотт, Стивен, Цзюнь Чжан и Джошуа Браун. «Об обобщенном множественном обучении». Международный журнал вычислительной разведки и приложений 5.01 (2005): 21-35.

[13] Чжан, Ци и Салли А. Голдман . «EM-DD: улучшенная техника многоэкземплярного обучения». Достижения в области нейронных систем обработки информации. (2001): 1073 – 80

[14] Чен, Исинь и Джеймс З. Ван. «Категоризация изображений путем изучения и рассуждения о регионах». Журнал исследований машинного обучения 5 (2004): 913-939.

[15] Эндрюс, Стюарт, Иоаннис Цочантаридис и Томас Хофманн. «Поддержка векторных машин для многоэкземплярного обучения». Достижения в области нейронных систем обработки информации (2003). стр. 561 - 658

[16] Чжоу, Чжи-Хуа и Минь-Лин Чжан. «Нейронные сети для многоэкземплярного обучения». Материалы Международной конференции по интеллектуальным информационным технологиям, Пекин, Китай. (2002). стр. 455 - 459

[17] Блокил, Хендрик, Дэвид Пейдж и Эшвин Шринивасан. «Многоэкземплярное древовидное обучение». Материалы 22-й международной конференции по машинному обучению. ACM, 2005. стр. 57–64.

[18] Ауэр, Питер и Рональд Ортнер. «Улучшенный подход к множественному обучению». Машинное обучение: ECML 2004. Springer Berlin Heidelberg, 2004. 63–74.

[19] Чен, Исинь; Би, Джинбо; Ван, JZ (1 декабря 2006 г.). «MILES: множественное обучение посредством выбора встроенного экземпляра». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 28 (12): 1931–1947. дои : 10.1109/TPAMI.2006.248 . ISSN 0162-8828 . ПМИД 17108368 . S2CID 18137821 .

[20] Чеплыгина Вероника; Налог, Дэвид М.Дж.; Луг, Марко (01 января 2015 г.). «Множественное обучение с различиями в сумках». Распознавание образов . 48 (1): 264–275. arXiv : 1309.5643 . Бибкод : 2015PatRe..48..264C . дои : 10.1016/j.patcog.2014.07.022 . S2CID 17606924 .

[21] Ван, Цзюнь и Жан-Даниэль Цукер. «Решение проблемы с несколькими экземплярами: ленивый подход к обучению». ИКМЛ (2000): 1119-25.

[22] Чжоу, Чжи-Хуа и Минь-Лин Чжан. «Многоэкземплярное обучение по нескольким меткам с применением классификации сцен». Достижения в области нейронных систем обработки информации. 2006. стр. 1609 - 16.

[23] Рэй, Сумья и Дэвид Пейдж. «Множественная регрессия». ИКМЛ. Том. 1. 2001. С. 425 – 32.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]