Jump to content

Классификация по нескольким меткам

В машинном обучении классификация с несколькими метками или классификация с несколькими выходами — это вариант задачи классификации , где каждому экземпляру может быть присвоено несколько неэксклюзивных меток. Классификация по нескольким меткам — это обобщение многоклассовой классификации , которая представляет собой проблему с одной меткой, позволяющую отнести экземпляры к одному из нескольких (больше или равных двум) классов. В задаче с несколькими метками метки не являются исключительными, и нет ограничений на то, скольким классам может быть присвоен экземпляр.

Формально, классификация по нескольким меткам — это проблема поиска модели, которая отображает входные данные x в двоичные векторы y ; то есть он присваивает значение 0 или 1 каждому элементу (метке) в y .

Методы трансформации проблемы [ править ]

Для классификации по нескольким меткам существует несколько методов преобразования проблем, которые можно грубо разделить на:

в бинарную Проблемы классификацию преобразования

Базовый подход, называемый методом бинарной релевантности , [1] представляет собой независимое обучение одного двоичного классификатора для каждой метки. Учитывая невидимый образец, комбинированная модель затем прогнозирует все метки для этого образца, для которых соответствующие классификаторы прогнозируют положительный результат. Хотя этот метод разделения задачи на несколько бинарных задач может внешне напоминать методы многоклассовой классификации «один против всех» (OvA) и «один против остальных» (OvR) , он существенно отличается от обоих, поскольку единый классификатор при двоичной релевантности речь идет об одной метке, без какого-либо учета других меток. Цепочка классификаторов — это альтернативный метод преобразования задачи классификации по нескольким меткам в несколько задач двоичной классификации. Он отличается от двоичной релевантности тем, что метки прогнозируются последовательно, а выходные данные всех предыдущих классификаторов (т. е. положительные или отрицательные для конкретной метки) вводятся в качестве признаков для последующих классификаторов. [1] Цепочки классификаторов применялись, например, для ВИЧ . прогнозирования лекарственной устойчивости [2] [3] Байесовская сеть также применялась для оптимального порядка классификаторов в цепочках классификаторов . [4]

В случае преобразования задачи в несколько двоичных классификаций функция правдоподобия имеет вид где индекс пробегает образцы, индекс пробегает по этикеткам, указывает на двоичные результаты 0 или 1, указывает на дельту Кронекера , указывает на несколько меток образца с горячим кодированием .

в многоклассовой задачу классификации Преобразование

Преобразование набора меток (LP) создает один двоичный классификатор для каждой комбинации меток, присутствующей в обучающем наборе. Например, если возможными метками для примера были A, B и C, представление этой проблемы в степенном наборе меток представляет собой задачу многоклассовой классификации с классами [0 0 0], [1 0 0], [0 1 0 ], [0 0 1], [1 1 0], [1 0 1], [0 1 1] и [1 1 1], где, например, [1 0 1] обозначает пример, в котором присутствуют метки A и C. и метка B отсутствует. [5]

Ансамблевые методы [ править ]

Набор многоклассовых классификаторов можно использовать для создания ансамблевого классификатора с несколькими метками. В данном примере каждый классификатор выводит один класс (соответствующий одной метке в задаче с несколькими метками). Эти прогнозы затем объединяются с помощью ансамблевого метода, обычно схемы голосования, при которой каждый класс, получивший необходимый процент голосов от отдельных классификаторов (часто называемый порогом дискриминации), [6] ) прогнозируется как присутствующая метка в выходных данных с несколькими метками. Однако существуют более сложные ансамблевые методы, такие как комитетные машины . Другим вариантом является алгоритм случайных наборов k -меток (RAKEL), который использует несколько классификаторов LP, каждый из которых обучен на случайном подмножестве реальных меток; Затем прогнозирование метки выполняется с помощью схемы голосования. [7] Набор классификаторов с несколькими метками можно использовать аналогичным образом для создания классификатора ансамбля с несколькими метками. В этом случае каждый классификатор голосует один раз за каждую прогнозируемую метку, а не за одну метку.

Адаптированные алгоритмы [ править ]

Некоторые алгоритмы/модели классификации были адаптированы к задаче с несколькими метками без необходимости преобразования задачи. Примерами этого, в том числе для данных с несколькими метками, являются:

  • k-ближайшие соседи : алгоритм ML-kNN расширяет классификатор k-NN до данных с несколькими метками. [8]
  • деревья решений : «Клэр» — это адаптированный алгоритм C4.5 для классификации по нескольким меткам; модификация включает в себя расчеты энтропии. [9] MMC, MMDT и SSC, усовершенствованные MMDT, могут классифицировать данные с несколькими метками на основе многозначных атрибутов без преобразования атрибутов в однозначные. Их также называют многозначными и многопомеченными методами классификации дерева решений. [10] [11] [12]
  • методы ядра для векторного вывода
  • нейронные сети : BP-MLL — это адаптация популярного алгоритма обратного распространения ошибки для обучения по нескольким меткам. [13]

обучения Парадигмы

Основываясь на парадигмах обучения, существующие методы классификации по нескольким меткам можно разделить на пакетное обучение и онлайн-машинное обучение . Алгоритмы пакетного обучения требуют, чтобы все образцы данных были доступны заранее. Он обучает модель, используя все обучающие данные, а затем прогнозирует тестовую выборку, используя найденное соотношение. С другой стороны, алгоритмы онлайн-обучения постепенно строят свои модели в последовательных итерациях. На итерации t онлайн-алгоритм получает выборку x t и прогнозирует ее метку(и) ŷ t, используя текущую модель; затем алгоритм получает y t , истинную метку(и) x t и обновляет свою модель на основе пары выборка-метка: (x t , y t ).

Классификация потоков с несколькими метками [ править ]

Потоки данных , возможно, представляют собой бесконечные последовательности данных, которые непрерывно и быстро растут с течением времени. [14] Классификация потоков по нескольким меткам (MLSC) — это версия задачи классификации по нескольким меткам, которая выполняется в потоках данных. Иногда ее также называют онлайн-классификацией по нескольким меткам. Трудности классификации по нескольким меткам (экспоненциальное число возможных наборов меток, фиксация зависимостей между метками) сочетаются с трудностями потоков данных (ограничения времени и памяти, обращение к бесконечному потоку с конечными средствами, дрейф понятий ).

Многие методы MLSC прибегают к ансамблевым методам , чтобы повысить эффективность прогнозирования и справиться с отклонениями понятий. Ниже приведены наиболее широко используемые ансамблевые методы в литературе:

  • Интернет-упаковка (OzaBaging) [15] Методы на основе : Наблюдение за вероятностью наличия K многих определенных точек данных в начальной выборке приблизительно соответствует Пуассону (1) для больших наборов данных, каждый входящий экземпляр данных в потоке данных может быть взвешен, пропорциональный распределению Пуассона (1) для имитировать начальную загрузку в онлайн-режиме. Это называется онлайн-упаковкой (OzaBaging). В литературе предложено множество методов с несколькими метками, использующих онлайн-пакетирование, каждый из которых использует разные методы преобразования проблем. ЭБР, [1] И Т. Д, [1] прибыль на акцию, [16] Э Б РТ, [17] Э Б МТ, [17] ML-случайные правила [18] являются примерами таких методов.
  • ADWIN Бэггинг [19] Методы на основе: методы онлайн-упаковки для MLSC иногда сочетаются с явными механизмами обнаружения отклонения понятий, такими как ADWIN. [20] (Адаптивное окно). ADWIN поддерживает окно переменного размера для обнаружения изменений в распределении данных и улучшает ансамбль, сбрасывая компоненты, которые работают плохо при отклонении входящих данных. Обычно буква «а» используется в качестве нижнего индекса в названии таких ансамблей, чтобы указать на использование детектора изменений ADWIN. Е и БР, [19] Е и СС, [19] E HT и PS [19] являются примерами таких ансамблей с несколькими метками.
  • ГОУВЕ-МЛ [21] -методы : интерпретация оценок релевантности каждого компонента ансамбля как векторов в пространстве меток и решение задачи наименьших квадратов в конце каждого пакета, геометрически-оптимальный онлайн-взвешенный ансамбль для классификации по нескольким меткам (GOOWE-ML). предлагается. Ансамбль пытается минимизировать расстояние между взвешенным прогнозом его компонентов и основным вектором истинности для каждого экземпляра в пакете. В отличие от онлайн-пакетирования и ADWIN-пакетирования, GOOWE-ML использует схему взвешенного голосования, где более эффективным компонентам ансамбля придается больший вес. Ансамбль GOOWE-ML со временем расширяется, и компонент с наименьшим весом заменяется новым компонентом, когда он заполняется в конце партии. ГОБР, [21] ГОКК, [21] ГОПС, [21] ГОРТ [21] — это предлагаемые ансамбли мультиметок на основе GOOWE-ML.
  • Несколько окон [22] : Здесь модели BR, в которых используется скользящее окно, заменяются двумя окнами для каждой метки: одно для релевантных и одно для нерелевантных примеров. Экземпляры подвергаются избыточной или недостаточной выборке в соответствии с коэффициентом загрузки, который сохраняется между этими двумя окнами. Это позволяет обнаруживать отклонения понятий, независимые для каждой метки, и обрабатывать классовый дисбаланс (асимметрию в соответствующих и нерелевантных примерах).

Статистика и показатели оценки [ править ]

Учитывая быть набором ярлыков для выборка данных (не путайте ее с горячим вектором; это просто совокупность всех меток, принадлежащих этой выборке), степень, в которой набор данных является многометочным, может быть зафиксирована с помощью двух статистических данных:

  • Кардинальность меток — это среднее количество меток на один пример в наборе: где общее количество выборок данных;
  • Плотность этикеток — это количество этикеток на образец, разделенное на общее количество этикеток, усредненное по образцам: где , общее количество доступных классов (максимальное количество элементов, которые могут составлять ).

Метрики оценки эффективности классификации по нескольким меткам по своей сути отличаются от тех, которые используются в многоклассовой (или бинарной) классификации из-за присущих самой задаче классификации различий. Если T обозначает истинный набор меток для данной выборки, а P — прогнозируемый набор меток, то для этой выборки можно определить следующие показатели:

  • Потери Хэмминга : доля неправильных меток к общему количеству меток, т.е. , где является целью, это предсказание, и — это оператор «Исключающий или» , который возвращает ноль, если цель и прогноз идентичны, и один в противном случае. Это функция потерь , поэтому оптимальное значение равно нулю, а его верхняя граница равна единице.
  • Тесно связанный индекс Жаккара , также называемый пересечением через объединение в настройке нескольких меток, определяется как количество правильно предсказанных меток, разделенное на объединение предсказанных и истинных меток. , где и представляют собой наборы предсказанных меток и истинных меток соответственно.
  • Точность, отзыв и оценка : точность есть , напомнить , и является их гармоническим средним значением . [23]
  • Точное соответствие (также называемое точностью подмножества): это наиболее строгий показатель, указывающий процент образцов, все метки которых классифицированы правильно.

Перекрестная проверка в настройках с несколькими метками осложняется тем, что обычный (двоичный/многоклассовый) способ стратифицированной выборки не работает; были предложены альтернативные способы приблизительной стратифицированной выборки. [24]

Реализации и наборы данных [ править ]

Java-реализации многометочных алгоритмов доступны в пакетах программного обеспечения Mulan и Meka , оба основаны на Weka .

Пакет Python scikit -learn реализует некоторые алгоритмы и метрики с несколькими метками .

Пакет Python scikit-multilearn специально предназначен для классификации по нескольким меткам. Он обеспечивает реализацию нескольких известных методов, включая SVM, kNN и многие другие, с несколькими метками . Пакет построен на основе экосистемы scikit-learn .

Метод бинарной релевантности, цепочки классификаторов и другие многометочные алгоритмы с множеством различных базовых обучающихся реализованы в R-пакете mlr. [25]

Список часто используемых наборов данных с несколькими метками доступен на веб-сайте Мулан .

См. также [ править ]

Ссылки [ править ]

  1. ^ Jump up to: Перейти обратно: а б с д Джесси Рид, Бернхард Пфарингер, Джефф Холмс, Эйбе Франк. Цепочки классификаторов для классификации по нескольким меткам . Журнал машинного обучения. Спрингер. Том. 85(3), (2011).
  2. ^ Хайдер, Д; Сенге, Р; Ченг, В; Хюллермайер, Э (2013). «Множественная классификация для использования информации о перекрестной резистентности при прогнозировании лекарственной устойчивости ВИЧ-1» . Биоинформатика . 29 (16): 1946–52. doi : 10.1093/биоинформатика/btt331 . ПМИД   23793752 .
  3. ^ Рименшнейдер, М; Сенге, Р; Нойманн, Ю; Хюллермайер, Э; Хайдер, Д. (2016). «Использование информации о перекрестной резистентности протеазы ВИЧ-1 и обратной транскриптазы для улучшения прогнозирования лекарственной устойчивости посредством классификации по нескольким меткам» . Добыча биоданных . 9:10 . дои : 10.1186/s13040-016-0089-1 . ПМЦ   4772363 . ПМИД   26933450 .
  4. ^ Суфан, Осман; Ба-Алави, Вайль; Афиф, Моатаз; Эссак, Магбуба; Калнис, Панос; Баич, Владимир Б. (10 ноября 2016 г.). «ДРАБАЛ: новый метод проведения крупных высокопроизводительных скрининговых анализов с использованием байесовского активного обучения» . Журнал хеминформатики . 8:64 . дои : 10.1186/s13321-016-0177-8 . ISSN   1758-2946 . ПМК   5105261 . ПМИД   27895719 .
  5. ^ Сполаор, Ньютон; Черман, Эвертон Альварес; Монар, Мария Каролина; Ли, Хуэй Диана (март 2013 г.). «Сравнение методов выбора признаков по нескольким меткам с использованием подхода преобразования проблемы» . Электронные заметки по теоретической информатике . 292 : 135–151. дои : 10.1016/j.entcs.2013.02.010 . ISSN   1571-0661 .
  6. ^ «Порог дискриминации — документация желтого кирпича 0.9» . www.scikit-yb.org . Проверено 29 ноября 2018 г.
  7. ^ Цумакас, Григориос; Влахавас, Иоаннис (2007). Случайные наборы k -меток: ансамблевый метод классификации по нескольким меткам (PDF) . ЭКМЛ. Архивировано из оригинала (PDF) 29 июля 2014 г. Проверено 26 июля 2014 г.
  8. ^ Чжан, МЛ; Чжоу, ZH (2007). «ML-KNN: ленивый подход к обучению с несколькими метками». Распознавание образов . 40 (7): 2038–2048. Бибкод : 2007PatRe..40.2038Z . CiteSeerX   10.1.1.538.9597 . дои : 10.1016/j.patcog.2006.12.019 . S2CID   14886376 .
  9. ^ Маджаров, Георгий; Кочев, Драги; Джорджевик, Деян; Джероски, Сашо (2012). «Обширное экспериментальное сравнение методов обучения по нескольким меткам». Распознавание образов . 45 (9): 3084–3104. Бибкод : 2012PatRe..45.3084M . дои : 10.1016/j.patcog.2012.03.004 . S2CID   14064264 .
  10. ^ Чен, Йен-Лян; Сюй, Чан-Лин; Чжоу, Ши-цзе (2003). «Построение многозначного и многомаркированного дерева решений». Экспертные системы с приложениями . 25 (2): 199–209. дои : 10.1016/S0957-4174(03)00047-2 .
  11. ^ Чжоу, Шихье; Сюй, Чан-Лин (1 мая 2005 г.). «MMDT: многозначный и многопомеченный классификатор дерева решений для интеллектуального анализа данных». Экспертные системы с приложениями . 28 (4): 799–812. дои : 10.1016/j.eswa.2004.12.035 .
  12. ^ Ли, Хун; Го, Юэ-цзянь; Ву, Мин; Ли, Пин; Сян, Яо (01 декабря 2010 г.). «Объедините декомпозицию многозначных атрибутов с обучением по нескольким меткам». Экспертные системы с приложениями . 37 (12): 8721–8728. дои : 10.1016/j.eswa.2010.06.044 .
  13. ^ Чжан, МЛ; Чжоу, ZH (2006). Нейронные сети с несколькими метками с приложениями к функциональной геномике и категоризации текста (PDF) . Транзакции IEEE по знаниям и инженерии данных. Том. 18. С. 1338–1351.
  14. ^ Аггарвал, Чару К., изд. (2007). Потоки данных . Достижения в области систем баз данных. Том. 31. дои : 10.1007/978-0-387-47534-9 . ISBN  978-0-387-28759-1 .
  15. ^ Оза, Никундж (2005). «Онлайн-бэггинг и буст». Международная конференция IEEE «Системы, человек и кибернетика» . hdl : 2060/20050239012 .
  16. ^ Читай, Джесси; Пфарингер, Бернхард; Холмс, Джефф (15 декабря 2008 г.). «Классификация по нескольким меткам с использованием ансамблей сокращенных наборов». 2008 г. Восьмая международная конференция IEEE по интеллектуальному анализу данных . Компьютерное общество IEEE. стр. 995–1000. дои : 10.1109/ICDM.2008.74 . hdl : 10289/8077 . ISBN  9780769535029 . S2CID   16059274 .
  17. ^ Jump up to: Перейти обратно: а б Осойник, Алязь; Панов, Панэ; ДзЭроски, Сашо (01.06.2017). «Множественная классификация с помощью многоцелевой регрессии в потоках данных» . Машинное обучение . 106 (6): 745–770. дои : 10.1007/s10994-016-5613-5 . ISSN   0885-6125 .
  18. ^ Соуза, Рикардо; Гама, Жуан (24 января 2018 г.). «Мультиметочная классификация из высокоскоростных потоков данных с правилами адаптивной модели и случайными правилами». Прогресс в области искусственного интеллекта . 7 (3): 177–187. дои : 10.1007/s13748-018-0142-z . ISSN   2192-6352 . S2CID   32376722 .
  19. ^ Jump up to: Перейти обратно: а б с д Читай, Джесси; Бифет, Альберт; Холмс, Джефф; Пфарингер, Бернхард (21 февраля 2012 г.). «Масштабируемая и эффективная классификация по нескольким меткам для развивающихся потоков данных» . Машинное обучение . 88 (1–2): 243–272. дои : 10.1007/s10994-012-5279-6 . ISSN   0885-6125 .
  20. ^ Бифет, Альберт; Гавальда, Рикар (26 апреля 2007 г.), «Изучение изменяющихся во времени данных с помощью адаптивных окон», Труды Международной конференции SIAM 2007 г. по интеллектуальному анализу данных , Общество промышленной и прикладной математики, стр. 443–448, CiteSeerX   10.1. 1.215.8387 , doi : 10.1137/1.9781611972771.42 , ISBN  9780898716306 , S2CID   2279539
  21. ^ Jump up to: Перейти обратно: а б с д и Бююкчакир, Аликан; Бонаб, Хамед; Джан, Фазли (17 октября 2018 г.). «Новый онлайн-сложный ансамбль для классификации потоков по нескольким меткам». Материалы 27-й Международной конференции ACM по управлению информацией и знаниями . АКМ. стр. 1063–1072. arXiv : 1809.09994 . дои : 10.1145/3269206.3271774 . ISBN  9781450360142 . S2CID   52843253 .
  22. ^ Ксиуфис, Элефтериос Спиромитрос; Спилиопулу, Майра; Цумакас, Григориос; Влахавас, Иоаннис (16 июля 2011 г.). Борьба с дрейфом понятий и дисбалансом классов в классификации потоков с несколькими метками . АААИ Пресс. стр. 1583–1588. дои : 10.5591/978-1-57735-516-8/IJCAI11-266 . ISBN  9781577355144 .
  23. ^ Годболе, Шантану; Сараваги, Сунита (2004). Дискриминационные методы многомаркированной классификации (PDF) . Достижения в области обнаружения знаний и интеллектуального анализа данных. стр. 22–30.
  24. ^ Сечидис, Константинос; Цумакас, Григориос; Влахавас, Иоаннис (2011). О стратификации мультиметочных данных (PDF) . ЭКМЛ ПКДД . стр. 145–158.
  25. ^ Филипп Пробст, Куэй Ау, Джузеппе Казаликкио, Клеменс Стачль, Бернд Бишль. Классификация по нескольким меткам с пакетом R mlr . The R Journal (2017) 9:1, страницы 352–369.

Дальнейшее чтение [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 6c5cb3c6cecb4802808cd9a84a4d014c__1707048180
URL1:https://arc.ask3.ru/arc/aa/6c/4c/6c5cb3c6cecb4802808cd9a84a4d014c.html
Заголовок, (Title) документа по адресу, URL1:
Multi-label classification - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)