Jump to content

Обучение по сходству

Обучение по подобию — это область контролируемого машинного обучения в области искусственного интеллекта . Он тесно связан с регрессией и классификацией , но цель состоит в том, чтобы изучить функцию сходства , которая измеряет, насколько похожи или связаны два объекта. Он имеет приложения для ранжирования , в системах рекомендаций , визуального отслеживания личности, проверки лица и проверки говорящего.

Настройка обучения [ править ]

Существует четыре распространенных схемы дистанционного обучения по сходству и метрике.

регрессии Обучение сходству
В этой настройке заданы пары объектов. вместе с мерой их сходства . Цель состоит в том, чтобы изучить функцию, которая приближает для каждого нового помеченного примера триплета . Обычно это достигается за счет минимизации регуляризованных потерь. .
классификации Обучение сходству
Даны пары подобных предметов. и непохожие объекты . Эквивалентная формулировка состоит в том, что каждая пара дается вместе с двоичной меткой который определяет, похожи ли два объекта или нет. Цель снова состоит в том, чтобы изучить классификатор, который может решить, похожа ли новая пара объектов или нет.
Ранжирование обучения по сходству
Даны тройки предметов относительное сходство которых подчиняется заранее определенному порядку: известно, что он больше похож на чем . Цель — изучить функцию такая, что для любой новой тройки объектов , оно подчиняется ( контрастное обучение ). Эта схема предполагает более слабую форму контроля, чем при регрессии, поскольку вместо точного измерения сходства необходимо указать только относительный порядок сходства. По этой причине обучение по сходству на основе ранжирования легче применять в реальных крупномасштабных приложениях. [1]
Хеширование с учетом локальности (LSH) [2]
Хэширует входные элементы так, что похожие элементы с высокой вероятностью сопоставляются с одними и теми же «корзинами» в памяти (количество сегментов намного меньше, чем совокупность возможных входных элементов). Он часто применяется при поиске ближайших соседей для крупномасштабных многомерных данных, например, баз данных изображений, коллекций документов, баз данных временных рядов и баз данных геномов. [3]

Распространенный подход к изучению сходства заключается в моделировании функции сходства в виде билинейной формы . Например, в случае ранжирования обучения по сходству целью является изучение матрицы W, которая параметризует функцию сходства. . Когда данных много, распространенным подходом является изучение сиамской сети — модели глубокой сети с общим доступом к параметрам.

Обучение метрикам [ править ]

Обучение по подобию тесно связано с дистанционным метрическим обучением . Метрическое обучение — это задача изучения функции расстояния над объектами. Метрическая ( или дистанционная функция должна подчиняться четырем аксиомам: неотрицательности , тождественности неразличимых величин , симметрии и субаддитивности или неравенству треугольника). На практике алгоритмы обучения метрике игнорируют условие идентичности неразличимых величин и изучают псевдометрику.

Когда объекты являются векторами в , то любая матрица в симметричном положительном полуопределенном конусе определяет дистанционную псевдометрику пространства x через форму . Когда представляет собой симметричную положительно определенную матрицу, является метрикой. Более того, поскольку любая симметричная положительная полуопределенная матрица можно разложить как где и , функция расстояния можно переписать эквивалентно . Расстояние соответствует евклидову расстоянию между преобразованными векторами признаков и .

Было предложено множество формулировок для метрического обучения. [4] [5] Некоторые известные подходы к изучению показателей включают обучение на основе относительных сравнений, [6] который основан на тройной потере , большом запасе ближайшего соседа , [7] и теоретико-информационное метрическое обучение (ITML). [8]

В статистике ковариационная расстоянием матрица данных иногда используется для определения метрики расстояния, называемой Махаланобиса .

Приложения [ править ]

Обучение по сходству используется при поиске информации для обучения ранжированию , при проверке лица или идентификации лица, [9] [10] и в рекомендательных системах . Кроме того, многие подходы к машинному обучению полагаются на некоторые метрики. Сюда входит обучение без учителя , такое как кластеризация , при которой группируются близкие или похожие объекты. Он также включает в себя контролируемые подходы, такие как алгоритм K-ближайшего соседа , который опирается на метки близлежащих объектов для принятия решения о метке нового объекта. Обучение метрике было предложено в качестве этапа предварительной обработки для многих из этих подходов. [11]

Масштабируемость [ править ]

Обучение метрике и подобию наивно масштабируется квадратично в зависимости от размера входного пространства, что легко увидеть, когда изученная метрика имеет билинейную форму. . Масштабирование до более высоких измерений может быть достигнуто путем применения структуры разреженности к матричной модели, как это сделано в HDSL. [12] и с КОМЕТОЙ. [13]

Программное обеспечение [ править ]

  • метрическое обучение [14] — это бесплатная программная библиотека Python, которая предлагает эффективные реализации нескольких контролируемых и слабоконтролируемых алгоритмов обучения сходству и метрике. API metric-learn совместим с scikit-learn . [15]
  • OpenMetricLearning [16] — это среда Python для обучения и проверки моделей, обеспечивающих высококачественное внедрение.

Дополнительная информация [ править ]

Для получения дополнительной информации по этой теме см. обзоры по метрическому и подобному обучению, проведенные Bellet et al. [4] и Кулис. [5]

См. также [ править ]

Ссылки [ править ]

  1. ^ Чечик, Г.; Шарма, В.; Шалит, У.; Бенджио, С. (2010). «Масштабное онлайн-обучение сходству изображений посредством ранжирования» (PDF) . Журнал исследований машинного обучения . 11 : 1109–1135.
  2. ^ Гионис, Аристид, Петр Индик и Раджив Мотвани. «Поиск сходства в больших измерениях посредством хеширования». ВЛДБ. Том. 99. № 6. 1999.
  3. ^ Раджараман, А.; Ульман, Дж. (2010). «Анализ больших наборов данных, глава 3» .
  4. ^ Jump up to: Перейти обратно: а б Беллет, А.; Хабрард, А.; Себбан, М. (2013). «Опрос по метрическому обучению векторов признаков и структурированных данных». arXiv : 1306.6709 [ cs.LG ].
  5. ^ Jump up to: Перейти обратно: а б Кулис, Б. (2012). «Метричное обучение: опрос» . Основы и тенденции в машинном обучении . 5 (4): 287–364. дои : 10.1561/2200000019 .
  6. ^ Шульц, М.; Иоахимс, Т. (2004). «Изучение метрики расстояния на основе относительных сравнений» (PDF) . Достижения в области нейронных систем обработки информации . 16 : 41–48.
  7. ^ Вайнбергер, КК; Блитцер, Джей Си; Саул, ЛК (2006). «Дистанционное метрическое обучение для классификации ближайших соседей с большим запасом» (PDF) . Достижения в области нейронных систем обработки информации . 18 : 1473–1480.
  8. ^ Дэвис, СП; Кулис, Б.; Джайн, П.; Сра, С.; Диллон, Исландия (2007). «Информационно-метрическое обучение» . Международная конференция по машинному обучению (ICML) : 209–216.
  9. ^ Гийомен, М.; Вербек, Дж.; Шмид, К. (2009). «Это вы? Подходы к метрическому обучению для идентификации лиц» (PDF) . Международная конференция IEEE по компьютерному зрению (ICCV) .
  10. ^ Миньон, А.; Джури, Ф. (2012). «PCCA: новый подход к дистанционному обучению на основе разреженных парных ограничений» (PDF) . Конференция IEEE по компьютерному зрению и распознаванию образов .
  11. ^ Син, EP; Нг, АЙ; Джордан, Мичиган; Рассел, С. (2002). «Дистанционное метрическое обучение с применением к кластеризации с дополнительной информацией» (PDF) . Достижения в области нейронных систем обработки информации . 15 : 505–512.
  12. ^ Лю; Беллет; Ша (2015). «Обучение по подобию для многомерных разреженных данных» (PDF) . Международная конференция по искусственному интеллекту и статистике (AISTATS) . arXiv : 1411.2374 . Бибкод : 2014arXiv1411.2374L .
  13. ^ Ацмон; Шалит; Чечик (2015). «Изучение разреженных метрик, по одной функции за раз» (PDF) . Дж. Мах. Учиться. Исследования (JMLR) .
  14. ^ «Scikit-learn-contrib/Metric-learn» . Гитхаб .
  15. ^ Вазельес; Кэри; Тан; Вокье; Беллет (2020). «metric-learn: алгоритмы обучения метрикам в Python» (PDF) . Дж. Мах. Учиться. Исследования (JMLR) . arXiv : 1908.04710 .
  16. ^ «Команда OML/Открытое метрическое обучение» . Гитхаб .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 67b9445dc8f75096e46ce5ef3f911405__1715614140
URL1:https://arc.ask3.ru/arc/aa/67/05/67b9445dc8f75096e46ce5ef3f911405.html
Заголовок, (Title) документа по адресу, URL1:
Similarity learning - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)