Jump to content

Редкое изучение словаря

Разреженное словарное обучение (также известное как разреженное кодирование или SDL ) — это метод обучения представлению , целью которого является поиск разреженного представления входных данных в форме линейной комбинации базовых элементов, а также самих этих базовых элементов. Эти элементы называются атомами и составляют словарь . Атомы в словаре не обязательно должны быть ортогональными , и они могут представлять собой слишком полный охватывающий набор. Эта постановка задачи также позволяет сделать размерность представляемых сигналов выше, чем размерность наблюдаемых сигналов. Два вышеупомянутых свойства приводят к появлению, казалось бы, избыточных атомов, которые позволяют многократно представлять один и тот же сигнал, но также обеспечивают улучшение разреженности и гибкости представления.

Одно из наиболее важных применений обучения разреженным словарям находится в области измерения сжатых данных или восстановления сигналов . При сжатом измерении сигнал большой размерности можно восстановить с помощью всего лишь нескольких линейных измерений при условии, что сигнал разреженный или почти разреженный. Поскольку не все сигналы удовлетворяют этому условию разреженности, очень важно найти разреженное представление этого сигнала, такое как вейвлет-преобразование или направленный градиент растеризованной матрицы. Как только матрица или многомерный вектор передаются в разреженное пространство, различные алгоритмы восстановления, такие как поиск по базису , CoSaMP [1] или быстрые неитеративные алгоритмы [2] может быть использован для восстановления сигнала.

Один из ключевых принципов изучения словаря заключается в том, что словарь должен быть выведен из входных данных. Появление методов обучения с использованием разреженных словарей было стимулировано тем фактом, что при обработке сигналов обычно хочется представить входные данные с использованием как можно меньшего количества компонентов. До этого подхода общей практикой было использование предопределенных словарей (таких как Фурье или вейвлет- преобразования). Однако в некоторых случаях словарь, обученный для соответствия входным данным, может значительно улучшить разреженность, что находит применение при разложении, сжатии и анализе данных и используется в областях шумоподавления и классификации изображений , обработки видео и звука . Разреженные и переполненные словари имеют огромное применение в сжатии изображений, слиянии изображений и рисовании.

Удаление шума изображения с помощью обучения по словарю

Постановка задачи [ править ]

Учитывая входной набор данных мы хотим найти словарь и представительство такой, что оба минимизируется и представления достаточно редки. Эту задачу можно сформулировать в виде следующей задачи оптимизации :

, где ,

требуется, чтобы ограничить так, чтобы его атомы не достигали сколь угодно высоких значений, допуская сколь угодно низкие (но ненулевые) значения . контролирует компромисс между разреженностью и ошибкой минимизации.

Приведенная выше задача минимизации не является выпуклой из-за 0 - «нормы» , и решение этой проблемы NP-трудно. [3] В некоторых случаях Л 1 -норма, как известно, обеспечивает разреженность [4] и поэтому вышеизложенное становится задачей выпуклой оптимизации относительно каждой из переменных и когда другой неподвижен, но не является совместно выпуклым в .

Свойства словаря [ править ]

Словарь определенное выше, может быть «неполным», если или «переполнено» в случае причем последнее является типичным предположением для проблемы изучения редкого словаря. Случай полного словаря не дает никаких улучшений с репрезентативной точки зрения и поэтому не рассматривается.

Неполные словари представляют собой структуру, в которой фактические входные данные находятся в пространстве более низкой размерности. Этот случай тесно связан с уменьшением размерности и такими методами, как анализ главных компонентов , которые требуют атомов. быть ортогональным. Выбор этих подпространств имеет решающее значение для эффективного уменьшения размерности, но это не тривиальная задача. А снижение размерности на основе словарного представления можно расширить для решения конкретных задач, таких как анализ или классификация данных. Однако их основным недостатком является ограничение выбора атомов.

Однако сверхполные словари не требуют, чтобы атомы были ортогональными (у них все равно никогда не будет базиса ), что позволяет создавать более гибкие словари и более богатые представления данных.

Сверхполный словарь, допускающий разреженное представление сигнала, может представлять собой известную матрицу преобразования (вейвлет-преобразование, преобразование Фурье) или может быть сформулирован так, что его элементы изменяются таким образом, чтобы он наилучшим образом представлял данный сигнал. Обученные словари способны давать более разреженные решения по сравнению с предопределенными матрицами преобразования.

Алгоритмы [ править ]

Поскольку описанная выше задача оптимизации может быть решена как выпуклая задача относительно словарного или разреженного кодирования, в то время как другая из двух задач фиксирована, большинство алгоритмов основаны на идее итеративного обновления одного, а затем другого.

Проблема поиска оптимального разреженного кодирования с заданным словарем известна как разреженная аппроксимация (или иногда просто проблема разреженного кодирования). Для ее решения был разработан ряд алгоритмов (таких как поиск соответствия и LASSO ), которые включены в алгоритмы, описанные ниже.

Метод оптимальных направлений (МОД) [ править ]

Метод оптимальных направлений (или MOD) был одним из первых методов, предложенных для решения проблемы изучения разреженного словаря. [5] Основная идея состоит в том, чтобы решить задачу минимизации с учетом ограниченного числа ненулевых компонентов вектора представления:

Здесь, обозначает норму Фробениуса . MOD попеременно получает разреженное кодирование с использованием такого метода, как поиск соответствия , и обновление словаря путем вычисления аналитического решения проблемы, заданной формулой где является псевдообратной функцией Мура-Пенроуза . После этого обновления перенормируется, чтобы соответствовать ограничениям, и новое разреженное кодирование получается снова. Процесс повторяется до сходимости (или до достаточно малого остатка).

MOD оказался очень эффективным методом для входных данных малой размерности. для сходимости требуется всего несколько итераций. Однако из-за высокой сложности операции обращения матрицы вычисление псевдообратной задачи в многомерных случаях во многих случаях является затруднительным. Этот недостаток вдохновил на разработку других методов изучения словарей.

К-СВД [ править ]

K-SVD — это алгоритм, который по своей сути выполняет SVD для обновления атомов словаря один за другим и по сути является обобщением K-средних . Он обеспечивает, чтобы каждый элемент входных данных кодируется линейной комбинацией не более элементы способом, идентичным подходу MOD:

Суть этого алгоритма заключается в том, чтобы сначала исправить словарь, найти наилучшее из возможных. в соответствии с вышеуказанным ограничением (с использованием Orthogonal Matching Pursuit ), а затем итеративно обновлять атомы словаря следующим образом:

Следующие шаги алгоритма включают ранга 1. аппроксимацию остаточной матрицы , обновление и обеспечение редкости после обновления. Этот алгоритм считается стандартным для изучения словарей и используется во множестве приложений. Однако у него есть общие недостатки: MOD эффективен только для сигналов с относительно низкой размерностью и имеет возможность застревания в локальных минимумах.

спуск Стохастический градиентный

Для решения этой проблемы можно также применить широко распространенный метод стохастического градиентного спуска с итеративным проецированием. [6] Идея этого метода состоит в том, чтобы обновить словарь, используя стохастический градиент первого порядка, и проецировать его на набор ограничений. . Шаг, который происходит на i-й итерации, описывается следующим выражением:

, где представляет собой случайное подмножество и является градиентным шагом.

Двойной метод Лагранжа [ править ]

Алгоритм, основанный на решении двойственной задачи Лагранжа, обеспечивает эффективный способ решения словаря без осложнений, вызванных функцией разреженности. [7] Рассмотрим следующий лагранжиан:

, где является ограничением на норму атомов и – это так называемые двойственные переменные, образующие диагональную матрицу .

Затем мы можем предоставить аналитическое выражение для двойственного Лагранжа после минимизации по :

.

После применения одного из методов оптимизации к значению двойственного (например, метода Ньютона или сопряженного градиента ) мы получаем значение :

Решение этой проблемы менее вычислительно сложно, поскольку количество двойственных переменных во много раз намного меньше количества переменных в основной задаче.

ЛАССО [ править ]

В этом подходе задача оптимизации формулируется как:

, где – допустимая ошибка при реконструкции LASSO.

Он находит оценку минимизируя ошибку наименьших квадратов при условии L 1 -ограничение нормы в векторе решения, сформулированное как:

, где контролирует компромисс между разреженностью и ошибкой реконструкции. Это дает глобальное оптимальное решение. [8] См. также Онлайн-словарь для изучения разреженного кодирования.

Параметрические методы обучения [ править ]

Методы параметрического обучения призваны объединить лучшее из обоих миров — области аналитически построенных словарей и изученных словарей. [9] Это позволяет создавать более мощные обобщенные словари, которые потенциально можно применять к случаям сигналов произвольного размера. Известные подходы включают:

  • Трансляционно-инвариантные словари. [10] Эти словари состоят из переводов атомов, происходящих из словаря, созданного для участка сигнала конечного размера. Это позволяет результирующему словарю обеспечить представление сигнала произвольного размера.
  • Многомасштабные словари. [11] Этот метод фокусируется на создании словаря, состоящего из словарей разного масштаба, для улучшения разреженности.
  • Редкие словари. [12] Этот метод фокусируется не только на предоставлении разреженного представления, но и на создании разреженного словаря, который обеспечивается выражением где — это некий заранее определенный аналитический словарь с желаемыми свойствами, такими как быстрое вычисление и является разреженной матрицей. Такая формулировка позволяет напрямую сочетать быструю реализацию аналитических словарей с гибкостью разреженных подходов.

Онлайн-обучение словарям ( подход LASSO ) [ править ]

Многие распространенные подходы к изучению разреженных словарей основаны на том факте, что все входные данные (или, по крайней мере, достаточно большой набор обучающих данных) доступен для алгоритма. Однако в реальном сценарии это может быть не так, поскольку размер входных данных может быть слишком большим, чтобы поместить их в память. Другой случай, когда это предположение невозможно сделать, — это когда входные данные поступают в виде потока . Такие случаи относятся к области изучения онлайн-обучения, которое, по сути, предполагает итеративное обновление модели на основе новых точек данных. становятся доступными.

Словарь можно выучить онлайн следующим образом: [13]

  1. Для
  2. Нарисуйте новый образец
  3. Найдите разреженное кодирование с помощью LARS :
  4. Обновить словарь, используя блочно-координатный подход:

Этот метод позволяет нам постепенно обновлять словарь по мере того, как новые данные становятся доступными для обучения разреженным представлениям, и помогает радикально сократить объем памяти, необходимой для хранения набора данных (который часто имеет огромный размер).

Приложения [ править ]

Структура обучения по словарю, а именно линейное разложение входного сигнала с использованием нескольких базовых элементов, извлеченных из самих данных, привела к современным результатам в различных задачах обработки изображений и видео. Этот метод можно применить к задачам классификации таким образом, что, если мы создали отдельные словари для каждого класса, входной сигнал можно классифицировать, найдя словарь, соответствующий самому разреженному представлению.

Он также обладает свойствами, которые полезны для шумоподавления сигнала, поскольку обычно можно изучить словарь для представления значимой части входного сигнала разреженным способом, но шум на входе будет иметь гораздо менее разреженное представление. [14]

Обучение разреженным словарям успешно применяется для различных задач обработки изображений, видео и аудио, а также для синтеза текстур. [15] и неконтролируемая кластеризация. [16] В оценках с использованием «Мешок слов» модели [17] [18] Эмпирически было обнаружено, что разреженное кодирование превосходит другие подходы к кодированию в задачах распознавания категорий объектов.

Обучение словарю используется для детального анализа медицинских сигналов. К таким медицинским сигналам относятся сигналы электроэнцефалографии (ЭЭГ), электрокардиографии (ЭКГ), магнитно-резонансной томографии (МРТ), функциональной МРТ (фМРТ), непрерывных мониторов глюкозы. [19] и ультразвуковая компьютерная томография (УЗКТ), где для анализа каждого сигнала используются различные предположения.

См. также [ править ]

Ссылки [ править ]

  1. ^ Ниделл, Д.; Тропп, Дж. А. (2009). «CoSaMP: итеративное восстановление сигнала из неполных и неточных выборок». Прикладной и вычислительный гармонический анализ . 26 (3): 301–321. arXiv : 0803.2392 . дои : 10.1016/j.acha.2008.07.002 .
  2. ^ Лотфи, М.; Видьясагар, М. « Быстрый неитеративный алгоритм для измерения сжатия с использованием двоичных матриц измерения »
  3. ^ А. М. Тиллманн, « О вычислительной сложности точного и приблизительного обучения словарям », IEEE Signal Processing Letters 22 (1), 2015: 45–49.
  4. ^ Донохо, Дэвид Л. (1 июня 2006 г.). «Для большинства больших недоопределенных систем линейных уравнений минимальное решение с 𝓁1 нормой также является самым разреженным решением». Сообщения по чистой и прикладной математике . 59 (6): 797–829. дои : 10.1002/cpa.20132 . ISSN   1097-0312 . S2CID   8510060 .
  5. ^ Энган, К .; Аасе, Т.О.; Хакон Хусой, Дж. (1 января 1999 г.). «Метод оптимальных направлений проектирования каркаса». 1999 Международная конференция IEEE по акустике, речи и обработке сигналов. Слушания. ICASSP99 (Кат. номер 99CH36258) . Том. 5. С. 2443–2446, т.5. дои : 10.1109/ICASSP.1999.760624 . ISBN  978-0-7803-5041-0 . S2CID   33097614 .
  6. ^ Аарон, Михал ; Элад, Майкл (2008). «Разреженное и избыточное моделирование содержимого изображения с использованием словаря сигнатур изображений». SIAM Journal on Imaging Sciences . 1 (3): 228–247. CiteSeerX   10.1.1.298.6982 . дои : 10.1137/07070156x .
  7. ^ Ли, Хонглак и др. «Эффективные алгоритмы разреженного кодирования». Достижения в области нейронных систем обработки информации . 2006.
  8. ^ Кумар, Абхай; Катария, Саураб. «Приложения на основе словарного обучения для обработки изображений с использованием выпуклой оптимизации» (PDF) .
  9. ^ Рубинштейн Р.; Брукштейн, AM; Элад, М. (01 июня 2010 г.). «Словари для моделирования разреженных представлений». Труды IEEE . 98 (6): 1045–1057. CiteSeerX   10.1.1.160.527 . дои : 10.1109/JPROC.2010.2040551 . ISSN   0018-9219 . S2CID   2176046 .
  10. ^ Энган, Кьерсти ; Скреттинг, Карл; Хусой, Джон Хакон (1 января 2007 г.). «Семейство итеративных алгоритмов словарного обучения на основе LS, ILS-DLA, для представления разреженных сигналов». Цифра. Сигнальный процесс . 17 (1): 32–49. дои : 10.1016/j.dsp.2006.02.002 . ISSN   1051-2004 .
  11. ^ Майрал, Дж.; Сапиро, Г.; Элад, М. (1 января 2008 г.). «Изучение многомасштабных разреженных представлений для восстановления изображений и видео». Многомасштабное моделирование . 7 (1): 214–241. CiteSeerX   10.1.1.95.6239 . дои : 10.1137/070697653 . ISSN   1540-3459 .
  12. ^ Рубинштейн Р.; Зибулевский, М.; Элад, М. (01 марта 2010 г.). «Двойная разреженность: изучение разреженных словарей для аппроксимации разреженных сигналов». Транзакции IEEE по обработке сигналов . 58 (3): 1553–1564. Бибкод : 2010ИТСП...58.1553Р . CiteSeerX   10.1.1.183.992 . дои : 10.1109/TSP.2009.2036477 . ISSN   1053-587X . S2CID   7193037 .
  13. ^ Майрал, Жюльен; Бах, Фрэнсис; Понсе, Жан; Сапиро, Гильермо (01 марта 2010 г.). «Онлайн-обучение матричной факторизации и разреженному кодированию» . Дж. Мах. Учиться. Рез . 11 :19–60. arXiv : 0908.0050 . Бибкод : 2009arXiv0908.0050M . ISSN   1532-4435 .
  14. ^ Аарон, М. , М. Элад и А. Брукштейн. 2006. « K-SVD: алгоритм разработки сверхполных словарей для разреженного представления ». Обработка сигналов, транзакции IEEE на 54 (11): 4311-4322
  15. ^ Пейре, Габриэль (6 ноября 2008 г.). «Разреженное моделирование текстур» (PDF) . Журнал математического изображения и видения . 34 (1): 17–31. дои : 10.1007/s10851-008-0120-3 . ISSN   0924-9907 . S2CID   15994546 .
  16. ^ Рамирес, Игнасио; Шпрехманн, Пабло; Сапиро, Гильермо (01 января 2010 г.). «Классификация и кластеризация посредством изучения словаря со структурированной бессвязностью и общими функциями». Конференция IEEE Computer Society 2010 г. по компьютерному зрению и распознаванию образов . Лос-Аламитос, Калифорния, США: Компьютерное общество IEEE. стр. 3501–3508. дои : 10.1109/CVPR.2010.5539964 . ISBN  978-1-4244-6984-0 . S2CID   206591234 .
  17. ^ Конюш, Петр; Ян, Фэй; Миколайчик, Кристиан (1 мая 2013 г.). «Сравнение подходов к кодированию функций среднего уровня и стратегий объединения при обнаружении визуальных концепций». Компьютерное зрение и понимание изображений . 117 (5): 479–492. CiteSeerX   10.1.1.377.3979 . дои : 10.1016/j.cviu.2012.10.010 . ISSN   1077-3142 .
  18. ^ Конюш, Петр; Ян, Фэй; Госслен, Филипп Анри; Миколайчик, Кристиан (24 февраля 2017 г.). «Объединение вхождений высшего порядка для мешков слов: визуальное обнаружение концепций» (PDF) . Транзакции IEEE по анализу шаблонов и машинному интеллекту . 39 (2): 313–326. дои : 10.1109/TPAMI.2016.2545667 . hdl : 10044/1/39814 . ISSN   0162-8828 . ПМИД   27019477 . S2CID   10577592 .
  19. ^ АльМатук, Али; Лалег Кирати, Таус Мерием; Новара, Карло; Ивана, Раббоне; Винсент, Тайрон (15 марта 2019 г.). «Разреженная реконструкция потоков глюкозы с использованием непрерывных мониторов глюкозы» . Транзакции IEEE/ACM по вычислительной биологии и биоинформатике . 17 (5): 1797–1809. дои : 10.1109/TCBB.2019.2905198 . hdl : 10754/655914 . ISSN   1545-5963 . ПМИД   30892232 . S2CID   84185121 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: f18e3c4653d73c80fd9c15c3c0c87060__1709616120
URL1:https://arc.ask3.ru/arc/aa/f1/60/f18e3c4653d73c80fd9c15c3c0c87060.html
Заголовок, (Title) документа по адресу, URL1:
Sparse dictionary learning - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)