Трансформатор зрения

Трансформатор зрения ( ВИТ ) — преобразователь, предназначенный для компьютерного зрения. ^[1] ViT разбивает входное изображение на ряд фрагментов (вместо того, чтобы разбивать текст на токены ), сериализует каждый фрагмент в вектор и отображает его в меньшее измерение с помощью одного матричного умножения . Эти векторные внедрения затем обрабатываются преобразователем -кодером, как если бы они были встраиваниями токенов.

ViT нашел применение в распознавании изображений , сегментации изображений и автономном вождении . ^{[ нужна ссылка ]}

История [ править ]

Трансформеры были представлены в 2017 году в статье « Внимание — это все, что вам нужно ». ^[2] и нашли широкое применение в обработке естественного языка . В 2020 году их адаптировали для компьютерного зрения, получив ВИТ. ^[1]

В 2021 году модель чистого трансформатора продемонстрировала лучшую производительность и большую эффективность, чем CNN, при классификации изображений. ^[3]

Исследование, проведенное в июне 2021 года, добавило в ResNet серверную часть-трансформер , что значительно снизило затраты и повысило точность. ^[4]^[5]^[6]

В том же году было предложено несколько важных вариантов Vision Transformers. Эти варианты в основном предназначены для того, чтобы быть более эффективными, более точными или лучше подходящими для конкретной области. Среди наиболее актуальных – Swin Transformer, ^[7] который благодаря некоторым модификациям механизма внимания и многоэтапному подходу достиг самых современных результатов в некоторых наборах данных обнаружения объектов, таких как COCO . Еще одним интересным вариантом является TimeSformer, предназначенный для задач понимания видео и способный захватывать пространственную и временную информацию за счет использования разделенного пространственно-временного внимания. ^[8]

Обзор [ править ]

Базовая архитектура, использованная в оригинальной статье 2020 года: ^[1] заключается в следующем. Таким образом, это BERT-подобный преобразователь, предназначенный только для кодировщика.

Входное изображение имеет тип $\mathbb {R} ^{H\times W\times C}$ , где $H,W,C$ высота, ширина, канал ( RGB ). Затем он разбивается на участки квадратной формы типа $\mathbb {R} ^{P\times P\times C}$ .

Для каждого патча патч пропускается через линейный оператор для получения вектора («встраивание патча»). Положение патча также преобразуется в вектор посредством «кодирования положения». Два вектора складываются, а затем пропускаются через несколько кодировщиков Transformer.

Механизм внимания в ViT неоднократно преобразует векторы представления фрагментов изображения, включая все больше и больше семантических отношений между фрагментами изображения в изображении. Это аналогично тому, как при обработке естественного языка, когда векторы представления проходят через преобразователь, они включают в себя все больше и больше семантических отношений между словами, от синтаксиса до семантики.

Вышеуказанная архитектура превращает изображение в последовательность векторных представлений. Чтобы использовать их для последующих приложений, необходимо обучить дополнительного руководителя их интерпретации.

Например, чтобы использовать его для классификации, можно добавить поверх него неглубокий MLP, который выводит распределение вероятностей по классам. В оригинальной статье используется сеть Linear- GeLU -linear-softmax. ^[1]

Варианты [ править ]

Оригинальный ВИТ [ править ]

Трансформаторы нашли свое первоначальное применение в задачах обработки естественного языка , о чем свидетельствуют такие языковые модели, как BERT и GPT-3 . Напротив, типичная система обработки изображений использует сверточную нейронную сеть (CNN). Среди известных проектов — Xception, ResNet , EfficientNet, ^[9] Плотная сеть, ^[10] и Начало. ^[3]

Трансформаторы измеряют отношения между парами входных токенов (слов в случае текстовых строк), называемые вниманием . Стоимость квадратична по количеству токенов. Для изображений основной единицей анализа является пиксель . Однако вычисление отношений для каждой пары пикселей в типичном изображении является непомерно трудным с точки зрения памяти и вычислений. Вместо этого ViT вычисляет отношения между пикселями в различных небольших участках изображения (например, 16x16 пикселей) при значительно меньших затратах. Разделы (с позиционными вложениями) располагаются последовательно. Вложения представляют собой обучаемые векторы. Каждый раздел упорядочивается в линейную последовательность и умножается на матрицу внедрения. Результат с вложением позиции подается на преобразователь. ^[3]

Как и в случае с BERT , фундаментальную роль в задачах классификации играет токен класса. Специальный токен, который используется в качестве единственного входного сигнала для финальной головы MLP, поскольку на него повлияли все остальные.

Архитектура классификации изображений является наиболее распространенной и использует только преобразователь-кодер для преобразования различных входных токенов. Однако существуют и другие приложения, в которых также используется декодерная часть традиционной архитектуры трансформатора.

Маскированный автоэнкодер [ править ]

В Masked Autoencoder есть два ViT, соединенных друг с другом. Первый принимает фрагменты изображения с позиционным кодированием и выводит векторы, представляющие каждый патч. Второй принимает векторы с позиционным кодированием и снова выводит фрагменты изображения. Во время обучения используются оба ViT. Изображение разрезается на патчи, и в первый ВИТ кладется только 25% патчей. Второй ViT принимает закодированные векторы и выводит реконструкцию полного изображения. Во время использования используется только первый ВиТ. ^[11]

Свин-трансформатор [ править ]

Swin Transformer (« Сдвинутые окна » ) ^[7] черпает вдохновение из стандартных сверточных нейронных сетей:

Вместо выполнения самообработки всей последовательности токенов, по одному для каждого патча, он выполняет самообладание на основе «смещенного окна», что означает выполнение внимания только над блоками патчей квадратной формы. Один блок патчей аналогичен рецептивному полю одной извилины.
После каждых нескольких блоков внимания существует «слой слияния», который объединяет соседние токены 2x2 в один токен. Это аналогично объединению (по ядрам свертки 2x2 с шагом 2). Слияние означает конкатенацию с последующим умножением на матрицу.

Он улучшен Swin Transformer V2, ^[12] который модифицирует ViT с помощью другого механизма внимания (рис. 1):

Layernorm сразу после каждого уровня внимания и прямой связи («res-post-norm»);
масштабированное косинусное внимание для замены исходного внимания скалярного произведения;
с логарифмическим интервалом Непрерывное смещение относительного положения , что позволяет переносить обучение в разные разрешения окон.

ВиТ-ВКГАН [ править ]

В ВиТ-ВКГАН, ^[13] есть два энкодера ViT и дискриминатор. Каждый фрагмент изображения размером 8x8 кодируется в список векторов, по одному на каждый фрагмент. Векторы могут поступать только из дискретного набора «кодовой книги», как при векторном квантовании . Другой кодирует квантованные векторы обратно в фрагменты изображения. Цель обучения – сделать реконструкцию изображения (выходное изображение) точной входному изображению. Дискриминатор (обычно сверточная сеть, но допускаются и другие сети) пытается решить, является ли изображение исходным реальным изображением или изображением, реконструированным с помощью ViT.

Идея по существу такая же, как у векторного квантованного вариационного автоэнкодера (VQVAE) плюс генеративно-состязательная сеть (GAN).

После обучения такого ViT-VQGAN его можно использовать для кодирования произвольного изображения в список символов и кодирования произвольного списка символов в изображение. Список символов можно использовать для обучения стандартному авторегрессионному преобразователю (например, GPT) для авторегрессионной генерации изображения. Кроме того, можно взять список пар «подпись-изображение», преобразовать изображения в строки символов и обучить стандартный преобразователь в стиле GPT. Затем во время тестирования можно просто указать подпись к изображению и автоматически сгенерировать изображение. Это структура Google Parti. ^[14]

со сверточными нейронными Сравнение сетями

Из-за обычно используемого (сравнительно) большого размера патча производительность ViT в большей степени зависит от решений, включая решения оптимизатора, гиперпараметры , специфичные для набора данных , и глубину сети, чем сверточные сети. Предварительная обработка со слоем перекрывающихся сверточных фильтров меньшего размера (шаг <размер) помогает повысить производительность и стабильность. ^[6]

CNN преобразует базовый уровень пикселей в карту объектов. Токенизатор преобразует карту объектов в серию токенов, которые затем передаются в преобразователь, который применяет механизм внимания для создания серии выходных токенов. Наконец, проектор повторно подключает выходные токены к карте объектов. Последнее позволяет при анализе использовать потенциально важные детали на уровне пикселей. Это резко сокращает количество токенов, которые необходимо проанализировать, что соответственно снижает затраты. ^[4]

Различий между CNN и Vision Transformers много, и они заключаются главным образом в их архитектурных различиях.

Фактически, CNN достигают отличных результатов даже при обучении на основе объемов данных, которые не так велики, как те, которые требуются Vision Transformers.

Такое различное поведение, по-видимому, проистекает из различных индуктивных предубеждений, которыми они обладают. Эти сети могут каким-то образом использовать ориентированную на фильтры архитектуру CNN для более быстрого понимания особенностей анализируемых изображений, даже если, с другой стороны, они в конечном итоге ограничивают их, усложняя понимание глобальных отношений. ^[15]

С другой стороны, Vision Transformers обладают другим видом предвзятости к исследованию топологических отношений между патчами, что позволяет им улавливать также глобальные и более широкие отношения, но за счет более обременительного обучения с точки зрения данных.

Vision Transformers также оказались гораздо более устойчивыми к искажениям входного изображения, таким как состязательные пятна или перестановки. ^[16]

Однако выбор одной архитектуры вместо другой не всегда является самым разумным выбором, и отличные результаты были получены в нескольких задачах компьютерного зрения с помощью гибридных архитектур, сочетающих сверточные слои с преобразователями зрения. ^[17]^[18]^[19]

самостоятельного Роль обучения

Значительная потребность в данных на этапе обучения привела к необходимости поиска альтернативных методов обучения этих моделей, и центральную роль теперь играют методы самоконтроля . Используя эти подходы, можно обучать нейронную сеть практически автономно, позволяя ей выявлять особенности конкретной проблемы без необходимости создавать большой набор данных или снабжать его точно присвоенными метками. Возможность обучать Vision Transformer без необходимости иметь в своем распоряжении огромный набор видеоданных может стать ключом к широкому распространению этой многообещающей новой архитектуры.

Приложения [ править ]

Vision Transformers использовались во многих задачах компьютерного зрения и давали отличные результаты, а в некоторых случаях даже были самыми современными.

Среди наиболее актуальных областей применения можно выделить:

Алгоритмы на основе Vision Transformer, такие как DINO ( самодистилляция без меток ) ^[20] также демонстрируют многообещающие свойства в наборах биологических данных, таких как изображения, созданные с помощью анализа Cell Painting . Было продемонстрировано, что DINO изучает представления изображений, которые можно использовать для кластеризации изображений и исследования морфологических профилей в пространстве признаков. ^[21]

См. также [ править ]

Ссылки [ править ]

↑ Перейти обратно: Перейти обратно: ^а ^б ^с ^д Досовицкий, Алексей; Бейер, Лукас; Колесников, Александр; Вайссенборн, Дирк; Чжай, Сяохуа; Унтертинер, Томас; Дегани, Мостафа; Редуктор, Матиас; Хейголд, Джордж; Гелли, Сильвен; Ушкорейт, Якоб (3 июня 2021 г.). «Изображение стоит 16x16 слов: преобразователи для распознавания изображений в масштабе». arXiv : 2010.11929 [ cs.CV ].
^ Васвани, Ашиш ; Шазир, Ноам; Пармар, Ники; Ушкорейт, Якоб; Джонс, Лион; Гомес, Эйдан Н ; Кайзер, Лукаш; Полосухин, Илья (2017). «Внимание — это все, что вам нужно» (PDF) . Достижения в области нейронных систем обработки информации . 30 . Карран Ассошиэйтс, Инк.
↑ Перейти обратно: Перейти обратно: ^а ^б ^с Саркар, Арджун (20 мая 2021 г.). «Трансформеры» лучше, чем CNN, в распознавании изображений? . Середина . Проверено 11 июля 2021 г.
↑ Перейти обратно: Перейти обратно: ^а ^б «Facebook и Калифорнийский университет в Беркли повышают производительность CV и снижают затраты на вычисления с помощью визуальных преобразователей» . Середина . 12.06.2020 . Проверено 11 июля 2021 г.
^ Ву, Бичен; Сюй, Чэньфэн; Дай, Сяолян; Ван, Элвин; Чжан, Пэйчжао; Ян, Чжичэн; Масаеши, Томизука; Гонсалес, Джозеф; Кейцер, Курт; Вайда, Питер (2020). «Визуальные преобразователи: представление и обработка изображений на основе токенов для компьютерного зрения». arXiv : 2006.03677 [ cs.CV ].
↑ Перейти обратно: Перейти обратно: ^а ^б Сяо, Тете; Сингх, Маннат; Минтун, Эрик; Даррелл, Тревор; Доллар, Петр; Гиршик, Росс (28 июня 2021 г.). «Ранние свертки помогают трансформерам лучше видеть». arXiv : 2106.14881 [ cs.CV ].
↑ Перейти обратно: Перейти обратно: ^а ^б Лю, Цзэ; Линь, Юэ; Ху, Хань; Чжан, Чжэн, Стивен, Байнин (25 марта 2021 г.). .arXiv cs.CV : 2103.14030 [ ] .
^ Бертасий, Гедас; Ван, Хэн; Торресани, Лоренцо (09 февраля 2021 г.). «Все ли вам нужно пространственно-временное внимание для понимания видео?». arXiv : 2102.05095 [ cs.CV ].
^ Тан, Минсин; Ле, Куок (23 июня 2021 г.). «EfficientNetV2: модели меньшего размера и более быстрое обучение» (PDF) . Материалы 38-й Международной конференции по машинному обучению (PMLR) . 139 : 10096–10106. arXiv : 2104.00298 . Проверено 31 октября 2023 г.
^ Хуан, Гао; Лю, Чжуан; ван дер Маатен, Лоренс; Вопрос. Вайнбергер, Килиан (28 января 2018 г.). «Плотносвязанные сверточные сети». arXiv : 1608.06993 [ cs.CV ].
^ Он, Кайминг; Чен, Синьлэй; Се, Сайнинг; Ли, Янхао; Доллар, Петр; Гиршик, Росс (2021). «Автоэнкодеры в масках — масштабируемые устройства для обучения зрению». arXiv : 2111.06377 [ cs.CV ].
^ Лю, Цзе; Линь, Ютун; Се, Чжэньда; Нин, Цао; Чжан, Ли; . «Swin Transformer V2: увеличение мощности и разрешения» . Материалы конференции IEEE / CVF по компьютерному зрению и распознаванию образов, стр. 12009–12019.
^ Ю, Цзяхуэй; Ко, Цзин Ю; Пан, Руомин; Ку, Александр; Сюй, Болдридж, Ву, Юнхуэй (2021). с улучшенным VQGAN». arXiv : 2110.04627 [ cs.CV ].
^ «Парти: авторегрессионная модель преобразования текста в изображение» . сайты.research.google . Проверено 3 ноября 2023 г.
^ Рагху, Майтра; Унтертинер, Томас; Корнблит, Саймон; Чжан, Чиюань; Досовицкий, Алексей (19 августа 2021 г.). «Видят ли преобразователи зрения как сверточные нейронные сети?». arXiv : 2108.08810 [ cs.CV ].
^ Насир, Музаммал; Ранасингхе, Канчана; Хан, Салман; Хаят, Мунавар; Хан, Фахад Шахбаз; Ян, Мин-Сюань (21 мая 2021 г.). «Интригующие свойства преобразователей зрения». arXiv : 2105.10497 [ cs.CV ].
^ Дай, Цзихан; Лю, Ханьсяо; Ле, Куок В.; Тан, Минсин (09 июня 2021 г.). «CoAtNet: сочетание свертки и внимания для всех размеров данных». arXiv : 2106.04803 [ cs.CV ].
^ Дай, Сян, Чжан, Лей (29 марта Ву, Хайпин, Коделла, Ноэль ; . г. 2021 ) .РЕЗЮМЕ ].
^ Коккомини, Давиде; Мессина, Никола; Дженнаро, Клаудио; Фальчи, Фабрицио (2022). «Сочетание эффективных сетевых и визуальных преобразователей для обнаружения дипфейков в видео». Анализ и обработка изображений – ICIAP 2022 . Конспекты лекций по информатике. Том. 13233. стр. 219–229. arXiv : 2107.02612 . дои : 10.1007/978-3-031-06433-3_19 . ISBN 978-3-031-06432-6 . S2CID 235742764 .
^ Кэрон, Матильда; Туврон, Гюго; Мишра, Ишан; Жегу, Эрве; Майрал, Жюльен; Бояновский, Петр; Жулен, Арман (октябрь 2021 г.). «Новые свойства самоуправляемых преобразователей зрения» . Международная конференция IEEE/CVF по компьютерному зрению (ICCV) 2021 г. IEEE. стр. 9630–9640. arXiv : 2104.14294 . дои : 10.1109/iccv48922.2021.00951 . ISBN 978-1-6654-2812-5 .
^ Дорон, Майкл; Мутаканни, Тео; Чен, Зитонг С.; Мошков, Никита; Кэрон, Матильда; Туврон, Гюго; Бояновский, Петр; Пернице, Вольфганг М.; Кайседо, Хуан К. (18 июня 2023 г.). «Непредвзятая морфология одиночных клеток с самоконтролируемыми преобразователями зрения» . BioRxiv: Сервер препринтов по биологии : 2023.06.16.545359. дои : 10.1101/2023.06.16.545359 . ПМЦ 10312751 . ПМИД 37398158 . Проверено 12 февраля 2024 г.

Внешние ссылки [ править ]

[:3-1] Перейти обратно: Перейти обратно: ^а ^б ^с ^д Досовицкий, Алексей; Бейер, Лукас; Колесников, Александр; Вайссенборн, Дирк; Чжай, Сяохуа; Унтертинер, Томас; Дегани, Мостафа; Редуктор, Матиас; Хейголд, Джордж; Гелли, Сильвен; Ушкорейт, Якоб (3 июня 2021 г.). «Изображение стоит 16x16 слов: преобразователи для распознавания изображений в масштабе». arXiv : 2010.11929 [ cs.CV ].

[2] Васвани, Ашиш ; Шазир, Ноам; Пармар, Ники; Ушкорейт, Якоб; Джонс, Лион; Гомес, Эйдан Н ; Кайзер, Лукаш; Полосухин, Илья (2017). «Внимание — это все, что вам нужно» (PDF) . Достижения в области нейронных систем обработки информации . 30 . Карран Ассошиэйтс, Инк.

[:0-3] Перейти обратно: Перейти обратно: ^а ^б ^с Саркар, Арджун (20 мая 2021 г.). «Трансформеры» лучше, чем CNN, в распознавании изображений? . Середина . Проверено 11 июля 2021 г.

[:1-4] Перейти обратно: Перейти обратно: ^а ^б «Facebook и Калифорнийский университет в Беркли повышают производительность CV и снижают затраты на вычисления с помощью визуальных преобразователей» . Середина . 12.06.2020 . Проверено 11 июля 2021 г.

[5] Ву, Бичен; Сюй, Чэньфэн; Дай, Сяолян; Ван, Элвин; Чжан, Пэйчжао; Ян, Чжичэн; Масаеши, Томизука; Гонсалес, Джозеф; Кейцер, Курт; Вайда, Питер (2020). «Визуальные преобразователи: представление и обработка изображений на основе токенов для компьютерного зрения». arXiv : 2006.03677 [ cs.CV ].

[:2-6] Перейти обратно: Перейти обратно: ^а ^б Сяо, Тете; Сингх, Маннат; Минтун, Эрик; Даррелл, Тревор; Доллар, Петр; Гиршик, Росс (28 июня 2021 г.). «Ранние свертки помогают трансформерам лучше видеть». arXiv : 2106.14881 [ cs.CV ].

[:4-7] Перейти обратно: Перейти обратно: ^а ^б Лю, Цзэ; Линь, Юэ; Ху, Хань; Чжан, Чжэн, Стивен, Байнин (25 марта 2021 г.). .arXiv cs.CV : 2103.14030 [ ] .

[8] Бертасий, Гедас; Ван, Хэн; Торресани, Лоренцо (09 февраля 2021 г.). «Все ли вам нужно пространственно-временное внимание для понимания видео?». arXiv : 2102.05095 [ cs.CV ].

[9] Тан, Минсин; Ле, Куок (23 июня 2021 г.). «EfficientNetV2: модели меньшего размера и более быстрое обучение» (PDF) . Материалы 38-й Международной конференции по машинному обучению (PMLR) . 139 : 10096–10106. arXiv : 2104.00298 . Проверено 31 октября 2023 г.

[10] Хуан, Гао; Лю, Чжуан; ван дер Маатен, Лоренс; Вопрос. Вайнбергер, Килиан (28 января 2018 г.). «Плотносвязанные сверточные сети». arXiv : 1608.06993 [ cs.CV ].

[11] Он, Кайминг; Чен, Синьлэй; Се, Сайнинг; Ли, Янхао; Доллар, Петр; Гиршик, Росс (2021). «Автоэнкодеры в масках — масштабируемые устройства для обучения зрению». arXiv : 2111.06377 [ cs.CV ].

[12] Лю, Цзе; Линь, Ютун; Се, Чжэньда; Нин, Цао; Чжан, Ли; . «Swin Transformer V2: увеличение мощности и разрешения» . Материалы конференции IEEE / CVF по компьютерному зрению и распознаванию образов, стр. 12009–12019.

[13] Ю, Цзяхуэй; Ко, Цзин Ю; Пан, Руомин; Ку, Александр; Сюй, Болдридж, Ву, Юнхуэй (2021). с улучшенным VQGAN». arXiv : 2110.04627 [ cs.CV ].

[14] «Парти: авторегрессионная модель преобразования текста в изображение» . сайты.research.google . Проверено 3 ноября 2023 г.

[15] Рагху, Майтра; Унтертинер, Томас; Корнблит, Саймон; Чжан, Чиюань; Досовицкий, Алексей (19 августа 2021 г.). «Видят ли преобразователи зрения как сверточные нейронные сети?». arXiv : 2108.08810 [ cs.CV ].

[16] Насир, Музаммал; Ранасингхе, Канчана; Хан, Салман; Хаят, Мунавар; Хан, Фахад Шахбаз; Ян, Мин-Сюань (21 мая 2021 г.). «Интригующие свойства преобразователей зрения». arXiv : 2105.10497 [ cs.CV ].

[17] Дай, Цзихан; Лю, Ханьсяо; Ле, Куок В.; Тан, Минсин (09 июня 2021 г.). «CoAtNet: сочетание свертки и внимания для всех размеров данных». arXiv : 2106.04803 [ cs.CV ].

[18] Дай, Сян, Чжан, Лей (29 марта Ву, Хайпин, Коделла, Ноэль ; . г. 2021 ) .РЕЗЮМЕ ].

[19] Коккомини, Давиде; Мессина, Никола; Дженнаро, Клаудио; Фальчи, Фабрицио (2022). «Сочетание эффективных сетевых и визуальных преобразователей для обнаружения дипфейков в видео». Анализ и обработка изображений – ICIAP 2022 . Конспекты лекций по информатике. Том. 13233. стр. 219–229. arXiv : 2107.02612 . дои : 10.1007/978-3-031-06433-3_19 . ISBN 978-3-031-06432-6 . S2CID 235742764 .

[20] Кэрон, Матильда; Туврон, Гюго; Мишра, Ишан; Жегу, Эрве; Майрал, Жюльен; Бояновский, Петр; Жулен, Арман (октябрь 2021 г.). «Новые свойства самоуправляемых преобразователей зрения» . Международная конференция IEEE/CVF по компьютерному зрению (ICCV) 2021 г. IEEE. стр. 9630–9640. arXiv : 2104.14294 . дои : 10.1109/iccv48922.2021.00951 . ISBN 978-1-6654-2812-5 .

[21] Дорон, Майкл; Мутаканни, Тео; Чен, Зитонг С.; Мошков, Никита; Кэрон, Матильда; Туврон, Гюго; Бояновский, Петр; Пернице, Вольфганг М.; Кайседо, Хуан К. (18 июня 2023 г.). «Непредвзятая морфология одиночных клеток с самоконтролируемыми преобразователями зрения» . BioRxiv: Сервер препринтов по биологии : 2023.06.16.545359. дои : 10.1101/2023.06.16.545359 . ПМЦ 10312751 . ПМИД 37398158 . Проверено 12 февраля 2024 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]