Воспринимающий

Персивер — это преобразователь , адаптированный для обработки нетекстовых данных, таких как изображения, звуки и видео, а также пространственных данных . Трансформаторы лежат в основе других известных систем, таких как BERT и GPT-3 , предшествовавших Perceiver. ^[1] Он использует механизм асимметричного внимания для выделения скрытых узких мест, что позволяет ему учиться на больших объемах разнородных данных. Воспринимающее устройство соответствует или превосходит специализированные модели в задачах классификации. ^[2]

Perceiver был представлен в июне 2021 года компанией DeepMind . ^[2] За ним последовал Perceiver IO в августе 2021 года. ^[3]

Дизайн

Воспринимающее устройство спроектировано без элементов, специфичных для модальности . Например, в нем нет элементов, специализированных для обработки изображений, текста или аудио. Кроме того, он может обрабатывать несколько коррелированных входных потоков разнородных типов. Он использует небольшой набор скрытых единиц, которые образуют узкое место внимания, через которое должны проходить входные данные. Одним из преимуществ является устранение проблемы квадратичного масштабирования, встречавшейся в ранних трансформаторах. использовались специальные экстракторы функций . В более ранних работах для каждой модальности ^[2]

Он связывает характеристики положения и модальности с каждым элементом ввода (например, каждым пикселем или аудиообразцом). Эти функции можно изучить или построить с использованием высокоточных функций Фурье . ^[2]

Perceiver использует перекрестное внимание для создания уровней линейной сложности и отделения глубины сети от размера входных данных. Такое разделение позволяет создавать более глубокие архитектуры. ^[2]

Компоненты

Модуль перекрестного внимания отображает (более крупный) массив байтов (например, массив пикселей) и скрытый массив (меньший) в другой скрытый массив, уменьшая размерность . Трансформаторная башня сопоставляет один скрытый массив с другим скрытым массивом, который используется для повторного запроса входных данных. Эти два компонента чередуются. Оба компонента используют внимание запроса «ключ-значение» (QKV). Внимание QKV применяет сети запросов, ключей и значений, которые обычно представляют собой многослойные перцептроны – к каждому элементу входного массива, создавая три массива, которые сохраняют размерность индекса (или длину последовательности) своих входных данных.

Воспринимающий ввод-вывод

Perceiver IO может гибко запрашивать скрытое пространство модели для получения выходных данных произвольного размера и семантики. Он достигает результатов в задачах со структурированным пространством вывода, таких как естественный язык и визуальное понимание, StarCraft II и многозадачность. Perceiver IO соответствует базовому уровню BERT на основе Transformer в тесте языка GLUE без необходимости токенизации входных данных и обеспечивает высочайшую производительность при оценке оптического потока Sintel . ^[3]

Выходные данные создаются путем обращения к скрытому массиву с использованием определенного выходного запроса, связанного с этим конкретным выходным сигналом. Например, для прогнозирования оптического потока на одном пикселе запрос будет использовать координаты xy пикселя плюс внедрение задачи оптического потока для создания одного вектора потока. Это вариант архитектуры кодера/декодера, используемой в других конструкциях. ^[3]

Производительность

Производительность Perceiver сравнима с ResNet -50 и ViT на ImageNet без 2D- сверток . Он обслуживает 50 000 пикселей . Он конкурентоспособен во всех модальностях AudioSet . ^[2]

См. также

Ссылки

^ Рэй, Тирнан. «Супермодель Google: DeepMind Perceiver — это шаг на пути к машине искусственного интеллекта, которая сможет обрабатывать всё и вся» . ЗДНет . Проверено 19 августа 2021 г.
^ Jump up to: ^а ^б ^с ^д ^и ^ж Джегл, Эндрю; Гимено, Феликс; Брок, Эндрю; Зиссерман, Эндрю; Виньялс, Ориол; Каррейра, Жоау (22 июня 2021 г.). «Воспринимающий: общее восприятие с повторяющимся вниманием». arXiv : 2103.03206 [ cs.CV ].
^ Jump up to: ^а ^б ^с Джегл, Эндрю; Боржо, Себастьян; Алайрак, Жан-Батист; Дорш, Карл; Ионеску, Каталин; Дин, Дэвид; Коппула, Сканда; Зоран, Дэниел; Брок, Эндрю; Шелхамер, Эван; Энафф, Оливье (2 августа 2021 г.). «Perceiver IO: общая архитектура структурированных входов и выходов». arXiv : 2107.14795 [ cs.LG ].

Внешние ссылки

DeepMind Perceiver и Perceiver IO | Объяснение статьи на YouTube
Воспринимающий: общее восприятие с итеративным вниманием (объяснение исследовательской работы Google DeepMind) на YouTube , с более подробным объяснением функций Фурье.

[1] Рэй, Тирнан. «Супермодель Google: DeepMind Perceiver — это шаг на пути к машине искусственного интеллекта, которая сможет обрабатывать всё и вся» . ЗДНет . Проверено 19 августа 2021 г.

[:0-2] Jump up to: ^а ^б ^с ^д ^и ^ж Джегл, Эндрю; Гимено, Феликс; Брок, Эндрю; Зиссерман, Эндрю; Виньялс, Ориол; Каррейра, Жоау (22 июня 2021 г.). «Воспринимающий: общее восприятие с повторяющимся вниманием». arXiv : 2103.03206 [ cs.CV ].

[:1-3] Jump up to: ^а ^б ^с Джегл, Эндрю; Боржо, Себастьян; Алайрак, Жан-Батист; Дорш, Карл; Ионеску, Каталин; Дин, Дэвид; Коппула, Сканда; Зоран, Дэниел; Брок, Эндрю; Шелхамер, Эван; Энафф, Оливье (2 августа 2021 г.). «Perceiver IO: общая архитектура структурированных входов и выходов». arXiv : 2107.14795 [ cs.LG ].

[1]

[2]

[3]