Jump to content

Воспринимающий

Персивер — это преобразователь , адаптированный для обработки нетекстовых данных, таких как изображения, звуки и видео, а также пространственных данных . Трансформаторы лежат в основе других известных систем, таких как BERT и GPT-3 , предшествовавших Perceiver. [1] Он использует механизм асимметричного внимания для выделения скрытых узких мест, что позволяет ему учиться на больших объемах разнородных данных. Воспринимающее устройство соответствует или превосходит специализированные модели в задачах классификации. [2]

Perceiver был представлен в июне 2021 года компанией DeepMind . [2] За ним последовал Perceiver IO в августе 2021 года. [3]

Воспринимающее устройство спроектировано без элементов, специфичных для модальности . Например, в нем нет элементов, специализированных для обработки изображений, текста или аудио. Кроме того, он может обрабатывать несколько коррелированных входных потоков разнородных типов. Он использует небольшой набор скрытых единиц, которые образуют узкое место внимания, через которое должны проходить входные данные. Одним из преимуществ является устранение проблемы квадратичного масштабирования, встречавшейся в ранних трансформаторах. использовались специальные экстракторы функций . В более ранних работах для каждой модальности [2]

Он связывает характеристики положения и модальности с каждым элементом ввода (например, каждым пикселем или аудиообразцом). Эти функции можно изучить или построить с использованием высокоточных функций Фурье . [2]

Perceiver использует перекрестное внимание для создания уровней линейной сложности и отделения глубины сети от размера входных данных. Такое разделение позволяет создавать более глубокие архитектуры. [2]

Компоненты

[ редактировать ]

Модуль перекрестного внимания отображает (более крупный) массив байтов (например, массив пикселей) и скрытый массив (меньший) в другой скрытый массив, уменьшая размерность . Трансформаторная башня сопоставляет один скрытый массив с другим скрытым массивом, который используется для повторного запроса входных данных. Эти два компонента чередуются. Оба компонента используют внимание запроса «ключ-значение» (QKV). Внимание QKV применяет сети запросов, ключей и значений, которые обычно представляют собой многослойные перцептроны – к каждому элементу входного массива, создавая три массива, которые сохраняют размерность индекса (или длину последовательности) своих входных данных.

Воспринимающий ввод-вывод

[ редактировать ]

Perceiver IO может гибко запрашивать скрытое пространство модели для получения выходных данных произвольного размера и семантики. Он достигает результатов в задачах со структурированным пространством вывода, таких как естественный язык и визуальное понимание, StarCraft II и многозадачность. Perceiver IO соответствует базовому уровню BERT на основе Transformer в тесте языка GLUE без необходимости токенизации входных данных и обеспечивает высочайшую производительность при оценке оптического потока Sintel . [3]

Выходные данные создаются путем обращения к скрытому массиву с использованием определенного выходного запроса, связанного с этим конкретным выходным сигналом. Например, для прогнозирования оптического потока на одном пикселе запрос будет использовать координаты xy пикселя плюс внедрение задачи оптического потока для создания одного вектора потока. Это вариант архитектуры кодера/декодера, используемой в других конструкциях. [3]

Производительность

[ редактировать ]

Производительность Perceiver сравнима с ResNet -50 и ViT на ImageNet без 2D- сверток . Он обслуживает 50 000 пикселей . Он конкурентоспособен во всех модальностях AudioSet . [2]

См. также

[ редактировать ]
  1. ^ Рэй, Тирнан. «Супермодель Google: DeepMind Perceiver — это шаг на пути к машине искусственного интеллекта, которая сможет обрабатывать всё и вся» . ЗДНет . Проверено 19 августа 2021 г.
  2. ^ Jump up to: а б с д и ж Джегл, Эндрю; Гимено, Феликс; Брок, Эндрю; Зиссерман, Эндрю; Виньялс, Ориол; Каррейра, Жоау (22 июня 2021 г.). «Воспринимающий: общее восприятие с повторяющимся вниманием». arXiv : 2103.03206 [ cs.CV ].
  3. ^ Jump up to: а б с Джегл, Эндрю; Боржо, Себастьян; Алайрак, Жан-Батист; Дорш, Карл; Ионеску, Каталин; Дин, Дэвид; Коппула, Сканда; Зоран, Дэниел; Брок, Эндрю; Шелхамер, Эван; Энафф, Оливье (2 августа 2021 г.). «Perceiver IO: общая архитектура структурированных входов и выходов». arXiv : 2107.14795 [ cs.LG ].
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 2027c04aecf1be0921c2f8e4ee3c2467__1708704780
URL1:https://arc.ask3.ru/arc/aa/20/67/2027c04aecf1be0921c2f8e4ee3c2467.html
Заголовок, (Title) документа по адресу, URL1:
Perceiver - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)