Jump to content

Мультимодальное обучение

Мультимодальное обучение в контексте машинного обучения — это тип глубокого обучения с использованием нескольких модальностей данных, таких как текст, аудио или изображения.

Напротив, унимодальные модели могут обрабатывать только один тип данных, например текст (обычно представленный в виде векторов признаков ) или изображения. Мультимодальное обучение отличается от объединения унимодальных моделей, обучаемых независимо. Он объединяет информацию из разных модальностей, чтобы делать более точные прогнозы. [1]

Крупные мультимодальные модели, такие как Google Gemini и GPT-4o , становятся все более популярными с 2023 года, обеспечивая повышенную универсальность и более широкое понимание явлений реального мира. [2]

Мотивация [ править ]

Данные обычно поступают в разных модальностях и несут разную информацию. Например, очень часто к изображению добавляют подпись, чтобы передать информацию, не представленную в самом изображении. Точно так же иногда проще использовать изображение для описания информации, которая может быть неочевидна из текста. В результате, если на похожих изображениях встречаются разные слова, то, скорее всего, эти слова описывают одно и то же. И наоборот, если слово используется для описания, казалось бы, непохожих изображений, то эти изображения могут представлять один и тот же объект. Таким образом, в случаях, когда речь идет о мультимодальных данных, важно использовать модель, которая способна совместно представлять информацию, чтобы модель могла фиксировать объединенную информацию из разных модальностей.

Мультимодальные трансформаторы [ править ]

Трансформеры также можно использовать/адаптировать для модальностей (ввода или вывода), помимо текста, обычно путем поиска способа «токенизации» модальности.

Трансформаторы зрения [3] адаптируйте преобразователь к компьютерному зрению, разбивая входные изображения на ряд фрагментов, превращая их в векторы и обрабатывая их как токены в стандартном преобразователе.

Конформер [4] и позже Шепот [5] следуйте той же схеме для распознавания речи , сначала превращая речевой сигнал в спектрограмму , которая затем обрабатывается как изображение, т.е. разбивается на серию патчей, превращается в векторы и обрабатывается как токены в стандартном преобразователе.

Воспринимающие , Эндрю Джегл и др. (2021) [6] [7] могут учиться на больших объемах разнородных данных.

Что касается изображений вывода , Пиблс и др. представили диффузионный преобразователь (DiT), который облегчает использование архитектуры преобразователя для создания изображений на основе диффузии . [8] Кроме того, Google выпустила генератор изображений, ориентированный на трансформатор, под названием «Muse», основанный на технологии параллельного декодирования и генеративного преобразователя в масках. [9] (Трансформеры играли менее центральную роль в предшествующих технологиях создания изображений. [10] хотя и все равно значительный. [11] )

Мультимодальные модели большого языка [ править ]

Мультимодальность означает «наличие нескольких модальностей», а «модальность» относится к типу ввода или вывода, такому как видео, изображение, аудио, текст, проприоцепция и т. д. [12] Было создано множество моделей ИИ, специально обученных для приема одной модальности и вывода другой модальности, например AlexNet для маркировки изображений, [13] визуальный ответ на вопрос для преобразования изображения-текста в текст, [14] и распознавание речи для преобразования речи в текст.

Распространенный метод создания мультимодальных моделей на основе LLM — «токенизация» выходных данных обученного кодировщика. Конкретно, можно построить LLM, который может понимать изображения, следующим образом: возьмите обученный LLM и обученный кодировщик изображений. . Сделайте небольшой многослойный перцептрон , так что для любого изображения , вектор постобработки имеет те же размеры, что и закодированный токен. Это «токен изображения». Затем можно чередовать текстовые токены и токены изображений. Затем составная модель уточняется на наборе данных изображения и текста. Эту базовую конструкцию можно применять с большей сложностью для улучшения модели. Кодер изображения можно заморозить для повышения стабильности. [15]

Flamingo продемонстрировал эффективность метода токенизации, настроив пару предварительно обученной языковой модели и кодировщика изображений, чтобы они лучше справлялись с визуальными ответами на вопросы, чем модели, обученные с нуля. [16] Модель Google PaLM была доработана до мультимодальной модели PaLM-E с использованием метода токенизации и применена к роботизированному управлению. [17] Модели LLaMA также стали мультимодальными с использованием метода токенизации, чтобы обеспечить ввод изображений. [18] и видеовходы. [19]

GPT-4 может использовать как текст, так и изображение в качестве входных данных. [20] (хотя компонент видения не был обнародован до появления GPT-4V). [21] ); Google DeepMind от Gemini также является мультимодальным. [22]

машины Мультимодальные глубинные Больцмана

Машина Больцмана — это тип стохастической нейронной сети, изобретенной Джеффри Хинтоном и Терри Сейновски в 1985 году. Машины Больцмана можно рассматривать как стохастический , генеративный аналог сетей Хопфилда . Они названы в честь распределения Больцмана в статистической механике. Агрегаты в машинах Больцмана делятся на две группы: видимые агрегаты и скрытые агрегаты. Каждая единица похожа на нейрон с двоичным выходом, который показывает, активирована она или нет. [23] Машины General Boltzmann позволяют осуществлять соединение между любыми агрегатами. Однако обучение с использованием обычных машин Больцмана непрактично, поскольку время вычислений экспоненциально зависит от размера машины. [ нужна ссылка ] . Более эффективная архитектура называется ограниченной машиной Больцмана, где соединение разрешено только между скрытым и видимым блоками, что описано в следующем разделе.

Мультимодальные глубинные машины Больцмана могут одновременно обрабатывать и учиться на различных типах информации, таких как изображения и текст. В частности, это можно сделать, имея отдельную глубокую машину Больцмана для каждой модальности, например одну для изображений и одну для текста, объединенную в дополнительный верхний скрытый слой. [24]

Приложение [ править ]

Мультимодальные глубинные машины Больцмана успешно используются для классификации и поиска недостающих данных. Точность классификации мультимодальной глубокой машины Больцмана превосходит машины опорных векторов , скрытое распределение Дирихле и сеть глубоких убеждений , когда модели тестируются на данных как с модальностями изображения-текста, так и с одной модальностью. [ нужна ссылка ] Мультимодальные глубокие машины Больцмана также способны предсказывать недостающие модальности с учетом наблюдаемых с достаточно хорошей точностью. [ нужна ссылка ] Самостоятельное обучение создает более интересную и мощную модель мультимодальности. OpenAI разработала CLIP и DALL-E модели , которые произвели революцию в мультимодальности.

Мультимодальное глубокое обучение используется для скрининга рака – по крайней мере, одна разрабатываемая система объединяет такие разные типы данных. [25] [26]

См. также [ править ]

Ссылки [ править ]

  1. ^ Розиди, Нейт (27 марта 2023 г.). «Объяснение мультимодальных моделей» . КДнаггетс . Проверено 1 июня 2024 г.
  2. ^ Зия, Техсин (8 января 2024 г.). «Представление крупных мультимодальных моделей: формирование ландшафта языковых моделей в 2024 году» . Unite.ai . Проверено 1 июня 2024 г.
  3. ^ Досовицкий, Алексей; Бейер, Лукас; Колесников, Александр; Вайссенборн, Дирк; Чжай, Сяохуа; Унтертинер, Томас; Дегани, Мостафа; Редуктор, Матиас; Хейголд, Джордж; Гелли, Сильвен; Ушкорейт, Якоб (3 июня 2021 г.). «Изображение стоит 16x16 слов: преобразователи для распознавания изображений в масштабе». arXiv : 2010.11929 [ cs.CV ].
  4. ^ Гулати, Анмол; Чиу, Чун-Чэн; Чжан, Юй; Ван, Шибо; У, Юнхуэй (2020). Conformer: преобразователь с расширенной сверткой для распознавания речи». arXiv : 2005.08100 [ eess.AS ].
  5. ^ Рэдфорд, Алек; Ким, Чон Ук; Сюй, Тао; Брокман, Грег; Макливи, Кристина; Суцкевер, Илья (2022). «Надежное распознавание речи посредством крупномасштабного слабого контроля». arXiv : 2212.04356 [ eess.AS ].
  6. ^ Джегл, Эндрю; Гимено, Феликс; Брок, Эндрю; Зиссерман, Эндрю; Виньялс, Ориол; Каррейра, Жоау (22 июня 2021 г.). «Воспринимающий: общее восприятие с повторяющимся вниманием». arXiv : 2103.03206 [ cs.CV ].
  7. ^ Джегл, Эндрю; Боржо, Себастьян; Алайрак, Жан-Батист; Дорш, Карл; Ионеску, Каталин; Дин, Дэвид; Коппула, Сканда; Зоран, Дэниел; Брок, Эндрю; Шелхамер, Эван; Энафф, Оливье (2 августа 2021 г.). «Perceiver IO: общая архитектура структурированных входов и выходов». arXiv : 2107.14795 [ cs.LG ].
  8. ^ Пиблс, Уильям; Се, Сайнин (2 марта 2023 г.). «Масштабируемые модели диффузии с трансформаторами». arXiv : 2212.09748 [ cs.CV ].
  9. ^ «Google AI представляет Muse, новую модель преобразования текста в изображение» . ИнфоQ .
  10. ^ «Использование диффузионных моделей для создания превосходных аватаров NeRF» . 5 января 2023 г.
  11. ^ Ислам, Архам (14 ноября 2022 г.). «Как работают DALL·E 2, стабильная диффузия и Midjourney?» .
  12. ^ Кирос, Райан; Салахутдинов Руслан; Земель, Рич (18 июня 2014 г.). «Мультимодальные модели нейронного языка» . Материалы 31-й Международной конференции по машинному обучению . ПМЛР: 595–603.
  13. ^ Крижевский, Алекс; Суцкевер, Илья; Хинтон, Джеффри Э (2012). «Классификация ImageNet с глубокими сверточными нейронными сетями» . Достижения в области нейронных систем обработки информации . 25 . Карран Ассошиэйтс, Инк.
  14. ^ Антол, Станислав; Агравал, Айшвария; Лу, Цзясэн; Митчелл, Маргарет; Батра, Дхрув; Зитник, К. Лоуренс; Парих, Деви (2015). «VQA: Визуальный ответ на вопрос» . ICCV : 2425–2433.
  15. ^ Ли, Джуннан; Ли, Дунсюй; Саварезе, Сильвио; Хой, Стивен (1 января 2023 г.). «BLIP-2: Начальная подготовка языка-изображения с помощью кодировщиков замороженных изображений и больших языковых моделей». arXiv : 2301.12597 [ cs.CV ].
  16. ^ Алайрак, Жан-Батист; Донахью, Джефф; Люк, Полина; Миш, Антуан; Барр, Иэн; Хассон, Яна; Ленц, Карел; Менш, Артур; Милликан, Кэтрин; Рейнольдс, Малькольм; Кольцо, Роман; Резерфорд, Элиза; Каби, Серкан; Хан, Тенгда; Гун, Чжитао (06 декабря 2022 г.). «Фламинго: модель визуального языка для кратковременного обучения» . Достижения в области нейронных систем обработки информации . 35 : 23716–23736. arXiv : 2204.14198 .
  17. ^ Дрисс, Дэнни; Ся, Фэй; Саджади, Мехди С.М.; Линч, Кори; Чоудери, Ааканша; Ихтер, Брайан; Вахид, Айзаан; Томпсон, Джонатан; Выонг, Куан; Ю, Тяньхэ; Хуан, Вэньлун; Чеботарь, Евгений; Сермане, Пьер; Дакворт, Дэниел; Левин, Сергей (01 марта 2023 г.). «PaLM-E: воплощенная мультимодальная языковая модель». arXiv : 2303.03378 [ cs.LG ].
  18. ^ Лю, Хаотянь; Ли, Цинъян; Ли, Юн Джэ (01 апреля 2023 г.), arXiv : 2304.08485 [ cs.CV ].
  19. ^ Чжан, Ханг; Ли, Синь; Бинг, Лидун (01 июня 2023 г.). «Видео-LLaMA: настроенная на инструкции модель аудиовизуального языка для понимания видео». arXiv : 2306.02858 [ cs.CL ].
  20. ^ ОпенАИ (27 марта 2023 г.). «Технический отчет GPT-4». arXiv : 2303.08774 [ cs.CL ].
  21. ^ OpenAI (25 сентября 2023 г.). «Системная карта GPT-4V(ision)» (PDF) .
  22. ^ Пичаи, Сундар (10 мая 2023 г.), Google Keynote (Google I/O '23) , временная метка 15:31 , получено 2 июля 2023 г.
  23. ^ Дей, Виктор (3 сентября 2021 г.). «Руководство для начинающих по машине Больцмана» . Журнал Analytics India Magazine . Проверено 2 марта 2024 г.
  24. ^ «Мультимодальное обучение с помощью машины глубокого Больцмана» (PDF) . 2014. Архивировано (PDF) из оригинала 21 июня 2015 г. Проверено 14 июня 2015 г.
  25. ^ Квач, Катянна. «Ученые из Гарварда создают мультимодальную систему искусственного интеллекта для прогнозирования рака» . Регистр . Архивировано из оригинала 20 сентября 2022 года . Проверено 16 сентября 2022 г.
  26. ^ Чен, Ричард Дж.; Лу, Мин Ю.; Уильямсон, Дрю ФК; Чен, Тиффани Ю.; Липкова Яна; Нур, Захра; Шабан, Мухаммед; Шейди, Маха; Уильямс, Мане; Джу, Бумджин; Махмуд, Фейсал (8 августа 2022 г.). «Интегративный гистологически-геномный анализ панрака посредством мультимодального глубокого обучения» . Раковая клетка . 40 (8): 865–878.e6. doi : 10.1016/j.ccell.2022.07.004 . ISSN   1535-6108 . ПМЦ   10397370 . ПМИД   35944502 . S2CID   251456162 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 42ef83ae80f9800b8c51a29450884369__1717241040
URL1:https://arc.ask3.ru/arc/aa/42/69/42ef83ae80f9800b8c51a29450884369.html
Заголовок, (Title) документа по адресу, URL1:
Multimodal learning - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)