Мультимодальное обучение
Часть серии о |
Машинное обучение и интеллектуальный анализ данных |
---|
Мультимодальное обучение в контексте машинного обучения — это тип глубокого обучения с использованием нескольких модальностей данных, таких как текст, аудио или изображения.
Напротив, унимодальные модели могут обрабатывать только один тип данных, например текст (обычно представленный в виде векторов признаков ) или изображения. Мультимодальное обучение отличается от объединения унимодальных моделей, обучаемых независимо. Он объединяет информацию из разных модальностей, чтобы делать более точные прогнозы. [1]
Крупные мультимодальные модели, такие как Google Gemini и GPT-4o , становятся все более популярными с 2023 года, обеспечивая повышенную универсальность и более широкое понимание явлений реального мира. [2]
Мотивация [ править ]
Данные обычно поступают в разных модальностях и несут разную информацию. Например, очень часто к изображению добавляют подпись, чтобы передать информацию, не представленную в самом изображении. Точно так же иногда проще использовать изображение для описания информации, которая может быть неочевидна из текста. В результате, если на похожих изображениях встречаются разные слова, то, скорее всего, эти слова описывают одно и то же. И наоборот, если слово используется для описания, казалось бы, непохожих изображений, то эти изображения могут представлять один и тот же объект. Таким образом, в случаях, когда речь идет о мультимодальных данных, важно использовать модель, которая способна совместно представлять информацию, чтобы модель могла фиксировать объединенную информацию из разных модальностей.
Мультимодальные трансформаторы [ править ]
Трансформеры также можно использовать/адаптировать для модальностей (ввода или вывода), помимо текста, обычно путем поиска способа «токенизации» модальности.
Трансформаторы зрения [3] адаптируйте преобразователь к компьютерному зрению, разбивая входные изображения на ряд фрагментов, превращая их в векторы и обрабатывая их как токены в стандартном преобразователе.
Конформер [4] и позже Шепот [5] следуйте той же схеме для распознавания речи , сначала превращая речевой сигнал в спектрограмму , которая затем обрабатывается как изображение, т.е. разбивается на серию патчей, превращается в векторы и обрабатывается как токены в стандартном преобразователе.
Воспринимающие , Эндрю Джегл и др. (2021) [6] [7] могут учиться на больших объемах разнородных данных.
Что касается изображений вывода , Пиблс и др. представили диффузионный преобразователь (DiT), который облегчает использование архитектуры преобразователя для создания изображений на основе диффузии . [8] Кроме того, Google выпустила генератор изображений, ориентированный на трансформатор, под названием «Muse», основанный на технологии параллельного декодирования и генеративного преобразователя в масках. [9] (Трансформеры играли менее центральную роль в предшествующих технологиях создания изображений. [10] хотя и все равно значительный. [11] )Мультимодальные модели большого языка [ править ]
Мультимодальность означает «наличие нескольких модальностей», а «модальность» относится к типу ввода или вывода, такому как видео, изображение, аудио, текст, проприоцепция и т. д. [12] Было создано множество моделей ИИ, специально обученных для приема одной модальности и вывода другой модальности, например AlexNet для маркировки изображений, [13] визуальный ответ на вопрос для преобразования изображения-текста в текст, [14] и распознавание речи для преобразования речи в текст.
Распространенный метод создания мультимодальных моделей на основе LLM — «токенизация» выходных данных обученного кодировщика. Конкретно, можно построить LLM, который может понимать изображения, следующим образом: возьмите обученный LLM и обученный кодировщик изображений. . Сделайте небольшой многослойный перцептрон , так что для любого изображения , вектор постобработки имеет те же размеры, что и закодированный токен. Это «токен изображения». Затем можно чередовать текстовые токены и токены изображений. Затем составная модель уточняется на наборе данных изображения и текста. Эту базовую конструкцию можно применять с большей сложностью для улучшения модели. Кодер изображения можно заморозить для повышения стабильности. [15]
Flamingo продемонстрировал эффективность метода токенизации, настроив пару предварительно обученной языковой модели и кодировщика изображений, чтобы они лучше справлялись с визуальными ответами на вопросы, чем модели, обученные с нуля. [16] Модель Google PaLM была доработана до мультимодальной модели PaLM-E с использованием метода токенизации и применена к роботизированному управлению. [17] Модели LLaMA также стали мультимодальными с использованием метода токенизации, чтобы обеспечить ввод изображений. [18] и видеовходы. [19]
GPT-4 может использовать как текст, так и изображение в качестве входных данных. [20] (хотя компонент видения не был обнародован до появления GPT-4V). [21] ); Google DeepMind от Gemini также является мультимодальным. [22]машины Мультимодальные глубинные Больцмана
Машина Больцмана — это тип стохастической нейронной сети, изобретенной Джеффри Хинтоном и Терри Сейновски в 1985 году. Машины Больцмана можно рассматривать как стохастический , генеративный аналог сетей Хопфилда . Они названы в честь распределения Больцмана в статистической механике. Агрегаты в машинах Больцмана делятся на две группы: видимые агрегаты и скрытые агрегаты. Каждая единица похожа на нейрон с двоичным выходом, который показывает, активирована она или нет. [23] Машины General Boltzmann позволяют осуществлять соединение между любыми агрегатами. Однако обучение с использованием обычных машин Больцмана непрактично, поскольку время вычислений экспоненциально зависит от размера машины. [ нужна ссылка ] . Более эффективная архитектура называется ограниченной машиной Больцмана, где соединение разрешено только между скрытым и видимым блоками, что описано в следующем разделе.
Мультимодальные глубинные машины Больцмана могут одновременно обрабатывать и учиться на различных типах информации, таких как изображения и текст. В частности, это можно сделать, имея отдельную глубокую машину Больцмана для каждой модальности, например одну для изображений и одну для текста, объединенную в дополнительный верхний скрытый слой. [24]
Приложение [ править ]
Мультимодальные глубинные машины Больцмана успешно используются для классификации и поиска недостающих данных. Точность классификации мультимодальной глубокой машины Больцмана превосходит машины опорных векторов , скрытое распределение Дирихле и сеть глубоких убеждений , когда модели тестируются на данных как с модальностями изображения-текста, так и с одной модальностью. [ нужна ссылка ] Мультимодальные глубокие машины Больцмана также способны предсказывать недостающие модальности с учетом наблюдаемых с достаточно хорошей точностью. [ нужна ссылка ] Самостоятельное обучение создает более интересную и мощную модель мультимодальности. OpenAI разработала CLIP и DALL-E модели , которые произвели революцию в мультимодальности.
Мультимодальное глубокое обучение используется для скрининга рака – по крайней мере, одна разрабатываемая система объединяет такие разные типы данных. [25] [26]
См. также [ править ]
Ссылки [ править ]
- ^ Розиди, Нейт (27 марта 2023 г.). «Объяснение мультимодальных моделей» . КДнаггетс . Проверено 1 июня 2024 г.
- ^ Зия, Техсин (8 января 2024 г.). «Представление крупных мультимодальных моделей: формирование ландшафта языковых моделей в 2024 году» . Unite.ai . Проверено 1 июня 2024 г.
- ^ Досовицкий, Алексей; Бейер, Лукас; Колесников, Александр; Вайссенборн, Дирк; Чжай, Сяохуа; Унтертинер, Томас; Дегани, Мостафа; Редуктор, Матиас; Хейголд, Джордж; Гелли, Сильвен; Ушкорейт, Якоб (3 июня 2021 г.). «Изображение стоит 16x16 слов: преобразователи для распознавания изображений в масштабе». arXiv : 2010.11929 [ cs.CV ].
- ^ Гулати, Анмол; Чиу, Чун-Чэн; Чжан, Юй; Ван, Шибо; У, Юнхуэй (2020). Conformer: преобразователь с расширенной сверткой для распознавания речи». arXiv : 2005.08100 [ eess.AS ].
- ^ Рэдфорд, Алек; Ким, Чон Ук; Сюй, Тао; Брокман, Грег; Макливи, Кристина; Суцкевер, Илья (2022). «Надежное распознавание речи посредством крупномасштабного слабого контроля». arXiv : 2212.04356 [ eess.AS ].
- ^ Джегл, Эндрю; Гимено, Феликс; Брок, Эндрю; Зиссерман, Эндрю; Виньялс, Ориол; Каррейра, Жоау (22 июня 2021 г.). «Воспринимающий: общее восприятие с повторяющимся вниманием». arXiv : 2103.03206 [ cs.CV ].
- ^ Джегл, Эндрю; Боржо, Себастьян; Алайрак, Жан-Батист; Дорш, Карл; Ионеску, Каталин; Дин, Дэвид; Коппула, Сканда; Зоран, Дэниел; Брок, Эндрю; Шелхамер, Эван; Энафф, Оливье (2 августа 2021 г.). «Perceiver IO: общая архитектура структурированных входов и выходов». arXiv : 2107.14795 [ cs.LG ].
- ^ Пиблс, Уильям; Се, Сайнин (2 марта 2023 г.). «Масштабируемые модели диффузии с трансформаторами». arXiv : 2212.09748 [ cs.CV ].
- ^ «Google AI представляет Muse, новую модель преобразования текста в изображение» . ИнфоQ .
- ^ «Использование диффузионных моделей для создания превосходных аватаров NeRF» . 5 января 2023 г.
- ^ Ислам, Архам (14 ноября 2022 г.). «Как работают DALL·E 2, стабильная диффузия и Midjourney?» .
- ^ Кирос, Райан; Салахутдинов Руслан; Земель, Рич (18 июня 2014 г.). «Мультимодальные модели нейронного языка» . Материалы 31-й Международной конференции по машинному обучению . ПМЛР: 595–603.
- ^ Крижевский, Алекс; Суцкевер, Илья; Хинтон, Джеффри Э (2012). «Классификация ImageNet с глубокими сверточными нейронными сетями» . Достижения в области нейронных систем обработки информации . 25 . Карран Ассошиэйтс, Инк.
- ^ Антол, Станислав; Агравал, Айшвария; Лу, Цзясэн; Митчелл, Маргарет; Батра, Дхрув; Зитник, К. Лоуренс; Парих, Деви (2015). «VQA: Визуальный ответ на вопрос» . ICCV : 2425–2433.
- ^ Ли, Джуннан; Ли, Дунсюй; Саварезе, Сильвио; Хой, Стивен (1 января 2023 г.). «BLIP-2: Начальная подготовка языка-изображения с помощью кодировщиков замороженных изображений и больших языковых моделей». arXiv : 2301.12597 [ cs.CV ].
- ^ Алайрак, Жан-Батист; Донахью, Джефф; Люк, Полина; Миш, Антуан; Барр, Иэн; Хассон, Яна; Ленц, Карел; Менш, Артур; Милликан, Кэтрин; Рейнольдс, Малькольм; Кольцо, Роман; Резерфорд, Элиза; Каби, Серкан; Хан, Тенгда; Гун, Чжитао (06 декабря 2022 г.). «Фламинго: модель визуального языка для кратковременного обучения» . Достижения в области нейронных систем обработки информации . 35 : 23716–23736. arXiv : 2204.14198 .
- ^ Дрисс, Дэнни; Ся, Фэй; Саджади, Мехди С.М.; Линч, Кори; Чоудери, Ааканша; Ихтер, Брайан; Вахид, Айзаан; Томпсон, Джонатан; Выонг, Куан; Ю, Тяньхэ; Хуан, Вэньлун; Чеботарь, Евгений; Сермане, Пьер; Дакворт, Дэниел; Левин, Сергей (01 марта 2023 г.). «PaLM-E: воплощенная мультимодальная языковая модель». arXiv : 2303.03378 [ cs.LG ].
- ^ Лю, Хаотянь; Ли, Цинъян; Ли, Юн Джэ (01 апреля 2023 г.), arXiv : 2304.08485 [ cs.CV ].
- ^ Чжан, Ханг; Ли, Синь; Бинг, Лидун (01 июня 2023 г.). «Видео-LLaMA: настроенная на инструкции модель аудиовизуального языка для понимания видео». arXiv : 2306.02858 [ cs.CL ].
- ^ ОпенАИ (27 марта 2023 г.). «Технический отчет GPT-4». arXiv : 2303.08774 [ cs.CL ].
- ^ OpenAI (25 сентября 2023 г.). «Системная карта GPT-4V(ision)» (PDF) .
- ^ Пичаи, Сундар (10 мая 2023 г.), Google Keynote (Google I/O '23) , временная метка 15:31 , получено 2 июля 2023 г.
- ^ Дей, Виктор (3 сентября 2021 г.). «Руководство для начинающих по машине Больцмана» . Журнал Analytics India Magazine . Проверено 2 марта 2024 г.
- ^ «Мультимодальное обучение с помощью машины глубокого Больцмана» (PDF) . 2014. Архивировано (PDF) из оригинала 21 июня 2015 г. Проверено 14 июня 2015 г.
- ^ Квач, Катянна. «Ученые из Гарварда создают мультимодальную систему искусственного интеллекта для прогнозирования рака» . Регистр . Архивировано из оригинала 20 сентября 2022 года . Проверено 16 сентября 2022 г.
- ^ Чен, Ричард Дж.; Лу, Мин Ю.; Уильямсон, Дрю ФК; Чен, Тиффани Ю.; Липкова Яна; Нур, Захра; Шабан, Мухаммед; Шейди, Маха; Уильямс, Мане; Джу, Бумджин; Махмуд, Фейсал (8 августа 2022 г.). «Интегративный гистологически-геномный анализ панрака посредством мультимодального глубокого обучения» . Раковая клетка . 40 (8): 865–878.e6. doi : 10.1016/j.ccell.2022.07.004 . ISSN 1535-6108 . ПМЦ 10397370 . ПМИД 35944502 . S2CID 251456162 .
- Пресс-релиз Учебной больницы: «Новая технология искусственного интеллекта объединяет несколько типов данных для прогнозирования исходов рака» . Больница Бригама и Женщины черезmedicalxpress.com . Архивировано из оригинала 20 сентября 2022 года . Проверено 18 сентября 2022 г.