Мамба (архитектура глубокого обучения)

Mamba — это архитектура глубокого обучения, ориентированная на моделирование последовательностей. Он был разработан исследователями из Университета Карнеги-Меллон и Принстонского университета для устранения некоторых ограничений моделей трансформаторов , особенно при обработке длинных последовательностей. Он основан на модели последовательности структурированного пространства состояний (S4). ^[1]^[2]^[3]

Архитектура [ править ]

Чтобы обеспечить обработку длинных последовательностей данных, Mamba включает модель последовательности структурированного пространства состояний (S4). ^[1] S4 может эффективно и результативно моделировать длинные зависимости, сочетая сильные стороны непрерывных, рекуррентных и сверточных моделей, что позволяет ему обрабатывать данные с нерегулярной выборкой, иметь неограниченный контекст и сохранять вычислительную эффективность как во время обучения, так и тестирования. ^[4]

Mamba, основанная на модели S4, вносит значительные улучшения, особенно в обработке операций, изменяющихся во времени. Центральным элементом его конструкции является уникальный механизм выбора, который адаптирует параметры модели структурированного пространства состояний (SSM) на основе входных данных. ^[5]^[1] Это позволяет Mamba выборочно концентрироваться на важной информации в последовательностях, эффективно отфильтровывая менее важные данные. Модель переходит от неизменной во времени к изменяющейся во времени структуре, что влияет как на вычисления, так и на эффективность системы. ^[1]^[6]

Чтобы решить вычислительные проблемы, возникающие из-за этой разницы во времени, Mamba использует аппаратно-ориентированный алгоритм. Этот алгоритм обеспечивает эффективные вычисления на современном оборудовании, таком как графические процессоры, за счет использования слияния ядер, параллельного сканирования и повторных вычислений. ^[1] Реализация позволяет избежать материализации расширенных состояний в слоях, интенсивно использующих память, тем самым оптимизируя производительность и использование памяти. Результатом является архитектура, которая значительно более эффективна при обработке длинных последовательностей по сравнению с предыдущими методами. ^[1]^[6]

Кроме того, Mamba упрощает свою архитектуру за счет интеграции конструкции SSM с блоками MLP, что приводит к однородной и оптимизированной структуре, расширяя возможности модели для общего моделирования последовательностей различных типов данных, включая язык, аудио и геномику, сохраняя при этом эффективность как при обучении, так и при обучении. и вывод. ^[1]

Ключевые компоненты [ править ]

Пространства выборочных состояний (SSM): Ядро Mamba, SSM — это рекуррентные модели, которые выборочно обрабатывают информацию на основе текущих входных данных. Это позволяет им сосредоточиться на важной информации и отбросить ненужные данные, что потенциально приводит к эффективной обработке. ^[7]
Упрощенная архитектура: Mamba заменяет сложные блоки внимания и MLP Transformers одним унифицированным блоком SSM. Это направлено на снижение вычислительной сложности и повышение скорости вывода. ^[7]
Аппаратно-ориентированный параллелизм: Mamba использует рекуррентный режим с параллельным алгоритмом, специально разработанным для повышения эффективности оборудования, что потенциально еще больше повышает его производительность. ^[7]

с Трансформерами Сравнение


Особенность	Трансформатор	Мамба
Архитектура	Основанный на внимании	на основе SSM
Сложность	Высокий	Ниже
Скорость вывода	`O(n)`	`O(1)`
Скорость обучения	`O(n²)`	`O(n)`

Варианты [ править ]

Языковые модели без токенов: MambaByte [ править ]

Работая с токенами размером в байт, преобразователи плохо масштабируются, поскольку каждый токен должен «обслуживать» каждый другой токен, что приводит к O(n²) законы масштабирования, в результате Трансформеры предпочитают использовать токенизацию подслов, чтобы уменьшить количество токенов в тексте, однако это приводит к очень большим словарным таблицам и встраиваниям слов .

В этом исследовании рассматривается новый подход к языковому моделированию MambaByte, который отличается от стандартных методов, основанных на токенах. В отличие от традиционных моделей, которые полагаются на разбиение текста на отдельные единицы, MambaByte напрямую обрабатывает необработанные последовательности байтов. Это устраняет необходимость в токенизации и потенциально дает несколько преимуществ: ^[8]

Независимость от языка. Токенизация часто опирается на правила и словарь, специфичные для языка, что ограничивает применимость на разных языках. Представление MambaByte на уровне байтов позволяет ему работать с разными языками без адаптации к конкретному языку.
Устраняет предвзятость токенизации подслов: когда общие подслова перепредставлены, а редкие или новые слова недостаточно представлены или разделены на менее значимые единицы. Это может повлиять на понимание и возможности генерации модели, особенно для языков с богатой морфологией или токенами, которые недостаточно хорошо представлены в обучающих данных.
Простота предварительной обработки : упрощает конвейер предварительной обработки, устраняя необходимость в сложной токенизации и управлении словарем, уменьшая количество шагов предварительной обработки и потенциальных ошибок.

Токенизация подслов привносит в LLM ряд особенностей, таких как режимы сбоя, когда LLM не могут писать слова, переворачивать определенные слова, обрабатывать редкие токены, которых нет при токенизации на уровне байтов. ^[9]

Андрей Карпати , основатель OpenAI, заявил: « Вечная слава каждому, кто сможет отменить токенизацию как обязательный шаг в программе LLM» . ^[9]

Мамба Смесь экспертов (MOE) [ править ]

MoE Mamba представляет собой новаторскую интеграцию метода Mixture of Experts (MoE) с архитектурой Mamba, повышающую эффективность и масштабируемость моделей пространства состояний (SSM) при языковом моделировании. Эта модель использует сильные стороны как Министерства образования, так и SSM, достигая значительного повышения эффективности обучения — требуя в 2,2 раза меньше этапов обучения, чем ее предшественница, «Мамба», сохраняя при этом конкурентоспособные показатели. MoE Mamba демонстрирует повышенную эффективность и результативность за счет сочетания выборочного моделирования в пространстве состояний с экспертной обработкой, предлагая многообещающее направление для будущих исследований в области масштабирования SSM для обработки десятков миллиардов параметров. Конструкция модели предполагает чередование слоев Mamba и MoE, что позволяет эффективно интегрировать весь контекст последовательности и применять наиболее подходящего эксперта для каждого токена. ^[10]^[11]

Видение Мамба [ править ]

Vision Mamba (Vim) интегрирует SSM с обработкой визуальных данных, используя двунаправленные блоки Mamba для кодирования визуальных последовательностей. Этот метод снижает вычислительные требования, обычно связанные с самообслуживанием при выполнении визуальных задач. Протестированный на классификацию ImageNet , обнаружение объектов COCO и семантическую сегментацию ADE20k, Vim демонстрирует повышенную производительность и эффективность и способен обрабатывать изображения высокого разрешения с меньшими вычислительными ресурсами. Это позиционирует Vim как масштабируемую модель для будущих достижений в обучении визуальному представлению. ^[12]

Джамба [ править ]

Jamba — это новая архитектура, построенная на гибридном трансформаторе и архитектуре Mamba SSM, разработанная AI21 Labs с 52 миллиардами параметров, что делает ее крупнейшим вариантом Mamba, созданным на данный момент. Он имеет контекстное окно из 256 тысяч токенов. ^[13]

и Влияние направления будущие

Mamba LLM представляет собой значительный потенциальный сдвиг в архитектуре больших языковых моделей, предлагая более быстрые, эффективные и масштабируемые модели.

Его потенциальное влияние огромно, включая приложения для языкового перевода в реальном времени, генерации контента, анализа длинного текста, обработки звука и речи. Продолжаются дальнейшие исследования, направленные на изучение возможностей и потенциала Mamba для еще более разнообразных приложений.

См. также [ править ]

Ссылки [ править ]

^ Jump up to: Перейти обратно: ^а ^б ^с ^д ^и ^ж ^г Гу, Альберт; Дао, Три (2023). «Мамба: моделирование последовательностей линейного времени с выборочными пространствами состояний». arXiv : 2312.00752 [ cs.LG ].
^ Чоудхури, Хасан. «Технология, лежащая в основе ChatGPT, не сделает ИИ таким же умным, как люди. Другие могут» . Бизнес-инсайдер . Проверено 13 января 2024 г.
^ Панди, Мохит (6 декабря 2023 г.). «Мамба здесь, чтобы отметить конец Трансформеров» . Журнал Analytics India . Проверено 13 января 2024 г.
^ Гу, Альберт; Гоэл, Каран; Ре, Кристофер (6 октября 2021 г.). «Эффективное моделирование длинных последовательностей с помощью структурированных пространств состояний» . ИКЛР . arXiv : 2111.00396 . Проверено 13 января 2024 г.
^ Гу, Альберт; Джонсон, Исис; Гоэл, Каран; Сааб, Халед Камаль; Дао, Три; Рудра, А.; Р'э, Кристофер (26 октября 2021 г.). «Объединение рекуррентных, сверточных моделей и моделей непрерывного времени с линейными слоями пространства состояний». НейриПС . S2CID 239998472 .
^ Jump up to: Перейти обратно: ^а ^б Тику, Аниш (10 декабря 2023 г.). «Исследователи из CMU и Принстона представляют Mamba: революционную архитектуру SSM, превосходящую эффективность трансформатора для мультимодальных приложений глубокого обучения» . МаркТехПост . Проверено 13 января 2024 г.
^ Jump up to: Перейти обратно: ^а ^б ^с Гу, Альберт; Дао, Три (01 декабря 2023 г.), Мамба: моделирование линейно-временных последовательностей с выборочными пространствами состояний , arXiv : 2312.00752 , получено 23 февраля 2024 г.
^ Ван, Цзюньсюн; Гангаварапу, Тушаар; Ян, Цзин Натан; Раш, Александр М. (24 января 2024 г.), MambaByte: Модель пространства выборочных состояний без токенов , arXiv : 2401.13660 , получено 23 февраля 2024 г.
^ Jump up to: Перейти обратно: ^а ^б Давайте создадим токенизатор GPT , полученный 23 февраля 2024 г.
^ Пиоро, Мацей; Тайра, Камил; Кинг, Кристиан; Люджевский, Ян; Ящур, Себастьян (08 января 2024 г.), MoE-Mamba: Efficient Selective State Space Models with a Mix of Experts , arXiv : 2401.04081 , получено 23 февраля 2024 г.
^ Нихил (13 января 2024 г.). «В этом документе по искусственному интеллекту предлагается MoE-Mamba: революция в машинном обучении с помощью усовершенствованных моделей пространства состояний и сочетания экспертов MoE, превосходящих как Mamba, так и Transformer-MoE по отдельности» . МаркТехПост . Проверено 23 февраля 2024 г.
^ Чжу, Лянхуэй; Ляо, Бэньчэн; Чжан, Цянь; Ван, Синьлун; Лю, Вэньюй; Ван, Синган (10 февраля 2024 г.), Vision Mamba: эффективное обучение визуальному представлению с помощью двунаправленной модели пространства состояний , arXiv : 2401.09417 , получено 23 февраля 2024 г.
^ «Представляем Jamba: новаторскую модель SSM-трансформатора AI21» . www.ai21.com . Проверено 29 марта 2024 г.

[mamba-1] Jump up to: Перейти обратно: ^а ^б ^с ^д ^и ^ж ^г Гу, Альберт; Дао, Три (2023). «Мамба: моделирование последовательностей линейного времени с выборочными пространствами состояний». arXiv : 2312.00752 [ cs.LG ].

[2] Чоудхури, Хасан. «Технология, лежащая в основе ChatGPT, не сделает ИИ таким же умным, как люди. Другие могут» . Бизнес-инсайдер . Проверено 13 января 2024 г.

[3] Панди, Мохит (6 декабря 2023 г.). «Мамба здесь, чтобы отметить конец Трансформеров» . Журнал Analytics India . Проверено 13 января 2024 г.

[4] Гу, Альберт; Гоэл, Каран; Ре, Кристофер (6 октября 2021 г.). «Эффективное моделирование длинных последовательностей с помощью структурированных пространств состояний» . ИКЛР . arXiv : 2111.00396 . Проверено 13 января 2024 г.

[5] Гу, Альберт; Джонсон, Исис; Гоэл, Каран; Сааб, Халед Камаль; Дао, Три; Рудра, А.; Р'э, Кристофер (26 октября 2021 г.). «Объединение рекуррентных, сверточных моделей и моделей непрерывного времени с линейными слоями пространства состояний». НейриПС . S2CID 239998472 .

[mark-6] Jump up to: Перейти обратно: ^а ^б Тику, Аниш (10 декабря 2023 г.). «Исследователи из CMU и Принстона представляют Mamba: революционную архитектуру SSM, превосходящую эффективность трансформатора для мультимодальных приложений глубокого обучения» . МаркТехПост . Проверено 13 января 2024 г.

[:0-7] Jump up to: Перейти обратно: ^а ^б ^с Гу, Альберт; Дао, Три (01 декабря 2023 г.), Мамба: моделирование линейно-временных последовательностей с выборочными пространствами состояний , arXiv : 2312.00752 , получено 23 февраля 2024 г.

[8] Ван, Цзюньсюн; Гангаварапу, Тушаар; Ян, Цзин Натан; Раш, Александр М. (24 января 2024 г.), MambaByte: Модель пространства выборочных состояний без токенов , arXiv : 2401.13660 , получено 23 февраля 2024 г.

[:1-9] Jump up to: Перейти обратно: ^а ^б Давайте создадим токенизатор GPT , полученный 23 февраля 2024 г.

[10] Пиоро, Мацей; Тайра, Камил; Кинг, Кристиан; Люджевский, Ян; Ящур, Себастьян (08 января 2024 г.), MoE-Mamba: Efficient Selective State Space Models with a Mix of Experts , arXiv : 2401.04081 , получено 23 февраля 2024 г.

[:2-11] Нихил (13 января 2024 г.). «В этом документе по искусственному интеллекту предлагается MoE-Mamba: революция в машинном обучении с помощью усовершенствованных моделей пространства состояний и сочетания экспертов MoE, превосходящих как Mamba, так и Transformer-MoE по отдельности» . МаркТехПост . Проверено 23 февраля 2024 г.

[12] Чжу, Лянхуэй; Ляо, Бэньчэн; Чжан, Цянь; Ван, Синьлун; Лю, Вэньюй; Ван, Синган (10 февраля 2024 г.), Vision Mamba: эффективное обучение визуальному представлению с помощью двунаправленной модели пространства состояний , arXiv : 2401.09417 , получено 23 февраля 2024 г.

[13] «Представляем Jamba: новаторскую модель SSM-трансформатора AI21» . www.ai21.com . Проверено 29 марта 2024 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]