Мамба (архитектура глубокого обучения)
Часть серии о |
Машинное обучение и интеллектуальный анализ данных |
---|
Mamba — это архитектура глубокого обучения, ориентированная на моделирование последовательностей. Он был разработан исследователями из Университета Карнеги-Меллон и Принстонского университета для устранения некоторых ограничений моделей трансформаторов , особенно при обработке длинных последовательностей. Он основан на модели последовательности структурированного пространства состояний (S4). [1] [2] [3]
Архитектура [ править ]
Чтобы обеспечить обработку длинных последовательностей данных, Mamba включает модель последовательности структурированного пространства состояний (S4). [1] S4 может эффективно и результативно моделировать длинные зависимости, сочетая сильные стороны непрерывных, рекуррентных и сверточных моделей, что позволяет ему обрабатывать данные с нерегулярной выборкой, иметь неограниченный контекст и сохранять вычислительную эффективность как во время обучения, так и тестирования. [4]
Mamba, основанная на модели S4, вносит значительные улучшения, особенно в обработке операций, изменяющихся во времени. Центральным элементом его конструкции является уникальный механизм выбора, который адаптирует параметры модели структурированного пространства состояний (SSM) на основе входных данных. [5] [1] Это позволяет Mamba выборочно концентрироваться на важной информации в последовательностях, эффективно отфильтровывая менее важные данные. Модель переходит от неизменной во времени к изменяющейся во времени структуре, что влияет как на вычисления, так и на эффективность системы. [1] [6]
Чтобы решить вычислительные проблемы, возникающие из-за этой разницы во времени, Mamba использует аппаратно-ориентированный алгоритм. Этот алгоритм обеспечивает эффективные вычисления на современном оборудовании, таком как графические процессоры, за счет использования слияния ядер, параллельного сканирования и повторных вычислений. [1] Реализация позволяет избежать материализации расширенных состояний в слоях, интенсивно использующих память, тем самым оптимизируя производительность и использование памяти. Результатом является архитектура, которая значительно более эффективна при обработке длинных последовательностей по сравнению с предыдущими методами. [1] [6]
Кроме того, Mamba упрощает свою архитектуру за счет интеграции конструкции SSM с блоками MLP, что приводит к однородной и оптимизированной структуре, расширяя возможности модели для общего моделирования последовательностей различных типов данных, включая язык, аудио и геномику, сохраняя при этом эффективность как при обучении, так и при обучении. и вывод. [1]
Ключевые компоненты [ править ]
- Пространства выборочных состояний (SSM): Ядро Mamba, SSM — это рекуррентные модели, которые выборочно обрабатывают информацию на основе текущих входных данных. Это позволяет им сосредоточиться на важной информации и отбросить ненужные данные, что потенциально приводит к эффективной обработке. [7]
- Упрощенная архитектура: Mamba заменяет сложные блоки внимания и MLP Transformers одним унифицированным блоком SSM. Это направлено на снижение вычислительной сложности и повышение скорости вывода. [7]
- Аппаратно-ориентированный параллелизм: Mamba использует рекуррентный режим с параллельным алгоритмом, специально разработанным для повышения эффективности оборудования, что потенциально еще больше повышает его производительность. [7]
с Трансформерами Сравнение
Особенность | Трансформатор | Мамба |
---|---|---|
Архитектура | Основанный на внимании | на основе SSM |
Сложность | Высокий | Ниже |
Скорость вывода | O(n) | O(1) |
Скорость обучения | O(n2) | O(n) |
Варианты [ править ]
Языковые модели без токенов: MambaByte [ править ]
Работая с токенами размером в байт, преобразователи плохо масштабируются, поскольку каждый токен должен «обслуживать» каждый другой токен, что приводит к O(n2)
законы масштабирования, в результате Трансформеры предпочитают использовать токенизацию подслов, чтобы уменьшить количество токенов в тексте, однако это приводит к очень большим словарным таблицам и встраиваниям слов .
В этом исследовании рассматривается новый подход к языковому моделированию MambaByte, который отличается от стандартных методов, основанных на токенах. В отличие от традиционных моделей, которые полагаются на разбиение текста на отдельные единицы, MambaByte напрямую обрабатывает необработанные последовательности байтов. Это устраняет необходимость в токенизации и потенциально дает несколько преимуществ: [8]
- Независимость от языка. Токенизация часто опирается на правила и словарь, специфичные для языка, что ограничивает применимость на разных языках. Представление MambaByte на уровне байтов позволяет ему работать с разными языками без адаптации к конкретному языку.
- Устраняет предвзятость токенизации подслов: когда общие подслова перепредставлены, а редкие или новые слова недостаточно представлены или разделены на менее значимые единицы. Это может повлиять на понимание и возможности генерации модели, особенно для языков с богатой морфологией или токенами, которые недостаточно хорошо представлены в обучающих данных.
- Простота предварительной обработки : упрощает конвейер предварительной обработки, устраняя необходимость в сложной токенизации и управлении словарем, уменьшая количество шагов предварительной обработки и потенциальных ошибок.
Токенизация подслов привносит в LLM ряд особенностей, таких как режимы сбоя, когда LLM не могут писать слова, переворачивать определенные слова, обрабатывать редкие токены, которых нет при токенизации на уровне байтов. [9]
Андрей Карпати , основатель OpenAI, заявил: « Вечная слава каждому, кто сможет отменить токенизацию как обязательный шаг в программе LLM» . [9]
Мамба Смесь экспертов (MOE) [ править ]
MoE Mamba представляет собой новаторскую интеграцию метода Mixture of Experts (MoE) с архитектурой Mamba, повышающую эффективность и масштабируемость моделей пространства состояний (SSM) при языковом моделировании. Эта модель использует сильные стороны как Министерства образования, так и SSM, достигая значительного повышения эффективности обучения — требуя в 2,2 раза меньше этапов обучения, чем ее предшественница, «Мамба», сохраняя при этом конкурентоспособные показатели. MoE Mamba демонстрирует повышенную эффективность и результативность за счет сочетания выборочного моделирования в пространстве состояний с экспертной обработкой, предлагая многообещающее направление для будущих исследований в области масштабирования SSM для обработки десятков миллиардов параметров. Конструкция модели предполагает чередование слоев Mamba и MoE, что позволяет эффективно интегрировать весь контекст последовательности и применять наиболее подходящего эксперта для каждого токена. [10] [11]
Видение Мамба [ править ]
Vision Mamba (Vim) интегрирует SSM с обработкой визуальных данных, используя двунаправленные блоки Mamba для кодирования визуальных последовательностей. Этот метод снижает вычислительные требования, обычно связанные с самообслуживанием при выполнении визуальных задач. Протестированный на классификацию ImageNet , обнаружение объектов COCO и семантическую сегментацию ADE20k, Vim демонстрирует повышенную производительность и эффективность и способен обрабатывать изображения высокого разрешения с меньшими вычислительными ресурсами. Это позиционирует Vim как масштабируемую модель для будущих достижений в обучении визуальному представлению. [12]
Джамба [ править ]
Jamba — это новая архитектура, построенная на гибридном трансформаторе и архитектуре Mamba SSM, разработанная AI21 Labs с 52 миллиардами параметров, что делает ее крупнейшим вариантом Mamba, созданным на данный момент. Он имеет контекстное окно из 256 тысяч токенов. [13]
и Влияние направления будущие
Mamba LLM представляет собой значительный потенциальный сдвиг в архитектуре больших языковых моделей, предлагая более быстрые, эффективные и масштабируемые модели.
Его потенциальное влияние огромно, включая приложения для языкового перевода в реальном времени, генерации контента, анализа длинного текста, обработки звука и речи. Продолжаются дальнейшие исследования, направленные на изучение возможностей и потенциала Mamba для еще более разнообразных приложений.
См. также [ править ]
- Языковое моделирование
- Трансформатор (модель машинного обучения)
- Модель пространства состояний
- Рекуррентная нейронная сеть
Ссылки [ править ]
- ^ Jump up to: Перейти обратно: а б с д и ж г Гу, Альберт; Дао, Три (2023). «Мамба: моделирование последовательностей линейного времени с выборочными пространствами состояний». arXiv : 2312.00752 [ cs.LG ].
- ^ Чоудхури, Хасан. «Технология, лежащая в основе ChatGPT, не сделает ИИ таким же умным, как люди. Другие могут» . Бизнес-инсайдер . Проверено 13 января 2024 г.
- ^ Панди, Мохит (6 декабря 2023 г.). «Мамба здесь, чтобы отметить конец Трансформеров» . Журнал Analytics India . Проверено 13 января 2024 г.
- ^ Гу, Альберт; Гоэл, Каран; Ре, Кристофер (6 октября 2021 г.). «Эффективное моделирование длинных последовательностей с помощью структурированных пространств состояний» . ИКЛР . arXiv : 2111.00396 . Проверено 13 января 2024 г.
- ^ Гу, Альберт; Джонсон, Исис; Гоэл, Каран; Сааб, Халед Камаль; Дао, Три; Рудра, А.; Р'э, Кристофер (26 октября 2021 г.). «Объединение рекуррентных, сверточных моделей и моделей непрерывного времени с линейными слоями пространства состояний». НейриПС . S2CID 239998472 .
- ^ Jump up to: Перейти обратно: а б Тику, Аниш (10 декабря 2023 г.). «Исследователи из CMU и Принстона представляют Mamba: революционную архитектуру SSM, превосходящую эффективность трансформатора для мультимодальных приложений глубокого обучения» . МаркТехПост . Проверено 13 января 2024 г.
- ^ Jump up to: Перейти обратно: а б с Гу, Альберт; Дао, Три (01 декабря 2023 г.), Мамба: моделирование линейно-временных последовательностей с выборочными пространствами состояний , arXiv : 2312.00752 , получено 23 февраля 2024 г.
- ^ Ван, Цзюньсюн; Гангаварапу, Тушаар; Ян, Цзин Натан; Раш, Александр М. (24 января 2024 г.), MambaByte: Модель пространства выборочных состояний без токенов , arXiv : 2401.13660 , получено 23 февраля 2024 г.
- ^ Jump up to: Перейти обратно: а б Давайте создадим токенизатор GPT , полученный 23 февраля 2024 г.
- ^ Пиоро, Мацей; Тайра, Камил; Кинг, Кристиан; Люджевский, Ян; Ящур, Себастьян (08 января 2024 г.), MoE-Mamba: Efficient Selective State Space Models with a Mix of Experts , arXiv : 2401.04081 , получено 23 февраля 2024 г.
- ^ Нихил (13 января 2024 г.). «В этом документе по искусственному интеллекту предлагается MoE-Mamba: революция в машинном обучении с помощью усовершенствованных моделей пространства состояний и сочетания экспертов MoE, превосходящих как Mamba, так и Transformer-MoE по отдельности» . МаркТехПост . Проверено 23 февраля 2024 г.
- ^ Чжу, Лянхуэй; Ляо, Бэньчэн; Чжан, Цянь; Ван, Синьлун; Лю, Вэньюй; Ван, Синган (10 февраля 2024 г.), Vision Mamba: эффективное обучение визуальному представлению с помощью двунаправленной модели пространства состояний , arXiv : 2401.09417 , получено 23 февраля 2024 г.
- ^ «Представляем Jamba: новаторскую модель SSM-трансформатора AI21» . www.ai21.com . Проверено 29 марта 2024 г.