~~~~~~~~~~~~~~~~~~~~ Arc.Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~ 
Номер скриншота №:
✰ 5ED5115C8A1F0E80C670D06B2EDD6A96__1714029180 ✰
Заголовок документа оригинал.:
✰ Mamba (deep learning architecture) - Wikipedia ✰
Заголовок документа перевод.:
✰ Мамба (архитектура глубокого обучения) — Википедия ✰
Снимок документа находящегося по адресу (URL):
✰ https://en.wikipedia.org/wiki/Mamba_(deep_learning) ✰
Адрес хранения снимка оригинал (URL):
✰ https://arc.ask3.ru/arc/aa/5e/96/5ed5115c8a1f0e80c670d06b2edd6a96.html ✰
Адрес хранения снимка перевод (URL):
✰ https://arc.ask3.ru/arc/aa/5e/96/5ed5115c8a1f0e80c670d06b2edd6a96__translat.html ✰
Дата и время сохранения документа:
✰ 09.06.2024 13:46:52 (GMT+3, MSK) ✰
Дата и время изменения документа (по данным источника):
✰ 25 April 2024, at 10:13 (UTC). ✰ 

~~~~~~~~~~~~~~~~~~~~~~ Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~~ 
Сервисы Ask3.ru: 
 Архив документов (Снимки документов, в формате HTML, PDF, PNG - подписанные ЭЦП, доказывающие существование документа в момент подписи. Перевод сохраненных документов на русский язык.)https://arc.ask3.ruОтветы на вопросы (Сервис ответов на вопросы, в основном, научной направленности)https://ask3.ru/answer2questionТоварный сопоставитель (Сервис сравнения и выбора товаров) ✰✰
✰ https://ask3.ru/product2collationПартнерыhttps://comrades.ask3.ru


Совет. Чтобы искать на странице, нажмите Ctrl+F или ⌘-F (для MacOS) и введите запрос в поле поиска.
Arc.Ask3.ru: далее начало оригинального документа

Мамба (архитектура глубокого обучения) — Википедия Jump to content

Мамба (архитектура глубокого обучения)

Из Википедии, бесплатной энциклопедии
(Перенаправлено с Мамбы (глубокое обучение) )

Mamba — это архитектура глубокого обучения, ориентированная на моделирование последовательностей. Он был разработан исследователями из Университета Карнеги-Меллона и Принстонского университета для устранения некоторых ограничений моделей трансформаторов , особенно при обработке длинных последовательностей. Он основан на модели последовательности структурированного пространства состояний (S4). [1] [2] [3]

Архитектура [ править ]

Чтобы обеспечить обработку длинных последовательностей данных, Mamba включает модель последовательности структурированного пространства состояний (S4). [1] S4 может эффективно и результативно моделировать длинные зависимости, сочетая сильные стороны непрерывных, рекуррентных и сверточных моделей, что позволяет ему обрабатывать данные с нерегулярной выборкой, иметь неограниченный контекст и сохранять вычислительную эффективность как во время обучения, так и тестирования. [4]

Мамба, основанная на модели S4, вносит значительные улучшения, особенно в обработке операций, изменяющихся во времени. Центральным элементом его конструкции является уникальный механизм выбора, который адаптирует параметры модели структурированного пространства состояний (SSM) на основе входных данных. [5] [1] Это позволяет Mamba выборочно концентрироваться на важной информации в последовательностях, эффективно отфильтровывая менее важные данные. Модель переходит от неизменной во времени к изменяющейся во времени структуре, что влияет как на вычисления, так и на эффективность системы. [1] [6]

Чтобы решить вычислительные проблемы, возникающие из-за этой разницы во времени, Mamba использует аппаратно-ориентированный алгоритм. Этот алгоритм обеспечивает эффективные вычисления на современном оборудовании, например на графических процессорах, за счет использования слияния ядер, параллельного сканирования и повторных вычислений. [1] Реализация позволяет избежать материализации расширенных состояний в слоях, интенсивно использующих память, тем самым оптимизируя производительность и использование памяти. Результатом является архитектура, которая значительно более эффективна при обработке длинных последовательностей по сравнению с предыдущими методами. [1] [6]

Кроме того, Mamba упрощает свою архитектуру за счет интеграции конструкции SSM с блоками MLP, что приводит к однородной и оптимизированной структуре, расширяя возможности модели для общего моделирования последовательностей различных типов данных, включая язык, аудио и геномику, сохраняя при этом эффективность как при обучении, так и при обучении. и вывод. [1]

Ключевые компоненты [ править ]

  • Пространства выборочных состояний (SSM): Ядро Mamba, SSM — это рекуррентные модели, которые выборочно обрабатывают информацию на основе текущих входных данных. Это позволяет им сосредоточиться на важной информации и отбросить ненужные данные, что потенциально приводит к эффективной обработке. [7]
  • Упрощенная архитектура: Mamba заменяет сложные блоки внимания и MLP Transformers одним унифицированным блоком SSM. Это направлено на снижение вычислительной сложности и повышение скорости вывода. [7]
  • Аппаратно-ориентированный параллелизм: Mamba использует рекуррентный режим с параллельным алгоритмом, специально разработанным для повышения эффективности оборудования, что потенциально еще больше повышает его производительность. [7]

с Трансформерами Сравнение

Особенность Трансформатор Мамба
Архитектура Основанный на внимании на основе SSM
Сложность Высокий Ниже
Скорость вывода O(n) O(1)
Скорость обучения O(n2) O(n)

Варианты [ править ]

Языковые модели без токенов: MambaByte [ править ]

Работая с токенами размером в байт, преобразователи плохо масштабируются, поскольку каждый токен должен «обслуживать» каждый другой токен, что приводит к O(n2) законы масштабирования, в результате Трансформеры предпочитают использовать токенизацию подслов, чтобы уменьшить количество токенов в тексте, однако это приводит к очень большим словарным таблицам и встраиваниям слов .

В этом исследовании рассматривается новый подход к языковому моделированию MambaByte, который отличается от стандартных методов, основанных на токенах. В отличие от традиционных моделей, которые полагаются на разбиение текста на отдельные единицы, MambaByte напрямую обрабатывает необработанные последовательности байтов. Это устраняет необходимость в токенизации и потенциально дает несколько преимуществ: [8]

  • Независимость от языка. Токенизация часто опирается на правила и словарь, специфичные для языка, что ограничивает применимость на разных языках. Представление MambaByte на уровне байтов позволяет ему работать с разными языками без адаптации к конкретному языку.
  • Устраняет предвзятость токенизации подслов: когда общие подслова перепредставлены, а редкие или новые слова недостаточно представлены или разделены на менее значимые единицы. Это может повлиять на понимание и возможности генерации модели, особенно для языков с богатой морфологией или токенами, которые недостаточно хорошо представлены в обучающих данных.
  • Простота предварительной обработки : упрощает конвейер предварительной обработки, устраняя необходимость в сложной токенизации и управлении словарем, уменьшая количество шагов предварительной обработки и потенциальных ошибок.

Токенизация подслов привносит в LLM ряд особенностей, таких как режимы сбоя, когда LLM не могут писать слова, переворачивать определенные слова, обрабатывать редкие токены, которых нет при токенизации на уровне байтов. [9]

Андрей Карпати , основатель OpenAI, заявил: « Вечная слава каждому, кто сможет отменить токенизацию как обязательный шаг в программе LLM» . [9]

Мамба Смесь экспертов (MOE) [ править ]

MoE Mamba представляет собой новаторскую интеграцию метода Mixture of Experts (MoE) с архитектурой Mamba, повышающую эффективность и масштабируемость моделей пространства состояний (SSM) при языковом моделировании. Эта модель использует сильные стороны как Министерства образования, так и SSM, достигая значительного повышения эффективности обучения — требуя в 2,2 раза меньше этапов обучения, чем ее предшественница, «Мамба», при этом сохраняя конкурентоспособность. MoE Mamba демонстрирует повышенную эффективность и результативность за счет сочетания выборочного моделирования в пространстве состояний с экспертной обработкой, предлагая многообещающее направление для будущих исследований в области масштабирования SSM для обработки десятков миллиардов параметров. Конструкция модели предполагает чередование слоев Mamba и MoE, что позволяет эффективно интегрировать весь контекст последовательности и применять наиболее подходящего эксперта для каждого токена. [10] [11]

Видение Мамба [ править ]

Vision Mamba (Vim) интегрирует SSM с обработкой визуальных данных, используя двунаправленные блоки Mamba для кодирования визуальных последовательностей. Этот метод снижает вычислительные требования, обычно связанные с самообслуживанием при выполнении визуальных задач. Протестированный на классификации ImageNet , обнаружении объектов COCO и семантической сегментации ADE20k, Vim демонстрирует повышенную производительность и эффективность и способен обрабатывать изображения высокого разрешения с меньшими вычислительными ресурсами. Это позиционирует Vim как масштабируемую модель для будущих достижений в обучении визуальному представлению. [12]

Джамба [ править ]

Jamba — это новая новая архитектура, построенная на гибридном трансформаторе и архитектуре Mamba SSM, разработанная AI21 Labs с 52 миллиардами параметров, что делает ее крупнейшим вариантом Mamba, созданным на данный момент. Он имеет контекстное окно из 256 тысяч токенов. [13]

и направления Влияние будущие

Mamba LLM представляет собой значительный потенциальный сдвиг в архитектуре больших языковых моделей, предлагая более быстрые, эффективные и масштабируемые модели.

Его потенциальное влияние огромно, включая приложения для языкового перевода в реальном времени, генерации контента, анализа длинного текста, обработки звука и речи. Продолжаются дальнейшие исследования, направленные на изучение возможностей и потенциала Mamba для еще более разнообразных приложений.

См. также [ править ]

Ссылки [ править ]

  1. ^ Перейти обратно: а б с д Это ж г Гу, Альберт; Дао, Три (2023). «Мамба: моделирование последовательностей линейного времени с выборочными пространствами состояний». arXiv : 2312.00752 [ cs.LG ].
  2. ^ Чоудхури, Хасан. «Технология, лежащая в основе ChatGPT, не сделает ИИ таким же умным, как люди. Другие могут» . Бизнес-инсайдер . Проверено 13 января 2024 г.
  3. ^ Панди, Мохит (6 декабря 2023 г.). «Мамба здесь, чтобы отметить конец Трансформеров» . Журнал Analytics India . Проверено 13 января 2024 г.
  4. ^ Гу, Альберт; Гоэл, Каран; Ре, Кристофер (6 октября 2021 г.). «Эффективное моделирование длинных последовательностей с помощью структурированных пространств состояний» . ИКЛР . arXiv : 2111.00396 . Проверено 13 января 2024 г.
  5. ^ Гу, Альберт; Джонсон, Исис; Гоэл, Каран; Сааб, Халед Камаль; Дао, Три; Рудра, А.; Р'э, Кристофер (26 октября 2021 г.). «Объединение рекуррентных, сверточных моделей и моделей непрерывного времени с линейными слоями пространства состояний». НейриПС . S2CID   239998472 .
  6. ^ Перейти обратно: а б Тику, Аниш (10 декабря 2023 г.). «Исследователи из CMU и Принстона представляют Mamba: революционную архитектуру SSM, превосходящую эффективность трансформатора для мультимодальных приложений глубокого обучения» . МаркТехПост . Проверено 13 января 2024 г.
  7. ^ Перейти обратно: а б с Гу, Альберт; Дао, Три (01 декабря 2023 г.), Мамба: моделирование линейно-временных последовательностей с выборочными пространствами состояний , arXiv : 2312.00752 , получено 23 февраля 2024 г.
  8. ^ Ван, Цзюньсюн; Гангаварапу, Тушаар; Ян, Цзин Натан; Раш, Александр М. (24 января 2024 г.), MambaByte: Модель пространства выборочных состояний без токенов , arXiv : 2401.13660 , получено 23 февраля 2024 г.
  9. ^ Перейти обратно: а б Давайте создадим токенизатор GPT , полученный 23 февраля 2024 г.
  10. ^ Пиоро, Мацей; Тайра, Камил; Кинг, Кристиан; Люджевский, Ян; Ящур, Себастьян (08 января 2024 г.), MoE-Mamba: Efficient Selective State Space Models with a Mix of Experts , arXiv : 2401.04081 , получено 23 февраля 2024 г.
  11. ^ Нихил (13 января 2024 г.). «В этом документе по искусственному интеллекту предлагается MoE-Mamba: революция в машинном обучении с помощью усовершенствованных моделей пространства состояний и сочетания экспертов MoE, превосходящих как Mamba, так и Transformer-MoE по отдельности» . МаркТехПост . Проверено 23 февраля 2024 г.
  12. ^ Чжу, Лянхуэй; Чжан, Цянь; Ван, Синьлун; Ван, Синган (10 февраля 2024 г.), Vision Mamba: эффективное обучение визуальному представлению с помощью двунаправленной модели пространства состояний , arXiv : 2401.09417 , получено в 2024 г. -02-23
  13. ^ «Представляем Jamba: новаторскую модель SSM-трансформатора AI21» . www.ai21.com . Проверено 29 марта 2024 г.
Arc.Ask3.Ru: конец оригинального документа.
Arc.Ask3.Ru
Номер скриншота №: 5ED5115C8A1F0E80C670D06B2EDD6A96__1714029180
URL1:https://en.wikipedia.org/wiki/Mamba_(deep_learning)
Заголовок, (Title) документа по адресу, URL1:
Mamba (deep learning architecture) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть, любые претензии не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, денежную единицу можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)