Лама (языковая модель)

Звонки
Разработчик(и)	Мета ИИ
Первоначальный выпуск	24 февраля 2023 г .; 17 месяцев назад
Стабильная версия	Лама 3.1 / 23 июля 2024 г .; 10 дней назад
Репозиторий	github .с /мета-пламя /llama3
Написано в	Питон
Тип	Большая языковая модель ; GPT ; Модель фундамента ;
Лицензия	Лицензия сообщества Meta Llama 3
Веб-сайт	звонки .мета .с

Llama (аббревиатура от Large Language Model Meta AI , ранее стилизованная под LLaMA ) — это семейство авторегрессионных моделей большого языка (LLM), выпущенных Meta AI начиная с февраля 2023 года. ^[2]^[3] Последняя версия — Llama 3.1, выпущенная в июле 2024 года. ^[4]

Веса моделей для первой версии Llama были предоставлены исследовательскому сообществу по некоммерческой лицензии, и доступ предоставлялся в индивидуальном порядке. ^[5]^[3] Несанкционированные копии модели были распространены через BitTorrent . В ответ Meta AI направила запросы на удаление DMCA репозиториям, которые делились ссылкой на GitHub . ^[6]^[7] Последующие версии Llama стали доступны за пределами академических кругов и выпущены по лицензиям, разрешающим некоторое коммерческое использование. ^[8]^[9] Модели лам обучаются с разными размерами параметров: от 7B до 405B. ^[4] Первоначально Llama была доступна только в качестве базовой модели . ^[10] Начиная с Llama 2, Meta AI начала выпускать доработанные версии инструкций наряду с базовыми моделями. ^[9]

Одновременно с выпуском Llama 3 Meta добавила виртуального помощника функции в Facebook и WhatsApp в некоторых регионах, а также отдельный веб-сайт. Оба сервиса используют модель Llama 3. ^[11]

Фон

После выпуска больших языковых моделей, таких как GPT-3 , в центре внимания исследований было масштабирование моделей, которые в некоторых случаях показали значительное увеличение новых возможностей. ^[12] Выпуск ChatGPT и его неожиданный успех вызвал рост внимания к большим языковым моделям. ^[13]

По сравнению с другими ответами на ChatGPT, главный ученый Meta по искусственному интеллекту Янн ЛеКун заявил, что большие языковые модели лучше всего помогают писать. ^[14]^[15]^[16]

Первоначальный выпуск

О LLaMA было объявлено 24 февраля 2023 года в сообщении в блоге и в документе, описывающем модели . обучение , архитектуру и производительность ^[2]^[3] Код вывода, используемый для запуска модели, был публично выпущен под лицензией GPLv3 с открытым исходным кодом . ^[17] Доступ к весам модели управлялся посредством процесса подачи заявки, при этом доступ предоставлялся «в каждом конкретном случае академическим исследователям; лицам, связанным с правительственными организациями, гражданским обществом и научными кругами; а также отраслевым исследовательским лабораториям по всему миру». ". ^[3]

Лама обучалась только на общедоступной информации и обучалась на моделях разных размеров с намерением сделать ее более доступной для различного оборудования.

Meta AI сообщила, что производительность модели с параметрами 13B в большинстве тестов NLP превысила производительность гораздо более крупной модели GPT-3 (с параметрами 175B), а самая большая модель с параметрами 65B была конкурентоспособна с современными моделями, такими как PaLM и Chinchilla . ^[2]

Утечка

3 марта 2023 года был загружен торрент, содержащий веса LLaMA, со ссылкой на торрент, размещенной на имиджборде 4chan и впоследствии распространенной в онлайн-сообществах искусственного интеллекта. ^[6] В тот же день был открыт запрос на включение в основной репозиторий LLaMA с просьбой добавить магнитную ссылку в официальную документацию. ^[18]^[19] 4 марта был открыт пул-реквест на добавление ссылок на репозитории HuggingFace , содержащие модель. ^[20]^[18] 6 марта Meta подала запросы на удаление репозиториев HuggingFace, связанных с запросом на включение, охарактеризовав это как «несанкционированное распространение» модели. HuggingFace выполнил просьбы. ^[21] 20 марта Meta подала запрос на удаление DMCA за нарушение авторских прав в отношении репозитория, содержащего скрипт, который загружал LLaMA с зеркала, и GitHub подчинился на следующий день. ^[7]

Реакция на утечку была разной. Некоторые предполагали, что эта модель будет использоваться в злонамеренных целях, например, для рассылки более изощренного спама . Некоторые отметили доступность модели, а также тот факт, что ее уменьшенные версии можно использовать относительно дешево, предполагая, что это будет способствовать процветанию дополнительных исследовательских разработок. ^[6] Многие комментаторы, такие как Саймон Уиллисон , сравнивали LLaMA со Stable Diffusion , моделью преобразования текста в изображение , которая, в отличие от сравнительно сложных моделей, предшествовавших ей, была открыто распространена, что привело к быстрому распространению связанных с ней инструментов, методов и программного обеспечения. ^[6]^[22]

Позвоните 2

18 июля 2023 года в партнёрстве с Microsoft компания Meta анонсировала Llama 2, следующее поколение Llama. Meta обучила и выпустила Llama 2 в трех размерах модели: 7, 13 и 70 миллиардов параметров. ^[9] Архитектура модели практически не изменилась по сравнению с моделями LLaMA-1, но для обучения базовых моделей было использовано на 40% больше данных. ^[23] Сопроводительный препринт ^[23] также упоминается модель с параметрами 34B, которая может быть выпущена в будущем после достижения целей безопасности.

Llama 2 включает в себя базовые модели и модели, специально настроенные для общения в чате. В отличие от LLaMA, все модели выпускаются с весами и бесплатны для многих случаев коммерческого использования. Однако из-за некоторых оставшихся ограничений описание LLaMA в Meta как открытого исходного кода было оспорено Инициативой открытого исходного кода (известной тем, что поддерживает определение открытого исходного кода ). ^[24]

Code Llama — это усовершенствованная версия Llama 2 с наборами данных, специфичными для кода. Версии 7B, 13B и 34B были выпущены 24 августа 2023 года, а версия 70B — 29 января 2024 года. ^[25] Начиная с базовых моделей из Llama 2, Meta AI будет обучать дополнительные 500 миллиардов токенов наборов кодовых данных, а затем дополнительные 20 миллиардов токенов данных с длинным контекстом, создавая базовые модели Code Llama. Эта базовая модель была дополнительно обучена инструкции 5B, следующей за токеном, для создания точной настройки инструкций. Еще одна базовая модель была создана для кода Python, который обучался на 100 миллиардах токенов кода только для Python перед данными с длинным контекстом. ^[26]

Звонок 3

18 апреля 2024 года Мета выпустила Llama-3 с двумя размерами: параметрами 8B и 70B. ^[27] Модели были предварительно обучены примерно на 15 триллионах токенов текста, собранных из «общедоступных источников», при этом модели инструкций были точно настроены на «общедоступные наборы данных инструкций, а также более 10 миллионов примеров, аннотированных человеком». Тестирование Meta AI показало. В апреле 2024 года Llama 3 70B превосходила Gemini pro 1.5 и Claude 3 Sonnet по большинству тестов. Meta также объявила о планах сделать Llama 3 многоязычной и мультимодальной , улучшить кодирование и рассуждение, а также увеличить контекстное окно. ^[28]^[29]

В интервью Дваркешу Пателю Марк Цукерберг сказал, что версия 8B Llama 3 была почти такой же мощной, как самая большая Llama 2. По сравнению с предыдущими моделями, Цукерберг заявил, что команда была удивлена тем, что модель 70B все еще обучалась даже в конце обучение токенам 15T. Было принято решение прекратить обучение, чтобы сосредоточить мощь графического процессора на другом месте. ^[30]

Лама-3.1 была выпущена 23 июля 2024 года и имела три размера: параметры 8B, 70B и 405B. ^[4]

Сравнение моделей

В столбце стоимости обучения указывается только стоимость самой большой модели. Так, например, «21 000» — это стоимость обучения Llama 2 69B в петафлопс-днях. Кроме того, 1 петафлопс-день = 1 петафлопс/сек × 1 день = 8,64E19 флоп.

Имя	Дата выпуска	Параметры	Стоимость обучения (петаФЛОП-день)	Длина контекста	Размер корпуса	Коммерческая жизнеспособность?
Звонки	24 февраля 2023 г.	6.7Б 13Б 32,5Б 65.2Б	6,300 ^[31]	2048	1–1,4 Тл	Нет
Позвоните 2	18 июля 2023 г.	6.7Б 13Б 69Б	21,000 ^[32]	4096	2Т	Да
Код Ламы	24 августа 2023 г.	6.7Б 13Б 33,7Б 69Б		4096	2Т
Звонок 3	18 апреля 2024 г.	8Б 70,6Б	100,000 ^[33]^[34]	8192	15Т
Звонок 3.1	23 июля 2024 г.	8Б 70,6Б 405Б	440,000 ^[35]^[36]	128,000	15Т

Архитектура и обучение

«Разговор Солнца и Плутона»

Сан: Эй, Плутон, как дела?
Плутон: Не так уж и много. Просто тусуюсь здесь, на краю солнечной системы.
Сан: Да, я хотел поговорить с тобой об этом. Ты больше не планета.
Плутон: Что? Давай, чувак. Это несправедливо.
Сан: Извините, но это правда. Вы просто больше не соответствуете критериям.
Плутон: Это чушь! Я был планетой более 70 лет!
Солнце: Все меняется, Плутон. Вам просто нужно это принять.
Плутон: Черт возьми, Солнце! К черту тебя и твою дурацкую солнечную систему!

– Вывод модели LLaMA с 65 миллиардами параметров после настройки инструкций с учетом подсказки «Напишите разговор между Солнцем и Плутоном». ^[2]

Архитектура

LLaMA использует архитектуру преобразователя , стандартную архитектуру языкового моделирования с 2018 года.

Есть незначительные архитектурные различия. По сравнению с GPT-3, LLaMA

использует SwiGLU ^[37] функция активации вместо GeLU;
использует поворотно-позиционные вложения ^[38] вместо абсолютного позиционного встраивания;
использует среднеквадратическую нормализацию слоя ^[39] вместо стандартной нормализации слоя. ^[40]
увеличивает длину контекста до 8 КБ в Llama 3 (по сравнению с 4 КБ в Llama 2 и 2 КБ в Llama 1 и GPT-3)

Наборы обучающих данных

Разработчики LLaMA сосредоточили свои усилия на масштабировании производительности модели за счет увеличения объема обучающих данных, а не количества параметров, мотивируя это тем, что доминирующие затраты для LLM связаны с выводом на основе обученной модели, а не с вычислительными затратами процесса обучения.

Базовые модели LLaMA 1 были обучены на наборе данных из 1,4 триллиона токенов, взятых из общедоступных источников данных, в том числе: ^[2]

Веб-страницы, очищенные CommonCrawl
Репозитории исходного кода с открытым исходным кодом из GitHub.
Arc.Ask3.Ru на 20 языках
общественным достоянием Книги, являющиеся , от Project Gutenberg
Books3 Набор данных книг
Исходный код LaTeX для научных статей, загруженный в ArXiv.
Вопросы и ответы с Stack Exchange сайтов

17 апреля 2023 года TogetherAI запустила проект RedPajama по воспроизведению и распространению с открытым исходным кодом . версии набора данных LLaMA ^[41] Набор данных содержит около 1,2 триллиона токенов и доступен для скачивания. ^[42]

Базовые модели Llama 2 были обучены на наборе данных из 2 триллионов токенов. Этот набор данных был создан для удаления веб-сайтов, которые часто раскрывают личные данные людей. Он также повышает выборку источников, которые считаются заслуживающими доверия. ^[23] Llama 2 – Chat был дополнительно доработан на основе 27 540 пар быстрого ответа, созданных для этого проекта, которые работали лучше, чем более крупные, но более низкого качества сторонние наборы данных. Для согласования ИИ использовалось обучение с подкреплением и обратной связью с человеком (RLHF) с комбинацией 1 418 091 метапримера и семи небольших наборов данных. Средняя глубина диалога составила 3,9 в примерах Meta, 3,0 для наборов Anthropic Helpful и Anthropic Harmless и 1,0 для пяти других наборов, включая OpenAI Summarize, StackExchange и т. д.

Llama 3 состоит в основном из данных на английском языке, причем более 5% — на более чем 30 других языках. Его набор данных был отфильтрован с помощью классификатора качества текста, а классификатор был обучен на основе текста, синтезированного с помощью Llama 2. ^[27]

Тонкая настройка

Модели Llama 1 доступны только в качестве базовых моделей с самоконтролируемым обучением и без тонкой настройки. Llama 2 — модели чата были созданы на основе базовых моделей Llama 2. В отличие от GPT-4, длина контекста которого увеличивалась во время тонкой настройки, Llama 2 и Code Llama – Chat имеют одинаковую длину контекста в токенах 4 КБ. При контролируемой точной настройке использовалась функция авторегрессии потерь, при которой потери токенов при запросах пользователя обнулялись. Размер партии составил 64.

Для согласования ИИ люди-аннотаторы писали подсказки, а затем сравнивали выходные данные двух моделей (двоичный протокол), указывая уровни достоверности и отдельные метки безопасности с правом вето. Две отдельные модели вознаграждения были обучены на основе этих предпочтений в отношении безопасности и полезности с использованием обучения с подкреплением на основе обратной связи с человеком (RLHF). Важным техническим вкладом является отказ от исключительного использования оптимизации проксимальной политики (PPO) для RLHF – был использован новый метод, основанный на выборке отклонения , а затем PPO.

Целесообразно улучшить многоходовую согласованность диалогов, чтобы гарантировать, что во время диалога соблюдаются «системные сообщения» (начальные инструкции, такие как «говорить по-французски» и «вести себя как Наполеон»). Это было достигнуто с использованием новой техники «Призрачного внимания» во время обучения, которая объединяет соответствующие инструкции с каждым новым сообщением пользователя, но обнуляет функцию потери для токенов в подсказке (более ранние части диалога).

Приложения

Центр исследований базовых моделей (CRFM) Института Стэнфордского университета человеко -ориентированного искусственного интеллекта «Самообучение» (HAI) выпустил Alpaca, рецепт обучения, основанный на модели LLaMA 7B, который использует метод настройки инструкций для приобретения сопоставимых возможностей. к модели OpenAI GPT-3 серии text-davinci-003 по скромной цене. ^[43]^[44]^[45] Файлы модели были официально удалены 21 марта 2023 года из-за затрат на хостинг и соображений безопасности, хотя код и документ остаются в сети для справки. ^[46]^[47]^[48]

Meditron — это семейство продуктов на базе Llama, доработанное на базе клинических руководств, статей PubMed и статей. Он был создан исследователями из Школы компьютерных и коммуникационных наук Федеральной политехнической школы Лозанны и Йельской школы медицины . Он демонстрирует рост производительности по медицинским показателям, таким как MedQA и MedMCQA. ^[49]^[50]^[51]

Zoom использовал Meta Llama 2 для создания AI Companion, который может подводить итоги встреч, давать полезные советы по презентациям и помогать с ответами на сообщения. Этот AI Companion работает на нескольких моделях, включая Meta Llama 2. ^[52]

вызов.cpp

Разработчик программного обеспечения Георгий Герганов выпустил llama.cpp с открытым исходным кодом 10 марта 2023 года. Это повторная реализация LLaMA на C++ , позволяющая системам без мощного графического процессора запускать модель локально. ^[53] Проект llama.cpp представил формат файлов GGUF — двоичный формат, в котором хранятся как тензоры, так и метаданные. ^[54] Формат ориентирован на поддержку различных типов квантования, что может уменьшить использование памяти и увеличить скорость за счет снижения точности модели. ^[55]

llamafile, созданный Джастин Танни, представляет собой инструмент с открытым исходным кодом, который объединяет llama.cpp с моделью в один исполняемый файл. Танни и др. ал. представила новые оптимизированные ядра матричного умножения для процессоров x86 и ARM, улучшающие производительность быстрого вычисления для FP16 и 8-битных квантованных типов данных. ^[56]

Прием

Wired описывает версию Llama 3 с параметром 8B как «удивительно функциональную», учитывая ее размер. ^[57]

Реакция на интеграцию Llama компанией Meta в Facebook была неоднозначной: некоторые пользователи были в замешательстве после того, как Meta AI сообщил родительской группе, что у нее есть ребенок. ^[58]

Согласно отчету о доходах за четвертый квартал 2023 года, Meta приняла стратегию открытых весов, чтобы повысить безопасность модели, скорость итерации, повысить популярность среди разработчиков и исследователей и стать отраслевым стандартом. Ламы 5, 6 и 7 запланированы на будущее. ^[59]

См. также

Ссылки

^ "llama3/LICENSE at main · мета-лама/llama3" . Гитхаб .
^ Jump up to: ^а ^б ^с ^д ^и Туврон, Гюго; Лавриль, Тибо; Изакар, Готье; Мартине, Ксавье; Лашо, Мари-Анн; Лакруа, Тимоти; Розьер, Батист; Гоял, Наман; Хамбро, Эрик; Ажар, Фейсал; Родригес, Орельен; Жулен, Арман; Грейв, Эдвард; Лампле, Гийом (2023). «LLaMA: открытые и эффективные базовые языковые модели». arXiv : 2302.13971 [ cs.CL ].
^ Jump up to: ^а ^б ^с ^д «Представляем LLaMA: фундаментальную языковую модель с 65 миллиардами параметров» . Мета ИИ . 24 февраля 2023 г.
^ Jump up to: ^а ^б ^с «Представляем Llama 3.1: наши самые функциональные модели на сегодняшний день» . ai.meta.com . 23 июля 2024 г. Проверено 23 июля 2024 г.
^ Малик, Юврадж; Пол, Кэти (25 февраля 2023 г.). «Meta разжигает гонку вооружений в области искусственного интеллекта в крупных технологических компаниях новой языковой моделью» . Рейтер.
^ Jump up to: ^а ^б ^с ^д Винсент, Джеймс (8 марта 2023 г.). «Мощная языковая модель искусственного интеллекта Meta просочилась в сеть — что теперь происходит?» . Грань .
^ Jump up to: ^а ^б ООО «ОпСек Онлайн» (21 марта 2023 г.). «github/dmca — Уведомление о заявленном нарушении по электронной почте» . Гитхаб . Проверено 25 марта 2023 г.
^ Дэвид, Эмилия (30 октября 2023 г.). «Руководитель отдела исследования искусственного интеллекта компании Meta хочет изменить лицензию на открытый исходный код» . Грань .
^ Jump up to: ^а ^б ^с «Meta и Microsoft представляют новое поколение LLaMA» . Мета . 18 июля 2023 г. Проверено 21 июля 2023 г.
^ Питерс, Джей; Винсент, Джеймс (24 февраля 2023 г.). «У Meta есть новая языковая модель машинного обучения, которая напомнит вам, что она тоже занимается искусственным интеллектом» . Грань .
^ «Встречайте своего нового помощника: мета-ИИ, созданный с помощью Llama 3» . Мета . 18 апреля 2024 г.
^ «Изучение новых способностей в больших языковых моделях» . hai.stanford.edu . 13 сентября 2022 г.
^ «Внутренняя история того, как ChatGPT был создан людьми, которые его создали» . Обзор технологий Массачусетского технологического института .
^ «ChatGPT не является «особенно инновационным» и «ничего революционного», — говорит главный специалист по искусственному интеллекту Meta» . ЗДНЕТ .
^ Бадминтон, Ник (13 февраля 2023 г.). «Ян ЛеКун из Meta об авторегрессионных моделях большого языка (LLM)» . Футурист.com .
^ «Ян ЛеКун в LinkedIn: Мое непоколебимое мнение о текущих (авторегрессивных) программах магистратуры» . www.linkedin.com .
^ «лама» . Гитхаб . Проверено 16 марта 2023 г.
^ Jump up to: ^а ^б ВК, Анируд (6 марта 2023 г.). «LLaMA Меты стала достоянием общественности благодаря 4chan» . Журнал Analytics India . Проверено 17 марта 2023 г.
^ «Экономьте пропускную способность, используя торрент для более эффективного распространения», ChristopherKing42 · Pull Request #73 · facebookresearch/llama» . Гитхаб . Проверено 25 марта 2023 г.
^ «Загрузите веса с обнимающего лица, чтобы помочь нам сэкономить трафик, от Jainam213 · Запрос на извлечение № 109 · facebookresearch/llama» . Гитхаб . Проверено 17 марта 2023 г.
^ Кокс, Джозеф (7 марта 2023 г.). «Мощная языковая модель Facebook просочилась в сеть» . Порок . Проверено 17 марта 2023 г.
^ Уиллисон, Саймон (11 марта 2023 г.). «Большие языковые модели переживают момент стабильного распространения» . Блог Саймона Уиллисона .
^ Jump up to: ^а ^б ^с Туврон, Гюго; Мартин, Луи; и др. (18 июля 2023 г.). «LLaMA-2: Открытый фундамент и точно настроенные модели чата». arXiv : 2307.09288 [ cs.CL ].
^ Эдвардс, Бендж (18 июля 2023 г.). «Meta запускает LLaMA-2, модель искусственного интеллекта с доступными исходными кодами, которая позволяет использовать коммерческие приложения [обновлено]» . Арс Техника . Проверено 8 августа 2023 г.
^ «Представляем Code Llama, современную модель большого языка для кодирования» . ai.meta.com .
^ Розьер, Батист; Геринг, Йонас; Глекль, Фабиан; Сутла, Стен; Гат, Итай; Тан, Сяоцин Эллен; Ади, Йосси; Лю, Цзинъюй; Совестр, Ромен (31 января 2024 г.). «Кодовая лама: модели открытого фундамента для кода». arXiv : 2308.12950 [ cs.CL ].
^ Jump up to: ^а ^б «Представляем Meta Llama 3: самый мощный на сегодняшний день открытый LLM» . ai.meta.com . 18 апреля 2024 г. Проверено 21 апреля 2024 г.
^ Виггерс, Кайл (18 апреля 2024 г.). «Meta выпускает Llama 3 и утверждает, что это одна из лучших доступных открытых моделей» . ТехКранч .
^ Манн, Тобиас (19 апреля 2024 г.). «Meta представляет большую языковую модель Llama третьего поколения» . Регистр .
^ Патель, Дваркеш (24 июля 2024 г.). «Марк Цукерберг — Лама 3, модели с открытым исходным кодом стоимостью 10 миллиардов долларов и Цезарь Август» . www.dwarkeshpatel.com . Проверено 1 августа 2024 г. 8 миллиардов почти так же мощны, как и самая большая версия Llama 2, которую мы выпустили [...] даже к концу она была... все еще правильно училась, как будто мы, вероятно, могли бы кормить ее больше жетонов, и она бы получила немного лучше, но я имею в виду, что в какой-то момент вы поймете, что управляете компанией, и вам нужно будет ответить на эти мета-рассуждения о том, [...] как я хочу потратить наши графические процессоры
^ «Сокол приземлился в экосистеме Обнимающего Лица» . Huggingface.co . Проверено 20 июня 2023 г.
^ "llama/MODEL_CARD.md в главном · мета-лама/лама" . Гитхаб . Проверено 28 мая 2024 г.
↑ Андрей Карпатий (18 апреля 2024 г.), На карточке модели есть и более интересная информация.
^ "llama3/MODEL_CARD.md в главном · мета-лама/llama3" . Гитхаб . Проверено 28 мая 2024 г.
^ «Стадо моделей лам 3» (23 июля 2024 г.) Команда лам, AI @ Meta
^ «llama-models/models/llama3_1/MODEL_CARD.md на главной · мета-лама/llama-модели» . Гитхаб . Проверено 23 июля 2024 г.
^ Шазир, Ноам (01 февраля 2020 г.). «Варианты GLU улучшают трансформатор». arXiv : 2002.05202 [ cs.CL ].
^ Су, Цзяньлинь; Лу, Ю; Пан, Шэнфэн; Муртадха, Ахмед; Вэнь, Бо; Лю, Юньфэн (01 апреля 2021 г.). «RoFormer: улучшенный трансформатор с встраиванием поворотного положения». arXiv : 2104.09864 [ cs.CL ].
^ Чжан, Бяо; Сеннрих, Рико (01 октября 2019 г.). «Нормализация среднеквадратического слоя». arXiv : 1910.07467 [ cs.LG ].
^ Лей Ба, Джимми; Кирос, Джейми Райан; Хинтон, Джеффри Э. (01 июля 2016 г.). «Нормализация слоев». arXiv : 1607.06450 [ stat.ML ].
^ «RedPajama-Data: рецепт с открытым исходным кодом для воспроизведения набора обучающих данных LLaMA» . Гитхаб . Вместе . Проверено 4 мая 2023 г.
^ «Красная Пижама-Дата-1Т» . Обнимающее лицо . Вместе . Проверено 4 мая 2023 г.
^ Таори, Рохан; Гулраджани, Ишаан; Чжан, Тяньи; Дюбуа, Янн; Ли, Сюэчэнь; Гестрин, Карлос; Лян, Перси; Хашимото, Тацунори Б. (13 марта 2023 г.). «Альпака: сильная, воспроизводимая модель следования инструкциям» . Стэнфордский центр исследований моделей фундамента.
^ Ван, Ичжун; Корди, Йегане; Мишра, Сваруп; Лю, Алиса; Смит, Ной А.; Хашаби, Дэниел; Хаджиширзи, Ханнане (2022). «Самообучение: согласование языковых моделей с самостоятельно генерируемыми инструкциями». arXiv : 2212.10560 [ cs.CL ].
^ «Стэнфордский CRFM» . crfm.stanford.edu .
^ Квач, Катянна. «Стэнфорд выводит из строя дорогостоящую и рискованную модель искусственного интеллекта Альпаки» . www.theregister.com .
^ «Исследователи Стэнфорда уничтожают искусственный интеллект альпаки из-за затрат и галлюцинаций» . Гизмодо . 21 марта 2023 г.
^ «альпака-лора» . Гитхаб . Проверено 5 апреля 2023 г.
^ «Meditron: пакет LLM для медицинских учреждений с низкими ресурсами, использующий Meta Llama» . ai.meta.com .
^ Петерсен, Таня (28 ноября 2023 г.). «Новая модель большого языка EPFL для медицинских знаний» .
^ «эпфЛЛМ/медитрон» . epfLLM. 11 мая 2024 г.
^ «Как компании используют мета-ламу» . Мета . 7 мая 2024 г.
^ Эдвардс, Бендж (13 марта 2023 г.). «Теперь вы можете запустить модель искусственного интеллекта уровня GPT-3 на своем ноутбуке, телефоне и Raspberry Pi» . Арс Техника . Проверено 4 января 2024 г.
^ «ГГУФ» . Huggingface.co . Проверено 9 мая 2024 г.
^ Лабонн, Максим (29 ноября 2023 г.). «Квантизация моделей Llama с помощью GGUF и llama.cpp» . Середина . На пути к науке о данных . Проверено 9 мая 2024 г.
^ Коннацер, Мэтью. «Проект драйвера Llamafile LLM повышает производительность ядер ЦП» . www.theregister.com . Проверено 10 мая 2024 г.
^ Найт, Уилл. «Llama 3 с открытым исходным кодом Meta уже наступает на пятки OpenAI» . Проводной .
^ «Усиленные ИИ-агенты Meta сбивают с толку пользователей Facebook» . Новости АВС . 19 апреля 2024 г.
^ https://s21.q4cdn.com/399680738/files/doc_financials/2023/q4/META-Q4-2023-Earnings-Call-Transcript.pdf

Дальнейшее чтение

Хуанг, Калли; О'Риган, Сильвия Варнхэм (5 сентября 2023 г.). «Внутри драмы искусственного интеллекта Meta: внутренние распри по поводу вычислительных мощностей» . Информация . Архивировано из оригинала 5 сентября 2023 года . Проверено 6 сентября 2023 г.

Внешние ссылки

Официальный сайт

[1] "llama3/LICENSE at main · мета-лама/llama3" . Гитхаб .

[l1arxiv-2] Jump up to: ^а ^б ^с ^д ^и Туврон, Гюго; Лавриль, Тибо; Изакар, Готье; Мартине, Ксавье; Лашо, Мари-Анн; Лакруа, Тимоти; Розьер, Батист; Гоял, Наман; Хамбро, Эрик; Ажар, Фейсал; Родригес, Орельен; Жулен, Арман; Грейв, Эдвард; Лампле, Гийом (2023). «LLaMA: открытые и эффективные базовые языковые модели». arXiv : 2302.13971 [ cs.CL ].

[blog-3] Jump up to: ^а ^б ^с ^д «Представляем LLaMA: фундаментальную языковую модель с 65 миллиардами параметров» . Мета ИИ . 24 февраля 2023 г.

[llama31blog-4] Jump up to: ^а ^б ^с «Представляем Llama 3.1: наши самые функциональные модели на сегодняшний день» . ai.meta.com . 23 июля 2024 г. Проверено 23 июля 2024 г.

[5] Малик, Юврадж; Пол, Кэти (25 февраля 2023 г.). «Meta разжигает гонку вооружений в области искусственного интеллекта в крупных технологических компаниях новой языковой моделью» . Рейтер.

[verge-leak-6] Jump up to: ^а ^б ^с ^д Винсент, Джеймс (8 марта 2023 г.). «Мощная языковая модель искусственного интеллекта Meta просочилась в сеть — что теперь происходит?» . Грань .

[githubdcma-7] Jump up to: ^а ^б ООО «ОпСек Онлайн» (21 марта 2023 г.). «github/dmca — Уведомление о заявленном нарушении по электронной почте» . Гитхаб . Проверено 25 марта 2023 г.

[8] Дэвид, Эмилия (30 октября 2023 г.). «Руководитель отдела исследования искусственного интеллекта компании Meta хочет изменить лицензию на открытый исходный код» . Грань .

[llama2blog-9] Jump up to: ^а ^б ^с «Meta и Microsoft представляют новое поколение LLaMA» . Мета . 18 июля 2023 г. Проверено 21 июля 2023 г.

[10] Питерс, Джей; Винсент, Джеймс (24 февраля 2023 г.). «У Meta есть новая языковая модель машинного обучения, которая напомнит вам, что она тоже занимается искусственным интеллектом» . Грань .

[11] «Встречайте своего нового помощника: мета-ИИ, созданный с помощью Llama 3» . Мета . 18 апреля 2024 г.

[12] «Изучение новых способностей в больших языковых моделях» . hai.stanford.edu . 13 сентября 2022 г.

[13] «Внутренняя история того, как ChatGPT был создан людьми, которые его создали» . Обзор технологий Массачусетского технологического института .

[14] «ChatGPT не является «особенно инновационным» и «ничего революционного», — говорит главный специалист по искусственному интеллекту Meta» . ЗДНЕТ .

[15] Бадминтон, Ник (13 февраля 2023 г.). «Ян ЛеКун из Meta об авторегрессионных моделях большого языка (LLM)» . Футурист.com .

[16] «Ян ЛеКун в LinkedIn: Мое непоколебимое мнение о текущих (авторегрессивных) программах магистратуры» . www.linkedin.com .

[repo-17] «лама» . Гитхаб . Проверено 16 марта 2023 г.

[India-leak-18] Jump up to: ^а ^б ВК, Анируд (6 марта 2023 г.). «LLaMA Меты стала достоянием общественности благодаря 4chan» . Журнал Analytics India . Проверено 17 марта 2023 г.

[CKing-19] «Экономьте пропускную способность, используя торрент для более эффективного распространения», ChristopherKing42 · Pull Request #73 · facebookresearch/llama» . Гитхаб . Проверено 25 марта 2023 г.

[20] «Загрузите веса с обнимающего лица, чтобы помочь нам сэкономить трафик, от Jainam213 · Запрос на извлечение № 109 · facebookresearch/llama» . Гитхаб . Проверено 17 марта 2023 г.

[21] Кокс, Джозеф (7 марта 2023 г.). «Мощная языковая модель Facebook просочилась в сеть» . Порок . Проверено 17 марта 2023 г.

[willison-22] Уиллисон, Саймон (11 марта 2023 г.). «Большие языковые модели переживают момент стабильного распространения» . Блог Саймона Уиллисона .

[l2arxiv-23] Jump up to: ^а ^б ^с Туврон, Гюго; Мартин, Луи; и др. (18 июля 2023 г.). «LLaMA-2: Открытый фундамент и точно настроенные модели чата». arXiv : 2307.09288 [ cs.CL ].

[24] Эдвардс, Бендж (18 июля 2023 г.). «Meta запускает LLaMA-2, модель искусственного интеллекта с доступными исходными кодами, которая позволяет использовать коммерческие приложения [обновлено]» . Арс Техника . Проверено 8 августа 2023 г.

[25] «Представляем Code Llama, современную модель большого языка для кодирования» . ai.meta.com .

[26] Розьер, Батист; Геринг, Йонас; Глекль, Фабиан; Сутла, Стен; Гат, Итай; Тан, Сяоцин Эллен; Ади, Йосси; Лю, Цзинъюй; Совестр, Ромен (31 января 2024 г.). «Кодовая лама: модели открытого фундамента для кода». arXiv : 2308.12950 [ cs.CL ].

[llama3blog-27] Jump up to: ^а ^б «Представляем Meta Llama 3: самый мощный на сегодняшний день открытый LLM» . ai.meta.com . 18 апреля 2024 г. Проверено 21 апреля 2024 г.

[28] Виггерс, Кайл (18 апреля 2024 г.). «Meta выпускает Llama 3 и утверждает, что это одна из лучших доступных открытых моделей» . ТехКранч .

[29] Манн, Тобиас (19 апреля 2024 г.). «Meta представляет большую языковую модель Llama третьего поколения» . Регистр .

[30] Патель, Дваркеш (24 июля 2024 г.). «Марк Цукерберг — Лама 3, модели с открытым исходным кодом стоимостью 10 миллиардов долларов и Цезарь Август» . www.dwarkeshpatel.com . Проверено 1 августа 2024 г. 8 миллиардов почти так же мощны, как и самая большая версия Llama 2, которую мы выпустили [...] даже к концу она была... все еще правильно училась, как будто мы, вероятно, могли бы кормить ее больше жетонов, и она бы получила немного лучше, но я имею в виду, что в какой-то момент вы поймете, что управляете компанией, и вам нужно будет ответить на эти мета-рассуждения о том, [...] как я хочу потратить наши графические процессоры

[:5-31] «Сокол приземлился в экосистеме Обнимающего Лица» . Huggingface.co . Проверено 20 июня 2023 г.

[32] "llama/MODEL_CARD.md в главном · мета-лама/лама" . Гитхаб . Проверено 28 мая 2024 г.

[33] Андрей Карпатий (18 апреля 2024 г.), На карточке модели есть и более интересная информация.

[34] "llama3/MODEL_CARD.md в главном · мета-лама/llama3" . Гитхаб . Проверено 28 мая 2024 г.

[35] «Стадо моделей лам 3» (23 июля 2024 г.) Команда лам, AI @ Meta

[36] «llama-models/models/llama3_1/MODEL_CARD.md на главной · мета-лама/llama-модели» . Гитхаб . Проверено 23 июля 2024 г.

[37] Шазир, Ноам (01 февраля 2020 г.). «Варианты GLU улучшают трансформатор». arXiv : 2002.05202 [ cs.CL ].

[38] Су, Цзяньлинь; Лу, Ю; Пан, Шэнфэн; Муртадха, Ахмед; Вэнь, Бо; Лю, Юньфэн (01 апреля 2021 г.). «RoFormer: улучшенный трансформатор с встраиванием поворотного положения». arXiv : 2104.09864 [ cs.CL ].

[39] Чжан, Бяо; Сеннрих, Рико (01 октября 2019 г.). «Нормализация среднеквадратического слоя». arXiv : 1910.07467 [ cs.LG ].

[40] Лей Ба, Джимми; Кирос, Джейми Райан; Хинтон, Джеффри Э. (01 июля 2016 г.). «Нормализация слоев». arXiv : 1607.06450 [ stat.ML ].

[red-pajama-41] «RedPajama-Data: рецепт с открытым исходным кодом для воспроизведения набора обучающих данных LLaMA» . Гитхаб . Вместе . Проверено 4 мая 2023 г.

[red-pajama-download-42] «Красная Пижама-Дата-1Т» . Обнимающее лицо . Вместе . Проверено 4 мая 2023 г.

[43] Таори, Рохан; Гулраджани, Ишаан; Чжан, Тяньи; Дюбуа, Янн; Ли, Сюэчэнь; Гестрин, Карлос; Лян, Перси; Хашимото, Тацунори Б. (13 марта 2023 г.). «Альпака: сильная, воспроизводимая модель следования инструкциям» . Стэнфордский центр исследований моделей фундамента.

[44] Ван, Ичжун; Корди, Йегане; Мишра, Сваруп; Лю, Алиса; Смит, Ной А.; Хашаби, Дэниел; Хаджиширзи, Ханнане (2022). «Самообучение: согласование языковых моделей с самостоятельно генерируемыми инструкциями». arXiv : 2212.10560 [ cs.CL ].

[45] «Стэнфордский CRFM» . crfm.stanford.edu .

[46] Квач, Катянна. «Стэнфорд выводит из строя дорогостоящую и рискованную модель искусственного интеллекта Альпаки» . www.theregister.com .

[47] «Исследователи Стэнфорда уничтожают искусственный интеллект альпаки из-за затрат и галлюцинаций» . Гизмодо . 21 марта 2023 г.

[repo-alpaca-48] «альпака-лора» . Гитхаб . Проверено 5 апреля 2023 г.

[49] «Meditron: пакет LLM для медицинских учреждений с низкими ресурсами, использующий Meta Llama» . ai.meta.com .

[50] Петерсен, Таня (28 ноября 2023 г.). «Новая модель большого языка EPFL для медицинских знаний» .

[51] «эпфЛЛМ/медитрон» . epfLLM. 11 мая 2024 г.

[52] «Как компании используют мета-ламу» . Мета . 7 мая 2024 г.

[53] Эдвардс, Бендж (13 марта 2023 г.). «Теперь вы можете запустить модель искусственного интеллекта уровня GPT-3 на своем ноутбуке, телефоне и Raspberry Pi» . Арс Техника . Проверено 4 января 2024 г.

[54] «ГГУФ» . Huggingface.co . Проверено 9 мая 2024 г.

[55] Лабонн, Максим (29 ноября 2023 г.). «Квантизация моделей Llama с помощью GGUF и llama.cpp» . Середина . На пути к науке о данных . Проверено 9 мая 2024 г.

[llamafileregister-56] Коннацер, Мэтью. «Проект драйвера Llamafile LLM повышает производительность ядер ЦП» . www.theregister.com . Проверено 10 мая 2024 г.

[57] Найт, Уилл. «Llama 3 с открытым исходным кодом Meta уже наступает на пятки OpenAI» . Проводной .

[58] «Усиленные ИИ-агенты Meta сбивают с толку пользователей Facebook» . Новости АВС . 19 апреля 2024 г.

[59] ttps://s21.q4cdn.com/399680738/files/doc_financials/2023/q4/META-Q4-2023-Earnings-Call-Transcript.pdf

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]