Лама (языковая модель)

Звонки
Разработчики)	Мета ИИ
Начальная версия	24 февраля 2023 г .; 15 месяцев назад
Стабильная версия	Лама 3 / 18 апреля 2024 г .; 48 дней назад
Репозиторий	github .с /мета-пламя /llama3
Написано в	Питон
Тип	Большая языковая модель ; GPT ; Модель фундамента ;
Лицензия	Лицензия сообщества Meta Llama 3
Веб-сайт	звонки .мета .с

Llama (аббревиатура от Large Language Model Meta AI , ранее стилизованная под LLaMA ) — это семейство авторегрессионных моделей большого языка , выпущенное Meta AI начиная с февраля 2023 года. ^[2]^[3] Последняя версия — Llama 3, выпущенная в апреле 2024 года. ^[4]

Веса моделей для первой версии Llama были предоставлены исследовательскому сообществу по некоммерческой лицензии, и доступ предоставлялся в каждом конкретном случае. ^[5]^[3] Несанкционированные копии модели были опубликованы через BitTorrent , в ответ Meta AI выпустила запросы на удаление DMCA в отношении репозиториев, разделяющих ссылку на GitHub . ^[6]^[7] Последующие версии Llama стали доступны за пределами академических кругов и выпущены по лицензиям, допускающим некоторое коммерческое использование. ^[8]^[9] Модели лам обучаются с разными размерами параметров, обычно от 7B до 70B. ^[4] Первоначально Llama была доступна только в качестве базовой модели . ^[10] Начиная с Llama 2, Meta AI начала выпускать доработанные версии инструкций наряду с базовыми моделями. ^[9]

Одновременно с выпуском Llama 3 Meta добавила виртуального помощника функции в Facebook и WhatsApp в некоторых регионах, а также отдельный веб-сайт. Оба сервиса используют модель Llama 3. ^[11]

Предыстория [ править ]

После выпуска больших языковых моделей, таких как GPT-3 , в центре внимания исследований было масштабирование моделей, которые в некоторых случаях показали значительное увеличение новых возможностей. ^[12] Выпуск ChatGPT и его неожиданный успех вызвал рост внимания к большим языковым моделям. ^[13]

По сравнению с другими ответами на ChatGPT, главный специалист по искусственному интеллекту Meta Ян ЛеКун заявил, что большие языковые модели лучше всего подходят для помощи в написании. ^[14]^[15]^[16]

Первоначальный выпуск [ править ]

О LLaMA было объявлено 24 февраля 2023 года в сообщении в блоге и в документе, описывающем модели . обучение , архитектуру и производительность ^[2]^[3] Код вывода, использованный для запуска модели, был публично выпущен под лицензией GPLv3 с открытым исходным кодом . ^[17] Доступ к весам модели регулировался посредством процесса подачи заявки, при этом доступ предоставлялся «в каждом конкретном случае академическим исследователям; лицам, связанным с правительственными организациями, гражданским обществом и научными кругами; а также отраслевым исследовательским лабораториям по всему миру». ". ^[3]

Лама обучалась только на общедоступной информации и обучалась на моделях разных размеров с намерением сделать ее более доступной для различного оборудования.

Meta AI сообщила, что производительность модели с параметрами 13B в большинстве тестов NLP превысила производительность гораздо более крупного GPT-3 (с параметрами 175B), а самая большая модель с параметрами 65B была конкурентоспособна с современными моделями, такими как PaLM и Chinchilla . ^[2]

Утечка [ править ]

3 марта 2023 года был загружен торрент, содержащий веса LLaMA, со ссылкой на торрент, размещенной на имиджборде 4chan и впоследствии распространенной в онлайн-сообществах искусственного интеллекта. ^[6] В тот же день в основном репозитории LLaMA был открыт запрос на включение с просьбой добавить магнитную ссылку в официальную документацию. ^[18]^[19] 4 марта был открыт пул-реквест на добавление ссылок на репозитории HuggingFace , содержащие модель. ^[20]^[18]6 марта Meta подала запросы на удаление репозиториев HuggingFace, связанных с запросом на включение, охарактеризовав это как «несанкционированное распространение» модели. HuggingFace выполнил просьбы. ^[21] 20 марта Meta подала запрос на удаление DMCA за нарушение авторских прав в отношении репозитория, содержащего скрипт, который загружал LLaMA с зеркала, и GitHub подчинился на следующий день. ^[7]

Реакция на утечку была разной. Некоторые предполагали, что эта модель будет использоваться в злонамеренных целях, например, для рассылки более изощренного спама . Некоторые отметили доступность модели, а также тот факт, что ее уменьшенные версии можно использовать относительно дешево, предполагая, что это будет способствовать процветанию дополнительных исследовательских разработок. ^[6] Многие комментаторы, такие как Саймон Уиллисон , сравнивали LLaMA со Stable Diffusion , моделью преобразования текста в изображение , которая, в отличие от сравнительно сложных моделей, предшествовавших ей, была открыто распространена, что привело к быстрому распространению связанных с ней инструментов, методов и программного обеспечения. ^[6]^[22]

Звонок 2 [ править ]

18 июля 2023 года в партнёрстве с Microsoft компания Meta анонсировала Llama 2, следующее поколение Llama. Meta обучила и выпустила Llama 2 в трех размерах модели: 7, 13 и 70 миллиардов параметров. ^[9] Архитектура модели практически не изменилась по сравнению с моделями LLaMA-1, но для обучения базовых моделей было использовано на 40% больше данных. ^[23] Сопроводительный препринт ^[23] также упоминается модель с параметрами 34B, которая может быть выпущена в будущем после достижения целей безопасности.

Llama 2 включает в себя базовые модели и модели, специально настроенные для общения в чате. В отличие от LLaMA, все модели выпускаются с весами и бесплатны для многих случаев коммерческого использования. Однако из-за некоторых оставшихся ограничений описание LLaMA в Meta как открытого исходного кода было оспорено Инициативой открытого исходного кода (известной тем, что поддерживает определение открытого исходного кода ). ^[24]

Code Llama — это усовершенствованная версия Llama 2 с наборами данных, специфичными для кода. Версии 7B, 13B и 34B были выпущены 24 августа 2023 года, а версия 70B — 29 января 2024 года. ^[25]Начиная с базовых моделей из Llama 2, Meta AI будет обучать дополнительные 500 миллиардов токенов наборов кодовых данных, а затем дополнительные 20 миллиардов токенов данных с длинным контекстом, создавая базовые модели Code Llama. Эта базовая модель была дополнительно обучена инструкции 5B, следующей за токеном, для создания точной настройки инструкций. Еще одна базовая модель была создана для кода Python, который обучался на 100 миллиардах токенов кода только для Python перед данными с длинным контекстом. ^[26]

Звонок 3 [ править ]

18 апреля 2024 года Мета выпустила Llama-3 с двумя размерами: параметрами 8B и 70B. Модели были предварительно обучены примерно на 15 триллионах токенов текста, собранных из «общедоступных источников», при этом модели инструкций были точно настроены на «общедоступные наборы данных инструкций, а также более 10 миллионов примеров, аннотированных человеком». Мета-планы по выпуску мультимодальные модели, модели, способные общаться на нескольких языках, и модели с большими контекстными окнами. В настоящее время обучается версия с более чем 400B параметрами. ^[4]

Тестирование Meta AI показывает, что Llama 3 70B превосходит Gemini и Claude в большинстве тестов. ^[27]^[28]

В интервью Дваркешу Пателю Марк Цукерберг сказал, что версия Llama 3 8B была почти такой же мощной, как самая большая Llama 2. У Llama 3 был повышенный приоритет в способностях кодирования на основе того, что было изучено с помощью CodeLlama. По сравнению с предыдущими моделями, Цукерберг заявил, что команда была удивлена тем, что модель 70B даже в конце все еще обучалась использованию токенов 15T. Было принято решение прекратить обучение, чтобы сосредоточить внимание на возможностях графических процессоров, Цукерберг заявил, что необходимо провести дополнительные исследования по масштабированию данных ИИ.

Когда его спросили, будет ли Meta продолжать использовать модели с открытым исходным кодом, Цукерберг ответил, только если это будет соответствовать стратегии Meta. Цукерберг заявил о возможности создания уменьшенных версий моделей Llama для конкретных приложений. ^[29]

Сравнение моделей [ править ]

Имя	Дата выпуска	Параметры	Стоимость обучения (петаФЛОП-день)	Длина контекста	Размер корпуса	Коммерческая жизнеспособность?
Звонки	24 февраля 2023 г.	6.7Б 13Б 32,5Б 65.2Б	6,300 ^[30]	2048	1–1,4 Тл	Нет
Позвоните 2	18 июля 2023 г.	6.7Б 13Б 69Б	21,000 ^[31]	4096	2Т	Да
Код Ламы	24 августа 2023 г.	6.7Б 13Б 33,7Б 69Б		4096	2Т
Звонок 3	18 апреля 2024 г.	8Б 70,6Б 400B+ (неизданный)	100,000 ^[32]^[33]	8912	15Т

и обучение Архитектура

«Разговор Солнца и Плутона»

Сан: Эй, Плутон, как дела?
Плутон: Не так уж и много. Просто тусуюсь здесь, на краю солнечной системы.
Сан: Да, я хотел поговорить с тобой об этом. Ты больше не планета.
Плутон: Что? Давай, мужик. Это не справедливо.
Сан: Извините, но это правда. Вы просто больше не соответствуете критериям.
Плутон: Это чушь! Я был планетой более 70 лет!
Солнце: Все меняется, Плутон. Вам просто нужно это принять.
Плутон: Черт возьми, Солнце! К черту тебя и твою дурацкую солнечную систему!

– Вывод модели LLaMA с 65 миллиардами параметров после настройки инструкций с учетом подсказки «Напишите разговор между Солнцем и Плутоном». ^[2]

Архитектура [ править ]

LLaMA использует архитектуру преобразователя , стандартную архитектуру языкового моделирования с 2018 года.

Есть незначительные архитектурные различия. По сравнению с GPT-3, LLaMA

использует SwiGLU ^[34] функция активации вместо GeLU;
использует поворотно-позиционные вложения ^[35] вместо абсолютного позиционного встраивания;
использует среднеквадратическую нормализацию слоя ^[36] вместо стандартной нормализации слоя. ^[37]
Увеличивает длину контекста с 2 КБ (Лама 1) токенов до 4 КБ (Лама 2) между токенами.

Наборы обучающих данных [ править ]

Разработчики LLaMA сосредоточили свои усилия на масштабировании производительности модели за счет увеличения объема обучающих данных, а не количества параметров, мотивируя это тем, что доминирующие затраты для LLM связаны с выводом на основе обученной модели, а не с вычислительными затратами процесса обучения.

Базовые модели LLaMA 1 были обучены на наборе данных из 1,4 триллиона токенов, взятых из общедоступных источников данных, в том числе: ^[2]

Веб-страницы, очищенные CommonCrawl
Репозитории исходного кода с открытым исходным кодом из GitHub.
Википедия на 20 разных языках
Книги, являющиеся общественным достоянием , от Project Gutenberg
Books3 Набор данных книг
Исходный код LaTeX для научных статей, загруженный в ArXiv.
Вопросы и ответы с Stack Exchange сайтов

17 апреля 2023 года TogetherAI запустила проект RedPajama по воспроизведению и распространению с открытым исходным кодом . версии набора данных LLaMA ^[38] Набор данных содержит около 1,2 триллиона токенов и доступен для скачивания. ^[39]

Базовые модели Llama 2 были обучены на наборе данных из 2 триллионов токенов. Этот набор данных был создан для удаления веб-сайтов, которые часто раскрывают личные данные людей. Он также повышает выборку источников, которые считаются заслуживающими доверия. ^[23]Llama 2 – Chat был дополнительно доработан на основе 27 540 пар быстрого ответа, созданных для этого проекта, которые работали лучше, чем более крупные, но более низкого качества сторонние наборы данных. Для согласования ИИ использовалось обучение с подкреплением с обратной связью от человека (RLHF) с комбинацией 1 418 091 метапримера и семи небольших наборов данных. Средняя глубина диалога составила 3,9 в примерах Meta, 3,0 для наборов Anthropic Helpful и Anthropic Harmless и 1,0 для пяти других наборов, включая OpenAI Summarize, StackExchange и т. д.

Llama 3 состоит в основном из данных на английском языке, причем более 5% — на более чем 30 других языках. Его набор данных был отфильтрован с помощью классификатора качества текста, а классификатор был обучен на основе текста, синтезированного с помощью Llama 2. ^[4]

Тонкая настройка [ править ]

Модели Llama 1 доступны только в качестве базовых моделей с самоконтролируемым обучением и без тонкой настройки. Llama 2 — модели чата были созданы на основе базовых моделей Llama 2. В отличие от GPT-4 , длина контекста которого увеличивалась во время тонкой настройки, Llama 2 и Llama 2 — Chat имеют одинаковую длину контекста — токены 4 КБ. При контролируемой точной настройке использовалась функция авторегрессии потерь, при которой потери токенов при запросах пользователя обнулялись. Размер партии составил 64.

Для согласования ИИ люди-аннотаторы писали подсказки, а затем сравнивали выходные данные двух моделей (двоичный протокол), указывая уровни достоверности и отдельные метки безопасности с правом вето. Две отдельные модели вознаграждения были обучены на основе этих предпочтений в отношении безопасности и полезности с использованием обучения с подкреплением на основе обратной связи с человеком (RLHF). Важным техническим вкладом является отказ от исключительного использования оптимизации проксимальной политики (PPO) для RLHF – был использован новый метод, основанный на выборке отклонения , а затем PPO.

Была нацелена на улучшение многоходовой последовательности в диалогах, чтобы гарантировать, что во время диалога соблюдаются «системные сообщения» (начальные инструкции, такие как «говорить по-французски» и «вести себя как Наполеон»). Это было достигнуто с использованием новой техники «Призрачного внимания» во время обучения, которая объединяет соответствующие инструкции с каждым новым сообщением пользователя, но обнуляет функцию потери для токенов в подсказке (более ранние части диалога).

Приложения [ править ]

человеко Стэнфордского университета Центр исследований базовых моделей (CRFM) Института -ориентированного искусственного интеллекта «Самообучение» (HAI) выпустил Alpaca, рецепт обучения, основанный на модели LLaMA 7B, который использует метод настройки инструкций для приобретения сопоставимых возможностей. к модели OpenAI GPT-3 серии text-davinci-003 по скромной цене. ^[40]^[41]^[42] Файлы модели были официально удалены 21 марта 2023 года из-за затрат на хостинг и соображений безопасности, хотя код и документ остаются в сети для справки. ^[43]^[44]^[45]

Meditron — это семейство продуктов на базе Llama, доработанное на базе клинических руководств, статей PubMed и статей. Он был создан исследователями из Федеральной политехнической школы Лозанны по компьютерным и коммуникационным наукам и Йельской школы медицины . Он демонстрирует рост производительности по медицинским показателям, таким как MedQA и MedMCQA. ^[46]^[47]^[48]

Zoom использовал Meta Llama 2 для создания AI Companion, который может подводить итоги встреч, давать полезные советы по презентациям и помогать с ответами на сообщения. Этот AI Companion работает на нескольких моделях, включая Meta Llama 2. ^[49]

llama.cpp [ править ]

Разработчик программного обеспечения Георгий Герганов выпустил llama.cpp с открытым исходным кодом 10 марта 2023 года. Это повторная реализация LLaMA на C++ , позволяющая системам без мощного графического процессора запускать модель локально. ^[50] Проект llama.cpp представил формат файлов GGUF — двоичный формат, в котором хранятся как тензоры, так и метаданные. ^[51] Формат ориентирован на поддержку различных типов квантования, что может уменьшить использование памяти и увеличить скорость за счет снижения точности модели. ^[52]

llamafile, созданный Джастин Танни, представляет собой инструмент с открытым исходным кодом, который объединяет llama.cpp с моделью в один исполняемый файл. Танни и др. ал. представила новые оптимизированные ядра матричного умножения для процессоров x86 и ARM, улучшающие производительность быстрого вычисления для FP16 и 8-битных квантованных типов данных. ^[53]

Прием [ править ]

Wired описывает версию Llama 3 с параметром 8B как «удивительно функциональную», учитывая ее размер. ^[54]

Реакция на интеграцию Llama компанией Meta в Facebook была неоднозначной: некоторые пользователи были в замешательстве после того, как Meta AI сообщил родительской группе, что у него есть ребенок. ^[55]

Согласно отчету о доходах за четвертый квартал 2023 года, Meta приняла стратегию открытых весов, чтобы повысить безопасность модели, скорость итерации, повысить ее популярность среди разработчиков и исследователей и стать отраслевым стандартом. Ламы 5, 6 и 7 запланированы на будущее. ^[56]

См. также [ править ]

Ссылки [ править ]

^ "llama3/LICENSE at main · мета-лама/llama3" . Гитхаб .
^ Перейти обратно: ^а ^б ^с ^д ^Это Туврон, Хью; Лавриль, Тибо; Изакар, Готье; Мартине, Ксавье; Лашо, Мэри-Энн; Лакруа, Тимоти; Розье, баптист; Гоял, Наман; Хамбро, Эрик; Ажар, Фейсал; Родригес, Орельен; Жулен, Арман; Грейв, Эдвард; Лэмпл, Уильям (2023). «LAMA: открытые и эффективные базовые языковые модели». arXiv : 2302.13971 [ cs.CL ].
^ Перейти обратно: ^а ^б ^с ^д «Представляем LLaMA: фундаментальную языковую модель с 65 миллиардами параметров» . Мета ИИ . 24 февраля 2023 г.
^ Перейти обратно: ^а ^б ^с ^д «Представляем Meta Llama 3: самый мощный на сегодняшний день открытый LLM» . ai.meta.com . 18 апреля 2024 г. Проверено 21 апреля 2024 г.
^ Малик, Юврадж; Пол, Кэти (25 февраля 2023 г.). «Meta разжигает гонку вооружений в области искусственного интеллекта в крупных технологических компаниях новой языковой моделью» . Рейтер.
^ Перейти обратно: ^а ^б ^с ^д Винсент, Джеймс (8 марта 2023 г.). «Мощная языковая модель искусственного интеллекта Meta просочилась в сеть — что теперь происходит?» . Грань .
^ Перейти обратно: ^а ^б ООО «ОпСек Онлайн» (21 марта 2023 г.). «github/dmca — Уведомление о заявленном нарушении по электронной почте» . Гитхаб . Проверено 25 марта 2023 г.
^ Дэвид, Эмилия (30 октября 2023 г.). «Руководитель отдела исследования искусственного интеллекта компании Meta хочет изменить лицензию на открытый исходный код» . Грань .
^ Перейти обратно: ^а ^б ^с «Meta и Microsoft представляют новое поколение LLaMA» . Мета . 18 июля 2023 г. Проверено 21 июля 2023 г.
^ Питерс, Джей; Винсент, Джеймс (24 февраля 2023 г.). «У Meta есть новая языковая модель машинного обучения, которая напомнит вам, что она тоже занимается искусственным интеллектом» . Грань .
^ «Встречайте своего нового помощника: мета-ИИ, созданный с помощью Llama 3» . Мета . 18 апреля 2024 г.
^ «Изучение новых способностей в больших языковых моделях» . hai.stanford.edu . 13 сентября 2022 г.
^ «Внутренняя история того, как ChatGPT был создан людьми, которые его создали» . Обзор технологий Массачусетского технологического института .
^ «ChatGPT не является «особенно инновационным» и «ничего революционного», — говорит главный специалист по искусственному интеллекту Meta» . ЗДНЕТ .
^ Бадминтон, Ник (13 февраля 2023 г.). «Ян ЛеКун из Meta об авторегрессионных моделях большого языка (LLM)» . Футурист.com .
^ «Янн Лекун в LinkedIn: мое непоколебимое мнение о текущих (авторегрессивных) программах магистратуры» . www.linkedin.com .
^ «лама» . Гитхаб . Проверено 16 марта 2023 г.
^ Перейти обратно: ^а ^б ВК, Анируд (6 марта 2023 г.). «LLaMA Меты стала достоянием общественности благодаря 4chan» . Журнал Analytics India . Проверено 17 марта 2023 г.
^ «Экономьте пропускную способность, используя торрент для более эффективного распространения», ChristopherKing42 · Pull Request #73 · facebookresearch/llama» . Гитхаб . Проверено 25 марта 2023 г.
^ «Загрузите веса с обнимающего лица, чтобы помочь нам сэкономить трафик, от Jainam213 · Запрос на извлечение № 109 · facebookresearch/llama» . Гитхаб . Проверено 17 марта 2023 г.
^ Кокс, Джозеф (7 марта 2023 г.). «Мощная языковая модель Facebook просочилась в сеть» . Порок . Проверено 17 марта 2023 г.
^ Уиллисон, Саймон (11 марта 2023 г.). «Большие языковые модели переживают момент стабильного распространения» . Блог Саймона Уиллисона .
^ Перейти обратно: ^а ^б ^с Туврон, Гюго; Мартин, Луи; и другие. (18 июля 2023 г.). «LLaMA-2: Открытый фундамент и точно настроенные модели чата». arXiv : 2307.09288 [ cs.CL ].
^ Эдвардс, Бендж (18 июля 2023 г.). «Meta запускает LLaMA-2, модель искусственного интеллекта с доступными исходными кодами, которая позволяет использовать коммерческие приложения [обновлено]» . Арс Техника . Проверено 8 августа 2023 г.
^ «Представляем Code Llama, современную модель большого языка для кодирования» . ai.meta.com .
^ Розьер, Батист; Геринг, Йонас; Глекль, Фабиан; Сутла, Стен; Гат, Итай; Тан, Сяоцин Эллен; Ади, Йосси; Лю, Цзинъюй; Совестр, Ромен (31 января 2024 г.). «Кодовая лама: модели открытого фундамента для кода». arXiv : 2308.12950 [ cs.CL ].
^ Виггерс, Кайл (18 апреля 2024 г.). «Meta выпускает Llama 3 и утверждает, что это одна из лучших доступных открытых моделей» . ТехКранч .
^ Манн, Тобиас. «Meta представляет большую языковую модель Llama третьего поколения» . www.theregister.com .
^ Патель, Дваркеш (15 мая 2024 г.). «Марк Цукерберг — Лама 3, модели с открытым исходным кодом стоимостью 10 миллиардов долларов и Цезарь Август» . www.dwarkeshpatel.com .
^ «Сокол приземлился в экосистеме Обнимающего Лица» . Huggingface.co . Проверено 20 июня 2023 г.
^ "llama/MODEL_CARD.md в главном · мета-лама/лама" . Гитхаб . Проверено 28 мая 2024 г.
↑ Андрей Карпатий (18 апреля 2024 г.), На карточке модели есть и более интересная информация.
^ "llama3/MODEL_CARD.md в главном · мета-лама/llama3" . Гитхаб . Проверено 28 мая 2024 г.
^ Шазир, Ноам (01 февраля 2020 г.). «Варианты GLU улучшают трансформатор». arXiv : 2104.09864 [ cs.CL ].
^ Су, Цзяньлинь, Юй; Пан, Муртадха, Ахмед; Лю, Юньфэн ( 01 апреля г. 2021 ) . .
^ Чжан, Бяо; Сеннрих, Рико (01 октября 2019 г.). «Нормализация среднеквадратического слоя». arXiv : 1910.07467 [ cs.LG ].
^ Лей Ба, Джимми; Кирос, Джейми Райан; Хинтон, Джеффри Э. (01 июля 2016 г.). «Нормализация слоев». arXiv : 1607.06450 [ stat.ML ].
^ «RedPajama-Data: рецепт с открытым исходным кодом для воспроизведения набора обучающих данных LLaMA» . Гитхаб . Вместе . Проверено 4 мая 2023 г.
^ «Красная Пижама-Дата-1Т» . Обнимающее лицо . Вместе . Проверено 4 мая 2023 г.
^ Таори, Рохан; Гулраджани, Ишаан; Чжан, Тяньи; Дюбуа, Янн; Ли, Сюэчэнь; Гестрин, Карлос; Лян, Перси; Хашимото, Тацунори Б. (13 марта 2023 г.). «Альпака: сильная, воспроизводимая модель следования инструкциям» . Стэнфордский центр исследований моделей фундамента.
^ Ван, Ичжун; Корди, Йегане; Мишра, Сваруп; Лю, Алиса; Смит, Ной А.; Хашаби, Дэниел; Хаджиширзи, Ханнане (2022). «Самообучение: согласование языковых моделей с самостоятельно генерируемыми инструкциями». arXiv : 2212.10560 [ cs.CL ].
^ «Стэнфордский CRFM» . crfm.stanford.edu .
^ Квач, Катянна. «Стэнфорд выводит из строя дорогостоящую и рискованную модель искусственного интеллекта Альпака» . www.theregister.com .
^ «Исследователи Стэнфорда уничтожают искусственный интеллект альпаки из-за затрат и галлюцинаций» . Гизмодо . 21 марта 2023 г.
^ «альпака-лора» . Гитхаб . Проверено 5 апреля 2023 г.
^ «Meditron: пакет LLM для медицинских учреждений с низкими ресурсами, использующий Meta Llama» . ai.meta.com .
^ Петерсен, Таня (28 ноября 2023 г.). «Новая модель большого языка EPFL для медицинских знаний» .
^ «эпфЛЛМ/медитрон» . epfLLM. 11 мая 2024 г.
^ «Как компании используют мета-ламу» . Мета . 7 мая 2024 г.
^ Эдвардс, Бендж (13 марта 2023 г.). «Теперь вы можете запустить модель искусственного интеллекта уровня GPT-3 на своем ноутбуке, телефоне и Raspberry Pi» . Арс Техника . Проверено 4 января 2024 г.
^ «ГГУФ» . Huggingface.co . Проверено 9 мая 2024 г.
^ Лабонн, Максим (29 ноября 2023 г.). «Квантизация моделей Llama с помощью GGUF и llama.cpp» . Середина . На пути к науке о данных . Проверено 9 мая 2024 г.
^ Коннацер, Мэтью. «Проект драйвера Llamafile LLM повышает производительность ядер ЦП» . www.theregister.com . Проверено 10 мая 2024 г.
^ Найт, Уилл. «Llama 3 с открытым исходным кодом Meta уже наступает на пятки OpenAI» . Проводной .
^ «Усиленные ИИ-агенты Meta сбивают с толку пользователей Facebook» . Новости АВС . 19 апреля 2024 г.
^ https://s21.q4cdn.com/399680738/files/doc_financials/2023/q4/META-Q4-2023-Earnings-Call-Transcript.pdf

Дальнейшее чтение [ править ]

Хуанг, Калли; О'Риган, Сильвия Варнхэм (5 сентября 2023 г.). «Внутри драмы искусственного интеллекта Meta: внутренние распри по поводу вычислительных мощностей» . Информация . Архивировано из оригинала 5 сентября 2023 года . Проверено 6 сентября 2023 г.

[1] "llama3/LICENSE at main · мета-лама/llama3" . Гитхаб .

[l1arxiv-2] Перейти обратно: ^а ^б ^с ^д ^Это Туврон, Хью; Лавриль, Тибо; Изакар, Готье; Мартине, Ксавье; Лашо, Мэри-Энн; Лакруа, Тимоти; Розье, баптист; Гоял, Наман; Хамбро, Эрик; Ажар, Фейсал; Родригес, Орельен; Жулен, Арман; Грейв, Эдвард; Лэмпл, Уильям (2023). «LAMA: открытые и эффективные базовые языковые модели». arXiv : 2302.13971 [ cs.CL ].

[blog-3] Перейти обратно: ^а ^б ^с ^д «Представляем LLaMA: фундаментальную языковую модель с 65 миллиардами параметров» . Мета ИИ . 24 февраля 2023 г.

[llama3blog-4] Перейти обратно: ^а ^б ^с ^д «Представляем Meta Llama 3: самый мощный на сегодняшний день открытый LLM» . ai.meta.com . 18 апреля 2024 г. Проверено 21 апреля 2024 г.

[5] Малик, Юврадж; Пол, Кэти (25 февраля 2023 г.). «Meta разжигает гонку вооружений в области искусственного интеллекта в крупных технологических компаниях новой языковой моделью» . Рейтер.

[verge-leak-6] Перейти обратно: ^а ^б ^с ^д Винсент, Джеймс (8 марта 2023 г.). «Мощная языковая модель искусственного интеллекта Meta просочилась в сеть — что теперь происходит?» . Грань .

[githubdcma-7] Перейти обратно: ^а ^б ООО «ОпСек Онлайн» (21 марта 2023 г.). «github/dmca — Уведомление о заявленном нарушении по электронной почте» . Гитхаб . Проверено 25 марта 2023 г.

[8] Дэвид, Эмилия (30 октября 2023 г.). «Руководитель отдела исследования искусственного интеллекта компании Meta хочет изменить лицензию на открытый исходный код» . Грань .

[llama2blog-9] Перейти обратно: ^а ^б ^с «Meta и Microsoft представляют новое поколение LLaMA» . Мета . 18 июля 2023 г. Проверено 21 июля 2023 г.

[10] Питерс, Джей; Винсент, Джеймс (24 февраля 2023 г.). «У Meta есть новая языковая модель машинного обучения, которая напомнит вам, что она тоже занимается искусственным интеллектом» . Грань .

[11] «Встречайте своего нового помощника: мета-ИИ, созданный с помощью Llama 3» . Мета . 18 апреля 2024 г.

[12] «Изучение новых способностей в больших языковых моделях» . hai.stanford.edu . 13 сентября 2022 г.

[13] «Внутренняя история того, как ChatGPT был создан людьми, которые его создали» . Обзор технологий Массачусетского технологического института .

[14] «ChatGPT не является «особенно инновационным» и «ничего революционного», — говорит главный специалист по искусственному интеллекту Meta» . ЗДНЕТ .

[15] Бадминтон, Ник (13 февраля 2023 г.). «Ян ЛеКун из Meta об авторегрессионных моделях большого языка (LLM)» . Футурист.com .

[16] «Янн Лекун в LinkedIn: мое непоколебимое мнение о текущих (авторегрессивных) программах магистратуры» . www.linkedin.com .

[repo-17] «лама» . Гитхаб . Проверено 16 марта 2023 г.

[India-leak-18] Перейти обратно: ^а ^б ВК, Анируд (6 марта 2023 г.). «LLaMA Меты стала достоянием общественности благодаря 4chan» . Журнал Analytics India . Проверено 17 марта 2023 г.

[CKing-19] «Экономьте пропускную способность, используя торрент для более эффективного распространения», ChristopherKing42 · Pull Request #73 · facebookresearch/llama» . Гитхаб . Проверено 25 марта 2023 г.

[20] «Загрузите веса с обнимающего лица, чтобы помочь нам сэкономить трафик, от Jainam213 · Запрос на извлечение № 109 · facebookresearch/llama» . Гитхаб . Проверено 17 марта 2023 г.

[21] Кокс, Джозеф (7 марта 2023 г.). «Мощная языковая модель Facebook просочилась в сеть» . Порок . Проверено 17 марта 2023 г.

[willison-22] Уиллисон, Саймон (11 марта 2023 г.). «Большие языковые модели переживают момент стабильного распространения» . Блог Саймона Уиллисона .

[l2arxiv-23] Перейти обратно: ^а ^б ^с Туврон, Гюго; Мартин, Луи; и другие. (18 июля 2023 г.). «LLaMA-2: Открытый фундамент и точно настроенные модели чата». arXiv : 2307.09288 [ cs.CL ].

[24] Эдвардс, Бендж (18 июля 2023 г.). «Meta запускает LLaMA-2, модель искусственного интеллекта с доступными исходными кодами, которая позволяет использовать коммерческие приложения [обновлено]» . Арс Техника . Проверено 8 августа 2023 г.

[25] «Представляем Code Llama, современную модель большого языка для кодирования» . ai.meta.com .

[26] Розьер, Батист; Геринг, Йонас; Глекль, Фабиан; Сутла, Стен; Гат, Итай; Тан, Сяоцин Эллен; Ади, Йосси; Лю, Цзинъюй; Совестр, Ромен (31 января 2024 г.). «Кодовая лама: модели открытого фундамента для кода». arXiv : 2308.12950 [ cs.CL ].

[27] Виггерс, Кайл (18 апреля 2024 г.). «Meta выпускает Llama 3 и утверждает, что это одна из лучших доступных открытых моделей» . ТехКранч .

[28] Манн, Тобиас. «Meta представляет большую языковую модель Llama третьего поколения» . www.theregister.com .

[dwarkesh-podcast-29] Патель, Дваркеш (15 мая 2024 г.). «Марк Цукерберг — Лама 3, модели с открытым исходным кодом стоимостью 10 миллиардов долларов и Цезарь Август» . www.dwarkeshpatel.com .

[:5-30] «Сокол приземлился в экосистеме Обнимающего Лица» . Huggingface.co . Проверено 20 июня 2023 г.

[31] "llama/MODEL_CARD.md в главном · мета-лама/лама" . Гитхаб . Проверено 28 мая 2024 г.

[32] Андрей Карпатий (18 апреля 2024 г.), На карточке модели есть и более интересная информация.

[33] "llama3/MODEL_CARD.md в главном · мета-лама/llama3" . Гитхаб . Проверено 28 мая 2024 г.

[34] Шазир, Ноам (01 февраля 2020 г.). «Варианты GLU улучшают трансформатор». arXiv : 2104.09864 [ cs.CL ].

[35] Су, Цзяньлинь, Юй; Пан, Муртадха, Ахмед; Лю, Юньфэн ( 01 апреля г. 2021 ) . .

[36] Чжан, Бяо; Сеннрих, Рико (01 октября 2019 г.). «Нормализация среднеквадратического слоя». arXiv : 1910.07467 [ cs.LG ].

[37] Лей Ба, Джимми; Кирос, Джейми Райан; Хинтон, Джеффри Э. (01 июля 2016 г.). «Нормализация слоев». arXiv : 1607.06450 [ stat.ML ].

[red-pajama-38] «RedPajama-Data: рецепт с открытым исходным кодом для воспроизведения набора обучающих данных LLaMA» . Гитхаб . Вместе . Проверено 4 мая 2023 г.

[red-pajama-download-39] «Красная Пижама-Дата-1Т» . Обнимающее лицо . Вместе . Проверено 4 мая 2023 г.

[40] Таори, Рохан; Гулраджани, Ишаан; Чжан, Тяньи; Дюбуа, Янн; Ли, Сюэчэнь; Гестрин, Карлос; Лян, Перси; Хашимото, Тацунори Б. (13 марта 2023 г.). «Альпака: сильная, воспроизводимая модель следования инструкциям» . Стэнфордский центр исследований моделей фундамента.

[41] Ван, Ичжун; Корди, Йегане; Мишра, Сваруп; Лю, Алиса; Смит, Ной А.; Хашаби, Дэниел; Хаджиширзи, Ханнане (2022). «Самообучение: согласование языковых моделей с самостоятельно генерируемыми инструкциями». arXiv : 2212.10560 [ cs.CL ].

[42] «Стэнфордский CRFM» . crfm.stanford.edu .

[43] Квач, Катянна. «Стэнфорд выводит из строя дорогостоящую и рискованную модель искусственного интеллекта Альпака» . www.theregister.com .

[44] «Исследователи Стэнфорда уничтожают искусственный интеллект альпаки из-за затрат и галлюцинаций» . Гизмодо . 21 марта 2023 г.

[repo-alpaca-45] «альпака-лора» . Гитхаб . Проверено 5 апреля 2023 г.

[46] «Meditron: пакет LLM для медицинских учреждений с низкими ресурсами, использующий Meta Llama» . ai.meta.com .

[47] Петерсен, Таня (28 ноября 2023 г.). «Новая модель большого языка EPFL для медицинских знаний» .

[48] «эпфЛЛМ/медитрон» . epfLLM. 11 мая 2024 г.

[49] «Как компании используют мета-ламу» . Мета . 7 мая 2024 г.

[50] Эдвардс, Бендж (13 марта 2023 г.). «Теперь вы можете запустить модель искусственного интеллекта уровня GPT-3 на своем ноутбуке, телефоне и Raspberry Pi» . Арс Техника . Проверено 4 января 2024 г.

[51] «ГГУФ» . Huggingface.co . Проверено 9 мая 2024 г.

[52] Лабонн, Максим (29 ноября 2023 г.). «Квантизация моделей Llama с помощью GGUF и llama.cpp» . Середина . На пути к науке о данных . Проверено 9 мая 2024 г.

[llamafileregister-53] Коннацер, Мэтью. «Проект драйвера Llamafile LLM повышает производительность ядер ЦП» . www.theregister.com . Проверено 10 мая 2024 г.

[54] Найт, Уилл. «Llama 3 с открытым исходным кодом Meta уже наступает на пятки OpenAI» . Проводной .

[55] «Усиленные ИИ-агенты Meta сбивают с толку пользователей Facebook» . Новости АВС . 19 апреля 2024 г.

[56] ttps://s21.q4cdn.com/399680738/files/doc_financials/2023/q4/META-Q4-2023-Earnings-Call-Transcript.pdf

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]