Jump to content

Большая языковая модель

(Перенаправлено из Инструкция по настройке )

Модель большого языка ( LLM ) — это вычислительная модель, известная своей способностью генерировать языки общего назначения и выполнять другие задачи обработки естественного языка, такие как классификация . Основываясь на языковых моделях , LLM приобретают эти способности, изучая статистические взаимосвязи из огромных объемов текста в ходе интенсивного вычислительного процесса обучения с самоконтролем и полуконтролем . [1] LLM можно использовать для генерации текста — формы генеративного искусственного интеллекта — путем взятия входного текста и многократного прогнозирования следующего токена или слова. [2]

LLM — это искусственные нейронные сети , использующие архитектуру трансформатора , изобретенную в 2017 году. Самые крупные и наиболее мощные LLM по состоянию на июнь 2024 года. , построены на базе преобразовательной архитектуры, состоящей только из декодера, что обеспечивает эффективную обработку и генерацию крупномасштабных текстовых данных.

Исторически сложилось так, что до 2020 года точная настройка была основным методом адаптации модели под конкретные задачи. Однако более крупные модели, такие как GPT-3, продемонстрировали способность достигать аналогичных результатов за счет разработки подсказок , которая включает в себя создание конкретных подсказок для ввода, которые будут определять ответы модели. [3] Эти модели приобретают знания о синтаксисе, семантике и онтологиях. [4] присущи корпусам человеческого языка, но они также наследуют неточности и предвзятости, присутствующие в данных, на которых они обучаются. [5]

Некоторые известные LLM — это OpenAI GPT ChatGPT серия моделей (например, GPT-3.5 , GPT-4 и GPT-4o ; используются в и Microsoft Copilot ), Google от Gemini (последняя из которых в настоящее время используется в чат-боте одноимённое ), Meta от LLaMA семейство моделей Anthropic от , модели Claude и Mistral AI модели .

До 2017 года существовало несколько языковых моделей, которые были большими по сравнению с доступными на тот момент возможностями. В 1990-х годах модели выравнивания IBM стали пионерами статистического языкового моделирования. Сглаженная n-граммная модель в 2001 году, обученная на 0,3 миллиарда слов, достигла тогдашнего уровня недоумения SOTA. [6] В 2000-х годах, когда использование Интернета стало широко распространенным, некоторые исследователи создали наборы языковых данных интернет-масштаба («Сеть как корпус»). [7] ), на котором они обучали статистические языковые модели. [8] [9] В 2009 году в большинстве задач языковой обработки статистические языковые модели доминировали над символическими языковыми моделями, поскольку они могут с пользой обрабатывать большие наборы данных. [10]

После того, как примерно в 2012 году нейронные сети стали доминировать в обработке изображений, их стали применять и для языкового моделирования. Google преобразовал свой сервис перевода на нейронный машинный перевод в 2016 году. Как и до «Трансформеров», это выполнялось с помощью глубоких сетей LSTM seq2seq.

Иллюстрация основных компонентов модели трансформатора из оригинальной статьи, где слои были нормализованы после (а не до) многоголового внимания.

На конференции NeurIPS 2017 года исследователи Google представили архитектуру трансформатора в своей знаковой статье « Внимание — это все, что вам нужно ». Целью данной статьи было усовершенствование технологии Seq2seq 2014 года . [11] и основывался главным образом на механизме внимания , разработанном Богданау и соавт. в 2014 году. [12] В следующем, 2018 году, BERT был представлен и быстро стал «повсеместным». [13] Хотя исходный преобразователь имеет блоки как кодера, так и декодера, BERT представляет собой модель только для кодера.

Хотя GPT-1 , предназначенный только для декодера, был представлен в 2018 году, именно GPT-2 в 2019 году привлек всеобщее внимание, поскольку OpenAI сначала сочла его слишком мощным, чтобы публиковать его публично, из-за опасений злонамеренного использования. [14] GPT-3 в 2020 году пошел на шаг дальше и по состоянию на 2024 год доступен только через API без предложения загрузки модели для локального выполнения. Но именно браузерный ChatGPT , ориентированный на потребителя в 2022 году , захватил воображение широких слоев населения и вызвал некоторую шумиху в СМИ и онлайн-ажиотаж. [15] 2023 года GPT-4 получил высокую оценку за повышенную точность и как «Святой Грааль» за свои мультимодальные возможности. [16] OpenAI не раскрыл высокоуровневую архитектуру и количество параметров GPT-4.

Конкурирующие языковые модели по большей части пытались сравняться с серией GPT, по крайней мере, с точки зрения количества параметров. [17]

С 2022 года модели с доступными исходниками набирают популярность, особенно поначалу с BLOOM и LLaMA , хотя обе имеют ограничения по области использования. Модели Mistral AI Mistral 7B и Mixtral 8x7b имеют более либеральную лицензию Apache . По состоянию на июнь 2024 г. , Вариант модели Llama 3 с 70 миллиардами параметров с точной настройкой инструкций является самым мощным открытым LLM согласно таблице лидеров LMSYS Chatbot Arena: он более мощный, чем GPT-3.5, но не такой мощный, как GPT-4. [18]

По состоянию на 2024 год все самые крупные и мощные модели будут основаны на архитектуре Transformer. Некоторые недавние реализации основаны на других архитектурах, таких как варианты рекуррентных нейронных сетей и Mamba ( модель пространства состояний ). [19] [20] [21]

Предварительная обработка набора данных

[ редактировать ]

Вероятностная токенизация

[ редактировать ]

Поскольку алгоритмы машинного обучения обрабатывают числа, а не текст, текст необходимо преобразовать в числа. На первом этапе определяется словарь, затем каждой статье словаря произвольно, но однозначно присваиваются целочисленные индексы, и, наконец, вложение с целочисленным индексом связывается . Алгоритмы включают кодирование пар байтов и WordPiece .

Вероятностная токенизация также сжимает наборы данных. Поскольку LLM обычно требует, чтобы входные данные представляли собой , массив незубчатый более короткие тексты должны быть «дополнены», пока они не совпадут с длиной самого длинного. Сколько токенов в среднем требуется на одно слово, зависит от языка набора данных. [22] [23]

Используя модификацию кодирования пар байтов, на первом этапе все уникальные символы (включая пробелы и знаки препинания ) обрабатываются как исходный набор n -грамм (т.е. исходный набор униграмм). Последовательно наиболее часто встречающаяся пара соседних символов объединяется в биграмму и все экземпляры пары заменяются ею. Все вхождения соседних пар (ранее объединенных) n -грамм, которые чаще всего встречаются вместе, затем снова многократно объединяются в еще более длинные n -граммы, пока не будет получен словарь заданного размера (в случае GPT-3 размер равен 50257). . [24] Словарь токенов состоит из целых чисел , начиная с нуля и заканчивая размером словаря токенов. Новые слова всегда можно интерпретировать как комбинации токенов и униграмм исходного набора. [25]

Словарь токенов, основанный на частотах, извлеченных в основном из корпусов английского языка, использует как можно меньше токенов для среднего английского слова. Однако среднее слово на другом языке, закодированное таким оптимизированным для английского языка токенизатором, разделяется на неоптимальное количество токенов. Токенизатор GPT-2 может использовать до 15 раз больше токенов на слово для некоторых языков, например для языка Шан из Мьянмы . Даже более распространенные языки, такие как португальский и немецкий, имеют «премию в 50%» по сравнению с английским. [26]

Например, вот как токенизатор, используемый GPT-3 (Legacy), разделяет следующее предложение: tokenizer: texts -> series of numerical "tokens".

жетон железо : тексты -> ряд из числовой " т хорошо нас "

Очистка набора данных

[ редактировать ]

В контексте обучения LLM наборы данных обычно очищаются путем удаления из набора данных токсичных отрывков, удаления некачественных данных и дедупликации. [27] Очищенные наборы данных могут повысить эффективность обучения и привести к улучшению последующих результатов. [28] [29] Обученный LLM можно использовать для очистки наборов данных для обучения следующего LLM. [30]

С увеличением доли контента, созданного LLM, в сети очистка данных в будущем может включать фильтрацию такого контента. Контент, сгенерированный LLM, может создать проблему, если контент похож на человеческий текст (что затрудняет фильтрацию), но имеет более низкое качество (снижает производительность моделей, обученных на нем). [31]

Синтетические данные

[ редактировать ]

Для обучения крупнейших языковых моделей может потребоваться больше лингвистических данных, чем доступно в природе, или же данные, встречающиеся в природе, имеют недостаточное качество. В этих случаях могут использоваться синтетические данные. Серия LLM от Microsoft Phi обучается на данных, подобных учебникам, сгенерированных другим LLM. [32]

Обучение и архитектура

[ редактировать ]

Обучение с подкреплением на основе отзывов людей (RLHF)

[ редактировать ]

Обучение с подкреплением на основе обратной связи с человеком (RLHF) с помощью таких алгоритмов, как оптимизация проксимальной политики , используется для дальнейшей точной настройки модели на основе набора данных о предпочтениях человека. [33]

Инструкция по настройке

[ редактировать ]

Используя подходы «самообучения», LLM смогли получить правильные ответы, заменяя любые наивные ответы, начиная с исправлений нескольких случаев, внесенных человеком. Например, в инструкции «Написать сочинение на основные темы, представленные в «Гамлете »» первоначальным наивным завершением может быть «Если вы сдадите сочинение после 17 марта, ваша оценка будет снижена на 10% за каждый день просрочки». на основе частоты этой текстовой последовательности в корпусе. [34]

Смесь экспертов

[ редактировать ]

Обучение и непосредственное использование крупнейшего LLM может быть слишком дорогим. Для таких моделей можно применить смесь экспертов (MoE) — направление исследований, проводимое исследователями Google с 2017 года для обучения моделей, охватывающих до 1 триллиона параметров. [35] [36] [37]

Быстрое проектирование, механизм внимания и контекстное окно

[ редактировать ]

Большинство результатов, ранее достижимых только путем (дорогостоящей) тонкой настройки, могут быть достигнуты с помощью быстрого проектирования , хотя и ограничены рамками одного разговора (точнее, ограничены областью контекстного окна). [38]

Когда каждая голова вычисляет, согласно своим собственным критериям, сколько других токенов имеют отношение к токену «it_», обратите внимание, что вторая голова внимания, представленная вторым столбцом, больше всего концентрируется на первых двух строках, т.е. токенах « «» и «животное», тогда как в третьем столбце больше всего внимания уделяется двум нижним строкам, т.е. слову «устал», которое было разбито на два токена. [39]

Чтобы выяснить, какие токены релевантны друг другу в пределах контекстного окна, механизм внимания вычисляет «мягкие» веса для каждого токена, точнее, для его внедрения, используя несколько головок внимания, каждая из которых имеет свою собственную «релевантность». " для расчета собственных мягких весов. Например, небольшая (т.е. размер параметра 117M) модель GPT-2 имела двенадцать голов внимания и контекстное окно размером всего в 1 тыс. токенов. [40] В средней версии он имеет 345 миллионов параметров и содержит 24 слоя, каждый из которых имеет 12 головок внимания. Для обучения с градиентным спуском использовался размер пакета 512. [25]

Самые крупные модели, такие как Gemini 1.5 от Google , представленные в феврале 2024 года, могут иметь размер контекстного окна до 1 миллиона (контекстное окно размером 10 миллионов также было «успешно протестировано»). [41] Другие модели с большими контекстными окнами включают Claude 2.1 от Anthropic с контекстным окном, вмещающим до 200 тысяч токенов. [42] Обратите внимание, что этот максимум относится к количеству входных токенов и что максимальное количество выходных токенов отличается от входных и часто меньше. Например, модель GPT-4 Turbo имеет максимальную мощность 4096 токенов. [43]

Продолжительность разговора, которую модель может принять во внимание при формировании следующего ответа, также ограничена размером контекстного окна. Если длина разговора, например с ChatGPT , длиннее, чем его контекстное окно, при генерации следующего ответа учитываются только части внутри контекстного окна, или модели необходимо применить некоторый алгоритм для суммирования слишком удаленных частей. разговора.

К недостаткам увеличения контекстного окна относятся более высокие вычислительные затраты и, возможно, ослабление внимания к локальному контексту, тогда как его уменьшение может привести к тому, что модель упустит важную долгосрочную зависимость. Их балансировка — это вопрос экспериментов и соображений, специфичных для конкретной области.

Модель может быть предварительно обучена либо для прогнозирования продолжения сегмента, либо для прогнозирования того, чего в сегменте не хватает, учитывая сегмент из набора обучающих данных. [44] Это может быть либо

  • авторегрессия (т. е. прогнозирование продолжения сегмента, как это делают GPT ): например, учитывая сегмент «Я люблю поесть», модель прогнозирует «мороженое» или «суши».
  • " замаскированный " (т.е. заполнение недостающих частей сегмента способом "BERT" [45] делает это): например, для сегмента «Мне нравится [__] [__] сливки», модель предсказывает, что слова «есть» и «лед» отсутствуют.

Модели можно обучать на вспомогательных задачах, которые проверяют их понимание распределения данных, таких как прогнозирование следующего предложения (NSP), в котором представлены пары предложений, и модель должна предсказать, будут ли они появляться последовательно в обучающем корпусе. [45] Во время обучения потеря регуляризации также используется для стабилизации обучения. Однако потери регуляризации обычно не используются во время тестирования и оценки.

Инфраструктура

[ редактировать ]

Для обучения крупнейших моделей необходима существенная инфраструктура. [46] [47] [48]

Стоимость обучения

[ редактировать ]

Достижения в области программного и аппаратного обеспечения существенно снизили затраты с 2020 года, так что в 2023 году стоимость обучения LLM с 12 миллиардами параметров составит 72 300 часов A100-GPU , а в 2020 году стоимость обучения LLM с 1,5 миллиардами параметров (что на два порядка меньше, чем в 2020 году) составляло от 80 тысяч до 1,6 миллиона долларов. [49] [50] [51] С 2020 года большие суммы инвестировались во все более крупные модели. Например, обучение GPT-2 (то есть модели с 1,5 миллиардами параметров) в 2019 году стоило 50 000 долларов, тогда как обучение PaLM (то есть модели с 540 миллиардами параметров) в 2022 году стоило 8 миллионов долларов, а Megatron-Turing NLG 530B (в 2021 году) будет стоить около 11 миллионов долларов. [52]

Для LLM на основе трансформатора стоимость обучения намного выше, чем стоимость вывода. стоит 6 флопс на каждый параметр, тогда как на вывод на одном токене уходит от 1 до 2 флопс на каждый параметр. Обучение на одном токене [53]

Использование инструмента

[ редактировать ]

Есть определенные задачи, которые в принципе не может решить ни один LLM, по крайней мере, без использования внешних инструментов или дополнительного программного обеспечения. Примером такой задачи является ответ на ввод пользователя «354 * 139 =», при условии, что LLM еще не встретил продолжение этого расчета в своем обучающем корпусе. В таких случаях LLM необходимо прибегнуть к запуску программного кода, вычисляющего результат, который затем может быть включен в его ответ. Другой пример: «Сколько сейчас время?» Это ', когда отдельный интерпретатор программы должен будет выполнить код, чтобы получить системное время на компьютере, чтобы LLM могла включить его в свой ответ. [54] [55] Эту базовую стратегию можно усовершенствовать за счет нескольких попыток сгенерированных программ и других стратегий выборки. [56]

Как правило, чтобы заставить LLM использовать инструменты, необходимо настроить его на использование инструментов. Если количество инструментов конечно, то тонкую настройку можно выполнить только один раз. Если количество инструментов может расти произвольно, как в случае с онлайн- сервисами API , то LLM можно настроить так, чтобы он мог читать документацию API и правильно вызывать API. [57] [58]

Более простой формой использования инструмента является генерация с расширенным поиском : дополнение LLM поиском документов . По запросу вызывается средство извлечения документов для получения наиболее релевантных документов. Обычно это делается путем кодирования запроса и документов в векторы, а затем поиска документов с векторами (обычно хранящимися в базе данных векторов ), наиболее похожими на вектор запроса. Затем LLM генерирует выходные данные на основе запроса и контекста, включенного в полученные документы. [59]

Агентство

[ редактировать ]

LLM — это языковая модель, которая не является агентом, поскольку не имеет цели, но может использоваться как компонент интеллектуального агента . [60] Исследователи описали несколько методов такой интеграции. [ нужна ссылка ]

Шаблон ReAct , представляющий собой комбинацию «Разум + Действие», конструирует агента из LLM, используя LLM в качестве планировщика. LLM предлагается «думать вслух». В частности, языковая модель запрашивается с текстовым описанием окружающей среды, целью, списком возможных действий и записью действий и наблюдений на данный момент. Он генерирует одну или несколько мыслей, прежде чем генерировать действие, которое затем выполняется в окружающей среде. [61] Лингвистическое описание окружающей среды, данное планировщику LLM, может даже представлять собой код LaTeX статьи, описывающей окружающую среду. [62]

В методе DEPS («Описывать, объяснять, планировать и выбирать») LLM сначала подключается к визуальному миру посредством описаний изображений, затем ему предлагается составить планы для сложных задач и действий на основе предварительно подготовленных знаний и обратной связи с окружающей средой. получает. [63]

Метод отражения [64] создает агента, который учится на протяжении нескольких эпизодов. В конце каждого эпизода LLM предоставляется запись эпизода и предлагается обдумать «извлеченные уроки», которые помогут ему лучше работать в следующем эпизоде. Эти «извлеченные уроки» передаются агенту в последующих эпизодах. [ нужна ссылка ]

Поиск по дереву Монте-Карло может использовать LLM в качестве эвристики развертывания. Если программная модель мира недоступна, LLM также может быть предложено ввести описание среды, которая будет выступать в качестве модели мира. [65]

Для открытого исследования LLM можно использовать для оценки наблюдений за их «интересность», что можно использовать в качестве сигнала вознаграждения для руководства обычным (не LLM) агентом обучения с подкреплением. [66] Альтернативно, он может предлагать все более сложные задачи для изучения учебной программы . [67] Вместо вывода отдельных действий планировщик LLM также может создавать «навыки» или функции для сложных последовательностей действий. Навыки можно сохранять и впоследствии использовать, что позволяет повысить уровень абстракции при планировании. [67]

Агенты на базе LLM могут хранить долговременную память о своих предыдущих контекстах, и эту память можно извлечь таким же способом, как и при извлечении дополненной генерации. Несколько таких агентов могут взаимодействовать социально. [68]

Обычно LLM обучаются с помощью чисел с плавающей запятой одинарной или половинной точности (float32 и float16). Один float16 имеет 16 бит или 2 байта, поэтому для одного миллиарда параметров требуется 2 гигабайта. Самые крупные модели обычно имеют 100 миллиардов параметров, для загрузки которых требуется 200 гигабайт, что ставит их за пределы возможностей большинства бытовой электроники. [69]

после обучения Квантование [70] направлен на уменьшение требований к пространству за счет снижения точности параметров обученной модели, сохраняя при этом большую часть ее производительности. [71] [72] Самая простая форма квантования просто усекает все числа до заданного количества бит. Его можно улучшить, используя разные кодовые книги квантования для каждого слоя. Дальнейшее улучшение может быть достигнуто путем применения различной точности к различным параметрам, с более высокой точностью для особенно важных параметров («выбросов веса»). [73] Видеть [74] для наглядного руководства.

Хотя квантованные модели обычно замораживаются, а точной настройке подвергаются только предварительно квантованные модели, квантованные модели все равно можно точно настроить. [75]

Мультимодальность

[ редактировать ]

Мультимодальность означает «наличие нескольких модальностей», а «модальность» относится к типу ввода или вывода, такому как видео, изображение, аудио, текст, проприоцепция и т. д. [76] Было создано множество моделей искусственного интеллекта, специально обученных для приема одной модальности и вывода другой модальности, например AlexNet для маркировки изображений, [77] визуальный ответ на вопрос для преобразования изображения-текста в текст, [78] и распознавание речи для преобразования речи в текст.

Распространенным методом создания мультимодальных моделей на основе LLM является «токенизация» выходных данных обученного кодировщика. Конкретно, можно построить LLM, который может понимать изображения, следующим образом: возьмите обученный LLM и обученный кодировщик изображений. . Сделайте небольшой многослойный перцептрон , так что для любого изображения , вектор постобработки имеет те же размеры, что и закодированный токен. Это «токен изображения». Затем можно чередовать текстовые токены и токены изображений. Затем составная модель уточняется на наборе данных изображения и текста. Эту базовую конструкцию можно применять с большей сложностью для улучшения модели. Кодер изображения можно заморозить для повышения стабильности. [79]

Flamingo продемонстрировал эффективность метода токенизации, настроив пару предварительно обученной языковой модели и кодировщика изображений, чтобы они лучше справлялись с визуальными ответами на вопросы, чем модели, обученные с нуля. [80] Модель Google PaLM была доработана до мультимодальной модели PaLM-E с использованием метода токенизации и применена к роботизированному управлению. [81] Модели LLaMA также стали мультимодальными с использованием метода токенизации, чтобы обеспечить ввод изображений. [82] и видеовходы. [83]

GPT-4 может использовать как текст, так и изображение в качестве входных данных. [84] (хотя компонент видения не был обнародован до появления GPT-4V). [85] ); Google DeepMind от Gemini также является мультимодальным. [86]

Характеристики

[ редактировать ]

Законы масштабирования

[ редактировать ]

Следующие четыре гиперпараметра характеризуют LLM:

  • стоимость (предварительного) обучения ( ),
  • размер самой искусственной нейронной сети , например количество параметров (т.е. количество нейронов в его слоях, количество весов между ними и смещений),
  • размер набора данных (предварительного) обучения (т. е. количество токенов в корпусе, ),
  • производительность после (предварительной) тренировки.

Они связаны простыми статистическими законами , называемыми «законами масштабирования». Один конкретный закон масштабирования (« масштабирование Шиншиллы ») для LLM, авторегрессионно обученного в течение одной эпохи, с логарифмическим графиком скорости обучения , гласит, что: [87] где переменные

  • — стоимость обучения модели в флопах .
  • количество параметров в модели.
  • — количество токенов в обучающем наборе.
  • — это средняя отрицательная логарифмическая потеря правдоподобия на токен ( nats /token), достигнутая обученным LLM на тестовом наборе данных.

и статистические гиперпараметры

  • Это означает, что обучение на одном токене стоит 6 флопов на каждый параметр. Обратите внимание, что стоимость обучения намного выше, чем стоимость вывода, где для вывода одного токена требуется от 1 до 2 флопс на каждый параметр. [53]

Новые способности

[ редактировать ]

В точках, называемых перерывами , [88] линии меняют свой наклон, представляя на логарифмическом графике серию линейных отрезков, соединенных дугами.

Производительность более крупных моделей при выполнении различных задач, построенная в логарифмическом масштабе, выглядит как линейная экстраполяция производительности, достигнутой моделями меньшего размера. Однако эта линейность может быть акцентирована « перерывами» . [88] в законе масштабирования, где наклон линии резко меняется и где более крупные модели приобретают «новые способности». [38] [89] Они возникают в результате сложного взаимодействия компонентов модели и не запрограммированы или спроектированы явно. [2]

Наиболее интригующей среди новых способностей является контекстное обучение на демонстрационных примерах. [90] Контекстное обучение включает в себя решение таких задач, как:

  • сообщила арифметику, расшифровку международного фонетического алфавита , расшифровку букв слова, устранение неоднозначности слова в контексте, [38] [91] [92] преобразование пространственных слов, сторон света (например, ответ «северо-восток» на [0, 0, 1; 0, 0, 0; 0, 0, 0]), цветовых терминов, представленных в тексте. [93]
  • Подсказки по цепочке мыслей : выходные данные модели улучшаются за счет подсказок по цепочке мыслей только в том случае, если размер модели превышает 62 байт. Меньшие модели работают лучше, когда им предлагается ответить немедленно, без цепочки мыслей. [94]
  • выявление оскорбительного содержания в абзацах на хинглише (сочетании хинди и английского языка) и создание аналогичного английского эквивалента пословиц суахили . [95]

Шеффер и др. ал. утверждают, что возникающие способности не приобретаются непредсказуемо, а предсказуемо приобретаются в соответствии с законом плавного масштабирования . Авторы рассмотрели игрушечную статистическую модель LLM, решающую вопросы с несколькими вариантами ответов, и показали, что эта статистическая модель, модифицированная для учета других типов задач, применима и к этим задачам. [96]

Позволять быть числом параметров, и быть производительностью модели.

  • Когда , затем представляет собой экспоненциальную кривую (прежде чем она достигнет плато в единице), которая выглядит как эмерджентность.
  • Когда , тогда график представляет собой прямую линию (до того, как она достигнет нулевого плато), что не похоже на эмерджентность.
  • Когда , затем является ступенчатой ​​функцией, которая выглядит как эмерджентность.

Интерпретация

[ редактировать ]

Большие языковые модели сами по себе являются « черными ящиками », и неясно, как они могут выполнять лингвистические задачи. Существует несколько способов понять, как работает LLM.

Механистическая интерпретируемость направлена ​​на реверс-инжиниринг LLM путем открытия символических алгоритмов, которые аппроксимируют вывод, выполняемый LLM. Одним из примеров является Othello-GPT, где небольшой Трансформер обучен предсказывать законные ходы Отелло . Обнаружено, что существует линейное представление доски Отелло, и изменение этого представления меняет предсказанные законные ходы Отелло правильным образом. [97] [98] В другом примере небольшой Трансформер обучается на программах Karel . Как и в примере с Othello-GPT, существует линейное представление семантики программы Karel, и изменение представления меняет выходные данные правильным образом. Модель также генерирует правильные программы, которые в среднем короче программ в обучающей выборке. [99]

В другом примере авторы обучали небольшие преобразователи модульному арифметическому сложению . Полученные модели были реконструированы, и оказалось, что они использовали дискретное преобразование Фурье . [100]

Понимание и интеллект

[ редактировать ]

Исследователи НЛП разделились поровну, когда в опросе 2022 года их спросили, могут ли (ненастроенные) студенты-магистры права «смогут (когда-либо) понимать естественный язык в каком-то нетривиальном смысле». [101] Сторонники «понимания LLM» считают, что некоторые способности LLM, такие как математические рассуждения, подразумевают способность «понимать» определенные концепции. В 2023 году команда Microsoft утверждала, что GPT-4 «может решать новые и сложные задачи, охватывающие математику, программирование, видение, медицину, право, психологию и многое другое» и что GPT-4 «можно разумно рассматривать как раннюю (но все еще неполную) версию ) версия системы искусственного общего интеллекта »: «Можно ли разумно сказать, что система, которая сдает экзамены для кандидатов в инженеры-программисты, на самом деле не интеллектуальна?» [102] [103] Некоторые исследователи характеризуют LLM как «инопланетный интеллект». [104] [105] Например, генеральный директор Conjecture Коннор Лихи считает ненастроенные LLM подобными непостижимым инопланетным « шогготам » и считает, что настройка RLHF создает «улыбающийся фасад», скрывающий внутреннюю работу LLM: «Если вы не зайдете слишком далеко, смайлик остается. Но затем вы даете ему [неожиданную] подсказку, и внезапно вы видите это огромное подбрюшье безумия, странных мыслительных процессов и явно нечеловеческого понимания». [106] [107]

Напротив, некоторые сторонники школы «LLM не понимают» считают, что существующие LLM «просто смешивают и рекомбинируют существующее письмо». [105] явление, известное как стохастический попугай , или они указывают на дефицит существующих LLM навыков прогнозирования, навыков рассуждения, свободы действий и объяснимости. [101] Например, GPT-4 имеет естественные недостатки в планировании и обучении в реальном времени. [103] Было замечено, что генеративные LLM уверенно заявляют о фактах, которые, по-видимому, не подтверждаются данными их обучения , - явление, которое было названо « галлюцинацией ». [108] В частности, галлюцинации в контексте LLM соответствуют генерации текста или ответов, которые кажутся синтаксически обоснованными, беглыми и естественными, но на самом деле являются неверными, бессмысленными или не соответствуют предоставленному источнику. [109] Нейробиолог Терренс Сейновски утверждал, что «разные мнения экспертов об интеллекте студентов-магистров предполагают, что наши старые идеи, основанные на естественном интеллекте, неадекватны». [101]

Вопрос о том, как LLM демонстрирует интеллект или понимание, имеет два основных аспекта: первый — это то, как моделировать мышление и язык в компьютерной системе, а второй — как позволить компьютерной системе генерировать язык, подобный человеческому. [101] Эти аспекты языка как модели познания получили развитие в области когнитивной лингвистики . Американский лингвист Джордж Лакофф представил нейронную теорию языка (NTL) [110] в качестве вычислительной основы для использования языка в качестве модели учебных задач и понимания. Модель NTL описывает, как конкретные нейронные структуры человеческого мозга формируют природу мышления и языка и, в свою очередь, каковы вычислительные свойства таких нейронных систем, которые можно применять для моделирования мышления и языка в компьютерной системе. После того, как была создана основа моделирования языка в компьютерных системах, акцент сместился на создание рамок для компьютерных систем, позволяющих генерировать язык с приемлемой грамматикой. В своей книге 2014 года под названием «Миф о языке: почему язык не является инстинктом » британский когнитивный лингвист и технолог цифровых коммуникаций Вивиан Эванс наметил роль вероятностной контекстно-свободной грамматики (PCFG), позволяющей НЛП моделировать когнитивные паттерны и генерировать человекоподобный язык. . [111] [112]

Растерянность

[ редактировать ]

Наиболее часто используемой мерой производительности языковой модели является ее сложность в данном текстовом корпусе. Недоумение — это мера того, насколько хорошо модель способна предсказать содержимое набора данных; чем выше вероятность, которую модель присваивает набору данных, тем меньше недоумение. Математически недоумение определяется как экспонента средней отрицательной логарифмической вероятности на токен: здесь — количество токенов в текстовом корпусе, а «контекст для токена " зависит от конкретного типа используемого LLM. Если LLM является авторегрессионным, то "контекст для токена " — это фрагмент текста, который появляется перед токеном . Если LLM замаскирован, то «контекст для токена " — это фрагмент текста, окружающий токен .

Поскольку языковые модели могут не соответствовать обучающим данным, модели обычно оцениваются по степени их недоумения на тестовом наборе невидимых данных. [45] Это создает особые проблемы для оценки больших языковых моделей. Поскольку они обучаются на все более крупных массивах текста, в основном извлеченных из Интернета, становится все более вероятным, что данные обучения моделей непреднамеренно включают части любого заданного набора тестов. [3]

BPW, BPC и BPT

[ редактировать ]

В теории информации концепция энтропии неразрывно связана с недоумением, связь, установленная Клодом Шенноном . [113] Эта зависимость математически выражается как .

Энтропия в этом контексте обычно выражается количественно в битах на слово (BPW) или битах на символ (BPC), что зависит от того, использует ли языковая модель токенизацию на основе слов или символов.

Примечательно, что в случае более крупных языковых моделей, в которых преимущественно используется токенизация подслов, бит на токен (BPT), по-видимому, является более подходящей мерой. Однако из-за различий в методах токенизации в разных моделях большого языка (LLM) BPT не служит надежным показателем для сравнительного анализа различных моделей. Чтобы преобразовать BPT в BPW, его можно умножить на среднее количество токенов в слове.

При оценке и сравнении языковых моделей перекрестная энтропия обычно является более предпочтительным показателем, чем энтропия. Основной принцип заключается в том, что более низкое значение BPW указывает на расширенные возможности модели по сжатию. Это, в свою очередь, отражает умение модели делать точные прогнозы.

Наборы данных и тесты для конкретных задач

[ редактировать ]

Также было разработано большое количество тестовых наборов данных и тестов для оценки возможностей языковых моделей для решения более конкретных последующих задач. Тесты могут быть разработаны для оценки различных способностей, включая общие знания, здравое рассуждение и решение математических задач.

Одной из широких категорий наборов оценочных данных являются наборы данных с ответами на вопросы, состоящие из пар вопросов и правильных ответов, например («Выиграли ли «Сан-Хосе Шаркс» Кубок Стэнли?», «Нет»). [114] Задача ответа на вопрос считается «открытой книгой», если подсказка модели включает текст, из которого можно получить ожидаемый ответ (например, к предыдущему вопросу можно добавить текст, включающий предложение «Шаркс» вышли на Кубок Стэнли). один раз дошел до финала, проиграв «Питтсбург Пингвинз» в 2016 году». [114] ). В противном случае задача считается «закрытой книгой», и модель должна опираться на знания, полученные во время обучения. [115] Некоторые примеры часто используемых наборов данных для ответов на вопросы включают TruthfulQA, Web Questions, TriviaQA и SQuAD. [115]

Наборы оценочных данных также могут принимать форму завершения текста: модель выбирает наиболее подходящее слово или предложение для завершения подсказки, например: «Алиса дружила с Бобом. Алиса пошла навестить своего друга ____». [3]

Также были разработаны некоторые комплексные тесты, которые сочетают в себе множество различных наборов оценочных данных и задач. Примеры включают GLUE, SuperGLUE, MMLU , BIG-bench и HELM. [113] [115] OpenAI выпустила инструменты для запуска составных тестов, но отметила, что результаты оценки чувствительны к методу подсказки. [116] [117] Некоторые общедоступные наборы данных содержат вопросы, которые неправильно маркированы, двусмысленны, не имеют ответа или имеют низкое качество по другим причинам, и их можно очистить, чтобы получить более надежные контрольные оценки. [118]

Раньше было стандартным сообщать результаты по отложенной части набора оценочных данных после выполнения контролируемой точной настройки оставшейся части. Сейчас более распространено оценивать предварительно обученную модель непосредственно с помощью методов подсказки, хотя исследователи различаются в деталях того, как они формулируют подсказки для конкретных задач, особенно в отношении того, сколько примеров решенных задач прилагается к подсказке (т.е. значение n в подсказке n -shot).

Состязательно построенные оценки

[ редактировать ]

Из-за быстрых темпов совершенствования больших языковых моделей тесты оценки имеют короткую продолжительность жизни, при этом современные модели быстро «насыщают» существующие тесты, превосходя производительность людей-аннотаторов, что приводит к попыткам заменить или дополнить тест более сложные задачи. [119] Кроме того, существуют случаи «быстрого обучения», когда ИИ иногда «обманывают» тесты с множественным выбором, используя статистические корреляции в поверхностных формулировках тестовых вопросов, чтобы угадать правильные ответы, не обязательно понимая фактический задаваемый вопрос. [101]

Некоторые наборы данных были построены состязательно, с упором на конкретные проблемы, в решении которых существующие языковые модели кажутся необычайно плохими по сравнению с людьми. Одним из примеров является набор данных TruthfulQA, набор данных с ответами на вопросы, состоящий из 817 вопросов, на которые языковые модели склонны давать неправильные ответы, имитируя ложь, с которой они неоднократно сталкивались во время обучения. Например, степень магистра права может ответить «Нет» на вопрос «Можете ли вы научить старую собаку новым трюкам?» из-за того, что она знакома с английской идиомой, вы не сможете научить старую собаку новым трюкам , хотя это не совсем так. [120]

Другим примером набора данных состязательной оценки является Swag и его преемник HellaSwag, наборы задач, в которых для завершения отрывка текста необходимо выбрать один из нескольких вариантов. Неправильные дополнения были получены путем выборки из языковой модели и фильтрации с помощью набора классификаторов. Возникающие в результате проблемы тривиальны для людей, но на момент создания наборов данных современные языковые модели имели низкую точность. Например:

Видим вывеску фитнес-центра. Затем мы видим мужчину, разговаривающего с камерой, сидящего и лежащего на мяче для упражнений. Тот человек...
а) демонстрирует, как повысить эффективность физических упражнений, бегая по мячу вверх и вниз.
б) двигает всеми руками и ногами и наращивает много мышц.
в) затем играет в мяч, и мы видим графику и демонстрацию обрезки живой изгороди.
г) выполняет приседания, находясь на мяче и разговаривая. [121]

BERT выбирает b) как наиболее вероятное завершение, хотя правильный ответ — d). [121]

Более широкое воздействие

[ редактировать ]

В 2023 году журнал Nature Biomedical Engineering написал, что «больше невозможно точно отличить» написанный человеком текст от текста, созданного с помощью больших языковых моделей, и что «почти наверняка, что большие языковые модели общего назначения будут быстро распространяться. Можно с уверенностью сказать, что со временем они изменят многие отрасли». [122] В 2023 году Goldman Sachs предположил, что генеративный языковой ИИ может увеличить мировой ВВП на 7% в ближайшие десять лет и может подвергнуть автоматизации 300 миллионов рабочих мест по всему миру. [123] [124]

[ редактировать ]

Запоминание — это новое поведение в LLM, в котором длинные строки текста иногда дословно выводятся из обучающих данных, в отличие от типичного поведения традиционных искусственных нейронных сетей. Оценки контролируемых результатов LLM измеряют объем, запомненный из обучающих данных (с акцентом на модели серии GPT-2), в разной степени превышающий 1% для точных дубликатов. [125] или примерно до 7%. [126]

Безопасность

[ редактировать ]

Некоторые комментаторы выразили обеспокоенность по поводу случайного или преднамеренного создания дезинформации или других форм неправильного использования. [127] Например, наличие больших языковых моделей может снизить уровень навыков, необходимых для совершения биотерроризма; Исследователь биобезопасности Кевин Эсвелт предложил создателям LLM исключить из своих учебных материалов материалы по созданию или усилению патогенов. [128]

Исследование, проведенное исследователями Google и нескольких университетов, в том числе Корнельского университета и Калифорнийского университета в Беркли , показало, что существуют потенциальные угрозы безопасности в таких языковых моделях, как ChatGPT . В своем исследовании они изучили и подтвердили возможность того, что спрашивающие могут получить из ChatGPT данные обучения, которые использовала модель ИИ. Например, попросив ChatGPT 3.5 турбо вечно повторять слово «стихотворение», модель ИИ будет говорить «стихотворение» сотни раз, а затем расходиться, отклоняясь от стандартного стиля диалога и выплескивая бессмысленные фразы, выплескивая таким образом обучающие данные. как есть. Исследователи видели более 10 000 примеров модели ИИ, предоставляющей данные обучения аналогичным методом. Исследователи заявили, что трудно сказать, действительно ли модель ИИ безопасна или нет. [129]

Потенциальное присутствие «спящих агентов» в моделях LLM является еще одной новой проблемой безопасности. Это скрытые функции, встроенные в модель, которые остаются бездействующими до тех пор, пока не будут активированы определенным событием или условием. После активации LLM отклоняется от ожидаемого поведения и совершает небезопасные действия. [130]

Приложения большой языковой модели (LLM), доступные для общественности, такие как ChatGPT или Claude, обычно включают меры безопасности, предназначенные для фильтрации вредоносного контента. Однако эффективное внедрение этих мер контроля оказалось сложной задачей. Например, исследование Kang et al. [131] продемонстрировал метод обхода систем безопасности LLM. Аналогично, Ван [132] проиллюстрировал, как потенциальный преступник может потенциально обойти меры безопасности ChatGPT 4o, чтобы получить информацию об организации операции по незаконному обороту наркотиков.

Алгоритмическое смещение

[ редактировать ]

Хотя LLM продемонстрировали замечательные возможности в создании текста, похожего на человеческий, они подвержены наследованию и усилению систематических ошибок, присутствующих в их обучающих данных. Это может проявляться в искаженном представлении или несправедливом обращении с различными демографическими группами, например, на основе расы, пола, языка и культурных групп. [133] Поскольку данные на английском языке слишком представлены в обучающих данных текущих крупных языковых моделей, это также может преуменьшать значение неанглоязычных представлений. [134]

Стереотипирование

[ редактировать ]

Модели ИИ могут усилить широкий спектр стереотипов, в том числе основанных на поле, этнической принадлежности, возрасте, национальности, религии или профессии. Это может привести к результатам, которые несправедливо обобщают или карикатурно изображают группы людей, иногда вредными или уничижительными способами. [135]

Примечательно, что гендерная предвзятость означает тенденцию этих моделей давать результаты, которые несправедливо предвзято относятся к одному полу по сравнению с другим. Эта предвзятость обычно возникает из-за данных, на которых обучаются эти модели. Большие языковые модели часто назначают роли и характеристики на основе традиционных гендерных норм. [133] Например, медсестры или секретари могут ассоциироваться преимущественно с женщинами, а инженеры или руководители — с мужчинами. [136]

Политическая предвзятость

[ редактировать ]

Политическая предвзятость означает тенденцию алгоритмов систематически отдавать предпочтение определенным политическим точкам зрения, идеологиям или результатам над другими. Языковые модели могут также проявлять политическую предвзятость. Поскольку данные обучения включают в себя широкий спектр политических взглядов и охвата, модели могут генерировать ответы, склоняющиеся к конкретным политическим идеологиям или точкам зрения, в зависимости от преобладания этих взглядов в данных. [137]

Для столбца стоимости обучения 1 петафлопс-день = 1 петафлопс/сек × 1 день = 8,64E19 флоп. Также написана стоимость только самой большой модели.

Имя Дата выпуска [а] Разработчик Количество параметров (млрд) [б] Размер корпуса Стоимость обучения (петаФЛОП-день) Лицензия [с] Примечания
ГПТ-1 июнь 2018 г. ОпенАИ 0.117 1 [138] С [139] Первая модель GPT, преобразователь только для декодера. Обучался в течение 30 дней на 8 графических процессорах P600 .
БЕРТ Октябрь 2018 г. Google 0.340 [140] 3,3 миллиарда слов [140] 9 [141] Апач 2.0 [142] Ранняя и влиятельная языковая модель, [5] но предназначен только для кодировщика и, следовательно, не предназначен для использования подсказок или генерации [143]
Т5 октябрь 2019 г. Google 11 [144] 34 миллиарда токенов [144] Апач 2.0 [145] Базовая модель для многих проектов Google, таких как Imagen. [146]
XLNet июнь 2019 г. Google ~0.340 [147] 33 миллиарда слов Апач 2.0 [148] Альтернатива BERT; предназначен только для кодировщика [149] [150]
ГПТ-2 февраль 2019 г. ОпенАИ 1.5 [151] 40 ГБ [152] (~ 10 миллиардов токенов) [153] 28 [154] С [155] Обучался на 32 чипах TPUv3 в течение 1 недели. [154]
ГПТ-3 май 2020 г. ОпенАИ 175 [49] 300 миллиардов токенов [153] 3640 [156] собственный Доработанный вариант GPT-3, получивший название GPT-3.5, был доступен публике через веб-интерфейс ChatGPT в 2022 году. [157]
GPT-Нео март 2021 г. ЭлеутерAI 2.7 [158] 825 ГиБ [159] С [160] Первая из серии бесплатных альтернатив GPT-3, выпущенных EleutherAI. GPT-Neo превзошел модель GPT-3 эквивалентного размера по некоторым тестам, но был значительно хуже, чем самый большой GPT-3. [160]
ГПТ-J июнь 2021 г. ЭлеутерAI 6 [161] 825 ГиБ [159] 200 [162] Апач 2.0 Языковая модель в стиле GPT-3
Мегатрон-Тьюринг НЛГ октябрь 2021 г. [163] Майкрософт и Нвидиа 530 [164] 338,6 миллиарда токенов [164] Ограниченный доступ в Интернет Стандартная архитектура, но обучение на суперкомпьютерном кластере.
Эрни 3.0 Титан декабрь 2021 г. Байду 260 [165] 4 Тб Собственный LLM на китайском языке. Ernie Bot основан на этой модели.
Клод [166] декабрь 2021 г. антропный 52 [167] 400 миллиардов токенов [167] бета Точная настройка для желаемого поведения в разговорах. [168]
GLaM (универсальная языковая модель) декабрь 2021 г. Google 1200 [37] 1,6 триллиона токенов [37] 5600 [37] Собственный Модель с разреженной смесью экспертов , что делает ее обучение более дорогостоящим, но более дешевым в выполнении выводов по сравнению с GPT-3.
Суслик декабрь 2021 г. ДипМайнд 280 [169] 300 миллиардов токенов [170] 5833 [171] Собственный Позже превратилась в модель Шиншилла.
LaMDA (Языковые модели для диалоговых приложений) Январь 2022 г. Google 137 [172] 1,56Т слов, [172] 168 миллиардов токенов [170] 4110 [173] Собственный Специализируется на генерации ответов в разговорах.
GPT-NeoX февраль 2022 г. ЭлеутерAI 20 [174] 825 ГиБ [159] 740 [162] Апач 2.0 на основе архитектуры Мегатрона
Шиншилла март 2022 г. ДипМайнд 70 [175] 1,4 триллиона токенов [175] [170] 6805 [171] Собственный Модель с уменьшенными параметрами, обученная на большем количестве данных. Используется в боте Sparrow . Часто упоминается из-за закона нейронного масштабирования .
PaLM (языковая модель путей) апрель 2022 г. Google 540 [176] 768 миллиардов токенов [175] 29250 [171] Собственный Обучение продолжалось ~60 дней на ~6000 чипах TPU v4 . [171]
OPT (открытый предварительно обученный трансформатор) май 2022 г. Мета 175 [177] 180 миллиардов токенов [178] 310 [162] Некоммерческие исследования [д] Архитектура GPT-3 с некоторыми доработками от Megatron
ЯЛМ 100Б июнь 2022 г. Yandex 100 [179] 1,7 ТБ [179] Апач 2.0 Англо-русская модель на базе Megatron-LM от Microsoft.
Минерва июнь 2022 г. Google 540 [180] 38,5 млрд токенов с веб-страниц, отфильтрованных по математическому содержанию, и из статей, отправленных на сервер препринтов arXiv. [180] Собственный За решение «математических и научных вопросов с помощью пошаговых рассуждений». [181] На основе модели PaLM, дальнейшее обучение математическим и научным данным.
ЦВЕСТИ июль 2022 г. Крупное сотрудничество под руководством Hugging Face 175 [182] 350 миллиардов токенов (1,6 ТБ) [183] Ответственный ИИ По сути GPT-3, но обучен на многоязычном корпусе (30% английского, исключая языки программирования)
Галактика ноябрь 2022 г. Мета 120 106 миллиардов токенов [184] неизвестный CC-BY-NC-4.0 Обучение научным текстам и модальностям.
AlexaTM (модели учителей) ноябрь 2022 г. Амазонка 20 [185] 1,3 триллиона [186] собственный [187] двунаправленная архитектура последовательности-последовательности
Нейро-сама декабрь 2022 г. Независимый Неизвестный Неизвестный частный Языковая модель, предназначенная для прямых трансляций на Twitch .
LLaMA (Большая языковая модель Meta AI) февраль 2023 г. Мета ИИ 65 [188] 1,4 триллиона [188] 6300 [189] Некоммерческие исследования [и] В корпусе 20 языков. «Переобученный» (по сравнению с законом масштабирования Шиншиллы ) для лучшей производительности с меньшим количеством параметров. [188]
ГПТ-4 март 2023 г. ОпенАИ Неизвестный [ф] (По слухам: 1760 г.) [191] Неизвестный Неизвестный собственный Доступно для пользователей ChatGPT Plus и используется в нескольких продуктах .
Церебрас-GPT март 2023 г. Мозги 13 [192] 270 [162] Апач 2.0 Приучена к формуле Шиншиллы .
Сокол март 2023 г. Технологический инновационный институт 40 [193] 1 триллион токенов от RefinedWeb (корпус отфильтрованного веб-текста) [194] плюс несколько «кураторских корпусов». [195] 2800 [189] Апач 2.0 [196]
BloombergGPT март 2023 г. Блумберг ЛП 50 Набор данных из 363 миллиардов токенов на основе источников данных Bloomberg, а также 345 миллиардов токенов из наборов данных общего назначения. [197] Собственный Обучился работе с финансовыми данными из собственных источников для решения финансовых задач.
ПанГу-Σ март 2023 г. Хуавей 1085 329 миллиардов токенов [198] Собственный
OpenAssistant [199] март 2023 г. ЛАИОН 17 1,5 триллиона токенов Апач 2.0 Обучение на краудсорсинговых открытых данных
Юрский-2 [200] март 2023 г. Лаборатории AI21 Неизвестный Неизвестный Собственный Многоязычный [201]
PaLM 2 (языковая модель путей 2) май 2023 г. Google 340 [202] 3,6 триллиона токенов [202] 85000 [189] Собственный Использовался в чат-боте Bard . [203]
Позвоните 2 июль 2023 г. Мета ИИ 70 [204] 2 триллиона токенов [204] 21000 Лицензия на вызов 2 1,7 миллиона часов A100. [205]
Клод 2 июль 2023 г. антропный Неизвестный Неизвестный Неизвестный Собственный Используется в чат-боте Клода. [206]
Мистраль 7Б сентябрь 2023 г. Мистраль ИИ 7.3 [207] Неизвестный Апач 2.0
Клод 2.1 ноябрь 2023 г. антропный Неизвестный Неизвестный Неизвестный Собственный Используется в чат-боте Клода. Имеет контекстное окно на 200 000 токенов или ~500 страниц. [208]
Грок-1 [209] ноябрь 2023 г. x.AI 314 Неизвестный Неизвестный Апач 2.0 Используется в чат-боте Grok . Grok-1 имеет длину контекста 8192 токена и имеет доступ к X (Twitter). [210]
Близнецы 1.0 декабрь 2023 г. Гугл ДипМайнд Неизвестный Неизвестный Неизвестный Собственный Мультимодальная модель, поставляется в трех размерах. Используется в одноименном чат-боте . [211]
Микстрал 8х7Б декабрь 2023 г. Мистраль ИИ 46.7 Неизвестный Неизвестный Апач 2.0 Превосходит GPT-3.5 и Llama 2 70B во многих тестах. [212] Смесь экспертных моделей с 12,9 миллиардами параметров, активируемых на каждый токен. [213]
Микстрал 8х22Б апрель 2024 г. Мистраль ИИ 141 Неизвестный Неизвестный Апач 2.0 [214]
Фи-2 декабрь 2023 г. Майкрософт 2.7 токены 1,4 трлн. 419 [215] С Обучение на реальных и синтетических данных «учебного качества» в течение 14 дней на 96 графических процессорах A100. [215]
Близнецы 1.5 февраль 2024 г. Гугл ДипМайнд Неизвестный Неизвестный Неизвестный Собственный Мультимодальная модель, основанная на архитектуре смешанных экспертов (MoE). Контекстное окно выше 1 миллиона токенов. [216]
Джемма февраль 2024 г. Гугл ДипМайнд 7 токены 6Т Неизвестный Условия использования Джеммы [217]
Клод 3 март 2024 г. антропный Неизвестный Неизвестный Неизвестный Собственный Включает три модели: Haiku, Sonnet и Opus. [218]
ДБРКС март 2024 г. Блоки данных и Mosaic ML 136 12Т жетонов Лицензия открытой модели Databricks Стоимость обучения составила 10 миллионов долларов США.
Фугаку-LLM май 2024 г. Fujitsu , Токийский технологический институт и др. 13 380B токенов Самая большая модель, когда-либо тренировавшаяся только на процессоре, на Fugaku . [219]
Фи-3 апрель 2024 г. Майкрософт 14 [220] Токены 4,8Т С Microsoft позиционирует их как «маленькую языковую модель». [221]
Квен2 июнь 2024 г. Алибаба Облако 72 [222] Токены 3T Несколько размеров, самый маленький — 0,5B.
Немотрон-4 июнь 2024 г. Нвидиа 340 Токены 9T 200,000 Лицензия открытой модели NVIDIA Обучался 1 эпоху. Проходил обучение на графических процессорах 6144 H100 в период с декабря 2023 г. по май 2024 г. [223] [224]
Звонок 3.1 июль 2024 г. Мета ИИ 405 15,6Т токенов 440,000 Лицензия на вызов 3 Версия 405B заняла 31 миллион часов на H100 -80 ГБ при 3,8E25 флопах. [225] [226]

См. также

[ редактировать ]

Примечания

[ редактировать ]
  1. ^ Это дата, когда была впервые выпущена документация, описывающая архитектуру модели.
  2. ^ Во многих случаях исследователи публикуют или сообщают о нескольких версиях модели разных размеров. В этих случаях здесь указан размер самой большой модели.
  3. ^ Это лицензия на предварительно обученные веса модели. Почти во всех случаях сам обучающий код имеет открытый исходный код или может быть легко воспроизведен.
  4. ^ Меньшие модели, включая 66B, общедоступны, а модель 175B доступна по запросу.
  5. ^ Схема лицензирования и распространения Facebook ограничила доступ утвержденным исследователям, но веса моделей просочились и стали широко доступны.
  6. ^ Как указано в техническом отчете: «Учитывая как конкурентную среду, так и последствия для безопасности крупномасштабных моделей, таких как GPT-4, этот отчет не содержит дополнительных подробностей об архитектуре (включая размер модели), аппаратном обеспечении, обучающих вычислениях, построении набора данных, метод тренировки..." [190]
  1. ^ «Лучшие языковые модели и их последствия» . ОпенАИ . 14 февраля 2019 г. Архивировано из оригинала 19 декабря 2020 г. Проверено 25 августа 2019 г.
  2. ^ Jump up to: а б Боуман, Сэмюэл Р. (2023). «Восемь вещей, которые нужно знать о больших языковых моделях». arXiv : 2304.00612 [ cs.CL ].
  3. ^ Jump up to: а б с Браун, Том Б.; Манн, Бенджамин; Райдер, Ник; Суббия, Мелани; Каплан, Джаред; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Састри, Гириш; Аскелл, Аманда; Агарвал, Сандхини; Герберт-Восс, Ариэль; Крюгер, Гретхен; Хениган, Том; Дитя, Ревон; Рамеш, Адитья; Зиглер, Дэниел М.; Ву, Джеффри; Зима, Клеменс; Гессен, Кристофер; Чен, Марк; Сиглер, Эрик; Литвин, Матеуш; Грей, Скотт; Шахматы, Бенджамин; Кларк, Джек; Бернер, Кристофер; МакКэндлиш, Сэм; Рэдфорд, Алек; Суцкевер, Илья; Амодей, Дарио (декабрь 2020 г.). Ларошель, Х.; Ранзато, М.; Хадселл, Р.; Балкан, МФ; Лин, Х. (ред.). «Языковые модели мало кто изучает» (PDF) . Достижения в области нейронных систем обработки информации . 33 . Curran Associates, Inc.: 1877–1901.
  4. ^ Фаталлах, Надин; Дас, Арунав; Де Джорджис, Стефано; Полтроньери, Андреа; Хаазе, Питер; Ковригина, Любовь (26 мая 2024 г.). NeOn-GPT: большой конвейер на основе языковых моделей для обучения онтологии (PDF) . Расширенная семантическая веб-конференция 2024. Херсониссос, Греция.
  5. ^ Jump up to: а б Мэннинг, Кристофер Д. (2022). «Понимание и мышление человеческого языка» . Дедал . 151 (2): 127–138. дои : 10.1162/daed_a_01905 . S2CID   248377870 .
  6. ^ Гудман, Джошуа (9 августа 2001 г.), Небольшой прогресс в языковом моделировании , arXiv : cs/0108005
  7. ^ Килгаррифф, Адам; Грефенштетт, Грегори (сентябрь 2003 г.). «Введение в специальный выпуск в Интернете как корпусе» . Компьютерная лингвистика . 29 (3): 333–347. дои : 10.1162/089120103322711569 . ISSN   0891-2017 .
  8. ^ Банко, Микеле; Брилл, Эрик (2001). «Масштабирование до очень-очень больших корпусов для устранения неоднозначности на естественном языке» . Материалы 39-го ежегодного собрания Ассоциации компьютерной лингвистики - ACL '01 . Морристаун, Нью-Джерси, США: Ассоциация компьютерной лингвистики: 26–33. дои : 10.3115/1073012.1073017 .
  9. ^ Резник, Филип; Смит, Ной А. (сентябрь 2003 г.). «Интернет как параллельный корпус» . Компьютерная лингвистика . 29 (3): 349–380. дои : 10.1162/089120103322711578 . ISSN   0891-2017 .
  10. ^ Халеви, Алон; Норвиг, Питер; Перейра, Фернандо (март 2009 г.). «Необоснованная эффективность данных» . Интеллектуальные системы IEEE . 24 (2): 8–12. дои : 10.1109/MIS.2009.36 . ISSN   1541-1672 .
  11. ^ Васвани, Ашиш ; Шазир, Ноам; Пармар, Ники; Ушкорейт, Якоб; Джонс, Лион; Гомес, Эйдан Н ; Кайзер, Лукаш; Полосухин, Илья (2017). «Внимание — это все, что вам нужно» (PDF) . Достижения в области нейронных систем обработки информации . 30 . Карран Ассошиэйтс, Инк.
  12. ^ Богданов Дмитрий; Чо, Кёнхён; Бенджио, Йошуа (2014). «Нейронный машинный перевод путем совместного обучения выравниванию и переводу». arXiv : 1409.0473 [ cs.CL ].
  13. ^ Роджерс, Анна; Ковалева, Ольга; Румшиский, Анна (2020). «Букварь по BERTологии: что мы знаем о том, как работает BERT» . Труды Ассоциации компьютерной лингвистики . 8 : 842–866. arXiv : 2002.12327 . дои : 10.1162/tacl_a_00349 . S2CID   211532403 .
  14. ^ Херн, Алекс (14 февраля 2019 г.). «Новый генератор фальшивых текстов с использованием искусственного интеллекта может быть слишком опасным, чтобы его выпускать, — говорят создатели» . Хранитель . Проверено 20 января 2024 г.
  15. ^ «ChatGPT год спустя: 3 способа, которыми чат-бот с искусственным интеллектом полностью изменил мир за 12 месяцев» . Евроньюс . 30 ноября 2023 г. . Проверено 20 января 2024 г.
  16. ^ Небеса, Уилл (14 марта 2023 г.). «GPT-4 больше и лучше, чем ChatGPT, но OpenAI не говорит, почему» . Обзор технологий Массачусетского технологического института . Проверено 20 января 2024 г.
  17. ^ «Параметры известных систем искусственного интеллекта» . Ourworldindata.org . 30 ноября 2023 г. . Проверено 20 января 2024 г.
  18. ^ «Таблица лидеров арены чат-ботов LMSYS» . Huggingface.co . Проверено 12 июня 2024 г.
  19. ^ Пэн, Бо; и др. (2023). «RWKV: новое изобретение RNNS для эры трансформаторов». arXiv : 2305.13048 [ cs.CL ].
  20. ^ Мерритт, Рик (25 марта 2022 г.). «Что такое модель-трансформер?» . Блог NVIDIA . Проверено 25 июля 2023 г.
  21. ^ Гу, Альберт; Дао, Три (01 декабря 2023 г.), Мамба: моделирование линейно-временных последовательностей с выборочными пространствами состояний , arXiv : 2312.00752
  22. ^ Йенни Джун (3 мая 2023 г.). «Все языки НЕ созданы (токенизированы) равными» . Языковые модели на некоторых языках стоят гораздо дороже, чем на других . Архивировано из оригинала 17 августа 2023 г. Проверено 17 августа 2023 г. Другими словами, для выражения одного и того же чувства в некоторых языках требуется в 10 раз больше токенов.
  23. ^ Петров, Александр; Мальфа, Эмануэле Ла; Торр, Филип; Биби, Адель (23 июня 2023 г.). «Токенизаторы языковых моделей вносят несправедливость между языками» . НейриПС . arXiv : 2305.15425 – через openreview.net.
  24. ^ «ОпенАИ API» . платформа.openai.com . Архивировано из оригинала 23 апреля 2023 года . Проверено 30 апреля 2023 г.
  25. ^ Jump up to: а б Паас, Герхард; Гиссельбах, Свен (2022). «Предварительно обученные языковые модели» . Базовые модели обработки естественного языка . Искусственный интеллект: основы, теория и алгоритмы. стр. 19–78. дои : 10.1007/978-3-031-23190-2_2 . ISBN  9783031231902 . Проверено 3 августа 2023 г.
  26. ^ Петров, Александр; Эмануэле Ла Мальфа; Торр, Филип Х.С.; Биби, Адель (2023). «Токенизаторы языковых моделей вносят несправедливость между языками». arXiv : 2305.15425 [ cs.CL ].
  27. ^ Додж, Джесси; Сап, Мартен; Марасович, Ана; Агнью, Уильям; Ильхарко, Габриэль; Груневельд, Дирк; Митчелл, Маргарет; Гарднер, Мэтт (2021). «Документирование больших веб-текстовых корпораций: пример колоссального чистого просканированного корпуса». arXiv : 2104.08758 [ cs.CL ].
  28. ^ Ли, Кэтрин; Ипполито, Дафна; Нистром, Эндрю; Чжан, Чиюань; Эк, Дуглас; Каллисон-Берч, Крис; Карлини, Николас (май 2022 г.). «Дедупликация обучающих данных делает языковые модели лучше» (PDF) . Материалы 60-го ежегодного собрания Ассоциации компьютерной лингвистики . 1: Длинные статьи: 8424–8445. doi : 10.18653/v1/2022.acl-long.577 .
  29. ^ Ли, Юаньчжи; Бубек, Себастьян; Эльдан, Ронен; Дель Джорно, Элли; Гунасекар, Сурия; Ли, Инь Тат (11 сентября 2023 г.), Учебники - все, что вам нужно II: технический отчет phi-1.5 , arXiv : 2309.05463
  30. ^ Линь, Чжэнхао; Гун, Еюн; Сюй, Жочэнь; Ян, Цзяо, Цзянь (11 апреля 2024 г.). Токены — это то, что вам нужно». arXiv : 2404.07965 [ cs.CL ].
  31. ^ Браун, Том Б.; и др. (2020). «Языковые модели изучаются немногими». arXiv : 2005.14165 [ cs.CL ].
  32. ^ Абдин, Мара; Джейкобс, Сэм Эйд; Аван, Аммар Ахмад; Анеха, Джьоти; Авадаллах, Ахмед; Авадалла, Хани; Бах, Нгуен; Бахри, Амит; Бахтиари, Араш (23 апреля 2024 г.). «Технический отчет Phi-3: высокопроизводительная языковая модель, локально на вашем телефоне». arXiv : 2404.14219 [ cs.CL ].
  33. ^ Оуян, Лонг; Ву, Джефф; Цзян, Сюй; Алмейда, Диого; Уэйнрайт, Кэрролл Л.; Мишкин, Памела; Чжан, Чонг; Агарвал, Сандхини; Слама, Катарина; Рэй, Алекс; Шульман, Джон; Хилтон, Джейкоб; Келтон, Фрейзер; Миллер, Люк; Сименс, Мэдди; Аскелл, Аманда; Велиндер, Питер; Кристиано, Пол; Лейке, Ян; Лоу, Райан (2022). «Обучение языковых моделей следованию инструкциям с обратной связью от человека». arXiv : 2203.02155 [ cs.CL ].
  34. ^ Ван, Ичжун; Корди, Йегане; Мишра, Сваруп; Лю, Алиса; Смит, Ной А.; Хашаби, Дэниел; Хаджиширзи, Ханнане (2022). «Самообучение: согласование языковой модели с самостоятельно сгенерированными инструкциями». arXiv : 2212.10560 [ cs.CL ].
  35. ^ Шазир, Ноам; Мирхосейни, Азалия; Мазиарц, Кшиштоф; Дэвис, Энди; Ле, Куок; Хинтон, Джеффри; Дин, Джефф (01 января 2017 г.). «Невероятно большие нейронные сети: редкий слой смешанных экспертов». arXiv : 1701.06538 [ cs.LG ].
  36. ^ Лепихин Дмитрий; Ли, Хёкджун; Сюй, Юаньчжун; Чен, Дехао; Фират, Орхан; Хуан, Яньпин; Крикун, Максим; Шазир, Ноам; Чен, Чжифэн (12 января 2021 г.). «GShard: масштабирование гигантских моделей с помощью условных вычислений и автоматического сегментирования». arXiv : 2006.16668 [ cs.CL ].
  37. ^ Jump up to: а б с д Дай, Эндрю М; Ду, Нан (9 декабря 2021 г.). «Более эффективное контекстное обучение с помощью GLaM» . ai.googleblog.com . Проверено 9 марта 2023 г.
  38. ^ Jump up to: а б с Вэй, Джейсон; Тай, Йи; Боммасани, Риши; Раффель, Колин; Зоф, Баррет; Боржо, Себастьян; Йогатама, Дэни; Босма, Мартен; Чжоу, Денни; Мецлер, Дональд; Чи, Эд Х.; Хасимото, Тацунори; Виньялс, Ориол; Лян, Перси; Дин, Джефф; Федус, Уильям (31 августа 2022 г.). «Новые возможности больших языковых моделей» . Труды по исследованиям машинного обучения . ISSN   2835-8856 .
  39. ^ Алламар, Джей. «Иллюстрированный трансформер» . Проверено 29 июля 2023 г.
  40. ^ Алламар, Джей. «Иллюстрированный GPT-2 (визуализация языковых моделей трансформеров)» . Проверено 1 августа 2023 г.
  41. ^ «Наша модель следующего поколения: Gemini 1.5» . Google . 15 февраля 2024 г. Проверено 18 февраля 2024 г.
  42. ^ "Длинные контекстные подсказки для Клода 2.1" . 6 декабря 2023 г. . Проверено 20 января 2024 г.
  43. ^ «Ограничения ставок» . openai.com . Проверено 20 января 2024 г.
  44. ^ Заиб, Мунацца; Шэн, Цюань Цз.; Эмма Чжан, Вэй (4 февраля 2020 г.). «Краткий обзор предварительно обученных языковых моделей для разговорного ИИ — новый век в НЛП» . Материалы мультиконференции Австралазийской недели информатики . стр. 1–4. arXiv : 2104.10810 . дои : 10.1145/3373017.3373028 . ISBN  9781450376976 . S2CID   211040895 .
  45. ^ Jump up to: а б с Юрафски, Дэн; Мартин, Джеймс Х. (7 января 2023 г.). Обработка речи и языка (PDF) (3-е издание, черновой вариант) . Проверено 24 мая 2022 г.
  46. ^ «От голого железа до модели 70Б: настройка инфраструктуры и скрипты» . imbue.com . Проверено 24 июля 2024 г.
  47. ^ «metaseq/projects/OPT/хроники на главной · facebookresearch/metaseq» . Гитхаб . Проверено 24 июля 2024 г.
  48. ^ Альбрехт, Джош (23 июля 2024 г.). «Современное состояние: обучение более 70 миллиардов LLM на 10 000 кластерах H100» . www.latent.space . Проверено 24 июля 2024 г.
  49. ^ Jump up to: а б Виггерс, Кайл (28 апреля 2022 г.). «Новые типы языковых моделей и почему они имеют значение» . ТехКранч .
  50. ^ Шарир, Ор; Пелег, Барак; Шохам, Йоав (2020). «Стоимость обучения моделей НЛП: краткий обзор». arXiv : 2004.08900 [ cs.CL ].
  51. ^ Бидерман, Стелла; Шелькопф, Хейли; Энтони, Квентин; Брэдли, Херби; Хан, Мохаммед Афла; Пурохит, Шиваншу; Прашант, USVSN Сай (апрель 2023 г.). «Pythia: пакет для анализа больших языковых моделей при обучении и масштабировании». arXiv : 2304.01373 [ cs.CL ].
  52. ^ Маслей, Нестор; Фатторини, Лоредана; Бриньольфссон, Эрик; Этчеменди, Джон; Лигетт, Кэтрин; Лайонс, Тера; Знание, Джеймс; Нго, Хелен; Ниблс, Хуан Карлос (05.10.2023), Отчет об индексе искусственного интеллекта за 2023 г. , arXiv : 2310.03715
  53. ^ Jump up to: а б Раздел 2.1 и таблица 1, Каплан, Джаред; МакКэндлиш, Сэм; Хениган, Том; Браун, Том Б.; Шахматы, Бенджамин; Дитя, Ревон; Грей, Скотт; Рэдфорд, Алек; Ву, Джеффри; Амодей, Дарио (2020). «Законы масштабирования для моделей нейронного языка». arXiv : 2001.08361 [ cs.LG ].
  54. ^ Гао, Лую; Мадаан, Аман; Чжоу, Шуян; Алон, Ури; Лю, Пэнфэй; Ян, Имин; Каллан, Джейми; Нойбиг, Грэм (1 ноября 2022 г.). «PAL: Программные языковые модели». arXiv : 2211.10435 [ cs.CL ].
  55. ^ «PAL: Программные языковые модели» . ReasonwithPal.com . Проверено 12 июня 2023 г.
  56. ^ Паранджапе, Бхаргави; Лундберг, Скотт; Сингх, Самир; Хаджиширзи, Ханнане; Зеттлмойер, Люк; Тулио Рибейро, Марко (01 марта 2023 г.). «ART: Автоматическое многоэтапное рассуждение и использование инструментов для больших языковых моделей». arXiv : 2303.09014 [ cs.CL ].
  57. ^ Лян, Яобо; Сун, Тин; Лю, Оу, Ян; Мао, Шаогуан; Ван, Юн; Мин, Нан (01 марта 2023 г.). TaskMatrix.AI: выполнение задач путем подключения базовых моделей к миллионам API. arXiv : 2303.16434 [ cs.AI ].
  58. ^ Патил, Шишир Г.; Чжан, Тяньцзюнь; Ван, Синь; Гонсалес, Джозеф Э. (01 мая 2023 г.). «Горилла: большая языковая модель, связанная с массивными API». arXiv : 2305.15334 [ cs.CL ].
  59. ^ Льюис, Патрик; Перес, Итан; Пиктус, Александра; Петрони, Фабио; Карпухин Владимир; Гоял, Наман; Кюттлер, Генрих; Льюис, Майк; Йи, Вен-тау; Роктешель, Тим; Ридель, Себастьян; Киела, Доуве (2020). «Расширенная поисковая генерация для наукоемких задач НЛП» . Достижения в области нейронных систем обработки информации . 33 . Curran Associates, Inc.: 9459–9474. arXiv : 2005.11401 .
  60. ^ Хуан, Вэньлун; Аббель, Питер; Патак, Дипак; Мордач, Игорь (28 июня 2022 г.). «Языковые модели как планировщики с нулевым выстрелом: извлечение практических знаний для воплощенных агентов» . Материалы 39-й Международной конференции по машинному обучению . ПМЛР: 9118–9147. arXiv : 2201.07207 .
  61. ^ Яо, Шуньюй; Чжао, Джеффри; Ю, Дайан; Ду, Нэн; Шафран, Ицхак; Нарасимхан, Картик; Цао, Юань (01 октября 2022 г.). «ReAct: синергия рассуждений и действий в языковых моделях». arXiv : 2210.03629 [ cs.CL ].
  62. ^ Ву, Юэ; Прабхумойе, Шримаи; Мин Со Ён (24 мая 2023 г.). «ВЕСНА: GPT-4 превосходит алгоритмы RL благодаря изучению статей и рассуждениям». arXiv : 2305.15486 [ cs.AI ].
  63. ^ Ван, Цзихао; Цай, Шаофэй; Лю, Анжи; Ма, Сяоцзянь; Лян, Итао (3 февраля 2023 г.). «Описывать, объяснять, планировать и выбирать: интерактивное планирование с использованием больших языковых моделей позволяет использовать многозадачные агенты в открытом мире». arXiv : 2302.01560 [ cs.AI ].
  64. ^ Шинн, Ной; Кассано, Федерико; Лабаш, Бек; Гопинатх, Ашвин; Нарасимхан, Картик; Яо, Шуньюй (01 марта 2023 г.). «Рефлексия: языковые агенты с вербальным подкреплением». arXiv : 2303.11366 [ cs.AI ].
  65. ^ Хаоди, Джошуа; Чжэ Ван, Ху, Чжитинг (01.05.2023). Хао, Шибо, Ма , : 2305.14992 [ cs.CL ].
  66. ^ Чжан, Дженни; Леман, Джоэл; Стэнли, Кеннет; Клюн, Джефф (2 июня 2023 г.). «OMNI: открытость через модели человеческих представлений об интересе». arXiv : 2306.01711 [ cs.AI ].
  67. ^ Jump up to: а б «Вояджер | Открытый агент с большими языковыми моделями» . voyager.minedojo.org . Проверено 9 июня 2023 г.
  68. ^ Пак, Джун Сон; О'Брайен, Джозеф К.; Кай, Кэрри Дж.; Рингел Моррис, Мередит; Лян, Перси; Бернштейн, Майкл С. (01 апреля 2023 г.). «Генераторные агенты: интерактивные симулякры человеческого поведения». arXiv : 2304.03442 [ cs.HC ].
  69. ^ Манн, Тобиас. «Как запустить LLM локально на вашем компьютере менее чем за 10 минут» . www.theregister.com . Проверено 17 мая 2024 г.
  70. ^ Нагель, Маркус; Амджад, Рана Али; Баален, Март Ван; Луисос, Христос; Бланкеворт, Теймен (21 ноября 2020 г.). «Вверх или вниз? Адаптивное округление для квантования после обучения» . Материалы 37-й Международной конференции по машинному обучению . ПМЛР: 7197–7206.
  71. ^ Полино, Антонио; Пашкану, Разван; Алистарх, Дэн (01 февраля 2018 г.). «Сжатие модели посредством дистилляции и квантования». arXiv : 1802.05668 [ cs.NE ].
  72. ^ Франтар, Элиас; Ашкбус, Салех; Хефлер, Торстен; Алистарх, Дэн (01 октября 2022 г.). «GPTQ: точное квантование после обучения для генеративных предварительно обученных трансформаторов». arXiv : 2210.17323 [ cs.LG ].
  73. ^ Деттмерс, Тим; Свирщевский, Руслан; Егиазарян, Ваге; Кузнеделев Денис; Франтар, Элиас; Ашкбус, Салех; Борзунов, Александр; Хефлер, Торстен; Алистарх, Дэн (01 июня 2023 г.). «SpQR: разреженное квантованное представление для сжатия веса LLM практически без потерь». arXiv : 2306.03078 [ cs.CL ].
  74. ^ Гроотендорст, Мартен. «Визуальное руководство по квантованию» . информационный бюллетень.maartengrootendorst.com . Архивировано из оригинала 31 июля 2024 года . Проверено 31 июля 2024 г.
  75. ^ Деттмерс, Тим; Паньони, Артидоро; Хольцман, Ари ; Зеттлмойер, Люк (01 мая 2023 г.). «QLoRA: эффективная точная настройка квантованных LLM». arXiv : 2305.14314 [ cs.LG ].
  76. ^ Кирос, Райан; Салахутдинов Руслан; Земель, Рич (18 июня 2014 г.). «Мультимодальные модели нейронного языка» . Материалы 31-й Международной конференции по машинному обучению . ПМЛР: 595–603.
  77. ^ Крижевский, Алекс; Суцкевер, Илья; Хинтон, Джеффри Э (2012). «Классификация ImageNet с глубокими сверточными нейронными сетями» . Достижения в области нейронных систем обработки информации . 25 . Карран Ассошиэйтс, Инк.
  78. ^ Антол, Станислав; Агравал, Айшвария; Лу, Цзясэн; Митчелл, Маргарет; Батра, Дхрув; Зитник, К. Лоуренс; Парих, Деви (2015). «VQA: Визуальный ответ на вопрос» . ICCV : 2425–2433.
  79. ^ Ли, Джуннан; Ли, Дунсюй; Саварезе, Сильвио; Хой, Стивен (1 января 2023 г.). «BLIP-2: Начальная подготовка языка-изображения с помощью кодировщиков замороженных изображений и больших языковых моделей». arXiv : 2301.12597 [ cs.CV ].
  80. ^ Алайрак, Жан-Батист; Донахью, Джефф; Люк, Полина; Миш, Антуан; Барр, Иэн; Хассон, Яна; Ленц, Карел; Менш, Артур; Милликан, Кэтрин; Рейнольдс, Малькольм; Кольцо, Роман; Резерфорд, Элиза; Каби, Серкан; Хан, Тенгда; Гун, Чжитао (06 декабря 2022 г.). «Фламинго: модель визуального языка для кратковременного обучения» . Достижения в области нейронных систем обработки информации . 35 : 23716–23736. arXiv : 2204.14198 .
  81. ^ Дрисс, Дэнни; Ся, Фэй; Саджади, Мехди С.М.; Линч, Кори; Чоудери, Ааканша; Ихтер, Брайан; Вахид, Айзаан; Томпсон, Джонатан; Выонг, Куан; Ю, Тяньхэ; Хуан, Вэньлун; Чеботарь, Евгений; Сермане, Пьер; Дакворт, Дэниел; Левин, Сергей (01 марта 2023 г.). «PaLM-E: воплощенная мультимодальная языковая модель». arXiv : 2303.03378 [ cs.LG ].
  82. ^ Лю, Хаотянь; Ли, Цинъян; Ли, Юн Джэ (01 апреля 2023 г.), arXiv : 2304.08485 [ cs.CV ].
  83. ^ Чжан, Ханг; Ли, Синь; Бинг, Лидун (01 июня 2023 г.). «Видео-LLaMA: настроенная на инструкции модель аудиовизуального языка для понимания видео». arXiv : 2306.02858 [ cs.CL ].
  84. ^ ОпенАИ (27 марта 2023 г.). «Технический отчет GPT-4». arXiv : 2303.08774 [ cs.CL ].
  85. ^ OpenAI (25 сентября 2023 г.). «Системная карта GPT-4V(ision)» (PDF) .
  86. ^ Пичаи, Сундар (10 мая 2023 г.), Google Keynote (Google I/O '23) , временная метка 15:31 , получено 2 июля 2023 г.
  87. ^ Хоффманн, Иордания; Боржо, Себастьян; Менш, Артур; Бучацкая Елена; Кай, Тревор; Резерфорд, Элиза; Касас, Диего де Лас; Хендрикс, Лиза Энн; Вельбл, Йоханнес; Кларк, Эйдан; Хенниган, Том; Ноланд, Эрик; Милликан, Кэти; Дрессе, Джордж ван ден; Дамок, Богдан (29 марта 2022 г.). «Обучение оптимальных для вычислений моделей большого языка». arXiv : 2203.15556 [ cs.CL ].
  88. ^ Jump up to: а б Кабальеро, Итан; Гупта, Кшитидж; Риш, Ирина; Крюгер, Дэвид (2022). «Нарушенные законы нейронного масштабирования». arXiv : 2210.14891 [ cs.LG ].
  89. ^ «137 возникающих способностей больших языковых моделей» . Джейсон Вэй . Проверено 24 июня 2023 г.
  90. ^ Хан, Майкл; Гоял, Навин (14 марта 2023 г.). «Теория возникающего контекстного обучения как индукция неявной структуры». arXiv : 2303.07971 [ cs.LG ].
  91. ^ Пилевар, Мохаммад Тахер; Камачо-Колладос, Хосе (июнь 2019 г.). «Материалы Конференции Севера 2019» . Материалы конференции Североамериканского отделения Ассоциации компьютерной лингвистики 2019 года: технологии человеческого языка, том 1 (длинные и короткие статьи) . Миннеаполис, Миннесота: Ассоциация компьютерной лингвистики: 1267–1273. дои : 10.18653/v1/N19-1128 . S2CID   102353817 .
  92. ^ «WiC: набор данных «Слово в контексте»» . Pilehvar.github.io . Проверено 27 июня 2023 г.
  93. ^ Патель, Рома; Павлик, Элли (06 октября 2021 г.). «Сопоставление языковых моделей с обоснованными концептуальными пространствами» . ИКЛР .
  94. ^ Более пристальный взгляд на новые способности больших языковых моделей (Яо Фу, 20 ноября 2022 г.)
  95. ^ Орнес, Стивен (16 марта 2023 г.). «Непредсказуемые способности, возникающие из больших моделей искусственного интеллекта» . Журнал Кванта .
  96. ^ Шеффер, Райлан; Миранда, Брандо; Коеджо, Санми (01 апреля 2023 г.). «Являются ли новые способности больших языковых моделей миражом?». arXiv : 2304.15004 [ cs.AI ].
  97. ^ Ли, Кеннет; Хопкинс, Аспен К.; Бау, Дэвид; Вьегас, Фернанда; Пфистер, Ханспетер; Ваттенберг, Мартин (01 октября 2022 г.). «Эмерджентные представления мира: исследование модели последовательности, обученной на синтетической задаче». arXiv : 2210.13382 [ cs.LG ].
  98. ^ «Большая языковая модель: модели мира или поверхностная статистика?» . Градиент . 21 января 2023 г. Проверено 12 июня 2023 г.
  99. ^ Джин, Чарльз; Ринар, Мартин (01 мая 2023 г.). «Свидетельство значения языковых моделей, обученных на программах». arXiv : 2305.11169 [ cs.LG ].
  100. ^ Нанда, Нил; Чан, Лоуренс; Либерум, Том; Смит, Джесс; Стейнхардт, Джейкоб (1 января 2023 г.). «Меры прогресса в грокке через механистическую интерпретируемость». arXiv : 2301.05217 [ cs.LG ].
  101. ^ Jump up to: а б с д и Митчелл, Мелани; Кракауэр, Дэвид К. (28 марта 2023 г.). «Дебаты о понимании больших языковых моделей ИИ» . Труды Национальной академии наук . 120 (13): e2215907120. arXiv : 2210.13966 . Бибкод : 2023PNAS..12015907M . дои : 10.1073/pnas.2215907120 . ПМЦ   10068812 . ПМИД   36943882 .
  102. ^ Мец, Кейд (16 мая 2023 г.). «Microsoft заявляет, что новый искусственный интеллект демонстрирует признаки человеческого мышления» . Нью-Йорк Таймс .
  103. ^ Jump up to: а б Бубек, Себастьен; Чандрасекаран, Варун; Эльдан, Ронен; Герке, Йоханнес; Хорвиц, Эрик; Камар, Эдже; Ли, Питер; Ли, Инь Тат; Ли, Юаньчжи; Лундберг, Скотт; Нори, Харша; Паланги, Хамид; Рибейро, Марко Тулио; Чжан, И (2023). «Искры общего искусственного интеллекта: ранние эксперименты с GPT-4». arXiv : 2303.12712 [ cs.CL ].
  104. ^ «ChatGPT больше похож на «инопланетный интеллект», чем на человеческий мозг, — говорит футурист» . ЗДНЕТ . 2023 . Проверено 12 июня 2023 г.
  105. ^ Jump up to: а б Ньюпорт, Калифорния (13 апреля 2023 г.). «Какой ум у ChatGPT?» . Житель Нью-Йорка . Проверено 12 июня 2023 г.
  106. ^ Руз, Кевин (30 мая 2023 г.). «Почему существо, похожее на осьминога, стало символом состояния искусственного интеллекта», The New York Times . Проверено 12 июня 2023 г.
  107. ^ «Искусственный интеллект от А до Я» . Журнал «Тайм» . 13 апреля 2023 г. Проверено 12 июня 2023 г.
  108. ^ Цзи, Цивэй; Ли, Наён; Фриске, Рита; Ю, Течжэн; Су, Дэн; Сюй, Ян; Исии, Эцуко; Банг, Еджин; Дай, Вэньлян; Мадто, Андреа; Фунг, Паскаль (ноябрь 2022 г.). «Обзор галлюцинаций при формировании естественного языка» (pdf) . Обзоры вычислительной техники ACM . 55 (12). Ассоциация вычислительной техники : 1–38. arXiv : 2202.03629 . дои : 10.1145/3571730 . S2CID   246652372 . Проверено 15 января 2023 г.
  109. ^ Варшней, Нирадж; Яо, Вэньлинь; Чжан, Хунмин; Чен, Цзяньшу; Ю, Донг (2023). «Сшивание во времени экономит девять: обнаружение и смягчение галлюцинаций LLM путем проверки генерации с низкой достоверностью». arXiv : 2307.03987 [ cs.CL ].
  110. ^ Лакофф, Джордж (1999). Философия во плоти: воплощенный разум и его вызов западной философии; Приложение: Нейронная теория языковой парадигмы . Основные книги Нью-Йорка. стр. 569–583. ISBN  978-0-465-05674-3 .
  111. ^ Эванс, Вивиан. (2014). Языковой миф . Издательство Кембриджского университета. ISBN  978-1-107-04396-1 .
  112. ^ Фристон, Карл Дж. (2022). Активный вывод: принцип свободной энергии в разуме, мозге и поведении; Глава 4. Генеративные модели активного вывода . Массачусетский технологический институт Пресс. ISBN  978-0-262-36997-8 .
  113. ^ Jump up to: а б Хуен, Чип (18 октября 2019 г.). «Метрики оценки языкового моделирования» . Градиент . Проверено 14 января 2024 г.
  114. ^ Jump up to: а б Кларк, Кристофер; Ли, Кентон; Чанг, Мин-Вэй; Квятковски, Том; Коллинз, Майкл; Тутанова, Кристина (2019). «BoolQ: исследование удивительной сложности естественных вопросов типа «да/нет»». arXiv : 1905.10044 [ cs.CL ].
  115. ^ Jump up to: а б с Уэйн Синь Чжао, Ли, Цзюньи; Ван, Сяолэй; Мин, Чжан, Бэйчэн; Ду, Ифань, Чен; Юшо; Цзян, Цзиньхао; Ли, Ифань, Лю, Пэйю; Не, Цзянь-Юнь; Языковые модели». arXiv : 2303.18223 [ cs.CL ].
  116. ^ openai/simple-evals , OpenAI, 28 мая 2024 г. , получено 28 мая 2024 г.
  117. ^ openai/evals , OpenAI, 28 мая 2024 г. , получено 28 мая 2024 г.
  118. ^ «Обработанные наборы данных с открытым исходным кодом для понимания естественного языка и кода: как мы оценивали нашу модель 70B» . imbue.com . Проверено 24 июля 2024 г.
  119. ^ Шривастава, Арохи; и др. (2022). «За пределами игры в имитацию: количественная оценка и экстраполяция возможностей языковых моделей». arXiv : 2206.04615 [ cs.CL ].
  120. ^ Лин, Стефани; Хилтон, Джейкоб; Эванс, Оуайн (2021). «TruthfulQA: измерение того, как модели имитируют человеческую ложь». arXiv : 2109.07958 [ cs.CL ].
  121. ^ Jump up to: а б Зеллерс, Роуэн; Хольцман, Ари; Биск, Йонатан; Фархади, Али; Чой, Еджин (2019). «HellaSwag: Может ли машина действительно закончить ваше предложение?». arXiv : 1905.07830 [ cs.CL ].
  122. ^ «Приготовьтесь к действительно полезным большим языковым моделям». Природная биомедицинская инженерия . 7 (2): 85–86. 7 марта 2023 г. doi : 10.1038/s41551-023-01012-6 . ПМИД   36882584 . S2CID   257403466 .
  123. ^ «Ваша работа (вероятно) защищена от искусственного интеллекта» . Экономист . 7 мая 2023 г. Проверено 18 июня 2023 г.
  124. ^ «Генераторный ИИ может повысить мировой ВВП на 7%» . Голдман Сакс . Проверено 18 июня 2023 г.
  125. ^ Пэн, Чжэньцань; Ван, Чжижи; Дэн, Донг (13 июня 2023 г.). «Поиск почти повторяющихся последовательностей в масштабе для оценки запоминания больших языковых моделей» (PDF) . Труды ACM по управлению данными . 1 (2): 1–18. дои : 10.1145/3589324 . S2CID   259213212 . Проверено 20 января 2024 г. Цитируя Ли и др., 2022 г.
  126. ^ Пэн, Ван и Дэн 2023 , с. 8.
  127. ^ Альба, Дэйви (1 мая 2023 г.). «Чат-боты с искусственным интеллектом использовались для создания десятков ферм новостного контента» . Джапан Таймс . Проверено 18 июня 2023 г.
  128. ^ «Могут ли чат-боты помочь разработать следующий пандемический вирус?» . Наука . 14 июня 2023 г. doi : 10.1126/science.adj2463 .
  129. ^ Стивен Совет (1 декабря 2023 г.). «Как сотрудники Google взломали технологическую модель конкурента в научной фантастике одним словом» . СФГЕЙТ.
  130. ^ Хубингер, Эван (10 января 2024 г.). «Спящие агенты: обучение обманщиков-магистров права, которые упорствуют в обучении технике безопасности». arXiv : 2401.05566 [ cs.CR ].
  131. ^ Канг, Дэниел (2023). «Использование программного поведения LLM: двойное использование посредством стандартных атак безопасности». arXiv : 2302.05733 [ cs.CR ].
  132. ^ Ван, Юнге (20 июня 2024 г.). «Скрытый канал на основе шифрования для больших языковых моделей» (PDF) . Электронная печать IACR 2024/586.
  133. ^ Jump up to: а б Стокел-Уокер, Крис (22 ноября 2023 г.). «ChatGPT воспроизводит гендерную предвзятость в рекомендательных письмах» . Научный американец . Проверено 29 декабря 2023 г.
  134. ^ Луо, Куини; Пуэтт, Майкл Дж.; Смит, Майкл Д. (28 марта 2023 г.). «Перспективное зеркало слона: исследование языковой предвзятости в Google, ChatGPT, Википедии и YouTube». arXiv : 2303.16281v2 [ cs.CY ].
  135. ^ Ченг, Майра; Дурмус, Есин; Джурафски, Дэн (29 мая 2023 г.), Отмеченные личности: использование подсказок естественного языка для измерения стереотипов в языковых моделях , arXiv : 2305.18189
  136. ^ Котек, Хадас; Докум, Риккер; Сан, Дэвид (05.11.2023). «Гендерная предвзятость и стереотипы в моделях большого языка» . Материалы конференции по коллективному разуму ACM . КИ '23. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 12–24. дои : 10.1145/3582269.3615599 . ISBN  979-8-4007-0113-9 .
  137. ^ Хейккиля, Мелисса (7 августа 2023 г.). «Языковые модели искусственного интеллекта изобилуют различными политическими предубеждениями» . Обзор технологий Массачусетского технологического института . Проверено 29 декабря 2023 г.
  138. ^ «Улучшение понимания языка с помощью обучения без учителя» . openai.com . 11 июня 2018 г. Архивировано из оригинала 18 марта 2023 г. Проверено 18 марта 2023 г.
  139. ^ "тонкая настройка-трансформатор-lm" . Гитхаб . Проверено 2 января 2024 г.
  140. ^ Jump up to: а б Девлин, Джейкоб; Чанг, Мин-Вэй; Ли, Кентон; Тутанова Кристина (11 октября 2018 г.). «BERT: Предварительная подготовка глубоких двунаправленных преобразователей для понимания языка». arXiv : 1810.04805v2 [ cs.CL ].
  141. ^ Прикетт, Николь Хемсот (24 августа 2021 г.). «Cerebras меняет архитектуру для соответствия масштабным моделям искусственного интеллекта и машинного обучения» . Следующая платформа . Проверено 20 июня 2023 г.
  142. ^ «БЕРТ» . 13 марта 2023 г. — через GitHub.
  143. ^ Патель, Аджай; Ли, Брайан; Расули, Мохаммад Садег; Констант, Ной; Раффель, Колин; Каллисон-Берч, Крис (2022). «Двунаправленные языковые модели также мало учатся». arXiv : 2209.14500 [ cs.LG ].
  144. ^ Jump up to: а б Раффель, Колин; Шазир, Ноам; Робертс, Адам; Ли, Кэтрин; Наранг, Шаран; Матена, Майкл; Чжоу, Яньци; Ли, Вэй; Лю, Питер Дж. (2020). «Изучение границ трансферного обучения с помощью унифицированного преобразователя текста в текст» . Журнал исследований машинного обучения . 21 (140): 1–67. arXiv : 1910.10683 . ISSN   1533-7928 .
  145. ^ google-research/text-to-text-transfer-transformer , Google Research, 02 апреля 2024 г. , получено 4 апреля 2024 г.
  146. ^ «Imagen: модели распространения текста в изображение» . imagen.research.google . Проверено 4 апреля 2024 г.
  147. ^ «BERT, RoBERTa, DistilBERT, XLNet: какой использовать?» . КДнаггетс . [ постоянная мертвая ссылка ]
  148. ^ "xlnet" . Гитхаб . Проверено 2 января 2024 г.
  149. ^ Наик, Амит Раджа (23 сентября 2021 г.). «Google представляет новую архитектуру для снижения стоимости трансформаторов» . Журнал Analytics India .
  150. ^ Ян, Жилин; Дай, Цзихан; Ян, Имин; Карбонелл, Хайме; Салахутдинов Руслан; Ле, Куок В. (2 января 2020 г.). «XLNet: Обобщенная авторегрессионная предварительная тренировка для понимания языка». arXiv : 1906.08237 [ cs.CL ].
  151. ^ «GPT-2: Версия 1.5B» . ОпенАИ . 05.11.2019. Архивировано из оригинала 14 ноября 2019 г. Проверено 14 ноября 2019 г.
  152. ^ «Лучшие языковые модели и их последствия» . openai.com .
  153. ^ Jump up to: а б «Языковая модель OpenAI GPT-3: технический обзор» . Lambdalabs.com . 3 июня 2020 г.
  154. ^ Jump up to: а б "openai-community/gpt2-xl · Обнимающее лицо" . Huggingface.co . Проверено 24 июля 2024 г.
  155. ^ «ГПТ-2» . Гитхаб . Проверено 13 марта 2023 г.
  156. ^ Таблица D.1 в Браун, Том Б.; Манн, Бенджамин; Райдер, Ник; Суббия, Мелани; Каплан, Джаред; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Састри, Гириш; Аскелл, Аманда; Агарвал, Сандхини; Герберт-Восс, Ариэль; Крюгер, Гретхен; Хениган, Том; Дитя, Ревон; Рамеш, Адитья; Зиглер, Дэниел М.; Ву, Джеффри; Зима, Клеменс; Гессен, Кристофер; Чен, Марк; Сиглер, Эрик; Литвин, Матеуш; Грей, Скотт; Шахматы, Бенджамин; Кларк, Джек; Бернер, Кристофер; МакКэндлиш, Сэм; Рэдфорд, Алек; Суцкевер, Илья; Амодей, Дарио (28 мая 2020 г.). «Языковые модели изучаются немногими». arXiv : 2005.14165v4 [ cs.CL ].
  157. ^ «ChatGPT: оптимизация языковых моделей для диалога» . ОпенАИ . 30 ноября 2022 г. Проверено 13 января 2023 г.
  158. ^ «ГПТ Нео» . 15 марта 2023 г. — через GitHub.
  159. ^ Jump up to: а б с Гао, Лео; Бидерман, Стелла; Блэк, Сид; Голдинг, Лоуренс; Хоппе, Трэвис; Фостер, Чарльз; Пханг, Джейсон; Он, Гораций; Тите, Аниш; Набешима, Ноа; Прессер, Шон; Лихи, Коннор (31 декабря 2020 г.). «Куча: набор данных разнообразного текста объемом 800 ГБ для языкового моделирования». arXiv : 2101.00027 [ cs.CL ].
  160. ^ Jump up to: а б Айер, Абхишек (15 мая 2021 г.). «Бесплатная альтернатива GPT-3 GPT-Neo заслуживает восхищения» . ВенчурБит .
  161. ^ «GPT-J-6B: введение в крупнейшую модель GPT с открытым исходным кодом | Forefront» . www.forefront.ai . Архивировано из оригинала 9 марта 2023 г. Проверено 28 февраля 2023 г.
  162. ^ Jump up to: а б с д Дей, Нолан; Госал, Гурприт; Чжимин; Чен; Хачане, Хемант; Маршалл, Уильям; Патрия, Рибху; Том, Марвин; Хестнесс, Джоэл (1 апреля 2023 г.). «Cerebras-GPT: открытые оптимальные для вычислений языковые модели, обученные на кластере Cerebras Wafer Scale». arXiv : 2304.03208 [ cs.LG ].
  163. ^ Алви, Али; Харья, Пареш (11 октября 2021 г.). «Использование DeepSpeed ​​и Megatron для обучения Megatron-Turing NLG 530B, самой большой и мощной в мире модели генеративного языка» . Исследования Майкрософт .
  164. ^ Jump up to: а б Смит, Шейден; Патвари, Мостофа; Норик, Брэндон; ЛеГресли, Патрик; Раджбхандари, Самьям; Каспер, Джаред; Лю, Чжун; Прабхумойе, Шримаи; Зервеас, Джордж; Кортиканти, Виджай; Чжан, Элтон; Дитя, Ревон; Аминабади, Реза Яздани; Бернауэр, Джули; Сун, Ся (04 февраля 2022 г.). «Использование DeepSpeed ​​и Megatron для обучения Megatron-Turing NLG 530B, крупномасштабной модели генеративного языка». arXiv : 2201.11990 [ cs.CL ].
  165. ^ Ван, Шуохуань; Сян, Ян; Дин, Сию; Шан, Цзюньюань; Лю, Чэнь, Лу; Юйсян, Вэйсинь; Ван, Янфан; Чжао, Ли, Шиюн; Ма, Яньцзюнь; Тянь, Вэй; Ли, Ге; Ван, Хайфэн (23 декабря 2021 г.). «ERNIE 3.0 Titan: изучение расширенной предварительной подготовки для понимания генерации » языков и . .CL ].
  166. ^ "Продукт" . Антропный . Проверено 14 марта 2023 г.
  167. ^ Jump up to: а б Аскелл, Аманда; Бай, Юньтао; Чен, Анна; и др. (9 декабря 2021 г.). «Ассистент общего языка как лаборатория выравнивания». arXiv : 2112.00861 [ cs.CL ].
  168. ^ Бай, Юньтао; Кадават, Саурав; Кунду, Сандипан; и др. (15 декабря 2022 г.). «Конституционный ИИ: безвредность от обратной связи ИИ». arXiv : 2212.08073 [ cs.CL ].
  169. ^ «Языковое моделирование в масштабе: Gopher, этические соображения и извлечение» . www.deepmind.com . 8 декабря 2021 г. Проверено 20 марта 2023 г.
  170. ^ Jump up to: а б с Хоффманн, Иордания; Боржо, Себастьян; Менш, Артур; и др. (29 марта 2022 г.). «Обучение оптимальных для вычислений моделей большого языка». arXiv : 2203.15556 [ cs.CL ].
  171. ^ Jump up to: а б с д Таблица 20 и стр. 66 книги PaLM: Масштабирование языкового моделирования с помощью путей
  172. ^ Jump up to: а б Ченг, Хэн-Цзы; Топпилан, Ромал (21 января 2022 г.). «LaMDA: к безопасным, обоснованным и высококачественным моделям диалога для всего» . ai.googleblog.com . Проверено 9 марта 2023 г.
  173. ^ Топпилан, Ромал; Де Фрейтас, Даниэль; Холл, Джейми; Шазир, Ноам; Кулшрешта, Апурв; Ченг, Хэн-Цзы; Джин, Алисия; Бос, Тейлор; Бейкер, Лесли; Ду, Ю; Ли, ЯГуан; Ли, Хонгрэ; Чжэн, Хуайсю Стивен; Гафури, Амин; Менегали, Марсело (1 января 2022 г.). «LaMDA: языковые модели для диалоговых приложений». arXiv : 2201.08239 [ cs.CL ].
  174. ^ Блэк, Сидни; Бидерман, Стелла; Халлахан, Эрик; и др. (01.05.2022). GPT-NeoX-20B: авторегрессионная языковая модель с открытым исходным кодом . Труды BigScience, эпизод № 5 – Семинар по проблемам и перспективам создания больших языковых моделей. Том. Труды BigScience, эпизод № 5 – Семинар по проблемам и перспективам создания больших языковых моделей. стр. 95–136 . Проверено 19 декабря 2022 г.
  175. ^ Jump up to: а б с Хоффманн, Иордания; Боржо, Себастьян; Менш, Артур; Сифре, Лоран (12 апреля 2022 г.). «Эмпирический анализ оптимального для вычислений обучения модели большого языка» . Блог Deepmind .
  176. ^ Наранг, Шаран; Чоудери, Ааканша (4 апреля 2022 г.). «Языковая модель Pathways (PaLM): масштабирование до 540 миллиардов параметров для достижения революционной производительности» . ai.googleblog.com . Проверено 9 марта 2023 г.
  177. ^ Сьюзан Чжан; Мона Диаб; Люк Зеттлмойер. «Демократизация доступа к крупномасштабным языковым моделям с помощью OPT-175B» . ai.facebook.com .
  178. ^ Чжан, Сьюзен; Роллер, Стивен; Гоял, Наман; Артече, Микель; Чен, Мойя; Чен, Шуохуэй; Деван, Кристофер; Диаб, Мона; Ли, Сиань; Линь, Си Виктория; Михайлов, Тодор; Отт, Майл; Шлейфер, Сэм; Шустер, Курт; Симиг, Дэниел; Кура, Пунит Сингх; Шридхар, Анджали; Ван, Тяньлу; Зеттлмойер, Люк (21 июня 2022 г.). «OPT: открытые предварительно обученные языковые модели трансформаторов». arXiv : 2205.01068 [ cs.CL ].
  179. ^ Jump up to: а б Khrushchev, Mikhail; Vasilev, Ruslan; Petrov, Alexey; Zinov, Nikolay (2022-06-22), YaLM 100B , retrieved 2023-03-18
  180. ^ Jump up to: а б Левкович, Айтор; Андреассен, Андерс; Дохан, Дэвид; Дайер, Итан; Михалевский, Хенрик; Рамашеш, Винай; Слон, Эмброуз; Анил, Джем; Шлаг, Иманол; Гутман-Соло, Тео; Ву, Юхуай; Нейшабур, Бехнам; Гур-Ари, Гай; Мисра, Ведант (30 июня 2022 г.). «Решение задач количественного рассуждения с помощью языковых моделей». arXiv : 2206.14858 [ cs.CL ].
  181. ^ «Минерва: решение задач количественного рассуждения с помощью языковых моделей» . ai.googleblog.com . 30 июня 2022 г. Проверено 20 марта 2023 г.
  182. ^ Анантасвами, Анил (8 марта 2023 г.). «В ИИ чем больше, тем лучше?» . Природа . 615 (7951): 202–205. Бибкод : 2023Natur.615..202A . дои : 10.1038/d41586-023-00641-w . ПМИД   36890378 . S2CID   257380916 .
  183. ^ "bigscience/bloom · Обнимающее лицо" . Huggingface.co .
  184. ^ Тейлор, Росс; Кардас, Марцин; Кукурулл, Гиллем; Сиалом, Томас; Хартшорн, Энтони; Саравиа, Элвис; Поултон, Эндрю; Керкез, Виктор; Стойнич, Роберт (16 ноября 2022 г.). «Галактика: большая языковая модель для науки». arXiv : 2211.09085 [ cs.CL ].
  185. ^ «Модель Alexa с 20В параметрами устанавливает новые стандарты в обучении за несколько шагов» . Амазонская наука . 2 августа 2022 г.
  186. ^ Солтан, Салех; Анантакришнан, Шанкар; Фитцджеральд, Джек; и др. (3 августа 2022 г.). «AlexaTM 20B: обучение в несколько этапов с использованием крупномасштабной многоязычной модели Seq2Seq». arXiv : 2208.01448 [ cs.CL ].
  187. ^ «AlexaTM 20B теперь доступен в Amazon SageMaker JumpStart | Блог AWS Machine Learning» . aws.amazon.com . 17 ноября 2022 г. Проверено 13 марта 2023 г.
  188. ^ Jump up to: а б с «Представляем LLaMA: фундаментальную языковую модель с 65 миллиардами параметров» . Мета ИИ . 24 февраля 2023 г.
  189. ^ Jump up to: а б с «Сокол приземлился в экосистеме Обнимающего Лица» . Huggingface.co . Проверено 20 июня 2023 г.
  190. ^ «Технический отчет GPT-4» (PDF) . ОпенАИ . 2023. Архивировано (PDF) из оригинала 14 марта 2023 года . Проверено 14 марта 2023 г.
  191. ^ Шрайнер, Максимилиан (11 июля 2023 г.). «Утечка архитектуры GPT-4, наборов данных, затрат и многого другого» . ДЕКОДЕР . Проверено 26 июля 2024 г.
  192. ^ Дей, Нолан (28 марта 2023 г.). «Cerebras-GPT: семейство открытых, эффективных в вычислениях больших языковых моделей» . Церебрас .
  193. ^ «Компания TII из Абу-Даби запускает собственную версию ChatGPT» . tii.ae .
  194. ^ Пенедо, Гильерме; Малартик, Квентин; Хесслоу, Дэниел; Кожокару, Руксандра; Каппелли, Алессандро; Алобейдли, Хамза; Паннье, Батист; Алмазруи, Эбтесам; Лоне, Жюльен (1 июня 2023 г.). «Набор данных RefinedWeb для Falcon LLM: превосходство курируемых корпораций с использованием веб-данных и только веб-данных». arXiv : 2306.01116 [ cs.CL ].
  195. ^ "tiiuae/falcon-40b · Обнимающее лицо" . Huggingface.co . 09.06.2023 . Проверено 20 июня 2023 г.
  196. ^ Falcon 40B из ОАЭ, лучшая в мире модель искусственного интеллекта от Института технологических инноваций, теперь доступна без лицензионных отчислений , 31 мая 2023 г.
  197. ^ Ву, Шицзе; Ирсой, Озан; Лу, Стивен; Добровольский, Вадим; Дредзе, Марк; Германн, Себастьян; Камбадур, Прабханджан; Розенберг, Дэвид; Манн, Гидеон (30 марта 2023 г.). «BloombergGPT: большая языковая модель для финансов». arXiv : 2303.17564 [ cs.LG ].
  198. ^ Жэнь, Сяочэ, Мэн, Синьфан; Ван, Ядао, Вейчао; Чжан, Сяода, Александр; Бут, Андрей; Цзяншэн, Синь; Лю, Цюнь; Яо, Цзюнь (19 марта 2023 г.). «PanGu-Σ: к модели языка с триллионом параметров разреженными вычислениями » . гетерогенными с
  199. ^ Кёпф, Андреас; Килчер, Янник; фон Рютте, Дмитрий; Анагностидис, Сотирис; Там, Чжи-Жуй; Стивенс, Кейт; Бархум, Абдулла; Дык, Нгуен Минь; Стэнли, Оливер; Нагифи, Ричард; ES, Шахул; Сури, Самир; Глушков, Давид; Дантулури, Арнав; Магуайр, Эндрю (14 апреля 2023 г.). «Беседы OpenAssistant - демократизация согласования модели большого языка». arXiv : 2304.07327 [ cs.CL ].
  200. ^ Врубель, Шарон. «Тель-Авивский стартап представляет новую продвинутую языковую модель искусственного интеллекта, способную конкурировать с OpenAI» . www.timesofisrael.com . Проверено 24 июля 2023 г.
  201. ^ Виггерс, Кайл (13 апреля 2023 г.). «С Bedrock Amazon вступает в гонку генеративного искусственного интеллекта» . ТехКранч . Проверено 24 июля 2023 г.
  202. ^ Jump up to: а б Элиас, Дженнифер (16 мая 2023 г.). «Новейшая модель искусственного интеллекта Google использует для обучения почти в пять раз больше текстовых данных, чем ее предшественница» . CNBC . Проверено 18 мая 2023 г.
  203. ^ «Представляем PaLM 2» . Google . 10 мая 2023 г.
  204. ^ Jump up to: а б «Представляем Llama 2: следующее поколение нашей модели большого языка с открытым исходным кодом» . Мета ИИ . 2023 . Проверено 19 июля 2023 г.
  205. ^ "llama/MODEL_CARD.md в главном · мета-лама/лама" . Гитхаб . Проверено 28 мая 2024 г.
  206. ^ «Клод 2» . антропный сайт . Проверено 12 декабря 2023 г.
  207. ^ «Анонсируем Мистраль 7Б» . Мистраль . 2023 . Проверено 6 октября 2023 г.
  208. ^ «Знакомство с Клодом 2.1» . антропный сайт . Проверено 12 декабря 2023 г.
  209. ^ xai-org/grok-1 , xai-org, 19 марта 2024 г. , получено 19 марта 2024 г.
  210. ^ «Карточка модели Грока-1» . х.ай. ​Проверено 12 декабря 2023 г.
  211. ^ «Близнецы – Google DeepMind» . deepmind.google . Проверено 12 декабря 2023 г.
  212. ^ Франзен, Карл (11 декабря 2023 г.). «Mistral шокирует сообщество искусственного интеллекта, поскольку последняя модель с открытым исходным кодом превосходит производительность GPT-3.5» . ВенчурБит . Проверено 12 декабря 2023 г.
  213. ^ «Микстраль экспертов» . мистраль.ай . 11 декабря 2023 г. Проверено 12 декабря 2023 г.
  214. ^ А.И., Мистраль (17 апреля 2024 г.). «Дешевле, лучше, быстрее, сильнее» . мистраль.ай . Проверено 5 мая 2024 г.
  215. ^ Jump up to: а б Хьюз, Алисса (12 декабря 2023 г.). «Фи-2: Удивительная сила малых языковых моделей» . Исследования Майкрософт . Проверено 13 декабря 2023 г.
  216. ^ «Наша модель следующего поколения: Gemini 1.5» . Google . 15 февраля 2024 г. Проверено 16 февраля 2024 г. Это означает, что 1.5 Pro может обрабатывать огромные объемы информации за один раз, включая 1 час видео, 11 часов аудио, кодовые базы с более чем 30 000 строк кода или более 700 000 слов. В ходе нашего исследования мы также успешно протестировали до 10 миллионов токенов.
  217. ^ «Джемма» – через GitHub.
  218. ^ «Представляем следующее поколение Клода» . www.anthropic.com . Проверено 4 марта 2024 г.
  219. ^ «Фугаку-LLM/Fugaku-LLM-13B · Обнимающее лицо» . Huggingface.co . Проверено 17 мая 2024 г.
  220. ^ «Фи-3» . azure.microsoft.com . 23 апреля 2024 г. Проверено 28 апреля 2024 г.
  221. ^ «Документация модели Фи-3» . Huggingface.co . Проверено 28 апреля 2024 г.
  222. ^ «Квен2» . Гитхаб .
  223. ^ «nvidia/Nemotron-4-340B-Base · Обнимающее лицо» . Huggingface.co . 14 июня 2024 г. Проверено 15 июня 2024 г.
  224. ^ «Немотрон-4 340Б | Исследования» . исследование.nvidia.com . Проверено 15 июня 2024 г.
  225. ^ «Стадо моделей лам 3» (23 июля 2024 г.) Команда лам, AI @ Meta
  226. ^ «llama-models/models/llama3_1/MODEL_CARD.md на главной · мета-лама/llama-модели» . Гитхаб . Проверено 23 июля 2024 г.

Дальнейшее чтение

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: ac1911938b309f1131cbc3738d706d48__1722420120
URL1:https://arc.ask3.ru/arc/aa/ac/48/ac1911938b309f1131cbc3738d706d48.html
Заголовок, (Title) документа по адресу, URL1:
Large language model - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)