Модель фундамента
Базовая модель , также известная как большая модель искусственного интеллекта , представляет собой модель машинного обучения или глубокого обучения , которая обучается на обширных данных и может применяться в широком диапазоне вариантов использования. [1] Модели Foundation преобразовали искусственный интеллект (ИИ), обеспечив основу для таких известных генеративного ИИ, приложений как ChatGPT . [1] Центр исследований фундаментальных моделей (CRFM) Стэнфордского института человеко-ориентированного искусственного интеллекта (HAI) создал и популяризировал этот термин. [2]
Базовые модели — это технологии общего назначения , которые могут поддерживать самые разнообразные варианты использования. Создание базовых моделей часто требует больших ресурсов: самые дорогие модели стоят сотни миллионов долларов для оплаты базовых данных и необходимых вычислений. [3] Напротив, адаптация существующей базовой модели для конкретного варианта использования или ее непосредственное использование обходятся гораздо дешевле.
Ранними примерами базовых моделей являются языковые модели (LM), такие как OpenAI серия « GPT-n » и Google. от BERT [4] . Помимо текста, модели основы были разработаны с использованием различных модальностей, включая DALL-E и Flamingo. [5] для изображений, MusicGen [6] для музыки и РТ-2 [7] для роботизированного управления. Фундаментальные модели представляют собой широкий сдвиг в развитии ИИ: фундаментальные модели создаются для астрономии, [8] радиология, [9] геномика, [10] музыка, [11] кодирование, [12] прогнозирование временных рядов , [13] и математика. [14]
Определения
[ редактировать ]Центр исследований фундаментальных моделей (CRFM) Стэнфордского института человеко-ориентированного искусственного интеллекта (HAI) в августе 2021 года ввёл термин «фундаментальная модель», обозначающий «любую модель, которая обучается на обширных данных (обычно с использованием самоконтроля в масштабе). ), которые можно адаптировать (например, точно настроить) для широкого спектра последующих задач». [15] Это было основано на их наблюдении, что ранее существовавшие термины, хотя и перекрывающиеся, не были адекватными, заявляя, что « (большая) языковая модель » была слишком узкой, учитывая, что [] основное внимание уделяется не только языку; «модель с самоконтролем» была слишком специфичной для цель обучения и «предварительно обученная модель» предполагали, что все примечательные действия произошли после «предварительного обучения». [16] Термин «фундаментальная модель» был выбран вместо «фундаментальной модели». [17] потому что «основополагающий» подразумевает, что эти модели обеспечивают фундаментальные принципы в отличие от «основания». [18] Рассмотрев множество терминов, они остановились на «базовой модели», чтобы подчеркнуть предполагаемую функцию (т. е. возможность последующего дальнейшего развития), а не модальность , архитектуру или реализацию.
Поскольку правительства регулируют модели фондов, появились новые юридические определения.
- В Соединенных Штатах Исполнительный указ о безопасной, надежной и заслуживающей доверия разработке и использовании искусственного интеллекта определяет базовую модель как «модель ИИ, которая обучается на обширных данных; обычно использует самоконтроль ; содержит по меньшей мере десятки миллиардов параметров применим в широком диапазоне контекстов». [19]
- В США предлагается Закон о модели прозрачности AI Foundation от 2023 года. [20] Представители Палаты представителей Дон Бейер (демократ, Вирджиния) и Анна Эшу (демократ, Калифорния) определяют базовую модель как «модель искусственного интеллекта, обученную на обширных данных, обычно использует самоконтроль, обычно содержит не менее 1 000 000 000 параметров, применима в широком диапазоне диапазон контекстов и демонстрирует или может быть легко модифицирован для демонстрации высокого уровня производительности при выполнении задач, которые могут представлять серьезный риск для безопасности, национальной экономической безопасности, национального общественного здравоохранения или безопасности или любой комбинации этих вопросов».
- В Европейском Союзе Европейского парламента согласованная позиция по Закону ЕС об искусственном интеллекте определяет базовую модель как «модель искусственного интеллекта, которая обучается на обширных данных в масштабе, предназначена для универсальности результатов и может быть адаптирована к широкому кругу задач». особых задач».
- В Соединенном Королевстве по конкуренции и рынкам модели Фонда искусственного интеллекта Управления : первоначальный отчет. [1] определяет базовую модель как «тип технологии искусственного интеллекта, которая обучается на огромных объемах данных и может быть адаптирована к широкому спектру задач и операций».
В целом, хотя многие из этих определений близки к исходному Стэнфордскому определению, они все же вводят некоторые тонкие различия. Например, определения США являются единственными определениями, в которых упоминается размер модели фундамента, хотя они различаются по точной величине. В определении Бейера и Эшу также указывается, что модели фундамента должны достигать такого уровня производительности, чтобы представлять потенциальную опасность. Напротив, определение ЕС включает упоминание о том, рассчитана ли модель на универсальность результатов. Тем не менее, все определения сходятся в том, что базовые модели должны обучаться на широком спектре данных с потенциальными приложениями во многих областях.
История
[ редактировать ]Технологически базовые модели создаются с использованием признанных методов машинного обучения, таких как глубокие нейронные сети , трансферное обучение и обучение с самоконтролем . Модели Foundation заслуживают внимания, учитывая беспрецедентные инвестиции в ресурсы, размер модели и данных и, в конечном итоге, сферу их применения по сравнению с предыдущими формами ИИ. Появление базовых моделей представляет собой новую парадигму в области искусственного интеллекта, в которой модели общего назначения функционируют как многоразовая инфраструктура вместо индивидуальных и одноразовых моделей для конкретных задач.
Модели Фонда основаны на ряде достижений в истории искусственного интеллекта. Эти модели можно рассматривать на фоне более широкого развития машинного обучения с 1990-х годов. Предыдущие модели искусственного интеллекта зависели от конкретных инструкций для решения конкретной задачи, но модели на основе машинного обучения могли расшифровать, какую задачу решать, имея достаточно данных. Подобный переход от так называемых экспертных систем , управляемому данными, к машинному обучению стал первым шагом на пути к современной базовой модели.
Следующим важным шагом стало появление глубокого обучения примерно в 2010 году. [21] Благодаря более крупным наборам данных и более совершенным нейронным сетям модели ИИ смогли достичь более высокого уровня производительности. Первый крупный пример глубокого обучения был продемонстрирован модельной архитектурой AlexNet , которая выиграла конкурс ImageNet Large Scale Visual Recognition Challenge в 2012 году. AlexNet продемонстрировал высокие результаты на крупномасштабном общем наборе данных и впервые доказал, что глубокое обучение возможно. Наряду с методологическим сдвигом в сторону сквозной оптимизации глубоких нейронных сетей, 2010-е годы ознаменовались также сдвигом в программном обеспечении. В середине 2010-х годов появление таких фреймворков глубокого обучения, как Pytorch и Tensorflow, предоставило важнейшую инфраструктуру для упрощения и масштабирования конвейеров глубокого обучения.
Базовые модели начали материализоваться как последняя волна моделей глубокого обучения в конце 2010-х годов с такими моделями, как ELMo , GPT , BERT и GPT-2 . [21] По сравнению с большинством предыдущих работ по глубокому обучению, эти языковые модели продемонстрировали потенциал обучения на гораздо больших наборах данных из Интернета с использованием целей с самоконтролем (например, предсказание следующего слова в большом корпусе текста). Эти подходы, основанные на более ранних работах, таких как word2vec и GloVe , отличались от предыдущих контролируемых подходов, которые требовали аннотированных данных (например, меток краудсорсинга).
В целом, вычислительные достижения в специализированном оборудовании и параллелизме (например, большие кластеры графических процессоров NVIDIA ), новые разработки в архитектуре нейронных сетей (например, Transformer ) и более широкое использование обучающих данных с минимальным контролем - все это способствовало появлению фундамента. модели. Некоторые заслуживающие внимания модели фундамента включают: GPT , BERT , GPT-2 , T5 , GPT-3 , CLIP, DALL-E , Stable Diffusion , GPT-4 , LLaMA , LLaMA 2 и Mistral . Каждая из этих моделей обладала своими уникальными способностями, особенно сильными генеративными способностями.
В частности, 2022 год стал особенно влиятельным в истории моделей фундаментов. Релизы Stable Diffusion и ChatGPT (первоначально основанные на модели GPT-3.5) привели к тому, что базовые модели и генеративный искусственный интеллект вошли в широкий общественный дискурс. Кроме того, выпуск LLaMA , Llama 2 и Mistral в 2023 году способствовал тому, что больше внимания уделялось тому, как выпускаются модели фундамента, а модели с открытым фундаментом получили большую поддержку. [22] и проверка. [23]
Связанные понятия
[ редактировать ]Пограничные модели
[ редактировать ]Некоторые высокоразвитые модели фундаментов называются «передовыми моделями», которые потенциально могут «обладать опасными возможностями, достаточными для того, чтобы представлять серьезную угрозу общественной безопасности». [24] Эти «опасные возможности» возникают в результате случайного или преднамеренного неправильного использования таких моделей, что в сочетании с их мощной природой может привести к серьезному вреду. Поскольку модели фундаментов продолжают совершенствоваться, некоторые исследователи ИИ предполагают, что почти все модели фундаментов следующего поколения будут считаться передовыми моделями.
Поскольку концепция опасных возможностей по своей сути субъективна, не существует строгого определения того, какие базовые модели квалифицируются как передовые модели. Однако некоторые общепринятые идеи относительно достаточно опасных возможностей включают:
- Разработка и синтез нового биологического или химического оружия. [25]
- Производство и распространение убедительной, адаптированной дезинформации с минимальными инструкциями пользователя. [26]
- Использование беспрецедентных наступательных кибервозможностей [27]
- Уклонение от человеческого контроля обманными средствами [28]
Из-за уникальных возможностей передовых моделей сложно эффективно регулировать их разработку и внедрение. Из-за своего возникающего характера новые опасные возможности могут появиться сами по себе в передовых моделях, как на стадии разработки, так и после развертывания. [24] Кроме того, поскольку передовые модели продолжают адаптироваться после развертывания, по-прежнему сложно смягчить весь вред, причиняемый уже развернутыми моделями. Если передовая модель окажется с открытым исходным кодом или будет опубликована в Интернете, она также может быстро распространиться, что еще больше затруднит работу регулирующих органов, создав отсутствие подотчетности.
ИИ общего назначения
[ редактировать ]Из-за своей способности адаптироваться к широкому спектру вариантов использования базовые модели иногда считаются примерами ИИ общего назначения. Разрабатывая Закон ЕС об искусственном интеллекте, Европейский парламент заявил, что новая волна технологий искусственного интеллекта общего назначения формирует общую экосистему искусственного интеллекта. [29] Более полная структура экосистемы, помимо свойств конкретных систем искусственного интеллекта общего назначения, влияет на разработку политики и исследований в области искусственного интеллекта. [30] Системы искусственного интеллекта общего назначения также часто появляются в повседневной жизни людей благодаря приложениям и инструментам, таким как ChatGPT или DALL-E .
Правительственные учреждения, такие как Парламент ЕС, определили регулирование ИИ общего назначения, например базовых моделей, как высокий приоритет. Системы искусственного интеллекта общего назначения часто характеризуются большим размером, непрозрачностью и возможностью возникновения, и все это может нанести непреднамеренный вред. Такие системы также сильно влияют на последующие приложения, что еще больше усугубляет необходимость регулирования. Что касается известного законодательства, ряд заинтересованных сторон настаивали на том, чтобы Закон ЕС об искусственном интеллекте включал ограничения на системы искусственного интеллекта общего назначения, причем все это также будет применяться к базовым моделям.
Технические детали
[ редактировать ]Моделирование
[ редактировать ]Чтобы базовая модель могла эффективно обобщать, она должна иметь богатое представление обучающих данных. В результате при построении базовых моделей часто отдается предпочтение выразительным архитектурам моделей, которые эффективно обрабатывают крупномасштабные данные. [15] В настоящее время архитектура Transformer является фактическим выбором для построения базовых моделей в различных модальностях. [31]
Обучение
[ редактировать ]Базовые модели создаются путем оптимизации целей обучения, которые представляют собой математическую функцию, определяющую, как обновляются параметры модели на основе прогнозов модели по данным обучения. [32] Языковые модели часто обучаются с целью прогнозирования следующих токенов, которая относится к степени, в которой модель способна предсказать следующий токен в последовательности. Модели изображений обычно обучаются с целью контрастного обучения или диффузного обучения. Для контрастного обучения изображения случайным образом дополняются перед оценкой результирующего сходства представлений модели. В диффузионных моделях изображения зашумлены, и модель учится постепенно удалять шум с помощью объектива. Также существуют мультимодальные цели обучения: некоторые разделяют изображения и текст во время обучения, а другие изучают их одновременно. [33] В целом, цели обучения базовым моделям способствуют изучению широко полезных представлений данных.
С появлением базовых моделей и более крупных наборов данных, лежащих в их основе, цель обучения должна иметь возможность анализировать данные в масштабе Интернета для получения значимых точек данных. Кроме того, поскольку базовые модели предназначены для решения общего диапазона задач, цели обучения должны быть завершены в предметной области или способны решать широкий набор последующих возможностей в рамках данной предметной области. Наконец, цели обучения базовой модели должны быть направлены на хорошее масштабирование и эффективность вычислений. Поскольку размер модели и вычислительная мощность являются значимыми ограничениями, цель обучения должна позволять преодолевать такие узкие места.
Данные
[ редактировать ]Базовые модели обучаются на большом количестве данных, руководствуясь принципом «чем больше данных, тем лучше». [34] Оценка производительности показывает, что больший объем данных обычно приводит к повышению производительности, но по мере роста объема данных возникают и другие проблемы. Такие задачи, как управление набором данных, интеграция данных в новые приложения, обеспечение соблюдения лицензий на данные и поддержание качества данных, становятся все более сложными по мере роста размера данных. Особые требования к моделям фондов только усугубили такие проблемы, поскольку для крупных моделей фондов остается нормой использование общедоступных данных, полученных из Интернета. Базовые модели включают также данные поисковых систем и данные метатегов SEO. Публичные веб-данные остаются обильным ресурсом, но они также требуют строгой модерации и обработки данных со стороны разработчиков базовой модели, прежде чем их можно будет успешно интегрировать в конвейер обучения. [35]
Модели основы обучения часто сопряжены с риском нарушения конфиденциальности пользователей, поскольку частные данные могут быть раскрыты, собраны или использованы способами, выходящими за рамки заявленного объема. Даже если утечки личных данных не происходит, модели все равно могут непреднамеренно поставить под угрозу безопасность из-за изученного поведения в результирующей базовой модели. [36] Качество данных является еще одним ключевым моментом, поскольку данные, полученные из Интернета, часто содержат предвзятый, повторяющийся и токсичный материал. После развертывания базовых моделей обеспечение высокого качества данных по-прежнему остается проблемой, поскольку нежелательное поведение все еще может возникнуть из небольших подмножеств данных.
Системы
[ редактировать ]Размер базовых моделей также приводит к проблемам с компьютерными системами, на которых они работают. Средняя базовая модель слишком велика, чтобы ее можно было запустить в памяти одного ускорителя, а начальный процесс обучения требует дорогостоящего количества ресурсов. [37] Прогнозируется, что в будущем такие проблемы еще больше обострятся, поскольку модели фундаментов достигнут новых высот. Из-за этого ограничения исследователи начали изучать возможность сжатия размера модели посредством точного вывода модели.
Графические процессоры являются наиболее распространенным выбором вычислительного оборудования для машинного обучения из-за большого объема памяти и высокой мощности. Типичное обучение базовой модели требует множества графических процессоров, подключенных параллельно с помощью быстрых межсоединений. Приобретение достаточного количества графических процессоров с необходимой вычислительной эффективностью является проблемой для многих разработчиков базовых моделей, которая привела к растущей дилемме в этой области. Более крупные модели требуют большей вычислительной мощности, но часто за счет повышения эффективности вычислений. Поскольку обучение остается трудоемким и дорогостоящим, компромисс между вычислительной мощностью и эффективностью вычислений привел к тому, что лишь немногие избранные компании смогли позволить себе затраты на производство крупных современных моделей фундаментов. Некоторые методы, такие как сжатие и дистилляция, могут сделать вывод более доступным, но они не могут полностью устранить этот недостаток.
Масштабирование
[ редактировать ]Точность и возможности базовых моделей часто предсказуемо масштабируются в зависимости от размера модели и объема обучающих данных. В частности, были обнаружены законы масштабирования, которые представляют собой основанные на данных эмпирические тенденции, которые связывают ресурсы (данные, размер модели, использование вычислений) с возможностями модели. В частности, масштаб модели определяется вычислениями, размером набора данных и количеством параметров, каждый из которых находится в степенной зависимости от конечной производительности.
Однако нарушены законы масштабирования [38] были обнаружены, в которых эта связь плавно переходит (в точках, называемых разрывом(ами) ) от степенного закона с одним показателем степени к степенному закону с другим (другим) показателем. Если не набрать никаких точек вблизи (или после) перерыва(ов), то получить точную экстраполяцию может быть затруднительно.
Приспособление
[ редактировать ]Базовые модели по своей сути универсальны: для использования этих моделей в конкретном случае требуется определенная форма адаптации. Как минимум, модели необходимо адаптировать для выполнения интересующей задачи (спецификация задачи), но часто более высокая производительность может быть достигнута за счет более широкой адаптации к интересующей области (специализация предметной области).
Различные методы (например , подсказки , обучение в контексте , точная настройка , LoRA ) обеспечивают различные компромиссы между затратами на адаптацию и степенью специализации моделей. Некоторые важные аспекты, которые следует учитывать при адаптации базовой модели, — это бюджет вычислений и доступность данных. Модели фундамента могут быть очень большими, вплоть до триллионов параметров, поэтому адаптация всей модели фундамента может оказаться дорогостоящей в вычислительном отношении. Поэтому разработчики иногда адаптируют только последний нейронный слой или только векторы смещения, чтобы сэкономить время и пространство. [39] Для особо нишевых приложений также могут отсутствовать конкретные данные для достаточной адаптации модели фундамента. В таких обстоятельствах данные необходимо размечать вручную, что является дорогостоящим и может потребовать экспертных знаний.
Оценка
[ редактировать ]Оценка является ключевой частью разработки фундаментальных моделей. Оценка не только позволяет отслеживать прогресс высокопроизводительных моделей, но и создает ориентиры для будущей разработки моделей. Заинтересованные стороны полагаются на оценки, чтобы понять поведение модели и получить представление о ее различных характеристиках. Традиционно базовые модели оцениваются относительно друг друга с помощью стандартизированных тестов задач, таких как MMLU , [40] МММУ, [41] HumanEval, [42] и GSM8К. [43] Учитывая, что базовые модели являются многоцелевыми, все чаще разрабатываются мета-бенчмарки, объединяющие различные базовые тесты. Примеры включают LM-Harness, [44] БОЛЬШАЯ Скамья, [45] ШЛЕМ, [46] Таблица лидеров OpenLLM, [47] ДекодированиеДоверие, [48] и ХЕЙМ. [49]
Поскольку полезность базовых моделей зависит от их собственных общих возможностей и производительности точно настроенных приложений, оценка должна охватывать оба показателя. Правильная оценка исследует как последующие приложения базовой модели в совокупности, так и непосредственные свойства базовой модели. Чтобы обеспечить дополнительную справедливость в оценке, некоторые существующие системы оценки учитывают все ресурсы адаптации, что приводит к более информированному анализу на благо всех заинтересованных сторон. [50]
Цепочка поставок
[ редактировать ]Общие возможности моделей Foundation позволяют им выполнять уникальную роль в экосистеме ИИ. [51] подпитывается многими технологиями добычи и переработки. [1] Обучение базовой модели требует нескольких ресурсов (например, данных, вычислений, рабочей силы, оборудования, кода), при этом базовые модели часто требуют огромных объемов данных и вычислений (также называемых вычислительной мощностью). Из-за больших затрат на разработку базовых моделей и недорогих требований к адаптации сфера ИИ сместилась к небольшому подмножеству компаний, занимающихся ИИ, которые создают базовые модели для последующей адаптации. [52] Таким образом, большинство компаний, занимающихся моделями фундаментов, передают этот шаг специализированным поставщикам данных (например, Scale AI, [53] Всплеск [54] ) и поставщиков вычислений (например, Amazon Web Services , Google Cloud , Microsoft Azure ).
Затем разработчик базовой модели сам возьмет данные и использует предоставленные вычисления для фактического обучения базовой модели. После того, как модель фундамента полностью построена, требования к большинству данных и рабочей силе уменьшаются. В этом процессе разработки аппаратное обеспечение и вычислительная техника являются наиболее необходимыми, а также наиболее эксклюзивными ресурсами. Для обучения более крупного и сложного ИИ ключевым моментом является достаточный объем вычислений. Однако вычислительные ресурсы консолидируются в руках нескольких избранных организаций, от которых зависит большинство разработчиков базовой модели. Таким образом, конвейер базовой модели в значительной степени сконцентрирован вокруг этих поставщиков. Вычисления также являются дорогостоящими; в 2023 году компании, занимающиеся искусственным интеллектом, потратили более 80% общего капитала на вычислительные ресурсы. [56]
Базовые модели требуют большого количества общих данных для реализации своих возможностей. Ранние модели фундаментов собирались из Интернета, чтобы предоставить эту информацию. По мере того, как размер и объем базовых моделей растут, становится необходимым большее количество данных из Интернета, что приводит к увеличению вероятности получения предвзятых или токсичных данных. Эти токсичные или предвзятые данные могут нанести непропорциональный вред маргинализированным группам и усугубить существующие предрассудки. [57]
Чтобы решить проблему низкого качества данных, возникающую при неконтролируемом обучении, некоторые разработчики базовой модели прибегли к ручной фильтрации. Эта практика, известная как работа с данными, имеет множество проблем. [58] Такая ручная детоксикация данных часто передается на аутсорсинг, чтобы снизить затраты на рабочую силу, при этом некоторые работники зарабатывают менее 2 долларов в час. [59]
Затем базовая модель будет размещена в Интернете либо через разработчика, либо через внешнюю организацию. После выпуска другие стороны смогут создавать приложения на основе базовой модели, будь то посредством тонкой настройки или совершенно новых целей. Затем люди могут получить доступ к этим приложениям для использования своих различных средств, что позволяет одной базовой модели обеспечить эффективность и охватить широкую аудиторию.
Стратегии выпуска
[ редактировать ]После того как модель фундамента построена, ее можно выпустить одним из многих способов. Релиз имеет много аспектов: сам ресурс, кто имеет доступ, как доступ меняется с течением времени и условия использования. [60] Все эти факторы влияют на то, как базовая модель повлияет на последующие приложения. [61] В частности, двумя наиболее распространенными формами выпуска базовой модели являются API и прямая загрузка моделей.
Когда модель выпускается через API , пользователи могут запрашивать модель и получать ответы, но не могут напрямую получить доступ к самой модели. Для сравнения, модель можно напрямую загрузить, чтобы пользователи могли получить к ней доступ и изменить ее. Обе стратегии выпуска часто классифицируются как открытый выпуск. Точное определение открытого релиза оспаривается, но широко признанные требования предоставлены Open Source Initiative .
Некоторые модели с открытым фундаментом: PaLM 2 , Llama 2 и Mistral . Хотя модели открытого фонда облегчают дальнейшие исследования и разработки, они также более подвержены неправильному использованию. Открытые модели фундамента могут быть загружены кем угодно, а особенно мощные модели могут быть настроены так, чтобы намеренно или непреднамеренно причинять вред.
Во время закрытой версии базовая модель недоступна для общественности, но используется внутри организации. Такие выбросы считаются более безопасными, но не представляют никакой дополнительной ценности для исследовательского сообщества или общественности в целом.
Некоторые фундаментальные модели, такие как Google DeepMind. Flamingo от [62] полностью закрыты, то есть доступны только разработчику модели; другие, такие как OpenAI от GPT-4 , имеют ограниченный доступ и доступны публике, но только в виде « черного ящика» ; а третьи, такие как Llama 2 от Meta , являются открытыми, с широко доступными весами моделей, позволяющими в дальнейшем модифицировать и проверять.
Ссылки
[ редактировать ]- ^ Перейти обратно: а б с д Управление по конкуренции и рынкам (2023 г.). Модели AI Foundation: первоначальный отчет . Доступно по адресу: https://assets.publishing.service.gov.uk/media/65081d3aa41cc300145612c0/Full_report_.pdf .
- ^ «Представляем Центр исследований моделей фундамента (CRFM)» . Стэнфорд ХАЙ . 18 августа 2021 г. Проверено 11 июня 2022 г.
- ^ Нестор Маслей, Лоредана Фатторини, Эрик Бриньольфссон, Джон Этчеменди, Катрина Лигетт, Тера Лайонс, Джеймс Маньика, Хелен Нго, Хуан Карлос Ниблс, Ванесса Парли, Йоав Шохам, Рассел Уолд, Джек Кларк и Раймон Перро, «Индекс ИИ 2023» Годовой отчет», Руководящий комитет индекса ИИ, Институт человекоориентированного ИИ, Стэнфордский университет, Стэнфорд, Калифорния, апрель 2023 г.
- ^ Роджерс, Анна; Ковалева, Ольга; Румшиский, Анна (2020). «Букварь по BERTологии: что мы знаем о том, как работает BERT». arXiv : 2002.12327 [ cs.CL ].
- ^ Решение нескольких задач с помощью единой модели визуального языка , 28 апреля 2022 г. , дата обращения 13 июня 2022 г.
- ^ Копет, Джейд; Кройк, Феликс; Гат, Итай; Ремез, Таль; Кант, Дэвид; Синнев, Габриэль; Ади, Йосси; Дефосс, Александр (7 ноября 2023 г.). «Простое и управляемое создание музыки». arXiv : 2306.05284 [ cs.SD ].
- ^ «Говорящий робот: наша новая модель искусственного интеллекта преобразует видение и язык в действия робота» . Google . 28 июля 2023 г. Проверено 11 декабря 2023 г.
- ^ Нгуен, Туан Зунг; Тин, Юань-Сен; Чука, Иоана; О'Нил, Чарли; Сунь, Цзе-Чанг; Яблонская, Майя; Крук, Сандор; Перковски, Эрнест; Миллер, Джек (12 сентября 2023 г.). «AstroLLaMA: К специализированным базовым моделям в астрономии». arXiv : 2309.06126 [ astro-ph.IM ].
- ^ Ту, Дао; Азизи, Шекуфе; Дрисс, Дэнни; Шекерманн, Майк; Амин, Мохамед; Чанг, Пи-Чуан; Кэрролл, Эндрю; Лау, Чак; Танно, Рютаро (26 июля 2023 г.). «На пути к универсальному биомедицинскому искусственному интеллекту». arXiv : 2307.14334 [ cs.CL ].
- ^ Звягин, Максим; Брейс, Александр; Хиппе, Кайл; Дэн, Юньтянь; Чжан, Бинь; Бохоркес, Синди Ороско; Клайд, Остин; Кале, Бхарат; Перес-Ривера, Данило (11 октября 2022 г.). «GenSLM: языковые модели в масштабе генома раскрывают эволюционную динамику SARS-CoV-2». bioRxiv 10.1101/2022.10.10.511571 .
- ^ Инженерное дело, Spotify (13 октября 2023 г.). «LLark: мультимодальная базовая модель музыки» . Исследование Spotify . Проверено 11 декабря 2023 г.
- ^ Ли, Раймонд; Аллал, Лубна Бен; Цзы, Янтянь; Мюннигофф, Никлас; Кочетков, Денис; Моу, Чэнхао; Мароне, Марк; Акики, Кристофер; Ли, Цзя (9 мая 2023 г.). «StarCoder: да пребудет с вами источник!». arXiv : 2305.06161 [ cs.CL ].
- ^ Се, Ксения; Спектор, Ян (5 апреля 2024 г.). «Революционное прогнозирование временных рядов: интервью с создателями TimeGPT» . Тьюринг Пост . Проверено 11 апреля 2024 г.
- ^ Азербаев, Жангир; Шелькопф, Хейли; Пастор Кейран; Сантос, Марко Дос; Макалир, Стивен; Цзян, Альберт К.; Дэн, Цзя; Бидерман, Стелла; Веллек, Шон (30 ноября 2023 г.). «Лемма: модель открытого языка для математики». arXiv : 2310.10631 [ cs.CL ].
- ^ Перейти обратно: а б Боммасани, Риши; и др. (18 августа 2021 г.). О возможностях и рисках фундаментальных моделей (доклад). arXiv : 2108.07258 .
- ^ «Размышления о моделях фундамента» . Стэнфорд ХАЙ . 18 октября 2021 г. Проверено 22 мая 2023 г.
- ^ Боммасани, Риши; Лян, Перси (18 октября 2021 г.). «Размышления о моделях фундамента» . Стэнфордский CRFM . Проверено 11 декабря 2023 г.
- ^ Маркус, Гэри (11 сентября 2021 г.). «Нашёл ли ИИ новый Фонд?» . Градиент . Проверено 11 декабря 2023 г.
- ^ Дом, Белый (30 октября 2023 г.). «Указ о безопасной, надежной и надежной разработке и использовании искусственного интеллекта» . Белый дом . Проверено 12 февраля 2024 г.
- ^ «Модельный закон о прозрачности Фонда искусственного интеллекта» (PDF) .
- ^ Перейти обратно: а б Лян, Перси; Боммасани, Риши; Ли, Тони; Ципрас, Димитрис; Сойлу, Дилара; Ясунага, Митихиро; Чжан, Ян; Нараянан, Дипак; Ву, Юхуай (1 октября 2023 г.), «Целостная оценка языковых моделей», Анналы Нью-Йоркской академии наук , 1525 (1): 140–146, arXiv : 2211.09110 , Bibcode : 2023NYASA1525..140B , doi : 10.1111/ няс.15007 , PMID 37230490
- ^ «Совместное заявление о безопасности и открытости ИИ» . Мозилла . 31 октября 2023 г. Проверено 12 февраля 2024 г.
- ^ «Хоули и Блюменталь требуют от Меты ответов и предупреждают о неправильном использовании после «утечки» модели искусственного интеллекта Меты» . Сенатор Джош Хоули . 6 июня 2023 г. Проверено 12 февраля 2024 г.
- ^ Перейти обратно: а б Андерлюнг, Маркус; Барнхарт, Джослин; Коринек, Антон; Люнг, Джейд ; О'Киф, Каллен; Уиттлстоун, Джесс; Авин, Шахар; Брандейдж, Майлз; Буллок, Джастин (7 ноября 2023 г.), Пограничное регулирование искусственного интеллекта: управление возникающими рисками для общественной безопасности , arXiv : 2307.03718
- ^ Сингхал, Каран; Азизи, Шекуфе; Ту, Дао; Махдави, С. Сара; Вэй, Джейсон; Чон, Хён Вон; Весы, Натан; Танвани, Аджай; Коул-Льюис, Хизер; Пфол, Стивен; Пейн, Перри; Сеневиратне, Мартин; Гэмбл, Пол; Келли, Крис; Бабикер, Абубакр (август 2023 г.). «Большие языковые модели кодируют клинические знания» . Природа . 620 (7972): 172–180. arXiv : 2212.13138 . Бибкод : 2023Natur.620..172S . дои : 10.1038/s41586-023-06291-2 . ISSN 1476-4687 . ПМЦ 10396962 . ПМИД 37438534 .
- ^ Нори, Харша; Король, Николас; МакКинни, Скотт Майер; Кариньян, Дин; Хорвиц, Эрик (12 апреля 2023 г.), Возможности GPT-4 в решении медицинских проблем , arXiv : 2303.13375
- ^ Симшоу, Дрю (22 апреля 2022 г.). «Доступ к ИИ-правосудию: как избежать несправедливой двухуровневой системы юридических услуг» . Электронный журнал ССРН .
- ^ Арбель, Йонатан А.; Бехер, Шмуэль И. (2020). «Контракты в эпоху умных читателей» . Гео. Вашингтон Л. Преподобный . 90 : 83. дои : 10.2139/ssrn.3740356 . S2CID 229386991 .
- ^ «Искусственный интеллект общего назначения | Аналитический центр | Европейский парламент» . www.europarl.europa.eu . Проверено 12 февраля 2024 г.
- ^ Боммасани, Риши; Сойлу, Дилара; Ляо, Томас И.; Крил, Кэтлин А.; Лян, Перси (28 марта 2023 г.), Графики экосистем: социальный след моделей фундамента , arXiv : 2303.15772
- ^ Боммасани, Риши; Климан, Кевин; Лонгпре, Шейн; Капур, Саяш; Маслей, Нестор; Сюн, Бетти; Чжан, Дэниел; Лян, Перси (19 октября 2023 г.), Индекс прозрачности модели Foundation , arXiv : 2310.12941
- ^ Клод Элвуд, Шеннон (июль 1948 г.). «Математическая теория связи» (PDF) . Технический журнал Bell System .
- ^ Рэдфорд, Алек; Ким, Чон Ук; Халси, Крис; Рамеш, Адитья; Гох, Габриэль; Агарвал, Сандхини; Састри, Гириш; Аскелл, Аманда; Мишкин, Памела (26 февраля 2021 г.), Изучение переносимых визуальных моделей под контролем естественного языка , arXiv : 2103.00020
- ^ Каплан, Джаред; МакКэндлиш, Сэм; Хениган, Том; Браун, Том Б.; Шахматы, Бенджамин; Дитя, Ревон; Грей, Скотт; Рэдфорд, Алек; Ву, Джеффри (22 января 2020 г.), Законы масштабирования для моделей нейронного языка , arXiv : 2001.08361
- ^ Джо, Ын Со; Гебру, Тимнит (27 января 2020 г.). «Уроки архивов: стратегии сбора социокультурных данных в машинном обучении». Материалы конференции 2020 года по справедливости, подотчетности и прозрачности . стр. 306–316. arXiv : 1912.10389 . дои : 10.1145/3351095.3372829 . ISBN 978-1-4503-6936-7 .
- ^ Бендер, Эмили М.; Гебру, Тимнит; Макмиллан-Мейджор, Анджелина; Шмитчелл, Шмаргарет (1 марта 2021 г.). «Об опасностях стохастических попугаев: могут ли языковые модели быть слишком большими? 🦜» . Материалы конференции ACM 2021 года по вопросам справедливости, подотчетности и прозрачности . ФАКТ '21. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 610–623. дои : 10.1145/3442188.3445922 . ISBN 978-1-4503-8309-7 .
- ^ Браун, Том Б.; Манн, Бенджамин; Райдер, Ник; Суббия, Мелани; Каплан, Джаред; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Састри, Гириш (22 июля 2020 г.), Языковые модели изучаются немногими , arXiv : 2005.14165
- ^ Кабальеро, Итан; Гупта, Кшитидж; Риш, Ирина; Крюгер, Дэвид (2022). «Нарушенные законы нейронного масштабирования» . Международная конференция по обучению представлениям (ICLR), 2023 г.
- ^ Закен, Элад Бен; Равфогель, Шаули; Гольдберг, Йоав (5 сентября 2022 г.), BitFit: простая точная настройка с эффективным использованием параметров для моделей маскированного языка на основе преобразователей , arXiv : 2106.10199
- ^ «Документы с кодом — тест MMLU (многозадачное понимание языка)» . paperswithcode.com . Проверено 21 апреля 2024 г.
- ^ Юэ, Сян; Чжан, Кай; Лю, Жанг, Ге; Цзян, Дунфу; Рен, Веймин (20 декабря 2023 г.), MMMU: Масштабное междисциплинарное мультимодальное понимание. и тест рассуждения для экспертного AGI , arXiv : 2311.16502
- ^ «Документы с кодом — тест HumanEval (генерация кода)» . paperswithcode.com . Проверено 21 апреля 2024 г.
- ^ «Документы с кодом — тест GSM8K (арифметические рассуждения)» . paperswithcode.com . Проверено 21 апреля 2024 г.
- ^ EleutherAI/lm-evaluation-harness , EleutherAI, 21 апреля 2024 г. , получено 21 апреля 2024 г.
- ^ Шривастава, Арохи; Растоги, Абхинав; Рао, Абхишек; Шуб, Абу Аваль, Мэриленд; Абид, Абубакар; Фиш, Адам; Браун, Адам Р.; Санторо, Адам; Гупта, Адитья (12 июня 2023 г.), За пределами игры в имитацию: количественная оценка и экстраполяция возможностей языковых моделей , arXiv : 2206.04615
- ^ «Целостная оценка языковых моделей (HELM)» . crfm.stanford.edu . Проверено 21 апреля 2024 г.
- ^ "open-llm-leaderboard (таблица лидеров Open LLM)" . Huggingface.co . 9 ноября 2023 г. Проверено 21 апреля 2024 г.
- ^ «Бенчмарк доверия к декодированию» . декодированиеtrust.github.io . Проверено 21 апреля 2024 г.
- ^ «Целостная оценка моделей изображений (HEIM)» . crfm.stanford.edu . Проверено 21 апреля 2024 г.
- ^ Линзен, Таль (июль 2020 г.). Юрафски, Дэн; Чай, Джойс; Шлютер, Натали; Тетро, Джоэл (ред.). «Как мы можем ускорить прогресс на пути к человеческому лингвистическому обобщению?» . Материалы 58-го ежегодного собрания Ассоциации компьютерной лингвистики . Онлайн: Ассоциация компьютерной лингвистики: 5210–5217. arXiv : 2005.00955 . doi : 10.18653/v1/2020.acl-main.465 .
- ^ «Экосистемные графики для моделей фундамента» . crfm.stanford.edu . Проверено 13 февраля 2024 г.
- ^ Випра, Джай; Коринек, Антон (2 ноября 2023 г.), Влияние базовых моделей на концентрацию рынка , arXiv : 2311.01550
- ^ «Ускорение разработки приложений искусственного интеллекта | Масштабирование искусственного интеллекта» . Scale.com . Проверено 21 апреля 2024 г.
- ^ «Surge AI | Самая мощная в мире платформа для маркировки данных» . www.surgehq.ai . Проверено 21 апреля 2024 г.
- ^ «Индекс AI 2024 — глава 1» (PDF) . 15 апреля 2024 г. стр. 37–39.
- ^ пнп (27 сентября 2023 г.). «Вычислительная мощность и искусственный интеллект» . Институт AI Now . Проверено 13 февраля 2024 г.
- ^ Тику, Ниташа; Шауль, Кевин; Чен, Сю Ю. «Эти фальшивые изображения показывают, как ИИ усиливает наши худшие стереотипы» . Вашингтон Пост . Проверено 13 февраля 2024 г.
- ^ «Как индустрия искусственного интеллекта извлекает выгоду из катастрофы» . Обзор технологий Массачусетского технологического института . Проверено 13 февраля 2024 г.
- ^ «Эксклюзив: работники за 2 доллара в час, которые сделали ChatGPT безопаснее» . ВРЕМЯ . 18 января 2023 г. Проверено 13 февраля 2024 г.
- ^ Лян, Перси; Боммасани, Риши; Крил, Кэтлин (17 мая 2022 г.). «Пришло время разработать общественные нормы для выпуска моделей Foundation» . Стэнфордский CRFM .
- ^ Солейман, Ирен (5 февраля 2023 г.), Градиент выпуска генеративного ИИ: методы и соображения , arXiv : 2302.04844
- ^ Алайрак, Жан-Батист; Донахью, Джефф; Люк, Полина; Миш, Антуан; Барр, Иэн; Хассон, Яна; Ленц, Карел; Менш, Артур; Милликан, Кэти (15 ноября 2022 г.), Фламинго: модель визуального языка для кратковременного обучения , arXiv : 2204.14198