БЛУМ (языковая модель)

Из Википедии, бесплатной энциклопедии

BigScience Крупная многоязычная языковая модель открытого доступа с открытым доступом ( BLOOM ) [1] [2] 176 миллиардами параметров на основе преобразователя со представляет собой авторегрессионную модель большого языка (LLM) . Модель, а также кодовая база и данные, используемые для ее обучения, распространяются по свободным лицензиям. [3] С марта по июль 2022 года BLOOM прошел обучение примерно на 366 миллиардах (1,6 ТБ) токенов. [4] [5]

BLOOM — это главный результат совместной инициативы BigScience. [6] годовой исследовательский семинар, который проходил с мая 2021 по май 2022 года. BigScience возглавлял HuggingFace , в нем приняли участие несколько сотен исследователей и инженеров из Франции и из-за границы, представляющих как академические круги, так и частный сектор. BigScience была поддержана крупномасштабным государственным грантом на вычисления на французском государственном суперкомпьютере Jean Zay, которым управляют GENCI и IDRIS ( CNRS ), на котором она проходила обучение.

Учебный корпус BLOOM, получивший название ROOTS, объединяет данные, извлеченные из последней на тот момент версии веб-корпуса OSCAR (38% ROOTS), и недавно собранные данные, извлеченные из вручную выбранного и документированного списка языковых источников данных. Он охватывает 46 естественных языков (в количествах от 30% всего набора данных для английского до 0,00002% для Чи Тумбука) и 13 языков программирования. [7]

Ссылки [ править ]

  1. ^ «Большая многоязычная языковая модель открытого доступа BigScience» . Проверено 1 октября 2022 г.
  2. ^ Ле Скао Т, Фан А, Акики С, Павлик Е, Илич С, Хесслоу Д, Кастань Р, Луччиони А, Ивон Ф, Галле М, Тоу Дж, Раш AM, Бидерман С, Вебсон А, Сасанка Амманаманчи П, Ван Т, Сагот Б, Мюннигофф Н, Вилланова дель Мораль А, Рувасе О, Боуден Р, Бекман С, Макмиллан-Мейджор А, Бельтаги И, Нгуен Х, Солнье Л, Тан С, Ортис Суарес П, Сан В, Лоренсон Х, Джернит Ю, Лоней Дж., Митчелл М., Раффель С. и др. (2022). «BLOOM: многоязычная языковая модель открытого доступа с 176 параметрами». arXiv : 2211.05100 .
  3. ^ «Лицензия BigScience RAIL» . Проверено 10 января 2024 г.
  4. ^ Хейккиля, Мелисса (12 июля 2022 г.). «БЛУМ: Внутри радикально нового проекта по демократизации ИИ» . Обзор технологий Массачусетского технологического института . Проверено 26 декабря 2023 г.
  5. ^ «Выпуск крупнейшей в мире обученной многоязычной языковой модели открытой науки» . Французский национальный центр научных исследований . 12 июля 2022 г. Проверено 26 декабря 2023 г.
  6. ^ «Большая наука» . Проверено 10 января 2024 г.
  7. ^ Лоуренсон Х, Солнье Л, Ван Т, Акики С, Вилланова дель Мораль А, Ле Скао Т, Фон Верра Л, Моу С, Гонсалес Понферрада С, Нгуен Х, Фроберг Дж, Шашко М, Лоест К, Макмиллан-Майор А, Дюпон Дж., Бидерман С., Роджерс А., Беналлал Л., Де Тони Ф., Пистилли Г., Нгуен О., Никпур С., Масуд М., Коломбо П., де ла Роза Дж., Вильегас П., Траш Т., Лонгпре С., Нагель С., Вебер Л. , Муньос М , Жу Дж , Ван Стрин Д , Аляфеай З , Альмубарак К , Ву MC , Гонсалес-Год И , Сороа А , Ло К , Дей М , Ортис Суарес П , Гокаслан А , Бозе С , Аделани Д , Фан Л , Тран Х, Ю И, Пай С, Чим Дж, Леперк В, Илич С, Митчелл М, Луччиони С, Джернит Ю (2022). «Корпус BigScience ROOTS: составной многоязычный набор данных объемом 1,6 ТБ». arXiv : 2303.03915 .