Куча (набор данных)
The Pile — это разнообразный набор данных английского текста с открытым исходным кодом объемом 886,03 ГБ, созданный в качестве обучающего набора данных для больших языковых моделей (LLM). Он был создан EleutherAI в 2020 году и публично опубликован 31 декабря того же года. [1] [2] Он состоит из 22 небольших наборов данных, включая 14 новых. [1]
Создание
[ редактировать ]Обучение LLM требует достаточно больших объемов данных, поэтому до введения Pile большая часть данных, используемых для обучения LLM, была взята из Common Crawl . [3] Тем не менее, LLM, обученные на более разнообразных наборах данных, лучше способны справляться с более широким спектром ситуаций после обучения. [4] Создание Pile было мотивировано необходимостью иметь достаточно большой набор данных, содержащий данные из самых разных источников и стилей письма. [1] [5] По сравнению с другими наборами данных, основные отличительные особенности Pile заключаются в том, что это тщательно подобранная подборка данных, выбранная исследователями EleutherAI для содержания информации, которую, по их мнению, должны изучать языковые модели, и что это единственный такой набор данных, который тщательно документирован исследователями, разработавшими это. [6]
Содержание и фильтрация
[ редактировать ]Искусственный интеллект не изучает все, что может, из данных при первом проходе, поэтому обычной практикой является обучение ИИ на одних и тех же данных более одного раза при каждом проходе через весь набор данных, называемый «эпохой». [7] Каждому из 22 поднаборов данных, составляющих стопку, было присвоено разное количество эпох в зависимости от воспринимаемого качества данных. [1] В таблице ниже показан относительный размер каждого из 22 поднаборов данных до и после умножения на количество эпох. Числа были преобразованы в ГБ , а звездочки используются для обозначения новых введенных наборов данных.
Компонент | Исходный размер | Эпохи | Эффективный размер |
---|---|---|---|
Свая-CC | 243,87 ГБ | 1 | 243,87 ГБ |
ПабМед Централ * | 96,93 ГБ | 2 | 193,86 ГБ |
Книги3 | 108,40 ГБ | 1.5 | 162,61 ГБ |
ОпенВебТекст2* | 67,40 ГБ | 2 | 134,80 ГБ |
arXiv * | 60,36 ГБ | 2 | 120,71 ГБ |
Гитхаб * | 102,18 ГБ | 1 | 102,18 ГБ |
Свободное право * | 54,92 ГБ | 1.5 | 82,39 ГБ |
Обмен стеками * | 34,57 ГБ | 2 | 69,14 ГБ |
Информация о ВПТЗ США * | 24,59 ГБ | 2 | 49,19 ГБ |
PubMed * Рефераты | 20,68 ГБ | 2 | 41,37 ГБ |
Гутенберг (PG-19) | 11,68 ГБ | 2.5 | 29,20 ГБ |
OpenSubtitles | 13,94 ГБ | 1.5 | 20,91 ГБ |
Arc.Ask3.Ru | 6,85 ГБ | 3 | 20,54 ГБ |
DeepMind Математика | 8,32 ГБ | 2 | 16,63 ГБ |
Ubuntu Freenode Журналы IRC * | 5,93 ГБ | 2 | 11,84 ГБ |
КнигаКорпус 2* | 6,76 ГБ | 1.5 | 10,15 ГБ |
ЕвроПарл | 4,93 ГБ | 2 | 9,85 ГБ |
Хакерские новости * | 4,19 ГБ | 2 | 8,38 ГБ |
Субтитры YouTube * | 4,01 ГБ | 2 | 8,02 ГБ |
Филпаперс * | 2,56 ГБ | 2 | 5,11 ГБ |
ЭксПортер НИЗ * | 2,03 ГБ | 2 | 4,07 ГБ |
Электронная почта Энрона | 0,95 ГБ | 2 | 1,89 ГБ |
Общий | 886,03 ГБ | 1346,69 ГБ |
EleutherAI выбрал наборы данных, чтобы попытаться охватить широкий спектр тем и стилей письма, включая академическое письмо, с которым, как оказалось, сталкиваются модели, обученные на других наборах данных. [1]
Все данные, использованные в подборке, взяты из общедоступных источников. Затем EleutherAI отфильтровал набор данных в целом, чтобы удалить дубликаты. Некоторые поднаборы данных также были отфильтрованы для контроля качества. В частности, Pile-CC представляет собой модифицированную версию Common Crawl, в которой данные фильтруются для удаления частей, не являющихся текстом, таких как форматирование HTML и ссылки. [1]
Некоторые потенциальные поднаборы данных были исключены по разным причинам, например, « Записи Конгресса США» , которые были исключены из-за их расистского содержания. [1]
В включенных поднаборах данных отдельные документы не фильтровались для удаления неанглоязычного, предвзятого или ненормативного текста. Он также не был отфильтрован на основании согласия, а это означает, что, например, у Pile-CC есть все те же этические проблемы, что и у самого Common Crawl. Тем не менее, EleutherAI задокументировал степень предвзятости (по признаку пола, религии и расы) и ненормативной лексики, а также уровень согласия, данного для каждого из поднаборов данных, что позволяет исследователям, обеспокоенным этикой, использовать только эти части. Сваи, которые соответствуют их собственным стандартам. [1]
Использовать
[ редактировать ]Первоначально Pile был разработан для обучения моделей GPT-Neo от EleutherAI. [8] [9] [10] но он стал широко использоваться для обучения других моделей, включая Microsoft . генерацию естественного языка Мегатрона-Тьюринга от [11] [12] Meta AI открытПредварительно обученные Трансформеры, [13] Звонки , [14] и Галактика, [15] Стэнфордского университета , BioMedLM 2.7B [16] Пекинская академия искусственного интеллекта Китайский-Трансформер-XL, [17] Яндекса , ЯЛМ 100Б [18] и Apple . OpenELM от [19]
Помимо использования в качестве набора обучающих данных, Pile также можно использовать в качестве эталона для тестирования моделей и оценки их эффективности при различных стилях письма. [2] [20] [21]
Удаление DMCA
[ редактировать ]Компонент Books3 набора данных содержит материалы, защищенные авторским правом, собранные с пиратского веб-сайта Bibliotik. [22] В июле 2023 года Альянс за права удалил копии The Pile через уведомление DMCA. [23] [24] Пользователи отреагировали созданием копий The Pile с удалением оскорбительного контента. [25]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Перейти обратно: а б с д и ж г час я Гао, Лео; Бидерман, Стелла; Блэк, Сид; Голдинг, Лоуренс; Хоппе, Трэвис; Фостер, Чарльз; Пханг, Джейсон; Он, Гораций; Тите, Аниш; Набешима, Ноа; Прессер, Шон; Лихи, Коннор (31 декабря 2020 г.). «Куча: набор данных разнообразного текста объемом 800 ГБ для языкового моделирования». arXiv : 2101.00027 [ cs.CL ].
- ^ Перейти обратно: а б «Куча: набор данных разнообразного текста объемом 800 ГБ для языкового моделирования» . Веб-сайт ЭлеутерАИ . ЭлеутерAI . 13 февраля 2020 г. Проверено 4 июня 2023 г.
- ^ Браун, Том Б; Манн, Бенджамин; Райдер, Ник; Суббия, Мелани; и др. (22 июля 2020 г.). «Языковые модели изучаются немногими». arXiv : 2005.14165 [ cs.CL ].
- ^ Россет, Корби (13 февраля 2020 г.). «Тьюринг-NLG: языковая модель Microsoft с 17 миллиардами параметров» . Блог Майкрософт . Майкрософт . Проверено 31 декабря 2020 г.
- ^ Перейти обратно: а б Гао, Лео; Бидерман, Стелла; Хоппе, Трэвис; Гранкин Михаил; исследователь2; трисонгз; sdtblck (15 июня 2021 г.). «Код репликации сваи» . github.com . Проверено 6 июня 2023 г.
{{cite web}}
: CS1 maint: числовые имена: список авторов ( ссылка ) - ^ Хан, Мехтаб; Ханна, Алекс (13 сентября 2022 г.). «Предметы и этапы разработки наборов данных ИИ: основа подотчетности наборов данных». ССНН 4217148 .
- ^ Браунли, Джейсон (10 августа 2022 г.). «Разница между пакетом и эпохой в нейронной сети» . Проверено 2 июня 2023 г. - через Machinelearningmastery.com.
- ^ «ГПТ-Нео 125М» . Huggingface.co . 8 декабря 2022 г. Проверено 7 июня 2023 г.
- ^ «ГПТ-Нео 1.3Б» . Huggingface.co . 8 декабря 2022 г. Проверено 7 июня 2023 г.
- ^ «ГПТ-Нео 2.7Б» . Huggingface.co . 8 декабря 2022 г. Проверено 7 июня 2023 г.
- ^ «Microsoft и Nvidia объединяются для обучения одной из крупнейших в мире языковых моделей» . 11 октября 2021 г. Проверено 8 марта 2023 г.
- ^ «ИИ: Мегатрон-трансформер и связанные с ним языковые модели» . 24 сентября 2021 г. Проверено 8 марта 2023 г.
- ^ Чжан, Сьюзен; Роллер, Стивен; Гоял, Наман; Артече, Микель; Чен, Мойя; Чен, Шуохуэй; Деван, Кристофер; Диаб, Мона; Ли, Сиань; Линь, Си Виктория; Михайлов, Тодор; Отт, Майл; Шлейфер, Сэм; Шустер, Курт; Симиг, Дэниел; Кура, Пунит Сингх; Шридхар, Анджали; Ван, Тяньлу; Зеттлмойер, Люк (21 июня 2022 г.). «OPT: открытые предварительно обученные языковые модели трансформаторов». arXiv : 2205.01068 [ cs.CL ].
- ^ Туврон, Гюго; Лавриль, Тибо; Изакар, Готье; Грейв, Эдуард; Лампле, Гийом; и др. (27 февраля 2023 г.). «LLaMA: открытые и эффективные базовые языковые модели». arXiv : 2302.13971 [ cs.CL ].
- ^ Тейлор, Росс; Кардас, Марцин; Кукурулл, Гиллем; Сиалом, Томас; Хартшорн, Энтони; Саравиа, Элвис; Поултон, Эндрю; Керкез, Виктор; Стойнич, Роберт (16 ноября 2022 г.). «Галактика: большая языковая модель для науки». arXiv : 2211.09085 [ cs.CL ].
- ^ «Карточка модели для BioMedLM 2.7B» . Huggingface.co . Проверено 5 июня 2023 г.
- ^ Юань, Ша; Ду, Чжэнсяо; Цен, Цзоу, Сюй; Ян, Цзе (1 января 2021 г.) . корпуса для языковых моделей перед обучением» . AI Open . 2 : 65–68. doi : 10.1016/j.aiopen.2021.06.001 . Проверено 8 марта 2023 г. - через ScienceDirect.
- ^ Грабовский, Илья (2022). «Яндекс публикует YaLM 100B, крупнейшую GPT-подобную нейросеть с открытым исходным кодом» (Пресс-релиз). Яндекс . Проверено 5 июня 2023 г.
- ^ Мехта, Сачин; Сехават, Мохаммад Хосейн; Цао, Цинцин; Хортон, Максвелл; Джин, Янци; Сунь, Чэньфан; Мирзаде, Иман; Наджиби, Махьяр; Беленко Дмитрий (01.05.2024). «OpenELM: эффективное семейство языковых моделей с открытым обучением и структурой вывода». arXiv : 2404.14619 [ cs.CL ].
- ^ Рэй, Джек В.; Боржо, Себастьян; Кай, Тревор; Милликан, Кэти; Хоффманн, Иордания; Сонг, Фрэнсис; Асланидес, Джон; Хендерсон, Сара; Кольцо, Роман; Янг, Сюзанна; и др. (21 января 2022 г.). «Масштабирование языковых моделей: методы, анализ и выводы из обучения Gopher». arXiv : 2112.11446 [ cs.CL ].
- ^ Либер, Офер; Шарир, Ор; Ленц, Барак; Шохам, Йоав (1 августа 2021 г.). «Юрский период-1: Технические детали и оценка» (PDF) . Лаборатория AI21 . Проверено 5 июня 2023 г.
- ^ Ниббс, Кейт. «Битва за книги3 может навсегда изменить искусственный интеллект» . проводной.com . Проверено 13 октября 2023 г.
- ^ «Альянс по правам человека удаляет нелегальный набор данных Books3, используемый для обучения искусственного интеллекта» . Правовой Альянс. 14 августа 2023 г. Проверено 29 августа 2023 г.
- ^ «Куча набора данных разнообразного текста объемом 800 ГБ для языкового моделирования» . www.accadetorrents.com . Проверено 29 августа 2023 г.
- ^ «monology/pile-uncopyright — Dataset at Hugging Face» . 22 апреля 2024 г.