Jump to content

Куча (набор данных)

The Pile — это разнообразный набор данных английского текста с открытым исходным кодом объемом 886,03 ГБ, созданный в качестве обучающего набора данных для больших языковых моделей (LLM). Он был создан EleutherAI в 2020 году и публично опубликован 31 декабря того же года. [1] [2] Он состоит из 22 небольших наборов данных, включая 14 новых. [1]

Создание

[ редактировать ]

Обучение LLM требует достаточно больших объемов данных, поэтому до введения Pile большая часть данных, используемых для обучения LLM, была взята из Common Crawl . [3] Тем не менее, LLM, обученные на более разнообразных наборах данных, лучше способны справляться с более широким спектром ситуаций после обучения. [4] Создание Pile было мотивировано необходимостью иметь достаточно большой набор данных, содержащий данные из самых разных источников и стилей письма. [1] [5] По сравнению с другими наборами данных, основные отличительные особенности Pile заключаются в том, что это тщательно подобранная подборка данных, выбранная исследователями EleutherAI для содержания информации, которую, по их мнению, должны изучать языковые модели, и что это единственный такой набор данных, который тщательно документирован исследователями, разработавшими это. [6]

Содержание и фильтрация

[ редактировать ]

Искусственный интеллект не изучает все, что может, из данных при первом проходе, поэтому обычной практикой является обучение ИИ на одних и тех же данных более одного раза при каждом проходе через весь набор данных, называемый «эпохой». [7] Каждому из 22 поднаборов данных, составляющих стопку, было присвоено разное количество эпох в зависимости от воспринимаемого качества данных. [1] В таблице ниже показан относительный размер каждого из 22 поднаборов данных до и после умножения на количество эпох. Числа были преобразованы в ГБ , а звездочки используются для обозначения новых введенных наборов данных.

Поднаборы данных The Pile [1] [5]
Компонент Исходный размер Эпохи Эффективный размер
Свая-CC 243,87 ГБ 1 243,87 ГБ
ПабМед Централ * 96,93 ГБ 2 193,86 ГБ
Книги3 108,40 ГБ 1.5 162,61 ГБ
ОпенВебТекст2* 67,40 ГБ 2 134,80 ГБ
arXiv * 60,36 ГБ 2 120,71 ГБ
Гитхаб * 102,18 ГБ 1 102,18 ГБ
Свободное право * 54,92 ГБ 1.5 82,39 ГБ
Обмен стеками * 34,57 ГБ 2 69,14 ГБ
Информация о ВПТЗ США * 24,59 ГБ 2 49,19 ГБ
PubMed * Рефераты 20,68 ГБ 2 41,37 ГБ
Гутенберг (PG-19) 11,68 ГБ 2.5 29,20 ГБ
OpenSubtitles 13,94 ГБ 1.5 20,91 ГБ
Arc.Ask3.Ru 6,85 ГБ 3 20,54 ГБ
DeepMind Математика 8,32 ГБ 2 16,63 ГБ
Ubuntu Freenode Журналы IRC * 5,93 ГБ 2 11,84 ГБ
КнигаКорпус 2* 6,76 ГБ 1.5 10,15 ГБ
ЕвроПарл 4,93 ГБ 2 9,85 ГБ
Хакерские новости * 4,19 ГБ 2 8,38 ГБ
Субтитры YouTube * 4,01 ГБ 2 8,02 ГБ
Филпаперс * 2,56 ГБ 2 5,11 ГБ
ЭксПортер НИЗ * 2,03 ГБ 2 4,07 ГБ
Электронная почта Энрона 0,95 ГБ 2 1,89 ГБ
Общий 886,03 ГБ 1346,69 ГБ

EleutherAI выбрал наборы данных, чтобы попытаться охватить широкий спектр тем и стилей письма, включая академическое письмо, с которым, как оказалось, сталкиваются модели, обученные на других наборах данных. [1]

Все данные, использованные в подборке, взяты из общедоступных источников. Затем EleutherAI отфильтровал набор данных в целом, чтобы удалить дубликаты. Некоторые поднаборы данных также были отфильтрованы для контроля качества. В частности, Pile-CC представляет собой модифицированную версию Common Crawl, в которой данные фильтруются для удаления частей, не являющихся текстом, таких как форматирование HTML и ссылки. [1]

Некоторые потенциальные поднаборы данных были исключены по разным причинам, например, « Записи Конгресса США» , которые были исключены из-за их расистского содержания. [1]

В включенных поднаборах данных отдельные документы не фильтровались для удаления неанглоязычного, предвзятого или ненормативного текста. Он также не был отфильтрован на основании согласия, а это означает, что, например, у Pile-CC есть все те же этические проблемы, что и у самого Common Crawl. Тем не менее, EleutherAI задокументировал степень предвзятости (по признаку пола, религии и расы) и ненормативной лексики, а также уровень согласия, данного для каждого из поднаборов данных, что позволяет исследователям, обеспокоенным этикой, использовать только эти части. Сваи, которые соответствуют их собственным стандартам. [1]

Использовать

[ редактировать ]

Первоначально Pile был разработан для обучения моделей GPT-Neo от EleutherAI. [8] [9] [10] но он стал широко использоваться для обучения других моделей, включая Microsoft . генерацию естественного языка Мегатрона-Тьюринга от [11] [12] Meta AI открытПредварительно обученные Трансформеры, [13] Звонки , [14] и Галактика, [15] Стэнфордского университета , BioMedLM 2.7B [16] Пекинская академия искусственного интеллекта Китайский-Трансформер-XL, [17] Яндекса , ЯЛМ 100Б [18] и Apple . OpenELM от [19]

Помимо использования в качестве набора обучающих данных, Pile также можно использовать в качестве эталона для тестирования моделей и оценки их эффективности при различных стилях письма. [2] [20] [21]

Удаление DMCA

[ редактировать ]

Компонент Books3 набора данных содержит материалы, защищенные авторским правом, собранные с пиратского веб-сайта Bibliotik. [22] В июле 2023 года Альянс за права удалил копии The Pile через уведомление DMCA. [23] [24] Пользователи отреагировали созданием копий The Pile с удалением оскорбительного контента. [25]

См. также

[ редактировать ]
  1. ^ Перейти обратно: а б с д и ж г час я Гао, Лео; Бидерман, Стелла; Блэк, Сид; Голдинг, Лоуренс; Хоппе, Трэвис; Фостер, Чарльз; Пханг, Джейсон; Он, Гораций; Тите, Аниш; Набешима, Ноа; Прессер, Шон; Лихи, Коннор (31 декабря 2020 г.). «Куча: набор данных разнообразного текста объемом 800 ГБ для языкового моделирования». arXiv : 2101.00027 [ cs.CL ].
  2. ^ Перейти обратно: а б «Куча: набор данных разнообразного текста объемом 800 ГБ для языкового моделирования» . Веб-сайт ЭлеутерАИ . ЭлеутерAI . 13 февраля 2020 г. Проверено 4 июня 2023 г.
  3. ^ Браун, Том Б; Манн, Бенджамин; Райдер, Ник; Суббия, Мелани; и др. (22 июля 2020 г.). «Языковые модели изучаются немногими». arXiv : 2005.14165 [ cs.CL ].
  4. ^ Россет, Корби (13 февраля 2020 г.). «Тьюринг-NLG: языковая модель Microsoft с 17 миллиардами параметров» . Блог Майкрософт . Майкрософт . Проверено 31 декабря 2020 г.
  5. ^ Перейти обратно: а б Гао, Лео; Бидерман, Стелла; Хоппе, Трэвис; Гранкин Михаил; исследователь2; трисонгз; sdtblck (15 июня 2021 г.). «Код репликации сваи» . github.com . Проверено 6 июня 2023 г. {{cite web}}: CS1 maint: числовые имена: список авторов ( ссылка )
  6. ^ Хан, Мехтаб; Ханна, Алекс (13 сентября 2022 г.). «Предметы и этапы разработки наборов данных ИИ: основа подотчетности наборов данных». ССНН   4217148 .
  7. ^ Браунли, Джейсон (10 августа 2022 г.). «Разница между пакетом и эпохой в нейронной сети» . Проверено 2 июня 2023 г. - через Machinelearningmastery.com.
  8. ^ «ГПТ-Нео 125М» . Huggingface.co . 8 декабря 2022 г. Проверено 7 июня 2023 г.
  9. ^ «ГПТ-Нео 1.3Б» . Huggingface.co . 8 декабря 2022 г. Проверено 7 июня 2023 г.
  10. ^ «ГПТ-Нео 2.7Б» . Huggingface.co . 8 декабря 2022 г. Проверено 7 июня 2023 г.
  11. ^ «Microsoft и Nvidia объединяются для обучения одной из крупнейших в мире языковых моделей» . 11 октября 2021 г. Проверено 8 марта 2023 г.
  12. ^ «ИИ: Мегатрон-трансформер и связанные с ним языковые модели» . 24 сентября 2021 г. Проверено 8 марта 2023 г.
  13. ^ Чжан, Сьюзен; Роллер, Стивен; Гоял, Наман; Артече, Микель; Чен, Мойя; Чен, Шуохуэй; Деван, Кристофер; Диаб, Мона; Ли, Сиань; Линь, Си Виктория; Михайлов, Тодор; Отт, Майл; Шлейфер, Сэм; Шустер, Курт; Симиг, Дэниел; Кура, Пунит Сингх; Шридхар, Анджали; Ван, Тяньлу; Зеттлмойер, Люк (21 июня 2022 г.). «OPT: открытые предварительно обученные языковые модели трансформаторов». arXiv : 2205.01068 [ cs.CL ].
  14. ^ Туврон, Гюго; Лавриль, Тибо; Изакар, Готье; Грейв, Эдуард; Лампле, Гийом; и др. (27 февраля 2023 г.). «LLaMA: открытые и эффективные базовые языковые модели». arXiv : 2302.13971 [ cs.CL ].
  15. ^ Тейлор, Росс; Кардас, Марцин; Кукурулл, Гиллем; Сиалом, Томас; Хартшорн, Энтони; Саравиа, Элвис; Поултон, Эндрю; Керкез, Виктор; Стойнич, Роберт (16 ноября 2022 г.). «Галактика: большая языковая модель для науки». arXiv : 2211.09085 [ cs.CL ].
  16. ^ «Карточка модели для BioMedLM 2.7B» . Huggingface.co . Проверено 5 июня 2023 г.
  17. ^ Юань, Ша; Ду, Чжэнсяо; Цен, Цзоу, Сюй; Ян, Цзе (1 января 2021 г.) . корпуса для языковых моделей перед обучением» . AI Open . 2 : 65–68. doi : 10.1016/j.aiopen.2021.06.001 . Проверено 8 марта 2023 г. - через ScienceDirect.
  18. ^ Грабовский, Илья (2022). «Яндекс публикует YaLM 100B, крупнейшую GPT-подобную нейросеть с открытым исходным кодом» (Пресс-релиз). Яндекс . Проверено 5 июня 2023 г.
  19. ^ Мехта, Сачин; Сехават, Мохаммад Хосейн; Цао, Цинцин; Хортон, Максвелл; Джин, Янци; Сунь, Чэньфан; Мирзаде, Иман; Наджиби, Махьяр; Беленко Дмитрий (01.05.2024). «OpenELM: эффективное семейство языковых моделей с открытым обучением и структурой вывода». arXiv : 2404.14619 [ cs.CL ].
  20. ^ Рэй, Джек В.; Боржо, Себастьян; Кай, Тревор; Милликан, Кэти; Хоффманн, Иордания; Сонг, Фрэнсис; Асланидес, Джон; Хендерсон, Сара; Кольцо, Роман; Янг, Сюзанна; и др. (21 января 2022 г.). «Масштабирование языковых моделей: методы, анализ и выводы из обучения Gopher». arXiv : 2112.11446 [ cs.CL ].
  21. ^ Либер, Офер; Шарир, Ор; Ленц, Барак; Шохам, Йоав (1 августа 2021 г.). «Юрский период-1: Технические детали и оценка» (PDF) . Лаборатория AI21 . Проверено 5 июня 2023 г.
  22. ^ Ниббс, Кейт. «Битва за книги3 может навсегда изменить искусственный интеллект» . проводной.com . Проверено 13 октября 2023 г.
  23. ^ «Альянс по правам человека удаляет нелегальный набор данных Books3, используемый для обучения искусственного интеллекта» . Правовой Альянс. 14 августа 2023 г. Проверено 29 августа 2023 г.
  24. ^ «Куча набора данных разнообразного текста объемом 800 ГБ для языкового моделирования» . www.accadetorrents.com . Проверено 29 августа 2023 г.
  25. ^ «monology/pile-uncopyright — Dataset at Hugging Face» . 22 апреля 2024 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 9bbec1d2a9a7cbb1004a57b932b41037__1721198820
URL1:https://arc.ask3.ru/arc/aa/9b/37/9bbec1d2a9a7cbb1004a57b932b41037.html
Заголовок, (Title) документа по адресу, URL1:
The Pile (dataset) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)