КнигаКорпус
BookCorpus (также иногда называемый Toronto Book Corpus ) — это набор данных , состоящий из текстов около 7000 самостоятельно опубликованных книг, взятых с независимого сайта распространения электронных книг Smashwords . [1] Это был основной корпус для обучения исходной GPT модели , используемый OpenAI . [2] и использовался в качестве обучающих данных для других ранних моделей больших языков, от Google включая BERT . [3] Набор данных состоит примерно из 985 миллионов слов, а книги, входящие в него, охватывают самые разные жанры, включая любовные романы, научную фантастику и фэнтези. [3]
Корпус был представлен в 2015 году исследователями из Университета Торонто и Массачусетского технологического института в статье под названием «Согласование книг и фильмов: к сюжетным визуальным объяснениям посредством просмотра фильмов и чтения книг». Авторы описали его как «бесплатные книги, написанные еще неопубликованными авторами», однако это фактически неверно. Эти книги были опубликованы самостоятельными («независимыми») авторами, которые продавали их бесплатно; книги были загружены без согласия или разрешения Smashwords или авторов Smashwords и с нарушением Условий обслуживания Smashwords. [4] [5] Набор данных изначально был размещен на веб-странице Университета Торонто. [5] Официальная версия исходного набора данных больше не является общедоступной, хотя была создана по крайней мере одна замена — BookCorpusOpen. [1] Хотя это и не описано в оригинальной статье 2015 года, сайт, с которого были извлечены книги из корпуса, теперь известен как Smashwords . [5] [1]
Ссылки
[ редактировать ]- ^ Перейти обратно: а б с Бэнди, Джон; Винсент, Николас (2021). «Решение проблемы «задолженности по документации» в машинном обучении: ретроспективная таблица данных для BookCorpus» (PDF) . =Материалы нейронных систем обработки информации по наборам данных и критериям .
- ^ «Улучшение понимания языка посредством генеративной предварительной подготовки» (PDF) . Архивировано (PDF) из оригинала 26 января 2021 г. Проверено 9 июня 2020 г.
- ^ Перейти обратно: а б Девлин, Джейкоб; Чанг, Мин-Вэй; Ли, Кентон; Тутанова Кристина (11 октября 2018 г.). «BERT: Предварительная подготовка глубоких двунаправленных преобразователей для понимания языка». arXiv : 1810.04805v2 [ cs.CL ].
- ^ Чжу, Юкунь; Кирос, Райан; Земель, Рич; Салахутдинов Руслан; Уртасун, Ракель; Торральба, Антонио; Фидлер, Саня (2015). Согласование книг и фильмов: к визуальным объяснениям, похожим на сюжеты, путем просмотра фильмов и чтения книг . Материалы Международной конференции IEEE по компьютерному зрению (ICCV) .
- ^ Перейти обратно: а б с Леа, Ричард (28 сентября 2016 г.). «Google проглотил 11 000 романов, чтобы улучшить общение ИИ» . Хранитель .