КнигаКорпус

BookCorpus (также иногда называемый Toronto Book Corpus ) — это набор данных , состоящий из текстов около 7000 самостоятельно опубликованных книг, взятых с независимого сайта распространения электронных книг Smashwords . ^[1] Это был основной корпус для обучения исходной GPT модели , используемый OpenAI . ^[2] и использовался в качестве обучающих данных для других ранних моделей больших языков, от Google включая BERT . ^[3] Набор данных состоит примерно из 985 миллионов слов, а книги, входящие в него, охватывают самые разные жанры, включая любовные романы, научную фантастику и фэнтези. ^[3]

Корпус был представлен в 2015 году исследователями из Университета Торонто и Массачусетского технологического института в статье под названием «Согласование книг и фильмов: к сюжетным визуальным объяснениям посредством просмотра фильмов и чтения книг». Авторы описали его как «бесплатные книги, написанные еще неопубликованными авторами», однако это фактически неверно. Эти книги были опубликованы самостоятельными («независимыми») авторами, которые продавали их бесплатно; книги были загружены без согласия или разрешения Smashwords или авторов Smashwords и с нарушением Условий обслуживания Smashwords. ^[4]^[5] Набор данных изначально был размещен на веб-странице Университета Торонто. ^[5] Официальная версия исходного набора данных больше не является общедоступной, хотя была создана по крайней мере одна замена — BookCorpusOpen. ^[1] Хотя это и не описано в оригинальной статье 2015 года, сайт, с которого были извлечены книги из корпуса, теперь известен как Smashwords . ^[5]^[1]

Ссылки

^ Перейти обратно: ^а ^б ^с Бэнди, Джон; Винсент, Николас (2021). «Решение проблемы «задолженности по документации» в машинном обучении: ретроспективная таблица данных для BookCorpus» (PDF) . =Материалы нейронных систем обработки информации по наборам данных и критериям .
^ «Улучшение понимания языка посредством генеративной предварительной подготовки» (PDF) . Архивировано (PDF) из оригинала 26 января 2021 г. Проверено 9 июня 2020 г.
^ Перейти обратно: ^а ^б Девлин, Джейкоб; Чанг, Мин-Вэй; Ли, Кентон; Тутанова Кристина (11 октября 2018 г.). «BERT: Предварительная подготовка глубоких двунаправленных преобразователей для понимания языка». arXiv : 1810.04805v2 [ cs.CL ].
^ Чжу, Юкунь; Кирос, Райан; Земель, Рич; Салахутдинов Руслан; Уртасун, Ракель; Торральба, Антонио; Фидлер, Саня (2015). Согласование книг и фильмов: к визуальным объяснениям, похожим на сюжеты, путем просмотра фильмов и чтения книг . Материалы Международной конференции IEEE по компьютерному зрению (ICCV) .
^ Перейти обратно: ^а ^б ^с Леа, Ричард (28 сентября 2016 г.). «Google проглотил 11 000 романов, чтобы улучшить общение ИИ» . Хранитель .

[debt-1] Перейти обратно: ^а ^б ^с Бэнди, Джон; Винсент, Николас (2021). «Решение проблемы «задолженности по документации» в машинном обучении: ретроспективная таблица данных для BookCorpus» (PDF) . =Материалы нейронных систем обработки информации по наборам данных и критериям .

[gpt-1-paper-2] «Улучшение понимания языка посредством генеративной предварительной подготовки» (PDF) . Архивировано (PDF) из оригинала 26 января 2021 г. Проверено 9 июня 2020 г.

[bert-paper-3] Перейти обратно: ^а ^б Девлин, Джейкоб; Чанг, Мин-Вэй; Ли, Кентон; Тутанова Кристина (11 октября 2018 г.). «BERT: Предварительная подготовка глубоких двунаправленных преобразователей для понимания языка». arXiv : 1810.04805v2 [ cs.CL ].

[bookpaper-4] Чжу, Юкунь; Кирос, Райан; Земель, Рич; Салахутдинов Руслан; Уртасун, Ракель; Торральба, Антонио; Фидлер, Саня (2015). Согласование книг и фильмов: к визуальным объяснениям, похожим на сюжеты, путем просмотра фильмов и чтения книг . Материалы Международной конференции IEEE по компьютерному зрению (ICCV) .

[swallows-5] Перейти обратно: ^а ^б ^с Леа, Ричард (28 сентября 2016 г.). «Google проглотил 11 000 романов, чтобы улучшить общение ИИ» . Хранитель .

[1]

[2]

[3]

[4]

[5]