Языковая модель

Языковая модель — это вероятностная модель естественного языка. ^[1] В 1980 году была предложена первая значительная статистическая языковая модель, и в течение десятилетия IBM проводила эксперименты в стиле Шеннона , в которых потенциальные источники улучшения языкового моделирования были выявлены путем наблюдения и анализа действий людей в предсказании или исправлении текста. ^[2]

Языковые модели полезны для решения множества задач, включая распознавание речи. ^[3] (помогает предотвратить предсказания маловероятных (например, бессмысленных) последовательностей), машинный перевод , ^[4] генерация естественного языка (генерация более человеческого текста), оптическое распознавание символов , распознавание рукописного ввода , ^[5] грамматическая индукция , ^[6] и поиск информации . ^[7]^[8]

Большие языковые модели , в настоящее время их наиболее продвинутая форма, представляют собой комбинацию более крупных наборов данных (часто с использованием слов, извлеченных из общедоступного Интернета), нейронных сетей прямого распространения и преобразователей . Они заменили модели на основе рекуррентных нейронных сетей , которые ранее вытеснили чисто статистические модели, такие как слов с n языковая модель -граммами .

модели статистические Чисто

Модели на основе n -грамм слов [ править ]

- слов н Языковая модель -грамм представляет собой чисто статистическую модель языка. На смену ему пришли модели на основе рекуррентных нейронных сетей , которые были заменены большими языковыми моделями . ^[9] Он основан на предположении, что вероятность следующего слова в последовательности зависит только от фиксированного размера окна предыдущих слов. Если рассматривалось только одно предыдущее слово, это называлось моделью биграммы; если два слова, то модель триграммы; если n - 1 слов, модель n -граммы. ^[10] Были введены специальные токены для обозначения начала и конца предложения. $\langle s\rangle$ и $\langle /s\rangle$ .

Чтобы предотвратить присвоение нулевой вероятности невидимым словам, вероятность каждого слова немного ниже, чем его частота в корпусе. Для его расчета использовались различные методы: от простого сглаживания «добавить единицу» (присвоение числа 1 невидимым n- граммам как неинформативное априорное значение ) до более сложных моделей, таких как модели дисконтирования Гуда – Тьюринга или модели отсрочки. .

Экспоненциальный [ править ]

Языковые модели максимальной энтропии кодируют связь между словом и историей n -грамм с помощью функций признаков. Уравнение

P(w_{m}\mid w_{1},\ldots ,w_{m-1})={\frac {1}{Z(w_{1},\ldots ,w_{m-1})}}\exp(a^{T}f(w_{1},\ldots ,w_{m}))

где $Z(w_{1},\ldots ,w_{m-1})$ это функция распределения , $a$ вектор параметров, а $f(w_{1},\ldots ,w_{m})$ это функция функции. В простейшем случае функция признака — это просто индикатор наличия определенного n -грамма. Полезно использовать априорное значение $a$ или какая-то форма регуляризации.

Логбилинейная модель — еще один пример экспоненциальной языковой модели.

Модель пропуска граммы [ править ]

Языковая модель пропуска грамм — это попытка преодолеть проблему разреженности данных, с которой сталкивалась предыдущая модель (т. е. языковая модель n -грамм слов). Слова, представленные в векторе внедрения, больше не обязательно были последовательными, но могли оставлять пропуски, которые пропускаются . ^[11]

Формально $k$ -skip- $n$ -грамма представляет собой подпоследовательность длиной $n$ , в которой компоненты встречаются на расстоянии не более $k$ друг от друга.

Например, во входном тексте:

дождь в Испании выпадает в основном на равнине

набор 1-скип-2-грамм включает в себя все биграммы (2-граммы), а также подпоследовательности

в , дождь в Испании , в водопадах , в основном в Испании , выпадает в основном на равнине .

В модели пропуска грамм семантические отношения между словами представлены линейными комбинациями , отражающими форму композиционности . Например, в некоторых таких моделях, если $v$ — функция, которая отображает слово $w$ в его $n$ векторное представление -d, то

v(\mathrm {king} )-v(\mathrm {male} )+v(\mathrm {female} )\approx v(\mathrm {queen} )

где ≈ уточняется, если указать, что его правая часть должна быть ближайшим соседом значения левой части. ^[12]^[13]

Нейронные модели [ править ]

Рекуррентная нейронная сеть [ править ]

Непрерывные представления или вложения слов создаются в нейронных сетей рекуррентных языковых моделях на основе (известных также как языковые модели с непрерывным пространством ). ^[14] Такие вложения в непрерывное пространство помогают смягчить проклятие размерности , которое является следствием того, что количество возможных последовательностей слов увеличивается экспоненциально с размером словаря, что дополнительно вызывает проблему разреженности данных. Нейронные сети решают эту проблему, представляя слова в виде нелинейных комбинаций весов в нейронной сети. ^[15]

Большие языковые модели [ править ]

Модель большого языка (LLM) — это вычислительная модель, примечательная своей способностью генерировать язык общего назначения и выполнять другие задачи обработки естественного языка, такие как классификация . Основываясь на языковых моделях, студенты LLM приобретают эти способности, изучая статистические взаимосвязи из огромных объемов текста в ходе интенсивного вычислительного процесса обучения с самоконтролем и полуконтролем . ^[16] LLM можно использовать для генерации текста — формы генеративного искусственного интеллекта — путем взятия входного текста и многократного прогнозирования следующего токена или слова. ^[17]

LLM — это искусственные нейронные сети , использующие архитектуру трансформатора , изобретенную в 2017 году. Самые крупные и наиболее мощные LLM по состоянию на июнь 2024 года. ^[update], построены на базе преобразовательной архитектуры, состоящей только из декодера, что обеспечивает эффективную обработку и генерацию крупномасштабных текстовых данных.

Исторически сложилось так, что до 2020 года тонкая настройка была основным методом адаптации модели под конкретные задачи. Однако более крупные модели, такие как GPT-3, продемонстрировали способность достигать аналогичных результатов за счет разработки подсказок , которая включает в себя создание конкретных подсказок для ввода, которые будут определять ответы модели. ^[18] Эти модели приобретают знания о синтаксисе, семантике и онтологиях. ^[19] присущи корпусам человеческого языка, но они также наследуют неточности и предвзятости, присутствующие в данных, на которых они обучаются. ^[20]

Некоторые известные LLM — это - GPT ChatGPT серия моделей GPT OpenAI (например, 3.5 и GPT-4 , используемые в и Microsoft Copilot ), Google от Gemini (последняя из которых в настоящее время используется в одноименном чат-боте ). , Meta от LLaMA семейство моделей Anthropic от , модели Claude и Mistral AI . модели

Хотя иногда они и соответствуют человеческим возможностям, неясно, являются ли они правдоподобными когнитивными моделями . По крайней мере, для рекуррентных нейронных сетей было показано, что они иногда изучают закономерности, которые люди не усваивают, но не могут изучить закономерности, которые люди обычно изучают. ^[21]

Оценка и критерии [ править ]

Оценка качества языковых моделей в основном проводится путем сравнения с образцами тестов, созданными человеком и созданными на основе типичных языковых задач. Другие, менее устоявшиеся тесты качества исследуют внутренний характер языковой модели или сравнивают две такие модели. Поскольку языковые модели обычно должны быть динамичными и обучаться на данных, которые они видят, некоторые предлагаемые модели исследуют скорость обучения, например, путем проверки кривых обучения. ^[22]

Различные наборы данных были разработаны для использования при оценке систем языковой обработки. ^[23] К ним относятся:

Корпус лингвистической приемлемости ^[24]
КЛЕЙ эталон ^[25]
Корпус парафразов исследований Microsoft ^[26]
Многожанровый вывод естественного языка
Вопрос Вывод на естественном языке
Пары вопросов Quora ^[27]
Распознавание текстовых последствий ^[28]
Тест семантического текстового сходства
Тест на ответы на вопросы SQuAD ^[29]
Стэнфордское дерево настроений ^[30]
Виноград НЛИ
BoolQ, PIQA, SIQA, HellaSwag, WinoGrande, ARC, OpenBookQA, NaturalQuestions, TriviaQA, RACE, MMLU (массовое многозадачное понимание языка) , BIG-bench hard, GSM8k, RealToxicityPrompts, WinoGender, CrowS-Pairs. ^[31] ( тест LLaMa )

См. также [ править ]

Ссылки [ править ]

^ Юрафски, Дэн; Мартин, Джеймс Х. (2021). «Н-граммные языковые модели». Обработка речи и языка (3-е изд.). Архивировано из оригинала 22 мая 2022 года . Проверено 24 мая 2022 г.
^ Розенфельд, Рональд (2000). «Два десятилетия статистического языкового моделирования: куда нам двигаться дальше?» . Труды IEEE . 88 (8): 1270–1278. дои : 10.1109/5.880083 . S2CID 10959945 .
^ Кун, Роланд и Ренато Де Мори (1990). «Модель естественного языка на основе кэша для распознавания речи» . Транзакции IEEE по анализу шаблонов и машинному интеллекту 12.6: 570–583.
^ Андреас, Джейкоб, Андреас Влахос и Стивен Кларк (2013). «Семантический синтаксический анализ как машинный перевод». Архивировано 15 августа 2020 года на Wayback Machine . Материалы 51-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 2: Короткие статьи).
^ Фам, Ву и др. (2014). «Dropout улучшает рекуррентные нейронные сети для распознавания рукописного текста». Архивировано 11 ноября 2020 г. на Wayback Machine . 14-я Международная конференция «Границы в распознавании рукописного текста». IEEE.
^ Хтут, Фу Мон, Кёнхён Чо и Сэмюэл Р. Боуман (2018). «Грамматическая индукция с помощью моделей нейронного языка: необычная репликация». Архивировано 14 августа 2022 года в Wayback Machine . arXiv : 1808.10000 .
^ Понте, Джей М.; Крофт, В. Брюс (1998). Языковое моделирование подхода к поиску информации . Материалы 21-й конференции ACM SIGIR. Мельбурн, Австралия: ACM. стр. 275–281. дои : 10.1145/290941.291008 .
^ Химстра, Джорд (1998). Лингвистически мотивированная вероятностная модель поиска информации . Материалы 2-й Европейской конференции по исследованиям и передовым технологиям для электронных библиотек. LNCS, Спрингер. стр. 569–584. дои : 10.1007/3-540-49653-X_34 .
^ Бенджио, Йошуа; Дюшарм, Режан; Винсент, Паскаль; Янвин, Кристиан (1 марта 2003 г.). «Нейронно-вероятностная языковая модель» . Журнал исследований машинного обучения . 3 : 1137–1155 - через цифровую библиотеку ACM.
^ Юрафски, Дэн; Мартин, Джеймс Х. (7 января 2023 г.). «Н-граммные языковые модели». Обработка речи и языка (PDF) (3-е издание, черновой вариант) . Проверено 24 мая 2022 г.
^ Дэвид Гатри; и др. (2006). «Более пристальный взгляд на моделирование скип-грамм» (PDF) . Архивировано из оригинала (PDF) 17 мая 2017 года . Проверено 27 апреля 2014 г.
^ Миколов, Томас; Чен, Кай; Коррадо, Грег; Дин, Джеффри (2013). «Эффективная оценка представлений слов в векторном пространстве». arXiv : 1301.3781 [ cs.CL ].
^ Миколов, Томас; Суцкевер, Илья; Чен, Кай; Коррадо irst4=Грег С.; Дин, Джефф (2013). Распределенные представления слов и фраз и их композиционность (PDF) . Достижения в области нейронных систем обработки информации . стр. 3111–3119. Архивировано (PDF) из оригинала 29 октября 2020 г. Проверено 22 июня 2015 г. {{cite conference}}: CS1 maint: числовые имена: список авторов ( ссылка )
^ Карпаты, Андрей. «Необоснованная эффективность рекуррентных нейронных сетей» . Архивировано из оригинала 1 ноября 2020 года . Проверено 27 января 2019 г.
^ Бенджио, Йошуа (2008). «Нейросетевые языковые модели» . Схоларпедия . Том. 3. п. 3881. Бибкод : 2008SchpJ...3.3881B . doi : 10.4249/scholarpedia.3881 . Архивировано из оригинала 26 октября 2020 года . Проверено 28 августа 2015 г.
^ «Лучшие языковые модели и их последствия» . ОпенАИ . 14 февраля 2019 года. Архивировано из оригинала 19 декабря 2020 года . Проверено 25 августа 2019 г.
^ Боуман, Сэмюэл Р. (2023). «Восемь вещей, которые нужно знать о больших языковых моделях». arXiv : 2304.00612 [ cs.CL ].
^ Браун, Том Б.; Манн, Бенджамин; Райдер, Ник; Суббия, Мелани; Каплан, Джаред; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Састри, Гириш; Аскелл, Аманда; Агарвал, Сандхини; Герберт-Восс, Ариэль; Крюгер, Гретхен; Хениган, Том; Дитя, Ревон; Рамеш, Адитья; Зиглер, Дэниел М.; Ву, Джеффри; Зима, Клеменс; Гессен, Кристофер; Чен, Марк; Сиглер, Эрик; Литвин, Матеуш; Грей, Скотт; Шахматы, Бенджамин; Кларк, Джек; Бернер, Кристофер; МакКэндлиш, Сэм; Рэдфорд, Алек; Суцкевер, Илья; Амодей, Дарио (декабрь 2020 г.). Ларошель, Х.; Ранзато, М.; Хадселл, Р.; Балкан, МФ; Лин, Х. (ред.). «Языковые модели мало кто изучает» (PDF) . Достижения в области нейронных систем обработки информации . 33 . Curran Associates, Inc.: 1877–1901.
^ Фаталлах, Надин; Дас, Арунав; Де Джорджис, Стефано; Полтроньери, Андреа; Хаазе, Питер; Ковригина, Любовь (26 мая 2024 г.). NeOn-GPT: большой конвейер на основе языковых моделей для обучения онтологии (PDF) . Расширенная семантическая веб-конференция 2024. Херсониссос, Греция.
^ Мэннинг, Кристофер Д. (2022). «Понимание и мышление человеческого языка» . Дедал . 151 (2): 127–138. дои : 10.1162/daed_a_01905 . S2CID 248377870 .
^ Хорнштейн, Норберт; Ласник, Ховард; Патель-Гросс, Притти; Ян, Чарльз (9 января 2018 г.). Синтаксические структуры через 60 лет: влияние Хомской революции в лингвистике . Вальтер де Грюйтер ГмбХ & Ко КГ. ISBN 978-1-5015-0692-5 . Архивировано из оригинала 16 апреля 2023 года . Проверено 11 декабря 2021 г.
^ Карлгрен, Юсси; Шутце, Хинрих (2015), «Оценка представлений изучаемого языка», Международная конференция Форума межъязыковой оценки , Конспекты лекций по информатике, Springer International Publishing, стр. 254–260, doi : 10.1007/978-3-319- 64206-2_8 , ISBN 9783319642055
^ Девлин, Джейкоб; Чанг, Мин-Вэй; Ли, Кентон; Тутанова, Кристина (10 октября 2018 г.). «БЕРТ: Предварительная подготовка глубоких двунаправленных преобразователей для понимания языка». arXiv : 1810.04805 [ cs.CL ].
^ «Корпус языковой приемлемости (CoLA)» . ню-mll.github.io . Архивировано из оригинала 7 декабря 2020 года . Проверено 25 февраля 2019 г.
^ «Бенчмарк КЛЕЯ» . www.glubenchmark.com . Архивировано из оригинала 4 ноября 2020 года . Проверено 25 февраля 2019 г.
^ «Корпус парафразов исследований Microsoft» . Центр загрузки Microsoft . Архивировано из оригинала 25 октября 2020 года . Проверено 25 февраля 2019 г.
^ Агаебрахимян, Ахмад (2017), «Набор данных ответов на вопросы Quora», Текст, речь и диалог , Конспекты лекций по информатике, том. 10415, Springer International Publishing, стр. 66–73, номер номера : 10.1007/978-3-319-64206-2_8 , ISBN. 9783319642055
^ Сэммонс, В.Г.Винод Видисваран, Дэн Рот, Марк; Выдисваран, В.Г.; Рот, Дэн. «Распознавание текстовых последствий» (PDF) . Архивировано из оригинала (PDF) 9 августа 2017 года . Проверено 24 февраля 2019 г. {{cite web}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ «Стэнфордский набор данных ответов на вопросы» . rajpurkar.github.io . Архивировано из оригинала 30 октября 2020 года . Проверено 25 февраля 2019 г.
^ «Рекурсивные глубокие модели семантической композиционности в древовидном банке настроений» . nlp.stanford.edu . Архивировано из оригинала 27 октября 2020 года . Проверено 25 февраля 2019 г.
^ Хендрикс, Дэн (14 марта 2023 г.), «Измерение понимания языка в условиях многозадачности» , заархивировано из оригинала 15 марта 2023 г. , получено 15 марта 2023 г.

Дальнейшее чтение [ править ]

Дж. М. Понте; ВБ Крофт (1998). «Подход языкового моделирования к поиску информации». Исследования и разработки в области поиска информации . стр. 275–281. CiteSeerX 10.1.1.117.4237 .
Ф Песня; ВБ Крофт (1999). «Общая языковая модель для поиска информации». Исследования и разработки в области поиска информации . стр. 279–280. CiteSeerX 10.1.1.21.6467 .
Чен, Стэнли; Джошуа Гудман (1998). Эмпирическое исследование методов сглаживания для языкового моделирования (технический отчет). Гарвардский университет. CiteSeerX 10.1.1.131.5458 .

[1] Юрафски, Дэн; Мартин, Джеймс Х. (2021). «Н-граммные языковые модели». Обработка речи и языка (3-е изд.). Архивировано из оригинала 22 мая 2022 года . Проверено 24 мая 2022 г.

[2] Розенфельд, Рональд (2000). «Два десятилетия статистического языкового моделирования: куда нам двигаться дальше?» . Труды IEEE . 88 (8): 1270–1278. дои : 10.1109/5.880083 . S2CID 10959945 .

[3] Кун, Роланд и Ренато Де Мори (1990). «Модель естественного языка на основе кэша для распознавания речи» . Транзакции IEEE по анализу шаблонов и машинному интеллекту 12.6: 570–583.

[Semantic_parsing_as_machine_translation-4] Андреас, Джейкоб, Андреас Влахос и Стивен Кларк (2013). «Семантический синтаксический анализ как машинный перевод». Архивировано 15 августа 2020 года на Wayback Machine . Материалы 51-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 2: Короткие статьи).

[5] Фам, Ву и др. (2014). «Dropout улучшает рекуррентные нейронные сети для распознавания рукописного текста». Архивировано 11 ноября 2020 г. на Wayback Machine . 14-я Международная конференция «Границы в распознавании рукописного текста». IEEE.

[6] Хтут, Фу Мон, Кёнхён Чо и Сэмюэл Р. Боуман (2018). «Грамматическая индукция с помощью моделей нейронного языка: необычная репликация». Архивировано 14 августа 2022 года в Wayback Machine . arXiv : 1808.10000 .

[ponte1998-7] Понте, Джей М.; Крофт, В. Брюс (1998). Языковое моделирование подхода к поиску информации . Материалы 21-й конференции ACM SIGIR. Мельбурн, Австралия: ACM. стр. 275–281. дои : 10.1145/290941.291008 .

[hiemstra1998-8] Химстра, Джорд (1998). Лингвистически мотивированная вероятностная модель поиска информации . Материалы 2-й Европейской конференции по исследованиям и передовым технологиям для электронных библиотек. LNCS, Спрингер. стр. 569–584. дои : 10.1007/3-540-49653-X_34 .

[9] Бенджио, Йошуа; Дюшарм, Режан; Винсент, Паскаль; Янвин, Кристиан (1 марта 2003 г.). «Нейронно-вероятностная языковая модель» . Журнал исследований машинного обучения . 3 : 1137–1155 - через цифровую библиотеку ACM.

[Word_n-gram_language_model_jm-10] Юрафски, Дэн; Мартин, Джеймс Х. (7 января 2023 г.). «Н-граммные языковые модели». Обработка речи и языка (PDF) (3-е издание, черновой вариант) . Проверено 24 мая 2022 г.

[11] Дэвид Гатри; и др. (2006). «Более пристальный взгляд на моделирование скип-грамм» (PDF) . Архивировано из оригинала (PDF) 17 мая 2017 года . Проверено 27 апреля 2014 г.

[Word_n-gram_language_model_mikolov-12] Миколов, Томас; Чен, Кай; Коррадо, Грег; Дин, Джеффри (2013). «Эффективная оценка представлений слов в векторном пространстве». arXiv : 1301.3781 [ cs.CL ].

[Word_n-gram_language_model_compositionality-13] Миколов, Томас; Суцкевер, Илья; Чен, Кай; Коррадо irst4=Грег С.; Дин, Джефф (2013). Распределенные представления слов и фраз и их композиционность (PDF) . Достижения в области нейронных систем обработки информации . стр. 3111–3119. Архивировано (PDF) из оригинала 29 октября 2020 г. Проверено 22 июня 2015 г. {{cite conference}}: CS1 maint: числовые имена: список авторов ( ссылка )

[14] Карпаты, Андрей. «Необоснованная эффективность рекуррентных нейронных сетей» . Архивировано из оригинала 1 ноября 2020 года . Проверено 27 января 2019 г.

[bengio-15] Бенджио, Йошуа (2008). «Нейросетевые языковые модели» . Схоларпедия . Том. 3. п. 3881. Бибкод : 2008SchpJ...3.3881B . doi : 10.4249/scholarpedia.3881 . Архивировано из оригинала 26 октября 2020 года . Проверено 28 августа 2015 г.

[Large_language_model_:7-16] «Лучшие языковые модели и их последствия» . ОпенАИ . 14 февраля 2019 года. Архивировано из оригинала 19 декабря 2020 года . Проверено 25 августа 2019 г.

[Large_language_model_Bowman-17] Боуман, Сэмюэл Р. (2023). «Восемь вещей, которые нужно знать о больших языковых моделях». arXiv : 2304.00612 [ cs.CL ].

[Large_language_model_few-shot-learners-18] Браун, Том Б.; Манн, Бенджамин; Райдер, Ник; Суббия, Мелани; Каплан, Джаред; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Састри, Гириш; Аскелл, Аманда; Агарвал, Сандхини; Герберт-Восс, Ариэль; Крюгер, Гретхен; Хениган, Том; Дитя, Ревон; Рамеш, Адитья; Зиглер, Дэниел М.; Ву, Джеффри; Зима, Клеменс; Гессен, Кристофер; Чен, Марк; Сиглер, Эрик; Литвин, Матеуш; Грей, Скотт; Шахматы, Бенджамин; Кларк, Джек; Бернер, Кристофер; МакКэндлиш, Сэм; Рэдфорд, Алек; Суцкевер, Илья; Амодей, Дарио (декабрь 2020 г.). Ларошель, Х.; Ранзато, М.; Хадселл, Р.; Балкан, МФ; Лин, Х. (ред.). «Языковые модели мало кто изучает» (PDF) . Достижения в области нейронных систем обработки информации . 33 . Curran Associates, Inc.: 1877–1901.

[19] Фаталлах, Надин; Дас, Арунав; Де Джорджис, Стефано; Полтроньери, Андреа; Хаазе, Питер; Ковригина, Любовь (26 мая 2024 г.). NeOn-GPT: большой конвейер на основе языковых моделей для обучения онтологии (PDF) . Расширенная семантическая веб-конференция 2024. Херсониссос, Греция.

[Large_language_model_Manning-2022-20] Мэннинг, Кристофер Д. (2022). «Понимание и мышление человеческого языка» . Дедал . 151 (2): 127–138. дои : 10.1162/daed_a_01905 . S2CID 248377870 .

[21] Хорнштейн, Норберт; Ласник, Ховард; Патель-Гросс, Притти; Ян, Чарльз (9 января 2018 г.). Синтаксические структуры через 60 лет: влияние Хомской революции в лингвистике . Вальтер де Грюйтер ГмбХ & Ко КГ. ISBN 978-1-5015-0692-5 . Архивировано из оригинала 16 апреля 2023 года . Проверено 11 декабря 2021 г.

[22] Карлгрен, Юсси; Шутце, Хинрих (2015), «Оценка представлений изучаемого языка», Международная конференция Форума межъязыковой оценки , Конспекты лекций по информатике, Springer International Publishing, стр. 254–260, doi : 10.1007/978-3-319- 64206-2_8 , ISBN 9783319642055

[:0-23] Девлин, Джейкоб; Чанг, Мин-Вэй; Ли, Кентон; Тутанова, Кристина (10 октября 2018 г.). «БЕРТ: Предварительная подготовка глубоких двунаправленных преобразователей для понимания языка». arXiv : 1810.04805 [ cs.CL ].

[24] «Корпус языковой приемлемости (CoLA)» . ню-mll.github.io . Архивировано из оригинала 7 декабря 2020 года . Проверено 25 февраля 2019 г.

[25] «Бенчмарк КЛЕЯ» . www.glubenchmark.com . Архивировано из оригинала 4 ноября 2020 года . Проверено 25 февраля 2019 г.

[26] «Корпус парафразов исследований Microsoft» . Центр загрузки Microsoft . Архивировано из оригинала 25 октября 2020 года . Проверено 25 февраля 2019 г.

[27] Агаебрахимян, Ахмад (2017), «Набор данных ответов на вопросы Quora», Текст, речь и диалог , Конспекты лекций по информатике, том. 10415, Springer International Publishing, стр. 66–73, номер номера : 10.1007/978-3-319-64206-2_8 , ISBN. 9783319642055

[28] Сэммонс, В.Г.Винод Видисваран, Дэн Рот, Марк; Выдисваран, В.Г.; Рот, Дэн. «Распознавание текстовых последствий» (PDF) . Архивировано из оригинала (PDF) 9 августа 2017 года . Проверено 24 февраля 2019 г. {{cite web}}: CS1 maint: несколько имен: список авторов ( ссылка )

[29] «Стэнфордский набор данных ответов на вопросы» . rajpurkar.github.io . Архивировано из оригинала 30 октября 2020 года . Проверено 25 февраля 2019 г.

[30] «Рекурсивные глубокие модели семантической композиционности в древовидном банке настроений» . nlp.stanford.edu . Архивировано из оригинала 27 октября 2020 года . Проверено 25 февраля 2019 г.

[31] Хендрикс, Дэн (14 марта 2023 г.), «Измерение понимания языка в условиях многозадачности» , заархивировано из оригинала 15 марта 2023 г. , получено 15 марта 2023 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

модели статистические Чисто ​