Языковая модель
Языковая модель — это вероятностная модель естественного языка. [1] В 1980 году была предложена первая значительная статистическая языковая модель, и в течение десятилетия IBM проводила эксперименты в стиле Шеннона , в которых потенциальные источники улучшения языкового моделирования были выявлены путем наблюдения и анализа действий людей в предсказании или исправлении текста. [2]
Языковые модели полезны для решения множества задач, включая распознавание речи. [3] (помогает предотвратить предсказания маловероятных (например, бессмысленных) последовательностей), машинный перевод , [4] генерация естественного языка (генерация более человеческого текста), оптическое распознавание символов , распознавание рукописного ввода , [5] грамматическая индукция , [6] и поиск информации . [7] [8]
Большие языковые модели , в настоящее время их наиболее продвинутая форма, представляют собой комбинацию более крупных наборов данных (часто с использованием слов, извлеченных из общедоступного Интернета), нейронных сетей прямого распространения и преобразователей . Они заменили модели на основе рекуррентных нейронных сетей , которые ранее вытеснили чисто статистические модели, такие как слов с n языковая модель -граммами .
модели статистические Чисто
Модели на основе n -грамм слов [ править ]
- слов н Языковая модель -грамм представляет собой чисто статистическую модель языка. На смену ему пришли модели на основе рекуррентных нейронных сетей , которые были заменены большими языковыми моделями . [9] Он основан на предположении, что вероятность следующего слова в последовательности зависит только от фиксированного размера окна предыдущих слов. Если рассматривалось только одно предыдущее слово, это называлось моделью биграммы; если два слова, то модель триграммы; если n - 1 слов, модель n -граммы. [10] Были введены специальные токены для обозначения начала и конца предложения. и .
Чтобы предотвратить присвоение нулевой вероятности невидимым словам, вероятность каждого слова немного ниже, чем его частота в корпусе. Для его расчета использовались различные методы: от простого сглаживания «добавить единицу» (присвоение числа 1 невидимым n- граммам как неинформативное априорное значение ) до более сложных моделей, таких как модели дисконтирования Гуда – Тьюринга или модели отсрочки. .Экспоненциальный [ править ]
Языковые модели максимальной энтропии кодируют связь между словом и историей n -грамм с помощью функций признаков. Уравнение
где это функция распределения , вектор параметров, а это функция функции. В простейшем случае функция признака — это просто индикатор наличия определенного n -грамма. Полезно использовать априорное значение или какая-то форма регуляризации.
Логбилинейная модель — еще один пример экспоненциальной языковой модели.
Модель пропуска граммы [ править ]
Языковая модель пропуска грамм — это попытка преодолеть проблему разреженности данных, с которой сталкивалась предыдущая модель (т. е. языковая модель n -грамм слов). Слова, представленные в векторе внедрения, больше не обязательно были последовательными, но могли оставлять пропуски, которые пропускаются . [11]
Формально k -skip- n -грамма представляет собой подпоследовательность длиной n , в которой компоненты встречаются на расстоянии не более k друг от друга.
Например, во входном тексте:
- дождь в Испании выпадает в основном на равнине
набор 1-скип-2-грамм включает в себя все биграммы (2-граммы), а также подпоследовательности
- в , дождь в Испании , в водопадах , в основном в Испании , выпадает в основном на равнине .
В модели пропуска грамм семантические отношения между словами представлены линейными комбинациями , отражающими форму композиционности . Например, в некоторых таких моделях, если v — функция, которая отображает слово w в его n векторное представление -d, то
где ≈ уточняется, если указать, что его правая часть должна быть ближайшим соседом значения левой части. [12] [13]
Нейронные модели [ править ]
Рекуррентная нейронная сеть [ править ]
Непрерывные представления или вложения слов создаются в нейронных сетей рекуррентных языковых моделях на основе (известных также как языковые модели с непрерывным пространством ). [14] Такие вложения в непрерывное пространство помогают смягчить проклятие размерности , которое является следствием того, что количество возможных последовательностей слов увеличивается экспоненциально с размером словаря, что дополнительно вызывает проблему разреженности данных. Нейронные сети решают эту проблему, представляя слова в виде нелинейных комбинаций весов в нейронной сети. [15]
Большие языковые модели [ править ]
Часть серии о |
Машинное обучение и интеллектуальный анализ данных |
---|
Модель большого языка (LLM) — это вычислительная модель, примечательная своей способностью генерировать язык общего назначения и выполнять другие задачи обработки естественного языка, такие как классификация . Основываясь на языковых моделях, студенты LLM приобретают эти способности, изучая статистические взаимосвязи из огромных объемов текста в ходе интенсивного вычислительного процесса обучения с самоконтролем и полуконтролем . [16] LLM можно использовать для генерации текста — формы генеративного искусственного интеллекта — путем взятия входного текста и многократного прогнозирования следующего токена или слова. [17]
LLM — это искусственные нейронные сети , использующие архитектуру трансформатора , изобретенную в 2017 году. Самые крупные и наиболее мощные LLM по состоянию на июнь 2024 года. [update], построены на базе преобразовательной архитектуры, состоящей только из декодера, что обеспечивает эффективную обработку и генерацию крупномасштабных текстовых данных.
Исторически сложилось так, что до 2020 года тонкая настройка была основным методом адаптации модели под конкретные задачи. Однако более крупные модели, такие как GPT-3, продемонстрировали способность достигать аналогичных результатов за счет разработки подсказок , которая включает в себя создание конкретных подсказок для ввода, которые будут определять ответы модели. [18] Эти модели приобретают знания о синтаксисе, семантике и онтологиях. [19] присущи корпусам человеческого языка, но они также наследуют неточности и предвзятости, присутствующие в данных, на которых они обучаются. [20]
Некоторые известные LLM — это - GPT ChatGPT серия моделей GPT OpenAI (например, 3.5 и GPT-4 , используемые в и Microsoft Copilot ), Google от Gemini (последняя из которых в настоящее время используется в одноименном чат-боте ). , Meta от LLaMA семейство моделей Anthropic от , модели Claude и Mistral AI . моделиХотя иногда они и соответствуют человеческим возможностям, неясно, являются ли они правдоподобными когнитивными моделями . По крайней мере, для рекуррентных нейронных сетей было показано, что они иногда изучают закономерности, которые люди не усваивают, но не могут изучить закономерности, которые люди обычно изучают. [21]
Оценка и критерии [ править ]
Оценка качества языковых моделей в основном проводится путем сравнения с образцами тестов, созданными человеком и созданными на основе типичных языковых задач. Другие, менее устоявшиеся тесты качества исследуют внутренний характер языковой модели или сравнивают две такие модели. Поскольку языковые модели обычно должны быть динамичными и обучаться на данных, которые они видят, некоторые предлагаемые модели исследуют скорость обучения, например, путем проверки кривых обучения. [22]
Различные наборы данных были разработаны для использования при оценке систем языковой обработки. [23] К ним относятся:
- Корпус лингвистической приемлемости [24]
- КЛЕЙ эталон [25]
- Корпус парафразов исследований Microsoft [26]
- Многожанровый вывод естественного языка
- Вопрос Вывод на естественном языке
- Пары вопросов Quora [27]
- Распознавание текстовых последствий [28]
- Тест семантического текстового сходства
- Тест на ответы на вопросы SQuAD [29]
- Стэнфордское дерево настроений [30]
- Виноград НЛИ
- BoolQ, PIQA, SIQA, HellaSwag, WinoGrande, ARC, OpenBookQA, NaturalQuestions, TriviaQA, RACE, MMLU (массовое многозадачное понимание языка) , BIG-bench hard, GSM8k, RealToxicityPrompts, WinoGender, CrowS-Pairs. [31] ( тест LLaMa )
См. также [ править ]
Ссылки [ править ]
- ^ Юрафски, Дэн; Мартин, Джеймс Х. (2021). «Н-граммные языковые модели». Обработка речи и языка (3-е изд.). Архивировано из оригинала 22 мая 2022 года . Проверено 24 мая 2022 г.
- ^ Розенфельд, Рональд (2000). «Два десятилетия статистического языкового моделирования: куда нам двигаться дальше?» . Труды IEEE . 88 (8): 1270–1278. дои : 10.1109/5.880083 . S2CID 10959945 .
- ^ Кун, Роланд и Ренато Де Мори (1990). «Модель естественного языка на основе кэша для распознавания речи» . Транзакции IEEE по анализу шаблонов и машинному интеллекту 12.6: 570–583.
- ^ Андреас, Джейкоб, Андреас Влахос и Стивен Кларк (2013). «Семантический синтаксический анализ как машинный перевод». Архивировано 15 августа 2020 года на Wayback Machine . Материалы 51-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 2: Короткие статьи).
- ^ Фам, Ву и др. (2014). «Dropout улучшает рекуррентные нейронные сети для распознавания рукописного текста». Архивировано 11 ноября 2020 г. на Wayback Machine . 14-я Международная конференция «Границы в распознавании рукописного текста». IEEE.
- ^ Хтут, Фу Мон, Кёнхён Чо и Сэмюэл Р. Боуман (2018). «Грамматическая индукция с помощью моделей нейронного языка: необычная репликация». Архивировано 14 августа 2022 года в Wayback Machine . arXiv : 1808.10000 .
- ^ Понте, Джей М.; Крофт, В. Брюс (1998). Языковое моделирование подхода к поиску информации . Материалы 21-й конференции ACM SIGIR. Мельбурн, Австралия: ACM. стр. 275–281. дои : 10.1145/290941.291008 .
- ^ Химстра, Джорд (1998). Лингвистически мотивированная вероятностная модель поиска информации . Материалы 2-й Европейской конференции по исследованиям и передовым технологиям для электронных библиотек. LNCS, Спрингер. стр. 569–584. дои : 10.1007/3-540-49653-X_34 .
- ^ Бенджио, Йошуа; Дюшарм, Режан; Винсент, Паскаль; Янвин, Кристиан (1 марта 2003 г.). «Нейронно-вероятностная языковая модель» . Журнал исследований машинного обучения . 3 : 1137–1155 - через цифровую библиотеку ACM.
- ^ Юрафски, Дэн; Мартин, Джеймс Х. (7 января 2023 г.). «Н-граммные языковые модели». Обработка речи и языка (PDF) (3-е издание, черновой вариант) . Проверено 24 мая 2022 г.
- ^ Дэвид Гатри; и др. (2006). «Более пристальный взгляд на моделирование скип-грамм» (PDF) . Архивировано из оригинала (PDF) 17 мая 2017 года . Проверено 27 апреля 2014 г.
- ^ Миколов, Томас; Чен, Кай; Коррадо, Грег; Дин, Джеффри (2013). «Эффективная оценка представлений слов в векторном пространстве». arXiv : 1301.3781 [ cs.CL ].
- ^ Миколов, Томас; Суцкевер, Илья; Чен, Кай; Коррадо irst4=Грег С.; Дин, Джефф (2013). Распределенные представления слов и фраз и их композиционность (PDF) . Достижения в области нейронных систем обработки информации . стр. 3111–3119. Архивировано (PDF) из оригинала 29 октября 2020 г. Проверено 22 июня 2015 г.
{{cite conference}}
: CS1 maint: числовые имена: список авторов ( ссылка ) - ^ Карпаты, Андрей. «Необоснованная эффективность рекуррентных нейронных сетей» . Архивировано из оригинала 1 ноября 2020 года . Проверено 27 января 2019 г.
- ^ Бенджио, Йошуа (2008). «Нейросетевые языковые модели» . Схоларпедия . Том. 3. п. 3881. Бибкод : 2008SchpJ...3.3881B . doi : 10.4249/scholarpedia.3881 . Архивировано из оригинала 26 октября 2020 года . Проверено 28 августа 2015 г.
- ^ «Лучшие языковые модели и их последствия» . ОпенАИ . 14 февраля 2019 года. Архивировано из оригинала 19 декабря 2020 года . Проверено 25 августа 2019 г.
- ^ Боуман, Сэмюэл Р. (2023). «Восемь вещей, которые нужно знать о больших языковых моделях». arXiv : 2304.00612 [ cs.CL ].
- ^ Браун, Том Б.; Манн, Бенджамин; Райдер, Ник; Суббия, Мелани; Каплан, Джаред; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Састри, Гириш; Аскелл, Аманда; Агарвал, Сандхини; Герберт-Восс, Ариэль; Крюгер, Гретхен; Хениган, Том; Дитя, Ревон; Рамеш, Адитья; Зиглер, Дэниел М.; Ву, Джеффри; Зима, Клеменс; Гессен, Кристофер; Чен, Марк; Сиглер, Эрик; Литвин, Матеуш; Грей, Скотт; Шахматы, Бенджамин; Кларк, Джек; Бернер, Кристофер; МакКэндлиш, Сэм; Рэдфорд, Алек; Суцкевер, Илья; Амодей, Дарио (декабрь 2020 г.). Ларошель, Х.; Ранзато, М.; Хадселл, Р.; Балкан, МФ; Лин, Х. (ред.). «Языковые модели мало кто изучает» (PDF) . Достижения в области нейронных систем обработки информации . 33 . Curran Associates, Inc.: 1877–1901.
- ^ Фаталлах, Надин; Дас, Арунав; Де Джорджис, Стефано; Полтроньери, Андреа; Хаазе, Питер; Ковригина, Любовь (26 мая 2024 г.). NeOn-GPT: большой конвейер на основе языковых моделей для обучения онтологии (PDF) . Расширенная семантическая веб-конференция 2024. Херсониссос, Греция.
- ^ Мэннинг, Кристофер Д. (2022). «Понимание и мышление человеческого языка» . Дедал . 151 (2): 127–138. дои : 10.1162/daed_a_01905 . S2CID 248377870 .
- ^ Хорнштейн, Норберт; Ласник, Ховард; Патель-Гросс, Притти; Ян, Чарльз (9 января 2018 г.). Синтаксические структуры через 60 лет: влияние Хомской революции в лингвистике . Вальтер де Грюйтер ГмбХ & Ко КГ. ISBN 978-1-5015-0692-5 . Архивировано из оригинала 16 апреля 2023 года . Проверено 11 декабря 2021 г.
- ^ Карлгрен, Юсси; Шутце, Хинрих (2015), «Оценка представлений изучаемого языка», Международная конференция Форума межъязыковой оценки , Конспекты лекций по информатике, Springer International Publishing, стр. 254–260, doi : 10.1007/978-3-319- 64206-2_8 , ISBN 9783319642055
- ^ Девлин, Джейкоб; Чанг, Мин-Вэй; Ли, Кентон; Тутанова, Кристина (10 октября 2018 г.). «БЕРТ: Предварительная подготовка глубоких двунаправленных преобразователей для понимания языка». arXiv : 1810.04805 [ cs.CL ].
- ^ «Корпус языковой приемлемости (CoLA)» . ню-mll.github.io . Архивировано из оригинала 7 декабря 2020 года . Проверено 25 февраля 2019 г.
- ^ «Бенчмарк КЛЕЯ» . www.glubenchmark.com . Архивировано из оригинала 4 ноября 2020 года . Проверено 25 февраля 2019 г.
- ^ «Корпус парафразов исследований Microsoft» . Центр загрузки Microsoft . Архивировано из оригинала 25 октября 2020 года . Проверено 25 февраля 2019 г.
- ^ Агаебрахимян, Ахмад (2017), «Набор данных ответов на вопросы Quora», Текст, речь и диалог , Конспекты лекций по информатике, том. 10415, Springer International Publishing, стр. 66–73, номер номера : 10.1007/978-3-319-64206-2_8 , ISBN. 9783319642055
- ^ Сэммонс, В.Г.Винод Видисваран, Дэн Рот, Марк; Выдисваран, В.Г.; Рот, Дэн. «Распознавание текстовых последствий» (PDF) . Архивировано из оригинала (PDF) 9 августа 2017 года . Проверено 24 февраля 2019 г.
{{cite web}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ «Стэнфордский набор данных ответов на вопросы» . rajpurkar.github.io . Архивировано из оригинала 30 октября 2020 года . Проверено 25 февраля 2019 г.
- ^ «Рекурсивные глубокие модели семантической композиционности в древовидном банке настроений» . nlp.stanford.edu . Архивировано из оригинала 27 октября 2020 года . Проверено 25 февраля 2019 г.
- ^ Хендрикс, Дэн (14 марта 2023 г.), «Измерение понимания языка в условиях многозадачности» , заархивировано из оригинала 15 марта 2023 г. , получено 15 марта 2023 г.
Дальнейшее чтение [ править ]
- Дж. М. Понте; ВБ Крофт (1998). «Подход языкового моделирования к поиску информации». Исследования и разработки в области поиска информации . стр. 275–281. CiteSeerX 10.1.1.117.4237 .
- Ф Песня; ВБ Крофт (1999). «Общая языковая модель для поиска информации». Исследования и разработки в области поиска информации . стр. 279–280. CiteSeerX 10.1.1.21.6467 .
- Чен, Стэнли; Джошуа Гудман (1998). Эмпирическое исследование методов сглаживания для языкового моделирования (технический отчет). Гарвардский университет. CiteSeerX 10.1.1.131.5458 .