Jump to content

Языковая модель

Языковая модель — это вероятностная модель естественного языка. [1] В 1980 году была предложена первая значительная статистическая языковая модель, и в течение десятилетия IBM проводила эксперименты в стиле Шеннона , в которых потенциальные источники улучшения языкового моделирования были выявлены путем наблюдения и анализа действий людей в предсказании или исправлении текста. [2]

Языковые модели полезны для решения множества задач, включая распознавание речи. [3] (помогает предотвратить предсказания маловероятных (например, бессмысленных) последовательностей), машинный перевод , [4] генерация естественного языка (генерация более человеческого текста), оптическое распознавание символов , распознавание рукописного ввода , [5] грамматическая индукция , [6] и поиск информации . [7] [8]

Большие языковые модели , в настоящее время их наиболее продвинутая форма, представляют собой комбинацию более крупных наборов данных (часто с использованием слов, извлеченных из общедоступного Интернета), нейронных сетей прямого распространения и преобразователей . Они заменили модели на основе рекуррентных нейронных сетей , которые ранее вытеснили чисто статистические модели, такие как слов с n языковая модель -граммами .

модели статистические Чисто

Модели на основе n -грамм слов [ править ]

- слов н Языковая модель -грамм представляет собой чисто статистическую модель языка. На смену ему пришли модели на основе рекуррентных нейронных сетей , которые были заменены большими языковыми моделями . [9] Он основан на предположении, что вероятность следующего слова в последовательности зависит только от фиксированного размера окна предыдущих слов. Если рассматривалось только одно предыдущее слово, это называлось моделью биграммы; если два слова, то модель триграммы; если n - 1 слов, модель n -граммы. [10] Были введены специальные токены для обозначения начала и конца предложения. и .

Чтобы предотвратить присвоение нулевой вероятности невидимым словам, вероятность каждого слова немного ниже, чем его частота в корпусе. Для его расчета использовались различные методы: от простого сглаживания «добавить единицу» (присвоение числа 1 невидимым n- граммам как неинформативное априорное значение ) до более сложных моделей, таких как модели дисконтирования Гуда – Тьюринга или модели отсрочки. .

Экспоненциальный [ править ]

Языковые модели максимальной энтропии кодируют связь между словом и историей n -грамм с помощью функций признаков. Уравнение

где это функция распределения , вектор параметров, а это функция функции. В простейшем случае функция признака — это просто индикатор наличия определенного n -грамма. Полезно использовать априорное значение или какая-то форма регуляризации.

Логбилинейная модель — еще один пример экспоненциальной языковой модели.

Модель пропуска граммы [ править ]

Языковая модель пропуска грамм — это попытка преодолеть проблему разреженности данных, с которой сталкивалась предыдущая модель (т. е. языковая модель n -грамм слов). Слова, представленные в векторе внедрения, больше не обязательно были последовательными, но могли оставлять пропуски, которые пропускаются . [11]

Формально k -skip- n -грамма представляет собой подпоследовательность длиной n , в которой компоненты встречаются на расстоянии не более k друг от друга.

Например, во входном тексте:

дождь в Испании выпадает в основном на равнине

набор 1-скип-2-грамм включает в себя все биграммы (2-граммы), а также подпоследовательности

в , дождь в Испании , в водопадах , в основном в Испании , выпадает в основном на равнине .

В модели пропуска грамм семантические отношения между словами представлены линейными комбинациями , отражающими форму композиционности . Например, в некоторых таких моделях, если v — функция, которая отображает слово w в его n векторное представление -d, то

где ≈ уточняется, если указать, что его правая часть должна быть ближайшим соседом значения левой части. [12] [13]

Нейронные модели [ править ]

Рекуррентная нейронная сеть [ править ]

Непрерывные представления или вложения слов создаются в нейронных сетей рекуррентных языковых моделях на основе (известных также как языковые модели с непрерывным пространством ). [14] Такие вложения в непрерывное пространство помогают смягчить проклятие размерности , которое является следствием того, что количество возможных последовательностей слов увеличивается экспоненциально с размером словаря, что дополнительно вызывает проблему разреженности данных. Нейронные сети решают эту проблему, представляя слова в виде нелинейных комбинаций весов в нейронной сети. [15]

Большие языковые модели [ править ]

Модель большого языка (LLM) — это вычислительная модель, примечательная своей способностью генерировать язык общего назначения и выполнять другие задачи обработки естественного языка, такие как классификация . Основываясь на языковых моделях, студенты LLM приобретают эти способности, изучая статистические взаимосвязи из огромных объемов текста в ходе интенсивного вычислительного процесса обучения с самоконтролем и полуконтролем . [16] LLM можно использовать для генерации текста — формы генеративного искусственного интеллекта — путем взятия входного текста и многократного прогнозирования следующего токена или слова. [17]

LLM — это искусственные нейронные сети , использующие архитектуру трансформатора , изобретенную в 2017 году. Самые крупные и наиболее мощные LLM по состоянию на июнь 2024 года. , построены на базе преобразовательной архитектуры, состоящей только из декодера, что обеспечивает эффективную обработку и генерацию крупномасштабных текстовых данных.

Исторически сложилось так, что до 2020 года тонкая настройка была основным методом адаптации модели под конкретные задачи. Однако более крупные модели, такие как GPT-3, продемонстрировали способность достигать аналогичных результатов за счет разработки подсказок , которая включает в себя создание конкретных подсказок для ввода, которые будут определять ответы модели. [18] Эти модели приобретают знания о синтаксисе, семантике и онтологиях. [19] присущи корпусам человеческого языка, но они также наследуют неточности и предвзятости, присутствующие в данных, на которых они обучаются. [20]

Некоторые известные LLM — это - GPT ChatGPT серия моделей GPT OpenAI (например, 3.5 и GPT-4 , используемые в и Microsoft Copilot ), Google от Gemini (последняя из которых в настоящее время используется в одноименном чат-боте ). , Meta от LLaMA семейство моделей Anthropic от , модели Claude и Mistral AI . модели

Хотя иногда они и соответствуют человеческим возможностям, неясно, являются ли они правдоподобными когнитивными моделями . По крайней мере, для рекуррентных нейронных сетей было показано, что они иногда изучают закономерности, которые люди не усваивают, но не могут изучить закономерности, которые люди обычно изучают. [21]

Оценка и критерии [ править ]

Оценка качества языковых моделей в основном проводится путем сравнения с образцами тестов, созданными человеком и созданными на основе типичных языковых задач. Другие, менее устоявшиеся тесты качества исследуют внутренний характер языковой модели или сравнивают две такие модели. Поскольку языковые модели обычно должны быть динамичными и обучаться на данных, которые они видят, некоторые предлагаемые модели исследуют скорость обучения, например, путем проверки кривых обучения. [22]

Различные наборы данных были разработаны для использования при оценке систем языковой обработки. [23] К ним относятся:

  • Корпус лингвистической приемлемости [24]
  • КЛЕЙ эталон [25]
  • Корпус парафразов исследований Microsoft [26]
  • Многожанровый вывод естественного языка
  • Вопрос Вывод на естественном языке
  • Пары вопросов Quora [27]
  • Распознавание текстовых последствий [28]
  • Тест семантического текстового сходства
  • Тест на ответы на вопросы SQuAD [29]
  • Стэнфордское дерево настроений [30]
  • Виноград НЛИ
  • BoolQ, PIQA, SIQA, HellaSwag, WinoGrande, ARC, OpenBookQA, NaturalQuestions, TriviaQA, RACE, MMLU (массовое многозадачное понимание языка) , BIG-bench hard, GSM8k, RealToxicityPrompts, WinoGender, CrowS-Pairs. [31] ( тест LLaMa )

См. также [ править ]

Ссылки [ править ]

  1. ^ Юрафски, Дэн; Мартин, Джеймс Х. (2021). «Н-граммные языковые модели». Обработка речи и языка (3-е изд.). Архивировано из оригинала 22 мая 2022 года . Проверено 24 мая 2022 г.
  2. ^ Розенфельд, Рональд (2000). «Два десятилетия статистического языкового моделирования: куда нам двигаться дальше?» . Труды IEEE . 88 (8): 1270–1278. дои : 10.1109/5.880083 . S2CID   10959945 .
  3. ^ Кун, Роланд и Ренато Де Мори (1990). «Модель естественного языка на основе кэша для распознавания речи» . Транзакции IEEE по анализу шаблонов и машинному интеллекту 12.6: 570–583.
  4. ^ Андреас, Джейкоб, Андреас Влахос и Стивен Кларк (2013). «Семантический синтаксический анализ как машинный перевод». Архивировано 15 августа 2020 года на Wayback Machine . Материалы 51-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 2: Короткие статьи).
  5. ^ Фам, Ву и др. (2014). «Dropout улучшает рекуррентные нейронные сети для распознавания рукописного текста». Архивировано 11 ноября 2020 г. на Wayback Machine . 14-я Международная конференция «Границы в распознавании рукописного текста». IEEE.
  6. ^ Хтут, Фу Мон, Кёнхён Чо и Сэмюэл Р. Боуман (2018). «Грамматическая индукция с помощью моделей нейронного языка: необычная репликация». Архивировано 14 августа 2022 года в Wayback Machine . arXiv : 1808.10000 .
  7. ^ Понте, Джей М.; Крофт, В. Брюс (1998). Языковое моделирование подхода к поиску информации . Материалы 21-й конференции ACM SIGIR. Мельбурн, Австралия: ACM. стр. 275–281. дои : 10.1145/290941.291008 .
  8. ^ Химстра, Джорд (1998). Лингвистически мотивированная вероятностная модель поиска информации . Материалы 2-й Европейской конференции по исследованиям и передовым технологиям для электронных библиотек. LNCS, Спрингер. стр. 569–584. дои : 10.1007/3-540-49653-X_34 .
  9. ^ Бенджио, Йошуа; Дюшарм, Режан; Винсент, Паскаль; Янвин, Кристиан (1 марта 2003 г.). «Нейронно-вероятностная языковая модель» . Журнал исследований машинного обучения . 3 : 1137–1155 - через цифровую библиотеку ACM.
  10. ^ Юрафски, Дэн; Мартин, Джеймс Х. (7 января 2023 г.). «Н-граммные языковые модели». Обработка речи и языка (PDF) (3-е издание, черновой вариант) . Проверено 24 мая 2022 г.
  11. ^ Дэвид Гатри; и др. (2006). «Более пристальный взгляд на моделирование скип-грамм» (PDF) . Архивировано из оригинала (PDF) 17 мая 2017 года . Проверено 27 апреля 2014 г.
  12. ^ Миколов, Томас; Чен, Кай; Коррадо, Грег; Дин, Джеффри (2013). «Эффективная оценка представлений слов в векторном пространстве». arXiv : 1301.3781 [ cs.CL ].
  13. ^ Миколов, Томас; Суцкевер, Илья; Чен, Кай; Коррадо irst4=Грег С.; Дин, Джефф (2013). Распределенные представления слов и фраз и их композиционность (PDF) . Достижения в области нейронных систем обработки информации . стр. 3111–3119. Архивировано (PDF) из оригинала 29 октября 2020 г. Проверено 22 июня 2015 г. {{cite conference}}: CS1 maint: числовые имена: список авторов ( ссылка )
  14. ^ Карпаты, Андрей. «Необоснованная эффективность рекуррентных нейронных сетей» . Архивировано из оригинала 1 ноября 2020 года . Проверено 27 января 2019 г.
  15. ^ Бенджио, Йошуа (2008). «Нейросетевые языковые модели» . Схоларпедия . Том. 3. п. 3881. Бибкод : 2008SchpJ...3.3881B . doi : 10.4249/scholarpedia.3881 . Архивировано из оригинала 26 октября 2020 года . Проверено 28 августа 2015 г.
  16. ^ «Лучшие языковые модели и их последствия» . ОпенАИ . 14 февраля 2019 года. Архивировано из оригинала 19 декабря 2020 года . Проверено 25 августа 2019 г.
  17. ^ Боуман, Сэмюэл Р. (2023). «Восемь вещей, которые нужно знать о больших языковых моделях». arXiv : 2304.00612 [ cs.CL ].
  18. ^ Браун, Том Б.; Манн, Бенджамин; Райдер, Ник; Суббия, Мелани; Каплан, Джаред; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Састри, Гириш; Аскелл, Аманда; Агарвал, Сандхини; Герберт-Восс, Ариэль; Крюгер, Гретхен; Хениган, Том; Дитя, Ревон; Рамеш, Адитья; Зиглер, Дэниел М.; Ву, Джеффри; Зима, Клеменс; Гессен, Кристофер; Чен, Марк; Сиглер, Эрик; Литвин, Матеуш; Грей, Скотт; Шахматы, Бенджамин; Кларк, Джек; Бернер, Кристофер; МакКэндлиш, Сэм; Рэдфорд, Алек; Суцкевер, Илья; Амодей, Дарио (декабрь 2020 г.). Ларошель, Х.; Ранзато, М.; Хадселл, Р.; Балкан, МФ; Лин, Х. (ред.). «Языковые модели мало кто изучает» (PDF) . Достижения в области нейронных систем обработки информации . 33 . Curran Associates, Inc.: 1877–1901.
  19. ^ Фаталлах, Надин; Дас, Арунав; Де Джорджис, Стефано; Полтроньери, Андреа; Хаазе, Питер; Ковригина, Любовь (26 мая 2024 г.). NeOn-GPT: большой конвейер на основе языковых моделей для обучения онтологии (PDF) . Расширенная семантическая веб-конференция 2024. Херсониссос, Греция.
  20. ^ Мэннинг, Кристофер Д. (2022). «Понимание и мышление человеческого языка» . Дедал . 151 (2): 127–138. дои : 10.1162/daed_a_01905 . S2CID   248377870 .
  21. ^ Хорнштейн, Норберт; Ласник, Ховард; Патель-Гросс, Притти; Ян, Чарльз (9 января 2018 г.). Синтаксические структуры через 60 лет: влияние Хомской революции в лингвистике . Вальтер де Грюйтер ГмбХ & Ко КГ. ISBN  978-1-5015-0692-5 . Архивировано из оригинала 16 апреля 2023 года . Проверено 11 декабря 2021 г.
  22. ^ Карлгрен, Юсси; Шутце, Хинрих (2015), «Оценка представлений изучаемого языка», Международная конференция Форума межъязыковой оценки , Конспекты лекций по информатике, Springer International Publishing, стр. 254–260, doi : 10.1007/978-3-319- 64206-2_8 , ISBN  9783319642055
  23. ^ Девлин, Джейкоб; Чанг, Мин-Вэй; Ли, Кентон; Тутанова, Кристина (10 октября 2018 г.). «БЕРТ: Предварительная подготовка глубоких двунаправленных преобразователей для понимания языка». arXiv : 1810.04805 [ cs.CL ].
  24. ^ «Корпус языковой приемлемости (CoLA)» . ню-mll.github.io . Архивировано из оригинала 7 декабря 2020 года . Проверено 25 февраля 2019 г.
  25. ^ «Бенчмарк КЛЕЯ» . www.glubenchmark.com . Архивировано из оригинала 4 ноября 2020 года . Проверено 25 февраля 2019 г.
  26. ^ «Корпус парафразов исследований Microsoft» . Центр загрузки Microsoft . Архивировано из оригинала 25 октября 2020 года . Проверено 25 февраля 2019 г.
  27. ^ Агаебрахимян, Ахмад (2017), «Набор данных ответов на вопросы Quora», Текст, речь и диалог , Конспекты лекций по информатике, том. 10415, Springer International Publishing, стр. 66–73, номер номера : 10.1007/978-3-319-64206-2_8 , ISBN.  9783319642055
  28. ^ Сэммонс, В.Г.Винод Видисваран, Дэн Рот, Марк; Выдисваран, В.Г.; Рот, Дэн. «Распознавание текстовых последствий» (PDF) . Архивировано из оригинала (PDF) 9 августа 2017 года . Проверено 24 февраля 2019 г. {{cite web}}: CS1 maint: несколько имен: список авторов ( ссылка )
  29. ^ «Стэнфордский набор данных ответов на вопросы» . rajpurkar.github.io . Архивировано из оригинала 30 октября 2020 года . Проверено 25 февраля 2019 г.
  30. ^ «Рекурсивные глубокие модели семантической композиционности в древовидном банке настроений» . nlp.stanford.edu . Архивировано из оригинала 27 октября 2020 года . Проверено 25 февраля 2019 г.
  31. ^ Хендрикс, Дэн (14 марта 2023 г.), «Измерение понимания языка в условиях многозадачности» , заархивировано из оригинала 15 марта 2023 г. , получено 15 марта 2023 г.

Дальнейшее чтение [ править ]

  • Дж. М. Понте; ВБ Крофт (1998). «Подход языкового моделирования к поиску информации». Исследования и разработки в области поиска информации . стр. 275–281. CiteSeerX   10.1.1.117.4237 .
  • Ф Песня; ВБ Крофт (1999). «Общая языковая модель для поиска информации». Исследования и разработки в области поиска информации . стр. 279–280. CiteSeerX   10.1.1.21.6467 .
  • Чен, Стэнли; Джошуа Гудман (1998). Эмпирическое исследование методов сглаживания для языкового моделирования (технический отчет). Гарвардский университет. CiteSeerX   10.1.1.131.5458 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 1a88d5fbb0f2cce8d72c6443cb72a64d__1717894380
URL1:https://arc.ask3.ru/arc/aa/1a/4d/1a88d5fbb0f2cce8d72c6443cb72a64d.html
Заголовок, (Title) документа по адресу, URL1:
Language model - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)