Растерянность

В информации теории недоумение — это мера неопределенности значения выборки из дискретного распределения вероятностей. Чем больше недоумение, тем меньше вероятность того, что наблюдатель сможет угадать значение, которое будет получено из распределения. Впервые понятие «недоумение» было введено в 1977 году в контексте распознавания речи Фредериком Елинеком , Робертом Лероем Мерсером , Лалитом Р. Бахлом и Джеймсом К. Бейкером. ^[1]

распределения вероятностей Загадка

Недоумение PP дискретного распределения вероятностей p — это концепция, широко используемая в теории информации, машинном обучении и статистическом моделировании. Это определяется как

{\mathit {PP}}(p):=2^{H(p)}=2^{-\sum _{x}p(x)\log _{2}p(x)}=\prod _{x}p(x)^{-p(x)}

где H ( p ) — энтропия (в битах) распределения, а x варьируется в зависимости от событий. Основание логарифма не обязательно должно быть 2: недоумение не зависит от основания, при условии, что энтропия и возведение в степень используют одно и то же основание. В некоторых контекстах эту меру также называют разнообразием (истинного порядка 1) .

Недоумение случайной величины X можно определить как запутанность распределения ее возможных значений x . Его можно рассматривать как меру неопределенности или «неожиданности», связанной с результатами.

В частном случае распределения p, где ровно k равно постоянному значению 1/k , а в противном случае — нулям, произведение можно вычислить просто, а недоумение равно k . Например, это тот случай, когда p моделирует справедливую k -стороннюю игральную кость, то есть равномерное распределение по k дискретным событиям. В этом смысле случайная величина с недоумением k имеет ту же неопределенность, что и справедливый k -гранный кубик. О человеке говорят, что он « озадачен k -ю способами» относительно значения случайной величины. Если это не правильный k более k -сторонний кубик, возможно значений, но общая неопределенность не больше, поскольку некоторые значения могут иметь вероятность, превышающую 1/ k .

Недоумение иногда используется как мера сложности задачи прогнозирования. Однако, как правило, это не прямое представление соответствующей вероятности. Например, если у вас есть два варианта выбора, один из которых имеет вероятность 0,9, ваши шансы на правильное предположение с использованием оптимальной стратегии составляют 90 процентов. Но недоумение 2 ^{−0,9 log ₂ 0,9 - 0,1 log ₂ 0,1}= 1,38. Обратная величина недоумения, 1/1,38 = 0,72, не соответствует вероятности 0,9.

Недоумение заключается в возведении в степень энтропии, более простой величины. Энтропия измеряет ожидаемое или «среднее» количество битов, необходимых для кодирования результата случайной величины с использованием оптимального кода переменной длины. Его также можно рассматривать как ожидаемый прирост информации от изучения результата случайной величины, позволяющий понять неопределенность и сложность основного распределения вероятностей.

Недоумение вероятностной модели [ править ]

Модель неизвестного распределения вероятностей p может быть предложена на основе обучающей выборки, полученной из p . Учитывая предложенную вероятностную модель q , можно оценить q, спросив, насколько хорошо она предсказывает отдельную тестовую выборку x ₁ , x ₂ , ..., x _N, также полученную из p . Недоумение модели q определяется как

b^{-{\frac {1}{N}}\sum _{i=1}^{N}\log _{b}q(x_{i})}=\left(\prod _{i}q(x_{i})\right)^{-1/N}

где $b$ обычно равно 2. Лучшие модели q неизвестного распределения p будут иметь тенденцию присваивать более высокие вероятности q ( x _i ) тестовым событиям. Таким образом, у них меньше недоумения: они меньше удивляются тестовому образцу.

Приведенный выше показатель степени можно рассматривать как среднее количество битов, необходимых для представления тестового события x _i, если используется оптимальный код, основанный на q . Модели с низкой степенью запутанности лучше справляются со сжатием тестовой выборки, требуя в среднем несколько битов на тестовый элемент, поскольку q ( x _i ) имеет тенденцию быть высоким.

Экспонента $-{\tfrac {1}{N}}\sum _{i=1}^{N}\log _{b}q(x_{i})$ также может быть интерпретировано как перекрестная энтропия :

H({\tilde {p}},q)=-\sum _{x}{\tilde {p}}(x)\log _{b}q(x)

где ${\tilde {p}}$ обозначает эмпирическое распределение тестовой выборки (т.е. ${\tilde {p}}(x)=n/N$ если x появился n раз в тестовой выборке размером N ).

По определению дивергенции КЛ она также равна

H({\tilde {p}})+D_{KL}({\tilde {p}}\|q)

который

\geq H({\tilde {p}})

. Следовательно, недоумение сводится к минимуму, когда

q={\tilde {p}}

.

Недоумение в каждом слове [ править ]

В обработке естественного языка корпус представляет собой набор предложений или текстов, а языковая модель — это распределение вероятностей по целым предложениям или текстам. Следовательно, в НЛП более часто используемой мерой является количество недоумений на слово , определяемое как:

\left(\prod _{i=1}^{n}q(s_{i})\right)^{-1/N}

где

s_{1},...,s_{n}

являются

n

предложения в корпусе, но

N

количество слов в корпусе. Это нормализует недоумение по длине текста, позволяя проводить более содержательные сравнения между различными текстами или моделями, а не между предложениями.

Предположим, что среднее предложение x _i в корпусе имеет вероятность $2^{-190}$ согласно языковой модели. Это дало бы модель недоумения 2 ¹⁹⁰ за предложение. Однако чаще нормализуется по длине предложения. Таким образом, если бы предложения тестовой выборки содержали в общей сложности 1000 слов и могли быть закодированы с использованием 7,95 битов на слово, можно было бы сообщить о недоумении модели, равном 2. ^7.95 = 247 за слово. Другими словами, модель настолько запуталась в тестовых данных, как если бы ей приходилось выбирать единообразно и независимо среди 247 вариантов для каждого слова.

Существует два стандартных показателя оценки языковых моделей: недоумение или частота ошибок в словах (WER). Более простой из этих показателей, WER, представляет собой просто процент ошибочно распознанных слов E (удалений, вставок, замен) к общему количеству слов N в задаче распознавания речи, т.е.

WER=\left({\frac {E}{\mathbb {N} }}\right)*100\%

Вторая метрика, недоумение (на слово), представляет собой меру теории информации, которая оценивает сходство предложенной модели m с исходным распределением p . Его можно вычислить как обратную (геометрическую) среднюю вероятность набора тестов T.

$PPL(D)={\sqrt[{N}]{1 \over m(T)}}$

$=2^{-{\frac {1}{N}}lg(m(T))}$

где N количество слов в тестовом наборе T. — Уравнение 1 можно рассматривать как возведенную в степень перекрестную энтропию, где перекрестная энтропия H( p ; m ) аппроксимируется как

$H(p;m)=-{\frac {1}{N}}lg(m(T))$

Во многих отношениях WER является лучшим показателем, поскольку любое улучшение тестов языкового моделирования имеет смысл только в том случае, если оно приводит к улучшениям в автоматическом распознавании речи (ASR) или машинном переводе. Проблема с WER заключается в том, что для оценки ему необходим полный конвейер ASR. Кроме того, почти все наборы данных сравнительного анализа являются платными и поэтому недоступны для оценки.

в языковом моделировании Последние достижения

С 2007 года произошли значительные успехи в языковом моделировании, особенно с появлением методов глубокого обучения. Недоумение на слово, мера, которая количественно определяет предсказательную силу языковой модели, оставалась центральной при оценке таких моделей, как трансформаторы , BERT , GPT-4 и других. Это значительно помогло LLM и моделям генеративного искусственного интеллекта.

Эта мера использовалась для сравнения различных моделей в одном и том же наборе данных и для оптимизации гиперпараметров , хотя было обнаружено, что она чувствительна к таким факторам, как лингвистические особенности и длина предложения. ^[2]

Несмотря на свою ключевую роль в разработке языковой модели, недоумение продемонстрировало свои ограничения, особенно в качестве неадекватного предсказателя эффективности распознавания речи , переобучения и обобщения. ^[3]^[4] вызывает вопросы о его точности.

Коричневый корпус [ править ]

Самая низкая степень недоумения, опубликованная в Brown Corpus (1 миллион слов американского английского различных тем и жанров) по состоянию на 1992 год, действительно составляет около 247 на слово, что соответствует перекрестной энтропии log ₂ 247 = 7,95 бит на слово или 1,75 бит на букву ^[5] используя триграммную модель. Хотя эта цифра отражает современное состояние на тот момент, достижения в таких методах, как глубокое обучение, привели к значительному улучшению показателей недоумения по другим тестам, таким как тест «Один миллиард слов». ^[6]

В контексте Коричневого корпуса простое предположение о том, что следующим словом будет «the», позволит достичь точности в 7 процентов, в отличие от 1/247 = 0,4 процента, которую можно было бы ожидать от наивного использования недоумения. Эта разница подчеркивает важность используемой статистической модели и нюансированную природу недоумения как меры прогнозируемости. ^[7] Предположение основано на статистике униграмм, а не на статистике триграмм, которая привела к недоумению 247, и использование статистики триграмм позволило бы еще больше уточнить прогноз.

См. также [ править ]

Статистическая проверка модели

Ссылки [ править ]

^ Елинек, Ф.; Мерсер, РЛ; Бахл, ЛР; Бейкер, Дж. К. (1977). «Недоумение — мера сложности задач по распознаванию речи» . Журнал Акустического общества Америки . 62 (С1): С63–С63. дои : 10.1121/1.2016299 . ISSN 0001-4966 .
^ Миаски, Алессио; Брунато, Доминик; Делл'Орлетта, Феличе; Вентури, Джулия (2021). «Что вызывает недоумение у моей модели? Лингвистическое исследование недоумения моделей нейронного языка» . Труды глубокого обучения наизнанку (DeeLIO): 2-й семинар по извлечению и интеграции знаний для архитектур глубокого обучения . стр. 40--47. дои : 10.18653/v1/2021.deelio-1.5 . Архивировано из оригинала 24 октября 2023 г. Проверено 24 августа 2023 г.
^ Клаков, Дитрих; Петерс, Йохен (2002). «Проверка корреляции частоты ошибок в словах и недоумения» . Речевое общение . 38 (1–2): 19–28. дои : 10.1016/S0167-6393(01)00041-3 . ISSN 0167-6393 .
^ Чен, Стэнли Ф; Биферман, Дуглас; Розенфельд, Рони (2018). «Метрики оценки языковых моделей» . Университет Карнеги-Меллон .
^ Браун, Питер Ф.; и др. (март 1992 г.). «Оценка верхней границы энтропии английского языка» (PDF) . Компьютерная лингвистика . 18 (1). Архивировано (PDF) из оригинала 17 сентября 2021 г. Проверено 7 февраля 2007 г.
^ Йозефович, Рафаль и др. «Изучение пределов языкового моделирования». Препринт arXiv arXiv:1602.02410 (2016). [1] Архивировано 4 мая 2021 г. в Wayback Machine.
^ Уилкокс, Итан Готлиб и др. «О предсказательной силе моделей нейронного языка для понимания поведения человека в реальном времени». Препринт arXiv arXiv:2006.01912 (2020). [2] Архивировано 25 августа 2023 г. в Wayback Machine.

[1] Елинек, Ф.; Мерсер, РЛ; Бахл, ЛР; Бейкер, Дж. К. (1977). «Недоумение — мера сложности задач по распознаванию речи» . Журнал Акустического общества Америки . 62 (С1): С63–С63. дои : 10.1121/1.2016299 . ISSN 0001-4966 .

[2] Миаски, Алессио; Брунато, Доминик; Делл'Орлетта, Феличе; Вентури, Джулия (2021). «Что вызывает недоумение у моей модели? Лингвистическое исследование недоумения моделей нейронного языка» . Труды глубокого обучения наизнанку (DeeLIO): 2-й семинар по извлечению и интеграции знаний для архитектур глубокого обучения . стр. 40--47. дои : 10.18653/v1/2021.deelio-1.5 . Архивировано из оригинала 24 октября 2023 г. Проверено 24 августа 2023 г.

[3] Клаков, Дитрих; Петерс, Йохен (2002). «Проверка корреляции частоты ошибок в словах и недоумения» . Речевое общение . 38 (1–2): 19–28. дои : 10.1016/S0167-6393(01)00041-3 . ISSN 0167-6393 .

[4] Чен, Стэнли Ф; Биферман, Дуглас; Розенфельд, Рони (2018). «Метрики оценки языковых моделей» . Университет Карнеги-Меллон .

[5] Браун, Питер Ф.; и др. (март 1992 г.). «Оценка верхней границы энтропии английского языка» (PDF) . Компьютерная лингвистика . 18 (1). Архивировано (PDF) из оригинала 17 сентября 2021 г. Проверено 7 февраля 2007 г.

[6] Йозефович, Рафаль и др. «Изучение пределов языкового моделирования». Препринт arXiv arXiv:1602.02410 (2016). [1] Архивировано 4 мая 2021 г. в Wayback Machine.

[7] Уилкокс, Итан Готлиб и др. «О предсказательной силе моделей нейронного языка для понимания поведения человека в реальном времени». Препринт arXiv arXiv:2006.01912 (2020). [2] Архивировано 25 августа 2023 г. в Wayback Machine.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

v т и машинного обучения Метрики оценки
Регрессия	МШЭ ЕСТЬ СМАПЕ КАРТА МАССЫ MSPE среднеквадратичное значение RMSE/RMSD Р ² МДА БЕЗУМНЫЙ
Классификация	F-оценка П4 Точность Точность Отзывать Каппа МСС АУК РПЦ Чувствительность и специфичность Логарифмическая потеря
Кластеризация	Силуэт Индекс Калинского-Харабаша Дэвис-Булден Индекс Данна Статистика Хопкинса Индекс Жаккара Индекс Рэнда Мера сходства СМК СимХэш
Рейтинг	МРР НДЦГ АП
Компьютерное зрение	ПСНР ДА долг
НЛП	Растерянность СИНИЙ
Метрики, связанные с глубоким обучением	Начальный счет ДОВЕРЯТЬ
Рекомендательная система	Покрытие Внутрисписочное сходство
Сходство	Косинусное подобие Евклидово расстояние Коэффициент корреляции Пирсона
Матрица путаницы

распределения вероятностей Загадка ​