Jump to content

Перекрестная энтропия

(Перенаправлено с Minxent )

В теории информации перекрёстная энтропия между двумя распределениями вероятностей и , по одному и тому же базовому набору событий, измеряет среднее количество битов, необходимое для идентификации события, взятого из набора, когда схема кодирования, используемая для набора, оптимизирована для предполагаемого распределения вероятностей. , а не истинное распределение .

Определение

[ редактировать ]

Перекрестная энтропия распределения относительно распределения по заданному множеству определяется следующим образом:

,

где оператор ожидаемого значения относительно распределения .

Определение можно сформулировать с использованием расхождения Кульбака – Лейблера. , расхождение от (также известная как энтропия относительная относительно ).

где это энтропия .

Для дискретных распределений вероятностей и с той же поддержкой , это означает

. ( Уравнение 1 )

ситуация и для непрерывных Аналогичная распределений. Мы должны предположить, что и относительно абсолютно непрерывны некоторой эталонной меры (обычно является мерой Лебега на борелевской σ-алгебре ). Позволять и — функции плотности вероятности и относительно . Затем

и поэтому

. ( Уравнение 2 )

Примечание: Обозначения также используется для другого понятия - совместной энтропии и .

Мотивация

[ редактировать ]

В теории информации теорема Крафта-Макмиллана устанавливает, что любая непосредственно декодируемая схема кодирования для кодирования сообщения для идентификации одного значения из набора возможностей можно рассматривать как представление неявного распределения вероятностей над , где длина кода для в битах. Следовательно, перекрестную энтропию можно интерпретировать как ожидаемую длину сообщения на единицу данных при неправильном распределении. предполагается, в то время как данные фактически следуют распределению . Вот почему математическое ожидание принимается за истинное распределение вероятностей. и не Действительно, ожидаемая длина сообщения при истинном распределении является

Во многих ситуациях необходимо измерить перекрестную энтропию, но распределение неизвестно. Примером является языковое моделирование , где модель создается на основе обучающего набора. , а затем ее перекрестная энтропия измеряется на тестовом наборе, чтобы оценить, насколько точно модель прогнозирует тестовые данные. В этом примере это истинное распределение слов в любом корпусе, и — это распределение слов, предсказанное моделью. Поскольку истинное распределение неизвестно, перекрестную энтропию невозможно вычислить напрямую. В этих случаях оценка перекрестной энтропии рассчитывается по следующей формуле:

где - размер тестового набора, и это вероятность события оценивается по обучающему набору. Другими словами, — это оценка вероятности модели того, что i-е слово текста является . Сумма усредняется по слова теста. Это Монте-Карло , где тестовый набор рассматривается как образцы из оценка истинной перекрестной энтропии методом [ нужна ссылка ] .

Отношение к максимальной вероятности

[ редактировать ]

Перекрестная энтропия возникает в задачах классификации при введении логарифма под видом функции логарифма правдоподобия .

Раздел посвящен теме оценки вероятности различных возможных дискретных исходов. Для этого обозначим параметризованное семейство распределений через , с с учетом усилий по оптимизации. Рассмотрим данную конечную последовательность ценности из обучающей выборки, полученной в результате условно независимой выборки. Вероятность, присвоенная любому рассматриваемому параметру модели тогда определяется произведением по всем вероятностям .Возможны повторения, приводящие к равным коэффициентам в продукте. Если количество вхождений значения равно (для некоторого индекса ) обозначается , то частота этого значения равна . Обозначим последнее через , поскольку его можно понимать как эмпирическое приближение к распределению вероятностей, лежащему в основе сценария. Далее обозначим через недоумение , которое можно рассматривать как равное по правилам расчета логарифма и где произведение превышает значения без двойного счета. Так

или

Поскольку логарифм — монотонно возрастающая функция , он не влияет на экстремизацию. Итак, заметьте, что максимизация правдоподобия означает минимизацию перекрестной энтропии.

Минимизация перекрестной энтропии

[ редактировать ]

Минимизация перекрестной энтропии часто используется при оптимизации и оценке вероятности редких событий. При сравнении распределения против фиксированного эталонного распределения , кросс-энтропия и KL-дивергенция идентичны с точностью до аддитивной константы (поскольку фиксировано): Согласно неравенству Гиббса , оба принимают свои минимальные значения, когда , что для KL-расхождения, и для перекрестной энтропии. В инженерной литературе принцип минимизации KL-дивергенции (« Принцип минимальной дискриминационной информации » Кульбака) часто называют принципом минимальной перекрестной энтропии (MCE), или Minxent .

Однако, как обсуждается в статье « Расхождение Кульбака – Лейблера» , иногда распределение - фиксированное априорное эталонное распределение, а распределение оптимизирован так, чтобы быть как можно ближе к насколько это возможно, с учетом некоторых ограничений. В этом случае две минимизации не эквивалентны. Это привело к некоторой двусмысленности в литературе: некоторые авторы пытались разрешить это несоответствие, вновь заявляя, что кросс-энтропия , скорее, чем . Фактически, перекрестная энтропия — это другое название относительной энтропии ; см. Ковер и Томас [1] и Хорошо. [2] С другой стороны, не согласуется с литературой и может вводить в заблуждение.

Функция перекрестных энтропийных потерь и логистическая регрессия

[ редактировать ]

Перекрестная энтропия может использоваться для определения функции потерь в машинном обучении и оптимизации . Мао, Мори и Чжун (2023) дают обширный анализ свойств семейства функций перекрестных энтропийных потерь в машинах.обучение, включая гарантии теоретического обучения и расширениесостязательное обучение. [3] Истинная вероятность - истинная метка, а данное распределение — прогнозируемое значение текущей модели. Это также известно как логарифмические потери (или логарифмические потери). [4] или логистические потери ); [5] термины «логарифмические потери» и «перекрестные энтропийные потери» используются как взаимозаменяемые. [6]

Более конкретно, рассмотрим модель бинарной регрессии , которую можно использовать для классификации наблюдений на два возможных класса (часто обозначаемых просто как и ). Выходные данные модели для данного наблюдения с учетом вектора входных признаков. , можно интерпретировать как вероятность, которая служит основой для классификации наблюдения. В логистической регрессии вероятность моделируется с помощью логистической функции где — некоторая функция входного вектора , обычно просто линейная функция. Вероятность выхода дается

где вектор весов оптимизируется с помощью некоторого подходящего алгоритма, такого как градиентный спуск . Аналогично, дополнительная вероятность найти выход просто дается

Установив наши обозначения, и , мы можем использовать перекрестную энтропию, чтобы получить меру несходства между и :

На графике показаны различные функции потерь, которые можно использовать для обучения двоичного классификатора. Показан только случай, когда целевой выход равен 1. Замечено, что потери равны нулю, когда целевое значение равно выходному значению, и увеличиваются по мере того, как выходные данные становятся все более неверными.

Логистическая регрессия обычно оптимизирует потери журнала для всех наблюдений, на которых она обучается, что аналогично оптимизации средней перекрестной энтропии в выборке. Для обучения также можно использовать другие функции потерь, которые по-разному наказывают за ошибки, что приводит к получению моделей с разной точностью окончательного теста. [7] Например, предположим, что у нас есть образцы, каждый из которых индексируется . Среднее значение функции потерь тогда определяется следующим образом:

где , с логистическая функция прежняя.

Логистические потери иногда называют кросс-энтропийными потерями. Это также известно как потеря журнала. [ дублирование? ] (В этом случае двоичная метка часто обозначается {−1,+1}. [8] )

Примечание. Градиент потери перекрестной энтропии для логистической регрессии такой же, как градиент потери квадрата ошибки для линейной регрессии . То есть определить

Тогда у нас есть результат

Доказательство состоит в следующем. Для любого , у нас есть

Подобным образом мы в конечном итоге получаем желаемый результат.

Измененная перекрестная энтропия

[ редактировать ]

Может быть полезно обучить ансамбль моделей, которые имеют разнообразие, так что при их объединении точность их прогнозирования увеличивается. [9] [10] Если предположить, что это простой ансамбль классификаторы собираются путем усреднения выходных данных, тогда исправленная кросс-энтропия определяется выражением

где представляет собой функцию стоимости классификатор, - выходная вероятность классификатор, - истинная вероятность, которую необходимо оценить, и — это параметр от 0 до 1, определяющий «разнообразие», которое мы хотели бы установить в ансамбле. Когда мы хотим, чтобы каждый классификатор работал наилучшим образом независимо от ансамбля и времени нам бы хотелось, чтобы классификатор был как можно более разнообразным.

См. также

[ редактировать ]
  1. ^ Томас М. Ковер, Джой А. Томас, Элементы теории информации, 2-е издание, Wiley, с. 80
  2. ^ И. Дж. Гуд, Максимальная энтропия для формулирования гипотез, особенно для многомерных таблиц непредвиденных обстоятельств, Ann. математики. Статистика, 1963 г.
  3. ^ Аньци Мао, Мехриар Мори, Ютао Чжун. Функции перекрестных энтропийных потерь: теоретический анализ и приложения. ICML 2023. https://arxiv.org/pdf/2304.07288.pdf.
  4. ^ Математика кодирования, извлечения и распространения информации , Джордж Цибенко, Дайанна П. О'Лири, Йорма Риссанен, 1999, стр. 82
  5. ^ Вероятность для машинного обучения: узнайте, как использовать неопределенность с помощью Python , Джейсон Браунли, 2019, стр. 220: «Логистические потери относятся к функции потерь, обычно используемой для оптимизации модели логистической регрессии. Ее также можно называть логарифмическими потерями (что сбивает с толку) или просто логарифмическими потерями».
  6. ^ sklearn.metrics.log_loss
  7. ^ Ноэль, Мэтью; Банерджи, Ариндам; Д, Джеральдин Бесси Амали; Мутиа-Накараджан, Венкатараман (17 марта 2023 г.). «Альтернативные функции потерь для классификации и устойчивой регрессии могут повысить точность искусственных нейронных сетей». arXiv : 2303.09935 [ cs.NE ].
  8. ^ Мерфи, Кевин (2012). Машинное обучение: вероятностный взгляд . Массачусетский технологический институт. ISBN  978-0262018029 .
  9. ^ Шохам, Рон; Пермутер, Хаим Х. (2019). «Измененная стоимость перекрестной энтропии: подход к поощрению разнообразия в классификационном ансамбле (краткое объявление)». Ин Долев, Шломи; Хендлер, Дэнни; Лодха, Сачин; Юнг, Моти (ред.). Кибербезопасность, криптография и машинное обучение – Третий международный симпозиум, CSCML 2019, Беэр-Шева, Израиль, 27–28 июня 2019 г., Материалы . Конспекты лекций по информатике. Том. 11527. Спрингер. стр. 202–207. дои : 10.1007/978-3-030-20951-3_18 . ISBN  978-3-030-20950-6 .
  10. ^ Шохам, Рон; Пермутер, Хаим (2020). «Измененная стоимость перекрестной энтропии: основа явного поощрения разнообразия». arXiv : 2007.08140 [ cs.LG ].

Дальнейшее чтение

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 0e16bef783ec6fab0c3a17eed63e8c2a__1721658480
URL1:https://arc.ask3.ru/arc/aa/0e/2a/0e16bef783ec6fab0c3a17eed63e8c2a.html
Заголовок, (Title) документа по адресу, URL1:
Cross-entropy - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)