~~~~~~~~~~~~~~~~~~~~ Arc.Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~ 
Номер скриншота №:
✰ 9BA0154D9FD86FA7D285994203157930__1717982220 ✰
Заголовок документа оригинал.:
✰ Cross-entropy - Wikipedia ✰
Заголовок документа перевод.:
✰ Перекрестная энтропия — Википедия ✰
Снимок документа находящегося по адресу (URL):
✰ https://en.wikipedia.org/wiki/Cross-entropy ✰
Адрес хранения снимка оригинал (URL):
✰ https://arc.ask3.ru/arc/aa/9b/30/9ba0154d9fd86fa7d285994203157930.html ✰
Адрес хранения снимка перевод (URL):
✰ https://arc.ask3.ru/arc/aa/9b/30/9ba0154d9fd86fa7d285994203157930__translat.html ✰
Дата и время сохранения документа:
✰ 18.06.2024 17:11:14 (GMT+3, MSK) ✰
Дата и время изменения документа (по данным источника):
✰ 10 June 2024, at 04:17 (UTC). ✰ 

~~~~~~~~~~~~~~~~~~~~~~ Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~~ 
Сервисы Ask3.ru: 
 Архив документов (Снимки документов, в формате HTML, PDF, PNG - подписанные ЭЦП, доказывающие существование документа в момент подписи. Перевод сохраненных документов на русский язык.)https://arc.ask3.ruОтветы на вопросы (Сервис ответов на вопросы, в основном, научной направленности)https://ask3.ru/answer2questionТоварный сопоставитель (Сервис сравнения и выбора товаров) ✰✰
✰ https://ask3.ru/product2collationПартнерыhttps://comrades.ask3.ru


Совет. Чтобы искать на странице, нажмите Ctrl+F или ⌘-F (для MacOS) и введите запрос в поле поиска.
Arc.Ask3.ru: далее начало оригинального документа

Перекрестная энтропия — Википедия Jump to content

Перекрестная энтропия

Из Википедии, бесплатной энциклопедии

В теории информации между перекрестная энтропия двумя распределениями вероятностей и , по одному и тому же базовому набору событий, измеряет среднее количество битов , необходимых для идентификации события, взятого из набора, когда схема кодирования, используемая для набора, оптимизирована для предполагаемого распределения вероятностей. , а не истинное распределение .

Определение [ править ]

Перекрестная энтропия распределения относительно распределения по заданному множеству определяется следующим образом:

,

где оператор ожидаемого значения относительно распределения .

Определение можно сформулировать с использованием расхождения Кульбака – Лейблера. , расхождение от (также известная как относительная энтропия относительно ).

где это энтропия .

Для дискретных распределений вероятностей и с той же поддержкой , это означает

. ( Уравнение 1 )

ситуация и для непрерывных Аналогичная распределений. Мы должны предположить, что и относительно абсолютно непрерывны некоторой эталонной меры (обычно является мерой Лебега на борелевской σ-алгебре ). Позволять и — функции плотности вероятности и относительно . Затем

и поэтому

. ( Уравнение 2 )

Примечание: Обозначения также используется для другого понятия - энтропии совместной и .

Мотивация [ править ]

В теории информации теорема Крафта -Макмиллана устанавливает, что любая непосредственно декодируемая схема кодирования для кодирования сообщения для идентификации одного значения из множества возможностей можно рассматривать как представление неявного распределения вероятностей над , где длина кода для в битах. Следовательно, перекрестную энтропию можно интерпретировать как ожидаемую длину сообщения на единицу данных при неправильном распределении. предполагается, в то время как данные фактически следуют распределению . Вот почему математическое ожидание принимается за истинное распределение вероятностей. и не Действительно, ожидаемая длина сообщения при истинном распределении является

Оценка [ править ]

Во многих ситуациях необходимо измерить перекрестную энтропию, но распределение неизвестно. Примером является языковое моделирование , где модель создается на основе обучающего набора. , а затем ее перекрестная энтропия измеряется на тестовом наборе, чтобы оценить, насколько точно модель прогнозирует тестовые данные. В этом примере это истинное распределение слов в любом корпусе, и — это распределение слов, предсказанное моделью. Поскольку истинное распределение неизвестно, перекрестную энтропию невозможно вычислить напрямую. В этих случаях оценка перекрестной энтропии рассчитывается по следующей формуле:

где - размер тестового набора, и это вероятность события оценивается по обучающему набору. Другими словами, — это оценка вероятности модели того, что i-е слово текста является . Сумма усредняется по слова теста. Это Монте-Карло , где тестовый набор рассматривается как образцы из оценка истинной перекрестной энтропии методом [ нужна цитата ] .

к вероятности Отношение максимальной

Перекрестная энтропия возникает в задачах классификации при введении логарифма под видом функции логарифма правдоподобия .

Раздел посвящен теме оценки вероятности различных возможных дискретных исходов. Для этого обозначим параметризованное семейство распределений через , с с учетом усилий по оптимизации. Рассмотрим данную конечную последовательность ценности из обучающей выборки, полученной в результате условно независимой выборки. Вероятность, присвоенная любому рассматриваемому параметру модели тогда определяется произведением по всем вероятностям . Возможны повторения, приводящие к равным коэффициентам в продукте. Если количество вхождений значения равно (для некоторого индекса ) обозначается , то частота этого значения равна . Обозначим последнее через , поскольку его можно понимать как эмпирическое приближение к распределению вероятностей, лежащему в основе сценария. Далее обозначим через недоумение , которое можно рассматривать как равное по правилам расчета логарифма и где произведение превышает значения без двойного счета. Так

или

Поскольку логарифм — монотонно возрастающая функция , он не влияет на экстремизацию. Итак, заметьте, что максимизация правдоподобия означает минимизацию перекрестной энтропии.

Минимизация перекрестной энтропии [ править ]

Минимизация перекрестной энтропии часто используется при оптимизации и оценке вероятности редких событий. При сравнении распределения против фиксированного эталонного распределения , кросс-энтропия и KL-дивергенция идентичны с точностью до аддитивной константы (поскольку фиксировано): Согласно неравенству Гиббса , оба принимают свои минимальные значения, когда , который для KL-расхождения, и для перекрестной энтропии. » Кульбака В инженерной литературе принцип минимизации KL-дивергенции (« Принцип минимальной дискриминационной информации ) часто называют принципом минимальной перекрестной энтропии (MCE), или Minxent .

Однако, как обсуждается в статье «Расхождение Кульбака – Лейблера» , иногда распределение - фиксированное априорное эталонное распределение, а распределение оптимизирован так, чтобы быть как можно ближе к насколько это возможно, с учетом некоторых ограничений. В этом случае две минимизации не эквивалентны. Это привело к некоторой двусмысленности в литературе: некоторые авторы пытались разрешить это несоответствие, вновь заявляя, что кросс-энтропия , скорее, чем . Фактически, перекрестная энтропия — это другое название относительной энтропии ; см. Ковер и Томас [1] и хорошо. [2] С другой стороны, не согласуется с литературой и может вводить в заблуждение.

кросс-энтропийных потерь и регрессия Функция логистическая

Перекрестная энтропия может использоваться для определения функции потерь в машинном обучении и оптимизации . Истинная вероятность - истинная метка, а данное распределение — прогнозируемое значение текущей модели. Это также известно как логарифмические потери (или логарифмические потери). [3] или логистические потери ); [4] термины «логарифмические потери» и «перекрестные энтропийные потери» используются как взаимозаменяемые. [5]

Более конкретно, рассмотрим модель бинарной регрессии , которую можно использовать для классификации наблюдений на два возможных класса (часто обозначаемых просто как и ). Выходные данные модели для данного наблюдения с учетом вектора входных признаков. , можно интерпретировать как вероятность, которая служит основой для классификации наблюдения. В логистической регрессии вероятность моделируется с помощью логистической функции где — некоторая функция входного вектора , обычно просто линейная функция. Вероятность выхода дан кем-то

где вектор весов оптимизируется с помощью некоторого подходящего алгоритма, такого как градиентный спуск . Аналогично, дополнительная вероятность найти выход просто дается

Установив наши обозначения, и , мы можем использовать перекрестную энтропию, чтобы получить меру несходства между и :

На графике показаны различные функции потерь, которые можно использовать для обучения двоичного классификатора. Показан только случай, когда целевой выход равен 1. Замечено, что потери равны нулю, когда целевое значение равно выходному значению, и увеличиваются по мере того, как выходные данные становятся все более неверными.

Логистическая регрессия обычно оптимизирует потери журнала для всех наблюдений, на которых она обучается, что аналогично оптимизации средней перекрестной энтропии в выборке. Для обучения также можно использовать другие функции потерь, которые по-разному наказывают за ошибки, в результате чего получаются модели с различной точностью окончательного теста. [6] Например, предположим, что у нас есть образцы, каждый из которых индексируется . Среднее значение функции потерь тогда определяется следующим образом:

где , с логистическая функция прежняя.

Логистические потери иногда называют кросс-энтропийными потерями. Это также известно как потеря журнала. [ дублирование? ] (В этом случае двоичная метка часто обозначается {−1,+1}. [7] )

Примечание. Градиент потери перекрестной энтропии для логистической регрессии такой же, как градиент потери квадрата ошибки для линейной регрессии . То есть определить

Тогда у нас есть результат

Доказательство состоит в следующем. Для любого , у нас есть

Подобным образом мы в конечном итоге получаем желаемый результат.

Измененная стоимость перекрестной энтропии: подход к поощрению разнообразия ансамбле в классификационном

В некоторых случаях хотелось бы обучить ансамбль разнообразных моделей, чтобы их объединение давало наилучшие результаты. [8] [9] Предполагая, что мы используем простой ансамбль усреднения классификаторы. Тогда исправленная стоимость перекрестной энтропии равна

где представляет собой функцию стоимости классификатор, это вероятность классификатор, истинная вероятность, которую нам нужно оценить и — это параметр от 0 до 1, определяющий разнообразие, которое мы хотели бы создать. Когда мы хотим, чтобы каждый классификатор делал все возможное независимо от ансамбля и времени нам бы хотелось, чтобы классификатор был как можно более разнообразным.

См. также [ править ]

Ссылки [ править ]

  1. ^ Томас М. Ковер, Джой А. Томас, Элементы теории информации, 2-е издание, Wiley, с. 80
  2. ^ И. Дж. Гуд, Максимальная энтропия для формулирования гипотез, особенно для многомерных таблиц непредвиденных обстоятельств, Ann. математики. Статистика, 1963 г.
  3. ^ Математика кодирования, извлечения и распространения информации , Джордж Цибенко, Дайанна П. О'Лири, Йорма Риссанен, 1999, с. 82
  4. ^ Вероятность для машинного обучения: узнайте, как использовать неопределенность с помощью Python , Джейсон Браунли, 2019, стр. 220: «Логистические потери относятся к функции потерь, обычно используемой для оптимизации модели логистической регрессии. Ее также можно называть логарифмическими потерями (что сбивает с толку) или просто логарифмическими потерями».
  5. ^ sklearn.metrics.log_loss
  6. ^ Ноэль, Мэтью; Банерджи, Ариндам; Д, Джеральдин Бесси Амали; Мутиа-Накараджан, Венкатараман (17 марта 2023 г.). «Альтернативные функции потерь для классификации и устойчивой регрессии могут повысить точность искусственных нейронных сетей». arXiv : 2303.09935 .
  7. ^ Мерфи, Кевин (2012). Машинное обучение: вероятностный взгляд . Массачусетский технологический институт. ISBN  978-0262018029 .
  8. ^ Шохам, Рон; Пермутер, Хаим Х. (2019). «Измененная стоимость перекрестной энтропии: подход к поощрению разнообразия в классификационном ансамбле (краткое объявление)». Ин Долев, Шломи; Хендлер, Дэнни; Лодха, Сачин; Юнг, Моти (ред.). Кибербезопасность, криптография и машинное обучение – Третий международный симпозиум, CSCML 2019, Беэр-Шева, Израиль, 27–28 июня 2019 г., Материалы . Конспекты лекций по информатике. Том. 11527. Спрингер. стр. 202–207. дои : 10.1007/978-3-030-20951-3_18 .
  9. ^ Шохам, Рон; Пермутер, Хаим (2020). «Измененная стоимость перекрестной энтропии: основа явного поощрения разнообразия». arXiv : 2007.08140 [ cs.LG ].

Дальнейшее чтение [ править ]

Arc.Ask3.Ru: конец оригинального документа.
Arc.Ask3.Ru
Номер скриншота №: 9BA0154D9FD86FA7D285994203157930__1717982220
URL1:https://en.wikipedia.org/wiki/Cross-entropy
Заголовок, (Title) документа по адресу, URL1:
Cross-entropy - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть, любые претензии не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, денежную единицу можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)