Функция потерь

В математической оптимизации и теории принятия решений — функция потерь или функция затрат (иногда также называемая функцией ошибок). ^[1] — это функция, которая отображает событие или значения одной или нескольких переменных в действительное число, интуитивно представляющее некоторую «стоимость», связанную с событием. Задача оптимизации направлена на минимизацию функции потерь. Целевая функция — это либо функция потерь, либо ее противоположность (в определенных областях ее по-разному называют функцией вознаграждения , функцией прибыли , функцией полезности , функцией приспособленности и т. д.), и в этом случае она должна быть максимизирована. Функция потерь может включать члены нескольких уровней иерархии.

используется функция потерь В статистике обычно для оценки параметра , а рассматриваемое событие является некоторой функцией разницы между расчетными и истинными значениями для экземпляра данных. Эта концепция, старая еще со времен Лапласа , была вновь введена в статистику Абрахамом Вальдом в середине 20-го века. ^[2] в контексте экономики Например, это обычно экономические издержки или сожаления . В классификации — это наказание за неправильную классификацию примера. В актуарной науке он используется в контексте страхования для моделирования пособий, выплачиваемых сверх премий, особенно после работ Харальда Крамера в 1920-х годах. ^[3] При оптимальном управлении потеря — это штраф за неспособность достичь желаемого значения. В управлении финансовыми рисками эта функция сопоставляется с денежными потерями.

Примеры

Сожалеть

Леонард Дж. Сэвидж утверждал, что при использовании небайесовских методов, таких как минимакс , функция потерь должна основываться на идее сожаления , т. е. потеря, связанная с решением, должна быть разницей между последствиями лучшего решения, которое могло быть принято. было бы принято, если бы были известны основные обстоятельства и решение, которое фактически было принято до того, как они стали известны.

Квадратичная функция потерь

Использование квадратичной функции потерь является обычным явлением, например, при использовании методов наименьших квадратов . Часто она более математически понятна, чем другие функции потерь, из-за свойств дисперсий , а также из-за того, что она симметрична: ошибка выше целевого значения вызывает те же потери, что и та же величина ошибки ниже целевого значения. Если целью является t , то квадратичная функция потерь равна

\lambda (x)=C(t-x)^{2}\;

для некоторой константы C ; значение константы не влияет на решение, и его можно игнорировать, установив его равным 1. Это также известно как потеря в квадрате ошибки ( SEL ). ^[1]

Многие распространенные статистические данные , включая t-тесты , регрессии модели , планирование экспериментов и многое другое, используют методы наименьших квадратов, применяемые с использованием теории линейной регрессии , которая основана на квадратичной функции потерь.

Квадратичная функция потерь также используется в линейно-квадратичных задачах оптимального управления . В этих задачах даже при отсутствии неопределенности может оказаться невозможным достичь желаемых значений всех целевых переменных. Часто потери выражаются в виде квадратичной формы отклонений интересующих переменных от их желаемых значений; этот подход является приемлемым , поскольку он приводит к линейным условиям первого порядка . В контексте стохастического управления используется ожидаемое значение квадратичной формы. Квадратичные потери придают большее значение выбросам, чем истинным данным, из-за их квадратичного характера, поэтому такие альтернативы, как потери Хубера , Log-Cash и SMAE, используются, когда данные имеют много больших выбросов.

функция потерь 0-1

В статистике и теории принятия решений часто используемой функцией потерь является функция потерь 0–1.

L({\hat {y}},y)=\left[{\hat {y}}\neq y\right]

используя обозначение скобок Айверсона , т.е. оно оценивается как 1, когда ${\hat {y}}\neq y$ , и 0 в противном случае.

Построение потерь и целевых функций

Во многих приложениях целевые функции, в том числе функции потерь как частный случай, определяются постановкой задачи. В других ситуациях предпочтение лица, принимающего решения, должно быть выявлено и представлено скалярной функцией (также называемой функцией полезности ) в форме, подходящей для оптимизации — проблема, которую Рагнар Фриш подчеркнул в своей лекции, получившей Нобелевскую премию. ^[4]Существующие методы построения целевых функций собраны в материалах двух специализированных конференций. ^[5]^[6]В частности, Андраник Тангян показал, что наиболее полезные целевые функции — квадратичные и аддитивные — определяются несколькими точками безразличия. Он использовал это свойство в моделях для построения этих целевых функций на основе порядковых или кардинальных данных, полученных с помощью компьютерных интервью с лицами, принимающими решения. ^[7]^[8] Среди прочего он построил целевые функции для оптимального распределения бюджетов 16 Вестфальских университетов. ^[9]и европейские субсидии на выравнивание уровня безработицы в 271 регионе Германии. ^[10]

Ожидаемый убыток

В некоторых контекстах значение функции потерь само по себе является случайной величиной, поскольку оно зависит от результата случайной X. величины

Статистика

И частотная , и байесовская статистическая теория предполагают принятие решения на основе ожидаемого значения функции потерь; однако эта величина определяется по-разному в рамках двух парадигм.

Ожидаемые потери по частоте

Сначала мы определяем ожидаемые потери в частотном контексте. Его получают путем принятия ожидаемого значения относительно распределения вероятностей P θ _{наблюдаемых} данных X . Это также называется функцией риска. ^[11]^[12]^[13]^[14] решающего правила δ и параметра θ . зависит от результата X. Здесь решающее правило Функция риска определяется следующим образом:

R(\theta ,\delta )=\operatorname {E} _{\theta }L{\big (}\theta ,\delta (X){\big )}=\int _{X}L{\big (}\theta ,\delta (x){\big )}\,\mathrm {d} P_{\theta }(x).

Здесь θ — фиксированное, но, возможно, неизвестное состояние природы, X — вектор наблюдений, стохастически полученных из популяции , $\operatorname {E} _{\theta }$ — математическое ожидание по всем значениям совокупности X , dP _θ — мера в пространстве событий X (параметризованная θ а интеграл вычисляется по всей опоре X. вероятностная ) ,

Байесовский риск

В байесовском подходе математическое ожидание рассчитывается с использованием априорного распределения $π$ ^* параметра θ :

\rho (\pi ^{*},a)=\int _{\Theta }\int _{\mathbf {X}}L(\theta ,a({\mathbf {x}}))\,\mathrm {d} P({\mathbf {x}}\vert \theta )\,\mathrm {d} \pi ^{*}(\theta )=\int _{\mathbf {X}}\int _{\Theta }L(\theta ,a({\mathbf {x}}))\,\mathrm {d} \pi ^{*}(\theta \vert {\mathbf {x}})\,\mathrm {d} M({\mathbf {x}})

где m(x) известно как вероятность прогнозирования , при этом θ было «интегрировано», $π$ ^* (θ | x) — апостериорное распределение, порядок интегрирования изменен. Затем следует выбрать действие ^* который минимизирует эти ожидаемые потери, называемые риском Байеса. ^[12]. В последнем уравнении подынтегральная функция внутри dx известна как апостериорный риск , и его минимизация относительно решения a также минимизирует общий байесовский риск. , Это оптимальное решение ^* известно как правило Байеса (правило решения) — оно минимизирует средние потери для всех возможных состояний природы θ, для всех возможных (взвешенных по вероятности) результатов данных. Одним из преимуществ байесовского подхода является то, что для получения равномерно оптимального действия нужно только выбрать оптимальное действие на основе фактических наблюдаемых данных, тогда как выбор фактического частотного оптимального правила принятия решения как функции всех возможных наблюдений является гораздо более сложной проблемой. . Не менее важно и то, что правило Байеса отражает рассмотрение результатов потерь при различных состояниях природы, θ.

Примеры в статистике

Для скалярного параметра θ функция решения, выходные данные которой ${\hat {\theta }}$ является оценкой θ и квадратичной функцией потерь ( потери в квадрате ошибки ) $L(\theta ,{\hat {\theta }})=(\theta -{\hat {\theta }})^{2},$ функция риска становится среднеквадратичной ошибкой оценки, $R(\theta ,{\hat {\theta }})=\operatorname {E} _{\theta }(\theta -{\hat {\theta }})^{2}.$ Оценщик , найденный путем минимизации среднеквадратической ошибки, оценивает среднее значение апостериорного распределения .
При оценке плотности неизвестным параметром является сама плотность вероятности . Функция потерь обычно выбирается в качестве нормы в соответствующем функциональном пространстве . Например, для Л ² норма , $L(f,{\hat {f}})=\|f-{\hat {f}}\|_{2}^{2}\,,$ функция риска становится среднеинтегральной квадратичной ошибкой $R(f,{\hat {f}})=\operatorname {E} \|f-{\hat {f}}\|^{2}.\,$

Экономический выбор в условиях неопределенности

В экономике принятие решений в условиях неопределенности часто моделируется с использованием функции полезности фон Неймана-Моргенштерна неопределенной переменной, представляющей интерес, такой как богатство на конец периода. Поскольку значение этой переменной неопределенно, то же самое относится и к значению функции полезности; максимизируется ожидаемая ценность полезности.

Правила принятия решений

делает Решающее правило выбор, используя критерий оптимальности. Некоторые часто используемые критерии:

Минимакс : выберите правило принятия решения с наименьшими наихудшими потерями, то есть минимизируйте наихудшие (максимально возможные) потери: ${\underset {\delta }{\operatorname {arg\,min} }}\ \max _{\theta \in \Theta }\ R(\theta ,\delta ).$
Инвариантность : выберите правило принятия решения, которое удовлетворяет требованию инвариантности.
Выберите правило принятия решения с наименьшими средними потерями (т.е. минимизируйте ожидаемое значение функции потерь): ${\underset {\delta }{\operatorname {arg\,min} }}\operatorname {E} _{\theta \in \Theta }[R(\theta ,\delta )]={\underset {\delta }{\operatorname {arg\,min} }}\ \int _{\theta \in \Theta }R(\theta ,\delta )\,p(\theta )\,d\theta .$

Выбор функции потерь

Разумная статистическая практика требует выбора оценщика, соответствующего фактическому приемлемому отклонению, наблюдаемому в контексте конкретной прикладной задачи. Таким образом, при прикладном использовании функций потерь выбор статистического метода для моделирования прикладной проблемы зависит от знания потерь, которые будут понесены из-за неправильного решения в конкретных обстоятельствах проблемы. ^[15]

Типичный пример включает оценку « местоположения ». При типичных статистических предположениях среднее или среднее значение — это статистика для оценки местоположения, которая минимизирует ожидаемые потери, понесенные при использовании функции потерь с квадратичной ошибкой , а медиана — это оценка, которая минимизирует ожидаемые потери, понесенные при использовании функции потерь с абсолютной разностью. И все же другие оценки были бы оптимальны при других, менее распространенных обстоятельствах.

В экономике, когда агент нейтральен к риску , целевая функция просто выражается как ожидаемое значение денежной величины, такой как прибыль, доход или богатство на конец периода. Для агентов, не склонных к риску или любящих риск , потери измеряются как отрицательная функция полезности , а целевой функцией, подлежащей оптимизации, является ожидаемое значение полезности.

Возможны и другие меры затрат, например, смертность или заболеваемость в области общественного здравоохранения или техники безопасности .

Для большинства алгоритмов оптимизации желательно иметь глобально непрерывную и дифференцируемую функцию потерь .

Двумя наиболее часто используемыми функциями потерь являются квадрат потерь , $L(a)=a^{2}$ и абсолютная потеря , $L(a)=|a|$ . Однако абсолютные потери имеют тот недостаток, что они не дифференцируемы при $a=0$ . Квадрат потерь имеет тот недостаток, что в нем доминируют выбросы — при суммировании по набору $a$ 's (как в ${\textstyle \sum _{i=1}^{n}L(a_{i})}$ ), окончательная сумма, как правило, является результатом нескольких особенно больших значений a , а не выражением среднего значения a .

Выбор функции потерь не является произвольным. Она очень ограничительна, и иногда функция потерь может характеризоваться желательными свойствами. ^[16] К числу принципов выбора относятся, например, требование полноты класса симметричной статистики в случае иид -наблюдений, принцип полной информации и некоторые другие.

У. Эдвардс Деминг и Нассим Николас Талеб утверждают, что эмпирическая реальность, а не хорошие математические свойства, должна быть единственной основой для выбора функций потерь, а реальные потери часто не являются математически точными, не дифференцируемы, непрерывны, симметричны и т. д. Например, человек, который прибывает до закрытия ворот самолета, все равно может успеть на самолет, но человек, который прибывает после, не может, из-за непостоянства и асимметрии, из-за которых прибытие с небольшим опозданием обходится гораздо дороже, чем прибытие немного раньше. При дозировании лекарств цена слишком малого количества лекарства может заключаться в отсутствии эффективности, тогда как цена слишком большого количества может заключаться в переносимой токсичности, что является еще одним примером асимметрии. Движение транспорта, трубы, балки, экология, климат и т. д. могут до определенного момента выдерживать повышенную нагрузку или напряжение с незначительными заметными изменениями, а затем подвергаться заклиниванию или катастрофически ломаться. Такие ситуации, утверждают Деминг и Талеб, часто встречаются в реальных задачах, возможно, даже чаще, чем классические случаи гладких, непрерывных, симметричных дифференциалов. ^[17]

См. также

Ссылки

^ Jump up to: ^а ^б Хасти, Тревор; Тибширани, Роберт ; Фридман, Джером Х. (2001). Элементы статистического обучения . Спрингер. п. 18. ISBN 0-387-95284-5 .
^ Уолд, А. (1950). Статистические функции принятия решений . Уайли.
^ Крамер, Х. (1930). К математической теории риска . Центральная трикерия.
^ Фриш, Рагнар (1969). «От утопической теории к практическим приложениям: случай эконометрики». Лекция о Нобелевской премии . Проверено 15 февраля 2021 г.
^ Тангиан, Андраник; Грубер, Йозеф (1997). Построение скалярнозначных целевых функций. Материалы третьей международной конференции по эконометрическим моделям принятия решений: построение скалярнозначных целевых функций, Университет Хагена, состоявшейся в Католической академии Шверте 5–8 сентября 1995 г. Конспект лекций по экономике и математическим системам. Том. 453. Берлин: Шпрингер. дои : 10.1007/978-3-642-48773-6 . ISBN 978-3-540-63061-6 .
^ Тангиан, Андраник; Грубер, Йозеф (2002). Построение и применение целевых функций. Материалы четвертой международной конференции по построению и применению эконометрических моделей принятия решений, Университет Хагена, состоявшейся в Хаус Нордхелле, 28–31 августа 2000 г. Конспект лекций по экономике и математическим системам. Том. 510. Берлин: Шпрингер. дои : 10.1007/978-3-642-56038-5 . ISBN 978-3-540-42669-1 .
^ Тангиан, Андраник (2002). «Построение квазивогнутой квадратичной целевой функции на основе интервью с лицом, принимающим решения». Европейский журнал операционных исследований . 141 (3): 608–640. дои : 10.1016/S0377-2217(01)00185-0 . S2CID 39623350 .
^ Тангиан, Андраник (2004). «Модель порядкового построения аддитивных целевых функций». Европейский журнал операционных исследований . 159 (2): 476–512. дои : 10.1016/S0377-2217(03)00413-2 . S2CID 31019036 .
^ Тангиан, Андраник (2004). «Перераспределение университетских бюджетов с учетом статус-кво». Европейский журнал операционных исследований . 157 (2): 409–428. дои : 10.1016/S0377-2217(03)00271-6 .
^ Тангиан, Андраник (2008). «Многокритериальная оптимизация региональной политики занятости: симуляционный анализ для Германии» . Обзор городского и регионального развития . 20 (2): 103–122. дои : 10.1111/j.1467-940X.2008.00144.x .
^ Никулин, М.С. (2001) [1994], «Риск статистической процедуры» , Энциклопедия Математики , EMS Press
^ Бергер, Джеймс О. (1985). Статистическая теория принятия решений и байесовский анализ (2-е изд.). Нью-Йорк: Springer-Verlag. Бибкод : 1985sdtb.book.....B . ISBN 978-0-387-96098-2 . МР 0804611 .
^ ДеГрут, Моррис (2004) [1970]. Оптимальные статистические решения . Библиотека классической литературы Уайли. ISBN 978-0-471-68029-1 . МР 2288194 .
^ Роберт, Кристиан П. (2007). Байесовский выбор . Тексты Springer в статистике (2-е изд.). Нью-Йорк: Спрингер. дои : 10.1007/0-387-71599-1 . ISBN 978-0-387-95231-4 . МР 1835885 .
^ Пфанзагль, Дж. (1994). Параметрическая статистическая теория . Берлин: Вальтер де Грюйтер. ISBN 978-3-11-013863-4 .
^ Подробная информация о математических принципах выбора функции потерь приведена в главе 2 книги. Клебанов Б.; Рачев, Светлозат Т.; Фабоцци, Фрэнк Дж. (2009). Робастные и неробастные модели в статистике . Нью-Йорк: Nova Scientific Publishers, Inc. (и ссылки там).
^ Деминг, В. Эдвардс (2000). Выход из кризиса . Массачусетский технологический институт Пресс. ISBN 9780262541152 .

Дальнейшее чтение

Арец, Кевин; Бартрам, Зёнке М.; Папа, Питер Ф. (апрель – июнь 2011 г.). «Асимметричные функции потерь и рациональность ожидаемой доходности акций» (PDF) . Международный журнал прогнозирования . 27 (2): 413–437. doi : 10.1016/j.ijforecast.2009.10.008 . ССНР 889323 .
Бергер, Джеймс О. (1985). Статистическая теория принятия решений и байесовский анализ (2-е изд.). Нью-Йорк: Springer-Verlag. Бибкод : 1985sdtb.book.....B . ISBN 978-0-387-96098-2 . МР 0804611 .

Чекетти, С. (2000). «Проведение денежно-кредитной политики: цели и правила» . Оксфордский обзор экономической политики . 16 (4): 43–59. дои : 10.1093/oxrep/16.4.43 .

Горовиц, Энн Р. (1987). «Функции потерь и государственная политика». Журнал макроэкономики . 9 (4): 489–504. дои : 10.1016/0164-0704(87)90016-4 .

Во, Роджер Н. (1976). «Асимметричные функции полезности политика и оптимальная политика в условиях неопределенности». Эконометрика . 44 (1): 53–66. дои : 10.2307/1911380 . JSTOR 1911380 .

[ttf2001-1] Jump up to: ^а ^б Хасти, Тревор; Тибширани, Роберт ; Фридман, Джером Х. (2001). Элементы статистического обучения . Спрингер. п. 18. ISBN 0-387-95284-5 .

[2] Уолд, А. (1950). Статистические функции принятия решений . Уайли.

[3] Крамер, Х. (1930). К математической теории риска . Центральная трикерия.

[4] Фриш, Рагнар (1969). «От утопической теории к практическим приложениям: случай эконометрики». Лекция о Нобелевской премии . Проверено 15 февраля 2021 г.

[TangianGruber1997-5] Тангиан, Андраник; Грубер, Йозеф (1997). Построение скалярнозначных целевых функций. Материалы третьей международной конференции по эконометрическим моделям принятия решений: построение скалярнозначных целевых функций, Университет Хагена, состоявшейся в Католической академии Шверте 5–8 сентября 1995 г. Конспект лекций по экономике и математическим системам. Том. 453. Берлин: Шпрингер. дои : 10.1007/978-3-642-48773-6 . ISBN 978-3-540-63061-6 .

[TangianGruber2002-6] Тангиан, Андраник; Грубер, Йозеф (2002). Построение и применение целевых функций. Материалы четвертой международной конференции по построению и применению эконометрических моделей принятия решений, Университет Хагена, состоявшейся в Хаус Нордхелле, 28–31 августа 2000 г. Конспект лекций по экономике и математическим системам. Том. 510. Берлин: Шпрингер. дои : 10.1007/978-3-642-56038-5 . ISBN 978-3-540-42669-1 .

[Tangian2002-7] Тангиан, Андраник (2002). «Построение квазивогнутой квадратичной целевой функции на основе интервью с лицом, принимающим решения». Европейский журнал операционных исследований . 141 (3): 608–640. дои : 10.1016/S0377-2217(01)00185-0 . S2CID 39623350 .

[Tangian2004additiveUtility-8] Тангиан, Андраник (2004). «Модель порядкового построения аддитивных целевых функций». Европейский журнал операционных исследований . 159 (2): 476–512. дои : 10.1016/S0377-2217(03)00413-2 . S2CID 31019036 .

[Tangian2004universityBudgets-9] Тангиан, Андраник (2004). «Перераспределение университетских бюджетов с учетом статус-кво». Европейский журнал операционных исследований . 157 (2): 409–428. дои : 10.1016/S0377-2217(03)00271-6 .

[Tangian2008RegionalEnemployment-10] Тангиан, Андраник (2008). «Многокритериальная оптимизация региональной политики занятости: симуляционный анализ для Германии» . Обзор городского и регионального развития . 20 (2): 103–122. дои : 10.1111/j.1467-940X.2008.00144.x .

[11] Никулин, М.С. (2001) [1994], «Риск статистической процедуры» , Энциклопедия Математики , EMS Press

[12] Бергер, Джеймс О. (1985). Статистическая теория принятия решений и байесовский анализ (2-е изд.). Нью-Йорк: Springer-Verlag. Бибкод : 1985sdtb.book.....B . ISBN 978-0-387-96098-2 . МР 0804611 .

[13] ДеГрут, Моррис (2004) [1970]. Оптимальные статистические решения . Библиотека классической литературы Уайли. ISBN 978-0-471-68029-1 . МР 2288194 .

[14] Роберт, Кристиан П. (2007). Байесовский выбор . Тексты Springer в статистике (2-е изд.). Нью-Йорк: Спрингер. дои : 10.1007/0-387-71599-1 . ISBN 978-0-387-95231-4 . МР 1835885 .

[15] Пфанзагль, Дж. (1994). Параметрическая статистическая теория . Берлин: Вальтер де Грюйтер. ISBN 978-3-11-013863-4 .

[16] Подробная информация о математических принципах выбора функции потерь приведена в главе 2 книги. Клебанов Б.; Рачев, Светлозат Т.; Фабоцци, Фрэнк Дж. (2009). Робастные и неробастные модели в статистике . Нью-Йорк: Nova Scientific Publishers, Inc. (и ссылки там).

[17] Деминг, В. Эдвардс (2000). Выход из кризиса . Массачусетский технологический институт Пресс. ISBN 9780262541152 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]