Прогнозное моделирование
![]() |
Прогнозное моделирование использует статистику для прогнозирования результатов. [1] Чаще всего событие, которое нужно предсказать, произойдет в будущем, но прогнозное моделирование можно применять к любому типу неизвестного события, независимо от того, когда оно произошло. Например, прогностические модели часто используются для выявления преступлений и выявления подозреваемых после того, как преступление уже произошло. [2]
Во многих случаях модель выбирается на основе теории обнаружения, чтобы попытаться угадать вероятность результата с учетом заданного количества входных данных, например, с учетом электронного письма, определяющего, насколько вероятно, что это спам .
Модели могут использовать один или несколько классификаторов , пытаясь определить вероятность принадлежности набора данных другому набору. Например, модель может использоваться для определения того, является ли электронное письмо спамом или «неспамом» (не спамом).
В зависимости от границ определений, прогнозное моделирование является синонимом или во многом пересекается с областью машинного обучения , как ее чаще называют в академическом контексте или в контексте исследований и разработок. При коммерческом применении прогнозное моделирование часто называют прогнозной аналитикой .
Прогнозное моделирование часто противопоставляют причинному моделированию /анализу. В первом случае можно быть полностью удовлетворенным использованием индикаторов или заменителей интересующего результата. В последнем стремятся определить истинные причинно-следственные связи. Это различие породило растущую литературу в области исследовательских методов и статистики, а также общее утверждение, что « корреляция не подразумевает причинно-следственную связь ».
Модели [ править ]
практически любую статистическую модель Для целей прогнозирования можно использовать . Вообще говоря, существует два класса прогнозных моделей: параметрические и непараметрические . Третий класс, полупараметрические модели, включает в себя черты обоих. Параметрические модели делают «конкретные предположения в отношении одного или нескольких параметров совокупности, которые характеризуют основное распределение (распределения)». [3] Непараметрические модели «обычно включают меньше предположений о структуре и форме распределения [чем параметрические модели], но обычно содержат строгие предположения о независимости». [4]
Приложения [ править ]
Моделирование поднятия [ править ]
Моделирование подъема — это метод моделирования изменения вероятности, вызванного действием. Обычно это маркетинговое действие, такое как предложение купить продукт, использовать его чаще или переподписать контракт. Например, вкампания по удержанию, в которой вы хотите спрогнозировать изменение вероятности того, что клиент останется клиентом, если с ним свяжутся. Модель изменения вероятности позволяет нацелить кампанию по удержанию на тех клиентов, которым изменение вероятности будет выгодно. Это позволяет программе удержания избежать ненужного оттока или истощения клиентов, не тратя деньги на контакты с людьми, которые все равно будут действовать.
Археология [ править ]
Прогнозное моделирование в археологии берет свое начало в работе Гордона Уилли , проведенной в середине пятидесятых годов в долине Виру в Перу. [5] Были проведены полные интенсивные исследования, после чего была определена ковариантность между культурными остатками и природными особенностями, такими как склон и растительность. Развитие количественных методов и большая доступность применимых данных привели к росту этой дисциплины в 1960-х годах, а к концу 1980-х годов основные землепользователи во всем мире добились существенного прогресса.
Как правило, прогнозное моделирование в археологии устанавливает статистически обоснованные причинно-следственные или ковариационные связи между природными показателями, такими как типы почв, высота, уклон, растительность, близость к воде, геология, геоморфология и т. д., а также наличие археологических особенностей. Посредством анализа этих количественных характеристик земель, подвергшихся археологическому исследованию, иногда можно предсказать «археологическую чувствительность» необследованных территорий на основе естественных показателей в этих областях. Крупные землеустроители в США, такие как Бюро землеустройства (BLM), Министерство обороны (DOD), [6] [7] и многочисленные дорожные и парковые агентства успешно применили эту стратегию. Используя прогнозное моделирование в своих планах управления культурными ресурсами, они способны принимать более обоснованные решения при планировании деятельности, которая может потребовать нарушения грунта и впоследствии повлиять на археологические объекты.
Управление взаимоотношениями с клиентами [ править ]
Прогнозное моделирование широко используется в аналитическом управлении взаимоотношениями с клиентами и интеллектуальном анализе данных для создания моделей на уровне клиента, которые описывают вероятность того, что клиент предпримет определенное действие. Действия обычно связаны с продажами, маркетингом и удержанием клиентов .
Например, крупная потребительская организация, такая как оператор мобильной связи, будет иметь набор прогнозных моделей для перекрестных продаж продуктов , глубоких продаж продуктов (или дополнительных продаж ) и оттока клиентов . В настоящее время для таких организаций также более распространена модель сохраняемости, использующая модель подъема . Это прогнозирует вероятность того, что клиент может быть сохранен в конце срока действия контракта (изменение вероятности оттока) в отличие от стандартной модели прогнозирования оттока.
Автострахование [ править ]
Прогнозное моделирование используется в страховании транспортных средств для распределения риска происшествий среди держателей полисов на основе информации, полученной от держателей полисов. Это широко используется в страховых решениях на основе использования , где прогнозные модели используют данные телеметрии для построения модели прогнозируемого риска для вероятности претензий. [ нужна ссылка ] Прогнозирующие модели автострахования «черный ящик» используют только входные данные датчиков GPS или акселерометра . [ нужна ссылка ] Некоторые модели включают в себя широкий спектр прогнозных данных, помимо базовой телеметрии, включая усовершенствованное поведение вождения, независимые записи аварий, историю дорог и профили пользователей, чтобы обеспечить улучшенные модели риска. [ нужна ссылка ]
Здравоохранение [ править ]
В 2009 году Parkland Health & Hospital System начала анализировать электронные медицинские записи , чтобы использовать прогнозное моделирование для выявления пациентов с высоким риском повторной госпитализации. Первоначально больница ориентировалась на пациентов с застойной сердечной недостаточностью, но программа расширилась и теперь включает пациентов с диабетом, острым инфарктом миокарда и пневмонией. [8]
В 2018 году Банерджи и др. [9] предложили модель глубокого обучения для оценки краткосрочной продолжительности жизни (>3 месяцев) пациентов путем анализа клинических записей в свободной форме в электронной медицинской карте, сохраняя при этом временную последовательность посещений. Модель была обучена на большом наборе данных (10 293 пациента) и проверена на отдельном наборе данных (1818 пациентов). Площадь под кривой ROC ( рабочая характеристика приемника ) составила 0,89. Чтобы обеспечить объяснимость, они разработали интерактивный графический инструмент, который может улучшить понимание врачами основы прогнозов модели. Высокая точность и объяснимость модели PPES-Met могут позволить использовать ее в качестве инструмента поддержки принятия решений для персонализации лечения метастатического рака и оказания ценной помощи врачам.
Первые рекомендации по составлению отчетов о модели клинического прогнозирования были опубликованы в 2015 году (Прозрачная отчетность о модели многовариантного прогнозирования для индивидуального прогноза или диагноза (TRIPOD)), и с тех пор они обновлялись. [10]
прогнозное моделирование Для оценки продолжительности операции использовалось .
Алгоритмическая торговля [ править ]
Прогнозное моделирование в трейдинге — это процесс моделирования, в котором вероятность результата прогнозируется с использованием набора переменных-предсказателей . Прогнозные модели могут быть построены для различных активов, таких как акции, фьючерсы, валюты, товары и т. д. [ нужна ссылка ] Прогнозное моделирование по-прежнему широко используется торговыми фирмами для разработки стратегий и торговли. Он использует математически продвинутое программное обеспечение для оценки индикаторов цены, объема, открытого интереса и других исторических данных, чтобы обнаружить повторяющиеся закономерности. [11]
Системы отслеживания потенциальных клиентов [ править ]
Прогнозное моделирование дает лидогенераторам преимущество, прогнозируя результаты на основе данных для каждой потенциальной кампании. Этот метод экономит время и выявляет потенциальные «слепые зоны», помогая клиенту принимать более разумные решения. [12]
моделирования прогнозного неудачи Заметные
Несмотря на то, что прогнозное моделирование не обсуждается широко в основном сообществе прогнозного моделирования, оно представляет собой методологию, которая широко использовалась в финансовой отрасли в прошлом, и некоторые из крупных неудач способствовали финансовому кризису 2007–2008 годов . Эти неудачи иллюстрируют опасность полагаться исключительно на модели, которые по своей сути являются ретроспективными. Следующие примеры ни в коем случае не являются полным списком:
- Рейтинг облигаций. S&P , Moody's и Fitch количественно определяют вероятность дефолта облигаций с помощью дискретных переменных, называемых рейтингом. Рейтинг может принимать дискретные значения от AAA до D. Рейтинг является предиктором риска дефолта, основанным на множестве переменных, связанных с заемщиком, и исторических макроэкономических данных. Рейтинговые агентства провалили свои рейтинги на рынке обеспеченных ипотечными долговыми обязательствами ( CDO ) стоимостью 600 миллиардов долларов США. Почти весь сектор ААА (и сектор супер-ААА — новый рейтинг, предоставленный рейтинговыми агентствами для обозначения супербезопасных инвестиций) рынка CDO объявил дефолт или серьезно понизил рейтинг в 2008 году, многие из которых получили свои рейтинги менее чем годом ранее. [ нужна ссылка ]
- До сих пор не считается, что никакие статистические модели, которые пытаются предсказать цены на фондовом рынке на основе исторических данных, последовательно делают правильные прогнозы в долгосрочной перспективе. Одним из особенно запоминающихся провалов стал провал Long Term Capital Management , фонда, который нанял высококвалифицированных аналитиков, в том числе лауреата Нобелевской премии по экономике , для разработки сложной статистической модели, предсказывающей разницу в ценах между различными ценными бумагами. Модели приносили впечатляющую прибыль, пока не произошел крупный крах, из-за которого тогдашний Федеральной резервной системы председатель Алан Гринспен вмешался и выступил посредником в плане спасения брокеров-дилеров с Уолл-стрит, чтобы предотвратить обвал рынка облигаций. [ нужна ссылка ]
фундаментальные ограничения прогнозных моделей, основанных на данных подборе Возможные
История не всегда может точно предсказать будущее. Использование отношений, полученных на основе исторических данных, для прогнозирования будущего неявно предполагает наличие определенных устойчивых условий или констант в сложной системе. Это почти всегда приводит к некоторой неточности, когда в системе участвуют люди. [ нужна ссылка ]
Неизвестное неизвестное является проблемой. При сборе всех данных сборщик сначала определяет набор переменных, для которых собираются данные. Однако независимо от того, насколько обширным сборщик рассматривает свой выбор переменных, всегда существует вероятность появления новых переменных, которые не были учтены или даже определены, но имеют решающее значение для результата. [ нужна ссылка ]
Алгоритмы можно победить состязательно. После того, как алгоритм становится общепринятым стандартом измерения, им могут воспользоваться люди, которые понимают алгоритм и имеют стимул обманывать или манипулировать результатом. Именно это и произошло с рейтингом CDO, описанным выше. Дилеры CDO активно выполняли требования рейтинговых агентств для достижения уровня AAA или супер-AAA по выпускаемым ими CDO, умело манипулируя переменными, которые были «неизвестны» «сложным» моделям рейтинговых агентств. [ нужна ссылка ]
См. также [ править ]
- Калибровка (статистика)
- Интервал прогнозирования
- Прогнозная аналитика
- Прогнозирующий вывод
- Статистическая теория обучения
- Статистическая модель
Ссылки [ править ]
- ^ Гейссер, Сеймур (1993). Прогнозирующий вывод: введение . Чепмен и Холл . п. [ нужна страница ] . ISBN 978-0-412-03471-8 .
- ^ Финли, Стивен (2014). Предиктивная аналитика, интеллектуальный анализ данных и большие данные. Мифы, заблуждения и методы (1-е изд.). Пэлгрейв Макмиллан . п. 237. ИСБН 978-1137379276 .
- ^ Шескин, Дэвид Дж. (27 апреля 2011 г.). Справочник по параметрическим и непараметрическим статистическим процедурам . ЦРК Пресс . п. 109. ИСБН 978-1439858011 .
- ^ Кокс, Д.Р. (2006). Принципы статистического вывода . Издательство Кембриджского университета . п. 2.
- ^ Уилли, Гордон Р. (1953), «Модели доисторических поселений в долине Виру, Перу», Бюллетень 155. Бюро американской этнологии.
- ^ Гейдельберг, Курт и др. «Оценка программы выборочных археологических исследований на испытательном и учебном полигоне в Неваде», Технический отчет SRI 02–16, 2002 г.
- ^ Джеффри Х. Альтшул, Линн Себастьян и Курт Гейдельберг, «Прогнозирующее моделирование в вооруженных силах: схожие цели, разные пути», Серия исследований по сохранению 1, Фонд SRI, 2004 г.
- ^ «Больница использует анализ данных и прогнозное моделирование для выявления и распределения ограниченных ресурсов для пациентов из группы высокого риска, что приводит к меньшему количеству повторных госпитализаций» . Агентство медицинских исследований и качества . 29 января 2014 г. Проверено 19 марта 2019 г.
- ^ Банерджи, Имон; и др. (03.07.2018). «Вероятностные прогностические оценки выживаемости пациентов с метастатическим раком (PPES-Met) с использованием клинических описаний в свободном тексте» . Научные отчеты . 8 (10037 (2018)): 10037. Бибкод : 2018NatSR...810037B . дои : 10.1038/s41598-018-27946-5 . ПМК 6030075 . ПМИД 29968730 .
- ^ Коллинз, Гэри; и др. (16 апреля 2024 г.). «Заявление TRIPOD+AI: обновленное руководство по составлению отчетов о моделях клинического прогнозирования, использующих методы регрессии или машинного обучения» . БМЖ . дои : 10.1136/bmj-2023-078378 . ПМК 11019967 . ПМИД 38626948 .
- ^ «Торговые системы, основанные на прогнозных моделях, Часть 1 – Успех системного трейдера» . Системный успех трейдера . 22 июля 2013 г. Проверено 25 ноября 2016 г.
- ^ «Прогнозное моделирование для отслеживания звонков» . Фонекса . 22 августа 2019 г. Проверено 25 февраля 2021 г.
Дальнейшее чтение [ править ]
- Кларк, Бертран С.; Кларк, Дженнифер Л. (2018), Прогнозная статистика , Издательство Кембриджского университета
- Иглесиас, Пилар; Сандовал, Моника К.; Перейра, Карлос Альберто де Браганса (1993), «Прогнозируемая вероятность в конечных популяциях» , Бразильский журнал вероятностей и статистики , 7 (1): 65–82, JSTOR 43600831
- Келлехер, Джон Д.; Мак Нэми, Брайан; Д'Арси, Аойф (2015), Основы машинного обучения для прогнозной аналитики данных: алгоритмы, рабочие примеры и тематические исследования , MIT Press
- Кун, Макс; Джонсон, Кьелл (2013), Прикладное прогнозное моделирование , Springer
- Шмуэли, Г. (2010), «Объяснить или предсказать?», Statistical Science , 25 (3): 289–310, arXiv : 1101.0891 , doi : 10.1214/10-STS330 , S2CID 15900983