Модель, управляемая данными

Модели, управляемые данными, — это класс вычислительных моделей , которые в основном полагаются на исторические данные, собранные на протяжении всего срока службы системы или процесса, для установления взаимосвязей между входными, внутренними и выходными переменными. Модели, основанные на данных, которые обычно встречаются в многочисленных статьях и публикациях, произошли от более ранних статистических моделей , преодолевая ограничения, налагаемые строгими предположениями о распределениях вероятностей. Эти модели получили известность в различных областях, особенно в эпоху больших данных , искусственного интеллекта и машинного обучения , где они предлагают ценную информацию и прогнозы на основе имеющихся данных.

Фон

Эти модели произошли от более ранних статистических моделей , которые основывались на определенных предположениях о распределениях вероятностей, которые часто оказывались чрезмерно ограничительными. ^[1] Появление моделей, управляемых данными, в 1950-х и 1960-х годах совпало с развитием цифровых компьютеров , достижениями в исследованиях искусственного интеллекта и внедрением новых подходов в неповеденческом моделировании, таких как распознавание образов и автоматическая классификация. ^[2]

Ключевые понятия

Модели, управляемые данными, охватывают широкий спектр методов и методологий, направленных на интеллектуальную обработку и анализ больших наборов данных. Примеры включают нечеткую логику , нечеткие и грубые множества для обработки неопределенности. ^[3] neural networks for approximating functions,^[4] global optimization and evolutionary computing,^[5] statistical learning theory,^[6] and Bayesian methods.^[7] These models have found applications in various fields, including economics, customer relations management, financial services, medicine, and the military, among others.^[8]

Machine learning, a subfield of artificial intelligence, is closely related to data-driven modelling as it also focuses on using historical data to create models that can make predictions and identify patterns.^[9] In fact, many data-driven models incorporate machine learning techniques, such as regression, classification, and clustering algorithms, to process and analyse data.^[10]

In recent years, the concept of data-driven models has gained considerable attention in the field of water resources, with numerous applications, academic courses, and scientific publications using the term as a generalization for models that rely on data rather than physics.^[11] This classification has been featured in various publications and has even spurred the development of hybrid models in the past decade. Hybrid models attempt to quantify the degree of physically based information used in hydrological models and determine whether the process of building the model is primarily driven by physics or purely data-based. As a result, data-driven models have become an essential topic of discussion and exploration within water resources management and research.^[12]

The term "data-driven modelling" (DDM) refers to the overarching paradigm of using historical data in conjunction with advanced computational techniques, including machine learning and artificial intelligence, to create models that can reveal underlying trends, patterns, and, in some cases, make predictions^[13] Data-driven models can be built with or without detailed knowledge of the underlying processes governing the system behavior, which makes them particularly useful when such knowledge is missing or fragmented.^[14]

References

^ David, A., Freedman. (2006). On The So-Called “Huber Sandwich Estimator” and “Robust Standard Errors”. The American Statistician, 60(4):299-302. doi:10.1198/000313006X152207
^ Richard, O., Duda., Peter, E., Hart. (1973). Pattern classification and scene analysis.
^ J., A., Goguen. (1973). Zadeh L. A.. Fuzzy sets. Information and control, vol. 8 (1965), pp. 338–353. Zadeh L. A.. Similarity relations and fuzzy orderings. Information sciences, vol. 3 (1971), pp. 177–200.. Journal of Symbolic Logic, 38(4):656-657. doi:10.2307/2272014
^ Simon, Haykin. (2009). Neural Networks and Learning Machines 3rd Edition : Simon Haykin.
^ David, E., Goldberg. (1988). Genetic algorithms in search, optimization, and machine learning. University of Alabama.
^ Vapnik, V. (1995). The nature of statistical learning theory. Springer.
^ Paul, Hewson. (2015). Bayesian Data Analysis 3rd edn A. Gelman, J. B. Carlin, H. S. Stern, D. B. Dunson, A. Vehtari and D. B. Rubin, 2013 Boca Raton, Chapman and Hall–CRC 676 pp., ISBN 1-4398-4095-4 . Журнал Королевского статистического общества, серия A-статистика в обществе, 178(1):301-301. дои : 10.1111/J.1467-985X.2014.12096_1.X
^ Усама, М., Файяд, Грегори, Пятецкий-Шапиро, Падрайк, Смит. (1996). От интеллектуального анализа данных к обнаружению знаний в базах данных. Журнал «Ай», 17(3):37-54. дои : 10.1609/AIMAG.V17I3.1230
^ Митчелл, ТМ (1997). Машинное обучение. Серия Макгроу Хилла по информатике.
^ Алпайдин, Э. (2020). Введение в машинное обучение. МТИ Пресс. ISBN 978-0-262-01243-0
^ Роберт, Дж., Абрахарт, Линда, М., См., Дмитрий, Соломатин. (2008). Практическая гидроинформатика: вычислительный интеллект и технологические разработки в области применения воды.
^ GA, Корсо, Перес. (2009). Гибридные модели для гидрологического прогнозирования: интеграция методов концептуального моделирования, основанных на данных.
^ Фостер, проректор, Том, Фосетт. (2013). Наука о данных для бизнеса: что нужно знать об интеллектуальном анализе данных и аналитическом мышлении.
^ М., Ченг., Фансинь, Фанг., Кристофер, К., Пейн., Ионел, Майкл, Навон. (2020). Управляемое данными моделирование нелинейных пространственно-временных потоков жидкости с использованием глубокой сверточной генеративно-состязательной сети. Компьютерные методы в прикладной механике и технике, 365:113000-. дои : 10.1016/J.CMA.2020.113000

[1] David, A., Freedman. (2006). On The So-Called “Huber Sandwich Estimator” and “Robust Standard Errors”. The American Statistician, 60(4):299-302. doi:10.1198/000313006X152207

[2] Richard, O., Duda., Peter, E., Hart. (1973). Pattern classification and scene analysis.

[3] J., A., Goguen. (1973). Zadeh L. A.. Fuzzy sets. Information and control, vol. 8 (1965), pp. 338–353. Zadeh L. A.. Similarity relations and fuzzy orderings. Information sciences, vol. 3 (1971), pp. 177–200.. Journal of Symbolic Logic, 38(4):656-657. doi:10.2307/2272014

[4] Simon, Haykin. (2009). Neural Networks and Learning Machines 3rd Edition : Simon Haykin.

[5] David, E., Goldberg. (1988). Genetic algorithms in search, optimization, and machine learning. University of Alabama.

[6] Vapnik, V. (1995). The nature of statistical learning theory. Springer.

[7] Paul, Hewson. (2015). Bayesian Data Analysis 3rd edn A. Gelman, J. B. Carlin, H. S. Stern, D. B. Dunson, A. Vehtari and D. B. Rubin, 2013 Boca Raton, Chapman and Hall–CRC 676 pp., ISBN 1-4398-4095-4 . Журнал Королевского статистического общества, серия A-статистика в обществе, 178(1):301-301. дои : 10.1111/J.1467-985X.2014.12096_1.X

[8] Усама, М., Файяд, Грегори, Пятецкий-Шапиро, Падрайк, Смит. (1996). От интеллектуального анализа данных к обнаружению знаний в базах данных. Журнал «Ай», 17(3):37-54. дои : 10.1609/AIMAG.V17I3.1230

[9] Митчелл, ТМ (1997). Машинное обучение. Серия Макгроу Хилла по информатике.

[10] Алпайдин, Э. (2020). Введение в машинное обучение. МТИ Пресс. ISBN 978-0-262-01243-0

[11] Роберт, Дж., Абрахарт, Линда, М., См., Дмитрий, Соломатин. (2008). Практическая гидроинформатика: вычислительный интеллект и технологические разработки в области применения воды.

[12] GA, Корсо, Перес. (2009). Гибридные модели для гидрологического прогнозирования: интеграция методов концептуального моделирования, основанных на данных.

[13] Фостер, проректор, Том, Фосетт. (2013). Наука о данных для бизнеса: что нужно знать об интеллектуальном анализе данных и аналитическом мышлении.

[14] М., Ченг., Фансинь, Фанг., Кристофер, К., Пейн., Ионел, Майкл, Навон. (2020). Управляемое данными моделирование нелинейных пространственно-временных потоков жидкости с использованием глубокой сверточной генеративно-состязательной сети. Компьютерные методы в прикладной механике и технике, 365:113000-. дои : 10.1016/J.CMA.2020.113000

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]