Сбор данных
Сбор данных — это процесс использования разработанных вычислительных экспериментов для «выращивания» данных, которые затем можно проанализировать с использованием статистических методов и методов визуализации, чтобы получить представление о сложных системах. Эти методы могут быть применены к любой вычислительной модели.
Сбор данных отличается от интеллектуального анализа данных , о чем свидетельствуют следующие метафоры:
Шахтеры ищут ценные самородки руды, закопанные в земле, но не имеют контроля над тем, что там находится и насколько сложно извлечь самородки из окружающей среды. ... Точно так же специалисты по сбору данных стремятся обнаружить ценные крупицы информации, спрятанные в огромных объемах данных. Методы интеллектуального анализа данных используют статистические и графические меры, чтобы попытаться выявить интересные корреляции или кластеры в наборе данных.
Фермеры обрабатывают землю, чтобы максимизировать урожай. Они манипулируют окружающей средой в своих интересах, используя орошение, борьбу с вредителями, севооборот, удобрения и многое другое. Небольшие запланированные эксперименты позволяют им определить, эффективны ли эти методы лечения. Точно так же фермеры данных манипулируют имитационными моделями в своих интересах, используя крупномасштабные запланированные эксперименты для выращивания данных из своих моделей таким образом, чтобы они могли легко извлекать полезную информацию. ...результаты могут выявить коренные причинно-следственные связи между входными факторами модели и реакциями модели, а также предоставить богатые графические и статистические представления этих взаимосвязей. [1]
Целевая группа НАТО по моделированию и моделированию задокументировала процесс сбора данных в итоговом отчете MSG-088. [2] Здесь при сборе данных используются совместные процессы, сочетающие быстрое прототипирование сценариев, имитационное моделирование, планирование экспериментов, высокопроизводительные вычисления, а также анализ и визуализацию в итеративном цикле. [3]
История [ править ]
Наука о планировании экспериментов (DOE) существует уже более века. Ее пионером был Р.А. Фишер в сельскохозяйственных исследованиях . Многие из классических планов экспериментов можно использовать в симуляционных исследованиях. Однако вычислительные эксперименты имеют гораздо меньше ограничений, чем эксперименты в реальном мире, с точки зрения затрат, количества факторов, требуемого времени, возможности репликации, возможности автоматизации и т. д. Следовательно, структура, специально ориентированная на крупномасштабные симуляционные эксперименты, является гарантировано.
Люди проводили вычислительные эксперименты с тех пор, как появились компьютеры. Термин «фермерство данных» появился сравнительно недавно, в 1998 году. [4] совместно с проектом «Альберт» морской пехоты, [5] в котором были созданы небольшие агентные модели дистилляции (разновидность стохастического моделирования) для решения конкретных военных задач. Эти модели запускались тысячи или миллионы раз в Высокопроизводительном компьютерном центре Мауи. [6] и другие объекты. Аналитики проекта «Альберт» будут работать с экспертами в военной области над уточнением моделей и интерпретацией результатов.
Первоначально использование полного факторного (сетчатого) моделирования означало, что моделирование должно было выполняться очень быстро, а исследования требовали высокопроизводительных вычислений . можно было исследовать лишь небольшое количество факторов (на ограниченном количестве уровней) Несмотря на это, из-за проклятия размерности .
Центр сбора данных SEED [7] в Военно-морской аспирантуре [8] также тесно сотрудничал с Project Albert в создании моделей, анализе результатов и создании новых экспериментальных проектов , чтобы лучше использовать вычислительные возможности на Мауи и других объектах. Недавние прорывы в разработках, специально разработанных для сбора данных, можно найти в [9] [10] среди других.
Мастер-классы [ править ]
С 1998 года Центр сбора данных SEED проводит серию международных семинаров по сбору данных. [11] Первый международный семинар по сбору данных состоялся в 1991 году, и с тех пор было проведено еще 16 семинаров. В семинарах приняли участие самые разные представители стран-участниц, таких как Канада, Сингапур, Мексика, Турция и США. [12]
Международные семинары по сбору данных проводятся в сотрудничестве различных групп экспертов. В последнем семинаре, состоявшемся в 2008 году, приняли участие более 100 команд. Командам производителей данных назначается конкретная область исследования, такая как робототехника , национальная безопасность и помощь при стихийных бедствиях . Каждая группа экспериментирует и использует различные формы сбора данных, такие как Pythagoras ABM , модель боевого командования логистики и модель эффектора датчиков на основе агентов (ABSEM). [12]
Ссылки [ править ]
- ^ Лукас, ТВ; Келтон, штат Вашингтон; Санчес, П.Дж.; Санчес, С.М. ; Андерсон, Б.Л. (2015). «Изменение парадигмы: моделирование теперь метод первой помощи». Логистика военно-морских исследований . 62 (4): 293–305. дои : 10.1002/nav.21628 . S2CID 60846350 .
- ^ https://www.cso.nato.int/Pubs/rdp.asp?RDP=STO-TR-MSG-088 .
- ↑ Архивировано 29 августа 2015 г. в Wayback Machine.
- ^ Брандштейн, А.; Хорн, Г. (1998). «Ферминг данных: метаметодика исследований в 21 веке». Наука маневренной войны . Куантико, Вирджиния: Командование боевого развития морской пехоты.
- ^ http://projectalbert.org
- ^ https://www.mhpcc.hpc.mil/
- ^ http://harvest.nps.edu
- ^ http://www.nps.edu/
- ^ Клейнен, JPC; Санчес, С.М. ; Лукас, ТВ; Чоппа, ТМ (2005). «Руководство пользователя по дивному новому миру моделирования экспериментов». ИНФОРМС Журнал по вычислительной технике . 17 (3): 263–289. дои : 10.1287/ijoc.1050.0136 .
- ^ Санчес, С.М. ; Санчес, П.; Ван, Х. (2021). «Работайте умнее, а не усерднее: руководство по планированию и проведению симуляционных экспериментов» (PDF) . Зимняя конференция по моделированию (WSC) 2021 года . Пискатауэй, Нью-Джерси: Институт инженеров по электротехнике и электронике, Inc., стр. 1–15. дои : 10.1109/WSC52266.2021.9715422 . ISBN 9780903440660 . S2CID 247059747 .
- ^ http://harvest.nps.edu
- ^ Jump up to: а б Хорн Г. и Швирц К. (2008). Обзор фарминга данных по всему миру. Бумага представлена в 1442-1447 гг. doi:10.1109/WSC.2008.4736222
Внешние ссылки [ править ]
- Веб-сайт Центра обработки данных SEED со ссылками на многочисленные документы, приложения, проекты и программное обеспечение.
- Статья о 27-м семинаре по сбору данных в Финляндии в Defense Media Network, январь 2014 г.
- Статья о сборе данных в журнале Defense News за январь 2013 г.
- Статья, обобщающая обработку данных, в июньском номере журнала SIGNAL за 2005 г.
- Исследование корпорации MITRE по вопросам сбора данных