Демографическая информатика
Область демографической информатики — это систематическое изучение населения посредством вторичного анализа массивных коллекций данных (так называемых « больших данных ») о людях. Ученые в этой области называют эту огромную коллекцию данных социальным геномом , обозначая коллективный цифровой след нашего общества. Популяционная информатика применяет науку о данных к данным социального генома, чтобы ответить на фундаментальные вопросы о человеческом обществе и здоровье населения, так же, как биоинформатика применяет науку о данных к данным о геноме человека, чтобы ответить на вопросы об индивидуальном здоровье. Это новая область исследований на стыке наук SBEH (социальных, поведенческих, экономических и медицинских), информатики и статистики, в которой количественные методы и вычислительные инструменты используются для ответа на фундаментальные вопросы о нашем обществе.



Введение
[ редактировать ]История
[ редактировать ]Этот термин был впервые использован в августе 2012 года, когда доктор Хе-Кунг Кум основал Лабораторию демографической информатики в Университете Северной Каролины в Чапел-Хилл. Этот термин был впервые определен в рецензируемой статье в 2013 году. [1] и более подробно описано в другой статье в 2014 году. [2] Первый семинар по демографической информатике для больших данных был проведен на конференции ACM SIGKDD в Сиднее, Австралия, в августе 2015 года.
Цели
[ редактировать ]Изучать социальные, поведенческие, экономические и медицинские науки, используя огромные коллекции данных социального генома о людях, так называемые данные . Основная цель демографической информатики — улучшить понимание социальных процессов путем разработки и применения интенсивных вычислительных методов к данным социального генома . [ нужна ссылка ]
Некоторые из важных субдисциплин: [ нужна ссылка ]
- Бизнес-аналитика
- Социальные вычисления : анализ данных социальных сетей
- Политическая информатика
- Информатика общественного здравоохранения
- Вычислительная журналистика
- Вычислительная транспортная наука
- Вычислительная эпидемиология
- Вычислительная экономика
- Вычислительная социология
- Вычислительная социальная наука
Подходы
[ редактировать ]Связывание записей , задача поиска записей в наборе данных, которые относятся к одному и тому же объекту в разных источниках данных, является основным видом деятельности в области демографической информатики, поскольку большая часть цифровых следов о людях фрагментирована во многих разнородных базах данных, которые необходимо связать. прежде чем можно будет сделать анализ. [ нужна ссылка ]
После того как соответствующие наборы данных связаны, следующей задачей обычно является разработка действенных значимых показателей для ответа на исследовательский вопрос. Часто разработка показателей включает в себя итерацию между индуктивным и дедуктивным подходами к данным и исследовательскому вопросу до тех пор, пока не будут разработаны пригодные для использования меры, поскольку данные были собраны для других целей без предполагаемого использования для ответа на поставленный вопрос. Разработка значимых и полезных показателей на основе существующих данных является серьезной проблемой во многих исследовательских проектах. В области вычислений эти меры часто называют признаками. [ нужна ссылка ]
Наконец, когда наборы данных связаны и разработаны необходимые меры, набор аналитических данных готов к анализу. Общие методы анализа включают традиционные исследования, основанные на гипотезах, а также более индуктивные подходы, такие как наука о данных и прогнозная аналитика .
Связь с другими полями
[ редактировать ]Вычислительная социальная наука относится к академическим субдисциплинам, связанным с вычислительными подходами к социальным наукам. Это означает, что компьютеры используются для моделирования, моделирования и анализа социальных явлений. Области включают вычислительную экономику и вычислительную социологию . Основополагающая статья по вычислительной социальной науке написана Лазером и др. 2009 год [3] это был отчет о семинаре под тем же названием, проведенном в Гарварде. Однако в статье нет точного определения термина «вычислительная социальная наука».
В целом, вычислительная социальная наука представляет собой более широкую область и охватывает демографическую информатику. Помимо демографической информатики, она также включает в себя комплексное моделирование социальных явлений. Часто сложные имитационные модели используют результаты демографической информатики для настройки параметров реального мира. [ нужна ссылка ]
Наука о данных для социального блага (DSSG) — еще одна развивающаяся подобная область. Но опять же, DSSG — это более крупная область применения науки о данных для решения любой социальной проблемы, которая включает в себя изучение человеческих популяций, а также многих проблем, в которых не используются какие-либо данные о людях. [ нужна ссылка ]
Реконструкция населения - это междисциплинарная область реконструкции конкретных (исторических) популяций путем объединения данных из различных источников, что приводит к появлению богатых новых ресурсов для изучения социологами. [4]
Связанные группы и семинары
[ редактировать ]Первый семинар по демографической информатике для больших данных был проведен на конференции ACM SIGKDD в Сиднее, Австралия, в 2015 году. В семинаре приняли участие исследователи компьютерных наук, а также практики и исследователи общественного здравоохранения. Эта страница в Википедии началась с семинара.
Международная сеть связи демографических данных (IPDLN) облегчает связь между центрами, специализирующимися на связи данных, и пользователями связанных данных. Как производители, так и пользователи стремятся систематически применять увязку данных для получения общественной пользы в области народонаселения и здравоохранения.
Проблемы
[ редактировать ]Тремя основными проблемами, характерными для демографической информатики, являются:
- Сохранение конфиденциальности субъектов данных – из-за растущей обеспокоенности по поводу конфиденциальности и конфиденциальности обмен или обмен конфиденциальными данными о субъектах между различными организациями часто не допускается. Следовательно, демографическую информатику необходимо применять к зашифрованным данным или в условиях сохранения конфиденциальности. [1] [5] [6]
- Необходимость в границах ошибок результатов: поскольку реальные данные часто содержат ошибки и вариации, необходимо использовать границу ошибок (для приблизительного сопоставления), чтобы на основе этих результатов можно было принимать реальные решения, которые оказывают непосредственное влияние на людей. [7] [8] Также важны исследования распространения ошибок во всем конвейере данных, от интеграции данных до окончательного анализа. [9]
- Масштабируемость – базы данных постоянно растут в размерах, что делает демографическую информатику дорогостоящей с точки зрения размера и количества источников данных. [10] Необходимо разработать масштабируемые алгоритмы для обеспечения эффективных и практичных приложений демографической информатики в контексте реального мира.
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Перейти обратно: а б Кум, Хе-Чунг; Ахальт, Стэнли (01 января 2013 г.). «Проектируемая конфиденциальность: понимание моделей доступа к вторичным данным» . Совместные саммиты AMIA по трансляционной науке. Материалы саммита AMIA по трансляционной науке . 2013 : 126–130. ISSN 2153-4063 . ПМЦ 3845756 . ПМИД 24303251 .
- ^ Кум, Хе-Чунг; Кришнамурти, А.; Мачанавайджхала, А.; Ахалт, Южная Каролина (01 января 2014 г.). «Социальный геном: использование больших данных в демографической информатике». Компьютер . 47 (1): 56–63. дои : 10.1109/MC.2013.405 . ISSN 0018-9162 . S2CID 6275413 .
- ^ Лазер, Дэвид; Пентланд, Алекс (Сэнди); Адамик, Лада; Арал, Синан; Барабаси, Альберт Ласло; Брюэр, Девон; Кристакис, Николас; Подрядчик, Ношир; Фаулер, Джеймс (6 февраля 2009 г.). «Жизнь в сети: грядущий век вычислительной социальной науки» . Наука . 323 (5915): 721–723. дои : 10.1126/science.1167742 . ISSN 0036-8075 . ПМЦ 2745217 . ПМИД 19197046 .
- ^ Блутоофт, Г.; Кристиан, П.; Мандемакерс, К.; Шрааген, М. (2015). Реконструкция населения - Спрингер . дои : 10.1007/978-3-319-19884-2 . ISBN 978-3-319-19883-5 .
- ^ Динуша Вацалан, Питер Кристен и Василиос С. Верикиос. «Таксономия методов связывания записей, сохраняющих конфиденциальность». Журнал информационных систем (Elsevier), 38(6): 946-969, 2013. doi: 10.1016/j.is.2012.11.005.
- ^ Кум, Хе-Чунг; Кришнамурти, Ашок; Мачанавайджхала, Ашвин; Райтер, Майкл К.; Ахальт, Стэнли (01 марта 2014 г.). «Интерактивная связь записей с сохранением конфиденциальности (PPIRL)» . Журнал Американской ассоциации медицинской информатики . 21 (2): 212–220. дои : 10.1136/amiajnl-2013-002165 . ISSN 1067-5027 . ПМЦ 3932473 . ПМИД 24201028 .
- ^ Питер Кристен. «Сопоставление данных — концепции и методы связывания записей, разрешения сущностей и обнаружения дубликатов» . Data-Centric Systems and Applications (Springer) 2012. doi: 10.1007/978-3-642-31164-2.
- ^ Питер Кристен, Динуша Вацалан и Чжичунь Фу. «Передовые методы увязки записей и аспекты конфиденциальности для восстановления населения - опрос и тематические исследования ». Реконструкция населения: 87-110 (Спрингер) 2015. doi: 10.1007/978-3-319-19884-2_5
- ^ Лахири, П.; Ларсен, Майкл Д. (01 марта 2005 г.). «Регрессионный анализ со связанными данными». Журнал Американской статистической ассоциации . 100 (469): 222–230. CiteSeerX 10.1.1.143.1706 . дои : 10.1198/016214504000001277 . JSTOR 27590532 . S2CID 15873588 .
- ^ Тилина Ранбадуге, Динуша Вацалан и Питер Кристен. «Масштабируемое индексирование на основе кластеризации для многосторонней связи записей с сохранением конфиденциальности» . ПАКДД: 549-561 (Спрингер) 2015 г. doi: 10.1007/978-3-319-18032-8_43
Внешние ссылки
[ редактировать ]- Лаборатория демографической информатики
- Интерактивная связь записей с сохранением конфиденциальности (PPIRL)
- Первый международный семинар по демографической информатике для больших данных
- Международная сеть связи демографических данных (IPDLN)
- Страница информатики общественного здравоохранения в AMIA
- Наука о данных для общественного блага