Jump to content

Демографическая информатика

Область демографической информатики — это систематическое изучение населения посредством вторичного анализа массивных коллекций данных (так называемых « больших данных ») о людях. Ученые в этой области называют эту огромную коллекцию данных социальным геномом , обозначая коллективный цифровой след нашего общества. Популяционная информатика применяет науку о данных к данным социального генома, чтобы ответить на фундаментальные вопросы о человеческом обществе и здоровье населения, так же, как биоинформатика применяет науку о данных к данным о геноме человека, чтобы ответить на вопросы об индивидуальном здоровье. Это новая область исследований на стыке наук SBEH (социальных, поведенческих, экономических и медицинских), информатики и статистики, в которой количественные методы и вычислительные инструменты используются для ответа на фундаментальные вопросы о нашем обществе.

Наука о данных
[ http://bigdatawg.nist.gov/_uploadfiles/NIST.SP.1500-1.pdf Наука о данных
Биоинформатика
Биоинформатика
Информатика народонаселения
Информатика народонаселения

Введение

[ редактировать ]

Этот термин был впервые использован в августе 2012 года, когда доктор Хе-Кунг Кум основал Лабораторию демографической информатики в Университете Северной Каролины в Чапел-Хилл. Этот термин был впервые определен в рецензируемой статье в 2013 году. [1] и более подробно описано в другой статье в 2014 году. [2] Первый семинар по демографической информатике для больших данных был проведен на конференции ACM SIGKDD в Сиднее, Австралия, в августе 2015 года.

Изучать социальные, поведенческие, экономические и медицинские науки, используя огромные коллекции данных социального генома о людях, так называемые данные . Основная цель демографической информатики — улучшить понимание социальных процессов путем разработки и применения интенсивных вычислительных методов к данным социального генома . [ нужна ссылка ]

Некоторые из важных субдисциплин: [ нужна ссылка ]

Связывание записей , задача поиска записей в наборе данных, которые относятся к одному и тому же объекту в разных источниках данных, является основным видом деятельности в области демографической информатики, поскольку большая часть цифровых следов о людях фрагментирована во многих разнородных базах данных, которые необходимо связать. прежде чем можно будет сделать анализ. [ нужна ссылка ]

После того как соответствующие наборы данных связаны, следующей задачей обычно является разработка действенных значимых показателей для ответа на исследовательский вопрос. Часто разработка показателей включает в себя итерацию между индуктивным и дедуктивным подходами к данным и исследовательскому вопросу до тех пор, пока не будут разработаны пригодные для использования меры, поскольку данные были собраны для других целей без предполагаемого использования для ответа на поставленный вопрос. Разработка значимых и полезных показателей на основе существующих данных является серьезной проблемой во многих исследовательских проектах. В области вычислений эти меры часто называют признаками. [ нужна ссылка ]

Наконец, когда наборы данных связаны и разработаны необходимые меры, набор аналитических данных готов к анализу. Общие методы анализа включают традиционные исследования, основанные на гипотезах, а также более индуктивные подходы, такие как наука о данных и прогнозная аналитика .

Связь с другими полями

[ редактировать ]

Вычислительная социальная наука относится к академическим субдисциплинам, связанным с вычислительными подходами к социальным наукам. Это означает, что компьютеры используются для моделирования, моделирования и анализа социальных явлений. Области включают вычислительную экономику и вычислительную социологию . Основополагающая статья по вычислительной социальной науке написана Лазером и др. 2009 год [3] это был отчет о семинаре под тем же названием, проведенном в Гарварде. Однако в статье нет точного определения термина «вычислительная социальная наука».

В целом, вычислительная социальная наука представляет собой более широкую область и охватывает демографическую информатику. Помимо демографической информатики, она также включает в себя комплексное моделирование социальных явлений. Часто сложные имитационные модели используют результаты демографической информатики для настройки параметров реального мира. [ нужна ссылка ]

Наука о данных для социального блага (DSSG) — еще одна развивающаяся подобная область. Но опять же, DSSG — это более крупная область применения науки о данных для решения любой социальной проблемы, которая включает в себя изучение человеческих популяций, а также многих проблем, в которых не используются какие-либо данные о людях. [ нужна ссылка ]

Реконструкция населения - это междисциплинарная область реконструкции конкретных (исторических) популяций путем объединения данных из различных источников, что приводит к появлению богатых новых ресурсов для изучения социологами. [4]

[ редактировать ]

Первый семинар по демографической информатике для больших данных был проведен на конференции ACM SIGKDD в Сиднее, Австралия, в 2015 году. В семинаре приняли участие исследователи компьютерных наук, а также практики и исследователи общественного здравоохранения. Эта страница в Википедии началась с семинара.

Международная сеть связи демографических данных (IPDLN) облегчает связь между центрами, специализирующимися на связи данных, и пользователями связанных данных. Как производители, так и пользователи стремятся систематически применять увязку данных для получения общественной пользы в области народонаселения и здравоохранения.

Проблемы

[ редактировать ]

Тремя основными проблемами, характерными для демографической информатики, являются:

  1. Сохранение конфиденциальности субъектов данных – из-за растущей обеспокоенности по поводу конфиденциальности и конфиденциальности обмен или обмен конфиденциальными данными о субъектах между различными организациями часто не допускается. Следовательно, демографическую информатику необходимо применять к зашифрованным данным или в условиях сохранения конфиденциальности. [1] [5] [6]
  2. Необходимость в границах ошибок результатов: поскольку реальные данные часто содержат ошибки и вариации, необходимо использовать границу ошибок (для приблизительного сопоставления), чтобы на основе этих результатов можно было принимать реальные решения, которые оказывают непосредственное влияние на людей. [7] [8] Также важны исследования распространения ошибок во всем конвейере данных, от интеграции данных до окончательного анализа. [9]
  3. Масштабируемость – базы данных постоянно растут в размерах, что делает демографическую информатику дорогостоящей с точки зрения размера и количества источников данных. [10] Необходимо разработать масштабируемые алгоритмы для обеспечения эффективных и практичных приложений демографической информатики в контексте реального мира.

См. также

[ редактировать ]
  1. ^ Перейти обратно: а б Кум, Хе-Чунг; Ахальт, Стэнли (01 января 2013 г.). «Проектируемая конфиденциальность: понимание моделей доступа к вторичным данным» . Совместные саммиты AMIA по трансляционной науке. Материалы саммита AMIA по трансляционной науке . 2013 : 126–130. ISSN   2153-4063 . ПМЦ   3845756 . ПМИД   24303251 .
  2. ^ Кум, Хе-Чунг; Кришнамурти, А.; Мачанавайджхала, А.; Ахалт, Южная Каролина (01 января 2014 г.). «Социальный геном: использование больших данных в демографической информатике». Компьютер . 47 (1): 56–63. дои : 10.1109/MC.2013.405 . ISSN   0018-9162 . S2CID   6275413 .
  3. ^ Лазер, Дэвид; Пентланд, Алекс (Сэнди); Адамик, Лада; Арал, Синан; Барабаси, Альберт Ласло; Брюэр, Девон; Кристакис, Николас; Подрядчик, Ношир; Фаулер, Джеймс (6 февраля 2009 г.). «Жизнь в сети: грядущий век вычислительной социальной науки» . Наука . 323 (5915): 721–723. дои : 10.1126/science.1167742 . ISSN   0036-8075 . ПМЦ   2745217 . ПМИД   19197046 .
  4. ^ Блутоофт, Г.; Кристиан, П.; Мандемакерс, К.; Шрааген, М. (2015). Реконструкция населения - Спрингер . дои : 10.1007/978-3-319-19884-2 . ISBN  978-3-319-19883-5 .
  5. ^ Динуша Вацалан, Питер Кристен и Василиос С. Верикиос. «Таксономия методов связывания записей, сохраняющих конфиденциальность». Журнал информационных систем (Elsevier), 38(6): 946-969, 2013. doi: 10.1016/j.is.2012.11.005.
  6. ^ Кум, Хе-Чунг; Кришнамурти, Ашок; Мачанавайджхала, Ашвин; Райтер, Майкл К.; Ахальт, Стэнли (01 марта 2014 г.). «Интерактивная связь записей с сохранением конфиденциальности (PPIRL)» . Журнал Американской ассоциации медицинской информатики . 21 (2): 212–220. дои : 10.1136/amiajnl-2013-002165 . ISSN   1067-5027 . ПМЦ   3932473 . ПМИД   24201028 .
  7. ^ Питер Кристен. «Сопоставление данных — концепции и методы связывания записей, разрешения сущностей и обнаружения дубликатов» . Data-Centric Systems and Applications (Springer) 2012. doi: 10.1007/978-3-642-31164-2.
  8. ^ Питер Кристен, Динуша Вацалан и Чжичунь Фу. «Передовые методы увязки записей и аспекты конфиденциальности для восстановления населения - опрос и тематические исследования ». Реконструкция населения: 87-110 (Спрингер) 2015. doi: 10.1007/978-3-319-19884-2_5
  9. ^ Лахири, П.; Ларсен, Майкл Д. (01 марта 2005 г.). «Регрессионный анализ со связанными данными». Журнал Американской статистической ассоциации . 100 (469): 222–230. CiteSeerX   10.1.1.143.1706 . дои : 10.1198/016214504000001277 . JSTOR   27590532 . S2CID   15873588 .
  10. ^ Тилина Ранбадуге, Динуша Вацалан и Питер Кристен. «Масштабируемое индексирование на основе кластеризации для многосторонней связи записей с сохранением конфиденциальности» . ПАКДД: 549-561 (Спрингер) 2015 г. doi: 10.1007/978-3-319-18032-8_43
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 997fe11e32f247c6b14b46c56aebc63e__1682166000
URL1:https://arc.ask3.ru/arc/aa/99/3e/997fe11e32f247c6b14b46c56aebc63e.html
Заголовок, (Title) документа по адресу, URL1:
Population informatics - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)