Совокупные данные
Агрегированные данные высокого уровня — это данные , которые получаются путем объединения данных индивидуального уровня. Например, выпуск отрасли представляет собой совокупность продукции отдельных фирм в этой отрасли. [1] Агрегированные данные применяются в статистике, хранилищах данных и в экономике.
Существует различие между совокупными данными и отдельными данными. Совокупные данные — это отдельные данные, которые усредняются по географическому региону, году, сервисному агентству или другим способом. [2] Индивидуальные данные представляют собой дезагрегированные индивидуальные результаты и используются для проведения анализа с целью оценки различий в подгруппах. [2]
Совокупные данные в основном используются исследователями и аналитиками, политиками, банками и администраторами по нескольким причинам. Они используются для оценки политики, выявления тенденций и закономерностей процессов, получения соответствующей информации и оценки текущих мер стратегического планирования. Совокупные данные, собранные из различных источников, используются в различных областях исследований, таких как сравнительный политический анализ и научный анализ APD, для дальнейшего анализа. Агрегированные данные также используются в медицинских и образовательных целях. Совокупные данные широко используются, но они также имеют некоторые ограничения, включая получение неточных выводов и ложных выводов, что также называется « экологической ошибкой ». [3] «Экологическая ошибка» означает, что пользователи не могут делать выводы об экологических отношениях между двумя количественными переменными на индивидуальном уровне. [3]
Приложения [ править ]
В статистике — это данные , совокупные данные объединенные из нескольких измерений. Когда данные агрегируются, группы наблюдений заменяются сводной статистикой, основанной на этих наблюдениях. [4]
В хранилище данных использование агрегированных данных значительно сокращает время запроса больших наборов данных. Разработчики предварительно суммируют регулярно используемые запросы, такие как еженедельные продажи, по нескольким измерениям, например, по иерархии товаров или географической иерархии.
В экономике : агрегированные данные или агрегаты данных — это данные высокого уровня, которые состоят из множества или комбинации других, более индивидуальных данных, таких как
- в макроэкономике - такие данные, как общий уровень цен или общий уровень инфляции ; и
- в микроэкономике — данные целого сектора экономики, состоящего из множества фирм, или всех домохозяйств в городе или регионе.
Основные пользователи [ править ]
Исследователи и аналитики [ править ]
Исследователи используют совокупные данные, чтобы понять преобладающий этос , оценить суть социальных реалий и социальной организации, определить основные проблемы, вызывающие обеспокоенность в исследованиях , и предложить прогнозы в отношении характера социальных проблем. [5] Агрегированные данные полезны для исследователей, когда они заинтересованы в исследовании взаимосвязей между двумя различными переменными на совокупном уровне, а также связей между совокупной переменной и характеристикой на индивидуальном уровне. [2] Исследователи также предприняли попытку критически оценить политику, практику и принципы систем с помощью совокупных данных, чтобы изучить соответствующую актуальность и эффективность . [5]
Политики [ править ]
Совокупные данные используются правительствами для разработки более эффективной политики, поскольку они служат мерой того, насколько правительство способно осознавать запросы и потребности своих граждан, а также мерой того, насколько эффективно правительство поддерживает социальный порядок. [5] Например, правительства во всем мире используют совокупные данные о местоположении мобильных устройств для анализа мер реагирования на Covid-19. Совокупные данные о местонахождении мобильных устройств могут дать представление об эффективности мер социального дистанцирования , принимаемых правительствами. Правительства также используют совокупные данные для выявления возможных «горячих точек» и возможностей передачи инфекции. [6]
Помимо прогнозирования эффективности государственной политики, анализ совокупных данных также проводится для оценки характера, масштабов, распознавания тенденций и изучения закономерностей конкретного явления или процесса с целью разработки стратегий, подготовки краткосрочных или долгосрочных прогнозов. долгосрочную политику и принять эффективные и актуальные процедуры для контроля или предотвращения. [5] Политики также используют данные финансовых агрегатов при оценке экономической и финансовой деятельности компаний и домохозяйств, поскольку эти данные помогают выявить риски, связанные с финансовой стабильностью . Политики могут использовать совокупные данные, чтобы лучше понять развитие экономических и финансовых условий страны. [7]
Банки [ править ]
Банки собирают агрегированные данные от значительного числа клиентов, а затем анонимизируют их, удаляя личную информацию. Основная причина, по которой банки используют агрегированные данные, — это оценка экономических тенденций и получение информации о кластерах клиентов. Банкам не разрешается передавать личные данные клиентов , но совокупные данные могут передаваться бизнес-клиентам банков, и к ним могут получить доступ другие партнеры, которые также используют ту же платформу для получения информации об совокупных данных. [8]
В Австралии Банк Содружества предоставляет своим бизнес-клиентам анонимные данные о своих клиентах, полученные в результате транзакций по картам. ANZ также предоставляет своим бизнес-клиентам анонимизированные данные, собранные из миллионов транзакций торговых терминалов и транзакций по картам ANZ. [8]
В Великобритании Интегрированный сбор совокупных данных неотложной помощи (IUC ADC) предоставляет исчерпывающую информацию о деятельности IUC, ее работе, а также о спросе на ее услуги. Данные получены от ведущих поставщиков данных, отвечающих за предоставление комплексных услуг неотложной помощи в Англии. [9] Национальная служба здравоохранения (NHS) при Министерстве здравоохранения и социальной защиты (DHSC) Англии заявила, что этот сбор совокупных данных заменит минимальный набор данных NHS 111. Он также будет использоваться в качестве официального источника статистики IUC, а также для контроля за ключевыми показателями эффективности (KPI) IUC ADC. [10]
Администраторы [ править ]
региона или общества Доступные эмпирические данные национального или регионального уровня используются администраторами и интеллектуалами, а также людьми, которые обеспокоены благополучием , в качестве справочных источников. [5] В частности, администраторы используют совокупные данные для оценки текущей политической, религиозной, социальной или другой атмосферы в стране, чтобы отслеживать пробелы в социальных реакциях, связанных со временем и пространством, и диктовать приоритеты для действий. Эти оценки помогают администраторам оценить текущие меры, которые будут полезны в будущем стратегическом планировании , и предоставляют показатели эффективных корректирующих мер. [5]
Источники и методы сбора [ править ]
Совокупные данные могут представлять собой совокупность различных типов сочинений и записей, включая биографии , автобиографии , описательные отчеты и переписку. [5] Например, исследователь собирает, сопоставляет или компилирует совокупные данные, используя несколько механизмов социального исследования , включая инвентаризацию , интервью , опросник, а также анкету или график . Официальные или неофициальные агентства также собирают и компилируют совокупные данные на постоянной основе, используя инфраструктуру, имеющуюся в департаменте на местном уровне. [5]
Источники агрегированных данных также можно рассматривать как инструменты для обнаружения данных. В США некоторые данные по США представлены в виде таблиц. Примеры источников этих совокупных данных США включают Бюро переписи населения США , Statistical Abstract of the United States и Social Explorer. Данные Международного валютного фонда , World DataBank и Penn World Table являются примерами источников транзакционных и международных совокупных данных. [11]
Использование совокупных данных [ править ]
Сравнительный политический анализ [ править ]
Совокупные данные используются в сравнительном политическом анализе, поскольку аналитики сосредотачивают внимание не только на поведении отдельных лиц. Они также фокусируются на поведении территориальных единиц, включая избирательные округа и страны. [12] В анализе политической деятельности важные данные, например, связанные с индустриализацией , урбанизацией , а также сетями массовой коммуникации, не могут быть легко выражены на индивидуальных уровнях. Они выражаются в пересчете на душу населения , чтобы контролировать различия в численности населения территориальных единиц . [12] Совокупные данные широко доступны, поскольку демографические, социально-экономические и политические данные собираются и публикуются странами. Это облегчает исследователям и аналитикам проведение более длительных исследований тенденций и позволяет им глубже сфокусироваться на изменениях и разработках. [12]
метаанализ Научный APD
Факторы, в том числе необходимость во времени, значительных ресурсах и широком международном сотрудничестве , препятствовали использованию метаанализа индивидуальных данных пациентов (IPD) , что привело к тому, что большинство опубликованных метаанализов основывались на совокупных данных пациентов (APD). [13] Для получения данных обо всех исследованиях на всех пациентах собираются совокупные данные о пациентах из завершенных исследований, которые представляются на профессиональных встречах, публикуются в медицинской литературе или непосредственно предоставляются отдельными исследователями. Агрегированные данные о пациентах используются пользователями, в том числе Кокрановским сотрудничеством, Целевой группой профилактических служб США и многими профессиональными обществами, для обеспечения поддержки руководств по клинической практике. Совокупные данные о пациентах также используются в исследованиях мета-анализов с учетом времени до события, поскольку результаты могут информировать инвесторов о целесообразности перехода к проведению большего количества мета-анализов, основанных на ресурсоемких индивидуальных данных пациентов. [13]
Другое использование [ править ]
Здравоохранение [ править ]
В информационной системе здравоохранения совокупные данные представляют собой интеграцию данных, касающихся многочисленных пациентов. Конкретного пациента невозможно отследить на основе совокупных данных. Эти агрегированные данные представляют собой только подсчеты, включая туберкулез , малярию и другие заболевания. Медицинские учреждения используют этот тип агрегированной статистики для создания отчетов и показателей, а также для стратегического планирования в своих системах здравоохранения. [14] По сравнению с агрегированными данными данные пациента представляют собой индивидуальные данные, относящиеся к одному пациенту, включая его имя, возраст, диагноз и историю болезни. Данные пациентов в основном используются для отслеживания прогресса пациента, например, того, как пациент реагирует на конкретное лечение с течением времени. [14]
Архив данных о COVID-19, также называемый COVID-ARC, объединяет данные исследований по всему миру . Исследователи могут получить доступ к открытиям международных коллег и наладить сотрудничество для облегчения процессов, связанных с борьбой с этой болезнью. [15] В частности, использование агрегированных медицинских данных позволяет поставщикам медицинских услуг получать полезную клиническую информацию, когда, например, становится возможным тщательный просмотр клинических данных или непрерывная запись пациентов. [15]
Образование [ править ]
Совокупные данные, такие как совокупные демографические данные на уровне школы и совокупные данные об успеваемости на уровне школы, используются в экспериментальном анализе для оценки взаимосвязи между успеваемостью учащихся и мероприятиями на уровне школы. [16] Агрегированные данные также могут использоваться в неэкспериментальном анализе, таком как регрессионный анализ разрывов и анализ прерывистых временных рядов. В этом неэкспериментальном анализе данные индивидуального уровня не требуются. Например, анализ прерванных временных рядов оценивает влияние программы на уровне школы путем сравнения достижений школы до и после запуска программы, когда данные на индивидуальном уровне не нужны. [16]
Ограничения [ править ]
В процессе усреднения единиц внутри некоторого кластера или внутри страны информация теряется, что увеличивает вероятность получения неточных выводов. [17] Потеря информации происходит потому, что при агрегировании данных игнорируются индивидуальные различия, как если бы это был всего лишь тип статистического шума или ошибки измерения. [18] Выводы также различаются в зависимости от того, используются ли для анализа данные отдельных фирм или агрегированные данные. Например, при расчете средних показателей по стране не учитываются специфичные для фирмы переменные, такие как размер фирмы, возраст фирмы или концентрация собственности фирмы, но при расчете средних показателей по отдельным предприятиям учитываются. Существуют различия между результатами, полученными на основе совокупных данных и отдельных данных. [17]
Существует также проблема «экологического заблуждения». Идея была предложена Робинсоном (1950). Смысл этого термина заключается в том, что изменчивость средних средств индивидуального уровня существенно отличается от изменчивости, охватывающей совокупные средние значения. [18] С помощью агрегированной концепции выражаются вещи, отличные от индивидуальных эквивалентов агрегированных данных, а это означает, что выводы на индивидуальном уровне не могут быть сделаны. [3] Хотя агрегированные данные имеют более широкое применение, чем данные индивидуального уровня, исследователям сложнее анализировать результаты подгрупп , когда используются агрегированные данные. В конечном итоге может потребоваться и индивидуальная информация. Моделирование роста и продольное моделирование на основе совокупных данных также сложны, поскольку переменные могут меняться с течением времени. [2]
типы совокупных данных Другие
Данные финансовых агрегатов [ править ]
Данные финансовых агрегатов — это тип совокупных данных о кредите и денежной массе в Австралии, которые используются политиками при оценке экономической и финансовой деятельности как домохозяйств, так и компаний. [7]
Кредитные агрегаты [ править ]
Кредитные агрегаты представляют собой показатели заимствований домохозяйств и предприятий у финансовых посредников. Сумма средств, заимствованных предприятиями для таких целей, как инвестиции в проекты, покупка активов или управление денежными потоками, также измеряется с использованием кредитных агрегатов. [7]
Денежные агрегаты [ править ]
Денежные агрегаты представляют собой измерения денег или «денежных» инструментов банковской системы, которые причитаются предприятиям и домохозяйствам. Примером «денежного» инструмента являются депозиты на банковском счете . [7]
Сводные данные переписи населения [ править ]
В Великобритании совокупные данные переписи представляют собой данные, полученные в результате переписи населения Соединенного Королевства. Они предоставляют информацию о социально-экономических и демографических характеристиках населения страны. Они представляют собой компиляцию агрегированных или обобщенных расчетов количества людей, жителей домохозяйств или семей в определенных географических районах с конкретными характеристиками или совокупностью характеристик, взятых из людей и мест, групп населения, семей, здоровья, этническая принадлежность и религия, жилье и работа. [19]
Совокупные данные используются в качестве компонентов результатов переписи населения Великобритании. Они получены в результате анализа информации, содержащейся в отчетах переписи населения. [19] Совокупные данные переписи используются для сравнения и описания характеристик населения в различных местах Великобритании, поскольку они могут предоставить сопоставимую информацию на различных географических уровнях по всей Великобритании. Совокупные данные переписи также используются в академическом секторе для учебных и исследовательских целей, а также для определения местоположения и маркетинга в частном секторе. [19]
Ссылки [ править ]
- ^ Гашимзаде, Нигяр; Майлз, Гарет; Блэк, Джон (19 января 2017 г.). Экономический словарь . Издательство Оксфордского университета. п. 4. дои : 10.1093/acref/9780198759430.001.0001 . ISBN 978-0-19-875943-0 .
- ^ Jump up to: Перейти обратно: а б с д Джейкоб, Робин (2016). «Использование совокупных административных данных в исследованиях социальной политики» . Управление планирования, исследований и оценки | АКФ . стр. 1–6 . Проверено 30 октября 2020 г.
- ^ Jump up to: Перейти обратно: а б с Старрин, Бенгт; Хагквист, Курт; Ларссон, Джерри; Свенссон, Пер-Гуннар (1 июня 1993 г.). «Типы сообществ, социально-экономическая структура и смертность от ИБС — контекстуальный анализ, основанный на совокупных данных Швеции» . Социальные науки и медицина . 36 (12): 1569–1578. дои : 10.1016/0277-9536(93)90345-5 . ISSN 0277-9536 . ПМИД 8327920 .
- ^ Агрегация и реструктуризация данных (глава 5.6 из книги «R в действии», Manning Publications )
- ^ Jump up to: Перейти обратно: а б с д и ж г час Шукла, К.С. (1982). «Анализ совокупных данных» . Журнал Индийского юридического института . 24 (4): 756–762. ISSN 0019-5731 . JSTOR 43950840 .
- ^ «Данные о мобильном местоположении и Covid-19: вопросы и ответы» . Хьюман Райтс Вотч . 13 мая 2020 г. Проверено 30 октября 2020 г.
- ^ Jump up to: Перейти обратно: а б с д Банк, Джоэл; Дуррани, Кассим; Хацви, Иден (21 марта 2019 г.). «Обновления финансовых агрегатов Австралии» . Резервный банк Австралии .
- ^ Jump up to: Перейти обратно: а б Стюарт, Эмили (22 марта 2019 г.). «У банков есть много информации о вас — и они не держат ее в себе», — ABC Life . Новости АВС . Проверено 30 октября 2020 г.
- ^ «Статистика» Комплексный сбор совокупных данных неотложной помощи (IUC ADC) Экспериментальная статистика 2019-20 гг.» . www.england.nhs.uk . Национальная служба здравоохранения Англии . Проверено 30 октября 2020 г.
- ^ «Интегрированный сбор совокупных данных неотложной помощи (IUC ADC) за март 2020 года (экспериментальный)» . GOV.UK. Англия, Великобритания. 14 мая 2020 г. Проверено 30 октября 2020 г.
- ^ Пенсек, Брюс. «Исследовательские руководства: Ресурсы данных для социальных наук: Совокупные данные» . guides.lib.vt.edu . Вирджинский технологический институт . Проверено 30 октября 2020 г.
- ^ Jump up to: Перейти обратно: а б с Рецлафф, Ральф Х. (1965). «Использование агрегированных данных в сравнительном политическом анализе» . Журнал политики . 27 (4): 797–817. дои : 10.2307/2128120 . ISSN 0022-3816 . JSTOR 2128120 . S2CID 154713056 .
- ^ Jump up to: Перейти обратно: а б Лайман, Гэри Х.; Кудерер, Николь М. (25 апреля 2005 г.). «Сильные стороны и ограничения метаанализа, основанного на совокупных данных» . Методология медицинских исследований BMC . 5 (1): 14. дои : 10.1186/1471-2288-5-14 . ISSN 1471-2288 . ПМЦ 1097735 . ПМИД 15850485 .
- ^ Jump up to: Перейти обратно: а б «3.5 Разница между агрегированными данными и данными пациентов в ИСЗ» . docs.dhis2.org . Проверено 15 ноября 2020 г.
- ^ Jump up to: Перейти обратно: а б Гринбаум, Зара (19 августа 2020 г.). «Ученые запускают архив данных для поддержки исследований COVID-19» . Новости ВСК . Проверено 31 октября 2020 г.
- ^ Jump up to: Перейти обратно: а б Джейкоб, Робин Т.; Годдард, Роджер Д.; Ким, Ын Сук (01 марта 2014 г.). «Оценка использования агрегированных данных при оценке мероприятий на базе школ: последствия для оценочных исследований и государственной политики в отношении данных для публичного использования» . Оценка образования и анализ политики . 36 : 44–66. дои : 10.3102/0162373713485814 . S2CID 145621485 .
- ^ Jump up to: Перейти обратно: а б Холдернесс, Клиффорд Г. (12 мая 2016 г.). «Проблемы использования совокупных данных для определения индивидуального поведения: данные из права, финансов и концентрации собственности» . Критический финансовый обзор . 5 (1): 1–40. дои : 10.1561/104.00000028 .
- ^ Jump up to: Перейти обратно: а б Поллет, Томас В.; Штульп, Герт; Хензи, С. Питер; Барретт, Луиза (2015). «Устранение усложнения агрегирования данных: концептуальное руководство по решению статистических проблем, связанных с объединением данных наблюдений на индивидуальном уровне» . Американский журнал приматологии . 77 (7): 727–740. дои : 10.1002/ajp.22405 . ISSN 1098-2345 . ПМИД 25810242 . S2CID 1705139 .
- ^ Jump up to: Перейти обратно: а б с «Справочник по сводным данным переписи населения» . census.ukdataservice.ac.uk . Проверено 31 октября 2020 г.