Исследования критических данных
![]() | Тема этой статьи Википедии может не соответствовать общему правилу по известности . ( декабрь 2016 г. ) |
Исследования критических данных — это исследование и решение социальных, культурных и этических проблем, возникающих при работе с большими данными. Эту форму обучения можно практиковать с помощью различных уникальных точек зрения и критического подхода. [1] Как следует из названия, исследования критических данных во многом опираются на влияние критической теории , которая уделяет особое внимание организации властных структур. Эта идея затем применяется к изучению данных.
Интерес к этой уникальной области исследования критических данных начался в 2011 году, когда ученые Дана Бойд и Кейт Кроуфорд поставили различные вопросы для критического изучения больших данных и признали их потенциально угрожающее воздействие на общество и культуру. [2] Лишь в 2014 году, когда последовало еще больше исследований и обсуждений, ученые Крейг Далтон и Джим Тэтчер официально придумали исследование критических данных. [1] Они уделяют большое внимание пониманию контекста больших данных, чтобы подходить к ним более критично. Такие исследователи, как Дэниел Рибес, Роберт Соден, Сейрам Авле, Сара Э. Фокс и Фиби Сенгерс , сосредоточены на понимании данных как исторического артефакта и применении междисциплинарного подхода к изучению критически важных данных. [3] Среди других ключевых ученых в этой дисциплине — Роб Китчин и Трейси П. Лорио, которые занимаются переоценкой данных в различных сферах. [4]
Различные критические концепции, которые можно применять для анализа больших данных, включают феминистскую, антирасистскую, квир-, коренную, деколониальную, анти-эйблистскую, а также символическую и синтетическую науку о данных. Эти структуры помогают разобраться в данных, решая проблемы власти, предвзятости, конфиденциальности, согласия и недопредставления или искажения данных, которые существуют в данных, а также способы подхода и анализа этих данных с более справедливым мышлением.
Мотивация
[ редактировать ]В своей статье, в которой они придумали термин «критические исследования данных», Далтон и Тэтчер также приводят несколько обоснований того, почему исследования данных являются дисциплиной, достойной критического подхода. [5] Во-первых, «большие данные» являются важным аспектом общества XXI века, а анализ «больших данных» позволяет глубже понять, что происходит и по каким причинам. [1] Большие данные важны для критических исследований данных, поскольку именно этот тип данных используется в этой области. Большие данные не обязательно относятся к большому набору данных, они могут иметь набор данных с миллионами строк, но также и набор данных, который просто имеет большое разнообразие и обширный объем данных с меньшим типом набора данных. А также наличие в наборе данных всего населения, а не только размеров выборки . Более того, по мнению Далтона и Тэтчер, большие данные как технологический инструмент и информация, которую они дают, не нейтральны, что делает их достойными критического анализа с целью выявления и устранения их предвзятости. Основываясь на этой идее, еще одним оправданием критического подхода является то, что взаимосвязь между большими данными и обществом важна и, следовательно, заслуживает изучения. [1]
Рибес и др. ал. утверждают, что существует необходимость в междисциплинарном понимании данных как исторического артефакта как мотивирующего аспекта критических исследований данных. Общий консенсус в области совместной работы с компьютерной поддержкой (CSCW) заключается в том, что люди должны говорить от имени данных, а не пусть данные говорят сами за себя.
Источники больших данных и их связь с различными метаданными могут быть сложными, что приводит к беспорядку в данных и необходимости этического анализа. [6] Кроме того, Илиадис и Руссо (2016) призвали к изучению совокупностей данных . [6] Другими словами, данные имеют врожденную технологическую, политическую, социальную и экономическую историю, которую следует принимать во внимание. Китчин утверждает, что данные почти никогда не бывают сырыми и почти всегда «подготовлены», а это означает, что о них всегда говорят использующие их специалисты по данным. Таким образом, большие данные должны быть открыты для различных точек зрения, особенно культурного и философского характера. Кроме того, данные содержат скрытую историю, идеологию и философию. [6]
Технологии больших данных могут вызвать существенные изменения в структуре общества и повседневной жизни людей. [1] и, будучи продуктом общества, технология больших данных достойна социологического исследования. [1] Более того, наборы данных почти никогда не остаются полностью без какого-либо влияния. Скорее, данные формируются в соответствии с видением или целями тех, кто их собирает, и в процессе сбора данных некоторые вещи оцениваются, сохраняются, сортируются и даже отбрасываются исследовательской группой. [7] Таким образом, необходим критический подход, чтобы понять и раскрыть смысл представляемой информации. Одним из таких критических подходов было проведение феминистских исследований данных. Этот метод применяет феминистские принципы к критическим исследованиям, сбору и анализу данных. Целью этого является устранение дисбаланса сил в науке о данных и обществе. По мнению Кэтрин Д'Игнацио и Лорен Ф. Кляйн, анализ власти можно проводить путем изучения власти, бросания ей вызов, оценки эмоций и воплощения, переосмысления бинарных систем и иерархий, принятия плюрализма, рассмотрения контекста и визуализации труда. [8] Феминистские исследования данных являются частью движения к сбору данных на благо всех, а не к увеличению существующего неравенства. Более того, сами по себе данные не могут говорить сами за себя; Чтобы иметь какое-либо конкретное значение, данные должны сопровождаться теоретическим пониманием или альтернативными количественными или качественными исследовательскими показателями. [1] [9] Исследования критических данных, основанные на различных социальных темах, таких как исследования антирасистских данных, фокусируются на социальных проблемах, касающихся данных. В частности, в исследованиях антирасистских данных они используют классификационный подход, чтобы получить представление о членах этого сообщества. Десмонд Аптон Паттон и другие использовали свою собственную систему классификации в сообществах Чикаго, чтобы выявить и снизить уровень насилия над подростками в Твиттере. У них были студенты из этих сообществ, которые помогали им расшифровывать терминологию и смайлики этих подростков, чтобы ориентироваться на язык, используемый в твитах, которые сопровождались насилием за пределами экранов компьютеров. [10] Это всего лишь один реальный пример исследования критически важных данных и его применения. Далтон и Тэтчер утверждают, что если думать о данных только с точки зрения их эксплуататорской силы, то не будет возможности использовать данные в революционных, освободительных целях. [1] Наконец, Далтон и Тэтчер предполагают, что критический подход к изучению данных позволяет объединять «большие данные» со старыми «маленькими данными» и, таким образом, проводить более тщательные исследования, открывая больше возможностей, вопросов и тем для изучения. [1] [11]
Проблемы и опасения специалистов по критическим данным
[ редактировать ]Данные играют ключевую роль в развивающейся экономике знаний, обеспечивая производительность, конкурентоспособность, эффективность, устойчивость и накопление капитала. Этические, политические и экономические аспекты данных динамично меняются в пространстве и времени под влиянием меняющихся режимов, технологий и приоритетов. Технически основное внимание уделяется обработке, хранению и анализу огромных наборов данных с использованием интеллектуального анализа данных и аналитики на основе машинного обучения. Этот технологический прогресс вызывает обеспокоенность по поводу качества данных, включая достоверность, надежность, подлинность, удобство использования и происхождение. [12]
Использование данных в современном обществе приводит к новым способам понимания и измерения мира, но также приносит с собой определенные проблемы или проблемы. [13] Исследователи данных пытаются пролить свет на некоторые из этих проблем в своем стремлении критически относиться к данным.
Технические и организационные проблемы могут включать объем набора данных, то есть данных для работы слишком мало или слишком много, что приводит к неточным результатам. Для специалистов по критическим данным становится крайне важно тщательно учитывать достаточность объема данных для своего анализа.
Качество самих данных является еще одним аспектом беспокойства. Сами данные могут быть низкого качества, например, это неполный или беспорядочный набор данных с отсутствующими или неточными значениями данных. Это приведет к тому, что исследователям придется вносить изменения и делать предположения относительно самих данных. Решение этих проблем часто требует от ученых внесения изменений и предположений в отношении данных, чтобы обеспечить их надежность и актуальность.
Ученые, работающие с данными, могут иметь неправомерный доступ к реальному набору данных, что ограничивает их возможности по его анализу. Линнет Тейлор объясняет, как могут возникнуть пробелы в данных, когда люди разного уровня власти имеют определенные права на свои источники данных. Эти люди у власти могут контролировать, какие данные собираются, как они отображаются и как анализируются. [14]
Возможности исследовательской группы также играют решающую роль в качестве анализа данных. Исследовательская группа может иметь неадекватные навыки или организационные возможности, что приводит к тому, что фактический анализ, выполняемый на основе набора данных, оказывается предвзятым. Это также может привести к экологическим заблуждениям , то есть предположения о человеке делаются на основе данных или результатов, полученных от более крупной группы людей. [13]
Эти технические и организационные проблемы подчеркивают сложность работы с данными и подчеркивают необходимость для ученых ориентироваться в ландшафте, где вопросы, связанные с объемом данных, качеством, доступом и возможностями команды, сложно переплетены.
Некоторые из нормативных и этических проблем, затронутых Китчином, включают слежку за своими данными ( dataveillance). [7] ) В этой статье упоминается конфиденциальность данных, и один из основных ключевых моментов, который затрагивает Национальный альянс кибербезопасности, заключается в том, что данные быстро становятся необходимостью, поскольку компании признают их как актив и осознают потенциальную ценность их сбора, использования, и совместное использование (Национальный альянс кибербезопасности]), право собственности на свои данные, в котором Скасса пишет о том, как накаляются дебаты по поводу прав собственности на данные. В Европе политики подняли вопрос о возможности создания особых прав собственности на данные (владение данными), то есть безопасности данных, в которых утечка данных представляет угрозу как для отдельных лиц, так и для организаций. Узнайте больше о нарушениях безопасности данных и о том, что специалисты по кибербезопасности делают для их предотвращения (нарушение безопасности данных), упреждающем или корпоративном управлении, при котором корпоративные данные и информация используются взаимозаменяемо, но это не одни и те же термины. Между ними есть различия, и их цели также различаются. Корпоративные данные — это необработанная форма информации, не имеющая надлежащего значения или полезности, если она не обработана и не преобразована в значимые формы (корпоративные данные и информация) и не составляет профилирование отдельных лиц по их данным. [5] Это особенно подчеркивается в колониализме данных (Колониализм данных), где суверенитет данных поощряется для лиц, которым причинен вред, потому что это может быть мощным инструментом, для которого эти данные представляют. Общая тема всех этих подходов к суверенитету данных заключается в том, когда и как собирать, защищать и передавать данные только тем, у кого есть законная или уместная потребность в доступе к ним. Все эти опасения должны быть приняты во внимание исследователями данных, чтобы их цель была критичной. . Отнесение кандидатов под одним ярлыком, будь то гендерный ярлык, гендерный ярлык, возрастная группа, потребители определенного продукта или люди, страдающие определенным заболеванием, может привести к тому, что к людям будут относиться как к взаимозаменяемые и взаимозаменяемые точки данных. Каждый из этих людей с этим ярлыком уникален и имеет право на уважение как личность» (Валлор: Этика данных). Все эти проблемы должны быть приняты во внимание исследователями данных, чтобы быть критичными.
Следуя традициям критического урбанистики, [15] другие ученые выразили аналогичную обеспокоенность по поводу данных и цифровых информационных технологий в городском контексте. [16] [17] [18] Например, Джо Шоу и Марк Грэм исследовали их в свете » Анри Лефевра « права на город . [19]
Практическое применение исследований критических данных
[ редактировать ]Наиболее практичным и важным применением исследований критических данных является сочетание этики и конфиденциальности . Тендлер, Хонг, Кейн, Копачински, Терри и Эмануэль объясняют, что в эпоху, когда частные учреждения используют данные клиентов для продвижения на рынок, проводят исследования желаний и потребностей клиентов и многое другое, крайне важно защищать собранные данные. При изучении медицинских исследований одним маленьким шагом в защите участников является информированное согласие. [20]
В данных существует множество алгоритмических предубеждений и дискриминации. Многие подчеркивают важность этого в сфере здравоохранения из-за серьезности результатов принятия решений по уходу за пациентами, основанных на данных, а также того, как эти данные используются и почему эти данные собираются. Учреждения и компании могут обеспечить справедливость и бороться с системным расизмом, используя критические исследования данных, чтобы выявить алгоритмическую предвзятость при принятии решений, основанных на данных. Нонг объясняет, что очень популярным примером этого являются алгоритмы страхования и доступ к здравоохранению. Страховые компании используют алгоритмы для распределения ресурсов по уходу между клиентами. Используемые алгоритмы продемонстрировали «явную расовую предвзятость в отношении чернокожих пациентов», из-за чего оценка «расходов на здравоохранение была основана на исторических данных, структурированных с учетом системного расизма и закрепляющих эту предвзятость в доступе к управлению медицинским обслуживанием». [21]
Во многих обученных моделях машинного обучения и искусственных моделях не существует стандартной процедуры отчетности модели, позволяющей правильно документировать характеристики производительности. [22] Когда эти модели применяются к сценариям реальной жизни, последствия имеют серьезные последствия в реальном мире, особенно в контексте здравоохранения, образования и правоохранительной деятельности. Тимнит Гебру объясняет, как отсутствие достаточной документации для этих моделей затрудняет пользователям оценку их пригодности для конкретных контекстов. Именно здесь в игру вступает использование карточек моделей. Карточки моделей могут содержать краткие записи, сопровождающие модели машинного обучения, чтобы предоставить информацию о характеристиках моделей, предполагаемом использовании, потенциальных отклонениях и показателях производительности. Использование модельных карточек направлено на предоставление пользователям важной информации о возможностях и ограничениях систем машинного обучения, а также о способах достижения справедливых и инклюзивных результатов с использованием технологий машинного обучения. [23]
Теоретические основы исследования критических данных
[ редактировать ]Структура феминизма данных способствует размышлению о данных и этике, руководствуясь идеями интерсекционального феминизма. Феминизм данных подчеркивает практику, в которой наука о данных усиливает неравенство власти в мире и то, как пользователи могут использовать данные, чтобы бросить вызов существующей власти и взять на себя обязательства по созданию сбалансированных данных. По мнению Д'игнацио и Кляйн, интерсекциональность феминизма данных признает, что данные должны учитывать пересекающиеся факторы, такие как идентичность, раса, класс и т. д., чтобы обеспечить полное и точное представление опыта людей. Эта структура также подчеркивает важность различных этических соображений, выступая за информированное согласие, конфиденциальность и ответственность сборщиков данных перед отдельными лицами, с которых собираются данные. [8]
Dataveillance — это мониторинг данных людей в Интернете. В отличие от наблюдения, наблюдение за данными выходит далеко за рамки простого наблюдения за людьми по определенным причинам. Слежение за данными проникает в жизнь людей, осуществляя постоянное отслеживание в общих и общих целях. По словам Рэйли, это стало предпочтительным способом наблюдения за людьми через различные онлайн-присутствия. Эта структура фокусируется на способах подхода и понимания того, как данные собираются, обрабатываются и используются, уделяя особое внимание этическим аспектам и защите информации отдельных лиц. [24] Датафикация фокусируется на понимании процесса, связанного с появлением и использованием больших данных. По словам Хосе и Дейка, это подчеркивает преобразование социальных действий в цифровые данные, позволяющие отслеживать и прогнозировать анализ в реальном времени. Датафикация подчеркивает процесс сбора данных, основанный на интересах, поскольку социальная деятельность меняется, а преобразование в данные — нет. В нем также рассматривается, как происходят социальные изменения по мере того, как цифровые данные становятся все более распространенными в нашей повседневной жизни. Датафикация подчеркивает сложную взаимосвязь между данными и обществом и идет рука об руку с наблюдением за данными. [25]
Структура алгоритмических предубеждений относится к систематическим и несправедливым предубеждениям против определенных групп или результатов в процессе принятия алгоритмических решений. Хойсслер говорит, что пользователи сосредотачиваются на том, как алгоритмы могут привести к дискриминационным результатам, особенно когда речь идет о расе, поле, возрасте и других характеристиках, и могут укрепить идеи социального неравенства и несправедливых практик. Как правило, в структуру входят ключевые компоненты: выявление предвзятости, качество данных, оценка воздействия, справедливость и равенство, прозрачность, исправление и последствия. [26]
Ссылки
[ редактировать ]- ^ Перейти обратно: а б с д и ж г час я Далтон, Крейг; Тэтчер, Джим (12 мая 2014 г.). «Как выглядят исследования критических данных и почему нас это волнует?» . Общество + Космос . Проверено 17 января 2018 г.
- ^ Бойд, Дана; Кроуфорд, Кейт (10 мая 2012 г.). «Критические вопросы для больших данных». Информация, коммуникация и общество . 15 (5): 662–679. дои : 10.1080/1369118X.2012.678878 . hdl : 10983/1320 . S2CID 51843165 .
- ^ Соден, Роберт; Рибес, Дэвид; Авле, Сейрам; Фокс, Сара Э; Сенгерс, Фиби ; Паудель, Шрейаша; Марат, Мег (14 октября 2023 г.). «Историзм в методе CSCW/как: исследование, восприятие и дизайн» . Совместная работа с компьютерной поддержкой и социальные вычисления . Нью-Йорк, штат Нью-Йорк, США: ACM. стр. 497–500. дои : 10.1145/3584931.3611288 . ISBN 979-8-4007-0129-0 .
- ^ Китчин, Роб; Лорио, Трейси П., «На пути к исследованию критических данных» , «Обдумывая большие данные в географии» , UNP – Небраска, стр. 3–20, doi : 10.2307/j.ctt21h4z6m.6 , получено 9 ноября 2023 г.
- ^ Далтон, Крейг и Джим Тэтчер, 2014.
- ^ Перейти обратно: а б с Илиадис, Эндрю; Руссо, Федерика (декабрь 2016 г.). «Исследование критических данных: Введение» . Большие данные и общество . 3 (2): 205395171667423. doi : 10.1177/2053951716674238 . hdl : 20.500.12613/162 . ISSN 2053-9517 .
- ^ Перейти обратно: а б Майкл, Майк; Луптон, Дебора (13 октября 2015 г.). «На пути к манифесту «общественного понимания больших данных» » . Общественное понимание науки . 25 (1): 104–116. дои : 10.1177/0963662515609005 . hdl : 10871/26112 . ПМИД 26468128 . S2CID 206607967 . [ постоянная мертвая ссылка ]
- ^ Перейти обратно: а б Д'Игнацио, Кэтрин; Кляйн, Лорен (2020). «Семь межсекциональных феминистских принципов для получения справедливых и действенных данных о COVID-19» . Журналы Sage . 7 (2). дои : 10.1177/2053951720942544 . hdl : 1721.1/126699 . ПМИД 32802347 . Проверено 7 ноября 2023 г.
- ^ Бар-Ям, Янир (01 ноября 2016 г.). «От больших данных к важной информации». Сложность . 21 (С2): 73–98. arXiv : 1604.00976 . Бибкод : 2016Cmplx..21S..73B . дои : 10.1002/cplx.21785 . ISSN 1099-0526 . S2CID 14419066 .
- ^ Паттон, Десмонд Аптон; Хун, Джун Сун; Рэнни, Меган; Патель, Садик; Келли, Кейтлин; Эшманн, Роб; Вашингтон, Тириса (01 июня 2014 г.). «Социальные сети как вектор молодежного насилия: обзор литературы» . Компьютеры в поведении человека . 35 : 548–553. дои : 10.1016/j.chb.2014.02.043 . ISSN 0747-5632 .
- ^ Абреу, Амелия; Акер, Амелия (2013). «Контекст и сбор: программа исследований малых данных» . Материалы конференции IConference 2013 : 549–554. doi : 10.9776/13275 (неактивен 31 января 2024 г.). hdl : 2142/39750 . Проверено 17 января 2018 г.
{{cite journal}}
: CS1 maint: DOI неактивен по состоянию на январь 2024 г. ( ссылка ) - ^ Китчин, Роб; Лорио, Трейси (30 июля 2014 г.). Экерт, Дж.; Ширс, А.; Тэтчер, Дж. (ред.). «На пути к исследованию критических данных: составление диаграмм и распаковка совокупностей данных и их работа» . Рабочий документ «Программируемый город» 2 . Издательство Университета Небраски.
- ^ Перейти обратно: а б Китчин, Роб, 2014 г.
- ^ «На пути к контекстуальному и инклюзивному исследованию данных» . www.societyandspace.org . Проверено 7 ноября 2023 г.
- ^ Бреннер, Нил (2009). «Что такое критическая городская теория?». Город . 13 (2–3): 198–207. дои : 10.1080/13604810902996466 . S2CID 22041642 .
- ^ Джо Шоу и Марк Грэм (15 февраля 2017 г.). «Наши цифровые права на город» . www.meatspacepress.org . Митспейс Пресс.
- ^ Кроуфорд, Кейт; Финн, Меган (1 августа 2015 г.). «Границы данных о кризисах: аналитические и этические проблемы использования социальных и мобильных данных для понимания бедствий». Геожурнал . 80 (4): 491–502. дои : 10.1007/s10708-014-9597-z . ISSN 0343-2521 . S2CID 153865729 .
- ^ Пикрен, Грэм (12 октября 2016 г.). «Глобальная сборка цифрового потока». Прогресс в человеческой географии . 42 (2): 225–243. дои : 10.1177/0309132516673241 . S2CID 152088341 .
- ^ Шоу, Джо; Грэм, Марк (февраль 2017 г.). «Информационное право на город? Кодекс, содержание, контроль и урбанизация информации» . Антипод . 49 (4): 907. дои : 10.1111/анти.12312 .
- ^ Тендлер, К., Хонг, П.С., Кейн, К., Копачински, К., Терри, В., и Эмануэль, Э.Дж. (2023). Академическое и частное партнерство для улучшения форм информированного согласия с использованием подхода, основанного на данных. Американский журнал биоэтики , 1-3.
- ^ Нонг, П. (2023). Прогностические технологии в здравоохранении: общественные перспективы и управление системой здравоохранения в контексте структурного неравенства (докторская диссертация).
- ^ Митчелл, М., Ву, С., Залдивар, А., Барнс, П., Вассерман, Л., Хатчинсон, Б., ... и Гебру, Т. (2019, январь). Модельные карточки для модельной отчетности. В материалах конференции по справедливости, подотчетности и прозрачности (стр. 220-229).
- ^ Гебру, Т., Моргенштерн, Дж., Веккьоне, Б., Воган, Дж.В., Уоллах, Х., Iii, HD и Кроуфорд, К. (2021). Таблицы данных для наборов данных. Сообщения АКМ , 64 (12), 86-92.
- ^ Ван Дейк, Дж. (2014). Датафикация, датаизм и наблюдение за данными: большие данные между научной парадигмой и идеологией. Наблюдение и общество , 12 (2), 197–208.
- ^ Хепп А., Ярк Дж. и Крамп Л. (2022). Новые перспективы в исследованиях критических данных: двойственность власти данных (стр. 473). Спрингер Природа.
- ^ Хойсслер, Х. (2021). Основные ценности принципов этики данных: критический анализ дискурсов и структур власти. Либри , 71 (4), 307–319.
Общий
[ редактировать ]- «Понимание корпоративных данных и информации» . Financialcrimeacademy.org . 15 августа 2023 г. Проверено 8 ноября 2023 г.
- «Об этике данных: интервью с Шеннон Валлор» . www.scu.edu . Университет Санта-Клары . Проверено 8 ноября 2023 г.
- Эйтель, Барри (06 июля 2022 г.). «Почему конфиденциальность данных необходима в современном мире» . Национальный альянс кибербезопасности . Проверено 8 ноября 2023 г.
Источники
[ редактировать ]- Далтон, Крейг и Джим Тэтчер. «Как выглядят исследования критически важных данных и почему нас это волнует? Семь пунктов критического подхода к «большим данным»». Открытый сайт «Общество и космос» (2014). Проверено 23 октября 2016 г.
- Элкинс, Джеймс Р. «Движение критического мышления: переменные течения в мышлении одного учителя». myweb.wvnet.edu (1999). Проверено 29 ноября 2016 г.
- Китчин, Роб. Революция данных: большие данные, открытые данные, инфраструктуры данных и их последствия. Sage, 2014. Проверено 23 октября 2016 г.
- Китчин, Роб и Трейси П. Лорио. «На пути к критическим исследованиям данных: составление диаграмм и распаковка совокупностей данных и их работы». (2014). Проверено 23 октября 2016 г.
- Д'Игнацио, К., и Ф. Кляйн, Л. (2020). Семь межсекциональных феминистских принципов для получения справедливых и действенных данных о COVID-19. Sage, 2020. Проверено 7 ноября 2023 года.