Наука о данных
Наука о данных — это междисциплинарная академическая область. [1] который использует статистику , научные вычисления , научные методы , процессы, научную визуализацию , алгоритмы и системы для извлечения или экстраполяции знаний и идей из потенциально зашумленных, структурированных или неструктурированных данных . [2]
Наука о данных также интегрирует предметные знания из базовой области приложения (например, естественные науки, информационные технологии и медицина). [3] Наука о данных многогранна и может быть описана как наука, исследовательская парадигма, метод исследования, дисциплина, рабочий процесс и профессия. [4]
Наука о данных – это «концепция, объединяющая статистику , анализ данных , информатику и связанные с ними методы » для «понимания и анализа реальных явлений » с помощью данных . [5] Он использует методы и теории, взятые из многих областей в контексте математики , статистики, информатики , информатики и предметных знаний . [6] Однако наука о данных отличается от информатики и информатики. премии Тьюринга Лауреат Джим Грей представлял науку о данных как «четвертую парадигму» науки ( эмпирическую , теоретическую , вычислительную , а теперь и управляемую данными) и утверждал, что «все в науке меняется из-за воздействия информационных технологий » и потока данных. . [7] [8]
Специалист по данным — это профессионал, который создает программный код и объединяет его со статистическими знаниями для получения ценной информации на основе данных. [9]
Фонды
[ редактировать ]Наука о данных — междисциплинарная область [10] сосредоточен на извлечении знаний из обычно больших наборов данных и применении знаний и идей из этих данных для решения проблем в широком спектре областей приложений. Эта область включает в себя подготовку данных для анализа, формулирование задач в области науки о данных, анализ данных, разработку решений на основе данных и представление результатов для принятия решений на высоком уровне в широком диапазоне областей приложений. Таким образом, он включает в себя навыки в области информатики, статистики, информатики, математики, визуализации данных , визуализации информации , обработки ультразвуком данных данных , интеграции , графического дизайна , сложных систем , коммуникации и бизнеса . [11] [12] Статистик Натан Яу , опираясь на Бена Фрая , также связывает науку о данных с взаимодействием человека и компьютера : пользователи должны иметь возможность интуитивно контролировать и исследовать данные. [13] [14] В 2015 году Американская статистическая ассоциация определила управление базами данных , статистику и машинное обучение , а также распределенные и параллельные системы в качестве трех новых основополагающих профессиональных сообществ. [15]
Связь со статистикой
[ редактировать ]Многие статистики, в том числе Нейт Сильвер , утверждают, что наука о данных — это не новая область, а скорее другое название статистики. [16] Другие утверждают, что наука о данных отличается от статистики, поскольку она фокусируется на проблемах и методах, уникальных для цифровых данных. [17] Васант Дхар пишет, что статистика делает упор на количественные данные и описания. Напротив, наука о данных имеет дело с количественными и качественными данными (например, из изображений, текста, датчиков, транзакций, информации о клиентах и т. д.) и делает упор на прогнозирование и действие. [18] Эндрю Гельман из Колумбийского университета назвал статистику несущественной частью науки о данных. [19]
Профессор Стэнфорда Дэвид Донохо пишет, что наука о данных не отличается от статистики размером наборов данных или использованием вычислений и что многие аспирантуры ошибочно рекламируют свою подготовку по аналитике и статистике как суть программы по науке о данных. Он описывает науку о данных как прикладную область, выросшую из традиционной статистики. [20]
Этимология
[ редактировать ]Раннее использование
[ редактировать ]В 1962 году Джон Тьюки описал область, которую он назвал « анализом данных », которая напоминает современную науку о данных. [20] В 1985 году в лекции, прочитанной в Китайской академии наук в Пекине, Джефф Ву впервые использовал термин «наука о данных» в качестве альтернативного названия статистики. [21] Позже участники статистического симпозиума 1992 года в Университете Монпелье II признали появление новой дисциплины, ориентированной на данные различного происхождения и формы, сочетающей устоявшиеся концепции и принципы статистики и анализа данных с вычислениями. [22] [23]
Термин «наука о данных» возник в 1974 году, когда Питер Наур предложил его в качестве альтернативного названия информатике. [6] В 1996 году Международная федерация классификационных обществ стала первой конференцией, на которой наука о данных была специально рассмотрена в качестве темы. [6] Однако определение все еще менялось. После лекции 1985 года в Китайской академии наук в Пекине в 1997 году Джефф Ву снова предложил переименовать статистику в науку о данных. Он полагал, что новое название поможет статистике избавиться от неверных стереотипов, таких как синоним бухгалтерского учета или ограничение описания данных. [24] В 1998 году Хаяси Чикио выступал за науку о данных как новую междисциплинарную концепцию, имеющую три аспекта: проектирование данных, сбор и анализ. [23]
В 1990-е годы популярные термины, обозначающие процесс поиска закономерностей в наборах данных (которые становились все более большими), включали «открытие знаний» и « интеллектуальный анализ данных ». [6] [25]
Современное использование
[ редактировать ]В 2012 году технологи Томас Х. Давенпорт и диджей Патил объявили «Исследователь данных: самая сексуальная работа 21 века». [26] крылатая фраза, которую подхватили даже газеты крупных городов, такие как New York Times. [27] и Бостон Глобус . [28] Десять лет спустя они подтвердили это, заявив, что «эта работа востребована работодателями больше, чем когда-либо». [29]
Современную концепцию науки о данных как независимой дисциплины иногда приписывают Уильяму С. Кливленду . [30] В статье 2001 года он выступал за расширение статистики за пределы теории в технические области; поскольку это существенно изменило бы сферу деятельности, это потребовало нового названия. [25] «Наука о данных» стала более широко использоваться в следующие несколько лет: в 2002 году Комитет по данным для науки и технологий запустил журнал Data Science Journal . В 2003 году Колумбийский университет запустил «Журнал науки о данных» . [25] В 2014 году секция статистического обучения и интеллектуального анализа данных Американской статистической ассоциации изменила свое название на секцию статистического обучения и науки о данных, что отражает растущую популярность науки о данных. [31]
Профессиональный титул «специалист по данным» был присвоен диджею Патилу и Джеффу Хаммербахеру в 2008 году. [32] Хотя оно использовалось Национальным научным советом в отчете 2005 года «Долгоживущие коллекции цифровых данных: возможности исследований и образования в 21 веке», в широком смысле оно относилось к любой ключевой роли в управлении сбором цифровых данных . [33]
До сих пор нет единого мнения по поводу определения науки о данных, и некоторые считают его модным словечком . [34] Большие данные — это родственный маркетинговый термин. [35] Ученые, работающие с данными, отвечают за разбиение больших данных на полезную информацию и создание программного обеспечения и алгоритмов, которые помогают компаниям и организациям определять оптимальные операции. [36]
Наука о данных и анализ данных
[ редактировать ]Наука о данных и анализ данных являются важными дисциплинами в области управления и анализа данных, но они различаются по нескольким ключевым аспектам. Хотя обе области связаны с работой с данными, наука о данных — это скорее междисциплинарная область , которая включает в себя применение статистических, вычислительных методов и методов машинного обучения для извлечения информации из данных и составления прогнозов, в то время как анализ данных больше ориентирован на изучение и интерпретацию данных. данные для выявления закономерностей и тенденций. [37] [38]
Анализ данных обычно предполагает работу с небольшими структурированными наборами данных для ответа на конкретные вопросы или решения конкретных проблем. Это может включать в себя такие задачи, как очистка данных , визуализация данных и исследовательский анализ данных, чтобы получить представление о данных и разработать гипотезы о взаимосвязях между переменными . Аналитики данных обычно используют статистические методы для проверки этих гипотез и получения выводов на основе данных. Например, аналитик данных может анализировать данные о продажах, чтобы выявить тенденции в поведении клиентов и дать рекомендации по маркетинговым стратегиям. [37]
Наука о данных, с другой стороны, представляет собой более сложный и итеративный процесс, который включает в себя работу с более крупными и сложными наборами данных, для анализа которых часто требуются передовые вычислительные и статистические методы. Ученые, работающие с данными, часто работают с неструктурированными данными , такими как текст или изображения, и используют алгоритмы машинного обучения для построения прогнозных моделей и принятия решений на основе данных. Помимо статистического анализа , наука о данных часто включает в себя такие задачи, как предварительная обработка данных , разработка функций и выбор модели. Например, специалист по данным может разработать систему рекомендаций для платформы электронной коммерции, анализируя модели поведения пользователей и используя алгоритмы машинного обучения для прогнозирования предпочтений пользователей. [38] [39]
В то время как анализ данных фокусируется на извлечении информации из существующих данных, наука о данных выходит за рамки этого, включая разработку и внедрение прогнозных моделей для принятия обоснованных решений. Ученые, работающие с данными, часто отвечают за сбор и очистку данных, выбор подходящих аналитических методов и развертывание моделей в реальных сценариях. Они работают на стыке математики, информатики и предметной экспертизы , чтобы решать сложные проблемы и раскрывать скрытые закономерности в больших наборах данных. [38]
Несмотря на эти различия, наука о данных и анализ данных являются тесно связанными областями и часто требуют схожих навыков. Обе области требуют прочной основы в области статистики, программирования и визуализации данных , а также способности эффективно сообщать результаты как технической, так и нетехнической аудитории. Обе области извлекают выгоду из критического мышления и знания предметной области , поскольку понимание контекста и нюансов данных имеет важное значение для точного анализа и моделирования. [37] [38]
Таким образом, анализ данных и наука о данных — это отдельные, но взаимосвязанные дисциплины в более широкой области управления и анализа данных. Анализ данных фокусируется на извлечении информации и выводах из структурированных данных , в то время как наука о данных предполагает более комплексный подход, который сочетает в себе статистический анализ , вычислительные методы и машинное обучение для извлечения информации, построения прогнозных моделей и принятия решений на основе данных . Обе области используют данные для понимания закономерностей, принятия обоснованных решений и решения сложных проблем в различных областях.
Облачные вычисления для науки о данных
[ редактировать ]Облачные вычисления могут обеспечить доступ к большим объемам вычислительной мощности и хранилищам . [40] В сфере больших данных , где постоянно генерируются и обрабатываются объемы информации, эти платформы можно использовать для решения сложных и ресурсоемких аналитических задач. [41]
Некоторые платформы распределенных вычислений предназначены для обработки больших объемов данных. Эти платформы могут позволить ученым, работающим с данными, обрабатывать и анализировать большие наборы данных параллельно, что может сократить время обработки. [42]
Этические соображения в науке о данных
[ редактировать ]Наука о данных включает сбор, обработку и анализ данных, которые часто включают личную и конфиденциальную информацию. Этические проблемы включают потенциальные нарушения конфиденциальности, сохранение предвзятости и негативные социальные последствия. [43] [44]
Модели машинного обучения могут усиливать существующие предвзятости, присутствующие в данных обучения, что приводит к дискриминационным или несправедливым результатам. [45] [46]
См. также
[ редактировать ]- Научные данные
- Женщины в данных
- Python (язык программирования)
- R (язык программирования)
- Инженерия данных
- Большие данные
- Машинное обучение
Ссылки
[ редактировать ]- ^ Донохо, Дэвид (2017). «50 лет науки о данных» . Журнал вычислительной и графической статистики . 26 (4): 745–766. дои : 10.1080/10618600.2017.1384734 . S2CID 114558008 .
- ^ Дхар, В. (2013). «Наука о данных и прогнозирование» . Коммуникации АКМ . 56 (12): 64–73. дои : 10.1145/2500499 . S2CID 6107147 . Архивировано из оригинала 9 ноября 2014 года . Проверено 2 сентября 2015 г.
- ^ Данилюк А.; Лейдиг, П. (2021). Вычислительные компетенции для учебной программы бакалавриата по науке о данных (PDF) . Итоговый отчет рабочей группы по науке о данных ACM (отчет).
- ^ Майк, Коби; Хаззан, Орит (20 января 2023 г.). «Что такое наука о данных?» . Коммуникации АКМ . 66 (2): 12–13. дои : 10.1145/3575663 . ISSN 0001-0782 .
- ^ Хаяси, Чикио (1 января 1998 г.). «Что такое наука о данных? Фундаментальные концепции и эвристический пример» . В Хаяси, Чикио; Ядзима, Кейджи; Бок, Ганс-Германн; Осуми, Нобору; Танака, Ютака; Баба, Ясумаса (ред.). Наука о данных, классификация и родственные методы . Исследования в области классификации, анализа данных и организации знаний. Спрингер Япония. стр. 40–51. дои : 10.1007/978-4-431-65950-1_3 . ISBN 9784431702085 .
- ^ Jump up to: а б с д Цао, Лунбин (29 июня 2017 г.). «Наука о данных: комплексный обзор» . Обзоры вычислительной техники ACM . 50 (3): 43:1–43:42. arXiv : 2007.03606 . дои : 10.1145/3076253 . ISSN 0360-0300 . S2CID 207595944 .
- ^ Тони Эй; Стюарт Тэнсли; Кристин Мишель Толле (2009). Четвертая парадигма: научные открытия, требующие больших объемов данных . Исследования Майкрософт. ISBN 978-0-9825442-0-4 . Архивировано из оригинала 20 марта 2017 года.
- ^ Белл, Г.; Привет, Т.; Салай, А. (2009). «Информатика: за пределами потока данных». Наука . 323 (5919): 1297–1298. дои : 10.1126/science.1170411 . ISSN 0036-8075 . ПМИД 19265007 . S2CID 9743327 .
- ^ Давенпорт, Томас Х.; Патил, диджей (октябрь 2012 г.). «Аналитик данных: самая сексуальная профессия 21 века» . Гарвардское деловое обозрение . 90 (10): 70–76, 128. PMID 23074866 . Проверено 18 января 2016 г.
- ^ Эммерт-Штрайб, Франк; Демер, Матиас (2018). «Определение науки о данных посредством количественной оценки сообщества на основе данных» . Машинное обучение и извлечение знаний . 1 : 235–251. дои : 10.3390/make1010015 .
- ^ «1. Введение: что такое наука о данных?» . Занимаемся наукой о данных [Книга] . О'Рейли . Проверено 3 апреля 2020 г.
- ^ «Три сексуальных навыка компьютерных фанатов» . Медрисколл: данные утопичны . 27 мая 2009 года . Проверено 3 апреля 2020 г.
- ^ Яу, Натан (4 июня 2009 г.). «Восстание специалиста по данным» . Текущие данные . Проверено 3 апреля 2020 г.
- ^ «Базовый пример» . benfry.com . Проверено 3 апреля 2020 г.
- ^ «Заявление ASA о роли статистики в науке о данных» . Новости Амстата . Американская статистическая ассоциация . 1 октября 2015 года. Архивировано из оригинала 20 июня 2019 года . Проверено 29 мая 2019 г.
- ^ «Нейт Сильвер: Что мне нужно от статистиков» . Просмотры статистики . 23 августа 2013 года . Проверено 3 апреля 2020 г.
- ^ «В чем разница между наукой о данных и статистикой?» . Ценаономика . 13 октября 2015 г. Проверено 3 апреля 2020 г.
- ^ Васант Дхар (1 декабря 2013 г.). «Наука о данных и прогнозирование» . Коммуникации АКМ . 56 (12): 64–73. дои : 10.1145/2500499 . S2CID 6107147 .
- ^ «Статистика — наименее важная часть науки о данных «Статистическое моделирование, причинный вывод и социальные науки» . statmodeling.stat.columbia.edu . Проверено 3 апреля 2020 г.
- ^ Jump up to: а б Донохо, Дэвид (18 сентября 2015 г.). «50 лет науки о данных» (PDF) . Проверено 2 апреля 2020 г.
- ^ Ву, CF Джефф (1986). «Будущие направления статистических исследований в Китае: историческая перспектива» (PDF) . Применение статистики и управления . 1 :1–7 . Проверено 29 ноября 2020 г. .
- ^ Эскуфье, Ив; Хаяси, Чикио; Фише, Бернар, ред. (1995). Наука о данных и ее приложения . Токио: Academic Press/Harcourt Brace. ISBN 0-12-241770-4 . OCLC 489990740 .
- ^ Jump up to: а б Мурта, Фионн; Девлин, Кейт (2018). «Развитие науки о данных: последствия для образования, занятости, исследований и революция данных для устойчивого развития» . Большие данные и когнитивные вычисления . 2 (2): 14. дои : 10.3390/bdcc2020014 .
- ^ Ву, CF Джефф. «Статистика = Наука о данных?» (PDF) . Проверено 2 апреля 2020 г.
- ^ Jump up to: а б с Пресс, Гил. «Очень краткая история науки о данных» . Форбс . Проверено 3 апреля 2020 г.
- ^ Давенпорт, Томас (1 октября 2012 г.). «Аналитик данных: самая сексуальная профессия 21 века» . Гарвардское деловое обозрение . Проверено 10 октября 2022 г.
- ^ Миллер, Клэр (4 апреля 2013 г.). «Наука о данных: цифры нашей жизни» . Нью-Йорк Таймс . Нью-Йорк . Проверено 10 октября 2022 г.
- ^ Борчерс, Каллум (11 ноября 2015 г.). «За кулисами «самой сексуальной работы XXI века» » . Бостон Глобус . Бостон . Проверено 10 октября 2022 г.
- ^ Давенпорт, Томас (15 июля 2022 г.). «Является ли специалист по данным по-прежнему самой сексуальной профессией 21 века?» . Гарвардское деловое обозрение . Проверено 10 октября 2022 г.
- ^ Гупта, Шанти (11 декабря 2015 г.). «Уильям С. Кливленд» . Проверено 2 апреля 2020 г.
- ^ Тэлли, Джилл (1 июня 2016 г.). «ASA расширяет сферу охвата, расширяет возможности для стимулирования роста и сотрудничества в области науки о данных» . Новости Амстата . Американская статистическая ассоциация . . В 2013 году первая Европейская конференция по анализу данных (ECDA2013) начала в Люксембурге процесс, в результате которого в 2015 году в Люксембурге была основана Европейская ассоциация по науке о данных (EuADS) www.euads.org.
- ^ Давенпорт, Томас Х.; Патил, диджей (1 октября 2012 г.). «Аналитик данных: самая сексуальная профессия 21 века» . Гарвардское деловое обозрение . № октябрь 2012 г. ISSN 0017-8012 . Проверено 3 апреля 2020 г.
- ^ «НФ США - NSB-05-40, Долговечные коллекции цифровых данных, способствующие исследованиям и образованию в 21 веке» . www.nsf.gov . Проверено 3 апреля 2020 г.
- ^ Пресс, Гил. «Наука о данных: каков период полураспада модного слова?» . Форбс . Проверено 3 апреля 2020 г.
- ^ Фам, Питер. «Воздействие больших данных, о котором вы, возможно, не слышали» . Форбс . Проверено 3 апреля 2020 г.
- ^ Мартин, София (20 сентября 2019 г.). «Как наука о данных повлияет на будущее бизнеса?» (PDF) . Середина . Проверено 3 апреля 2020 г.
- ^ Jump up to: а б с Гарет, Хасти; Виттен, Тибшира (29 сентября 2017 г.). «Введение в статистическое обучение: с приложениями на R». Спрингер .
- ^ Jump up to: а б с д Провост, Фостер; Том Фосетт (1 августа 2013 г.). «Наука о данных для бизнеса: что нужно знать об интеллектуальном анализе данных и аналитическом мышлении» . О'Рейли Медиа, Инк .
- ^ Хан, Камбер; Пей (2011). Интеллектуальный анализ данных: концепции и методы . ISBN 9780123814791 .
- ^ Хашем, Ибрагим Абакер Таргио; Якуб, Ибрар; Ануар, Нор Бадрул; Мохтар, Салима; Гани, Абдулла; Улла Хан, Сами (2015). «Рост «больших данных» в облачных вычислениях: обзор и открытые вопросы исследования» . Информационные системы . 47 : 98–115. дои : 10.1016/j.is.2014.07.006 .
- ^ Цю, Цзюньфэй; Ву, Цихуэй; Дин, Гуору; Сюй, Юйхуа; Фэн, Шуо (2016). «Обзор машинного обучения для обработки больших данных» . Журнал EURASIP о достижениях в области обработки сигналов . 2016 (1). дои : 10.1186/s13634-016-0355-x . ISSN 1687-6180 .
- ^ Армбруст, Майкл; Синь, Рейнольд С.; Лиан, Ченг; Хуай, Инь; Лю, Дэвис; Брэдли, Джозеф К.; Мэн, Сянжуй; Кафтан, Томер; Франклин, Майкл Дж.; Годси, Али; Захария, Матей (27 мая 2015 г.). «Spark SQL: реляционная обработка данных в Spark» . Материалы Международной конференции ACM SIGMOD 2015 по управлению данными . АКМ. стр. 1383–1394. дои : 10.1145/2723372.2742797 . ISBN 978-1-4503-2758-9 .
- ^ Флориди, Лучано; Таддео, Мариаросария (28 декабря 2016 г.). «Что такое этика данных?» . Философские труды Королевского общества A: Математические, физические и технические науки . 374 (2083): 20160360. Бибкод : 2016RSPTA.37460360F . дои : 10.1098/rsta.2016.0360 . ISSN 1364-503X . ПМК 5124072 . ПМИД 28336805 .
- ^ Миттельштадт, Брент Дэниел; Флориди, Лучано (2016). «Этика больших данных: текущие и прогнозируемые проблемы в биомедицинском контексте» . Наука и инженерная этика . 22 (2): 303–341. дои : 10.1007/s11948-015-9652-2 . ISSN 1353-3452 . ПМИД 26002496 .
- ^ Барокас, Солон; Селбст, Эндрю Д. (2016). «Неодинаковое влияние больших данных» . Обзор законодательства Калифорнии . дои : 10.15779/Z38BG31 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Калискан, Айлин; Брайсон, Джоанна Дж.; Нарайанан, Арвинд (14 апреля 2017 г.). «Семантика, автоматически полученная из языковых корпусов, содержит предубеждения, подобные человеческим» . Наука . 356 (6334): 183–186. arXiv : 1608.07187 . Бибкод : 2017Sci...356..183C . дои : 10.1126/science.aal4230 . ISSN 0036-8075 .