Jump to content

Наука о данных

Существование кометы NEOWISE (здесь она изображена в виде серии красных точек) было обнаружено путем анализа астрономических исследований, данных полученных с помощью космического телескопа Wide -field Infrared Survey Explorer .

Наука о данных — это междисциплинарная академическая область. [1] который использует статистику , научные вычисления , научные методы , процессы, научную визуализацию , алгоритмы и системы для извлечения или экстраполяции знаний и идей из потенциально зашумленных, структурированных или неструктурированных данных . [2]

Наука о данных также интегрирует предметные знания из базовой области приложения (например, естественные науки, информационные технологии и медицина). [3] Наука о данных многогранна и может быть описана как наука, исследовательская парадигма, метод исследования, дисциплина, рабочий процесс и профессия. [4]

Наука о данных – это «концепция, объединяющая статистику , анализ данных , информатику и связанные с ними методы » для «понимания и анализа реальных явлений » с помощью данных . [5] Он использует методы и теории, взятые из многих областей в контексте математики , статистики, информатики , информатики и предметных знаний . [6] Однако наука о данных отличается от информатики и информатики. премии Тьюринга Лауреат Джим Грей представлял науку о данных как «четвертую парадигму» науки ( эмпирическую , теоретическую , вычислительную , а теперь и управляемую данными) и утверждал, что «все в науке меняется из-за воздействия информационных технологий » и потока данных. . [7] [8]

Специалист по данным — это профессионал, который создает программный код и объединяет его со статистическими знаниями для получения ценной информации на основе данных. [9]

Фундаменты [ править ]

Наука о данных — междисциплинарная область [10] сосредоточено на извлечении знаний из обычно больших наборов данных и применении знаний и идей из этих данных для решения проблем в широком спектре областей приложений. Эта область включает в себя подготовку данных для анализа, формулирование задач в области науки о данных, анализ данных, разработку решений на основе данных и представление результатов для принятия решений на высоком уровне в широком спектре областей применения. Таким образом, он включает в себя навыки в области информатики, статистики, информатики, математики, визуализации данных , визуализации информации , озвучивания данных данных , интеграции , графического дизайна , сложных систем , коммуникации и бизнеса . [11] [12] Статистик Натан Яу , опираясь на Бена Фрая , также связывает науку о данных с взаимодействием человека и компьютера : пользователи должны иметь возможность интуитивно контролировать и исследовать данные. [13] [14] В 2015 году Американская статистическая ассоциация определила управление базами данных , статистику и машинное обучение , а также распределенные и параллельные системы в качестве трех новых основополагающих профессиональных сообществ. [15]

Связь со статистикой [ править ]

Многие статистики, в том числе Нейт Сильвер , утверждают, что наука о данных — это не новая область, а скорее другое название статистики. [16] Другие утверждают, что наука о данных отличается от статистики, поскольку она фокусируется на проблемах и методах, уникальных для цифровых данных. [17] Васант Дхар пишет, что статистика делает упор на количественные данные и описания. Напротив, наука о данных имеет дело с количественными и качественными данными (например, из изображений, текста, датчиков, транзакций, информации о клиентах и ​​т. д.) и делает упор на прогнозирование и действие. [18] Эндрю Гельман из Колумбийского университета назвал статистику несущественной частью науки о данных. [19]

Профессор Стэнфорда Дэвид Донохо пишет, что наука о данных не отличается от статистики размером наборов данных или использованием вычислений и что многие аспирантуры ошибочно рекламируют свою подготовку по аналитике и статистике как суть программы по науке о данных. Он описывает науку о данных как прикладную область, выросшую из традиционной статистики. [20]

Этимология [ править ]

Раннее использование [ править ]

В 1962 году Джон Тьюки описал область, которую он назвал « анализом данных », которая напоминает современную науку о данных. [20] В 1985 году в лекции, прочитанной в Китайской академии наук в Пекине, Джефф Ву впервые использовал термин «наука о данных» в качестве альтернативного названия статистики. [21] Позже участники статистического симпозиума 1992 года в Университете Монпелье II признали появление новой дисциплины, ориентированной на данные различного происхождения и формы, сочетающей устоявшиеся концепции и принципы статистики и анализа данных с вычислениями. [22] [23]

Термин «наука о данных» возник в 1974 году, когда Питер Наур предложил его в качестве альтернативного названия информатике. [6] В 1996 году Международная федерация классификационных обществ стала первой конференцией, на которой наука о данных была специально рассмотрена в качестве темы. [6] Однако определение все еще менялось. После лекции 1985 года в Китайской академии наук в Пекине в 1997 году Джефф Ву снова предложил переименовать статистику в науку о данных. Он полагал, что новое название поможет статистике избавиться от неверных стереотипов, таких как синоним бухгалтерского учета или ограничение описания данных. [24] В 1998 году Хаяси Чикио выступал за науку о данных как новую междисциплинарную концепцию, имеющую три аспекта: проектирование данных, сбор и анализ. [23]

В 1990-е годы популярные термины, обозначающие процесс поиска закономерностей в наборах данных (которые становились все более большими), включали «открытие знаний» и « интеллектуальный анализ данных ». [6] [25]

Современное использование [ править ]

В 2012 году технологи Томас Х. Давенпорт и DJ Патил объявили «Исследователь данных: самая сексуальная работа 21 века». [26] крылатая фраза, которую подхватили даже газеты крупных городов, такие как New York Times. [27] и Бостон Глобус . [28] Десять лет спустя они подтвердили это, заявив, что «эта работа востребована работодателями больше, чем когда-либо». [29]

Современную концепцию науки о данных как независимой дисциплины иногда приписывают Уильяму С. Кливленду . [30] В статье 2001 года он выступал за расширение статистики за пределы теории в технические области; поскольку это существенно изменило бы сферу деятельности, это потребовало нового названия. [25] «Наука о данных» стала более широко использоваться в следующие несколько лет: в 2002 году Комитет по данным для науки и технологий запустил журнал Data Science Journal . В 2003 году Колумбийский университет запустил «Журнал науки о данных» . [25] В 2014 году секция статистического обучения и интеллектуального анализа данных Американской статистической ассоциации изменила свое название на секцию статистического обучения и науки о данных, что отражает растущую популярность науки о данных. [31]

Профессиональный титул «специалист по данным» был присвоен диджею Патилу и Джеффу Хаммербахеру в 2008 году. [32] Хотя оно использовалось Национальным научным советом в отчете 2005 года «Долгоживущие коллекции цифровых данных: возможности исследований и образования в 21 веке», в широком смысле оно относилось к любой ключевой роли в управлении сбором цифровых данных . [33]

До сих пор нет единого мнения относительно определения науки о данных, и некоторые считают это модным словечком . [34] Большие данные — это родственный маркетинговый термин. [35] Ученые, работающие с данными, отвечают за разбиение больших данных на полезную информацию и создание программного обеспечения и алгоритмов, которые помогают компаниям и организациям определять оптимальные операции. [36]

Наука о данных анализ и данных

сводная статистика и диаграммы рассеяния, показывающие набор данных дюжины Datasaurus
Пример полезности исследовательского анализа данных , продемонстрированный с использованием дюжины Datasaurus. набора данных

Наука о данных и анализ данных являются важными дисциплинами в области управления и анализа данных, но они различаются по нескольким ключевым аспектам. Хотя обе области связаны с работой с данными, наука о данных — это скорее междисциплинарная область , которая включает в себя применение статистических, вычислительных методов и методов машинного обучения для извлечения информации из данных и составления прогнозов, в то время как анализ данных больше ориентирован на изучение и интерпретацию данных. данные для выявления закономерностей и тенденций. [37] [38]

Анализ данных обычно предполагает работу с небольшими структурированными наборами данных для ответа на конкретные вопросы или решения конкретных проблем. Это может включать в себя такие задачи, как очистка данных , визуализация данных и исследовательский анализ данных, чтобы получить представление о данных и разработать гипотезы о взаимосвязях между переменными . Аналитики данных обычно используют статистические методы для проверки этих гипотез и получения выводов на основе данных. Например, аналитик данных может анализировать данные о продажах, чтобы выявить тенденции в поведении клиентов и дать рекомендации по маркетинговым стратегиям. [37]

Наука о данных, с другой стороны, представляет собой более сложный и итеративный процесс, который включает в себя работу с более крупными и сложными наборами данных, для анализа которых часто требуются передовые вычислительные и статистические методы. Ученые, работающие с данными, часто работают с неструктурированными данными , такими как текст или изображения, и используют алгоритмы машинного обучения для построения прогнозных моделей и принятия решений на основе данных. Помимо статистического анализа , наука о данных часто включает в себя такие задачи, как предварительная обработка данных , разработка функций и выбор модели. Например, специалист по данным может разработать систему рекомендаций для платформы электронной коммерции, анализируя модели поведения пользователей и используя алгоритмы машинного обучения для прогнозирования предпочтений пользователей. [38] [39]

В то время как анализ данных фокусируется на извлечении информации из существующих данных, наука о данных выходит за рамки этого, включая разработку и внедрение прогнозных моделей для принятия обоснованных решений. Ученые, работающие с данными, часто отвечают за сбор и очистку данных, выбор подходящих аналитических методов и развертывание моделей в реальных сценариях. Они работают на стыке математики, информатики и предметной экспертизы , чтобы решать сложные проблемы и раскрывать скрытые закономерности в больших наборах данных. [38]

Несмотря на эти различия, наука о данных и анализ данных являются тесно связанными областями и часто требуют схожих навыков. Обе области требуют прочной основы в области статистики, программирования и визуализации данных , а также способности эффективно сообщать результаты как технической, так и нетехнической аудитории. Обе области извлекают выгоду из критического мышления и знания предметной области , поскольку понимание контекста и нюансов данных имеет важное значение для точного анализа и моделирования. [37] [38]

Таким образом, анализ данных и наука о данных — это отдельные, но взаимосвязанные дисциплины в более широкой области управления и анализа данных. Анализ данных фокусируется на извлечении информации и выводах из структурированных данных , в то время как наука о данных предполагает более комплексный подход, который сочетает в себе статистический анализ , вычислительные методы и машинное обучение для извлечения информации, построения прогнозных моделей и принятия решений на основе данных . Обе области используют данные для понимания закономерностей, принятия обоснованных решений и решения сложных проблем в различных областях.

Облачные вычисления для данных о науки

Облачная архитектура для анализа больших данных. Данные перетекают из различных источников, таких как персональные компьютеры , ноутбуки и смартфоны , через облачные сервисы для обработки и анализа, что в конечном итоге приводит к различным приложениям для работы с большими данными .

Облачные вычисления могут обеспечить доступ к большим объемам вычислительной мощности и хранилищам . [40] В сфере больших данных , где постоянно генерируются и обрабатываются объемы информации, эти платформы можно использовать для решения сложных и ресурсоемких аналитических задач. [41]

Некоторые платформы распределенных вычислений предназначены для обработки больших объемов данных. Эти платформы могут позволить ученым, работающим с данными, обрабатывать и анализировать большие наборы данных параллельно, что может сократить время обработки. [42]

в науке о данных соображения Этические

Наука о данных включает сбор, обработку и анализ данных, которые часто включают личную и конфиденциальную информацию. Этические проблемы включают потенциальные нарушения конфиденциальности, сохранение предвзятости и негативные социальные последствия. [43] [44]

Модели машинного обучения могут усиливать существующие предвзятости, присутствующие в данных обучения, что приводит к дискриминационным или несправедливым результатам. [45] [46]

См. также [ править ]

Ссылки [ править ]

  1. ^ Донохо, Дэвид (2017). «50 лет науки о данных» . Журнал вычислительной и графической статистики . 26 (4): 745–766. дои : 10.1080/10618600.2017.1384734 . S2CID   114558008 .
  2. ^ Дхар, В. (2013). «Наука о данных и прогнозирование» . Коммуникации АКМ . 56 (12): 64–73. дои : 10.1145/2500499 . S2CID   6107147 . Архивировано из оригинала 9 ноября 2014 года . Проверено 2 сентября 2015 г.
  3. ^ Данилюк А.; Лейдиг, П. (2021). Вычислительные компетенции для учебной программы бакалавриата по науке о данных (PDF) . Итоговый отчет рабочей группы по науке о данных ACM (отчет).
  4. ^ Майк, Коби; Хаззан, Орит (20 января 2023 г.). «Что такое наука о данных?» . Коммуникации АКМ . 66 (2): 12–13. дои : 10.1145/3575663 . ISSN   0001-0782 .
  5. ^ Хаяси, Чикио (1 января 1998 г.). «Что такое наука о данных? Фундаментальные концепции и эвристический пример» . В Хаяси, Чикио; Ядзима, Кейджи; Бок, Ганс-Германн; Осуми, Нобору; Танака, Ютака; Баба, Ясумаса (ред.). Наука о данных, классификация и родственные методы . Исследования в области классификации, анализа данных и организации знаний. Спрингер Япония. стр. 40–51. дои : 10.1007/978-4-431-65950-1_3 . ISBN  9784431702085 .
  6. Перейти обратно: Перейти обратно: а б с д Цао, Лунбин (29 июня 2017 г.). «Наука о данных: комплексный обзор» . Обзоры вычислительной техники ACM . 50 (3): 43:1–43:42. arXiv : 2007.03606 . дои : 10.1145/3076253 . ISSN   0360-0300 . S2CID   207595944 .
  7. ^ Тони Эй; Стюарт Тэнсли; Кристин Мишель Толле (2009). Четвертая парадигма: научные открытия, требующие больших объемов данных . Исследования Майкрософт. ISBN  978-0-9825442-0-4 . Архивировано из оригинала 20 марта 2017 года.
  8. ^ Белл, Г.; Привет, Т.; Салай, А. (2009). «Информатика: за пределами потока данных». Наука . 323 (5919): 1297–1298. дои : 10.1126/science.1170411 . ISSN   0036-8075 . ПМИД   19265007 . S2CID   9743327 .
  9. ^ Давенпорт, Томас Х.; Патил, диджей (октябрь 2012 г.). «Аналитик данных: самая сексуальная профессия 21 века» . Гарвардское деловое обозрение . 90 (10): 70–76, 128. PMID   23074866 . Проверено 18 января 2016 г.
  10. ^ Эммерт-Штрайб, Франк; Демер, Матиас (2018). «Определение науки о данных посредством количественной оценки сообщества на основе данных» . Машинное обучение и извлечение знаний . 1 : 235–251. дои : 10.3390/make1010015 .
  11. ^ «1. Введение: что такое наука о данных?» . Занимаемся наукой о данных [Книга] . О'Рейли . Проверено 3 апреля 2020 г.
  12. ^ «Три сексуальных навыка компьютерных фанатов» . Медрисколл: данные утопичны . 27 мая 2009 года . Проверено 3 апреля 2020 г.
  13. ^ Яу, Натан (4 июня 2009 г.). «Восстание специалиста по данным» . Текущие данные . Проверено 3 апреля 2020 г.
  14. ^ «Базовый пример» . benfry.com . Проверено 3 апреля 2020 г.
  15. ^ «Заявление ASA о роли статистики в науке о данных» . Новости Амстата . Американская статистическая ассоциация . 1 октября 2015 года. Архивировано из оригинала 20 июня 2019 года . Проверено 29 мая 2019 г.
  16. ^ «Нейт Сильвер: Что мне нужно от статистиков» . Статистика просмотров . 23 августа 2013 года . Проверено 3 апреля 2020 г.
  17. ^ «В чем разница между наукой о данных и статистикой?» . Ценаономика . 13 октября 2015 г. Проверено 3 апреля 2020 г.
  18. ^ Васант Дхар (1 декабря 2013 г.). «Наука о данных и прогнозирование» . Коммуникации АКМ . 56 (12): 64–73. дои : 10.1145/2500499 . S2CID   6107147 .
  19. ^ «Статистика — наименее важная часть науки о данных «Статистическое моделирование, причинный вывод и социальные науки» . statmodeling.stat.columbia.edu . Проверено 3 апреля 2020 г.
  20. Перейти обратно: Перейти обратно: а б Донохо, Дэвид (18 сентября 2015 г.). «50 лет науки о данных» (PDF) . Проверено 2 апреля 2020 г.
  21. ^ Ву, CF Джефф (1986). «Будущие направления статистических исследований в Китае: историческая перспектива» (PDF) . Применение статистики и управления . 1 :1–7 . Проверено 29 ноября 2020 г. .
  22. ^ Эскуфье, Ив; Хаяси, Чикио; Фише, Бернар, ред. (1995). Наука о данных и ее приложения . Токио: Academic Press/Harcourt Brace. ISBN  0-12-241770-4 . OCLC   489990740 .
  23. Перейти обратно: Перейти обратно: а б Мурта, Фионн; Девлин, Кейт (2018). «Развитие науки о данных: последствия для образования, занятости, исследований и революция данных для устойчивого развития» . Большие данные и когнитивные вычисления . 2 (2): 14. дои : 10.3390/bdcc2020014 .
  24. ^ Ву, CF Джефф. «Статистика = Наука о данных?» (PDF) . Проверено 2 апреля 2020 г.
  25. Перейти обратно: Перейти обратно: а б с Пресс, Гил. «Очень краткая история науки о данных» . Форбс . Проверено 3 апреля 2020 г.
  26. ^ Давенпорт, Томас (1 октября 2012 г.). «Аналитик данных: самая сексуальная профессия 21 века» . Гарвардское деловое обозрение . Проверено 10 октября 2022 г.
  27. ^ Миллер, Клэр (4 апреля 2013 г.). «Наука о данных: цифры нашей жизни» . Нью-Йорк Таймс . Нью-Йорк . Проверено 10 октября 2022 г.
  28. ^ Борчерс, Каллум (11 ноября 2015 г.). «За кулисами «самой сексуальной работы XXI века» » . Бостон Глобус . Бостон . Проверено 10 октября 2022 г.
  29. ^ Давенпорт, Томас (15 июля 2022 г.). «Является ли специалист по данным по-прежнему самой сексуальной профессией 21 века?» . Гарвардское деловое обозрение . Проверено 10 октября 2022 г.
  30. ^ Гупта, Шанти (11 декабря 2015 г.). «Уильям С. Кливленд» . Проверено 2 апреля 2020 г.
  31. ^ Тэлли, Джилл (1 июня 2016 г.). «ASA расширяет сферу деятельности, расширяет возможности для стимулирования роста и сотрудничества в области науки о данных» . Новости Амстата . Американская статистическая ассоциация . . В 2013 году первая Европейская конференция по анализу данных (ECDA2013) начала в Люксембурге процесс, в результате которого в 2015 году в Люксембурге была основана Европейская ассоциация по науке о данных (EuADS) www.euads.org.
  32. ^ Давенпорт, Томас Х.; Патил, диджей (1 октября 2012 г.). «Аналитик данных: самая сексуальная профессия 21 века» . Гарвардское деловое обозрение . № октябрь 2012 г. ISSN   0017-8012 . Проверено 3 апреля 2020 г.
  33. ^ «НФ США - NSB-05-40, Долговечные коллекции цифровых данных, способствующие исследованиям и образованию в 21 веке» . www.nsf.gov . Проверено 3 апреля 2020 г.
  34. ^ Пресс, Гил. «Наука о данных: каков период полураспада модного слова?» . Форбс . Проверено 3 апреля 2020 г.
  35. ^ Фам, Питер. «Воздействие больших данных, о котором вы, возможно, не слышали» . Форбс . Проверено 3 апреля 2020 г.
  36. ^ Мартин, София (20 сентября 2019 г.). «Как наука о данных повлияет на будущее бизнеса?» (PDF) . Середина . Проверено 3 апреля 2020 г.
  37. Перейти обратно: Перейти обратно: а б с Гарет, Хасти; Виттен, Тибшира (29 сентября 2017 г.). «Введение в статистическое обучение: с приложениями на R». Спрингер .
  38. Перейти обратно: Перейти обратно: а б с д Провост, Фостер; Том Фосетт (1 августа 2013 г.). «Наука о данных для бизнеса: что нужно знать об интеллектуальном анализе данных и аналитическом мышлении» . О'Рейли Медиа, Инк .
  39. ^ Хан, Камбер; Пей (2011). Интеллектуальный анализ данных: концепции и методы . ISBN  9780123814791 .
  40. ^ Хашем, Ибрагим Абакер Таргио; Якуб, Ибрар; Ануар, Нор Бадрул; Мохтар, Салима; Гани, Абдулла; Улла Хан, Сами (2015). «Рост «больших данных» в облачных вычислениях: обзор и открытые вопросы исследования» . Информационные системы . 47 : 98–115. дои : 10.1016/j.is.2014.07.006 .
  41. ^ Цю, Цзюньфэй; Ву, Цихуэй; Дин, Гуору; Сюй, Юйхуа; Фэн, Шуо (2016). «Обзор машинного обучения для обработки больших данных» . Журнал EURASIP о достижениях в области обработки сигналов . 2016 (1). дои : 10.1186/s13634-016-0355-x . ISSN   1687-6180 .
  42. ^ Армбруст, Майкл; Синь, Рейнольд С.; Лиан, Ченг; Хуай, Инь; Лю, Дэвис; Брэдли, Джозеф К.; Мэн, Сянжуй; Кафтан, Томер; Франклин, Майкл Дж.; Годси, Али; Захария, Матей (27 мая 2015 г.). «Spark SQL: реляционная обработка данных в Spark» . Материалы Международной конференции ACM SIGMOD по управлению данными 2015 г. АКМ. стр. 1383–1394. дои : 10.1145/2723372.2742797 . ISBN  978-1-4503-2758-9 .
  43. ^ Флориди, Лучано; Таддео, Мариаросария (28 декабря 2016 г.). «Что такое этика данных?» . Философские труды Королевского общества A: Математические, физические и технические науки . 374 (2083): 20160360. Бибкод : 2016RSPTA.37460360F . дои : 10.1098/rsta.2016.0360 . ISSN   1364-503X . ПМК   5124072 . ПМИД   28336805 .
  44. ^ Миттельштадт, Брент Дэниел; Флориди, Лучано (2016). «Этика больших данных: текущие и прогнозируемые проблемы в биомедицинском контексте» . Наука и инженерная этика . 22 (2): 303–341. дои : 10.1007/s11948-015-9652-2 . ISSN   1353-3452 . ПМИД   26002496 .
  45. ^ Барокас, Солон; Селбст, Эндрю Д. (2016). «Неодинаковое влияние больших данных» . Обзор законодательства Калифорнии . дои : 10.15779/Z38BG31 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
  46. ^ Калискан, Айлин; Брайсон, Джоанна Дж.; Нарайанан, Арвинд (14 апреля 2017 г.). «Семантика, автоматически полученная из языковых корпусов, содержит предубеждения, подобные человеческим» . Наука . 356 (6334): 183–186. arXiv : 1608.07187 . Бибкод : 2017Sci...356..183C . дои : 10.1126/science.aal4230 . ISSN   0036-8075 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 60f2b65c21f038bef48bf067320cec6f__1717476600
URL1:https://arc.ask3.ru/arc/aa/60/6f/60f2b65c21f038bef48bf067320cec6f.html
Заголовок, (Title) документа по адресу, URL1:
Data science - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)