Данные
Часть серии о |
Эпистемология |
---|
обычном использовании , данные ( / ˈ d eɪ t ə / В также США : / ˈ d æ t ə / ) — совокупность дискретных или непрерывных значений , которые передают информацию , описывая количество , качество , факт , статистику , другие основные единицы значения или просто последовательности символов , которые в дальнейшем могут интерпретироваться формально. . Данные — это отдельное значение в наборе данных. Данные обычно организуются в структуры, такие как таблицы , которые обеспечивают дополнительный контекст и значение и сами могут использоваться в качестве данных в более крупных структурах. Данные могут использоваться в качестве переменных в вычислительном процессе . [1] [2] Данные могут представлять собой абстрактные идеи или конкретные измерения. [3] Данные обычно используются в научных исследованиях , экономике и практически во всех других формах человеческой организационной деятельности. Примеры наборов данных включают индексы цен (например, индекс потребительских цен ), уровень безработицы , уровень грамотности и переписи населения данные . В этом контексте данные представляют собой необработанные факты и цифры, из которых можно извлечь полезную информацию.
Данные собираются с использованием таких методов, как измерение , наблюдение , запрос или анализ , и обычно представляются в виде чисел или символов , которые могут быть дополнительно обработаны . Полевые данные — это данные, которые собираются в неконтролируемой среде на месте . Экспериментальные данные – это данные, которые формируются в ходе контролируемого научного эксперимента. Данные анализируются с использованием таких методов, как расчет , рассуждение , обсуждение, презентация , визуализация или другие формы постанализа. Перед анализом необработанные данные (или необработанные данные) обычно очищаются: выбросы удаляются, а очевидные ошибки прибора или ввода данных исправляются.
Данные можно рассматривать как мельчайшие единицы фактической информации, которые можно использовать в качестве основы для расчетов, рассуждений или обсуждений. Данные могут варьироваться от абстрактных идей до конкретных измерений, включая, помимо прочего, статистику . Тематически связанные данные, представленные в некотором соответствующем контексте, можно рассматривать как информацию . Контекстуально связанные фрагменты информации могут быть описаны как аналитические данные или разведка . Запас идей и интеллекта, который накапливается с течением времени в результате синтеза данных в информацию, может быть тогда описан как знание . Данные называют «новой нефтью цифровой экономики ». [4] [5] Данные, как общее понятие , относятся к тому факту, что некоторая существующая информация или знания представлены в некоторой форме , или закодированы подходящей для лучшего использования или обработки .
Достижения в области компьютерных технологий привели к появлению больших данных , которые обычно относятся к очень большим объемам данных, обычно в петабайтном масштабе. Используя традиционные методы анализа данных и вычисления, работать с такими большими (и растущими) наборами данных сложно или даже невозможно. (Теоретически, бесконечные данные дадут бесконечную информацию, что сделает невозможным извлечение идей или интеллекта.) В ответ на это относительно новая область науки о данных использует методы машинного обучения (и других методов искусственного интеллекта (ИИ)), которые позволяют эффективно применять аналитические методы для больших данных.
Этимология и терминология
[ редактировать ]Латинское Dare слово data — это множественное число от datum , «данная вещь», и причастие прошедшего времени среднего рода от , «давать». [6] Первое использование слова «данные» в английском языке относится к 1640-м годам. Слово «данные» впервые было использовано для обозначения «передаваемой и сохраняемой компьютерной информации» в 1946 году. Выражение «обработка данных» впервые было использовано в 1954 году. [6]
Когда слово «данные» используется в более широком смысле как синоним слова «информация», оно рассматривается как массовое существительное в единственном числе. Такое использование распространено в повседневной речи , а также в технических и научных областях, таких как разработка программного обеспечения и информатика . Одним из примеров такого использования является термин « большие данные ».При более конкретном использовании для обозначения обработки и анализа наборов данных этот термин сохраняет форму множественного числа.Это использование распространено в естественных науках, науках о жизни, социальных науках, разработке программного обеспечения и информатике, и его популярность выросла в 20 и 21 веках. Некоторые руководства по стилю не признают различных значений этого термина и просто рекомендуют форму, которая лучше всего подходит целевой аудитории руководства. Например, стиль APA 7-го издания требует, чтобы слово «данные» рассматривалось как форма множественного числа. [7]
Значение
[ редактировать ]Данные, информация , знания и мудрость — тесно связанные понятия, но каждое из них имеет свою роль относительно другого, и каждый термин имеет свое значение. Согласно распространенному мнению, данные собираются и анализируются; данные становятся информацией, пригодной для принятия решений, только после того, как они каким-либо образом проанализированы. [8] Можно сказать, что степень информативности набора данных для кого-то зависит от того, насколько он неожидан для этого человека. Количество информации, содержащейся в потоке данных, можно охарактеризовать его энтропией Шеннона .
Знания — это осведомленность об окружающей среде, которой обладает некий объект, тогда как данные просто передают эти знания. Например, запись в базе данных, определяющая высоту Эвереста, представляет собой датум, который передает точно измеренное значение. Это измерение можно включить в книгу вместе с другими данными об Эвересте, чтобы описать гору таким образом, чтобы это было полезно тем, кто хочет выбрать лучший метод восхождения на нее. Осознание характеристик, представленных этими данными, является знанием.
Часто предполагается, что данные являются наименее абстрактным понятием, информация – следующим наименее абстрактным, а знание – самым абстрактным. [9] С этой точки зрения данные становятся информацией благодаря интерпретации; например, высота Эвереста обычно считается «данными», книга о геологических характеристиках Эвереста может считаться «информацией», а путеводитель альпиниста, содержащий практическую информацию о том, как лучше всего достичь вершины Эвереста, можно считать «знаниями». . «Информация» имеет множество значений, от повседневного до технического использования. Однако эта точка зрения также утверждается, что она меняет то, как данные возникают из информации, а информация — из знаний. [10] Вообще говоря, концепция информации тесно связана с понятиями ограничения, коммуникации, контроля, данных, формы, инструкций, знаний, значения, умственного стимула, шаблона , восприятия и представления. Бейнон-Дэвис использует концепцию знака , чтобы различать данные и информацию; данные представляют собой серию символов, а информация возникает, когда символы используются для обозначения чего-либо. [11] [12]
До разработки вычислительных устройств и машин людям приходилось вручную собирать данные и накладывать на них шаблоны. С развитием вычислительных устройств и машин эти устройства также могут собирать данные. В 2010-х годах компьютеры широко использовались во многих областях для сбора данных, их сортировки или обработки: от маркетинга , анализа социальных услуг использования гражданами до научных исследований. Эти закономерности в данных рассматриваются как информация, которую можно использовать для расширения знаний. Эти модели могут интерпретироваться как « истина » (хотя «истина» может быть субъективным понятием) и могут быть признаны эстетическими и этическими критериями в некоторых дисциплинах или культурах. События, которые оставляют после себя ощутимые физические или виртуальные останки, можно проследить с помощью данных. Отметки больше не считаются данными, если связь между отметкой и наблюдением нарушена. [13]
Механические вычислительные устройства классифицируются в зависимости от того, как они представляют данные. Аналоговый компьютер представляет данные как напряжение, расстояние, положение или другую физическую величину. Цифровой компьютер представляет фрагмент данных как последовательность символов, взятых из фиксированного алфавита . Наиболее распространенные цифровые компьютеры используют двоичный алфавит, то есть алфавит из двух символов, обычно обозначаемых «0» и «1». Более привычные представления, такие как числа или буквы, затем создаются из двоичного алфавита. Выделяют некоторые специальные формы данных. Компьютерная программа — это набор данных, которые можно интерпретировать как инструкции. Большинство компьютерных языков проводят различие между программами и другими данными, с которыми работают программы, но в некоторых языках, особенно в Лиспе и подобных языках, программы по существу неотличимы от других данных. Также полезно различать метаданные , то есть описание других данных. Аналогичный, но более ранний термин для метаданных — «вспомогательные данные». Прототипическим примером метаданных является библиотечный каталог, который представляет собой описание содержания книг.
Документы данных
[ редактировать ]Часть серии о |
Библиотека и информатика |
---|
Всякий раз, когда данные необходимо зарегистрировать, они существуют в форме документа данных . К видам информационных документов относятся:
- хранилище данных
- исследование данных
- набор данных
- программное обеспечение
- документ с данными
- база данных
- справочник данных
- журнал данных
Некоторые из этих документов с данными (хранилища данных, исследования данных, наборы данных и программное обеспечение) индексируются в индексах цитирования данных , тогда как документы с данными индексируются в традиционных библиографических базах данных, например, в индексе научного цитирования .
Сбор данных
[ редактировать ]Сбор данных может осуществляться через первичный источник (исследователь — это первый человек, получивший данные) или вторичный источник (исследователь получает данные, которые уже были собраны из других источников, например, данные, распространенные в научном журнале). Методологии анализа данных различаются и включают триангуляцию данных и просачивание данных. [14] Последний предлагает четкий метод сбора, классификации и анализа данных с использованием пяти возможных углов анализа (не менее трех), чтобы максимизировать объективность исследования и обеспечить максимально полное понимание исследуемых явлений: качественные и количественные методы, литература. обзоры (в том числе научные статьи), интервью с экспертами и компьютерное моделирование. После этого данные «просачиваются» с использованием ряда заранее определенных шагов, чтобы извлечь наиболее релевантную информацию.
Долговечность и доступность данных
[ редактировать ]Важной областью информатики , технологий и библиотечного дела является долговечность данных. Научные исследования генерируют огромные объемы данных, особенно в области геномики и астрономии , а также в медицинских науках , например, в области медицинской визуализации . В прошлом научные данные публиковались в статьях и книгах, хранились в библиотеках, но в последнее время практически все данные хранятся на жестких дисках или оптических дисках . Однако, в отличие от бумаги, эти носители информации могут стать нечитаемыми через несколько десятилетий. Научные издательства и библиотеки бьются над этой проблемой уже несколько десятилетий, и до сих пор не существует удовлетворительного решения для долгосрочного хранения данных на протяжении столетий или даже вечности.
Доступность данных . Другая проблема заключается в том, что большая часть научных данных никогда не публикуется и не хранится в хранилищах данных, таких как базы данных . В недавнем опросе были запрошены данные из 516 исследований, которые были опубликованы от 2 до 22 лет назад, но менее одного из пяти этих исследований смогли или захотели предоставить запрошенные данные. В целом вероятность получения данных падала на 17% каждый год после публикации. [15] Аналогичным образом, исследование 100 наборов данных в Dryad показало, что более чем в половине из них не хватало деталей, чтобы воспроизвести результаты этих исследований. [16] Это показывает тяжелую ситуацию с доступом к научным данным, которые не публикуются или не содержат достаточно деталей для воспроизведения.
Решением проблемы воспроизводимости является попытка потребовать данные FAIR , то есть данные, которые можно найти, доступны, совместимы и повторно использованы. Данные, отвечающие этим требованиям, могут быть использованы в последующих исследованиях и, таким образом, способствуют развитию науки и техники. [17]
В других областях
[ редактировать ]Хотя данные все чаще используются и в других областях, было высказано предположение, что их в высшей степени интерпретирующий характер может противоречить идеалу данных как «данности». Питер Чеклэнд ввел термин capta (от латинского capere — «брать»), чтобы различать огромное количество возможных данных и их подмножество, на которое направлено внимание. [18] Джоанна Друкер утверждала, что, поскольку гуманитарные науки утверждают, что производство знаний «ситуативно, частично и конститутивно», использование данных может привести к контрпродуктивным предположениям, например, о том, что явления дискретны или независимы от наблюдателя. [19] Термин capta , подчеркивающий конститутивность акта наблюдения, предлагается в качестве альтернативы данным для визуальных представлений в гуманитарных науках.
Термин «управляемый данными» — это неологизм, применяемый к деятельности, которая в первую очередь обусловлена данными, а не всеми другими факторами. [ нужна ссылка ] Приложения, управляемые данными, включают программирование, управляемое данными , и журналистику, управляемую данными .
См. также
[ редактировать ]- Биологические данные
- Компьютерная обработка данных
- Память компьютера
- Темные данные
- Данные (информатика)
- Сбор данных
- Анализ данных
- Банк данных
- Кабель для передачи данных
- Курирование данных
- Область данных
- Элемент данных
- Сбор данных
- Управление данными
- Целостность данных
- Обслуживание данных
- Управление данными
- Интеллектуальный анализ данных
- Моделирование данных
- Точка данных
- Сохранение данных
- Защита данных
- Публикация данных
- Остаточность данных
- Наука о данных
- Набор данных
- Структура данных
- Визуализация данных
- Хранилище данных
- База данных
- Техническая спецификация
- Программирование, управляемое данными
- Журналистика, основанная на данных
- Тестирование на основе данных
- Обучение, основанное на данных
- Наука, основанная на данных
- Система управления данными
- Маркетинг, управляемый данными
- Цифровая конфиденциальность
- Спасение экологических данных
- Полевые работы
- Информационная инженерия
- Машинное обучение
- Открытые данные
- Архивирование научных данных
- Вторичные данные
- Статистика
- Цифровые данные
- Агрегация данных
Ссылки
[ редактировать ]- ^ Глоссарий статистических терминов ОЭСР . ОЭСР. 2008. с. 119. ИСБН 978-92-64-025561 .
- ^ «Статистический язык – что такое данные?» . Австралийское статистическое бюро . 13 июля 2013 г. Архивировано из оригинала 19 апреля 2019 г. Проверено 9 марта 2020 г.
- ^ «Данные против информации — разница и сравнение | Различия» . www.diffen.com . Проверено 11 декабря 2018 г.
- ^ Йонего, Йорис Тундерс (23 июля 2014 г.). «Данные — новая нефть цифровой экономики» . Проводной – через www.wired.com.
- ^ «Данные — это новая нефть» . 16 июля 2018 г. Архивировано из оригинала 16 июля 2018 г.
- ^ Jump up to: а б «данные | Происхождение и значение данных из онлайн-словаря этимологии» . www.etymonline.com .
- ^ Американская психологическая ассоциация (2020). «6.11». Руководство по публикации Американской психологической ассоциации: официальное руководство по стилю APA . Американская психологическая ассоциация. ISBN 9781433832161 .
- ^ «Совместная публикация 2-0, Объединенная разведка» (PDF) . Объединенный комитет начальников штабов, Объединенные доктринальные публикации . Министерство обороны. 23 октября 2013 г. стр. I-1. Архивировано из оригинала (PDF) 18 июля 2018 года . Проверено 17 июля 2018 г.
- ^ Акаш Митра (2011). «Классификация данных для успешного моделирования» . Архивировано из оригинала 07.11.2017 . Проверено 5 ноября 2017 г.
- ^ Туоми, Илкка (2000). «Данные — это больше, чем знания». Журнал информационных систем управления . 6 (3): 103–117. дои : 10.1080/07421222.1999.11518258 .
- ^ П. Бейнон-Дэвис (2002). Информационные системы: введение в информатику в организациях . Бейзингсток, Великобритания: Пэлгрейв Макмиллан . ISBN 0-333-96390-3 .
- ^ П. Бейнон-Дэвис (2009). Информационные системы бизнеса . Бейзингсток, Великобритания: Пэлгрейв. ISBN 978-0-230-20368-6 .
- ^ Шэрон Дэниел. База данных: эстетика достоинства .
- ^ Месли, Оливье (2015), Создание моделей в психологических исследованиях , Springer Psychology: 126 страниц. ISBN 978-3-319-15752-8
- ^ Вайнс, Тимоти Х.; Альберт, Арианна Ю.К.; Эндрю, Роуз Л.; Дебарр, Флоренция; Бок, Дэн Г.; Франклин, Мишель Т.; Гилберт, Кимберли Дж.; Мур, Жан-Себастьян; Рено, Себастьен; Реннисон, Диана Дж. (6 января 2014 г.). «Доступность исследовательских данных быстро снижается с возрастом статьи» . Современная биология . 24 (1): 94–97. arXiv : 1312.5670 . дои : 10.1016/j.cub.2013.11.014 . ISSN 1879-0445 . ПМИД 24361065 . S2CID 7799662 .
- ^ Рош, Доминик Г.; Круук, Леске Е.Б.; Ланфир, Роберт; Биннинг, Сандра А. (2015). «Общественное архивирование данных по экологии и эволюции: насколько хорошо у нас дела?» . ПЛОС Биология . 13 (11): e1002295. дои : 10.1371/journal.pbio.1002295 . ISSN 1545-7885 . ПМК 4640582 . ПМИД 26556502 .
- ^ Эйзенштейн, Майкл (апрель 2022 г.). «В поисках бессмертия данных» . Природа . 604 (7904): 207–208. Бибкод : 2022Natur.604..207E . дои : 10.1038/d41586-022-00929-3 . ISSN 1476-4687 . ПМИД 35379989 . S2CID 247954952 .
- ^ П. Чекленд и С. Холвелл (1998). Информация, системы и информационные системы: осмысление поля . Чичестер, Западный Суссекс: Джон Вили и сыновья. стр. 86–89. ISBN 0-471-95820-4 .
- ^ Джоанна Друкер (2011). «Гуманитарные подходы к графическому отображению» . Ежеквартальный журнал цифровых гуманитарных наук . 005 (1).
Внешние ссылки
[ редактировать ]- Данные – существительное в единственном числе (подробная оценка)