Необработанные данные
Эта статья нуждается в дополнительных цитатах для проверки . ( декабрь 2009 г. ) |


Необработанные данные , также известные как первичные данные , — это данные (например, числа, показания приборов, цифры и т. д.), собранные из источника. В контексте экзаменов необработанные данные можно описать как необработанный балл (после результатов тестов ).
Если учёный устанавливает компьютеризированный термометр , который каждую минуту записывает температуру химической смеси в пробирке, список показаний температуры за каждую минуту, распечатанный в электронной таблице или просматриваемый на экране компьютера, является «необработанными данными». Необработанные данные не подвергались обработке, «очистке» исследователями для удаления выбросов , очевидных ошибок показаний приборов или ошибок ввода данных или какому-либо анализу (например, определению аспектов центральной тенденции, таких как средний или медианный результат). Кроме того, необработанные данные не подвергались каким-либо другим манипуляциям со стороны программного обеспечения или человека-исследователя, аналитика или технического специалиста. Их еще называют первичными данными. Необработанные данные — это относительный термин (см. данные ), поскольку даже после того, как необработанные данные были «очищены» и обработаны одной командой исследователей, другая группа может рассматривать эти обработанные данные как «необработанные данные» для следующего этапа исследования. Необработанные данные можно вводить в компьютерную программу или использовать в ручных процедурах, таких как анализ. статистика опроса . Термин «необработанные данные» может относиться к двоичным данным на электронных устройствах хранения данных, таких как жесткие диски (также называемые «данными низкого уровня»).
Генерация данных
[ редактировать ]Данные могут создаваться или создаваться двумя способами. Первый — это так называемые «захваченные данные». [1] и обнаруживается посредством целенаправленного исследования или анализа. Второй называется «исчерпаемые данные». [1] и обычно собирается машинами или терминалами в качестве второстепенной функции. Например, кассовые аппараты, смартфоны и спидометры выполняют основную функцию, но могут собирать данные в качестве второстепенной задачи. Исчерпывающие данные обычно слишком велики или бесполезны для обработки и становятся «временными» или выбрасываются. [1]
Примеры
[ редактировать ]При вычислениях необработанные данные могут иметь следующие атрибуты: они могут содержать ошибки человека, машины или прибора, они не могут быть проверены; это может быть в разных региональных ( разговорных ) форматах; некодированный или неформатированный; или некоторые записи могут быть «подозрительными» (например, выбросы ), требующими подтверждения или цитирования . Например, лист ввода данных может содержать даты в виде необработанных данных во многих формах: «31 января 1999 г.», «31.01.1999», «31.01.99», «31 января» или «сегодня». После захвата эти необработанные данные могут быть обработаны и сохранены в нормализованном формате, например, в юлианском формате , чтобы компьютерам и людям было легче интерпретировать их во время последующей обработки. Необработанные данные (иногда в просторечии называемые данными «источников» или «яичными» данными, причем последние относятся к данным, которые являются «сырыми», то есть «необработанными», как сырое яйцо ) являются входными данными для обработки. проводится различие Между данными и информацией в том смысле, что информация является конечным продуктом обработки данных . Необработанные данные, прошедшие обработку, иногда в просторечии называют «приготовленными» данными. [ сомнительно – обсудить ] Хотя необработанные данные потенциально могут быть преобразованы в « информацию », прежде чем необработанные данные смогут быть преобразованы в полезную информацию, необходимо извлечение, организация, анализ и форматирование для представления.
Например, терминал торговой точки (POS-терминал, компьютеризированный кассовый аппарат ) в оживленном супермаркете каждый день собирает огромные объемы необработанных данных о покупках клиентов. Однако этот список продуктовых товаров, их цены, а также время и дата покупки не дают много информации, пока он не будет обработан. После обработки и анализа с помощью программного обеспечения или даже исследователя, использующего ручку, бумагу и калькулятор , эти необработанные данные могут указывать на конкретные товары, которые покупает каждый покупатель, когда он их покупает и по какой цене; Кроме того, аналитик или менеджер может рассчитать средний общий объем продаж на одного клиента или средние расходы за день недели по часам. Эти обработанные и проанализированные данные предоставляют менеджеру информацию, которую он затем может использовать, чтобы помочь ему определить, например, сколько кассиров следует нанять и в какое время. Такая информация затем может стать данными для дальнейшей обработки, например, в рамках прогнозной маркетинговой кампании. В результате обработки необработанные данные иногда помещаются в база данных , которая позволяет необработанным данным стать доступными для дальнейшей обработки и анализа любым количеством различных способов.
Тим Бернерс-Ли (изобретатель Всемирной паутины ) утверждает, что обмен необработанными данными важен для общества. Вдохновленный сообщением он Руфуса Поллока из Фонда открытых знаний, призывает к действию «Необработанные данные сейчас» , означая, что каждый должен требовать, чтобы правительства и предприятия делились собираемыми ими данными в виде необработанных данных. Он отмечает, что «данные определяют огромное количество того, что происходит в нашей жизни… потому что кто-то берет данные и что-то с ними делает». По мнению Бернерса-Ли, именно благодаря обмену необработанными данными произойдет прогресс в науке. Сторонники открытых данных утверждают, что как только граждане и организации гражданского общества получат доступ к данным от предприятий и правительств, это позволит гражданам и НПО проводить собственный анализ данных, что может расширить возможности людей и гражданского общества. Например, правительство может заявлять, что его политика снижает уровень безработицы , но группа по защите бедности может иметь возможность поручить своим сотрудникам -экономететристам провести собственный анализ необработанных данных, что может привести к тому, что эта группа сделает разные выводы о данных. набор.
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Jump up to: а б с Китчин, Роб (2014). Революция данных . США: Сейдж. п. 6.
Дальнейшее чтение
[ редактировать ]- Дайте нам необработанные данные и дайте их нам сейчас — сообщение в блоге Руфуса Поллока, вдохновившее Тима Бернерса-Ли
- Тим Бернерс-Ли дает Интернету новое определение