Данные (информатика)

В информатике данные ) — (рассматриваемые в единственном числе, множественном числе или как массовое существительное это любая последовательность одного или нескольких символов ; datum — это отдельный символ данных. Данные требуют интерпретации, чтобы стать информацией . Цифровые данные — это данные, которые представлены с использованием двоичной системы счисления единиц (1) и нулей (0) вместо аналогового представления. В современных компьютерных системах (после 1960 года) все данные являются цифровыми.
Данные существуют в трех состояниях: данные в состоянии покоя , данные в пути и данные в использовании . Данные внутри компьютера в большинстве случаев перемещаются как параллельные данные . Данные, перемещаемые на компьютер или с него, в большинстве случаев перемещаются как последовательные данные . Данные, полученные от аналогового устройства, такого как датчик температуры, могут быть преобразованы в цифровую форму с помощью аналого-цифрового преобразователя . Данные, представляющие величины , символы или символы, над которыми выполняются операции с помощью компьютера, и хранятся записываются на магнитных , оптических , электронных или механических носителях записи и передаются в виде цифровых электрических или оптических сигналов. [1] Данные передаются в компьютеры и из них через периферийные устройства .
Элементы физической памяти компьютера состоят из адреса и байта/слова хранения данных. Цифровые данные часто хранятся в реляционных базах данных , таких как таблицы или базы данных SQL, и обычно могут быть представлены как абстрактные пары ключ/значение. Данные могут быть организованы в различные типы структур данных , включая массивы, графики и объекты . Структуры данных могут хранить данные самых разных типов , включая числа , строки и даже другие структуры данных .
Характеристики
[ редактировать ]Метаданные помогают преобразовать данные в информацию. Метаданные — это данные о данных. Метаданные могут быть подразумеваемыми, заданными или заданными.
Данные, относящиеся к физическим событиям или процессам, будут иметь временной компонент. Этот временной компонент может подразумеваться. Это тот случай, когда такое устройство, как регистратор температуры, получает данные от датчика температуры . Когда температура получена, предполагается, что данные имеют временную привязку к текущему моменту . Таким образом, устройство записывает дату, время и температуру вместе. Когда регистратор данных передает данные о температуре, он также должен сообщать дату и время в виде метаданных для каждого показания температуры.
По сути, компьютеры следуют последовательности инструкций, которые им передаются в виде данных. Набор инструкций для выполнения заданной задачи (или задач) называется программой . Программа — это данные в виде закодированных инструкций для управления работой компьютера или другой машины. [2] В номинальном случае программа, исполняемая компьютером, будет состоять из машинного кода . Элементы памяти, которыми управляет программа, но фактически не выполняются центральным процессором (ЦП), также являются данными. По сути, один элемент данных — это значение, хранящееся в определенном месте. Следовательно, компьютерные программы могут работать с другими компьютерными программами, манипулируя их программными данными.
Чтобы сохранить байты данных в файле, их необходимо сериализовать в формате файла . Обычно программы хранятся в файлах специальных типов, отличных от тех, которые используются для других данных. Исполняемые файлы содержат программы; все остальные файлы также являются файлами данных . Однако исполняемые файлы также могут содержать данные, используемые программой, встроенные в программу. В частности, некоторые исполняемые файлы имеют сегмент данных , который номинально содержит константы и начальные значения переменных, оба из которых можно считать данными.
Граница между программой и данными может стать размытой. программа . Например, интерпретатор — это Входные данные интерпретатора сами по себе являются программой, но не выраженной на машинном языке . Во многих случаях интерпретируемая программа представляет собой удобочитаемый текстовый файл , которым манипулируют с помощью программы текстового редактора . Метапрограммирование аналогичным образом включает в себя программы, манипулирующие другими программами как данными. Такие программы, как компиляторы , компоновщики , отладчики , средства обновления программ , сканеры вирусов и т. д., используют другие программы в качестве своих данных.
Например, пользователь может сначала дать указание операционной системе загрузить программу текстового процессора из одного файла, а затем использовать запущенную программу для открытия и редактирования документа, хранящегося в другом файле. В этом примере документ будет считаться данными. Если текстовый процессор также оснащен функцией проверки орфографии , то словарь (список слов) для проверки орфографии также будет считаться данными. Алгоритмы , используемые программой проверки орфографии для предложения исправлений, могут представлять собой либо данные машинного кода , либо текст на каком-либо интерпретируемом языке программирования .
В альтернативном использовании двоичные файлы (которые не читабельны для человека ) иногда называются данными в отличие от читаемого человеком текста . [3]
Общий объем цифровых данных в 2007 году оценивался в 281 миллиард гигабайт (281 эксабайт ). [4] [5]
Ключи и значения данных, структуры и постоянство
[ редактировать ]Ключи в данных обеспечивают контекст для значений. Независимо от структуры данных, всегда присутствует ключевой компонент. Ключи в данных и структурах данных необходимы для придания смысла значениям данных. Без ключа, который прямо или косвенно связан со значением или набором значений в структуре, значения становятся бессмысленными и перестают быть данными. Другими словами, должен быть ключевой компонент, связанный с компонентом значения, чтобы его можно было считать данными. [ нужна ссылка ]
Данные могут быть представлены на компьютерах несколькими способами, как показано в следующих примерах:
БАРАН
[ редактировать ]- Оперативная память (ОЗУ) хранит данные, к которым процессор имеет прямой доступ. ЦП может манипулировать данными только в регистрах или памяти своего процессора. Это противоположность хранению данных, где ЦП должен управлять передачей данных между устройством хранения (диск, лента...) и памятью. ОЗУ представляет собой массив линейных смежных ячеек, которые процессор может читать или записывать, предоставляя адрес для операции чтения или записи. Процессор может работать с любым местом памяти в любое время и в любом порядке. В оперативной памяти наименьшим элементом данных является двоичный бит . Возможности и ограничения доступа к оперативной памяти зависят от процессора. Обычно основная память организована как массив ячеек, начинающихся с адреса 0 ( шестнадцатеричный 0). В каждом месте обычно может храниться 8 или 32 бита в зависимости от архитектуры компьютера .
Ключи
[ редактировать ]- Ключи данных не обязательно должны быть прямым аппаратным адресом в памяти. Коды косвенных , абстрактных и логических ключей могут храниться вместе со значениями для формирования структуры данных . Структуры данных имеют заранее определенные смещения (или ссылки или пути) от начала структуры, в которой хранятся значения данных. Таким образом, ключ данных состоит из ключа структуры плюс смещения (или ссылок или путей) внутри структуры. Когда такая структура повторяется, сохраняя вариации значений данных и ключей данных в одной и той же повторяющейся структуре, результат можно считать напоминающим таблицу , в которой каждый элемент повторяющейся структуры считается столбцом, а каждое повторение структуры рассматривается как строка таблицы. При такой организации данных ключ данных обычно представляет собой значение в одном столбце (или совокупность значений в нескольких) столбцах.
Организованные повторяющиеся структуры данных
[ редактировать ]- Табличное . представление повторяющихся структур данных — лишь одна из многих возможностей Повторяющиеся структуры данных могут быть организованы иерархически , так что узлы связаны друг с другом каскадом отношений родитель-потомок. Значения и потенциально более сложные структуры данных связаны с узлами. Таким образом, узловая иерархия предоставляет ключ для обращения к структурам данных, связанным с узлами. Это представление можно рассматривать как перевернутое дерево . современных компьютерных операционных систем Файловые системы являются распространенным примером; а XML — другое.
Сортированные или упорядоченные данные
[ редактировать ]- Данные имеют некоторые присущие им особенности, когда они сортируются по ключу . Все значения подмножеств ключа отображаются вместе. При последовательном прохождении через группы данных с одним и тем же ключом или подмножестве изменений ключа в кругах обработки данных это называется разрывом или разрывом управления . Это особенно облегчает агрегирование значений данных по подмножествам ключа.
Периферийное хранилище
[ редактировать ]- До появления объемной энергонезависимой памяти, такой как флэш-память , постоянное хранение данных традиционно достигалось путем записи данных на внешние блочные устройства, такие как магнитная лента и дисководы . Эти устройства обычно ищут место на магнитном носителе, а затем считывают или записывают блоки данных заранее определенного размера. В этом случае местом поиска на носителе является ключ данных, а блоки — значения данных. Ранее использовавшиеся с необработанными дисковыми файловые системы данными или дисковые операционные системы резервировали непрерывные блоки на диске для файлов данных . В этих системах файлы могли быть заполнены, и пространство для данных исчерпалось до того, как в них были записаны все данные. Таким образом, большая часть неиспользуемого пространства данных была зарезервирована непродуктивно, чтобы обеспечить достаточное свободное пространство для каждого файла. Позже в файловых системах появились разделы . Они зарезервировали блоки дискового пространства данных для разделов и использовали выделенные блоки более экономно, динамически назначая блоки раздела файлу по мере необходимости. Чтобы добиться этого, файловая система должна была отслеживать, какие блоки использовались или не использовались файлами данных в каталоге или таблице размещения файлов. Хотя это позволило лучше использовать пространство данных на диске, это привело к фрагментации файлов на диске и сопутствующему снижению производительности из-за дополнительного времени поиска для чтения данных. Современные файловые системы динамически реорганизуют фрагментированные файлы, чтобы оптимизировать время доступа к файлам. Дальнейшее развитие файловых систем привело к виртуализация дисковых накопителей, т. е. когда логический диск можно определить как разделы нескольких физических дисков.
Индексированные данные
[ редактировать ]- Извлечение небольшого подмножества данных из гораздо большего набора может привести к неэффективному последовательному поиску данных. Индексы — это способ скопировать ключи и адреса местоположений из структур данных в файлах, таблицах и наборах данных, а затем организовать их с использованием инвертированных древовидных структур , чтобы сократить время, необходимое для получения подмножества исходных данных. Для этого ключ подмножества извлекаемых данных должен быть известен до начала извлечения. Наиболее популярными индексами являются B-дерево и методы индексации динамического хэш- ключа. Индексирование требует дополнительных затрат на хранение и получение данных. Существуют и другие способы организации индексов, например сортировка ключей и использование алгоритма двоичного поиска .
Абстракция и косвенность
[ редактировать ]- Объектно-ориентированное программирование использует две основные концепции для понимания данных и программного обеспечения:
- Таксономическая ранговая структура классов , которая является примером иерархической структуры данных; и
- во время выполнения — создание ссылок на структуры данных в памяти объектов, экземпляры которых были созданы из библиотеки классов .
Объект указанного класса существует только после создания экземпляра. После очистки ссылки на объект объект также перестает существовать. Ячейки памяти, в которых хранились данные объекта, являются мусором и переклассифицируются как неиспользуемая память, доступная для повторного использования.
Данные базы данных
[ редактировать ]- Появление баз данных привело к появлению еще одного уровня абстракции для постоянного хранения данных. Базы данных используют метаданные и протокол языка структурированных запросов между клиентскими и серверными системами, взаимодействующими через компьютерную сеть , с использованием двухфазной системы регистрации фиксации для обеспечения полноты транзакций при сохранении данных.
Параллельная распределенная обработка данных
[ редактировать ]- Современные масштабируемые и высокопроизводительные технологии сохранения данных, такие как Apache Hadoop , основаны на массово-параллельной распределенной обработке данных на множестве обычных компьютеров в сети с высокой пропускной способностью. В таких системах данные распределяются по множеству компьютеров, и поэтому любой конкретный компьютер в системе должен быть представлен в ключе данных либо прямо, либо косвенно. Это позволяет различать два идентичных набора данных, каждый из которых обрабатывается на разных компьютерах одновременно.
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ "Данные" . Лексико . Архивировано из оригинала 23 июня 2019 г. Проверено 14 января 2022 г.
- ^ «Компьютерная программа» . Оксфордский карманный словарь современного английского языка . Архивировано из оригинала 28 ноября 2011 года . Проверено 11 октября 2012 г.
- ^ «файл(1)» . Страницы руководства OpenBSD . 24 декабря 2015 г. Архивировано из оригинала 5 февраля 2018 г. Проверено 4 февраля 2018 г.
- ^ Пол, Райан (12 марта 2008 г.). «Исследование: количество цифровой информации > глобальная емкость хранилища» . Арс Техникс. Архивировано из оригинала 13 марта 2008 года . Проверено 13 марта 2008 г.
- ^ Ганц, Джон Ф.; и др. (2008). «Разнообразная и развивающаяся цифровая вселенная» . Международная корпорация данных через EMC. Архивировано из оригинала 11 марта 2008 года . Проверено 12 марта 2008 г.