Набор данных

Из Википедии, бесплатной энциклопедии
Различные графики многомерного набора данных. ириса, Набор данных о цветах представленный Рональдом Фишером (1936). [1]

Набор данных (или набор данных ) — это набор данных . В случае табличных данных набор данных соответствует одной или нескольким таблицам базы данных , где каждый столбец таблицы представляет определенную переменную , а каждая строка соответствует данной записи рассматриваемого набора данных. В наборе данных перечислены значения каждой из переменных, таких как, например, высота и вес объекта, для каждого члена набора данных. Наборы данных также могут состоять из набора документов или файлов. [2]

В дисциплине открытых данных набор данных — это единица измерения информации, опубликованной в общедоступном хранилище открытых данных. Европейский портал data.europa.eu объединяет более миллиона наборов данных. [3]

Свойства [ править ]

Несколько характеристик определяют структуру и свойства набора данных. К ним относятся количество и типы атрибутов или переменных, а также различные статистические меры применимые к ним , такие как стандартное отклонение и эксцесс . [4]

Значения могут быть числами, такими как действительные числа или целые числа , например, представляющие рост человека в сантиметрах, но также могут быть номинальными данными (т.е. не состоящими из числовых значений), например, представляющими этническую принадлежность человека. В более общем смысле, значения могут относиться к любому из видов, описываемых как уровень измерения . Для каждой переменной значения обычно одинаковы. Могут существовать отсутствующие значения , которые необходимо как-то указать.

В статистике наборы данных обычно берутся из фактических наблюдений, полученных путем выборки , статистической совокупности и каждая строка соответствует наблюдениям за одним элементом этой совокупности. Наборы данных могут дополнительно генерироваться алгоритмами с целью тестирования определенных видов программного обеспечения . Некоторые современные программы статистического анализа, такие как SPSS, по-прежнему представляют свои данные в классическом виде наборов данных. Если данные отсутствуют или вызывают подозрения, вменения . для завершения набора данных можно использовать метод [5]

Классика [ править ]

литературе широко использовались несколько классических наборов данных В статистической :

См. также [ править ]

Ссылки [ править ]

  1. ^ Перейти обратно: а б Фишер, Р.А. (1963). «Использование множественных измерений в таксономических задачах» (PDF) . Анналы евгеники . 7 (2): 179–188. дои : 10.1111/j.1469-1809.1936.tb02137.x . hdl : 2440/15227 . Архивировано из оригинала (PDF) 28 сентября 2011 г. Проверено 22 мая 2007 г.
  2. ^ Снейдерс, К.; Мацат, У.; Рейпс, У.-Д. (2012). « Большие данные: большие пробелы в знаниях в области Интернета» . Международный журнал интернет-науки . 7 : 1–5. Архивировано из оригинала 23 ноября 2019 г. Проверено 10 февраля 2017 г.
  3. ^ «Европейский портал открытых данных» . Европейский портал открытых данных . Европейская комиссия . Проверено 23 сентября 2016 г.
  4. ^ Ян М. Житков, Ян Раух (2000). Принципы интеллектуального анализа данных и открытия знаний . Спрингер. ISBN  978-3-540-66490-1 .
  5. ^ Статистическая комиссия Организации Объединенных Наций; Европейская экономическая комиссия ООН (2007). Редактирование статистических данных: влияние на качество данных: Том 3 редактирования статистических данных, Конференция европейских статистиков, Статистические стандарты и исследования (PDF) . Публикации Организации Объединенных Наций. п. 20. ISBN  978-9211169522 .
  6. ^ «Репозиторий машинного обучения UCI: набор данных Iris» . Архивировано из оригинала 26 апреля 2023 г. Проверено 2 мая 2023 г.
  7. ^ «Примеры из учебника. Введение в категориальный анализ данных Алана Агрести» . Архивировано из оригинала 31 января 2023 г. Проверено 2 мая 2023 г.
  8. ^ «Наборы данных ROUSSEEUW» . Архивировано из оригинала 7 февраля 2005 г.
  9. ^ «StatLib :: Данные, программное обеспечение и новости статистического сообщества» . Архивировано из оригинала 02 января 2011 г.

Внешние ссылки [ править ]