Набор данных
Набор данных (или набор данных ) — это набор данных . В случае табличных данных набор данных соответствует одной или нескольким таблицам базы данных , где каждый столбец таблицы представляет определенную переменную , а каждая строка соответствует данной записи рассматриваемого набора данных. В наборе данных перечислены значения каждой из переменных, таких как, например, высота и вес объекта, для каждого члена набора данных. Наборы данных также могут состоять из набора документов или файлов. [2]
В дисциплине открытых данных набор данных — это единица измерения информации, опубликованной в общедоступном хранилище открытых данных. Европейский портал data.europa.eu объединяет более миллиона наборов данных. [3]
Характеристики
[ редактировать ]Несколько характеристик определяют структуру и свойства набора данных. К ним относятся количество и типы атрибутов или переменных, а также различные применимые к ним статистические меры , такие как стандартное отклонение и эксцесс . [4]
Значения могут быть числами, такими как действительные числа или целые числа , например, представляющие рост человека в сантиметрах, но также могут быть номинальными данными (т. е. не состоящими из числовых значений), например, представляющими этническую принадлежность человека. В более общем смысле, значения могут относиться к любому из видов, описываемых как уровень измерения . Для каждой переменной значения обычно одинаковы. Могут существовать отсутствующие значения , которые необходимо как-то указать.
В статистике наборы данных обычно берутся из фактических наблюдений, полученных путем выборки статистической совокупности , и каждая строка соответствует наблюдениям за одним элементом этой совокупности. Наборы данных могут дополнительно генерироваться алгоритмами с целью тестирования определенных видов программного обеспечения . Некоторые современные программы статистического анализа, такие как SPSS, по-прежнему представляют свои данные в классическом виде наборов данных. Если данные отсутствуют или вызывают подозрения, вменения . для завершения набора данных можно использовать метод [5]
Классика
[ редактировать ]литературе широко использовались несколько классических наборов данных В статистической :
- Набор данных о цветах ириса - многомерный набор данных, представленный Рональдом Фишером (1936). [1] Предоставлено онлайн из хранилища машинного обучения Калифорнийского университета в Ирвайне . [6]
- База данных MNIST — изображения рукописных цифр, обычно используемые для проверки классификации, кластеризации и обработки изображений . алгоритмов
- Категориальный анализ данных — наборы данных, использованные в книге «Введение в категориальный анализ данных» , предоставленной онлайн компанией UCLA Advanced Research Computing. [7]
- Надежная статистика – наборы данных, используемые для надежной регрессии и обнаружения выбросов ( Rousseeuw and Leroy, 1968). Предоставляется онлайн в Кёльнском университете. [8]
- Временные ряды . Данные, использованные в книге Чатфилда « Анализ временных рядов» , в режиме онлайн . предоставлены StatLib [9]
- Экстремальные значения . Данные, использованные в книге «Введение в статистическое моделирование экстремальных значений», представляют собой снимок данных, предоставленных в Интернете Стюартом Коулсом , автором книги.
- Байесовский анализ данных . Данные, использованные в книге, предоставлены в режиме онлайн ( ссылка на архив ) Эндрю Гельманом , одним из авторов книги.
- Данные о печени Bupa . Используются в нескольких статьях по машинному обучению (анализу данных).
- Квартет Анскомба - небольшой набор данных, иллюстрирующий важность графического отображения данных во избежание статистических ошибок.
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Jump up to: а б Фишер, Р.А. (1963). «Использование множественных измерений в таксономических задачах» (PDF) . Анналы евгеники . 7 (2): 179–188. дои : 10.1111/j.1469-1809.1936.tb02137.x . hdl : 2440/15227 . Архивировано из оригинала (PDF) 28 сентября 2011 г. Проверено 22 мая 2007 г.
- ^ Снейдерс, К.; Мацат, У.; Рейпс, У.-Д. (2012). « Большие данные: большие пробелы в знаниях в области Интернета» . Международный журнал интернет-науки . 7 : 1–5. Архивировано из оригинала 23 ноября 2019 г. Проверено 10 февраля 2017 г.
- ^ «Европейский портал открытых данных» . Европейский портал открытых данных . Европейская комиссия . Проверено 23 сентября 2016 г.
- ^ Ян М. Житков, Ян Раух (2000). Принципы интеллектуального анализа данных и открытия знаний . Спрингер. ISBN 978-3-540-66490-1 .
- ^ Статистическая комиссия Организации Объединенных Наций; Европейская экономическая комиссия ООН (2007). Редактирование статистических данных: влияние на качество данных: Том 3 редактирования статистических данных, Конференция европейских статистиков, Статистические стандарты и исследования (PDF) . Публикации Организации Объединенных Наций. п. 20. ISBN 978-9211169522 .
- ^ «Репозиторий машинного обучения UCI: набор данных Iris» . Архивировано из оригинала 26 апреля 2023 г. Проверено 2 мая 2023 г.
- ^ «Примеры из учебника. Введение в категориальный анализ данных Алана Агрести» . Архивировано из оригинала 31 января 2023 г. Проверено 2 мая 2023 г.
- ^ «Наборы данных ROUSSEEUW» . Архивировано из оригинала 7 февраля 2005 г.
- ^ «StatLib :: Данные, программное обеспечение и новости статистического сообщества» . Архивировано из оригинала 02 января 2011 г.
Внешние ссылки
[ редактировать ]- Data.gov – открытые данные правительства США.
- GCMD - Главный каталог глобальных изменений, содержащий более 34 000 описаний наборов данных и услуг по наукам о Земле и науке об окружающей среде.
- Обмен гуманитарными данными (HDX) – Обмен гуманитарными данными (HDX) – это открытая платформа для обмена гуманитарными данными , управляемая Управлением ООН по координации гуманитарных вопросов .
- Открытые данные Нью-Йорка – бесплатные общедоступные данные, публикуемые агентствами города Нью-Йорка и другими партнерами.
- Репозиторий реляционных наборов данных. Архивировано 7 марта 2018 г. на Wayback Machine.
- Research Pipeline — вики/веб-сайт со ссылками на наборы данных по самым разным темам.
- StatLib – Архив данных JASA
- UCI – репозиторий машинного обучения
- Публичные данные правительства Великобритании
- Открытые данные Всемирного банка – свободный и открытый доступ Всемирного банка к данным о глобальном развитии.