Шумные данные
![]() | В этой статье есть несколько проблем. Пожалуйста, помогите улучшить его или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалять эти шаблонные сообщения )
|
Зашумленные данные — это данные, которые повреждены, искажены или имеют низкое соотношение сигнал/шум . Неправильные процедуры (или неправильно документированные процедуры) по устранению шума в данных могут привести к ложному ощущению точности или ложным выводам.
Шумные данные — это данные с большим количеством дополнительной бессмысленной информации, называемой шумом. [1] Сюда входит повреждение данных , и этот термин часто используется как синоним поврежденных данных. [1] Сюда также входят любые данные, которые пользовательская система не может правильно понять и интерпретировать. Многие системы, например, не могут использовать неструктурированный текст . Зашумленные данные могут отрицательно повлиять на результаты любого анализа данных и исказить выводы, если с ними не обращаться должным образом. Статистический анализ иногда используется для устранения шума из зашумленных данных. [1]
Источники шума
[ редактировать ]

Отличия реальных измеренных данных от истинных значений возникают из-за множества факторов, влияющих на измерение. [2]
Случайный шум часто является значительной составляющей шума в данных. [3] Случайный шум в сигнале измеряется как отношение сигнал/шум . Случайный шум содержит почти одинаковое количество широкого диапазона частот и также называется белым шумом (поскольку цвета света в сочетании образуют белый цвет ). Случайный шум – неизбежная проблема. Это влияет на процессы сбора и подготовки данных, где часто возникают ошибки. У шума есть два основных источника: ошибки, вносимые инструментами измерения, и случайные ошибки, вносимые обработкой или экспертами при сборе данных. [4]
Неправильная фильтрация может добавить шум, если отфильтрованный сигнал обрабатывается так, как если бы он был непосредственно измеренным сигналом. Например, свертки, типа цифровые фильтры такие как скользящее среднее, могут иметь побочные эффекты, такие как задержки или усечение пиков. Дифференцирующие цифровые фильтры усиливают случайный шум в исходных данных.
Данные выбросов — это данные, которые кажутся не принадлежащими набору данных. Это может быть вызвано человеческой ошибкой, такой как транспонирование цифр, неправильная маркировка, ошибки программирования и т. д. Если фактические выбросы не удалены из набора данных, они в малой или значительной степени искажают результаты в зависимости от обстоятельств. Если действительные данные идентифицируются как выбросы и ошибочно удаляются, это также искажает результаты.
Мошенничество: отдельные лица могут намеренно искажать данные, чтобы повлиять на результаты и привести к желаемому выводу. Данные, которые выглядят хорошо с небольшим количеством выбросов, хорошо отражаются на человеке, собирающем их, и поэтому может быть стимул удалить больше данных как выбросов или сделать данные более гладкими, чем они есть на самом деле.
Ссылки
[ редактировать ]- ^ Jump up to: а б с «Что такое зашумленные данные? — Определение с сайта WhatIs.com» .
- ^ «Зашумленные данные в интеллектуальном анализе данных — мягкие вычисления и интеллектуальные информационные системы» . sci2s.ugr.es .
- ^ RY Wang, VC Storey, CP Firth, Структура анализа исследований качества данных, IEEE Transactions on Knowledge and Data Engineering 7 (1995) 623-640 doi: 10.1109/69.404034)
- ^ С. Чжу, С. Ву, Классовый шум и атрибутный шум: количественное исследование, Обзор искусственного интеллекта 22 (2004) 177-210 doi: 10.1007/s10462-004-0751-8