Jump to content

Шумные данные

Зашумленные данные — это данные, которые повреждены, искажены или имеют низкое соотношение сигнал/шум . Неправильные процедуры (или неправильно документированные процедуры) по устранению шума в данных могут привести к ложному ощущению точности или ложным выводам.

Шумные данные — это данные с большим количеством дополнительной бессмысленной информации, называемой шумом. [1] Сюда входит повреждение данных , и этот термин часто используется как синоним поврежденных данных. [1] Сюда также входят любые данные, которые пользовательская система не может правильно понять и интерпретировать. Многие системы, например, не могут использовать неструктурированный текст . Зашумленные данные могут отрицательно повлиять на результаты любого анализа данных и исказить выводы, если с ними не обращаться должным образом. Статистический анализ иногда используется для устранения шума из зашумленных данных. [1]

Источники шума

[ редактировать ]
В этом примере выброса и фильтрации точка t2 является выбросом. Плавный переход к выбросу и обратно происходит в результате фильтрации и также является не действительными данными, а большим количеством шума. Представление отфильтрованных результатов (сглаженных переходов) в виде реальных измерений может привести к ложным выводам.
Этот тип фильтра ( скользящее среднее ) сдвигает данные вправо. Скользящая средняя цена в данный момент времени обычно сильно отличается от фактической цены в этот момент.

Отличия реальных измеренных данных от истинных значений возникают из-за множества факторов, влияющих на измерение. [2]

Случайный шум часто является значительной составляющей шума в данных. [3] Случайный шум в сигнале измеряется как отношение сигнал/шум . Случайный шум содержит почти одинаковое количество широкого диапазона частот и также называется белым шумом (поскольку цвета света в сочетании образуют белый цвет ). Случайный шум – неизбежная проблема. Это влияет на процессы сбора и подготовки данных, где часто возникают ошибки. У шума есть два основных источника: ошибки, вносимые инструментами измерения, и случайные ошибки, вносимые обработкой или экспертами при сборе данных. [4]

Неправильная фильтрация может добавить шум, если отфильтрованный сигнал обрабатывается так, как если бы он был непосредственно измеренным сигналом. Например, свертки, типа цифровые фильтры такие как скользящее среднее, могут иметь побочные эффекты, такие как задержки или усечение пиков. Дифференцирующие цифровые фильтры усиливают случайный шум в исходных данных.

Данные выбросов — это данные, которые кажутся не принадлежащими набору данных. Это может быть вызвано человеческой ошибкой, такой как транспонирование цифр, неправильная маркировка, ошибки программирования и т. д. Если фактические выбросы не удалены из набора данных, они в малой или значительной степени искажают результаты в зависимости от обстоятельств. Если действительные данные идентифицируются как выбросы и ошибочно удаляются, это также искажает результаты.

Мошенничество: отдельные лица могут намеренно искажать данные, чтобы повлиять на результаты и привести к желаемому выводу. Данные, которые выглядят хорошо с небольшим количеством выбросов, хорошо отражаются на человеке, собирающем их, и поэтому может быть стимул удалить больше данных как выбросов или сделать данные более гладкими, чем они есть на самом деле.

  1. ^ Jump up to: а б с «Что такое зашумленные данные? — Определение с сайта WhatIs.com» .
  2. ^ «Зашумленные данные в интеллектуальном анализе данных — мягкие вычисления и интеллектуальные информационные системы» . sci2s.ugr.es .
  3. ^ RY Wang, VC Storey, CP Firth, Структура анализа исследований качества данных, IEEE Transactions on Knowledge and Data Engineering 7 (1995) 623-640 doi: 10.1109/69.404034)
  4. ^ С. Чжу, С. Ву, Классовый шум и атрибутный шум: количественное исследование, Обзор искусственного интеллекта 22 (2004) 177-210 doi: 10.1007/s10462-004-0751-8
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 5b4497aeb4da592adceadd6c54dc209c__1681900380
URL1:https://arc.ask3.ru/arc/aa/5b/9c/5b4497aeb4da592adceadd6c54dc209c.html
Заголовок, (Title) документа по адресу, URL1:
Noisy data - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)