Jump to content

Неопределенные данные

В информатике , неопределенные данные — это данные, которые содержат шум который заставляет их отклоняться от правильных, предполагаемых или исходных значений. В эпоху больших данных неопределенность или достоверность данных является одной из определяющих характеристик данных. Данные постоянно растут в объеме, разнообразии, скорости и неопределенности (1/достоверность). Неопределенные данные сегодня в изобилии можно найти в Интернете, в сенсорных сетях, на предприятиях, как в их структурированных, так и в неструктурированных источниках. Например, может возникнуть неопределенность в отношении адреса клиента в наборе корпоративных данных или показаний температуры, зафиксированных датчиком, из-за его устаревания. призвала управлять неопределенными данными в больших масштабах. В 2012 году IBM в своем о глобальных перспективах развития технологий отчете [1] В нем представлен всесторонний анализ, заглядывающий в будущее на три-десять лет, направленный на выявление важных, прорывных технологий, которые изменят мир. Чтобы принимать уверенные бизнес-решения на основе реальных данных, анализ обязательно должен учитывать множество различных видов неопределенности, присутствующих в очень больших объемах данных. Анализ, основанный на неопределенных данных, повлияет на качество последующих решений, поэтому нельзя игнорировать степень и типы неточностей в этих неопределенных данных.

Неопределенные данные встречаются в области сенсорных сетей ; текст, в котором шумный текст встречается в изобилии в социальных сетях, Интернете и на предприятиях, где структурированные и неструктурированные данные могут быть старыми, устаревшими или просто неверными; при моделировании, где математическая модель может быть лишь приближением реального процесса. При представлении таких данных в базе данных соответствующую неопределенную модель базы данных необходимо выбрать .

Пример модели данных для неопределенных данных

[ редактировать ]

Одним из способов представления неопределенных данных является распределение вероятностей . Возьмем пример реляционной базы данных . Существует три основных способа представления неопределенности в виде распределения вероятностей в такой модели базы данных .

При неопределенности атрибута каждый неопределенный атрибут в кортеже подчиняется своему собственному независимому распределению вероятностей . [2] Например, если сниматься показания температуры и скорости ветра, каждое из них будет описываться своим собственным распределением вероятностей, поскольку знание показаний одного измерения не даст никакой информации о другом.

В условиях коррелированной неопределенности несколько атрибутов могут быть описаны с помощью совместного распределения вероятностей . [2] Например, если сняты показания положения объекта и сохранены координаты x и y , вероятность различных значений может зависеть от расстояния от записанных координат. Поскольку расстояние зависит от обеих координат, возможно, будет целесообразно использовать совместное распределение для этих координат, поскольку они не являются независимыми .

В кортежной неопределенности все атрибуты кортежа подчиняются совместному распределению вероятностей. Это охватывает случай коррелированной неопределенности, но также включает случай, когда существует вероятность того, что кортеж не принадлежит соответствующему отношению, на что указывает то, что все вероятности не суммируются до единицы. [2] Например, предположим, что у нас есть следующий кортеж из вероятностной базы данных :

(а, 0,4) | (б, 0,5)

Тогда кортеж с вероятностью 10% не будет существовать в базе данных.

  1. ^ Глобальный обзор технологий (PDF) (Отчет). 2012.
  2. ^ Jump up to: а б с Прабхакар, Сунил. «ORION: Управление неопределенными данными (датчиков)» (PDF) . Информатика .
  • Хабич Волк; Клеменс Утцни; Ральф Диттманн; Вольфганг Ленер. «Кластеризация неточных значений измерений на основе плотности с учетом ошибок». Седьмая международная конференция IEEE по интеллектуальному анализу данных, 2007 г. Семинары ICDM, 2007 г. IEEE.
  • Фольк Розенталь; Мартин Хаманн; Дирк Хабич; Вольфганг Ленер. «Кластеризация неопределенных данных с возможными мирами». Материалы 1-го семинара по управлению и анализу неопределенных данных, проведенного в рамках 25-й Международной конференции по инженерии данных, 2009 г. IEEE.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 44a9b7412bf134f9f370bc584ad71c9f__1705584120
URL1:https://arc.ask3.ru/arc/aa/44/9f/44a9b7412bf134f9f370bc584ad71c9f.html
Заголовок, (Title) документа по адресу, URL1:
Uncertain data - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)