Неопределенные данные - Uncertain data

В Информатика, неопределенные данные это данные, которые содержат шум что заставляет его отклоняться от правильных, предполагаемых или исходных значений. В возрасте большое количество данных, неопределенность или достоверность данных - одна из определяющих характеристик данных. Объем, разнообразие, скорость и неопределенность данных постоянно растут (1 / достоверность). Сегодня в Интернете, в сенсорных сетях, на предприятиях, как в их структурированных, так и в неструктурированных источниках, имеется множество неопределенных данных. Например, может существовать неопределенность относительно адреса клиента в наборе корпоративных данных или показаний температуры, зафиксированных датчиком из-за старения датчика. В 2012 году IBM призвала масштабное управление неопределенными данными в его глобальные технологические перспективы отчет[1] Это представляет собой всесторонний анализ, заглядывающий на три-десять лет в будущее с целью выявления важных, революционных технологий, которые изменят мир. Чтобы принимать уверенные бизнес-решения на основе реальных данных, анализ обязательно должен учитывать множество различных видов неопределенности, присутствующих в очень больших объемах данных. Анализ, основанный на недостоверных данных, будет влиять на качество последующих решений, поэтому нельзя игнорировать степень и типы неточностей в этих неопределенных данных.

Неопределенные данные находятся в области сенсорные сети; текст где шумный текст широко используется в социальных сетях, Интернете и на предприятиях, где структурированные и неструктурированные данные может быть старым, устаревшим или явно неправильным; в моделировании, где математическая модель может быть только приближением к реальному процессу. При представлении таких данных в база данных, некоторое указание на вероятность также необходимо оценить правильность различных значений.

Существует три основных модели неопределенных данных в базах данных. В неопределенность атрибута, каждый неопределенный атрибут в кортеже подчиняется собственному независимому распределение вероятностей.[2] Например, если снимаются показания температуры и скорости ветра, каждое из них будет описано своим собственным распределением вероятностей, поскольку знание показаний одного измерения не предоставит никакой информации о другом.

В коррелированная неопределенность, несколько атрибутов могут быть описаны совместное распределение вероятностей.[2] Например, если снимаются показания положения объекта, а Икс- и y-координаты сохраняются, вероятность различных значений может зависеть от расстояния от записанных координат. Поскольку расстояние зависит от обеих координат, может быть целесообразно использовать совместное распределение для этих координат, поскольку они не являются независимый.

В неопределенность кортежа, все атрибуты кортеж подлежат совместному распределению вероятностей. Это охватывает случай коррелированной неопределенности, но также включает случай, когда существует вероятность того, что кортеж не принадлежит соответствующему отношению, что указывается всеми вероятностями, которые не суммируются с единицей.[2] Например, предположим, что у нас есть следующий кортеж из вероятностная база данных:

(а, 0,4) | (б, 0,5)

Тогда вероятность того, что кортеж не существует в базе данных, составляет 10%.

Рекомендации

  1. ^ Глобальный технологический прогноз (PDF) (Отчет). 2012 г.
  2. ^ а б c Прабхакар, Сунил. «ORION: управление недостоверными (сенсорными) данными» (PDF). Цитировать журнал требует | журнал = (помощь)
  • Волк, Хабих; Клеменс Утзны, Ральф Диттманн, Вольфганг Ленер. "Кластеризация неточных значений измерений на основе плотности с учетом ошибок". Седьмая международная конференция IEEE по семинарам по интеллектуальному анализу данных, 2007 г. Семинары ICDM 2007 г.. IEEE.CS1 maint: несколько имен: список авторов (связь)
  • Розенталь, Фольк; Мартин Хахманн, Дирк Хабих, Вольфганг Ленер. «Кластеризация неопределенных данных с возможными мирами». Материалы 1-го семинара по управлению и интеллектуальному анализу неопределенных данных в связи с 25-й Международной конференцией по инженерии данных, 2009 г.. IEEE.CS1 maint: несколько имен: список авторов (связь)