Профилирование данных - Data profiling
Эта статья поднимает множество проблем. Пожалуйста помоги Улучши это или обсудите эти вопросы на страница обсуждения. (Узнайте, как и когда удалить эти сообщения-шаблоны) (Узнайте, как и когда удалить этот шаблон сообщения)
|
Профилирование данных это процесс изучения данных, доступных из существующего источника информации (например, базы данных или файл ) и собирая статистика или информативные резюме об этих данных.[1] Целью этой статистики может быть:
- Узнайте, можно ли легко использовать существующие данные для других целей
- Улучшите возможность поиска данных с помощью маркировка это с ключевые слова, описания или присвоение категории
- Оценивать Качество данных, в том числе соответствие данных определенным стандартам или шаблонам[2]
- Оцените риск, связанный с интеграция данных в новых приложениях, включая проблемы присоединяется
- Обнаружить метаданные исходной базы данных, включая шаблоны значений и распределения, ключевые кандидаты, кандидаты с иностранными ключами, и функциональные зависимости
- Оценить, точно ли известные метаданные описывают фактические значения в исходной базе данных.
- Понимание проблем с данными на раннем этапе любого проекта с большим объемом данных, чтобы избежать неожиданностей в конце проекта. Обнаружение проблем с данными в конце проекта может привести к задержкам и перерасходу средств.
- Иметь корпоративное представление всех данных для таких целей, как управление основными данными, где нужны ключевые данные, или управление данными для улучшения качества данных.
Вступление
Профилирование данных относится к анализу информации для использования в хранилище данных чтобы прояснить структуру, содержание, взаимосвязи и правила получения данных.[3] Профилирование помогает не только понять аномалии и оценить качество данных, но также обнаружить, зарегистрировать и оценить метаданные предприятия.[4][5] Результат анализа используется для определения пригодности исходных систем-кандидатов, что обычно дает основу для раннего принятия / неприемлемого решения, а также для выявления проблем для последующего проектирования решения.[3]
Как проводится профилирование данных
Профилирование данных использует методы описательной статистики, такие как минимум, максимум, среднее значение, режим, процентиль, стандартное отклонение, частота, вариация, агрегаты, такие как количество и сумма, и дополнительную информацию метаданных, полученную во время профилирования данных, такую как тип данных, длина, дискретные значения. , уникальность, наличие нулевых значений, типичные строковые шаблоны и распознавание абстрактных типов.[4][6][7] Затем метаданные можно использовать для обнаружения таких проблем, как недопустимые значения, орфографические ошибки, пропущенные значения, изменяющееся представление значений и дубликаты.
Для разных структурных уровней проводится разный анализ. Например. отдельные столбцы можно профилировать индивидуально, чтобы получить представление о частотном распределении различных значений, типов и использования каждого столбца. Зависимости встроенных значений могут быть выявлены в кросс-столбцовом анализе. Наконец, перекрывающиеся наборы значений, возможно, представляющие отношения внешнего ключа между объектами, могут быть исследованы в межтабличном анализе.[4]
Обычно для профилирования данных используются специальные инструменты, облегчающие процесс.[3][4][6][7][8][9] Сложность вычислений возрастает при переходе от одного столбца к отдельной таблице и структурному профилированию между таблицами. Следовательно, производительность является критерием оценки инструментов профилирования.[5]
Когда проводится профилирование данных
По словам Кимбалла,[3] профилирование данных выполняется несколько раз и с разной интенсивностью на протяжении всего процесса разработки хранилища данных. Незначительную оценку профилирования следует проводить сразу после того, как были определены исходные системы-кандидаты и были выполнены бизнес-требования DW / BI. Цель этого первоначального анализа состоит в том, чтобы уточнить на раннем этапе, доступны ли правильные данные на соответствующем уровне детализации и что аномалии могут быть обработаны впоследствии. Если это не так, проект может быть прекращен.[3]
Кроме того, перед процессом размерного моделирования выполняется более глубокое профилирование, чтобы оценить, что требуется для преобразования данных в размерную модель. Подробное профилирование распространяется на процесс проектирования системы ETL, чтобы определить, какие данные нужно извлечь и какие фильтры применить к набору данных.[3]
Кроме того, профилирование данных может проводиться в процессе разработки хранилища данных после того, как данные были загружены в промежуточную среду, витрины данных и т. Д. Ведение данных на этих этапах помогает гарантировать, что очистка и преобразования данных были выполнены правильно и в соответствии с требованиями.
Преимущества и примеры
Преимущества профилирования данных заключаются в повышении качества данных, сокращении цикла реализации крупных проектов и улучшении понимания данных пользователями.[9] Обнаружение бизнес-знаний, встроенных в сами данные, является одним из значительных преимуществ профилирования данных.[5] Профилирование данных - одна из самых эффективных технологий повышения точности данных в корпоративных базах данных.[9]
Смотрите также
- Качество данных
- Управление данными
- Управление основными данными
- Нормализация базы данных
- Визуализация данных
- Аналитический паралич
- Анализ данных
Рекомендации
- ^ Джонсон, Теодор (2009). «Профилирование данных». В Springer, Гейдельберг (ред.). Энциклопедия систем баз данных.
- ^ Вудалл, Филип; Оберхофер, Мартин; Борек, Александр (2014). «Классификация методов оценки и улучшения качества данных». Международный журнал качества информации. 3 (4): 298. Дои:10.1504 / ijiq.2014.068656.
- ^ а б c d е ж Кимбалл, Ральф; и другие. (2008). Набор инструментов для жизненного цикла хранилища данных (Второе изд.). Вайли. стр.376. ISBN 9780470149775.
- ^ а б c d Лошин, Давид (2009). Управление основными данными. Морган Кауфманн. стр.94 –96. ISBN 9780123742254.
- ^ а б c Лошин, Давид (2003). Бизнес-аналитика: руководство для опытного менеджера, знакомство с новыми ИТ. Морган Кауфманн. С. 110–111. ISBN 9781558609167.
- ^ а б Рам, Эрхард; Хай До, Хонг (декабрь 2000 г.). «Очистка данных: проблемы и современные подходы». Бюллетень Технического комитета по инженерии данных. Компьютерное общество IEEE. 23 (4).
- ^ а б Сингх, Ранджит; Сингх, Кавалджит; и другие. (Май 2010 г.). «Описательная классификация причин проблем с качеством данных в хранилищах данных». Выпуск Международного журнала компьютерных наук IJCSI. 2. 7 (3).
- ^ Кимбалл, Ральф (2004). «Совет по дизайну Kimball № 59: удивительная ценность профилирования данных» (PDF). Kimball Group.
- ^ а б c Олсон, Джек Э. (2003). Качество данных: измерение точности. Морган Кауфманн. стр.140 –142.