Universe大数据平台特性简介-数据质量

[复制链接]
liufc
liufc   中级会员    发表于 2016-10-17 15:22:51   最新回复:2016-10-17 15:22:51

产生背景

通过计划、实施和控制活动,运用质量管理技术,度量、评估、改进和保证数据的恰当使用。

数据质量管理以适度改进数据质量,满足既定的业务预期为目标,通过定义需求和规格说明,将数据质量管理整合至系统开发生命周期,为度量、监控和报告数据质量水平的一致性提供既定的操作程序。

l   提供全面的数据质量管理功能,精确管理数据质量问题的各个阶段。

l   为企业减少风险,建立完善的质量体系,如果数据质量不好,明显的风险就是战略决策可能会导致灾难性的后果。

l   减少成本,自动化的质量问题稽核处理和质量问题监控通知机制,能够达到无人值守。

l   提高生产率,便捷高效的质量分析手段,能够快速发现问题并且加速问题解决。

l   良好的质量问题管理循环以及丰富的质量知识沉淀,促使流程和整个操作更顺畅,为大数据各项应用带来生机。

功能列表

质量规则功能列表

功能

描述

数据质量规则管理

l  数据质量管理从数据有效性、完整性、一致性、唯一性、准确性维度对数据质量进行衡量。详情如3-52所示。

l  质量规则可以是基于数据库字段的,也可以是基于数据库表的,也可能是跨表的。

l  针对每种质量规则,可指定一个默认的质量阈值。数据质量超过此阈值将触发后续处理动作,包括记录日志、触发告警。

l  融合华为在电信领域的最佳实践,预置了数据质量规则。预置的数据质量规则如3-53所示。

数据质量实时监控

实时监控数据质量状况,以便及时发现质量问题。支持从不同维度查看各个数据分层以及具体数据实体的质量状况。

数据质量趋势分析

以曲线图方式展示数据质量趋势。支持自定义时间范围和数据分层进行分析,可查看历史数据实体的详细质量报告。

质量知识库

提供图形化界面将生产运维过程产生的问题、人员报告的问题、维护发现的问题、业务人员反馈的问题经过处理过程转到知识库,对问题的原因和解决方法进行手工分类记录,提供历史经验沉淀和查询。

 

数据质量稽核维度说明

功能

描述

有效性

主要检查数据格式、类型、值域和业务规则的有效性。

完整性

主要检查是否存在实体缺失、属性缺失、记录缺失和字段值缺失。

一致性

检查关联数据之间的逻辑关系是否正确和完整。

唯一性

主要检查主键的唯一性和候选键的唯一性。

准确性

指计量误差、度量单位方面的精确度。

自定义

用户自行定义质量标准。

 

预置的数据质量规则

质量维度

规则名称

规则描述

备注

完整性

非空检查

检查指定模型的指定字段不包含空值。

-

一致性

主外建约束检查

检查指定模型M1的字段C1的值是否来自于指定模型M2的指定字段C2

-

唯一性

值唯一检查

检查指定模型的指定字段的值时候包含重复值。

-

准确性

环比波动性检查

检查指定模型的记录条数环比波动率是否在允许的阈值以内。

只针对周期表(周期表包括按天分表、按月分表、按年分表、按天汇总表)。

同比波动性检查

检查指定模型的记录条数同比波动率是否在允许的阈值以内。

只针对周期表。

 

界面配置

数据质量规则

20161017152223777001.png

 

质量规则配置

20161017152224313002.png

 

质量监控

20161017152224744003.png

 

质量分析

20161017152225504004.png

 

质量知识库查询

20161017152226149005.png

 

实现流程

质量稽核流程如3-59所示。

质量稽核流程

20161017152227701006.png

 

质量稽核流程说明

序号

任务

说明

1

指定稽核规则

制定数据质量标准。

2

明确稽核对象

为数据模型添加稽核规则。

3

转化为SQL语句

数据治理组件将稽核规则自动转化为可执行的SQL语句,便于在规则引擎上执行。

4

选择稽核时机

为稽核选择合适的时机。

5

设计调度策略

在统一调度中配置稽核任务的调度计划。

6

规则引擎执行

规则引擎按设定好的调度策略自动定时执行稽核任务。

 


跳转到指定楼层
快速回复 返回顶部