质量详情
使用场景:数据开发人员需了解质检详细情况,特别是质量较差的字段,以便了解异常数据全链路信息,确定治理方案。
使用角色:数据开发人员。
功能描述:平台支持根据质检合格率定义数据质量情况,统计近一段时间内质量较差的数据表,可展示质检规则明细、规则命中的列。
统计对象&统计周期
统计对象
进入数据质检 > 质量详情界面,在界面上方点击“统计对象”下拉显示质量概览中已配置的统计对象,默认为全局对象,可切换查看不同统计对象下的质量等级。
统计周期
进入数据质检 > 质量详情界面,在界面上方点击统计周期切换下拉框即可切换统计周期。通过下拉框可切换近1天/7天/30天/180天内所有质检作业最近一次质检结果以及未质检作业,默认展示近30天。
- 质检结果显示逻辑为T+1,即质检结果要在当前时间上增加一天后才会显示在质量详情界面之中
- 仅统计运行成功的质检结果,运行失败作业结果不参与统计
质量等级
- 质检详情界面展示四类质检结果:
- 红:此类数据表的质检命中行数占扫描行数的比例非常低,需要重点关注;
- 黄:此类数据表的质检命中行数占扫描行数的比例相对红色表较低;
- 绿:此类数据表的质检命中行数占扫描行数的比例较高;
- 灰:未质检数据表。
- 扫描行:对一个规则内所有字段的的扫描行求和;
- 命中行:对一个规则内所有字段的符合规则的命中行求和;
- 命中列:仅展示质检符合规则的列,即字段,可点击字段名查看其关联血缘。
查看红表质量详情说明
以非空检测为例,说明扫描行、命中行与命中列数字代表含义。
下图为一个 4 列 10 行的数据表,包含字段:姓名、性别、年龄、班级,其中姓名列有一行空值,性别、年龄、班级分别有两行空值。
在数据质检 > 质量作业中已配置的质检规则,将规则类型设置为内置规则,作用对象为所有字段,计算逻辑设置为【非空条数,固定值】,期望值为非空行数大于等于9。
质检详情展示结果显示应该为:
- 扫描行(10*4=40)表示的是该数据表4个字段4次扫描10行数之和;
- 命中行(姓名9+性别8+年龄8+班级8=33)表示4个字段4次符合非空的行数之和;
- 命中列(1,“姓名”列命中)表示质检结果符合期望即质检通过的字段名称,示例中其他三列非空为8,小于期望值,为不通过。
多作业质检逻辑说明
假设table_a,关联了三个数据质检作业,作业1、作业2、作业3。作业1配置了规则a、b,作业2配置了规则c、d,作业3配置了规则e,那么统计的是规则a、b、c、d、e每个作业近x天最后一次的质检运行结果,并将各自最后一次质检结果的命中行数与扫描行数分别求和,该命中行与扫描行取值决定了该表在“质量详情”中的质量等级(红、黄、绿)。
质量合规得分
若数据表质检时完成了质量评分配置,且在统计周期内完成质检,则数据表会展示周期内最近一次合规得分。
质量合规得分支持点击后查看得分详情。
- 合规得分计算规则说明:
- 字段级得分:计算该字段质检规则关联的质量特性得分之和,即(该质量特性所有规则的命中行/扫描行的平均值*该质量特性的权重占比)之和
- 表级得分:计算该表所有字段得分的平均值
- 当前定义三个质量特性,唯一性、完整性、一致性对应的权重分为为
- 某表中字段 关联了6个质检规则分别为,其中质检关联质量特性唯一性,关联质量特性完整性,关联质量特性一致性。
- 表示规则的扫描行,表示规则的命中行(表示规则的扫描行,表示规则的命中行)
字段A的合规得分计算规则为:
- 合规得分趋势:点击按钮可查看近7、30、180天的历史得分趋势,可查看周期内产生得分的具体时间点及得分变化趋势,并支持下钻查看历史得分明细。