跳到主要内容

指标加工

原子指标

使用场景:数据开发人员创建原子指标,作为指标原始数据来源,供后续指标开发。

使用角色:数据开发人员。

功能描述:平台提供原子指标构建能力,将数据表字段定义为初始维度、度量等,以供后续通过加工形成指标资产供用户消费。

原子指标配置

新建

  1. 进入数据开发 > 数据指标 > 指标加工界面,点击指标加工目录上方的“新建原子指标”按钮。
    指标加工
  2. 在新建原子指标弹窗中填写页面信息后“保存”即可。
    指标加工
  • 基本信息
    • 指标所在数据表:必填,下拉选择平台当前空间中 DWD 及以上层级的数据表,不可选择无业务权限数据表,可选择其他空间授权的跨空间数据表
    • 指标中文名:必填,用户根据实际业务场景手动输入指标中文名称,空间内不允许重复;
    • 指标英文名:必填,用户根据实际业务场景手动输入指标英文名称,空间内不允许重复;
    • 提供方:必填,下拉选择组织机构,即该指标的来源组织;后续会自动成为派生指标提供方;
    • 责任人:必填,默认为当前用户,可修改下拉选择平台用户;后续会自动成为派生指标责任人;
    • 资源标签:非必填,可多选自定义资源标签;后续会自动成为派生指标资源标签;
    • 参考依据:非必填,可多选,下拉选择已发布标准文件名称,后续查看指标时可下载标准文件;后续会自动成为派生指标参考依据;
    • 描述:非必填,用户可以根据实际业务场景或原子指标创建用途等信息填写;
  • 计算规则
    • 维度:必填,支持多选,选择所选数据表中字段作为维度字段,不可选择已被当前配置选做度量的字段,不可选择无业务权限字段,系统按勾选顺序排序,后续用于派生指标名称拼接,不可选择 json、text、xml、bytea、geometry 字段类型;
    • 度量:必填,单选,选择所选数据表中字段作为度量字段,不可选择已被当前配置选做维度的字段,不可选择无业务权限字段,仅可选择数值型字段;
    • 业务时间:必填,单选,选择所选数据表中字段作为业务时间字段,不可选择无业务权限字段,仅可选择字段类型为 data、timestamp、timestamptz 的字段;
    • 计算逻辑:必填,下拉选择sum、count、max、min、avg;
    • 计量单位:必填,用户根据实际业务场景手动输入计量单位。
  1. 以原子指标“GDP”为例,具体说明如下:
地区行业时间GDP(亿元)
北京制造业2022Q15000
北京制造业2022Q26000
上海服务业2022Q16000
上海制造业2022Q14000
广东制造业2022Q27000
江苏服务业2022Q28000
浙江农业2022Q33000
山东制造业2022Q39000
四川服务业2022Q44000
河南农业2022Q42000
  • 样例数据:上表记录了不同地区的GDP情况
  • 维度:可选择地区、行业、时间字段,后续可基于以上维度派生计算出各地区、各行业、各季度的“GDP”进行分析;
  • 度量:可选择GDP字段,后续则通过汇总计算GDP值,衡量GDP产值高低;
  • 业务时间:选择时间字段,后续作为派生指标“时间周期”的计算依据,如当年GDP,则会将当年时间范围内的GDP汇总计算;
  • 计算逻辑:此处指标为GDP,是由各明细数据汇总而来,故选择“sum”;
  • 计量单位:明细数据以亿元为单位,故填写单位也为“亿元”。

修改

进入数据开发 > 数据指标 > 指标加工界面,选中目标原子指标,点击目录下方“编辑”按钮即可修改原子指标。

注意
  • 由于修改指标部分信息后,可能变为一个新的指标,因此修改原子指标不允许修改:指标数据表、度量、业务时间、计算逻辑。

删除

进入数据开发 > 数据指标 > 指标加工界面,选中目标原子指标,点击目录下方“删除”按钮,二次确认后即可删除原子指标。

注意
  • 存在关联的派生指标、复合指标已发布,需先下架才允许删除;
  • 删除原子指标,关联的加工作业、派生指标、复合指标全部删除。

指标图谱

  1. 进入数据开发 > 数据指标 > 指标加工界面,选择目标原子指标,点击“指标图谱”按钮可快速查看各类指标的关联关系,均显示中文名,当前原子指标将高亮展示。

  2. 点击图谱中指标名称后方的“发布/下架”图标,可快速对派生/复合指标进行发布/下架操作;点击指标名称后方的“删除”图标,经二次确认后将删除该指标,并同步删除关联指标。 指标加工

派生指标加工作业

派生指标加工

使用场景:用户需构建派生指标,并计算派生指标值供后续消费、分析。

使用角色:数据开发人员。

功能描述:平台支持选择已创建的原子指标进行“指标加工”,配置派生指标加工规则及调度,并上线,周期计算指标值。

新建

  1. 进入数据开发 > 数据指标 > 指标加工界面,点击原子指标后方的“新建加工作业”图标即可配置派生指标加工规则。
    指标加工
  • 填写项说明:
    • 派生指标加工作业名称:必填,用户根据实际业务场景手动输入,空间内不允许重复;
    • 原子指标:系统自动填充所选加工原子,不可修改;
    • 时间周期:必填,下拉选择系统内置时间周期,各时间周期取值逻辑详见下表;
    • 指标维度:必填,支持多选,选择在原子指标加工新建时已创建好的维度字段及维度值;
    • 条件限定:非必填;用户手动输入条件限定名称与过滤脚本,条件限定名称将参与派生指标名称自动拼接,不输入则不参与拼接。

表-时间周期示例

时间范围
时间描述示例(假设当前时间为10月18日18:07或2023年10月18日18:07)
前1小时当前时间前一个整小时的h-1:00:00到h-1:59:59(yyyyMMddHH)17:00:00到17:59:59(或20231018 17:00:00到20231018 17:59:59)
前3小时当前时间前三个整小时的h-3:00:00到h-1:59:59(yyyyMMddHH)15:00:00到17:59:59(或20231018 15:00:00到20231018 17:59:59)
前1天当前的前一天00:00:00到前一天23:59:59(yyyyMMdd)10月17日00:00:00到10月17日23:59:59
前7天当前的前7天00:00:00到前一天23:59:59(yyyyMMdd)10月11日00:00:00到10月17日23:59:59
前30天当前的前30天00:00:00到前一天23:59:59(yyyyMMdd)9月18日00:00:00到10月17日23:59:59
前90天当前的前90天00:00:00到前一天23:59:59(yyyyMMdd)7月20日00:00:00到10月17日23:59:59
前365天当前的前365天00:00:00到前一天23:59:59(yyyyMMdd)2022年10月18日00:00:00到2023年10月17日23:59:59
上一周当前的前一周的周一00:00:00到前一周的周天23:59:59(yyyyWw)10月9日(周一)00:00:00到10月15日(周天)23:59:59
上一月当前的前一月的1日00:00:00到前一月的月末天23:59:59(yyyyMM)9月1日00:00:00到9月30日23:59:59
上一季度当前的前一季度的1日00:00:00到前一季度的季末天23:59:59(yyyyQq)7月1日00:00:00到9月30日23:59:59
上一半年当前的前一个半年的1日00:00:00到前一个半年末天23:59:59(yyyy-1/-2)1月1日00:00:00到6月30日23:59:59
上一年当前的前一年的1月1日00:00:00到前一年的12月31日23:59:59(yyyy)2022年1月1日00:00:00到2022年12月31日23:59:59
当周周一的0点到当天的23:59:59(yyyyMMdd)10月16日00:00:00到10月18日23:59:59
当月当月1号0点到当天的23:59:59(yyyyMMdd)10月1日00:00:00到10月18日23:59:59
当年从当年1月1日0点到当天的23:59:59(yyyyMMdd)2023年1月1日00:00:00到2023年10月18日23:59:59
当天从当天0点到当天的调度计划时间(yyyyMMddHH)10月18日00:00:00到当天的调度计划时间

重置
派生指标加工规则配置完成后,若点击配置界面下方的“重置”按钮,则清空配置所选内容,但右侧画布预览内容保留。
指标加工
预览
派生指标加工规则配置完成后,若点击配置界面下方的“预览”按钮,则右侧画布按所选内容排列组合展示派生指标。
指标加工
保存
派生指标加工规则配置完成后,若点击画布上方的“保存”按钮即可保存派生指标,保存完成的派生指标记录显示在数据开发 > 数据指标 > 派生指标列表中。
指标加工

注意

若画布中存在多个派生指标,以每个派生指标为一条独立的记录显示在数据开发 > 数据指标 > 派生指标列表中。

  1. 派生指标加工作业配置完成后,需再完成调度配置,并上线后方可按配置周期性计算派生指标。

修改

进入数据开发 > 数据指标 > 指标加工界面,选中目标指标加工作业,右侧即出现作业信息供修改。

注意
  • 由于修改指标部分信息后,可能加工为一个新的指标,因此修改派生指标加工仅可修改调度配置,或进行上下线、立即运行操作。

删除

进入数据开发 > 数据指标 > 指标加工界面,选中目标指标加工作业,点击目录下方“删除”按钮,二次确认后即可删除指标加工作业。

注意
  • 存在关联的派生指标、复合指标已发布,需先下架才允许删除;
  • 删除指标加工作业,关联派生指标、复合指标全部删除。

调度配置

派生指标加工规则配置完成后,可在数据开发 > 数据指标 > 指标加工中查看,点击右上角“调度配置”,可配置作业调度。 指标加工

时钟触发

  • 生效日期:在该日期区间调度配置正常运行,否则自动下线该流程;
  • 永久生效:勾选后作业永久生效,生效日期置灰无需填写,取消勾选后则生效日期必填;
  • 调度周期:可选分钟、小时、日、周、月,请选择合适的周期进行配置;
  • 具体时间:在生效日期范围内,作业调度具体开始时间,精确到小时、分钟,部分周期支持配置时间间隔;
  • 超时时间:当调度任务运行起来后,在该超时时间范围内必须运行完成,否则则认定为超时并强制结束该任务;
  • 未来5次执行时间:时钟触发配置完成后,自动生成未来5次的调度时间,用以预览配置是否符合期望。
注意
  • 调度周期为日、周、月时,可选择多个具体时间,最多支持设置10个不重复的具体时间,即可存在10个corn表达式,注意“1日、2日、3日10:00”为1个corn表达式

指标加工

事件触发

  • 作业依赖

    • 上游依赖:通过新增上游依赖作业,并配置各上游作业的依赖策略,以及所有上游作业的依赖触发关系,即可按上游作业的运行状态判断触发当前作业。
      • 作业选择:支持同频、异频依赖,即可选择依赖任意周期作业;
        注意

        指标加工作业仅支持选择“数据加工”作业作为上游依赖

      • 具体时间:指上游依赖作业调度开始具体时间,如;00:00 5分,即每日00:00开始跑,每隔5分钟调度一次
      • 依赖策略:所选范围内,成功次数达到配置值即触发,不要求连续成功;完全满足次数条件才可触发,次数不足或正好存在满足次数的在运行中等特殊情况均视为不满足条件,不触发;(立即运行成功、重试后成功都算成功次数)
      • 强制等待:默认不勾选,即无需等待上游未完成任务运行完成便进行依赖触发判定;勾选后则需等待上游运行完成后再进行根据运行结果依赖触发判定;作业未运行完成状态包括准备运行、等待运行、正在运行;
        • 等待示例:如上下游作业均为10:00调度,下游设置上游依赖为近1次内1次成功,则到达调度时间,上游作业任务启动运行,下游需等待上游任务运行完成后根据终态结果再进行依赖触发判定;
        • 不等待示例:如上下游作业均为10:00调度,下游设置上游依赖为近1次内1次成功,则到达调度时间,上游作业任务启动运行,此时近1次为未完成状态而非运行成功,因此立即判定不满足依赖触发条件,下游任务直接跳过运行;
        • 判定对象说明:等待过程中仅依据第一次等待时的任务实例进行判定。如B的任务B2在第一次上游等待判定时A存在A1、A2两个中间态从而进入等待队列,从等待队列出来进行再次判定时,A又产生了新的A3任务,但B2的判定条件依旧时关注A1、A2是否变为终态。
      • 依赖策略-时间说明:选择不同依赖频率,判定上游作业成功次数的时间范围均为“近自然时间内”,如自然日、自然周、自然月,再基于当前作业的计划执行时间向前推,具体如下:
        • 分钟,当前计划执行时间为03:30开始,间隔20分钟,则第一次查询当前计划执行时间前20分钟,即03:10-03:30的上游作业成功次数,以此类推
        • 小时,当前计划执行时间为03:30开始,间隔2小时,则第一次查询当前计划执行时间前两小时,即01:30-03:30的上游作业成功次数,以此类推
        • 日,当前计划执行时间为每日22:00,则查询当天00:00-22:00的上游作业成功次数;若作业未能按计划准时运行,则最多可查询当天00:00-23:59的结果
        • 周,当前计划执行时间为周三12:00,则查询本周一至周三12:00的上游作业成功次数;若作业未能按计划准时运行,则最多可查询本周一至周天23:59的结果
        • 月,当前计划执行时间为每月15日,则查询当月1日至当前日期15日计划执行时间的上游作业成功次数;若作业未能按计划准时运行,则最多可查询当月最后一天23:59的结果
      • 依赖关系:支持添加多个上游依赖作业,并设置“与”、“或”关系,“与”为上游作业全部满足条件,“或”为上游作业任一满足条件即可
      • 作业依赖触发逻辑:所选范围内,成功次数达到配置值即触发,不要求连续;立即运行成功、重试后成功都算成功;完全满足次数条件方可触发,次数不足或正好存在满足次数的在运行中等特殊情况均视为不满足条件,不触发,如配置为近10次全部成功,上游作业前9次均成功,但第十次正在运行中,则视为不满足依赖策略,下游作业不触发,直接跳过运行。 -说明:作业依赖初始时,即上游作业均尚未第一次运行,可能造成第一个调度周期跳过,为避免此情况,请通过立即运行解决。
    举例说明
    • 月报指标场景:作业A为日报作业,作业B为月报作业,B依赖A,则可在B作业的依赖配置中选择A为上游作业,并配置依赖策略为1 {月} ,{全部}成功;
    • 常规场景:若无特殊时间要求,仅需上游作业最近一次运行成功即触发下游作业,则可配置依赖策略为1 {次} ,{1}成功,即为最近一次成功。

指标加工

  • 作业依赖链路:展示当前作业所有上下游依赖链路,包括已下线作业,若用户手动解除依赖或将作业删除,则自动解除依赖,且不再展示依赖链路关系。

运行策略

  • 作业运行人:作业运行人默认为当前创建用户,仅空间管理员可修改;若开启业务、资源权限管控,作业运行时会以作业运行人的数据库账号进行校验并执行作业任务,若存在作业运行人无权限数据表、资源,则作业运行失败
  • 作业优先级:必填,默认为高,当多个任务在等待队列排队时,队列槽位释放后,级别高的任务会优先进入运行队列执行;即首先按优先级调度任务,同一优先级按时间顺序调度任务;调整优先级不影响当前排队任务,下一调度生效
  • 运行队列:必填,提供默认队列作为默认值,可选择已配置队列,无权限队列则过滤不显示;当多个作业并发运行时,超过队列槽位数的作业任务会排队等待;立即运行,未配置队列时使用默认队列执行任务
  • 队列最大等待时长:非必填,仅可填写整数,超过等待时长的任务自动取消排队,不再执行,可清空不填则为永久等待直至进入运行队列;未设置则一直排队,不会自动取消
  • 调度冲突策略:自身作业多个调度任务实例堆积时的处理策略;默认为等待,即后续任务实例排队等待前面任务实例运行完成方才运行,当前限制最大等待100个任务,超过则按忽略处理;忽略,则后续任务实例自动忽略取消运行,直至不再堆积后新的任务实例才会按计划运行
  • 失败重试次数:作业级失败重试,默认为0,即不重试,最大可配置重试5次
注意

若未配置运行策略时,立即运行等非正常调度场景将使用系统默认配置,其中队列最大等待时长默认为60分钟、调度冲突策略默认为等待;若已配置运行策略,则立即运行等非正常调度场景也将使用配置策略

指标加工

立即运行

派生指标加工规则配置完成后,点击画布上方的“立即运行”按钮即可立即计算加工作业中所有派生指标,并在下方展示立即运行结果。

注意

每行结果以每个派生作业计算结果数为粒度,显示派生指标计算成功的记录。

指标加工

上下线

平台可通过在指标加工界面手动调整作业状态,需要用户完成派生指标加工规则以及调度周期配置后作业方可上线,上线后作业按调度周期运行。作业下线后用户可重新对当前作业重新进行调度周期配置操作,下线后作业需重新上线方可运行。

注意
  • 当存在运行中的任务,点击“下线”会提示用户是否终止正在运行中的任务,可按需选择;
  • 指标加工作业可在运维监控 > 调度管理查看调度详情。

指标加工

相关术语

原子指标 派生指标 维度 度量

最佳实践

数据开发-指标开发