跳到主要内容

运维概览

运维概览

使用场景:使用过程中出现问题后,运维工程师需要通过平台定位问题、了解问题原因,可通过概览快速了解相关情况。

使用角色:数据开发人员。

功能描述:平台提供概览统计、任务监控、队列监控、作业依赖等信息用以发现、解决对应问题。

作业监控

  • 以开发运维视角展示作业运行关键信息,可直观发现任务运行情况,及时排查处理。
  • 说明:以下统计对象仅针对本空间的周期调度作业,包括数据加工、指标加工、标签加工、数据质检。

概览统计

概览统计展示从作业、任务两个维度统计相关指标,以了解作业总体情况。
运维概览

  • 信息项说明
    • 刷新时间:当前进入运维概览页面时间,即所展示统计数据以当前时间为基准。
    • 作业统计
      • 作业总数:已创建的周期调度作业总数
      • 已上线作业数:已上线的周期调度作业数量
      • 运行中作业数:当前时间存在正在运行的任务的作业数量
    • 任务统计
      • 近七天失败任务数:近七天运行失败的作业任务数据之和
      • 近七天重试任务数:近七天发生过重试的作业任务数据之和(不统计重试次数,多次重试后的任务数,记为1)
      • 近七天排队任务数:近七天进入过等待队列的作业任务数据之和
注意

任务统计数分为红黄绿三种颜色 ,以显示异常任务的等级: 异常等级计算公式为:“异常任务数/近七天任务总数”,具体阈值为红色,大于20%;橙色,小于20%,大于10%;绿色,小于10%

任务监控

以甘特图形式展示任务执行历史及未来预测。
运维概览

  • 时间筛选:默认近三天至未来一天,可手动选择时间区间,支持最大跨度7天,未来时间最多支持选择未来2天;历史时间展示作业在所选时间范围内作业任务的实际运行情况,未来时间为基于历史数据对未来计划任务的运行预测。

  • 筛选条件:支持时间、作业名称(可多选)、作业类型,多条件组合筛选,作用范围仅限于“任务监控”统计图。

  • 图例筛选:支持点击图例显示/隐藏对应状态的作业任务

    • 成功:统计周期内运行成功的作业任务
    • 失败:统计周期内运行失败的作业任务
    • 进行中:当前时间正在运行的作业任务(若停留在当前页时运行完成也不会自动变更状态,需手动刷新页面)
    • 终止:统计周期内被手动终止的作业任务,包括用户手动在作业下方“7日内作业运行结果”;“调度管理-作业任务”中手动终止作业任务后的状态;脚本节点“取消立即运行”后的状态
    • 计划中:所选未来时间内,按调度时间计算的未来计划执行的作业任务
  • 作业任务列表:展示所有调度作业,含未上线、未配置调度的作业,提供全局参考以便用户基于其他作业运行情况,合理安排作业状态和调度频率

    • 名称:作业名称,支持点击查看作业任务

    • 作业类型:平台内所有周期调度作业类型,包括数据加工、指标加工、标签加工、数据质检

    • 调度频率:展示各作业当前配置的调度频率,支持手动排序

    • 失败率:统计周期内作业的失败率=失败任务数/总任务数,包含任务详见下方注意说明

    • 重试率:统计周期内作业的重试率=重试任务数/总任务数,发生重试的任务无论重试多少次,任务数均记为1;所包含任务详见下方注意说明

      注意

      失败率计算:
      失败任务数包含状态:等待超时、运行失败、跳过运行、运行超时
      总任务数包含状态:手动终止、运行成功、等待超时、运行失败、跳过运行、运行超时
      任务记录:包含立即运行、调度运行,不包含试运行
      重试率计算:
      重试任务数:所选时间范围内任务运行重试次数大于1的所有任务
      总任务数:所选时间范围内所有任务,包括中间状态
      任务记录:包含立即运行、调度运行,不包含试运行

    • 甘特图: 展示所选时间范围内的作业任务的历史运行和未来预测,未运行过的作业显示为空

      • 历史任务:每一个实际执行的作业任务为一个“色块”,起点为作业任务实际开始时间,“色块”长度为作业任务执行用时,即越长表示用时越多,鼠标移入可查看任务执行关键信息,并支持点击“详情”查看作业任务详情
      • 预测任务:每一个计划执行的作业任务为一个“色块”,起点为作业任务计划开始时间,“色块”长度为预测的作业任务执行用时,鼠标移入可查看计划任务关键信息
        预测任务说明
        • 预测规则:最近五次历史记录的平均值,不足五次,运行几次取几次
        • 若某作业一次任务都没有运行过,则不做预估,预计用时显示“-”
    • 调度配置:基于甘特图的展示结果,用户可对并发过高的作业调整调度周期,以实现错峰运行,支持点击快捷调转至对应作业的调度配置页面。

      注意
      • 上线作业不可点击,需先下线作业
      • 调度配置会校验当前操作用户的系统权限,不同作业类型权限要求不同,具体为
        数据加工:作业修改权限
        指标加工:新建加工作业权限
        标签加工:调度配置权限
        数据质检:调度配置权限
  • 主机资源监控:监控当前已配置的平台主机资源消耗波动曲线。

    注意
    • 所监控主机,需由超级管理员在“超管配置-主机管理”或空间管理员在系统管理-主机管理提前完成监控主机创建;
    • 所监控指标为统计周期内主机整体资源消耗,统计数值可能会受到其他空间同时使用、或主机上其他应用运行的影响;
    • 上方任务监控甘特图中移入某个“色块”,会同步高亮运行时所在主机的资源监控曲线,以便查看作业任务运行对该主机资源消耗的影响。
    • 监控主机:展示超管、本空间已配置的平台主机,支持通过图例进行显示/隐藏
    • 监控对象:默认展示CPU资源消耗,支持切换至其他对象,则右侧统计图变为所选对象的监控曲线,对象包括 CPU、内存、I/O
    • 监控指标:各监控对象监控指标存在差异,具体如下
      • CPU:统计周期内各主机的CPU使用占比波动曲线,悬浮可查看某一时刻的具体占比;以单核最大100%计算,即8核CPU最大使用率可为800%
      • 内存:统计周期内各主机的内存使用波动曲线,悬浮可查看某一时刻的内存已用、已用内存占比;占比以内存设计最大值为分母,如16G、32G
      • I/O:统计周期内各主机的所选监控磁盘的读取、写入速度波动曲线,同一主机磁盘会有读取速度、写入速度两条曲线,悬浮可查看某一时刻的读取/写入速度,已用速度占比;占比以磁盘设计最大I/O为分母,如100MB/S,且为读取/写入共用,若读取占用了40MB,则此时写入最大只可为60MB

运维概览

队列监控

以双坐标轴显示各队列在统计周期内的运行队列、等待队列的任务数趋势图,以展示统计周期内队列的并发、排队情况,辅助更好的分配队列资源。

  • 统计周期:默认近1天,可切换选择近3天、近7天;近N天为当前时间向前推N天,如当前为11:00,则近1天为昨天的11:00到当前11:00
  • 统计对象:展示空间管理员已在“系统管理-队列管理”配置的队列(含默认队列),未关联作业的队列不本监控显示;一个队列会分为运行队列、等待队列两条曲线,且分别支持通过各自图例显示/隐藏
  • 运行队列:统计周期内各队列的并发运行任务数波动曲线,悬浮可查看某一时刻同时运行的任务数量,并支持点击查看具体任务列表
  • 等待队列:统计周期内各队列的排队等待任务数波动曲线,悬浮可查看某一时刻同时排队的任务数量,并支持点击查看具体任务列表 运维概览

作业依赖

以图谱的形式,展示本空间内多种调度作业的全链路依赖关系,以掌握全局的作业依赖情况,便于理清数据开发脉络。

  • 作业对象:多种支持配置作业依赖的周期调度作业,包括数据加工、指标加工、标签加工,支持通过作业名称模糊检索,作业类型图例显示/隐藏
  • 依赖链路:支持悬浮查看作业关键信息,单击作业可高亮查看与选中关联的完整作业链路
  • 依赖关系:双击作业圆点,可查看当前作业与上游作业的依赖关系,即上游作业间的依赖触发关系,支持“与”、“或”两种关系,并支持点击名称快捷跳转调整作业依赖配置 运维概览

相关术语

作业 作业任务 主机 队列