跳到主要内容

数据信道作业

数据信道作业

使用场景:当需要接入流式信道数据时,数据开发人员创建数据信道及信道作业,实时消费信道数据。

使用角色:数据开发人员。

功能描述:平台提供信道数据导入集成能力,支持自行维护信道及消息类型,并在信道作业消费信道中的数据,并可控制作业启停,查看运行详情。

配置分组

进入数据开发 > 实时数据 > 数据信道作业界面,点击左侧目录栏中的“新建”按钮,进入新建分组弹窗,根据页面内容填写信息后“保存”即可。
数据信道作业

注意
  • 支持同级分组拖拽移动排序;
  • 可直接在新建分组时关联作业,一个作业只能同时关联一个分组,新建分组页面展示所有未关联分组的作业;
  • 若作业未关联分组,则无法通过分组树过滤出对应作业,需在列表中自行搜索所需的未分组作业。

配置信道作业

新建

进入数据开发 > 实时数据 > 数据信道作业界面,点击“新建信道数据作业”按钮,根据页面内容填写信息后“保存”按钮即可。
数据信道作业
数据信道作业

填写项说明:

  • 基础信息:

    • 作业名称:必填,输入作业名称,空间内不允许重复;
    • 所属分组:非必填,点击选择在上一步中创建的分组;
    • 作业运行人:必填,默认当前创建人,新建时不可修改,后续只可由空间管理员修改;作业运行时会以作业运行人的数据库账号进行校验并执行作业任务,若开启相关权限管控,存在作业运行人无权限数据表、数据源时,则作业异常终止;
    • 描述:非必填,填写该作业的业务描述信息;
  • 容错策略:

    • 终止作业:遇到数据错误时,自动终止作业;
    • 忽略错误数据:遇到数据错误时,忽略错误数据,作业继续运行;
    • 记录例外:可设置错误数据量阈值,未达到阈值,将可识别错误数据写入例外表,直至错误数据达到阈值终止作业,后续需自行处理例外表中数据,方可再次启动运行(阈值范围:1-100000);
      注意

      以下情况会判定为错误数据:

      • 非json数据;
      • 转换数据类型异常,如中文字符转时间戳;
      • 数据库执行SQL异常如字段长度超长;
      • 其他入库失败,如库、表、字段缺失。
    • 失败重试:仅发生数据库连接异常时才会重试。默认不重试,勾选后可设置重试次数与间隔;重试次数最大支持1000次;重试间隔最低间隔支持30秒;
  • 高级配置:

    • 消费并发数:可设置消费数据的并发数量,以提升消费速度,建议最大不超过topic分区数量;
    • 每次最大拉取数量:当源头数据量较大时,平台会按所设置数量,分批次拉取源头数据进行消费;该数量为批次最大值,并不代表每次都需满足数值再拉取消费,当数据量小于该值时,则为即时消费。
  • 数据来源:

    • 来源 Topic:选择已创建的 Topic,且需选择该 Topic 下具体的消息类型,若选择的topic是单消息类型,则无消息类型配置项;
      注意

      若开启资源权限管控,则来源Topic将过滤不显示当前用户无权限Kafka数据源创建的Topic,即不允许同步无权限的Kafka数据源

    • 一个消息类型只可被选择一次,即该消息类型已配置了作业,则不再可选;
    • 选择后下方字段映射将出现该消息类型的字段内容。
  • 数据去向:

    • 目标库:支持选择内部、外部,内部即为选择数仓内各层级的数据表;外部可选择已在资源管理 > 数据源管理注册的HexaDB数据源及其数据库;
    • 目标表:选择内部时,点击选择当前空间中已在资源管理 > 数据表管理中创建的数据表,支持中英文名模糊检索;选择外部时,点击选择所选数据源对应数据库下已有表;
      注意
      • 若开启业务权限管控,则目标表将过滤不显示当前用户无读写权限数据表,即不允许同步数据至无权限表;
      • 若开启资源权限管控,则目标库将过滤不显示当前用户无可使用权限的HexaDB数据源;
      • 目标表不可选择其他空间授权的跨空间数据表,即不可对其他空间表进行读写。
    • 创建目标表:
      • 选择来源 topic 后,快速创建与topic结构相同的数据表作为目标表;
      • 跳转至单独建表页面后,系统自动将来源 topic 信息填入,包括数据表英文名、字段英文名、字段类型等;
    • 更新方式:当检测到目标表无主键时,数据更新方式默认为新增,即所有新数据均为追加新增,可能造成数据重复。
    • 冲突处理:当检测到目标表有主键时,更新方式变为冲突处理;选择覆盖则新数据会覆盖主键冲突的旧数据,选择忽略则不同步主键冲突的新数据。
  • 同名映射
    当两个字段的英文名(不分大小写)相同且字段类型兼容时,定义为同名字段。用户可通过点击页面内的“同名映射”按钮一键自动映射同名字段。
    数据信道作业

  • 映射配置
    点击页面上的“映射配置” 按钮可进行两端字段的选择,配置当前未连线字段的映射关系。
    同时用户也可通过手动连线进行来源表与目标表的字段配置。系统会自动将目标表中可连接字段连接点变为空心圆,方便用户判断。

注意

不兼容字段类型将无法自动、手动连线映射,内置兼容类型详见:字段类型兼容说明

修改

进入数据开发 > 实时数据 > 数据信道作业界面,选择目标作业后点击列表操作栏“修改”按钮,可修改作业基本信息、容错策略等全部信息。 数据信道作业

注意
  • “运行中”状态作业无法修改,需暂停作业。

删除

进入数据开发 > 实时数据 > 数据信道作业界面,选择目标作业后点击列表操作栏“删除”按钮,二次确认后即可。

注意
  • “运行中”状态作业无法删除,需暂停作业;
  • 删除作业仅删除作业本身,不会删除Topic及表中的数据。

作业信息

运行状态

  • 平台支持通过操作栏的“运行”、“暂停”或批量操作来控制作业状态,具体如下表:

数据信道作业

状态
触发条件
修改
删除
运行
暂停
血缘检测
运行详情
未开始作业创建完成即进入该状态XX
运行中在作业未开始/已暂停/异常终止状态点击“运行”XXX
已暂停在运行状态下点击“暂停”X
异常终止作业在运行中,因为来源异常、目标表异常、数据不符合表结构、网络、服务等原因导致运行停止X

运行详情

  • 作业运行后即可查看运行详情,详情中可查看每个来源表和对应目标表的当前数据量,以了解数据同步进度。

数据信道作业
数据信道作业

血缘检测

点击操作列“更多操作”中的“血缘检测”可查看作业血缘,血缘逻辑基本同数据加工作业,相关说明详见数据开发 > 批量数据 > 数据加工作业中的血缘检测数据信道作业

相关术语

信道(topic) 字段映射

最佳实践

数据集成-Kafka信道导入