数据信道作业
使用场景:当需要接入流式信道数据时,数据开发人员创建数据信道及信道作业,实时消费信道数据。
使用角色:数据开发人员。
功能描述:平台提供信道数据导入集成能力,支持自行维护信道及消息类型,并在信道作业消费信道中的数据,并可控制作业启停,查看运行详情。
配置分组
进入数据开发 > 实时数据 > 数据信道作业界面,点击左侧目录栏中的“新建”按钮,进入新建分组弹窗,根据页面内容填写信息后“保存”即可。
- 支持同级分组拖拽移动排序;
- 可直接在新建分组时关联作业,一个作业只能同时关联一个分组,新建分组页面展示所有未关联分组的作业;
- 若作业未关联分组,则无法通过分组树过滤出对应作业,需在列表中自行搜索所需的未分组作业。
配置信道作业
新建
进入数据开发 > 实时数据 > 数据信道作业界面,点击“新建信道数据作业”按钮,根据页面内容填写信息后“保存”按钮即可。
填写项说明:
基础信息:
- 作业名称:必填,输入作业名称,空间内不允许重复;
- 所属分组:非必填,点击选择在上一步中创建的分组;
- 作业运行人:必填,默认当前创建人,新建时不可修改,后续只可由空间管理员修改;作业运行时会以作业运行人的数据库账号进行校验并执行作业任务,若开启相关权限管控,存在作业运行人无权限数据表、数据源时,则作业异常终止;
- 描述:非必填,填写该作业的业务描述信息;
容错策略:
- 终止作业:遇到数据错误时,自动终止作业;
- 忽略错误数据:遇到数据错误时,忽略错误数据,作业继续运行;
- 记录例外:可设置错误数据量阈值,未达到阈值,将可识别错误数据写入例外表,直至错误数据达到阈值终止作业,后续需自行处理例外表中数据,方可再次启动运行(阈值范围:1-100000);注意
以下情况会判定为错误数据:
- 非json数据;
- 转换数据类型异常,如中文字符转时间戳;
- 数据库执行SQL异常如字段长度超长;
- 其他入库失败,如库、表、字段缺失。
- 失败重试:仅发生数据库连接异常时才会重试。默认不重试,勾选后可设置重试次数与间隔;重试次数最大支持1000次;重试间隔最低间隔支持30秒;
高级配置:
- 消费并发数:可设置消费数据的并发数量,以提升消费速度,建议最大不超过topic分区数量;
- 每次最大拉取数量:当源头数据量较大时,平台会按所设置数量,分批次拉取源头数据进行消费;该数量为批次最大值,并不代表每次都需满足数值再拉取消费,当数据量小于该值时,则为即时消费。
数据来源:
- 来源 Topic:选择已创建的 Topic,且需选择该 Topic 下具体的消息类型,若选择的topic是单消息类型,则无消息类型配置项;注意
若开启资源权限管控,则来源Topic将过滤不显示当前用户无权限Kafka数据源创建的Topic,即不允许同步无权限的Kafka数据源
- 一个消息类型只可被选择一次,即该消息类型已配置了作业,则不再可选;
- 选择后下方字段映射将出现该消息类型的字段内容。
- 来源 Topic:选择已创建的 Topic,且需选择该 Topic 下具体的消息类型,若选择的topic是单消息类型,则无消息类型配置项;
数据去向:
- 目标库:支持选择内部、外部,内部即为选择数仓内各层级的数据表;外部可选择已在资源管理 > 数据源管理注册的HexaDB数据源及其数据库;
- 目标表:选择内部时,点击选择当前空间中已在资源管理 > 数据表管理中创建的数据表,支持中英文名模糊检索;选择外部时,点击选择所选数据源对应数据库下已有表;注意
- 若开启业务权限管控,则目标表将过滤不显示当前用户无读写权限数据表,即不允许同步数据至无权限表;
- 若开启资源权限管控,则目标库将过滤不显示当前用户无可使用权限的HexaDB数据源;
- 目标表不可选择其他空间授权的跨空间数据表,即不可对其他空间表进行读写。
- 创建目标表:
- 选择来源 topic 后,快速创建与topic结构相同的数据表作为目标表;
- 跳转至单独建表页面后,系统自动将来源 topic 信息填入,包括数据表英文名、字段英文名、字段类型等;
- 更新方式:当检测到目标表无主键时,数据更新方式默认为新增,即所有新数据均为追加新增,可能造成数据重复。
- 冲突处理:当检测到目标表有主键时,更新方式变为冲突处理;选择覆盖则新数据会覆盖主键冲突的旧数据,选择忽略则不同步主键冲突的新数据。
同名映射
当两个字段的英文名(不分大小写)相同且字段类型兼容时,定义为同名字段。用户可通过点击页面内的“同名映射”按钮一键自动映射同名字段。
映射配置
点击页面上的“映射配置” 按钮可进行两端字段的选择,配置当前未连线字段的映射关系。
同时用户也可通过手动连线进行来源表与目标表的字段配置。系统会自动将目标表中可连接字段连接点变为空心圆,方便用户判断。
不兼容字段类型将无法自动、手动连线映射,内置兼容类型详见:字段类型兼容说明。
修改
进入数据开发 > 实时数据 > 数据信道作业界面,选择目标作业后点击列表操作栏“修改”按钮,可修改作业基本信息、容错策略等全部信息。
- “运行中”状态作业无法修改,需暂停作业。
删除
进入数据开发 > 实时数据 > 数据信道作业界面,选择目标作业后点击列表操作栏“删除”按钮,二次确认后即可。
- “运行中”状态作业无法删除,需暂停作业;
- 删除作业仅删除作业本身,不会删除Topic及表中的数据。
作业信息
运行状态
- 平台支持通过操作栏的“运行”、“暂停”或批量操作来控制作业状态,具体如下表:
状态 | 触发条件 | 修改 | 删除 | 运行 | 暂停 | 血缘检测 | 运行详情 |
---|---|---|---|---|---|---|---|
未开始 | 作业创建完成即进入该状态 | √ | √ | √ | X | √ | X |
运行中 | 在作业未开始/已暂停/异常终止状态点击“运行” | X | X | X | √ | √ | √ |
已暂停 | 在运行状态下点击“暂停” | √ | √ | √ | X | √ | √ |
异常终止 | 作业在运行中,因为来源异常、目标表异常、数据不符合表结构、网络、服务等原因导致运行停止 | √ | √ | √ | X | √ | √ |
运行详情
- 作业运行后即可查看运行详情,详情中可查看每个来源表和对应目标表的当前数据量,以了解数据同步进度。
血缘检测
点击操作列“更多操作”中的“血缘检测”可查看作业血缘,血缘逻辑基本同数据加工作业,相关说明详见数据开发 > 批量数据 > 数据加工作业中的血缘检测。