数据集成
核心能力概述
数据集成主要完成将外部数据源的数据复制到平台数据仓库之中,为后续开发治理提供原始数据支撑。
本文以数据集成的全流程为指引,从业务系统、数据源、数据表的前置准备,到多种同步方式满足不同数据复制场景为例,介绍平台数据集成的核心能力。
快速使用指引
新建业务系统
平台中的业务系统主要是以系统的维度对需要集成入仓的数据进行梳理登记,以形成在线清单,便于管理。主要流程如下:
进入资源管理 > 业务系统界面,点击 “新建业务系统” 按钮开始新建。
根据新建业务系统弹窗内容,填写需要集成数据入仓的业务系统信息后保存即可。
业务系统其他能力参见:资源管理-业务系统。
新建数据源
若采用数据同步的方式复制数据,需提前将来源数据源在平台中完成注册。主要流程如下:
进入资源管理 > 数据源管理界面,点击 “新建数据源” 按钮开始新建。
根据来源数据源的实际类型,选择正确的类型,并完成相关信息的填写。不同类型数据源的信息项存在差异,详细配置说明参见:资源管理-数据源管理。
新建数据表
开始数据复制之前,需提前完成STG层数据表的创建,以作为来源数据的目标表。以单独建表为例,主要流程如下:
- 进入资源管理 > 数据表管理界面,点击 “新建数据表 > 单独建表” 按钮开始新建。
- 进入新建数据表页面,按要求填写相关信息项后保存即可。新建数据表页面内容较多,包括基础配置、字段配置、高级配置等,详细配置说明参见:数据表管理-单独建表注意
此处指引主要是创建STG层数据表,同时可关联对应业务系统,以形成数据集成闭环。
本地数据导入
平台支持通过导入本地 CSV、Excel 文件实现表数据写入。主要流程如下:
- 进入资源管理 > 数据表管理界面,选择需要导入的目标表,在其列表操作栏点击“数据导入”按钮开始导入。
- 进入数据导入界面后,点击下载模板,选择所需模板类型后,将待复制的数据填入模板。
- 点击“浏览”按钮将已填好模板上传后,点击导入即可。导入完成后页面会自动跳转至数据表详情页,可查看导入结果。
离线数据同步
对于时效性要求不高的批量离线数据,可选择离线数据同步的方式完成数据集成复制。以“库表导入”、“API导入”为例,主要流程如下:
- 前置条件:已完成所需数据源注册,并测试连通性通过。
- 进入数据开发 > 批量数据 > 数据加工界面,点击左侧目录“操作 > 新建作业”按钮,并按要求完成作业基本信息填写后保存即可新建离线批量同步作业。
- 在新建的作业画布上,拖入“库表导入”或“API导入”节点。
- 2.1 双击“库表导入”节点,进入节点配置页面,选择需复制数据的对应数据源,完成要求信息项配置。详细配置说明参见:加工节点-库表导入
- 2.1 双击“API导入”节点,进入节点配置页面,选择需复制数据的对应数据源,完成要求信息项配置。详细配置说明参见:加工节点-API导入
选择当前新建作业,画布右上角点击“调度配置”,按要求填写相关信息项后保存即可。详细配置参见:加工作业-调度配置
完成调度配置后,画布右上角点击“上线”,确认后作业即可按调度周期运行;并可在“运维监控-调度管理”查看运行详情。
实时数据同步
对于时效性要求较高的批量数据,可选择实时数据同步的方式完成数据集成复制。主要流程如下:
- 前置条件:已完成所需数据源注册(当前仅支持MySQL、Oracle数据源),并测试连通性通过。
- 进入数据开发 > 实时数据 > 实时数据同步界面,点击“新建同步作业”按钮开始新建。
- 进入新建实时同步作业页面,按要求填写相关信息项后保存即可。详细配置说明参见:实时数据-实时数据同步
- 完成作业配置后,在其作业操作栏点击“运行”按钮,作业即可持续性实时同步数据;并可通过点击“运行详情”查看运行进度等信息。
信道数据同步
对于时效性要求较高的流式数据,可选择数据信道作业的方式完成数据集成复制。以第三方Kafka数据源的数据同步为例,主要流程如下:
- 前置条件:已完成所需Kafka数据源注册,并测试连通性通过。
- 进入数据开发 > 实时数据 > 数据信道管理界面,点击“新建Topic”按钮,选择对应消息类型开始新建信道。
- 进入新建信道页面,按要求填写相关信息项后保存即可。单消息信道、多消息信道配置存在差异,详细配置说明参见:数据信道管理-信道配置。
- 进入数据开发 > 实时数据 > 数据信道作业界面,点击“新建数据信道作业”按钮开始新建信道作业。
- 进入新建信道作业页面,按要求填写相关信息项后保存即可。详细配置说明参见:实时数据-数据信道作业。
- 完成作业配置后,在其作业操作栏点击“运行”按钮,作业即可持续性实时同步数据;并可通过点击“运行详情”查看运行进度等信息。
附:数据集成推荐系统权限
各类不同分工人员,所需系统权限存在差异,可由空间管理员自定义系统权限,对于数据集成人员,推荐系统权限如下:
模块功能 | 授权 |
---|---|
资源管理-业务系统 | 必选 |
资源管理-数据源管理 | 必选 |
资源管理-数据表管理 | 必选 |
资源管理-文件夹管理 | 可选 |
数据开发-批量数据-数据加工 | 必选 |
数据开发-实时数据-实时数据同步 | 可选 |
数据开发-实时数据-数据信道管理 | 可选 |
数据开发-实时数据-数据信道作业 | 可选 |
运维监控-运维概览 | 可选 |
运维监控-调度管理 | 必选 |
个人中心-消息通知 | 必选 |