数据开发
核心能力概述
数据开发主要完成平台数据仓库内部数据的分层开发治理,为后续数据开放、数据分析提供高质量的治理数据。
本文以数据加工、指标加工、标签加工、服务加工,四类资产的加工为例,介绍平台数据开发的核心能力。
- 前置工作:已完成数据集成工作,原始数据已入仓等待加工处理。
快速使用指引
批量数据加工
平台支持以加工作业的方式进行数据加工,并提供多种类型的加工节点。以“SQL加工”为例,主要流程如下:
- 进入数据开发 > 批量数据 > 数据加工界面,点击“操作 > 新建作业”按钮,并按要求完成作业基本信息填写后保存即可新建数据加工作业。
- 在新建的作业画布上,拖入“SQL加工”节点,并双击“SQL加工”节点,进入节点配置页面,根据开发需要完成SQL编写。详细配置说明参见:加工节点-SQL加工
- 选择当前新建的作业,画布右上角点击“调度配置”,按要求填写相关信息项后保存即可。详细配置参见:加工作业-调度配置
- 完成调度配置后,画布右上角点击“上线”,确认后作业即可按调度周期运行;并可在“运维监控-调度管理”查看运行详情。
流式数据加工
对于时效性要求较高的流式数据,可选择流式数据加工作业的方式完成数据开发治理。以第三方Kafka数据源的数据加工为例,主要流程如下:
- 前置条件:已完成所需Kafka数据源注册,并测试连通性通过。
- 进入数据开发 > 实时数据 > 数据信道管理界面,点击“新建Topic”按钮,选择对应消息类型开始新建信道。
- 进入新建信道页面,按要求填写相关信息项后保存即可。单消息信道、多消息信道配置存在差异,详细配置说明参见:数据信道管理-信道配置。
- 进入数据开发 > 实时数据 > 流式数据加工界面,点击“新建流式数据加工作业”按钮开始新建流式加工作业。
- 进入新建流式加工作业页面,按要求填写相关信息项后保存即可。详细配置说明参见:实时数据-流式数据加工。
- 完成作业配置后,在其作业操作栏点击“运行”按钮,作业即可持续性实时加工处理数据;并可通过点击“运行详情”查看运行进度等信息。
数据指标加工
平台支持将已治理好的DWD、DWS、ADM层级数据表的数据进一步加工为指标,以供后续消费使用。主要流程如下
- 进入数据开发 > 数据指标 > 指标加工界面,点击左侧目录“操作 > 新建原子指标”按钮,并按要求完成作业基本信息填写后保存即可新建原子指标。 详细配置参见:指标加工-原子指标
- 选择刚刚已创建的原子指标后方的“新建加工作业”图标即可在右侧画布配置派生指标加工规则,填写完成后右上角保存。详细配置参见:指标加工-加工作业
- 选择当前新建的作业,画布右上角点击“调度配置”,按要求填写相关信息项后保存即可。详细配置参见:指标加工-调度配置
- 完成调度配置后,画布右上角点击“上线”,确认后作业即可按调度周期运行;并可在“运维监控-调度管理”查看运行详情。
数据标签加工
平台支持将数据仓库内的数据表的数据进一步打上标签,以供后续消费使用。主要流程如下:
- 进入数据开发 > 数据标签 > 标签加工界面,点击“新建标签加工”按钮开始新建。
- 进入新建标签加工作业页面,按要求填写相关信息项后保存即可。详细配置说明参见:数据标签-标签加工
- 选择当前新建的作业,在其列表操作栏点击“调度配置”,按要求填写相关信息项后保存即可。详细配置参见:标签加工-调度配置
- 完成调度配置后,在其列表操作栏点击“上线”,确认后作业即可按调度周期运行;并可在“运维监控-调度管理”查看运行详情。
数据服务加工
平台支持将数据仓库内的数据表、主数据进一步封装为指定行列的API数据服务,以供后续消费使用。主要流程如下:
- 进入数据开发 > 数据服务 界面,点击“新建数据服务”按钮开始新建。
- 进入新建数据服务页面,按要求填写相关信息项后保存即可。详细配置说明参见:数据服务
- 进入服务查看页面,可通过“在线测试”验证服务是否配置正确。
- 对于需要提供消费的数据服务,在其列表操作栏点击“发布”,若所在目录也已发布,即可在数据服务资产供申请访问。
附:推荐系统权限
各类不同分工人员,所需系统权限存在差异,可由空间管理员自定义系统权限,对于数据开发人员,推荐系统权限如下:
模块功能 | 授权 |
---|---|
资源管理-业务系统 | 可选 |
资源管理-数据源管理 | 必选 |
资源管理-数据表管理 | 必选 |
资源管理-文件夹管理 | 可选 |
数据规范(全部) | 可选 |
数据开发-批量数据-数据加工 | 必选 |
数据开发-实时数据-实时数据同步 | 必选 |
数据开发-实时数据-数据信道管理 | 必选 |
数据开发-实时数据-数据信道作业 | 必选 |
数据开发-数据指标 | 必选 |
数据开发-数据标签 | 必选 |
数据开发-数据服务 | 必选 |
数据质检(全部) | 必选 |
数据安全(全部) | 必选 |
数据分析(全部) | 可选 |
数据开放-跨空间共享(全部) | 可选 |
运维监控-运维概览 | 可选 |
运维监控-调度管理 | 必选 |
个人中心-消息通知 | 必选 |