跳到主要内容

数据开发

核心能力概述

数据开发主要完成平台数据仓库内部数据的分层开发治理,为后续数据开放、数据分析提供高质量的治理数据。
本文以数据加工、指标加工、标签加工、服务加工,四类资产的加工为例,介绍平台数据开发的核心能力。

  • 前置工作:已完成数据集成工作,原始数据已入仓等待加工处理。

快速使用指引

批量数据加工

平台支持以加工作业的方式进行数据加工,并提供多种类型的加工节点。以“SQL加工”为例,主要流程如下:

  1. 进入数据开发 > 批量数据 > 数据加工界面,点击“操作 > 新建作业”按钮,并按要求完成作业基本信息填写后保存即可新建数据加工作业。 新建作业
  2. 在新建的作业画布上,拖入“SQL加工”节点,并双击“SQL加工”节点,进入节点配置页面,根据开发需要完成SQL编写。详细配置说明参见:加工节点-SQL加工
    SQL加工
  3. 选择当前新建的作业,画布右上角点击“调度配置”,按要求填写相关信息项后保存即可。详细配置参见:加工作业-调度配置
  4. 完成调度配置后,画布右上角点击“上线”,确认后作业即可按调度周期运行;并可在“运维监控-调度管理”查看运行详情。

流式数据加工

对于时效性要求较高的流式数据,可选择流式数据加工作业的方式完成数据开发治理。以第三方Kafka数据源的数据加工为例,主要流程如下:

  • 前置条件:已完成所需Kafka数据源注册,并测试连通性通过。
  1. 进入数据开发 > 实时数据 > 数据信道管理界面,点击“新建Topic”按钮,选择对应消息类型开始新建信道。 数据信道管理
  2. 进入新建信道页面,按要求填写相关信息项后保存即可。单消息信道、多消息信道配置存在差异,详细配置说明参见:数据信道管理-信道配置数据信道管理
  3. 进入数据开发 > 实时数据 > 流式数据加工界面,点击“新建流式数据加工作业”按钮开始新建流式加工作业。 数据信道作业
  4. 进入新建流式加工作业页面,按要求填写相关信息项后保存即可。详细配置说明参见:实时数据-流式数据加工数据信道作业
  5. 完成作业配置后,在其作业操作栏点击“运行”按钮,作业即可持续性实时加工处理数据;并可通过点击“运行详情”查看运行进度等信息。 数据集成

数据指标加工

平台支持将已治理好的DWD、DWS、ADM层级数据表的数据进一步加工为指标,以供后续消费使用。主要流程如下

  1. 进入数据开发 > 数据指标 > 指标加工界面,点击左侧目录“操作 > 新建原子指标”按钮,并按要求完成作业基本信息填写后保存即可新建原子指标。 详细配置参见:指标加工-原子指标
    指标加工
    指标加工
  2. 选择刚刚已创建的原子指标后方的“新建加工作业”图标即可在右侧画布配置派生指标加工规则,填写完成后右上角保存。详细配置参见:指标加工-加工作业指标加工
    指标加工
  3. 选择当前新建的作业,画布右上角点击“调度配置”,按要求填写相关信息项后保存即可。详细配置参见:指标加工-调度配置
  4. 完成调度配置后,画布右上角点击“上线”,确认后作业即可按调度周期运行;并可在“运维监控-调度管理”查看运行详情。

数据标签加工

平台支持将数据仓库内的数据表的数据进一步打上标签,以供后续消费使用。主要流程如下:

  1. 进入数据开发 > 数据标签 > 标签加工界面,点击“新建标签加工”按钮开始新建。 标签开发
  2. 进入新建标签加工作业页面,按要求填写相关信息项后保存即可。详细配置说明参见:数据标签-标签加工标签开发
  3. 选择当前新建的作业,在其列表操作栏点击“调度配置”,按要求填写相关信息项后保存即可。详细配置参见:标签加工-调度配置
  4. 完成调度配置后,在其列表操作栏点击“上线”,确认后作业即可按调度周期运行;并可在“运维监控-调度管理”查看运行详情。

数据服务加工

平台支持将数据仓库内的数据表、主数据进一步封装为指定行列的API数据服务,以供后续消费使用。主要流程如下:

  1. 进入数据开发 > 数据服务 界面,点击“新建数据服务”按钮开始新建。 数据服务
  2. 进入新建数据服务页面,按要求填写相关信息项后保存即可。详细配置说明参见:数据服务数据服务数据服务
  3. 进入服务查看页面,可通过“在线测试”验证服务是否配置正确。 数据服务
  4. 对于需要提供消费的数据服务,在其列表操作栏点击“发布”,若所在目录也已发布,即可在数据服务资产供申请访问。

附:推荐系统权限
各类不同分工人员,所需系统权限存在差异,可由空间管理员自定义系统权限,对于数据开发人员,推荐系统权限如下:

模块功能授权
资源管理-业务系统可选
资源管理-数据源管理必选
资源管理-数据表管理必选
资源管理-文件夹管理可选
数据规范(全部)可选
数据开发-批量数据-数据加工必选
数据开发-实时数据-实时数据同步必选
数据开发-实时数据-数据信道管理必选
数据开发-实时数据-数据信道作业必选
数据开发-数据指标必选
数据开发-数据标签必选
数据开发-数据服务必选
数据质检(全部)必选
数据安全(全部)必选
数据分析(全部)可选
数据开放-跨空间共享(全部)可选
运维监控-运维概览可选
运维监控-调度管理必选
个人中心-消息通知必选