超管视角
- 工作空间
工作空间作为成员管理、权限分配、数据治理的基本单元,不同工作空间的数据集成、数据开发均相互独立,数据开放中提供跨空间数据共享能力;
用户只有在加入工作空间并被分配权限后,才可具备资源管理、数据规范、数据开发、数据质检、数据安全、数据分析和数据开放等功能模块的操作权限。 - 空间管理
每个工作空间均拥有唯一一名空间管理员,该用户拥有当前空间的所有权限,主要负责用户、权限以及消费审批管理。 - 空间用户
即工作空间内的用户,分为空间管理员以及其它普通用户,普通用户的权限由空间管理员授予。 - 超级管理员
在部署的同一套平台内,有且仅有一名超级管理员,负责跨工作空间的相关系统配置,主要包含空间管理、指定空间管理员。 - 字段映射
任意两张结构化数据表的数据同步过程中,将来源表与目标表中的字段进行匹配映射,确保数据能从源字段同步到目标字段,保证数据同步的准确性。 - 数据库
“数据库” 是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。数据库管理系统主要分为关系型数据库和非关系型数据库两类。关系数据库是创建在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理数据库中的数据。非关系型数据库也被称为 NoSQL 数据库,NoSQL 并不是某个具体数据库,它泛指所有非关系型数据库。 - 数据仓库
数据仓库的概念最早来源于数据库领域,主要处理面向数据的复杂查询和分析场景。目前对数据仓库的主流定义是位于多个数据库上的大容量存储库,数据仓库系统能实现跨业务条线、跨系统的数据整合,为管理分析和业务决策提供统一的数据支持。 - 数据库集群
数据库集群(Database Cluster)是一种将多个数据库服务器连接在一起,以提供高性能、高可用性和可扩展性的系统架构。在数据库集群中,多个数据库节点(服务器)协同工作,共同管理数据和处理请求。 - 中间件
位于操作系统和应用程序之间的软件层,它提供了不同应用程序之间或者分布式系统中不同节点之间的通信和数据交换的功能。中间件通常封装了网络通信的复杂性,提供了数据的传输、路由、转换和处理等服务,使得开发者可以专注于业务逻辑的实现,而不必处理底层的网络编程细节。平台使用的中间件包含redis、zookeeper等。 - 网关
网关(Gateway)是网络中的一个重要组件,它在不同的网络或系统之间起到连接和中介的作用。网关的主要功能是作为一个通信节点,允许不同网络协议、数据格式或架构之间的数据交换和传输。
资源管理
- 数据源
“数据源”是指原始数据的来源,这些数据源可以包括企业的业务系统、数据库、文件系统等。通过数据源汇聚各种数据,为后续的数据加工、分析和应用提供原材料。 - 数据源驱动
用于建立、管理和维护应用程序与数据库之间的通信和数据交换,同一类型数据库的不同版本,往往也需要对应的驱动,确保连接成功。 - 主键
“主键”(Primary Key)是数据库表中用于唯一标识每个记录的字段或字段组合,有助于确保数据的组织和管理的效率和准确性。主键字段的值必须唯一,不能有重复,且不能为null。 - 索引
“索引”(Index)是一种特殊的数据库对象,它用于提高数据库查询和检索数据的效率。索引的作用类似于书籍中的目录,它可以帮助数据库管理系统快速找到数据,而不需要扫描整个表。 - 分区
分区是一种优化数据库性能和管理数据的重要技术,它将一个大型表按照某种规则分割成多个逻辑子表,每个子表称为一个分区。分区的主要作用包括提升查询性能、简化数据处理。 - 数据分布
将数据存储在多个物理节点上的方式,以提高系统的可用性、可扩展性和容错性,数据分布配置可提高数据访问效率,平台提供复制(Replication)、哈希(Hash)两种分布方式。 - 行存
行存储是传统的关系型数据库的存储方式,数据按行的方式存储在磁盘上,每行数据的所有列都连续存放在一起,更适用于TP场景。 - 列存
列存储是数据仓库和某些NoSQL数据库的常用存储方式,数据按列的方式存储,即表的每个列数据单独存储,更适用于AP场景。 - 数仓层级
数仓层级架构是为了有效管理和分析大量数据而设计的,通常包括以下几个层级,每个层级都有其特定的作用和目的:
STG(Staging Area):缓冲层,STG层是数据从源系统抽取后的临时存放区域,一般要求与源数据结构保持一致。
ODS(Operational Data Store):操作层,ODS层通常存储经过初步处理的数据,这些数据比原始数据更加干净、一致,但仍然保持较高的细节级别,可以在此层对增量数据或者关联表数据进行合并。
DWD(Data Warehouse Detail):明细层,DWD层是数据仓库的细节层,包含了经过清洗、整合的详细数据。这些数据通常按照业务主题组织,并且已经处理了数据质量问题,如空值、异常值等。为了提高数据明细层的易用性,该层会采用一些维度退化方法,将维度退化至事实表中,减少事实表和维表的关联。
DWS(Data Warehouse Summary):汇总层,该层会在 DWD 层的数据基础上,对数据做轻度的聚合操作,生成一系列的中间表,提升公共指标的复用性,减少重复加工。直观来讲,就是对通用的核心维度进行聚合操作,算出相应的统计指标。
ADM(Application Data Manager):应用层,面向实际的数据需求,可以直接给业务人员使用,以 DWD 或者 DWS 层的数据为基础,组成各种统计报表。 - 资源标签
一种为各类实体提供属性扩展的手段,用于标识和分类,可提高数据检索效率。
数据规范
- 标准字段
"标准字段"(Standard Field)是指那些遵循特定格式、定义和用途的字段。标准字段的作用包括但不限于:规范字段命名、字段类型、值域、字段长度、精度等,从元数据层面规范数据。 - 主数据
主数据(Master Data)指在多个信息系统或功能模块中被共用的基础性、标准化数据。这些数据对企业核心业务非常重要,具有唯一性、共享性、更高的稳定性和有效性的特点。
数据开发
- 作业
包含一套完整的加工和调度的逻辑,本质是用来处理数据,如数据集成作业、数据加工作业、指标加工作业、标签加工作业。 - 节点
系统内置的数据开发组件,如“库表导入”、“sql加工”、“库表导出”,统称为节点。 - DAG
多个节点通过连线的方式组成的有向无环图。 - 血缘
以可视化图谱的形式展现数据治理全生命周期过程中的流向,常用于数据溯源。 - 补数据
完成周期任务的开发,将任务提交发布之后,任务会按照调度配置定时运行。如果您希望对历史时间段内的数据进行计算,您可以使用补数据功能。补数据操作生成的补数据实例将按照指定的业务日期运行。 - 时钟触发
作业调度的方式之一,作业按照指定的调度时间、调度频率,进行周期性调度运行。 - 事件触发
作业的调度方式之一, 不以特定的时间点进行周期性触发调度,而是将时间之外的其它事件作为调度的触发机制,如某个作业运行完毕即触发当前作业调度,或某数据表的数据量变化达到阈值,触发调度。该方式可有效避免无效的周期性冗余调度。 - 信道(topic)
信道(Topic)在物联网中的作用是实现设备间高效、灵活、可靠的数据交互,支持各种通信需求,从基础的设备管理到复杂的数据处理和命令执行。 - 原子指标(Atomic Metric)
原子指标是最基础的业务度量单位,不可再分,直接量化反映业务的核心动作或状态。它们通常是原始记录的量化表现,代表了业务中最基本的业务单元行为或结果。例如,在电商领域中,“订单数”就是一个原子指标,它直接反映了用户在平台上完成购买商品这一核心行为产生的订单数。 - 派生指标(Derived Metric)
派生指标是在原子指标或复合指标的基础上,结合维度、时间周期、统计属性等附加条件形成的新指标,用来表达更具体的业务场景或趋势变化。派生指标=原子指标+业务限定(做筛选)+统计周期+维度的组合(统计粒度)。例如,在金融分析中,“最近30天活跃用户数”是一个派生指标,它不仅包含了原子指标“用户活跃数”,还限定了时间维度(最近30天),用来评估短期内用户的活跃程度。 - 复合指标(Composite Metric)
复合指标是由两个或多个基础指标通过特定的数学运算(例如加减乘除、比例计算等)构建出来的复杂指标,用来衡量更深层次的业务状况或效果。例如,在零售行业,“客单价”就是一个复合指标,它是通过“总销售额”除以“顾客总数”得到的,即客单价 = 总销售额 / 顾客总数。 - 维度(Dimension)
维度是用来描述和分类数据的属性或特征,通常属于原子指标定义的一部分。它们提供了数据分析的不同视角,允许用户根据这些属性来分组、筛选和组织数据。维度通常是非数值型的数据,用于对度量进行切片、筛选和分段。例如,在“GDP”原子指标的定义中,维度字段一般选择地区、行业。 - 度量(Measure)
度量是可以在维度上进行计算的数值型数据,通常属于原子指标定义的一部分。它们通常反映了业务的关键性能指标(KPIs),是数据分析的主要焦点。度量可以进行求和、平均、计数、最大/最小值等计算。例如在“GDP”原子指标中,度量一般选择能体现GDP数值的字段。 - 数据标签
数据标签是对数据进行注释和标记,以赋予数据更多的上下文和含义。数据标签通常用于机器学习中,为模型提供训练所需的分类信息,如图像识别中的对象标签、文本情感分析的情感标签等。
数据质检
- 命中列(行)
数据质检的本质是依据特定的质检规则对结构化数据表进行扫描,符合质检规则的列、行即为“命中列(行)”。
数据安全
- 水印
特指结构化数据水印,是一种信息隐藏技术,将特定的标识信息通过一定的规则和算法嵌入到结构化数据中,嵌入的水印信息不会显著改变数据的使用价值,且对数据的存储和处理影响很小。结构化数据水印主要用于版权保护和数据流出后的追踪溯源。
数据分析
- 业务卡片
业务卡片是基于数据探查的结果数据集,通过拖拽的方式配置成常用的报表统计图,并可保存为卡片形式,每个卡片中仅有一个图表,可供随时预览。 - 业务面板
业务面板是由多个业务卡片及基础组件自由组合而成的综合性报表面板,方便用户通过一个面板全面了解分析对象的各维度统计分析。
数据开放
- 本空间资产
在平台中,治理后的数据以资产编目的方式供用户消费,“本空间资产”仅对当前工作空间内的用户可见。 - 跨空间资产
相对于“本空间资产”,“跨空间资产”即对所有空间用户可见,适用于多部门间的数据共享。 - 数据元件
在平台中,将满足更高的质检评分要求、更高的数据规范要求的资产定义为高质量资产,即数据元件。 - 智能消费
结合AI大模型能力,用户可直接通过输入自然语言,跨表取数,并以视图模式进行消费。 - 订阅
一种对数据资产的操作,订阅任意资产后,当该资产发生变化,订阅者可及时获取消息通知,便于快速掌握数据变化。 - AKSK
AK/SK 是一种身份认证方式,常用于系统间接口调用时的身份验证,其中 AK 为 Access Key ID,SK 为 Secret Access Key。客户端和服务端两者会协商保存一份相同的 SK,其中 SK 必须保密。在平台中,数据资源申请审批通过后需使用 AK/SK 认证,才能完成 API 的调用。
运维监控
- 作业任务
作业的单次运行称为“作业任务”。 - 节点任务
节点的单次运行成为“节点任务”。
系统管理
- 目录
以特定的国家标准、行业标准对数据进行分类管理,一般支持多级目录。 - 质量特性
评估数据质量的重要维度,一般以特定的使用目的进行分类,包括但不限于完整性(Completeness)、唯一性(Uniqueness)、一致性(Consistency)、准确性(Accuracy)、有效性(Validity)、及时性(Timeliness)。 - 数据分级
数据分级是根据数据的敏感性、重要性以及潜在风险等因素,将数据按照一定的标准分为不同的级别。这样做的目的是为了更有效地保护数据,确保数据的安全性和合规性。 - 主机
在平台中,特指shell、java、python开发脚本执行的对象环境。 - 队列
在调度任务系统中,队列(Queue)是一个按照特定顺序管理作业任务的列表,队列中的作业任务需要按照顺序执行,本质是为了避免大量的作业并发执行,产生资源与性能压力。