文件同步
使用场景:用户需要将非结构化数据入仓时,可通过文件同步作业将FTP数据源中文件自动原样同步至指定文件夹。
使用角色:数据开发人员。
功能描述:平台文件同步作业构建能力,通过配置文件来源去向、同步策略、调度周期等信息后即可实现文件定时、自动同步入仓。
分组配置
进入资源管理 > 文件管理 > 文件同步界面,点击左侧目录栏中“新建”按钮,根据页面内容填写信息后“保存”即可。
- 支持同级分组拖拽移动排序;
- 可直接在新建分组时关联作业,一个作业只能同时关联一个分组,新建分组页面展示所有未关联分组的作业;
- 若作业未关联分组,则无法通过分组树过滤出对应作业,需在列表中自行搜索所需的未分组作业。
配置作业
新建
- 进入资源管理 > 文件管理 > 文件同步界面,点击“新建文件同步作业”按钮,在新建界面按要求填写相关配置后“保存”即可。

基本信息
- 名称:必填,用户根据实际业务场景手动输入作业名称,支持中英文,空间内不允许重复;
- 所属分组:非必填,下拉配置作业所属分组;
- 描述:非必填,填写该作业的描述信息。
同步配置
文件来源
- 来源库:必选,下拉选择数据来源FTP数据库;
注意- 若已开启“资源权限管控”,则来源数据库不再展示当前操作用户无权限的数据源
- 文件同步仅支持选择FTP类型数据源
- 来源:必填,手动输入所选来源库中的文件完整路径或目录路径,当前为对象存储,支持的任意文件格式
文件去向
目标:必填,下拉选择仓内文件夹,可检索文件夹名称;文件夹支持按层级显示子文件夹,即可选择某个文件夹的子文件夹作为目标;
同名文件:必选,默认选择增量保留,系统自动检测同名文件是否发生变更,未变更文件将直接跳过,已变更文件将按所选策略增量处理,但不会进行删除操作,如来源删除某文件,不会在同步时删除历史已同步的该文件。
保留:若已存在文件A,上传的文件中包含同名文件A,则后上传的文件名改为A(1),若后续仍有同名文件则上传后名称变为A(2),依此类推;
覆盖:对已有同名文件直接做覆盖。文件夹同名处理策略:
①存在同名文件夹:不重复创建文件夹,直接使用,将其中所有文件夹及文件上传至同名文件夹中;
②不存在同名文件夹:自动创建同名文件夹并将其中所有文件夹及文件上传至新创建文件夹中;
③同名文件夹中的同名文件:按所选同名文件策略处理;
- 若开启业务权限管控,目标文件夹会自动过滤掉当前操作用户无读写权限文件夹;且保存时会校验作业运行人是否拥有目标文件夹的对应业务权限,校验通过方可保存成功。
高级配置
- 并发数:非必填,默认不并发,“来源”为目录时可支持填写值域1-5正整数,从而实现多个文件并发导入以提升数据集成速度,反之单个文件时并发数设置不生效。
注意- 设置并发数后会在运行时按所设数量并发执行,但效率提升不是简单的线性相乘,会受多方面因素影响,如并发5,速度不会直接提升至5倍,可能在3.5-5倍之间。
- 并发数过高可能对来源库造成过大压力,导致链接失败,请谨慎设置并发数值。
- 文件过滤:非必填,可填写“正则表达式”进行文件名匹配,仅导入匹配成功的文件;支持配置多个规则,中间使用“,”分隔。
- 时间过滤:非必填,填写后仅导入“文件修改时间”在所设时间范围内的文件
- 支持输入具体时间进行过滤,格式为:yyyy-MM-dd HH:mm:ss;或引用作业参数,格式为:#{param}
- 支持开始结束时间可仅填写一个,如仅填写开始时间,则从开始时间起进行导入;仅填写结束时间,则仅导入截止结束时间的文件数据
作业参数
规则参数用于高级配置中“时间过滤”获取动态参数,该参数通常可以设置业务时间,运行时间等参数,通过填写固定值、表达式来支持该参数。
在作业参数配置界面填写参数名、参数值或表达式后,点击页面下方的“保存”按钮即可。
- 参数可以设置固定值或动态取值的表达式,不同类型参数表达式格式要求不同。
时间表达式说明
以当前时间为2019年09月01日,任务每天01:30:00定时运行,时间作业参数的赋值情况,具体如下表:
说明:假设代码引用方式均为 pt=${datetime}
| 时间概念(参数名) | 值引用格式 | 参数值 | 参数赋值 | 参数替换结果 |
|---|---|---|---|---|
| 计划执行时间(planTime):根据调度配置计算的任务实例计划执行时间 | 中括号[]引用计划执行时间 | datetime=#{planTime} | ||
| 业务时间(bizdate):计划执行时间的前一天 | 中括号{}引用计划执行时间 | datetime=#{bizdate} |
- 时间概念中的名称即为“规则参数”中的“参数名”,可用户自定义,不要求严格为:planTime、bizdate,也可为如示例中的datetime;
- 两种时间概念主要通过参数值的配置引用格式区分,使用[]则可获取计划执行时间,使用{}则可获取计划执行时间的前一天,由系统自动-1D,无需在参数值中配置;
- 参数值中的时间格式,除表格示例外,也支持:'yyyy-MM-dd'、'yyyy-MM-dd HH:mm:ss';
- 时间的加减:[yyyyMMdd]-1D,该日期减一天,即2019-08-31 00:00:00;{yyyyMMdd}+2D,该日期加2天,即2019-09-02 00:00:00;
- 时间加减所用单位为:m(分钟)、H(小时)、D(天)、M(月)、Y(年);如减一年,则为[yyyyMMdd]-1Y
修改
进入资源管理 > 文件管理 > 文件同步界面,选中目标文件同步作业,点击操作栏“修改”按钮即可修改。
- 作业未上线方可修改;
- 若“资源权限”已开启,需拥有对应作业的“可操作”权限方可修改。
删除
进入资源管理 > 文件管理 > 文件同步界面,选中目标文件同步作业,点击操作栏“删除”按钮,二次确认后即可删除。
- 作业未上线方可删除;
- 若“资源权限”已开启,需拥有对应作业的“可操作”权限方可删除;
- 删除作业后不会同步删除该作业同步的文件。
调度配置
使用场景:用户通过周期性调度实现持续的文件同步。
使用角色:数据开发人员。
功能描述:平台支持时钟触发的方式,为文件同步作业提供统一调度。支持分钟、小时、日、周、月不同粒度的调度频率,实现周期性调度管理。
进入资源管理 > 文件管理 > 文件同步界面,选中目标文件同步作业,点击操作栏“调度配置”按钮,在弹窗中填写页面信息后“保存”即可。
时钟触发
- 生效日期:在该日期区间调度配置正常运行,否则自动下线该流程;
- 永久生效:勾选后作业永久生效,生效日期置灰无需填写,取消勾选后则生效日期必填;
- 配置方式:默认,仅可界面化选择统一的调度周期进行配置;cron表达式,灵活自定义cron表达式,可支持不同调度周期混合配置
- 调度周期:可选分钟、小时、日、周、月,请选择合适的周期进行配置;
- cron表达式:直接输入多个表达式,回车分隔,最多支持10个不重复的表达式,不支持秒级表达式
- 具体时间:在生效日期范围内,作业调度具体开始时间,精确到小时、分钟,部分周期支持配置时间间隔;
- 超时时间:当调度任务运行起来后,在该超时时间范围内必须运行完成,否则则认定为超时并强制结束该任务;
- 未来5次执行时间:时钟触发配置完成后,自动生成未来5次的调度时间,用以预览配置是否符合期望。
- 调度周期为日、周、月时,可选择多个具体时间,最多支持设置10个不重复的具体时间,即可存在10个cron表达式,注意“1日、2日、3日10:00”为1个cron表达式;
- cron表达式仅支持填写5位,即具体是“分钟、小时、天、月、星期”,请勿填写“秒”,且表达式不支持填写“w、#”写法
- cron表达式配置多个时请注意是否会有时间重叠,否则可能出现同一个时间点重复调度多次。
常规写法示例如下:
| Cron表达式 | 执行频率说明 |
|---|---|
0/5 * * * ? | 每5分钟执行一次 |
0 12 * * ? | 每天中午12点执行 |
0 12 ? * WED | 每周三中午12点执行 |
0 0 1 * ? | 每月1号凌晨0点执行 |
0 0 1 1 ? | 每年1月1号凌晨0点执行 |
0 12 1 * ? | 每月1号中午12点执行 |
0/30 9-17 * * MON-FRI | 工作日(周一至五)9:00-17:00每半小时执行 |
0 10,14,16 * * ? | 每天10点、14点、16点执行 |
0 12 ? * 6L | 每月最后一个星期六中午12点执行 |
0 12 * * ? | 每天中午12点执行 |
* * * 5-6 * | 5月-6月每小时执行一次 |
0 12 L * ? | 每月最后一天12点执行 |
运行策略
- 作业运行人:必填,默认当前创建人,新建时不可修改,后续只可由空间管理员修改;作业运行时会以作业运行人的数据库账号进行校验并执行作业任务,若存在作业运行人无权限数据表,则作业运行失败
- 作业优先级:必填,默认为高,当多个任务在等待队列排队时,队列槽位释放后,级别高的任务会优先进入运行队列执行;即首先按优先级调度任务,同一优先级按时间顺序调度任务;调整优先级不影响当前排队任务,下一调度生效
- 运行队列:必填,提供默认队列作为默认值,可选择已配置队列,无权限队列则过滤不显示;当多个作业并发运行时,超过队列槽位数的作业任务会排队等待;立即运行,未配置队列时使用默认队列执行任务
- 队列最大等待时长:非必填,仅可填写整数,超过等待时长的任务自动取消排队,不再执行,可清空不填则为永久等待直至进入运行队列;未设置则一直排队,不会自动取消(说明:立即运行默认最大等待时长60分钟;补数据未配置时默认最大等待时长为永久)
- 调度冲突策略:自身作业多个调度任务实例堆积时的处理策略;默认为等待,即后续任务实例排队等待前面任务实例运行完成方才运行;忽略,则后续任务实例自动忽略取消运行,直至不再堆积后新的任务实例才会按计划运行
- 失败重试次数:作业级失败重试,默认为0,即不重试,最大可配置重试5次。
立即运行
完成作业配置后,在“修改作业、查看作业”界面,或列表操作栏,均可点击 “立即运行” 即可对文件同步进行真实运行,运行结束后对应界面最下方会反馈执行信息与执行结果,并在资源管理 > 文件管理 > 文件夹管理查看已同步的文件。
- 上线状态也可立即运行;
- 若“资源权限”已开启,需拥有对应作业的“可操作”权限方可立即运行。
上下线
平台可通过在文件同步界面可手动调整作业状态,需要完成作业新建以及调度周期配置后作业方可上线,上线后作业按调度周期运行。作业下线后用户可重新对当前作业进行修改、调度周期配置等操作,下线后作业需重新上线方可运行。
- 若“资源权限”已开启,需拥有对应作业的“可操作”权限方可操作;
- 当存在运行中的任务,点击“下线”会提示用户是否终止正在运行中的任务,可按需选择;
- 文件同步作业可在运维监控 > 调度管理查看调度详情。
