跳到主要内容

FTP文件导入

业务场景

FTP半结构化文件批量同步至平台数仓。

前提条件

  • 平台部署完毕,批量同步服务正常;
  • 用户拥有数据源管理、批量数据模块权限
  • FTP数据库开放JDBC连接。

使用限制

  • 文件限制:暂仅支持csv、压缩文件(gzip,zip, lzo)导入至数仓目标表。

操作流程

第一步:注册FTP数据源

1)在资源管理 > 数据源管理中配置FTP数据源,填写协议、数据库地址、端口、用户名、密码/密钥等信息. 最佳实践 2)连通性测试:点击【测试连通性】,确保数据源连接正常。 最佳实践

第二步:创建目标表

资源管理 > 数据表管理中,通过【新建数据表】,支持以多种方式创建目标表,以“单独建表”为例,依次配置表基础信息、表字段信息,保存即可。 最佳实践

第三步:创建数据加工作业

1)在数据开发 > 批量数据 > 数据加工操作中点击【新建作业】,可选择【FTP导入】节点依次选择来源库、来源、分隔符、已配置的目标表。更多细节配置可查看FTP导入节点介绍。 最佳实践

2)字段映射配置:选择目标表后自动在来源生成相同行数的字段列,若确认目标字段顺序和文件中列顺序一致,可直接通过【顺序映射】自动连线;若字段顺序不一致,请手动将目标字段与正确的来源列连线。

注意

仅导入连线列,若部分列无需导入,可删除列或不连线

最佳实践

3)以上配置完成后,保存即可完成作业创建。在左侧作业列表选择作业并完成调度配置后,再点击【上线】即可上线作业。

第四步:运维监控

1)调度管理:在运维监控_调度管理找到对应作业,点击【查看作业任务】可查看运行详情,主要信息包含作业任务调度明细、各调度的导入数据量、日志下载、节点任务血缘等。 最佳实践 最佳实践 2)告警通知:若需监控作业状态,特别是运行失败,可在个人中心 > 消息通知中配置告警,支持邮件、钉钉群通知。对象类型选择“数据加工”、对象名称填写需监控的作业名称,通知类型选择“作业运行”,作业运行失败时,可发送消息通知。 最佳实践