数据开发中心

功能简介

数据开发中心功能是整个分析平台数据整合的基础,负责整合与维护数据源管理、数据建模、数据开发、发布管理、运维管理等基础数据业务的相关内容。在数据开发中心,您可以进行数据库表连接、数据采集、数据预处理等操作,并设置定时调度,实现相关数据任务的定时执行,完成数据平台的数据开发及数据准备工作。

数据源管理

功能简介

数据源管理功能可以建立平台与所需访问数据源的连接,可以访问多个数据源及多种类型数据库。

新建数据源

点击"创建数据库连接"。

填写数据库相关信息,点击"确定"。

数据源列表中可以查看到已经创建连接的数据库。

点击"授权",选择可以访问的数据开发项目,完成数据库授权。

数据建模

数据目录

数据目录列表收集了在完成数据开发后的各层数据表,在此列表中可以查看所在层的表信息。

点击"查看",可以查看该表的表格结构信息。

数据开发

功能简介

数据开发模块是数据开发中心的核心,以项目为基本执行单位。在项目内,您可以编写基于多种编程语言的脚本,实现数据采集、数据处理等工作,然后通过拖拽连线的方式,构造工作流,实现相关脚本的执行,执行时可设置定时调度实现相关数据开发任务的定时执行。目前数据处理支持离线数据和实时数据开发,离线数据开发中,您可以根据需要,以工作流为基础,通过拖拽连线的方式,构造工作流组,实现相关工作流的执行;实时数据开发的采集方式为常驻执行数据任务,执行过程中在设置的间隔周期内自动采集更新的数据。

创建项目

点击"新建项目"。

填写项目名称等相关信息后,点击"确定"。

完成创建后,点击"配置",选择授权的用户及数据源。

点击"添加用户",可以选择授权的用户。

可以选择该用户的权限:管理员、开发者、访客。

1.管理员:系统管理员创建项目后,可将项目管理员权限赋予某用户时,具备项目配置、项目编辑、项目删除等所有功能;\ 2.开发者:除无法更改项目配置、项目编辑、项目删除等功能外,具备其他的功能使用;

点击"数据源",点击"创建数据库连接"。

点击"添加链接",则可以选择已在数据源管理中添加的数据源。

点击"创建连接",则填写完成数据源相关信息后进行连接,步骤参考数据源管理的相关操作。点击"确定"后,完成项目的创建步骤。

点击界面的"设置参数",可进行全局参数的设置。

点击"确定",即可完成全局参数的创建。

项目编辑

点击项目的名称或者"编辑",进入项目的编辑步骤。

进入项目编辑后,编辑区分大致分为工作流list、编辑脚本选择、脚本编辑区域、工作流信息等区域。

离线数据开发

工作流管理

工作流及分类创建

点击"新增工作流",填写工作流名称,点击"保存",完成工作流创建。

创建完成后,在工作流list上能查看到创建的工作流。

创建工作流分类:

点击"新增工作流分类",填写分类名称,点击"确定",完成创建工作流分类。

工作流编辑

点击工作流,进入编辑状态。

编辑状态

如果脚本正在编辑中,对应工作流图标显示正在编辑中点击工作流或者工作流节点时,其他该工作流节点包括工作流显示为蓝色提醒如果编辑的脚本与后台建立心跳连接失效,用户保存工作流时提示:工作流已经过期,需要重新打开编辑。

同时支持 shell、python、hive等脚本编辑,注意,每个工作流必须包含一个"结束"节点,并可以通过拖拽连线的方式,调整相关脚本的运行方式和顺序。

编辑节点

右击节点,进入该节点脚本编辑。

等待节点

双击节点,进入编辑:

选择依赖的工作流、选择工作流节点,选择执行时间及设置超时时间,保存即可完成编辑。

进入脚本编辑后,可以编写程序,可以设置自定义参数等操作。

点击"日期变量",可以查看系统已定义好的相关日期变量,帮助便捷编程。

点击"保存",完成节点脚本的保存。

相关脚本都编辑完成后,点击工作流的"保存",完成工作流的编辑。

注意:确认此时的保存,为工作流的保存,而不是节点的保存。

工作流执行

点击"手动执行",即可完成工作流执行。

点击"执行记录",查看执行是否成功,绿色为成功,红色为失败。

点击"查看日志",链接到 "运维管理" -> "任务执行管理"。

工作流调度

设置工作调度,可以自动定时运行工作流,完成任务。

点击"调度配置",设置需要调度的时间。

点击设置"设置定时调度",完成调度。

注意:设置定时调度后,工作流无法编辑,必须点击"取消调度"后才能进行编辑。

工作流下载与上传

点击"工作流下载",即可将此工作流以zip格式下载到本地。

点击"上传工作流",选择需要的工作流,即可将在本地的工作流上传到此工作流中。

工作流版本管理

点击版本记录时,弹框显示工作流版本记录,点击,填写版本号和备注说明,确认后可以增加一个版本。点击应用时可应用该版本为最新版本。

工作流组管理

工作流组,是将工作流配置到组,通过组的方式整合执行工作流。组的编辑与工作流编辑方式类似,通过拖拽连线的方式,调整各工作流的执行顺序,并可设置定时调度,自动定时启动任务。

工作流组及分类创建

创建方式与工作流类似,分别点击"新增工作流组"、"新增工作流组分类",填写名称,点击"保存",即可完成创建。

工作流组编辑

工作流组编辑方式与工作流编辑方式类似,皆通过拖拽连线方式完成。

如图,点击所在工作流组,即可进行编辑。

拖拽已经编辑好的工作流,设置各节点连线,点击"保存",完成组的编辑。

等待节点

编辑方式与工作流相同,拖拽工作流组的等待节点到编辑界面,双击进入编辑,选择需要依赖的工作流组、依赖工作流、工作流节点,选择相应的执行时间以及超时时长,点击保存,即可完成。

工作流组执行

点击"手动执行",即可完成工作流组的执行。与工作流执行一样,工作流组可以设置定时调度、查看执行记录、查看日志等操作。

告警设置

告警类别有任务执行或失败、任务超时预警和自定义三种,告警功能当前只支持调度执行的任务运行情况,只有当任务是被调度执行时,告警设置才会生效。

钉钉告警设置

第一步:选择需要告警的工作流任务或者工作流组任务,并选择API告警。

第二步:点击图1中的"添加一个API告警" 。

第三步:打开钉钉,选择一个需要将告警信息通知到的人创建一个群,并在钉钉群中选择添加"智能群助手"。

第四步:点击"智能群助手"功能,添加"task失败告警"。

第五步:点击"task失败告警",设置机器人名称,将webhook复制到剪切板,并且设置"自定义关键词",该关键词需要注意发出的告警信息里必须包含该关键词,否则告警无法发出。点击"完成"。

第六步:将剪切板中的内容粘贴到工作流任务中"第二步"所显示中的UIL中,请求方式选择"post",选择需要告警的类型。添加告警内容。然后点击保存。

第七步:设置定时调度,完成钉钉API告警设置。

第八步:钉钉API告警结果。

注意事项:

1. 告警机器人设置步骤中需要注意"自定义关键词",告警信息中必须包 含该关键词,否则告警信息无法发送;

2. 手动执行任务无法发出告警信息,只有周期调度才能发出告警信息。所以需要设置周期调度告警才能生效;

3.如图所示中的告警模板可以手动编辑告警输出的内容,其中${msg}是必须存在的,不可以删除掉。

邮箱告警设置

第一步:选择需要告警的工作流任务或者工作流组任务,并选择邮件告警。

第二步:输入告警信息发送到的目标邮箱,选择告警类型,点击保存。

第三步:设置周期调度,完成邮箱告警设置。

注意:如果需要发送到多个邮箱,各邮箱之间使用逗号隔开。

第四步:邮箱告警结果。

实时数据开发

工作流管理

工作流编辑

点击工作流,进入编辑状态。

工作流使用拖拽方式编辑,当前支持 kafka、mysql、oracle、redis等脚本输入配置。点击'常驻执行'即启动工作流,将会根据设置的采集间隔时间自动采集最新数据。点击'查看日志'执行列表会跳转到对应工作流的日志。若要停止采集任务,点击'停止常驻任务'即终止当前任务,需要稍等几秒才会更新状态。

注意:每个工作流都必须加上[默认清洗节点配置],否则一开启任务便执行失败。

例如:通过mysql输入配置进行实时数据采集

如上图,单击节点[mysql输入配置],下方展示mysql输入设置列表。填入项[递增列名]为数据的采集顺序,一般常用源表里的字段'id',按升序进行采集。填入项[查询间隔]为设置更新数据的周期间隔时间,比如设置5秒,则每5秒更新一次新表里的数据结果。

注意:设置完成后,须点击'保存配置',忘记保存后再次进入设置页会清空之前的信息!

工作流执行

点击"常驻执行",即可启动采集任务,执行中可查看日志详情。

如上图,点击'查看日志'后进入日志列表,点击'详情'可查看数据采集的实时日志。

发布管理

功能简介

发布管理-项目克隆包管理,目前可以支持克隆包管理、克隆包导入等功能,支持选择对应目录导入克隆包,支持工作流追加,支持批量下载及上传工作流,暂不支持更新工作流。

创建克隆包

创建克隆包,查看所有项目,所有工作流基本信息,包括(项目名称、工作流名称、创建人、创建时间、最近一次修改时间)。

点击,选择需要克隆的工作流, 点击,填写克隆包名称和描述,点击确认后,保存的克隆包将保存到克隆列表中。

可以下载或者删除对应目录下的克隆包。

上传克隆包

逻辑说明:增加发布管理(克隆包管理,支持克隆包管理、克隆包导入[本期支持选择对应目录导入克隆包],支持工作流追加,暂不支持更新工作流)

操作:点击导入,选择需要导入文件,填写克隆包名称,选择应用项目、应用工作流、应用目录和描述,确认后可以完成导入。

运维管理

功能简介

运维管理功能有周期调度管理、任务执行管理、执行器管理等模块,实现数据开发中心项目的统一调度与管理,可以有序有效的管理开发项目的执行。

周期调度管理

调度关系

调度关系是用来展示数据开发中同一项目下工作流之间前后关联的关系图。前后依赖作用设置在工作流执行节点的[等待]节点中,我们必须进入到[等待]节点的编辑页才能查看到依赖节点,该功能则可以清晰展示前后依赖的具体情况,方便用户快速理清工作流之间的相互关系。

例如工作流'3'中设置两个[等待]节点,第一个关联工作流'1'的'python脚本',第二个关联工作流'2'的'Mysql脚本',则关系图如下所示,工作流'1''2'部分节点的成功执行是完成工作流'3'的前置任务。

工作流与工作流组

数据开发项目中的工作流或者工作流组,设置完定时调度后,在周期调度管理列表中可以查看整个数据开发中心的调度任务。

通过点击"批量取消"、"批量暂停"、"批量启动"等按钮,可对多个任务进行操作。通过点击任务list上单个任务的"取消"、"编辑"、"暂停"等按钮,可对单个任务进行操作。

任务执行管理

点击"正在执行",可以查看当前正在执行的任务。

点击"执行历史",可以查看整个数据开发中心任务执行的历史记录。

点击"查看日志",可以查看当前任务的工作流脚本状态。

点击"日志详情",可以查看当前执行中脚本的日志。

执行器管理

执行器管理可以完成执行器的查看、编辑、删除等操作。

点击"添加"按钮,可以根据配置环境,填写相关信息,完成执行器的添加。

点击"查看"按钮,可以查看到执行器的状态。

点击"编辑"按钮,可以修改执行器的信息及状态。

© 广东数果 all right reserved,powered by Gitbook问题反馈邮件:developer@sugo.io 2020-09-04 14:07:21

results matching ""

    No results matching ""