[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN109669976B - 基于etl的数据服务方法及设备 - Google Patents

基于etl的数据服务方法及设备 Download PDF

Info

Publication number
CN109669976B
CN109669976B CN201811397715.XA CN201811397715A CN109669976B CN 109669976 B CN109669976 B CN 109669976B CN 201811397715 A CN201811397715 A CN 201811397715A CN 109669976 B CN109669976 B CN 109669976B
Authority
CN
China
Prior art keywords
data
etl
node
conversion
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811397715.XA
Other languages
English (en)
Other versions
CN109669976A (zh
Inventor
付铨
梅纲
张勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Dream Database Co ltd
Original Assignee
Wuhan Dameng Database Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Dameng Database Co Ltd filed Critical Wuhan Dameng Database Co Ltd
Priority to CN201811397715.XA priority Critical patent/CN109669976B/zh
Publication of CN109669976A publication Critical patent/CN109669976A/zh
Application granted granted Critical
Publication of CN109669976B publication Critical patent/CN109669976B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种基于ETL的数据服务方法及设备。其中,所述方法包括:从多种数据源获取数据,数据源包括数据库、文件、WebService数据服务等,将获取的数据发送至ETL数据交换平台;采用图形化的数据清洗、整合组件对获取到的数据进行清洗转换整合,得到加工处理后的数据结果;在ETL数据交换平台上对所述数据结果提供ETL WebService形式的数据服务,并进行WebService发布。上述的整个过程一站式整合并完成。本发明实施例提供的基于ETL的数据服务方法及设备,可以一站式地将数据获取、清洗转换与数据发布服务有机结合起来,使得整个数据的获取及发布流程操作方便,部署简单,起到了最大化利用信息资源的效果。

Description

基于ETL的数据服务方法及设备
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种基于ETL的数据服务方法及设备。
背景技术
信息是现代企业的重要资源,是企业运用科学管理、决策分析的基础。企业如何通过各种技术手段简便、高效、最大化地利用现有的数据资源,减少时间和资金的浪费,把数据转换为信息、知识,已经成了提高其核心竞争力的重要方法。ETL(Extract-Transform-Load)和分布式应用程序平台(例如,WebService平台,本发明实施例主要针对该平台)则是主要的技术手段。
ETL用来将数据从来源端经过抽取(Extract)、交互转换(Transform)、加载(Load)至目的端的过程。ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
WebService是一个平台独立的,低耦合的,自包含的、基于可编程的Web的应用程序,可使用开放的XML标准来描述、发布、发现、协调和配置这些应用程序,用于开发分布式的互操作的应用程序。WebService技术使得运行在不同机器上的不同应用无须借助附加的、专门的第三方软件或硬件,就可相互交换数据或集成。依据WebService规范实施的应用之间,无论它们所使用的语言、平台或内部协议是什么,都可以相互交换数据。
信息化系统建设的传统模式是将ETL和WebService作为两个独立的分系统进行建设。传统方法将数据的处理与发布过程分离,处理后得到的信息资源未能及时发布,造成信息资源时间和资金浪费。为此,找到一种将数据的处理与发布过程进行一站式实现的方法,就成为业界亟待解决的技术问题。
发明内容
针对现有技术存在的上述问题,本发明实施例提供了一种基于ETL的数据服务方法及设备。
第一方面,本发明的实施例提供了一种基于ETL的数据服务方法,包括:将获取的数据发送至ETL数据交换平台,得到加工后的数据结果;在ETL数据交换平台上对所述数据结果提供ETL WebService形式的数据服务,并进行WebService发布;其中,所述将获取的数据发送至ETL数据交换平台,以及在ETL数据交换平台上对所述数据结果提供ETLWebService形式的数据服务,并进行WebService发布的步骤,整合在一起,一站式完成。
进一步地,所述获取的数据的获取方式,包括:从WebService分布式应用程序平台、数据库、JMS和/或通用文件中获取数据。
进一步地,所述通用文件,包括:文本文件、Excel文件、XML文件和/或数据集文件。
进一步地,所述在ETL数据交换平台上对所述数据结果提供ETL WebService形式的数据服务,包括:对接收的数据提供数据源管理、数据节点转换、数据节点作业、调用函数及变量、调度、监控与警告、权限管理和/或版本管理服务。
进一步地,所述在ETL数据交换平台上对所述数据结果提供ETL WebService形式的数据服务,还包括:采用可视化的ETL数据交换平台对接收的数据提供ETL WebService形式的数据服务,具体包括:服务配置、服务部署、流程设计、发布设计、创建用户、用户授权和服务验证。
进一步地,在所述在ETL数据交换平台上对所述数据结果提供ETL WebService形式的数据服务之后,还包括:对ETL WebService形式的数据服务之后的数据结果进行规范。
进一步地,所述对ETL WebService形式的数据服务之后的数据结果进行规范,包括:数组规范、JSON规范和/或XML规范。
第二方面,本发明的实施例提供了一种基于ETL的数据服务装置,包括:
数据获取模块,用于将获取的数据发送至ETL数据交换平台;
数据服务模块,用于在ETL数据交换平台上对所述数据结果提供ETL WebService形式的数据服务,并进行WebService发布;
其中,所述将获取的数据发送至ETL数据交换平台,以及在ETL数据交换平台上对所述数据结果提供ETL WebService形式的数据服务,并进行WebService发布的步骤,整合在一起,一站式完成。
第三方面,本发明的实施例提供了一种电子设备,包括:
至少一个处理器;以及
与处理器通信连接的至少一个存储器,其中:
存储器存储有可被处理器执行的程序指令,处理器调用程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的基于ETL的数据服务方法。
第四方面,本发明的实施例提供了一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储计算机指令,计算机指令使计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的基于ETL的数据服务方法。
本发明实施例提供的基于ETL的数据服务方法及设备,可以一站式地将数据获取、清洗转换与数据发布服务有机结合起来,使得整个数据的获取及发布流程操作方便,部署简单,起到了最大化利用信息资源的效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单的介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于ETL的数据服务方法流程图;
图2为现有技术提供的独立ETL及WebService工作原理示意图;
图3为本发明实施例提供的可视化操作中的流程设计示意图;
图4为本发明实施例提供的可视化操作中的发布设计示意图;
图5为本发明实施例提供的可视化操作中的新建ETL WebService流程示意图;
图6为本发明实施例提供的可视化操作中的创建用户示意图;
图7为本发明实施例提供的可视化操作中的用户授权示意图;
图8为本发明实施例提供的ETL WebService定制服务示意图;
图9为本发明实施例提供的ETL WebService定制服务参数示意图;
图10为本发明实施例提供的基于ETL的数据服务装置结构示意图;
图11为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。另外,本发明提供的各个实施例或单个实施例中的技术特征可以相互任意结合,以形成可行的技术方案,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时,应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
信息化系统建设的传统模式是将ETL和分布式应用程序平台(具体地,可以是WebService)作为两个独立的分系统进行建设。传统方法将数据的处理与发布过程分离,处理后得到的信息资源未能及时发布,造成信息资源时间和资金浪费,图2给出了系统模式拓扑图展示了两种方式的差别。由图2中可见,现有技术中是将ETL与WebService两者的功能分开,ETL将源数据处理成目标数据,然后加载;WebService根据请求的服务,通过网络(web)下发相关的服务,满足客户的相应需求。
基于上述情况,本专利旨在将ETL中配置的数据处理流程发布成分布式应用程序平台(具体可以为WebService)服务。外部应用可订阅并访问该分布式应用程序平台服务,完成数据处理流程调用,获取并展示数据。该功能可以集成到第三方访问服务进行联合调用。为达此目的,本发明实施例提供了一种基于ETL的数据服务方法,参见图1,该方法包括:
101、将获取的数据发送至ETL数据交换平台,得到加工后的数据结果;
102、在ETL数据交换平台上对所述数据结果提供ETL WebService形式的数据服务,并进行WebService发布。
其中,所述将获取的数据发送至ETL数据交换平台,以及在ETL数据交换平台上对所述数据结果提供ETL WebService形式的数据服务,并进行WebService发布的步骤,整合在一起,一站式完成。所述得到加工后的数据结果,包括:对数据进行抽取、清洗、转换、过滤、连接,查找替换、排序,聚合、脱敏和/或联合等操作。
在上述实施例的基础上,本发明实施例中提供的基于ETL的数据服务方法,所述获取的数据的获取方式,包括:从WebService分布式应用程序平台、数据库、JMS和/或通用文件中获取数据。
在上述实施例的基础上,本发明实施例中提供的基于ETL的数据服务方法,所述通用文件,包括:文本文件、Excel文件、XML文件和/或数据集文件。
具体地,数据库数据目前支持Access(*.mdb,*.accdb),DB2V5,DB2V9,DB2V9.7,DM5,DM6,DM7,FoxPro(*.dbf),Greenplum,Informix10,Informix7.3,MySQL3,MySQL4,MySQL5,Oracle10,Oracle11,Oracle8,Oracle9,SQLServer2000,SQLServer2005,SQLServer2008,Sybase11,Sybase12,Sybase15等24种数据库类型。Access(*.mdb,*.accdb),FoxPro(*.dbf)必须提供它们的ODBC数据源名称。Oracle10,Oracle11,Oracle8,Oracle9的数据库名其实为它们的服务名。MySQL3,MySQL4,MySQL5数据库不存在模式的概念,所以在新建数据源的树状显示结构里面模式名没有。
文本文件数据主要是提供文本文件数据的访问功能,可以将固定格式的文本文件已表形式进行解析之后提供给ETL引擎进行处理。提供字符集、行分隔符、列分隔符以及文本限定符等多种设置选项,方便对文本文件进行拆分。并且提供文件编码的字符集和行分隔符的检测功能。
CSV文件数据主要是提供CSV文件数据的访问功能,可以将固定格式的CSV文件已表形式进行解析之后提供给ETL引擎进行处理。提供字符集等设置选项,并且提供文件编码的字符集检测功能。
Excel文件数据提供Excel文件数据的访问功能,可以解析固定格式或者任意格式的Excel文件。其中固定格式是指EXCEL为简单的表格,类似于关系数据库中的表,列信息可以从文件中获取的Excel文件。而要解析任意格式的Excel文件时,列信息由需要由用户指定,系统将EXCEL文件的每一行数据读出来,填充到用户定义的列中,如果超出用户定义的列,则超出的部分被丢弃,如果少于用户定义的列,则填null值。
XML文件数据可以将一个指定的XML文件作为ETL流程里面的数据源使用,此XML数据源可以作为XML数据读取组件的数据集使用。
数据集文件数据又称DDS文件,是Damon Data Set的缩写。DDS是ETL独有的文件格式,支持数据压缩。DDS文件保存有转换过程中得到的完整的列信息和消息记录信息。
DBF文件数据提供DBF文件数据的访问功能,可以解析固定格式DBF文件。读取DBF文件中的列信息和数据。
WebService数据将WebService站点作为ETL的数据源使用。
JMS数据定义了连接JMS服务器的信息。
Mail数据定义了连接LDAP服务器的信息。
LDAP数据定义了连接LDAP服务器的信息。
Hbase数据定义了连接Hbase数据库的信息。
JSON数据的访问功能,可以解析JSON文件,读取JSON文件中的列信息和数据。
MongoDB数据定义了连接MongoDB数据服务器的信息。
Elasticsearch数据定义了连接Elasticsearch数据服务器的信息。
在上述实施例的基础上,本发明实施例中提供的基于ETL的数据服务方法,所述在ETL数据交换平台上对所述数据结果提供ETL WebService形式的数据服务,包括:对接收的数据提供数据源管理、数据节点转换、数据节点作业、调用函数及变量、调度、监控与警告、权限管理和/或版本管理服务。
具体地,数据源管理是在数据读取或者写入时,对ETL需要连接的外部数据进行存储。ETL支持数据库数据源、JMS数据源、文件数据集(文本文件、Excel文件、XML文件、数据集文件等)以及WebServices数据源的管理。支持数据源及数据集的创建、修改、删除等操作。支持数据源、数据集元数据的整体导入导出操作;单独数据源元数据导入导出操作。
数据节点转换代表一个与数据处理的流程,是由数据读取节点、数据装载节点、数据转换节点以及正确线、错误线组成。一个可以执行的转换必须包含一个以上的节点。转换的起点和终点可以为任何节点。
转换中的连接线,用于连接不同的节点,连接线的方向表示数据的流向。连接线分为正确线和错误线。正确线表示能够被节点正确处理的数据的流向。错误线表示不能被组件正确处理的数据流向。错误线上的数据应该是未经处理的原始输入数据,其列信息包括所有的输入列,并可以增加说明错误类型和错误消息的列。
转换中的节点是数据处理的功能实体,用户可以随时打开节点属性配置对话框,对属性进行修改和保存,即一个节点的配置信息读取和显示不依赖于其它节点(即不需要连接输入节点也可打开节点配置对话框)。配置信息可以随时保存,如果配置有错误的或者不完整,会提示用户,但是不阻止用户保存。节点配置时,与数据库相关的信息都是从ETL元数据库中获取,不需要连接数据源。转换一旦开始执行,其中的节点是同时执行的,数据连续的从一个节点流动到另外一个节点,所有数据处理完毕后,转换才停止执行,因此转换也被称为数据流。
数据节点作业是一个控制转换和其它作业节点的执行顺序和过程的流程。一个作业包括节点和连接线,用户可以通过作业控制转换、以及其它作业节点之间执行的先后顺序、依赖关系,因此作业又被称为控制流。
作业由作业节点和作业连线组成。作业可以由任何作业节点开始也可以以由任何作业节点结束。一个作业必须至少包含一个作业节点,如果作业包含多个作业节点,则多个作业节点之间可以有连接也可以没有连接,即连接不是必须的。一个作业节点可以有任意多个输入和输出连接。作业可以嵌套执行,即一个作业也可以作为另外一个作业中的节点执行。
作业中的连接线表示作业节点的执行顺序,连接线分为成功线、失败线、完成线和条件线。成功线表示如果作业节点执行成功则继续执行后续节点,失败线表示作业节点执行失败后再继续执行后续节点,完成线表示无论作业执行成功还是失败,都继续执行后续节点,条件线表示当满足一定的条件时,才执行后续的节点。
调用函数及变量是使用函数来对数据进行处理,扩展系统功能。除了使用系统函数外,ETL还支持用户定义函数。
调度分为“执行一次”和“反复执行”两类。创建好的调度可以在作业或者转换节点上设置。
监控与警告是基于这样的考虑,即不是所有流程都是都可以在前台看到运行过程的,例如调度的执行。那么就可以通过监控的历史运行实例去查看流程的运行过程,即后台流程。
ETL监控是一个用来查看当前登录用户所建转换或作业运行日志的模块。可以分别查看当前运行实例和历史运行实例。转换或者作业下面都有当前运行实例和历史运行实例。当前运行实例是指正在运行还未结束的实例,历史运行实例是指已然运行结束的实例。历史运行实例在这里最多显示100条数据。
正在运行流程监控树界面,展示正在运行的流程。如果有新运行的转换或者作业,会被实时监控到,并且正在运行流程监控树界面会同步显示出运行的转换或者作业。
权限管理可以通过创建用户和角色,并为之分配不同的权限来实现对ETL的管理。权限是系统预先定义好的执行某种操作的能力。角色是权限管理的一种解决方案,是一组权限的集合。用户是能够访问ETL的成员。权限可以分为两类:功能权限和对象权限。
版本管理的操作对象主要包括整个元数据、单个工程、单个转换、单个作业、单个函数、单个变量、单个全局用户函数以及单个全局用户变量。版本管理的主要功能包括对操作对象进行备份当前版本、恢复历史版本、删除历史版本以及还原已删除对象。
在上述实施例的基础上,本发明实施例中提供的基于ETL的数据服务方法,所述在ETL数据交换平台上对所述数据结果提供ETL WebService形式的数据服务,还包括:采用可视化的ETL数据交换平台对接收的数据提供ETL WebService形式的数据服务,具体包括:服务配置、服务部署、流程设计、发布设计、创建用户、用户授权和服务验证。
具体地,以ETL对应WebService为例,服务配置的文件内容如下:
HOST:ETL WebService服务名或IP地址;PORT:ETL WebService服务端口号;USERNAME:ETL用户账号;PASSWORD:ETL用户密码。
服务部署将ETL WebService.war部署到应用服务器的应用程序目录下,例如部署到/tomcat/webapps目录中,执行web_monitor_start.bat启动中间件。
流程设计使用ETL可视化数据处理流程设计器,在线设计数据处理流程。具体请参见图3,在图3中,通过点击表/视图就可以默认输出文本文件。
发布设计执行ETL WebService发布向导,在线可视化创建数据发布计划。依据向导,输入相关配置内容,在发布流程转换选择相应的转换,选择相应节点和输出。节点输出如果选择了流程末端节点,并且无输出则可以不用配置输出,点击保存。具体请参见图4,在图4中,选择了流程末端节点,所以没有输出,也就不用配置输出。由图4中可见,转换名称,转换节点及节点输出处为空白,选择完毕后点击保存并发布按钮401进行保存及发布。在此基础上,还可以右键发布流程WebService后,点击新建ETL WebService新建一个流程。具体请参见图5,在图5的界面中,在左侧的选择页面中点击流程WebService设置(具体位置是在列表中选择您要查看的属性类别),在右侧的流程WebService设置框中显示有流程WebService发布名(S),此处的发布名是web Test;发布转换流程(T)中显示的是“webTest”.“转换”.test;浏览(B)用于选择计算机相关路径;选择转换流程节点(N)处选择的是表/视图,选择节点输出(O)处选择的是默认输出。是否统计(A)用于统计被调用的流程执行信息,如若需要关注WebService调用流程执行信息,就可以勾选该项。设置为独立Webservice方法发布(I)是用来设置发布方法是否为独立的Webservice方法。如若勾选“仅调用流程(E)”,则ETL WebService不会返回节点数据结果,整个流程会执行完毕。如若不勾选流程会执行到配置的流程节点,返回节点相关流程数据,流程在该节点停止不会完整执行。
创建用户用于创建管理用户,调用服务时进行身份验证。具体请参见图6,图6中,点击创建用户按钮601,在下方的界面栏中就创建了用户,具体用户名是u1。
用户授权用于对用户进行授权。具体请参见图7,在用户名(N)中输入用户名u1,密码(P)中输入密码,勾选配置的流程webTest,确认保存重启ETL和WebService服务。
服务验证用于验证服务结果。
在上述实施例的基础上,本发明实施例中提供的基于ETL的数据服务方法,在所述在ETL数据交换平台上对所述数据结果提供ETL WebService形式的数据服务之后,还包括:对ETL WebService形式的数据服务之后的数据结果进行规范。
在上述实施例的基础上,本发明实施例中提供的基于ETL的数据服务方法,所述对ETL WebService形式的数据服务之后的数据结果进行规范,包括:数组规范、JSON规范和/或XML规范。
数组规范的规范结果是二维字符串数组,具体如下所示(以WebService为例):
接口:
public String[][]getFlowArrayResult(String webServiceFlowName,Stringpassword,String[]paramNames,String[]paramValues,int maxResultCount);
各参数的含义如下:
webServiceFlowName:上面配置的流程webservice名。
username:输入创建的管理账号。
password:输入创建的管理密码。
paramNames:输入传入参数的参数名数组。无参数则不输入。
paramValue:输入传入参数的参数值。无参数则不输入。
pageStart:获取节点的起始条数。
pageSize:获取节点数据的总条数。
pageStart和pageSize均为0或-1时,返回流程节点所有数据,流程会在此节点终止。
JSON规范的返回结果是JSON格式的字符串。具体如下所示(以WebService为例):
接口:
public String getFlowJsonResult(String webServiceFlowName,Stringpassword,String jsonParams,int maxResultCount);
各参数的含义如下:
webServiceFlowName:
username:输入创建的管理账号。
password:输入创建的管理密码。
jsonParams:输入参数,以json格式传入,无参数输入{}。若配置变量则json格式输入为
{"V_BEGIN":"\"begin\"","V_END":"\"end\""}。
pageStart:获取节点的起始条数。
pageSize:获取节点数据的总条数。
pageStart和pageSize均为0或-1时,返回流程节点所有数据,流程会在此节点终止。
XML规范与JSON规范参数类似,返回结果为XML。具体如下所示(以WebService为例):
接口:
public String getFlowXMLResult(String webServiceFlowName,Stringusername,String password,StringjsonParams,int pageStart,int pageSize)。
在上述各实施例提供的服务的情况下,本发明的实施例还为用户提供了定制服务,用户可以发布自定义方法,自定义输入ETL WebService服务名“testMethod”,选择返回类型json或xml,以下三个勾选框对应方法输入参数。同样重启ETL和ETL WebService查看服务方法。具体请参见图8,此时设置为独立Webservice方法发布(I)中会多出testMethod方法(图8中其余部分与图5中相同,在此不做赘述),采用SoapUI进行调用,具体可以参见图9。由图9中可见,args0、args1对应username、password;args2对应jsonParams;args3、args4对应pageStart、pageSize。
本发明实施例提供的基于ETL的数据服务方法,可以一站式地将数据获取、清洗转换与数据发布服务有机结合起来,使得整个数据的获取及发布流程操作方便,部署简单,起到了最大化利用信息资源的效果。
本发明各个实施例的实现基础是通过具有处理器功能的设备进行程序化的处理实现的。因此在工程实际中,可以将本发明各个实施例的技术方案及其功能封装成各种模块。基于这种现实情况,在上述各实施例的基础上,本发明的实施例提供了一种基于ETL的数据服务装置,该装置用于执行上述方法实施例中的基于ETL的数据服务方法。参见图10,该装置包括:
数据获取模块1001,用于将获取的数据发送至ETL数据交换平台,得到加工后的数据结果;
数据服务模块1002,用于在ETL数据交换平台上对所述数据结果提供ETLWebService形式的数据服务,并进行WebService发布;
其中,所述将获取的数据发送至ETL数据交换平台,以及在ETL数据交换平台上对所述数据结果提供ETL WebService形式的数据服务,并进行WebService发布的步骤,整合在一起,一站式完成。
本发明实施例提供的基于ETL的数据服务装置,采用数据获取模块及数据服务模块,可以一站式地将数据获取、清洗转换与数据发布服务有机结合起来,使得整个数据的获取及发布流程操作方便,部署简单,起到了最大化利用信息资源的效果。
本发明实施例的方法是依托电子设备实现的,因此对相关的电子设备有必要做一下介绍。基于此目的,本发明的实施例提供了一种电子设备,如图11所示,该电子设备包括:至少一个处理器(processor)1101、通信接口(Communications Interface)1104、至少一个存储器(memory)1102和通信总线1103,其中,至少一个处理器1101,通信接口1104,至少一个存储器1102通过通信总线1103完成相互间的通信。至少一个处理器1101可以调用至少一个存储器1102中的逻辑指令,以执行如下方法:将获取的数据发送至ETL数据交换平台,得到加工后的数据结果;在ETL数据交换平台上对所述数据结果提供ETL WebService形式的数据服务,并进行WebService发布;其中,所述将获取的数据发送至ETL数据交换平台,以及在ETL数据交换平台上对所述数据结果提供ETL WebService形式的数据服务,并进行WebService发布的步骤,整合在一起,一站式完成。
此外,上述的至少一个存储器1102中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。例如包括:将获取的数据发送至ETL数据交换平台,得到加工后的数据结果;在ETL数据交换平台上对所述数据结果提供ETL WebService形式的数据服务,并进行WebService发布;其中,所述将获取的数据发送至ETL数据交换平台,以及在ETL数据交换平台上对所述数据结果提供ETL WebService形式的数据服务,并进行WebService发布的步骤,整合在一起,一站式完成。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种基于ETL的数据服务方法,其特征在于,包括:
将获取的数据发送至ETL数据交换平台,得到加工后的数据结果,其中,ETL是指用来将数据从来源端经过抽取、交互转换、加载至目的端的过程;
在ETL数据交换平台上对所述数据结果提供ETL WebService形式的数据服务,并进行WebService发布;
其中,所述将获取的数据发送至ETL数据交换平台,以及在ETL数据交换平台上对所述数据结果提供ETL WebService形式的数据服务,并进行WebService发布的步骤,整合在一起,一站式完成;
所述在ETL数据交换平台上对接收的数据提供ETL WebService形式的数据服务,包括:
对接收的数据提供数据源管理、数据节点转换、数据节点作业、调用函数及变量、调度、监控与警告、权限管理和/或版本管理服务;
其中,数据源管理是在数据读取或者写入时,对ETL需要连接的外部数据进行存储,ETL支持数据库数据源、JMS数据源、文件数据集以及WebServices数据源的管理,支持数据源及数据集的创建、修改、删除,支持数据源、数据集元数据的整体导入导出操作,单独数据源元数据导入导出操作;
数据节点转换代表一个与数据处理的流程,是由数据读取节点、数据装载节点、数据转换节点以及正确线、错误线组成,一个执行的转换包含一个以上的节点,转换的起点和终点为任何节点;
转换中的连接线,用于连接不同的节点,连接线的方向表示数据的流向,连接线分为正确线和错误线,正确线表示能够被节点正确处理的数据的流向,错误线表示不能被组件正确处理的数据流向,错误线上的数据是未经处理的原始输入数据,其列信息包括所有的输入列,并增加说明错误类型和错误消息的列;
转换中的节点是数据处理的功能实体,用户打开节点属性配置对话框,对属性进行修改和保存,即一个节点的配置信息读取和显示不依赖于其它节点,配置信息随时保存,如果配置有错误的或者不完整,会提示用户,但是不阻止用户保存,节点配置时,与数据库相关的信息都是从ETL元数据库中获取,不需要连接数据源,转换一旦开始执行,其中的节点是同时执行的,数据连续的从一个节点流动到另外一个节点,所有数据处理完毕后,转换才停止执行,因此转换也被称为数据流;
数据节点作业是一个控制转换和其它作业节点的执行顺序和过程的流程,一个作业包括节点和连接线,用户通过作业控制转换、以及其它作业节点之间执行的先后顺序、依赖关系,因此作业又被称为控制流;
作业由作业节点和作业连线组成,作业由任何作业节点开始以由任何作业节点结束,一个作业至少包含一个作业节点,如果作业包含多个作业节点,则多个作业节点之间可以有连接也可以没有连接,即连接不是必须的,一个作业节点有任意多个输入和输出连接,作业嵌套执行,即一个作业也可以作为另外一个作业中的节点执行;
作业中的连接线表示作业节点的执行顺序,连接线分为成功线、失败线、完成线和条件线,成功线表示如果作业节点执行成功则继续执行后续节点,失败线表示作业节点执行失败后再继续执行后续节点,完成线表示无论作业执行成功还是失败,都继续执行后续节点,条件线表示当满足一定的条件时,才执行后续的节点;
调用函数及变量是使用函数来对数据进行处理,扩展系统功能,除了使用系统函数外,ETL还支持用户定义函数;
调度分为“执行一次”和“反复执行”两类,创建好的调度在作业或者转换节点上设置;
监控与警告是基于这样的考虑,即不是所有流程都可以在前台看到运行过程的,那么就通过监控的历史运行实例去查看流程的运行过程,即后台流程;
ETL监控是一个用来查看当前登录用户所建转换或作业运行日志的模块,可以分别查看当前运行实例和历史运行实例,转换或者作业下面都有当前运行实例和历史运行实例,当前运行实例是指正在运行还未结束的实例,历史运行实例是指已然运行结束的实例;
正在运行流程监控树界面,展示正在运行的流程,如果有新运行的转换或者作业,会被实时监控到,并且正在运行流程监控树界面会同步显示出运行的转换或者作业;
权限管理通过创建用户和角色,并为之分配不同的权限来实现对ETL的管理,权限是系统预先定义好的执行某种操作的能力,角色是权限管理的一种解决方案,是一组权限的集合,用户是能够访问ETL的成员,权限分为两类:功能权限和对象权限;
版本管理的操作对象包括整个元数据、单个工程、单个转换、单个作业、单个函数、单个变量、单个全局用户函数以及单个全局用户变量,版本管理的功能包括对操作对象进行备份当前版本、恢复历史版本、删除历史版本以及还原已删除对象。
2.根据权利要求1所述的基于ETL的数据服务方法,其特征在于,所述获取的数据的获取方式,包括:
从WebService分布式应用程序平台、数据库、JMS和/或通用文件中获取数据。
3.根据权利要求2所述的基于ETL的数据服务方法,其特征在于,所述通用文件,包括:
文本文件、Excel文件、XML文件和/或数据集文件。
4.根据权利要求1所述的基于ETL的数据服务方法,其特征在于,所述在ETL数据交换平台上对所述数据结果提供ETL WebService形式的数据服务,还包括:
采用可视化的ETL数据交换平台对接收的数据提供ETL WebService形式的数据服务,具体包括:
服务配置、服务部署、流程设计、发布设计、创建用户、用户授权和服务验证。
5.根据权利要求1所述的基于ETL的数据服务方法,其特征在于,在所述在ETL数据交换平台上对所述数据结果提供ETL WebService形式的数据服务之后,还包括:
对ETL WebService形式的数据服务之后的数据结果进行规范。
6.根据权利要求1所述的基于ETL的数据服务方法,其特征在于,所述对ETLWebService形式的数据服务之后的数据结果进行规范,包括:
数组规范、JSON规范和/或XML规范。
7.一种基于ETL的数据服务装置,其特征在于,包括:
数据获取模块,用于将获取的数据发送至ETL数据交换平台,得到加工后的数据结果,其中,ETL是指用来将数据从来源端经过抽取、交互转换、加载至目的端的过程;
数据服务模块,用于在ETL数据交换平台上对所述数据结果提供ETL WebService形式的数据服务,并进行WebService发布;
其中,所述将获取的数据发送至ETL数据交换平台,以及在ETL数据交换平台上对所述数据结果提供ETL WebService形式的数据服务,并进行WebService发布的步骤,整合在一起,一站式完成;
所述在ETL数据交换平台上对接收的数据提供ETL WebService形式的数据服务,包括:
对接收的数据提供数据源管理、数据节点转换、数据节点作业、调用函数及变量、调度、监控与警告、权限管理和/或版本管理服务;
其中,数据源管理是在数据读取或者写入时,对ETL需要连接的外部数据进行存储,ETL支持数据库数据源、JMS数据源、文件数据集以及WebServices数据源的管理,支持数据源及数据集的创建、修改、删除,支持数据源、数据集元数据的整体导入导出操作,单独数据源元数据导入导出操作;
数据节点转换代表一个与数据处理的流程,是由数据读取节点、数据装载节点、数据转换节点以及正确线、错误线组成,一个执行的转换包含一个以上的节点,转换的起点和终点为任何节点;
转换中的连接线,用于连接不同的节点,连接线的方向表示数据的流向,连接线分为正确线和错误线,正确线表示能够被节点正确处理的数据的流向,错误线表示不能被组件正确处理的数据流向,错误线上的数据是未经处理的原始输入数据,其列信息包括所有的输入列,并增加说明错误类型和错误消息的列;
转换中的节点是数据处理的功能实体,用户打开节点属性配置对话框,对属性进行修改和保存,即一个节点的配置信息读取和显示不依赖于其它节点,配置信息随时保存,如果配置有错误的或者不完整,会提示用户,但是不阻止用户保存,节点配置时,与数据库相关的信息都是从ETL元数据库中获取,不需要连接数据源,转换一旦开始执行,其中的节点是同时执行的,数据连续的从一个节点流动到另外一个节点,所有数据处理完毕后,转换才停止执行,因此转换也被称为数据流;
数据节点作业是一个控制转换和其它作业节点的执行顺序和过程的流程,一个作业包括节点和连接线,用户通过作业控制转换、以及其它作业节点之间执行的先后顺序、依赖关系,因此作业又被称为控制流;
作业由作业节点和作业连线组成,作业由任何作业节点开始以由任何作业节点结束,一个作业至少包含一个作业节点,如果作业包含多个作业节点,则多个作业节点之间可以有连接也可以没有连接,即连接不是必须的,一个作业节点有任意多个输入和输出连接,作业嵌套执行,即一个作业也可以作为另外一个作业中的节点执行;
作业中的连接线表示作业节点的执行顺序,连接线分为成功线、失败线、完成线和条件线,成功线表示如果作业节点执行成功则继续执行后续节点,失败线表示作业节点执行失败后再继续执行后续节点,完成线表示无论作业执行成功还是失败,都继续执行后续节点,条件线表示当满足一定的条件时,才执行后续的节点;
调用函数及变量是使用函数来对数据进行处理,扩展系统功能,除了使用系统函数外,ETL还支持用户定义函数;
调度分为“执行一次”和“反复执行”两类,创建好的调度在作业或者转换节点上设置;
监控与警告是基于这样的考虑,即不是所有流程都可以在前台看到运行过程的,那么就通过监控的历史运行实例去查看流程的运行过程,即后台流程;
ETL监控是一个用来查看当前登录用户所建转换或作业运行日志的模块,可以分别查看当前运行实例和历史运行实例,转换或者作业下面都有当前运行实例和历史运行实例,当前运行实例是指正在运行还未结束的实例,历史运行实例是指已然运行结束的实例;
正在运行流程监控树界面,展示正在运行的流程,如果有新运行的转换或者作业,会被实时监控到,并且正在运行流程监控树界面会同步显示出运行的转换或者作业;
权限管理通过创建用户和角色,并为之分配不同的权限来实现对ETL的管理,权限是系统预先定义好的执行某种操作的能力,角色是权限管理的一种解决方案,是一组权限的集合,用户是能够访问ETL的成员,权限分为两类:功能权限和对象权限;
版本管理的操作对象包括整个元数据、单个工程、单个转换、单个作业、单个函数、单个变量、单个全局用户函数以及单个全局用户变量,版本管理的功能包括对操作对象进行备份当前版本、恢复历史版本、删除历史版本以及还原已删除对象。
8.一种电子设备,其特征在于,包括:
至少一个处理器、至少一个存储器、通信接口和总线;其中,
所述处理器、存储器、通信接口通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以执行如权利要求1至6任一项所述的方法。
9.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至6中任一项所述的方法。
CN201811397715.XA 2018-11-22 2018-11-22 基于etl的数据服务方法及设备 Active CN109669976B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811397715.XA CN109669976B (zh) 2018-11-22 2018-11-22 基于etl的数据服务方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811397715.XA CN109669976B (zh) 2018-11-22 2018-11-22 基于etl的数据服务方法及设备

Publications (2)

Publication Number Publication Date
CN109669976A CN109669976A (zh) 2019-04-23
CN109669976B true CN109669976B (zh) 2020-12-08

Family

ID=66142126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811397715.XA Active CN109669976B (zh) 2018-11-22 2018-11-22 基于etl的数据服务方法及设备

Country Status (1)

Country Link
CN (1) CN109669976B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347992B (zh) * 2019-07-10 2024-05-14 成都函夏科技有限公司 基于电子报表的数据分析方法及系统
CN110471968A (zh) * 2019-07-11 2019-11-19 新华三大数据技术有限公司 Etl任务的发布方法、装置、设备及存储介质
CN111159265B (zh) * 2019-12-03 2023-04-14 武汉达梦数据库股份有限公司 一种etl数据迁移方法和系统
CN113360554B (zh) * 2020-03-06 2023-06-23 深圳法大大网络科技有限公司 一种数据抽取、转换和加载etl的方法和设备
CN111399826B (zh) * 2020-03-19 2020-12-01 北京三维天地科技股份有限公司 一种可视化拖拽流程图式etl在线数据交换方法和系统
CN113111104A (zh) * 2021-04-06 2021-07-13 创意信息技术股份有限公司 一种基于一体化的Web-ETL大数据融合方法
CN113111106A (zh) * 2021-04-06 2021-07-13 创意信息技术股份有限公司 一种基于Web的ETL设计数据接入方法及数据接入模块
CN113378519B (zh) * 2021-06-29 2024-08-27 平安国际融资租赁有限公司 文本导出方法、系统、计算机设备与计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250691A (zh) * 2016-07-29 2016-12-21 广州天健软件有限公司 一种医疗临床数据处理方法
CN107992552A (zh) * 2017-11-28 2018-05-04 南京莱斯信息技术股份有限公司 一种数据交换平台及数据交换方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250691A (zh) * 2016-07-29 2016-12-21 广州天健软件有限公司 一种医疗临床数据处理方法
CN107992552A (zh) * 2017-11-28 2018-05-04 南京莱斯信息技术股份有限公司 一种数据交换平台及数据交换方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
达梦数据交换平台产品白皮书_2015版;达梦数据库有限公司;《https://www.docin.com/p-1843796872.html》;20170203;全文 *

Also Published As

Publication number Publication date
CN109669976A (zh) 2019-04-23

Similar Documents

Publication Publication Date Title
CN109669976B (zh) 基于etl的数据服务方法及设备
US11663033B2 (en) Design-time information based on run-time artifacts in a distributed computing cluster
CN107370786B (zh) 一种基于微服务架构的通用信息管理系统
US20200125530A1 (en) Data management platform using metadata repository
RU2546322C2 (ru) Расширение возможностей сотрудничества при использовании внешних данных
US20140006459A1 (en) Rule-based automated test data generation
US9418241B2 (en) Unified platform for big data processing
US20200401465A1 (en) Apparatuses, systems, and methods for providing healthcare integrations
US10776359B2 (en) Abstractly implemented data analysis systems and methods therefor
CN103927314B (zh) 一种数据批量处理的方法和装置
US10564961B1 (en) Artifact report for cloud-based or on-premises environment/system infrastructure
CN113254534A (zh) 数据同步方法、装置及计算机存储介质
JP2012243127A (ja) グラフデータに写像の像であるオブジェクトに対する操作を反映する方法、プログラム、および、システム
US11282021B2 (en) System and method for implementing a federated forecasting framework
US9489437B2 (en) Master data management database asset as a web service
US20210124752A1 (en) System for Data Collection, Aggregation, Storage, Verification and Analytics with User Interface
Vanhove et al. Tengu: An experimentation platform for big data applications
CN114816361A (zh) 拼搭工程生成方法、装置、设备、介质和程序产品
CN114139514A (zh) 一种智能报表生成方法、装置及计算机存储介质
CN113449035B (zh) 数据同步方法、装置、计算机设备及可读存储介质
Genovese Data Mesh: the newest paradigm shift for a distributed architecture in the data world and its application
CN105590133B (zh) 针对it系统运营维护的知识管理方法
CN106687999B (zh) 产生实现被设计为更新根据应用数据模型指定的对象的规则的指令集
CN110083624A (zh) 流数据处理方法、设备、数据处理设备、计算机介质
US11995076B2 (en) System, computing platform and method of integrating data from a plurality of data sources

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 430000 16-19 / F, building C3, future technology building, 999 Gaoxin Avenue, Donghu New Technology Development Zone, Wuhan, Hubei Province

Patentee after: Wuhan dream database Co.,Ltd.

Address before: 430000 16-19 / F, building C3, future technology building, 999 Gaoxin Avenue, Donghu New Technology Development Zone, Wuhan, Hubei Province

Patentee before: WUHAN DAMENG DATABASE Co.,Ltd.

CP01 Change in the name or title of a patent holder
TR01 Transfer of patent right

Effective date of registration: 20220909

Address after: 430073 16-19 / F, building C3, future science and technology building, 999 Gaoxin Avenue, Donghu New Technology Development Zone, Wuhan City, Hubei Province

Patentee after: Wuhan dream database Co.,Ltd.

Patentee after: HUAZHONG University OF SCIENCE AND TECHNOLOGY

Address before: 430000 16-19 / F, building C3, future technology building, 999 Gaoxin Avenue, Donghu New Technology Development Zone, Wuhan, Hubei Province

Patentee before: Wuhan dream database Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230720

Address after: 16-19/F, Building C3, Future Science and Technology Building, No. 999 Gaoxin Avenue, Donghu New Technology Development Zone, Wuhan City, Hubei Province, 430206

Patentee after: Wuhan dream database Co.,Ltd.

Address before: 430073 16-19 / F, building C3, future science and technology building, 999 Gaoxin Avenue, Donghu New Technology Development Zone, Wuhan City, Hubei Province

Patentee before: Wuhan dream database Co.,Ltd.

Patentee before: HUAZHONG University OF SCIENCE AND TECHNOLOGY

TR01 Transfer of patent right