CN112307061A - 用于查询数据的方法和装置 - Google Patents
用于查询数据的方法和装置 Download PDFInfo
- Publication number
- CN112307061A CN112307061A CN201911051553.9A CN201911051553A CN112307061A CN 112307061 A CN112307061 A CN 112307061A CN 201911051553 A CN201911051553 A CN 201911051553A CN 112307061 A CN112307061 A CN 112307061A
- Authority
- CN
- China
- Prior art keywords
- query
- data
- target
- query engine
- statement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 230000004044 response Effects 0.000 claims description 38
- 230000006870 function Effects 0.000 claims description 33
- 238000012545 processing Methods 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 claims description 11
- 230000014509 gene expression Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 230000000875 corresponding effect Effects 0.000 description 64
- 238000010586 diagram Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 8
- 241000233805 Phoenix Species 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 238000013500 data storage Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开的实施例公开了用于查询数据的方法和装置。该方法的一具体实施方式包括:获取目标语句,其中,目标语句用于操作数据表中的数据,目标语句包含至少一个数据表的表名;对目标语句进行解析,得到目标语句包含的至少一个表名;从预先确定的查询引擎集合中,确定与至少一个表名相关联的查询引擎,作为目标查询引擎;响应于目标语句为查询语句,采用目标查询引擎查询目标语句对应的数据表中的数据。该实施方式丰富了数据的查询方式,有助于提高数据的查询速度。
Description
技术领域
本公开的实施例涉及计算机技术领域,具体涉及用于查询数据的方法和装置。
背景技术
当前,随着大数据技术的蓬勃发展,各大公司的数据量不断积累,EB(艾字节,Exabyte)级的数据存储已经非常普遍,在如此大规模的数据存储中,如何快速高效的查询出目标结果,越来越受到关注。通常情况下,数据分析人员希望查询速度越快越好,并且,希望能够自由定义查询维度和指标,灵活编辑查询语句。
现有技术中,一些查询功能基于Hive(一个数据仓库工具)引擎来实现,可以将数据存储在HDFS(分布式文件系统,Hadoop Distributed File System)中,通过编写HiveSQL(结构化查询语言,Structured Query Language)实现数据查询功能。其中,Hive可以将结构化的数据文件映射为一张数据表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce(面向大数据并行处理的计算模型、框架和平台)任务执行。
发明内容
本公开提出了用于查询数据的方法和装置。
第一方面,本公开的实施例提供了一种用于查询数据的方法,该方法包括:获取目标语句,其中,目标语句用于操作数据表中的数据,目标语句包含至少一个数据表的表名;对目标语句进行解析,得到目标语句包含的至少一个表名;从预先确定的查询引擎集合中,确定与至少一个表名相关联的查询引擎,作为目标查询引擎;响应于目标语句为查询语句,采用目标查询引擎查询目标语句对应的数据表中的数据。
在一些实施例中,目标语句包含至少两个数据表的表名;以及,对目标语句进行解析,得到目标语句包含的至少一个表名,包括:对目标语句进行解析,得到目标语句包含的至少两个表名;以及,从预先确定的查询引擎集合中,确定与至少一个表名相关联的查询引擎,作为目标查询引擎,包括:从预先确定的查询引擎集合中,分别确定与至少两个表名中的每个表名相关联的查询引擎;响应于所确定出的各个查询引擎指示相同的查询引擎,将各个查询引擎指示的相同的查询引擎作为目标查询引擎。
在一些实施例中,在响应于目标语句为查询语句,采用目标查询引擎查询目标语句对应的数据表中的数据之前,该方法包括:响应于所确定出的各个查询引擎中存在至少两个不同的查询引擎,针对至少两个表名中的每个表名,基于该表名执行如下目标查询引擎确定步骤:响应于该表名指示的数据表中的数据被访问的频次大于或等于预设阈值,并且,响应于接收到用于指示在预先确定的高速引擎中创建该表名指示的数据表的创建信息,在高速引擎中创建该表名指示的数据表,以及将数据表创建后的高速引擎作为目标查询引擎。
在一些实施例中,目标查询引擎确定步骤还包括:响应于该表名指示的数据表中的数据被访问的频次大于或等于预设阈值,并且,响应于接收到用于指示不在预先确定的高速引擎中创建该表名指示的数据表的创建信息,将查询引擎集合中的第一查询引擎作为目标查询引擎。
在一些实施例中,目标语句获取自用户端;以及,在高速引擎中创建该表名指示的数据表,包括:向用户端发送该表名指示的数据表中的各个字段;获取用户端返回的、用户从各个字段中选取的字段;基于所选取的字段,在高速引擎中创建该表名指示的数据表,其中,所创建的该表名指示的数据表中的字段为用户从各个字段中选取的字段。
在一些实施例中,该方法还包括:响应于采用第一查询引擎未查询到目标语句对应的数据表中的数据,采用第二查询引擎查询目标语句对应的数据表中的数据,其中,第二查询引擎为查询引擎集合中的不同于第一查询引擎的查询引擎。
在一些实施例中,对目标语句进行解析,得到目标语句包含的至少一个表名,包括:采用预先确定的正则表达式对目标语句进行匹配,得到目标语句包含的至少一个表名。
在一些实施例中,对目标语句进行解析,得到目标语句包含的至少一个表名,包括:响应于目标语句包含第一预设关键字,按照针对第一预设关键字建立的解析规则,将目标语句解析为结构化查询语言;从结构化查询语言中提取至少一个表名。
在一些实施例中,该方法还包括:响应于目标语句包含第二预设关键字,采用与第二预设关键字相对应的自定义函数对数据表中的数据进行处理,以对数据表中的数据进行第二预设关键字指示的自定义操作。
第二方面,本公开的实施例提供了一种用于查询数据的装置,该装置包括:获取单元,被配置成获取目标语句,其中,目标语句用于操作数据表中的数据,目标语句包含至少一个数据表的表名;解析单元,被配置成对目标语句进行解析,得到目标语句包含的至少一个表名;第一确定单元,被配置成从预先确定的查询引擎集合中,确定与至少一个表名相关联的查询引擎,作为目标查询引擎;第一查询单元,被配置成响应于目标语句为查询语句,采用目标查询引擎查询目标语句对应的数据表中的数据。
在一些实施例中,目标语句包含至少两个数据表的表名;以及,解析单元,进一步被配置成:对目标语句进行解析,得到目标语句包含的至少两个表名;以及,第一确定单元,进一步被配置成:从预先确定的查询引擎集合中,分别确定与至少两个表名中的每个表名相关联的查询引擎;响应于所确定出的各个查询引擎指示相同的查询引擎,将各个查询引擎指示的相同的查询引擎作为目标查询引擎。
在一些实施例中,该装置包括:第二确定单元,被配置成响应于所确定出的各个查询引擎中存在至少两个不同的查询引擎,针对至少两个表名中的每个表名,基于该表名执行如下目标查询引擎确定步骤:响应于该表名指示的数据表中的数据被访问的频次大于或等于预设阈值,并且,响应于接收到用于指示在预先确定的高速引擎中创建该表名指示的数据表的创建信息,在高速引擎中创建该表名指示的数据表,以及将数据表创建后的高速引擎作为目标查询引擎。
在一些实施例中,目标查询引擎确定步骤还包括:响应于该表名指示的数据表中的数据被访问的频次大于或等于预设阈值,并且,响应于接收到用于指示不在预先确定的高速引擎中创建该表名指示的数据表的创建信息,将查询引擎集合中的第一查询引擎作为目标查询引擎。
在一些实施例中,目标语句获取自用户端;以及,第二确定单元,进一步被配置成:向用户端发送该表名指示的数据表中的各个字段;获取用户端返回的、用户从各个字段中选取的字段;基于所选取的字段,在高速引擎中创建该表名指示的数据表,其中,所创建的该表名指示的数据表中的字段为用户从各个字段中选取的字段。
在一些实施例中,该装置还包括:第二查询单元,被配置成响应于采用第一查询引擎未查询到目标语句对应的数据表中的数据,采用第二查询引擎查询目标语句对应的数据表中的数据,其中,第二查询引擎为查询引擎集合中的不同于第一查询引擎的查询引擎。
在一些实施例中,解析单元,进一步被配置成:采用预先确定的正则表达式对目标语句进行匹配,得到目标语句包含的至少一个表名。
在一些实施例中,解析单元,进一步被配置成:响应于目标语句包含第一预设关键字,按照针对第一预设关键字建立的解析规则,将目标语句解析为结构化查询语言;从结构化查询语言中提取至少一个表名。
在一些实施例中,该装置还包括:处理单元,被配置成响应于目标语句包含第二预设关键字,采用与第二预设关键字相对应的自定义函数对数据表中的数据进行处理,以对数据表中的数据进行第二预设关键字指示的自定义操作。
第三方面,本公开的实施例提供了一种用于查询数据的电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行,使得该一个或多个处理器实现如上述用于查询数据的方法中任一实施例的方法。
第四方面,本公开的实施例提供了一种用于查询数据的计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述用于查询数据的方法中任一实施例的方法。
本公开的实施例提供的用于查询数据的方法和装置,通过获取目标语句,其中,目标语句用于操作数据表中的数据,目标语句包含至少一个数据表的表名,然后,对目标语句进行解析,得到目标语句包含的至少一个表名,之后,从预先确定的查询引擎集合中,确定与至少一个表名相关联的查询引擎,作为目标查询引擎,最后,在目标语句为查询语句的情况下,采用目标查询引擎查询目标语句对应的数据表中的数据,由此,本公开的实施例可以从查询引擎集合中,确定用于操作目标语句对应的数据表中的数据的查询引擎,进而可以用不同的查询引擎来操作不同的目标语句对应的数据表中的数据,基于各个查询引擎的特点进行数据操作,丰富了数据的查询方式,有助于提高数据的查询速度。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:
图1是本公开的一些实施例可以应用于其中的示例性系统架构图;
图2是根据本公开的用于查询数据的方法的一个实施例的流程图;
图3A是根据本公开的用于查询数据的方法的一个示意性架构图;
图3B是根据本公开的用于查询数据的方法的一个应用场景的示意图;
图4是根据本公开的用于查询数据的方法的又一个实施例的流程图;
图5是根据本公开的用于查询数据的方法的又一个应用场景的示意图;
图6是根据本公开的用于查询数据的装置的一个实施例的结构示意图;
图7是适于用来实现本公开的一些实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
图1示出了可以应用本公开的实施例的用于查询数据的方法或用于查询数据的装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送数据(例如目标语句)等。终端设备101、102、103上可以安装有各种客户端应用,例如视频播放软件、新闻资讯类应用、图像处理类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有数据查询功能的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103待操作(例如查询)的数据进行相应操作的后台服务器。后台服务器可以对接收到的目标语句(例如查询语句)等数据进行分析等处理,从而获得目标语句待操作的数据表中的数据(例如目标语句待查询的数据表中的数据)。可选的,在目标语句为查询语句的情况下,后台服务器还可以将所查询到的数据表中的数据发送至终端设备。作为示例,服务器105可以是云端服务器。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
还需要说明的是,本公开的实施例所提供的用于查询数据的方法可以由服务器执行,也可以由终端设备执行,还可以由服务器和终端设备彼此配合执行。相应地,用于查询数据的装置包括的各个部分(例如各个单元)可以全部设置于服务器中,也可以全部设置于终端设备中,还可以分别设置于服务器和终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。当用于查询数据的方法运行于其上的电子设备在执行该方法的过程中,不需要与其他电子设备进行数据传输时,该系统架构可以仅包括用于查询数据的方法运行于其上的电子设备(例如服务器)。
继续参考图2,示出了根据本公开的用于查询数据的方法的一个实施例的流程200。该用于查询数据的方法,包括以下步骤:
步骤201,获取目标语句。
在本实施例中,用于查询数据的方法的执行主体(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式从其他电子设备(例如图1所示的终端设备)或者本地获取目标语句。
其中,目标语句用于操作数据表中的数据,目标语句包含至少一个数据表的表名。作为示例,目标语句可以是用于对数据表中的数据进行以下至少一项操作的语句:增加、删除、修改、查找。
在这里,上述目标语句可以是符合SQL语法的语句,也可以是符合预先确定的其他语法规则的语句,本公开的实施例在此不作限定。
步骤202,对目标语句进行解析,得到目标语句包含的至少一个表名。
在本实施例中,上述执行主体可以对步骤201获取到的目标语句进行解析,得到目标语句包含的至少一个表名。
应该理解,通常情况下,上述执行主体可以解析得到目标语句中所包含的所有的表名,然而,当目标语句中包含相同的表名时,上述执行主体也可以解析得到目标语句中包含的彼此不同的表名。
在这里,当目标语句中包含Union操作符时,上述执行主体可以首先按照Union操作符对目标语句进行拆分,以便后续解析。
在本实施例的一些可选的实现方式中,上述执行主体可以采用如下方式,来执行该步骤202:采用预先确定的正则表达式对目标语句进行匹配,得到目标语句包含的至少一个表名。其中,正则表达式(Regular Expression),又称规则表达式,通常被用来检索、替换符合预定规则的文本。许多程序设计语言都支持利用正则表达式进行字符串操作。
可以理解,采用正则表达式可以提高得到表名的速度和准确度。
在本实施例的一些可选的实现方式中,上述执行主体也可以采用如下方式,来执行该步骤202:
首先,响应于目标语句包含第一预设关键字,按照针对第一预设关键字建立的解析规则,将目标语句解析为结构化查询语言。
在这里,上述第一预设关键字可以是预先确定的、与SQL关键字不同的关键字。作为示例,该第一预设关键字可以是“foreach”、“set”、“function”等等。其中,针对每个第一预设关键字建立的解析规则可以采用程序语句实现。
作为示例,第一预设关键字“foreach”对应的解析规则可以是“如果目标语句包含foreach,则将该目标语句等价变换为foreach对应的代码”。例如,对于包含foreach的目标语句“#foreach(768,838,12301)select*from app.demo_table where id=${each}”,可以将其等价变换为如下代码:select*from app.demo_table where id=768;select*fromapp.demo_table where id=838;select*from app.demo_table where id=12301。
作为又一示例,第一预设关键字“set”对应的解析规则可以是“如果目标语句包含set,则将该目标语句等价变换为set对应的代码”。例如,对于包含set的目标语句“#setNAME=abc select*from app.demo_table where name=${NAME}”,可以将其等价变换为如下代码:select*from app.demo_table where id=‘abc’。
作为再一个示例,第一预设关键字“function”对应的解析规则可以是“如果目标语句包含function,则将该目标语句等价变换为function对应的代码”。例如,对于包含function的目标语句“#function test:select*from app.demo_table where id=?select*from$test(1)a left join$test(2)b on a.name=b.name”,可以将其等价变换为如下代码:select*from(select*from app.demo_table where id=1)a left join(select*from app.demo_table where id=2)b on a.name=b.name。
应该理解,上述第一预设关键字对应的解析规则可以由技术人员编程实现,本可选的实现方式对此不再赘述。
然后,从结构化查询语言中提取至少一个表名。
在这里,解析得到结构化查询语言(SQL)之后,上述执行主体可以从所得到的结构化查询语言中提取至少一个表名。例如,对于上述解析得到的3条SQL语句“select*fromapp.demo_table where id=768;select*from app.demo_table where id=838;select*from app.demo_table where id=12301”,上述执行主体可以提取得到3个“app.demo_table”表名。
可以理解,本可选的实现方式可以通过将第一预设关键字与解析规则进行关联,从而实现更为灵活的数据查询,有助于提高数据查询的速度。
可选的,在确定目标语句的过程中,还可以将表名设置于目标语句中的预定位置(例如目标语句中的前10个字符所在的位置)处。由此,上述执行主体还可以直接从该预定位置提取目标语句包含的至少一个表名。
步骤203,从预先确定的查询引擎集合中,确定与至少一个表名相关联的查询引擎,作为目标查询引擎。
在本实施例中,上述执行主体可以从预先确定的查询引擎集合中,确定与至少一个表名相关联的查询引擎,以及将所确定出的、与上述至少一个表名相关联的查询引擎作为目标查询引擎。
其中,上述查询引擎集合中的查询引擎可以是现有的任一查询引擎,例如,Kylin查询引擎、Phoenix查询引擎、Elasticsearch查询引擎、Presto查询引擎、Spark查询引擎等等;也可以是技术人员自行搭建的查询引擎。上述查询引擎集合中的各个查询引擎可以彼此不同,例如,查询引擎集合可以包括如下5种查询引擎:Kylin查询引擎、Phoenix查询引擎、Elasticsearch查询引擎、Presto查询引擎、Spark查询引擎。
在这里,可以预先将所存储的每个数据表的表名与查询引擎集合中的一个或多个查询引擎相关联。作为示例,可以随机地将数据表的表名与查询引擎集合中的一个查询引擎相关联,也可以根据每个数据表中的数据的特点,将该数据表的表名与查询引擎集合中的一个查询引擎相关联。
示例性的,请参考图3A,图3A是根据本公开的用于查询数据的方法的一个示意性架构图。在图3A中,最底层的数据可以存储在基于HDFS(分布式文件系统,HadoopDistributed File System)构建的数据仓库中,来自不同业务系统的数据经过ETL(Extract-Transform-Load,抽取、清洗、转换、装载)处理后被划分为多张不同业务领域的Hive数据表。这些数据表可以仅用于对数据的底层存储,并不对外提供查询服务。
上述数据表中的数据可以通过不同的调度方式与各个高级查询引擎(即上述查询引擎集合中的各个查询引擎)进行对接。其中,Spark查询引擎是提供查询服务的最底层存储引擎,同时,它还负责将数据调度到其他查询引擎中;kylin查询引擎和Phoenix查询引擎是基于Hbase(一个分布式的、面向列的开源数据库)构建的,面向列式存储;Elasticsearch查询引擎是基于Lucene(全文搜索引擎)构建的,面向文档存储;Presto查询引擎和Hive引擎类似,也是基于HDFS的,但它的计算操作在内存中进行,速度是Hive引擎的10倍以上。特别说明的是,Presto查询引擎依赖于Orc格式的底层压缩进行数据存储,需要借助压缩格式转换器将Hive数据表的格式转化为Orc格式,这样才能保证Presto查询引擎的稳定运行。
其中,由于Hive引擎的查询速度较慢,在这里,Hive引擎并不直接对外提供服务,而是由Spark查询引擎统一提供支持。通常情况下,Spark查询引擎可以实现分钟级的响应速度,相比于Hive引擎大约能提升一半的查询性能。此外,Spark查询引擎还负责向其他查询引擎同步数据,定期做增量更新。同时,还可以记录其他查询引擎上数据表的描述信息,包括表名、字段名、字段类型、注释等,将这些信息进行持久化存储,为引擎路由服务(用于通过程序来确定用于访问数据表中的数据的查询引擎)提供支持。
上述Presto查询引擎作为Spark查询引擎的补充,能够提供更快的查询性能。对于业务定制化的数据表,将数据压缩格式设置为Orc格式后,即可使用Presto查询引擎来查询数据表中的数据。
对于秒级查询的场景,可以使用Phoenix查询引擎,依托于HBase强大的存储能力和读写效率,根据业务需求构建合适的索引,并通过Spark查询引擎推送数据。表信息(例如表名、字段名、字段类型、注释)也可以进行持久化存储,从而为引擎路由服务提供支持。
对于指标和维度不会频繁变动的业务场景,可以使用Kylin查询引擎,从而可以实现亚秒级的查询速度。在Kylin查询引擎中配置Cube,并由Spark查询引擎通过应用程序编程接口的方式触发Build操作。由于字段过多会导致Kylin查询引擎的查询效率降低,可以通过一个控制器来周期性触发SQL语句中的Merge操作(用来合并Sql语句中的更新和插入语句,可以根据一张表或子查询的连接条件对另外一张表进行查询,连接条件匹配上的进行更新操作,无法匹配的执行插入操作)。表信息(例如表名、字段名、字段类型、注释)也可以进行持久化存储,从而为引擎路由服务提供支持。
对于需要进行全文检索的场景,可以使用Elasticsearch查询引擎。Spark查询引擎可以将数据提取出来得到矩阵数据表(Dataframe),然后通过函数将其变成JavaRDD(JavaResilient Distributed Datasets,弹性分布式数据集),再调用Bulk API(用于实现批量操作)将数据批量写入。由于Elasticsearch查询引擎的查询语言不是SQL,因此在Elasticsearch查询引擎之上需要部署一套插件(例如Elasticsearch-sql插件),从而为JDBC(Java DataBase Connectivity,java数据库连接)驱动提供支持。
以上列出的是查询引擎集合中的5种查询引擎(即Kylin查询引擎、Phoenix查询引擎、Elasticsearch查询引擎、Presto查询引擎、Spark查询引擎)各自拥有自己的应用场景,因此,可以采用一个引擎路由服务来决定何时使用何种引擎进行查询。表名和与查询引擎可以关联存储于引擎配置库中。当SQL语句(例如目标语句)发送过来时,通过正则匹配的方式获取语句中所有的表名,然后,从上述查询引擎集合中,确定与获取到的表名相关联的查询引擎,作为目标查询引擎。
下面返回图2。
步骤204,响应于目标语句为查询语句,采用目标查询引擎查询目标语句对应的数据表中的数据。
在本实施例中,在步骤201获取到的目标语句为查询语句的情况下,上述执行主体还可以采用步骤203所确定出的目标查询引擎查询目标语句对应的数据表中的数据。其中,查询语句可以是用于查询数据表中的数据的语句。该查询语句可以是符合SQL语法的语句,也可以是符合预先确定的其他语法规则的语句。目标语句对应的数据表可以是目标语句包含的表名指示的数据表。
继续参见图3B,图3B是根据本实施例的用于查询数据的方法的应用场景的一个示意图。在图3B的应用场景中,服务器301首先获取目标语句3011。其中,如图所示,目标语句3011用于查询表名为emp的数据表中的字段为comm的非空数据。目标语句3011包含的数据表的表名“emp”。然后,服务器301对目标语句3011进行解析,得到目标语句3011包含的表名3012(图示中为emp)。之后,服务器301从预先确定的查询引擎集合3013中,确定与表名“emp”相关联的查询引擎,作为目标查询引擎3014。最后,服务器301采用目标查询引擎3014查询目标语句3011对应的数据表3015中的数据。作为示例,图示中,服务器301采用目标查询引擎3014查询目标语句3011对应的数据表3015(即表名emp指示的数据表)中的数据,从而获得了查询结果3016。
本公开的上述实施例提供的用于查询数据的方法,通过获取目标语句,其中,目标语句用于操作数据表中的数据,目标语句包含至少一个数据表的表名,然后,对目标语句进行解析,得到目标语句包含的至少一个表名,之后,从预先确定的查询引擎集合中,确定与至少一个表名相关联的查询引擎,作为目标查询引擎,最后,在目标语句为查询语句的情况下,采用目标查询引擎查询目标语句对应的数据表中的数据,由此,本公开的实施例可以从查询引擎集合中,确定用于操作目标语句对应的数据表中的数据的查询引擎,进而可以用不同的查询引擎来操作不同的目标语句对应的数据表中的数据,基于各个查询引擎的特点进行数据操作,丰富了数据的查询方式,有助于提高数据的查询速度。
在本实施例的一些可选的实现方式中,目标语句也可以包含至少两个数据表的表名。由此,上述步骤202可以包括:对目标语句进行解析,得到目标语句包含的至少两个表名。基于此,上述执行主体可以采用如下方式来执行上述步骤203:
首先,从预先确定的查询引擎集合中,分别确定与至少两个表名中的每个表名相关联的查询引擎。
然后,在所确定出的各个查询引擎指示相同的查询引擎的情况下,将各个查询引擎指示的相同的查询引擎作为目标查询引擎。
可以理解,本可选的实现方式可以在所确定出的各个查询引擎指示相同的查询引擎的情况下,确定出与至少两个表名中的每个表名相关联的目标查询引擎,从而可以通过目标查询引擎查询至少两个表名中的每个表名指示的数据表中的数据。
在本实施例的一些可选的实现方式中,上述执行主体还可以执行如下步骤:
响应于目标语句包含第二预设关键字,采用与第二预设关键字相对应的自定义函数对数据表中的数据进行处理,以对数据表中的数据进行第二预设关键字指示的自定义操作。
其中,上述第二预设关键字可以是预先确定的字符串。与第二预设关键字相对应的自定义函数可以是技术人员针对第二预设关键字编写的函数(也可以称为方法、算子(例如Spark算子))。第二预设关键字与上述第一预设关键字不同。
示例性的,与第二预设关键字“UDF”相对应的自定义函数可以用于处理列变换;与第二预设关键字“UDAF”相对应的自定义函数可以用于对数据表中的多行数据进行聚合;与第二预设关键字“${yesterday}”相对应的自定义函数可以用于获取昨天日期;与第二预设关键字“${last_month}”相对应的自定义函数可以用于获取上月日期;与第二预设关键字“${N_days_ago}”相对应的自定义函数可以用于获取N天以前的日期,其中,N可以为大于2的整数;与第二预设关键字“${M_months_ago}”相对应的自定义函数可以用于获取M个月以前的日期,其中,M可以为大于2的整数。
应当理解,上述与第二预设关键字对应的自定义函数可以由技术人员自行编写,本可选的实现方式对此不再赘述。
可以理解,本可选的实现方式采用与第二预设关键字相对应的自定义函数对数据表中的数据进行处理,从而可以对现有关键字所能实现的功能进行进一步扩展,从而实现面向SQL的高级编程需求,使数据查询更高效、更灵活。
进一步参考图4,其示出了用于查询数据的方法的又一个实施例的流程400。该用于查询数据的方法的流程400,包括以下步骤:
步骤401,获取目标语句。之后,执行步骤402。
在本实施例中,用于查询数据的方法的执行主体(例如图1所示的服务器)可以获取目标语句。其中,目标语句用于操作数据表中的数据,目标语句包含至少两个数据表的表名。
步骤402,对目标语句进行解析,得到目标语句包含的至少两个表名。之后,执行步骤403.
在本实施例中,上述执行主体可以对目标语句进行解析,得到目标语句包含的至少两个表名。
步骤403,从预先确定的查询引擎集合中,分别确定与至少两个表名中的每个表名相关联的查询引擎。之后,执行步骤404。
在本实施例中,上述执行主体可以从预先确定的查询引擎集合中,分别确定与至少两个表名中的每个表名相关联的查询引擎。
步骤404,判断所确定出的各个查询引擎是否指示相同的查询引擎。之后,若是,则执行步骤405;若否,则执行步骤406。
在本实施例中,上述执行主体可以判断所确定出的各个查询引擎是否指示相同的查询引擎。
步骤405,将各个查询引擎指示的相同的查询引擎作为目标查询引擎。之后,执行步骤407。
在本实施例中,在所确定出的各个查询引擎指示相同的查询引擎的情况下,上述执行主体可以将各个查询引擎指示的相同的查询引擎作为目标查询引擎。
步骤406,针对至少两个表名中的每个表名,基于该表名执行如下目标查询引擎确定步骤:响应于该表名指示的数据表中的数据被访问的频次大于或等于预设阈值,并且,响应于接收到用于指示在预先确定的高速引擎中创建该表名指示的数据表的创建信息,在高速引擎中创建该表名指示的数据表,以及将数据表创建后的高速引擎作为目标查询引擎。之后,执行步骤407。
在本实施例中,在所确定出的各个查询引擎并非指示相同的查询引擎(即所确定出的各个查询引擎中存在至少两个不同的查询引擎)的情况下,上述执行主体可以针对至少两个表名中的每个表名,基于该表名执行如下目标查询引擎确定步骤:响应于该表名指示的数据表中的数据被访问的频次大于或等于预设阈值,并且,响应于接收到用于指示在预先确定的高速引擎中创建该表名指示的数据表的创建信息,在高速引擎中创建该表名指示的数据表,以及将数据表创建后的高速引擎作为目标查询引擎。其中,上述高速引擎可以是内存计算引擎。作为示例,高速引擎可以是Presto查询引擎,也可以是Spark查询引擎。上述创建信息可以是用户端(即用户使用的电子设备)发送的、用于指示是否在高速引擎中创建数据表的信息。
步骤407,响应于目标语句为查询语句,采用目标查询引擎查询目标语句对应的数据表中的数据。
在本实施例中,在目标语句为查询语句的情况下,上述执行主体可以采用目标查询引擎查询目标语句对应的数据表中的数据。
需要说明的是,除上面所记载的内容外,本实施例还可以包括与图2对应的实施例相同或类似的特征、效果,在此不再赘述。
从图4中可以看出,本实施例中的用于查询数据的方法的流程400可以针对不同的应用场景,采用查询引擎集合中的不同查询引擎来实现数据表中数据的操作,从而进一步丰富了数据的查询方式,提高了数据的查询速度。
在本实施例的一些可选的实现方式中,上述可选的实现方式中的目标查询引擎确定步骤还包括:
响应于该表名指示的数据表中的数据被访问的频次大于或等于预设阈值,并且,响应于接收到用于指示不在预先确定的高速引擎中创建该表名指示的数据表的创建信息,将查询引擎集合中的第一查询引擎作为目标查询引擎。其中,第一查询引擎可以是查询引擎集合中的任一查询引擎,也可以是查询引擎集合中的预先确定的查询引擎。作为示例,该第一查询引擎可以是Presto查询引擎。
可以理解,本可选的实现方式可以在不在预先确定的高速引擎中创建该表名指示的数据表的情况下,采用第一查询引擎来查询目标语句对应的数据表中的数据,从而可以省略创建该表名指示的数据表的步骤,提高本次访问该数据表中的数据的速度。
在本实施例的一些可选的实现方式中,目标语句获取自用户端。由此,上述执行主体可以采用如下方式,来执行上述可选的实现方式中的“在高速引擎中创建该表名指示的数据表”:
第一步,向用户端发送该表名指示的数据表中的各个字段。
第二步,获取用户端返回的、用户从各个字段中选取的字段。
第三步,基于所选取的字段,在高速引擎中创建该表名指示的数据表。其中,所创建的该表名指示的数据表中的字段为用户从各个字段中选取的字段。
可以理解,在上述执行主体向用户端发送该表名指示的数据表中的所有字段之后,用户端可以呈现所接收到的各个字段,接着,用户可以通过其所使用的用户端从该表名指示的数据表中的所有字段中选取一个或多个字段。在这里,用户可以根据实际需求来进行字段的选取,例如,用户可以选取该数据表中访问频次大于或等于预设频次阈值的字段,也可以首先确定该数据表中各个字段占用的存储空间,从而选取所占用的存储空间小于或等于预设阈值的字段。
可以理解,本可选的实现方式可以根据用户选取的字段,在高速引擎中创建该表名指示的数据表,从而使得所创建的数据表中不包含用户未选择的字段,相对于在高速引擎中采用数据表中的全部字段创建数据表的方案,当高速引擎为内存计算引擎时,本可选的实现方式可以减少所创建的数据表占用的内存空间,提高后续访问所创建的数据表中的数据的速度。
在本实施例的一些可选的实现方式中,上述执行主体还可以执行如下步骤:
响应于采用第一查询引擎未查询到目标语句对应的数据表中的数据,采用第二查询引擎查询目标语句对应的数据表中的数据。其中,第二查询引擎为查询引擎集合中的不同于第一查询引擎的查询引擎。
在这里,上述第二查询引擎可以是查询引擎集合中不同于第一查询引擎的任一查询引擎,也可以是查询引擎集合中不同于第一查询引擎的、预先确定的查询引擎。作为示例,当查询引擎集合由Kylin查询引擎、Phoenix查询引擎、Elasticsearch查询引擎、Presto查询引擎、Spark查询引擎组成时,第一查询引擎可以是Presto查询引擎,第二查询引擎可以是Spark查询引擎。
可以理解,由于查询引擎集合中的各个查询引擎可能适合用于查询不同的存储形式的数据,因而,对于某个查询引擎,可能由于目标语句对应的数据表中的数据的存储形式与其所适合查询的数据的存储形式不同,进而导致该查询引擎未查询到目标语句对应的数据表中的数据,在此场景下,可以采用不同于第一查询引擎的第二查询引擎来查询目标语句对应的数据表中的数据,从而获得查询结果,由此丰富了数据的查询方式。
作为示例,请继续参考图5,图5是根据本公开的用于查询数据的方法的又一个应用场景的示意图。该用于查询数据的方法的示例可以通过如下步骤(包括步骤501-步骤514)来实现:
步骤501,从用户端获取目标语句。之后,执行步骤502。
在本示例中,用于查询数据的方法的执行主体(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式从用户端获取目标语句。其中,目标语句用于操作数据表中的数据,目标语句包含至少两个数据表的表名。
步骤502,对目标语句进行解析,得到目标语句包含的至少两个表名。之后,执行步骤503。
在本示例中,上述执行主体可以对目标语句进行解析,得到目标语句包含的至少两个表名。
步骤503,从预先确定的查询引擎集合中,分别确定与至少两个表名中的每个表名相关联的查询引擎。之后,执行步骤504。
在本示例中,上述执行主体可以从预先确定的查询引擎集合中,分别确定与至少两个表名中的每个表名相关联的查询引擎
步骤504,判断所确定出的各个查询引擎是否指示相同的查询引擎。之后,若所确定出的各个查询引擎指示相同的查询引擎,则执行步骤505;若所确定出的各个查询引擎并非指示相同的查询引擎,也即所确定出的各个查询引擎中存在至少两个不同的查询引擎,则执行步骤506。
在本示例中,上述执行主体可以判断所确定出的各个查询引擎是否指示相同的查询引擎。
步骤505,将各个查询引擎指示的相同的查询引擎作为目标查询引擎。之后,执行步骤512。
在本示例中,在所确定出的各个查询引擎指示相同的查询引擎的情况下,上述执行主体可以将各个查询引擎指示的相同的查询引擎作为目标查询引擎。
步骤506,从上述至少两个表名中选取一个表名。之后,执行步骤507。
在本示例中,在所确定出的各个查询引擎并非指示相同的查询引擎(即所确定出的各个查询引擎中存在至少两个不同的查询引擎)的情况下,上述执行主体可以从上述至少两个表名中选取一个表名。
步骤507,判断该表名指示的数据表中的数据被访问的频次是否大于或等于预设阈值。之后,若该表名指示的数据表中的数据被访问的频次大于或等于预设阈值,则执行步骤508。
在本示例中,上述执行主体可以判断该表名指示的数据表中的数据被访问的频次是否大于或等于预设阈值。
步骤508,确定是否接收到用于指示在预先确定的高速引擎中创建该表名指示的数据表的创建信息。之后,若接收到用于指示在预先确定的高速引擎中创建该表名指示的数据表的创建信息,则执行步骤509;若未接收到用于指示在预先确定的高速引擎中创建该表名指示的数据表的创建信息,或者,若接收到用于指示不在预先确定的高速引擎中创建该表名指示的数据表的创建信息,则执行步骤510。
在本示例中,在步骤507判断该表名指示的数据表中的数据被访问的频次大于或等于预设阈值的情况下,上述执行主体可以确定是否接收到用于指示在预先确定的高速引擎中创建该表名指示的数据表的创建信息。
步骤509,向用户端发送该表名指示的数据表中的各个字段,获取用户端返回的、用户从各个字段中选取的字段,基于所选取的字段,在高速引擎中创建该表名指示的数据表,以及将数据表创建后的高速引擎作为目标查询引擎。之后,执行步骤511。
在本示例中,在步骤508确定接收到用于指示在预先确定的高速引擎中创建该表名指示的数据表的创建信息的情况下,上述执行主体可以向用户端发送该表名指示的数据表中的各个字段,获取用户端返回的、用户从各个字段中选取的字段,基于所选取的字段,在高速引擎中创建该表名指示的数据表,以及将数据表创建后的高速引擎作为目标查询引擎。其中,所创建的该表名指示的数据表中的字段为用户从各个字段中选取的字段。
步骤510,将查询引擎集合中的第一查询引擎作为目标查询引擎。之后,执行步骤511。
在本示例中,在步骤508确定未接收到用于指示在预先确定的高速引擎中创建该表名指示的数据表的创建信息,或者,若接收到用于指示不在预先确定的高速引擎中创建该表名指示的数据表的创建信息的情况下,上述执行主体可以将查询引擎集合中的第一查询引擎作为目标查询引擎。
步骤511,判断上述至少两个表名中,是否存在未被选取的表名。之后,若上述至少两个表名中存在未被选取的表名,则执行步骤513;若上述至少两个表名中不存在未被选取的表名,则执行步骤512。
在本示例中,上述执行主体可以判断上述至少两个表名中,是否存在未被选取的表名。
步骤512,响应于目标语句为查询语句,采用目标查询引擎查询目标语句对应的数据表中的数据。之后,执行步骤514。
在本示例中,在步骤511判断上述至少两个表名中存在未被选取的表名,并且,目标语句为查询语句的情况下,上述执行主体可以采用目标查询引擎查询目标语句对应的数据表中的数据。
步骤513,从上述至少两个表名中选取未被选取过的表名。之后,执行步骤507。
在本示例中,在步骤511判断上述至少两个表名中不存在未被选取的表名,并且,上述执行主体可以从上述至少两个表名中选取未被选取过的表名。
步骤514,响应于采用第一查询引擎未查询到目标语句对应的数据表中的数据,采用第二查询引擎查询目标语句对应的数据表中的数据。
在本示例中,在采用第一查询引擎未查询到目标语句对应的数据表中的数据的情况下,上述执行主体可以采用第二查询引擎查询目标语句对应的数据表中的数据。其中,第二查询引擎为查询引擎集合中的不同于第一查询引擎的查询引擎。
从图5中可以看出,本应用场景中的用于查询数据的方法可以针对不同的应用场景,采用查询引擎集合中的不同查询引擎来实现数据表中数据的操作,可以提供分钟级、秒级、甚至亚秒级的查询服务。同时,能够满足更加丰富的语法表达能力,支持简单的控制逻辑,简化时间处理、文本处理、集合处理的逻辑,使用户能够灵活的使用类结构化查询语言语法实现复杂的业务查询任务。
进一步参考图6,作为对上述图2所示方法的实现,本公开提供了一种用于查询数据的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,除下面所记载的特征外,该装置实施例还可以包括与图2所示的方法实施例相同或相应的特征,以及产生与图2所示的方法实施例相同或相应的效果。该装置具体可以应用于各种电子设备中。
如图6所示,本实施例的用于查询数据的装置600包括:获取单元601被配置成获取目标语句,其中,目标语句用于操作数据表中的数据,目标语句包含至少一个数据表的表名;解析单元602被配置成对目标语句进行解析,得到目标语句包含的至少一个表名;第一确定单元603被配置成从预先确定的查询引擎集合中,确定与至少一个表名相关联的查询引擎,作为目标查询引擎;第一查询单元604被配置成响应于目标语句为查询语句,采用目标查询引擎查询目标语句对应的数据表中的数据。
在本实施例中,用于查询数据的装置600的获取单元601可以通过有线连接方式或者无线连接方式从其他电子设备(例如图1所示的终端设备)或者本地获取目标语句。其中,目标语句用于操作数据表中的数据,目标语句包含至少一个数据表的表名。作为示例,目标语句可以是用于对数据表中的数据进行以下至少一项操作的语句:增加、删除、修改、查找。
在本实施例中,上述解析单元602可以对获取单元601获取到的目标语句进行解析,得到目标语句包含的至少一个表名。其中,上述解析单元602可以解析得到目标语句中所包含的所有的表名,然而,当目标语句中包含相同的表名时,上述装置600也可以解析得到目标语句中包含的彼此不同的表名。
在本实施例中,上述第一确定单元603可以从预先确定的查询引擎集合中,确定与至少一个表名相关联的查询引擎,作为目标查询引擎。其中,上述查询引擎集合中的查询引擎可以是现有的任一查询引擎,例如,Kylin查询引擎、Phoenix查询引擎、Elasticsearch查询引擎、Presto查询引擎、Spark查询引擎等等;也可以是技术人员搭建的查询引擎。
在本实施例中,在获取单元601获取到的目标语句为查询语句的情况下,上述第一查询单元604还可以采用第一确定单元603所确定出的目标查询引擎查询目标语句对应的数据表中的数据。其中,查询语句可以是用于查询数据表中的数据的语句。该查询语句可以是符合SQL语法的语句,也可以是符合预先确定的其他语法规则的语句。
在本实施例的一些可选的实现方式中,目标语句包含至少两个数据表的表名;以及,解析单元602,进一步被配置成:对目标语句进行解析,得到目标语句包含的至少两个表名。以及,第一确定单元603,进一步被配置成:从预先确定的查询引擎集合中,分别确定与至少两个表名中的每个表名相关联的查询引擎;响应于所确定出的各个查询引擎指示相同的查询引擎,将各个查询引擎指示的相同的查询引擎作为目标查询引擎。
在本实施例的一些可选的实现方式中,该装置600包括:第二确定单元(图中未示出),被配置成响应于所确定出的各个查询引擎中存在至少两个不同的查询引擎,针对至少两个表名中的每个表名,基于该表名执行如下目标查询引擎确定步骤:响应于该表名指示的数据表中的数据被访问的频次大于或等于预设阈值,并且,响应于接收到用于指示在预先确定的高速引擎中创建该表名指示的数据表的创建信息,在高速引擎中创建该表名指示的数据表,以及将数据表创建后的高速引擎作为目标查询引擎。
在本实施例的一些可选的实现方式中,目标查询引擎确定步骤还包括:响应于该表名指示的数据表中的数据被访问的频次大于或等于预设阈值,并且,响应于接收到用于指示不在预先确定的高速引擎中创建该表名指示的数据表的创建信息,将查询引擎集合中的第一查询引擎作为目标查询引擎。
在本实施例的一些可选的实现方式中,目标语句获取自用户端;以及,第二确定单元(图中未示出),可以进一步被配置成:向用户端发送该表名指示的数据表中的各个字段;获取用户端返回的、用户从各个字段中选取的字段;基于所选取的字段,在高速引擎中创建该表名指示的数据表,其中,所创建的该表名指示的数据表中的字段为用户从各个字段中选取的字段。
在本实施例的一些可选的实现方式中,该装置600还包括:第二查询单元(图中未示出),被配置成响应于采用第一查询引擎未查询到目标语句对应的数据表中的数据,采用第二查询引擎查询目标语句对应的数据表中的数据,其中,第二查询引擎为查询引擎集合中的不同于第一查询引擎的查询引擎。
在本实施例的一些可选的实现方式中,解析单元602可以进一步被配置成:采用预先确定的正则表达式对目标语句进行匹配,得到目标语句包含的至少一个表名。
在本实施例的一些可选的实现方式中,解析单元602也可以进一步被配置成:响应于目标语句包含第一预设关键字,按照针对第一预设关键字建立的解析规则,将目标语句解析为结构化查询语言;从结构化查询语言中提取至少一个表名。
在本实施例的一些可选的实现方式中,该装置600还包括:处理单元(图中未示出),被配置成响应于目标语句包含第二预设关键字,采用与第二预设关键字相对应的自定义函数对数据表中的数据进行处理,以对数据表中的数据进行第二预设关键字指示的自定义操作。
本公开的上述实施例提供的用于查询数据的装置,通过获取单元601获取目标语句,其中,目标语句用于操作数据表中的数据,目标语句包含至少一个数据表的表名,然后,解析单元602对目标语句进行解析,得到目标语句包含的至少一个表名,之后,第一确定单元603从预先确定的查询引擎集合中,确定与至少一个表名相关联的查询引擎,作为目标查询引擎,最后,响应于目标语句为查询语句,第一查询单元604采用目标查询引擎查询目标语句对应的数据表中的数据,由此,本公开的上述实施例提供的用于查询数据的装置可以从查询引擎集合中,确定用于操作目标语句对应的数据表中的数据的查询引擎,进而可以用不同的查询引擎来操作不同的目标语句对应的数据表中的数据,基于各个查询引擎的特点进行数据操作,丰富了数据的查询方式,有助于提高数据的查询速度。
下面参考图7,其示出了适于用来实现本公开的实施例的电子设备(例如图1中的服务器或终端设备)700的结构示意图。本公开的实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图7示出的终端设备/服务器仅仅是一个示例,不应对本公开的实施例的功能和使用范围带来任何限制。
如图7所示,电子设备700可以包括处理装置(例如中央处理器、图形处理器等)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储装置708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有电子设备700操作所需的各种程序和数据。处理装置701、ROM 702以及RAM703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
通常,以下装置可以连接至I/O接口705:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置706;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置707;包括例如磁带、硬盘等的存储装置708;以及通信装置709。通信装置709可以允许电子设备700与其他设备进行无线或有线通信以交换数据。虽然图7示出了具有各种装置的电子设备700,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图7中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置709从网络上被下载和安装,或者从存储装置708被安装,或者从ROM 702被安装。在该计算机程序被处理装置701执行时,执行本公开的实施例的方法中限定的上述功能。
需要说明的是,本公开的实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取目标语句,其中,目标语句用于操作数据表中的数据,目标语句包含至少一个数据表的表名;对目标语句进行解析,得到目标语句包含的至少一个表名;从预先确定的查询引擎集合中,确定与至少一个表名相关联的查询引擎,作为目标查询引擎;响应于目标语句为查询语句,采用目标查询引擎查询目标语句对应的数据表中的数据。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的实施例的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开的实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元、解析单元、第一确定单元和第一查询单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取目标语句的单元”。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (12)
1.一种用于查询数据的方法,包括:
获取目标语句,其中,所述目标语句用于操作数据表中的数据,所述目标语句包含至少一个数据表的表名;
对所述目标语句进行解析,得到所述目标语句包含的所述至少一个表名;
从预先确定的查询引擎集合中,确定与所述至少一个表名相关联的查询引擎,作为目标查询引擎;
响应于所述目标语句为查询语句,采用所述目标查询引擎查询所述目标语句对应的数据表中的数据。
2.根据权利要求1所述的方法,其中,所述目标语句包含至少两个数据表的表名;以及
所述对所述目标语句进行解析,得到所述目标语句包含的所述至少一个表名,包括:
对所述目标语句进行解析,得到所述目标语句包含的所述至少两个表名;以及
所述从预先确定的查询引擎集合中,确定与所述至少一个表名相关联的查询引擎,作为目标查询引擎,包括:
从预先确定的查询引擎集合中,分别确定与所述至少两个表名中的每个表名相关联的查询引擎;
响应于所确定出的各个查询引擎指示相同的查询引擎,将所述各个查询引擎指示的相同的查询引擎作为目标查询引擎。
3.根据权利要求2所述的方法,其中,在所述响应于所述目标语句为查询语句,采用所述目标查询引擎查询所述目标语句对应的数据表中的数据之前,所述方法包括:
响应于所确定出的各个查询引擎中存在至少两个不同的查询引擎,针对所述至少两个表名中的每个表名,基于该表名执行如下目标查询引擎确定步骤:响应于该表名指示的数据表中的数据被访问的频次大于或等于预设阈值,并且,响应于接收到用于指示在预先确定的高速引擎中创建该表名指示的数据表的创建信息,在所述高速引擎中创建该表名指示的数据表,以及将数据表创建后的高速引擎作为目标查询引擎。
4.根据权利要求3所述的方法,其中,所述目标查询引擎确定步骤还包括:
响应于该表名指示的数据表中的数据被访问的频次大于或等于预设阈值,并且,响应于接收到用于指示不在预先确定的高速引擎中创建该表名指示的数据表的创建信息,将所述查询引擎集合中的第一查询引擎作为目标查询引擎。
5.根据权利要求3所述的方法,其中,所述目标语句获取自用户端;以及
所述在所述高速引擎中创建该表名指示的数据表,包括:
向所述用户端发送该表名指示的数据表中的各个字段;
获取所述用户端返回的、用户从所述各个字段中选取的字段;
基于所选取的字段,在所述高速引擎中创建该表名指示的数据表,其中,所创建的该表名指示的数据表中的字段为所述用户从所述各个字段中选取的字段。
6.根据权利要求4所述的方法,其中,所述方法还包括:
响应于采用所述第一查询引擎未查询到所述目标语句对应的数据表中的数据,采用第二查询引擎查询所述目标语句对应的数据表中的数据,其中,所述第二查询引擎为所述查询引擎集合中的不同于所述第一查询引擎的查询引擎。
7.根据权利要求1-6之一所述的方法,其中,所述对所述目标语句进行解析,得到所述目标语句包含的所述至少一个表名,包括:
采用预先确定的正则表达式对所述目标语句进行匹配,得到所述目标语句包含的所述至少一个表名。
8.根据权利要求1-6之一所述的方法,其中,所述对所述目标语句进行解析,得到所述目标语句包含的所述至少一个表名,包括:
响应于所述目标语句包含第一预设关键字,按照针对所述第一预设关键字建立的解析规则,将所述目标语句解析为结构化查询语言;
从所述结构化查询语言中提取所述至少一个表名。
9.根据权利要求1-6之一所述的方法,其中,所述方法还包括:
响应于所述目标语句包含第二预设关键字,采用与所述第二预设关键字相对应的自定义函数对数据表中的数据进行处理,以对数据表中的数据进行所述第二预设关键字指示的自定义操作。
10.一种用于查询数据的装置,包括:
获取单元,被配置成获取目标语句,其中,所述目标语句用于操作数据表中的数据,所述目标语句包含至少一个数据表的表名;
解析单元,被配置成对所述目标语句进行解析,得到所述目标语句包含的所述至少一个表名;
第一确定单元,被配置成从预先确定的查询引擎集合中,确定与所述至少一个表名相关联的查询引擎,作为目标查询引擎;
第一查询单元,被配置成响应于所述目标语句为查询语句,采用所述目标查询引擎查询所述目标语句对应的数据表中的数据。
11.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。
12.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-9中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911051553.9A CN112307061A (zh) | 2019-10-31 | 2019-10-31 | 用于查询数据的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911051553.9A CN112307061A (zh) | 2019-10-31 | 2019-10-31 | 用于查询数据的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112307061A true CN112307061A (zh) | 2021-02-02 |
Family
ID=74485203
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911051553.9A Pending CN112307061A (zh) | 2019-10-31 | 2019-10-31 | 用于查询数据的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112307061A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114138830A (zh) * | 2021-11-15 | 2022-03-04 | 紫金诚征信有限公司 | 一种大数据海量数据秒级查询方法、装置及计算机介质 |
CN114357276A (zh) * | 2021-12-23 | 2022-04-15 | 北京百度网讯科技有限公司 | 数据查询方法、装置、电子设备以及存储介质 |
CN114817299A (zh) * | 2022-05-17 | 2022-07-29 | 在线途游(北京)科技有限公司 | 一种基于udaf的数据分析方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006059049A (ja) * | 2004-08-19 | 2006-03-02 | Fuji Xerox Co Ltd | 情報検索システム、情報検索方法及び情報検索プログラム |
US20080250057A1 (en) * | 2005-09-27 | 2008-10-09 | Rothstein Russell I | Data Table Management System and Methods Useful Therefor |
CN105975617A (zh) * | 2016-05-20 | 2016-09-28 | 北京京东尚科信息技术有限公司 | 一种多分区表查询处理的方法和装置 |
WO2018095351A1 (zh) * | 2016-11-28 | 2018-05-31 | 中兴通讯股份有限公司 | 搜索处理方法及装置 |
CN108572963A (zh) * | 2017-03-09 | 2018-09-25 | 北京京东尚科信息技术有限公司 | 信息获取方法和装置 |
CN109710859A (zh) * | 2019-01-21 | 2019-05-03 | 北京字节跳动网络技术有限公司 | 数据查询方法和装置 |
CN110222072A (zh) * | 2019-06-06 | 2019-09-10 | 江苏满运软件科技有限公司 | 数据查询平台、方法、设备和存储介质 |
-
2019
- 2019-10-31 CN CN201911051553.9A patent/CN112307061A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006059049A (ja) * | 2004-08-19 | 2006-03-02 | Fuji Xerox Co Ltd | 情報検索システム、情報検索方法及び情報検索プログラム |
US20080250057A1 (en) * | 2005-09-27 | 2008-10-09 | Rothstein Russell I | Data Table Management System and Methods Useful Therefor |
CN105975617A (zh) * | 2016-05-20 | 2016-09-28 | 北京京东尚科信息技术有限公司 | 一种多分区表查询处理的方法和装置 |
WO2018095351A1 (zh) * | 2016-11-28 | 2018-05-31 | 中兴通讯股份有限公司 | 搜索处理方法及装置 |
CN108121709A (zh) * | 2016-11-28 | 2018-06-05 | 中兴通讯股份有限公司 | 一种搜索处理方法及装置 |
CN108572963A (zh) * | 2017-03-09 | 2018-09-25 | 北京京东尚科信息技术有限公司 | 信息获取方法和装置 |
CN109710859A (zh) * | 2019-01-21 | 2019-05-03 | 北京字节跳动网络技术有限公司 | 数据查询方法和装置 |
CN110222072A (zh) * | 2019-06-06 | 2019-09-10 | 江苏满运软件科技有限公司 | 数据查询平台、方法、设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
KONSTANTINOS A. VOULGARIS 等: ""Accelerated Search for Non-Negative Greedy Sparse Decomposition via Dimensionality Reduction"", 2019 SENSOR SIGNAL PROCESSING FOR DEFENCE CONFERENCE (SSPD) * |
程龙: ""关系-XML双引擎数据库管理系统CoSQLRX中XML数据索引的研究与实现"", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114138830A (zh) * | 2021-11-15 | 2022-03-04 | 紫金诚征信有限公司 | 一种大数据海量数据秒级查询方法、装置及计算机介质 |
CN114357276A (zh) * | 2021-12-23 | 2022-04-15 | 北京百度网讯科技有限公司 | 数据查询方法、装置、电子设备以及存储介质 |
CN114357276B (zh) * | 2021-12-23 | 2023-08-22 | 北京百度网讯科技有限公司 | 数据查询方法、装置、电子设备以及存储介质 |
CN114817299A (zh) * | 2022-05-17 | 2022-07-29 | 在线途游(北京)科技有限公司 | 一种基于udaf的数据分析方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10783124B2 (en) | Data migration in a networked computer environment | |
CN110096584B (zh) | 一种应答方法和装置 | |
CN109614402B (zh) | 多维数据查询方法和装置 | |
WO2023029854A1 (zh) | 数据查询方法、装置、存储介质及电子设备 | |
CN112307061A (zh) | 用于查询数据的方法和装置 | |
US10866960B2 (en) | Dynamic execution of ETL jobs without metadata repository | |
US10423617B2 (en) | Remote query optimization in multi data sources | |
CN115344688B (zh) | 业务数据展示方法、装置、电子设备和计算机可读介质 | |
CN110888839A (zh) | 数据存储及数据搜索方法和装置 | |
CN115168362A (zh) | 数据处理方法、装置、可读介质及电子设备 | |
CN113190517A (zh) | 数据集成方法、装置、电子设备和计算机可读介质 | |
CN114969044B (zh) | 一种基于数据湖的物化列创建方法以及数据查询方法 | |
CN116860941A (zh) | 问答方法、装置、电子设备及存储介质 | |
WO2023164294A1 (en) | Query splitter for an inverted index datastore | |
CN110941683B (zh) | 获取空间中对象属性信息的方法、装置、介质和电子设备 | |
CN113760240A (zh) | 一种生成数据模型的方法和装置 | |
CN113312331A (zh) | 数据迁移方法、装置、系统、电子设备及计算机可读介质 | |
CN113448957A (zh) | 一种数据查询方法和装置 | |
CN111581237B (zh) | 数据查询方法、装置、系统及电子设备 | |
CN111859028B (zh) | 创建用于流式存储的索引的方法、设备和计算机程序产品 | |
CN111177183B (zh) | 一种生成数据库访问语句的方法和装置 | |
CN117349288A (zh) | 基于联机分析处理的数据查询方法、装置和电子设备 | |
CN117349290A (zh) | 基于联机分析处理的数据处理方法、装置和电子设备 | |
CN117251214A (zh) | 基于分布式数据库Apache Hudi表格式数据操作指令的执行方法 | |
CN115994151A (zh) | 数据请求变更方法、装置、电子设备和计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |