CN111611418A - 数据存储方法及数据查询方法 - Google Patents
数据存储方法及数据查询方法 Download PDFInfo
- Publication number
- CN111611418A CN111611418A CN201910139006.XA CN201910139006A CN111611418A CN 111611418 A CN111611418 A CN 111611418A CN 201910139006 A CN201910139006 A CN 201910139006A CN 111611418 A CN111611418 A CN 111611418A
- Authority
- CN
- China
- Prior art keywords
- data
- feature vector
- directory address
- feature
- query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 93
- 238000013500 data storage Methods 0.000 title claims abstract description 37
- 239000013598 vector Substances 0.000 claims abstract description 156
- 238000013523 data management Methods 0.000 claims abstract description 16
- 238000000605 extraction Methods 0.000 claims description 75
- 238000012545 processing Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000000691 measurement method Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 238000012549 training Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000007723 transport mechanism Effects 0.000 description 2
- 238000012384 transportation and delivery Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/532—Query formulation, e.g. graphical querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2237—Vectors, bitmaps or matrices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24573—Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据存储方法和数据查询方法。其中,数据存储方法包括步骤:判断待存储的数据是否属于预定数据类型;若该数据属于预定数据类型,则将该数据存储至第一存储区域并获取该数据的目录地址;提取该数据的特征向量;以及将数据的特征向量与目录地址关联存储至第二存储区域。本发明还公开了相应的数据管理系统及计算设备。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及数据存储方法和数据查询方法。
背景技术
传统的应用于数据库管理系统中的查询语言(如,SQL),都是针对结构化数据,以实现数据的存取、查询、更新和管理。然而,传统的语义检索方法,一般都是基于数据本身,并不会去理解数据背后的含义。
随着人工智能领域的飞速发展,音视频、图像、文本等非结构化数据得到越来越多的应用。对于这些非结构化数据,其本身的语义要通过识别才能得知。因此,对于这类数据的处理,常需要得到其背后的含义。
在现有的一些数据库系统中,可以支持向量的存储和检索。这样,在用户使用该数据库查询非结构化数据时,以图像为例,需要在数据库外部,调用专门的服务将图像转换成向量,然后再将向量存入数据库,在后期查询/检索时,用户也通过向量来进行检索。这种处理方式,一方面过程比较繁杂,另一方面对用户要求过高,用户需要将图像转换成向量,并且向量对于用户来说,没有直观的含义,这就增加了用户成本。
鉴于此,需要一种既能够支持结构化数据、又能够支持非结构化数据的数据管理方法,来实现对数据的存储、查询/检索等。
发明内容
为此,本发明提供了一种数据存储方法及数据查询方法,以力图解决或至少缓解上面存在的至少一个问题。
根据本发明的一个方面,提供了一种数据存储方法,包括步骤:判断待存储的数据是否属于预定数据类型;若该数据属于预定数据类型,则将该数据存储至第一存储区域并获取该数据的目录地址;提取该数据的特征向量;以及将该数据的特征向量与目录地址关联存储至第二存储区域。
可选地,根据本发明的数据存储方法还包括步骤:若经判断后确认待存储的数据不属于预定数据类型,则将该数据存储至第二存储区域。
可选地,在根据本发明的数据存储方法中,提取该数据的特征向量的步骤包括:将该数据的目录地址输入特征提取模型,以输出该数据的特征向量。
可选地,根据本发明的数据存储方法还包括步骤:获取数据的描述信息,并与该数据的目录地址关联存储,其中描述信息至少包括:用于提取特征向量的特征提取模型和用于计算特征相似度的度量方法。
可选地,在根据本发明的数据存储方法中,提取数据的特征向量的步骤还包括:基于数据的描述信息和目录地址,提取出该数据对应的特征向量,更具体地,根据数据的描述信息,获取该数据对应的用于提取特征向量的特征提取模型;将该目录地址输入该特征提取模型,以输出该数据对应的特征向量。
可选地,在根据本发明的数据存储方法中,预定数据类型包括以下数据类型中的一种或多种:文本、图片、XML、HTML、图像、音频、视频。
根据本发明的另一个方面,提供了一种数据存储装置,包括:判断单元,适于判断待存储的数据是否属于预定数据类型;第一存储单元,适于在该数据属于预定数据类型时,存储该数据并生成该数据的目录地址;特征提取单元,适于提取该数据的特征向量;以及第二存储单元,适于关联存储数据的特征向量与目录地址。
可选地,根据本发明的数据存储装置还包括:元数据存储单元,适于在待存储数据属于预定数据类型时,获取数据的描述信息,并与该数据的目录地址关联存储。
根据本发明的再一个方面,提供了一种数据查询方法,包括步骤:生成至少一个待查询的特征向量;确定与待查询的特征向量相似的至少一个特征向量;获取与所确定的至少一个特征向量相关联的至少一个目录地址;以及确定所获取的至少一个目录地址所指向的至少一个数据,作为目标数据。
根据本发明的再一个方面,提供了一种数据查询方法,包括步骤:获取至少一个待查询的特征向量;确定与待查询的特征向量相似的至少一个特征向量;获取与所确定的至少一个特征向量相关联的至少一个目录地址;以及确定所获取的至少一个目录地址所指向的至少一个数据,作为目标数据。
根据本发明的又一个方面,提供了一种数据查询装置,包括:判断单元,适于判断查询信息中是否包含预定数据类型;特征计算单元,适于基于查询信息,生成至少一个待查询的特征向量,还适于确定与待查询的特征向量相似的至少一个特征向量;第一查询单元,适于从第二存储区域中获取与所确定的至少一个特征向量相关联的至少一个目录地址;第二查询单元,适于从第一存储区域中确定所获取的至少一个目录地址所指向的至少一个数据,作为目标数据。
根据本发明的又一个方面,提供了一种数据管理系统,包括:如上所述的数据存储装置和如上所述的数据查询装置。
根据本发明的又一个方面,提供了一种计算设备,包括:至少一个处理器;和存储有程序指令的存储器,其中,程序指令被配置为适于由至少一个处理器执行,程序指令包括用于执行如上所述的数据存储方法和数据查询方法的指令。
根据本发明的又一个方面,提供了一种存储有程序指令的可读存储介质,当程序指令被计算设备读取并执行时,使得该计算设备执行如上所述的数据存储方法和数据查询方法。
根据本发明的方案,将结构化数据与非结构化数据分别存储,如,在第一存储区域内存储非结构化数据,在第二存储区域内存储结构化数据;并通过内置的特征提取服务来生成非结构化数据的特征向量,将其与非结构化数据的存储地址(即目录地址)关联存储至第二存储区域。这样就可以直接支持各种非结构化数据的存储。同时,基于这种数据存储方式,除了能够支持结构化数据的查询外,还可以支持对各种非结构化数据基于语义的查询。此外,用户不需要深入了解相关的深度学习算法和特征提取模型,能够有效降低用户的理解和使用成本。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明一个实施例的数据管理系统100的环境示意图;
图2示出了根据本发明一个实施例的数据管理系统100的示意图;
图3示出了根据本发明一个实施例的计算设备300的示意图;
图4示出了根据本发明一个实施例的数据存储方法400的流程图;以及
图5示出了根据本发明一个实施例的数据查询方法500的流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的数据管理系统100的环境示意图。如图1所示,数据管理系统100与客户端200之间通信连接。虽然在图1中仅仅示出了3个客户端200,但是应当理解,在实践中,存在有相当大量的客户端200,这个客户端200具有各自形式,包括但不限于移动终端、个人计算机、个人数字助理等。本发明不受限于客户端200的类型,只要用户可以利用客户端200向数据管理系统100发出存储数据的请求和/或查询数据的请求,并接收系统100返回的结果在客户端200中显示即可。
例如,客户端200可以是计算设备,通过安装在计算设备上的应用向系统100发出存储数据的请求,将结构化数据和/或非结构化数据存入系统100中对应的位置。同时,系统100又可以利用这些已存储的数据为客户端200提供查询/检索服务。又如,客户端200可以是移动终端,通过安装在移动终端上的应用向系统100发出查询数据的请求,并且在移动终端的界面上显示查询结果。
图2示出了根据本发明一个实施例的数据管理系统100的示意图。如图2所示,根据本发明实施例的数据管理系统100包括数据存储装置110和数据查询装置120。根据本发明的实施方式,数据存储装置110主要用于存储数据,在根据本发明的实施例中,所存储的数据既可以是结构化的数据,也可以是诸如文本、图片、XML、HTML、图像、音频、视频类的非结构化数据。当用户发起存储数据的操作请求时,响应于用户存储数据的操作,根据待存储数据的数据类型将该数据存入相应的存储区域。根据一种实施例,若待存储数据属于非结构化数据(例如文本、图片、XML、HTML、图像、音频、视频),则将该数据存入第一存储区域;若待存储数据属于结构化数据,则将该数据存入第二存储区域。同时,提取第一存储区域内所存储数据的特征向量,并将特征向量与该数据的目录地址(即,该数据在第一存储区域的位置)关联存储在第二存储区域内。
数据查询装置120主要用来供用户查询/检索数据。在根据本发明的实施例中,用户通过输入查询信息来进行查询,该查询信息中可以包括多个查询条件。当用户发起查询/检索数据的请求时,响应于用户操作,获取用户输入的查询信息,并判断该查询信息中是否包含预定数据类型,若包含预定数据类型,则根据查询信息生成待查询的特征向量。当然,用户输入的查询信息中,也可以包含待查询的特征向量。这样,数据查询装置120在判断查询信息中包含预定数据类型时,直接获取待查询的特征向量。或者,数据查询装置120可以从外部获取查询信息对应的特征向量。本发明的实施例对此不做过多限制。而后,从第二存储区域内所存储的特征向量中为待查询的特征向量匹配到至少一个特征向量,并获取与其相关联的目录地址,进而根据目录地址所指向的地址从第一存储区域中取出相关的数据,即为查询结果。
图2进一步示出了根据本发明一个实施例的数据存储装置110和数据查询装置120的示意图。
如图2,数据存储装置110包括:判断单元111、第一存储单元113、特征提取单元115、第二存储单元117和元数据存储单元119。其中,第二存储单元117同传统的数据库结构相同,用来存储结构化数据;而对于非结构化数据,将其存入第一存储单元113。特征提取单元115用于提取非结构化数据的特征向量,作为非结构化数据的抽象,以供查询时使用。
当用户输入待存储的数据时,先由判断单元111判断该待存储的数据是否属于预定数据类型。根据本发明的实施例,预定数据类型是非结构化数据类型,包括以下数据类型中的一种或多种:文本、图片、XML、HTML、图像、音频、视频、各类报表等等。
根据本发明的一种实施方式,在经判断单元111判断后确认待存储的数据属于预定数据类型时,第一存储单元113存储该数据,并将该数据在第一存储单元113中的存储位置作为该数据的目录地址,进行存储。假设待存储的数据是一张图片,将其存入第一存储单元113并生成一个目录地址,例如是,/home/ex/000001.jpg。而后,特征提取单元115基于该目录地址,提取出该数据的特征向量。再交由第二存储单元117,由其关联存储该数据的特征向量与目录地址。在根据本发明的一种实施例中,特征提取单元115中预先存储有至少一个特征提取模型。在提取特征向量时,在一种实施例中,特征提取单元115将数据的目录地址输入特征提取模型,输出的就是该数据的特征向量;在又一种实施例中,特征提取单元115也可以将数据本身输入到特征提取模型中,并将输出的特征向量作为该数据的特征向量。应当指出,本发明实施例对提取数据的特征向量的方式不做过多限制。本领域技术人员可以根据实际应用场景选择适当的特征提取方式,来实现根据本发明的数据存储方案。由于利用数据的目录地址生成数据的特征向量,能够有效降低特征提取时的计算量,以下以将数据的目录地址输入特征提取模型得到特征向量为例,进行说明。在根据本发明的实施例中,若待存储的数据属于预定数据类型,那么待存储的数据除了数据本身外,还携带有该数据的相关描述信息。描述信息例如是:指定用于提取该数据的特征向量的特征提取模型和用于计算该数据的特征相似度的度量方法。根据一种实施例,特征提取模型可以采用各种神经网络模型(如CNN、Resnet等,不限于此),特征相似度度量方法可以采用欧式距离(Euclidean distance)、Consine相似度等,不限于此。当待存储数据属于预定数据类型时,元数据存储单元119会获取该数据的描述信息,并关联存储该数据的描述信息和目录地址。这样,特征提取单元115就可以基于数据的描述信息和目录地址,提取出该数据对应的特征向量。具体地,通过调用描述信息中指定的特征提取模型,提取出该数据的特征向量。可选地,特征提取单元115根据数据的描述信息中所指定的特征提取模型,提取出相应的embedding的特征向量,作为对该数据的抽象。
此外,由于特征提取单元115中预存有至少一个特征提取模型,故在根据本发明的实施例中,还包含了预先训练生成这些特征提取模型的过程。以下给出一种训练生成特征提取模型的过程,但仅作为示例,本发明的实施例不限于此。
首先,构造预训练的特征提取模型,并设置初始的模型参数。之后,将训练样本(如,采集多个图像作为训练样本)输入到预训练的特征提取模型中,并根据输出的结果对模型参数进行微调,以生成新的特征提取模型,重复上述步骤,直到特征提取模型的输出满足预定条件(可以是计算模型输出与目标输出之间的损失值,当损失值达到某个条件时,确认满足预定条件;也可以是在迭代训练一定次数后,确认满足预定条件),训练结束。此时生成的特征提取模型就作为训练好的特征提取模型,并存储在特征提取单元115中。
在根据本发明的一些实施例中,在第一存储单元113每次存入数据时,特征提取单元115就同步地提取该数据的特征向量,并将其与目录地址关联存储至第二存储单元117中。然而,这种方式会增加每次存储数据的时间。故在根据本发明的又一些实施例中,采用异步的方式提取数据的特征向量,即,先将待存储的数据存储至第一存储单元113,并获取对应的目录地址,而后定时(假设在每天的空闲时段,如每天凌晨1:00-5:00,不限于此)对第一存储单元113中新存入的数据进行特征提取,生成各数据对应的特征向量,再将特征向量与目录地址关联存储到第二存储单元117。
根据本发明的另一种实施方式,在经判断单元111判断后,确认待存储的数据不属于预定数据类型时,第二存储单元117直接存储该数据。换句话说,若待存储的数据是结构化数据,则直接将其存入第二存储单元117中。
继续如图2,数据查询装置120包括:判断单元121、特征计算单元123、第一查询单元125和第二查询单元127。
当用户输入查询信息来进行查询时,判断单元121判断该查询信息中是否包含预定数据类型。根据一种实施例,查询信息中可以包含至少一个查询条件,例如,查询信息是:查询“与图像A的相似度大于0.8且关于图像的评价是‘裙子不错’”的图像,则,其中包含2个查询条件,分别是:与图像A的相似度大于0.8、关于图像的评价是‘裙子不错’,同时还可以确认该查询信息中待查询的目标数据是图像,属于预定数据类型。
根据本发明的实施方式,若经判断单元121判断后确认查询信息中不包含预定数据类型,则按照传统的数据查询方式从上述的第二存储单元117中查询到满足查询条件的目标数据;若经判断单元121判断后确认查询信息中包含预定数据类型,则通过执行如下过程来查询到满足查询条件的目标数据。
也就是说,根据本发明的实施方式,用户可以输入多个查询条件,这些查询条件可以是基于结构化数据的传统的查询,也可以是基于非结构化数据的查询,由判断单元121对各查询条件进行判断后确定采用何种方式进行数据查询。例如,用户可以在应用界面上同时上传一张图像、输入一段语音、输入一段文字,以期最终得到满足各查询条件的目标数据。
特征计算单元123基于查询信息,生成至少一个待查询的特征向量。根据本发明的实施例,可以采用两种方式来生成待查询的特征向量。第一种方式,与前文所述的数据存储装置110提取特征向量的方式相同,响应于查询信息,将查询信息中所包含的各非结构化数据分别缓存,得到对应的目录地址,作为待查询的目录地址;而后,基于这些待查询的目录地址,分别生成各自的待查询的特征向量。可选地,将待查询的目录地址输入特征提取模型,输出其对应的待查询的特征向量。以前文的查询信息的示例为例,将图像A和文字“裙子不错”分别进行缓存,得到对应的待存储目录地址,记作URL1和URL2,再将URL1和URL2分别输入到特征提取模型中,得到各自对应的待查询的特征向量。第二种方式是,直接将查询信息中包含的非结构化数据输入到特征提取模型中,输出对应的待查询的特征向量。以前文的查询信息的示例为例,将图像A输入到特征提取模型中,输出其对应的待查询的特征向量;将文字“裙子不错”输入特征提取模型中,输出其对应的待查询的特征向量。当然,如前文所述,特征计算单元123也可以直接获取至少一个待查询的特征向量。例如,查询信息中包含了待查询信息的特征向量。
应当指出,特征提取模型可以是用户在输入查询信息时一并指定的,也可以是在数据查询装置120中预先配置好的(例如,对于图像类的数据,采用CNN模型;对于文字类的数据,采用ResNet模型,等等),还可以采用同一个固定的特征提取模型来生成所有待查询的特征向量。此外,特征计算单元123可以调用特征提取单元115中的相关特征提取模型来执行提取特征向量的步骤,本发明的实施例对此不作过多限制。关于特征提取模型的更多内容,可参考前文相关描述。
特征计算单元123进一步分别确定与待查询的特征向量相似的至少一个特征向量。根据一种实施例,针对每个待查询的特征向量,特征计算单元123根据指定的计算特征相似度的度量方法,从第二存储区域中分别确定出与该待查询的特征向量相似的至少一个特征向量。在本发明的实施例中,第二存储区域即第二存储单元117所对应的存储区域,其中关联存储了非结构化数据的特征向量及其目录地址。如前文所述,元数据存储单元119中关联存储了数据的目录地址和描述信息,而描述信息中还指定了用于计算特征相似度的度量方法。因此,特征计算单元123可以依据第二存储区域中所存储的各数据对应的计算特征相似度的度量方法,来计算待查询的特征向量与该数据的特征向量之间的相似度,并确定出相似度满足查询条件的至少一个特征向量。
而后,第一查询单元125分别从第二存储区域中获取与所确定的至少一个特征向量相关联的至少一个目录地址。根据本发明的实施例,第一查询单元125与第二存储单元117保持通信,以从用于存储结构化数据的第二存储单元117中获取特征向量所关联的目录地址。
接着,第二查询单元127从第一存储区域中确定出所获取的至少一个目录地址所指向的至少一个数据,作为目标数据。根据本发明的实施例,第二查询单元127与第一存储单元115保持通信,以根据目录地址从用于存储非结构化数据的第一存储单元115中获取对应的数据。
需要说明的是,图2仅是示例性的,在实际应用中,判断单元111和判断单元121可以被设置成同一个单元,用来判断所接收到的信息中是否有属于预定数据类型的数据。特征提取单元113和特征计算单元123可以被设置成同一个单元,用来提取数据的特征向量、并计算特征向量之间的相似度。第一查询单元125也可以被实现为第二存储单元117中的一个模块,同样,第二查询单元127也可以被实现为第一存储单元115中的一个模块,以分别从第二存储区域和第一存储区域中获取对应的数据。同时,在其它实施例中,在系统100中可以存在更少、附加或不同的组件。
根据本发明的数据管理系统100,在第一存储区域内存储非结构化数据,在第二存储区域内存储结构化数据,并通过内置的特征提取服务来生成非结构化数据的特征向量,将其与非结构化数据的存储地址(即目录地址)关联存储至第二存储区域。这样,数据管理系统100可以直接支持各种非结构化数据的存储。同时,基于这种数据存储方式,系统100除了可以支持结构化数据的查询外,还可以支持对各种非结构化数据基于语义的查询。此外,用户不需要深入了解相关的深度学习算法和特征提取模型,能够有效降低用户的理解和使用成本。
根据本发明的实施方式,数据管理系统100可以通过如下所述的一个或多个计算设备300来实现。在一些实施例中,数据管理系统100及其中各组成部分,如数据存储装置110、数据查询装置120均可以通过如下所述的计算设备300来实现。
图3示出了根据本发明一个实施例的计算设备300的示意图。
如图3所示,在基本的配置302中,计算设备300典型地包括系统存储器306和一个或者多个处理器304。存储器总线308可以用于在处理器304和系统存储器306之间的通信。
取决于期望的配置,处理器304可以是任何类型的处理,包括但不限于:微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器304可以包括诸如一级高速缓存310和二级高速缓存312之类的一个或者多个级别的高速缓存、处理器核心314和寄存器316。示例的处理器核心314可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器318可以与处理器304一起使用,或者在一些实现中,存储器控制器318可以是处理器304的一个内部部分。
取决于期望的配置,系统存储器306可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器306可以包括操作系统320、一个或者多个应用322以及程序数据324。在一些实施方式中,应用322可以布置为在操作系统上由一个或多个处理器304利用程序数据324执行指令。
计算设备300还可以包括有助于从各种接口设备(例如,输出设备342、外设接口344和通信设备346)到基本配置302经由总线/接口控制器330的通信的接口总线340。示例的输出设备342包括图形处理单元348和音频处理单元350。它们可以被配置为有助于经由一个或者多个A/V端口352与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口344可以包括串行接口控制器354和并行接口控制器356,它们可以被配置为有助于经由一个或者多个I/O端口358和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备346可以包括网络控制器360,其可以被布置为便于经由一个或者多个通信端口364与一个或者多个其他计算设备362通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以是这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。
计算设备300可以实现为服务器,例如文件服务器、数据库服务器、应用程序服务器和WEB服务器等,也可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。当然,计算设备300也可以实现为小尺寸便携(或者移动)电子设备的一部分。在根据本发明的实施例中,计算设备300被配置为执行根据本发明的数据存储方法400和数据查询方法500。其中,计算设备300的应用322中包含执行根据本发明的方法400和方法500的多条程序指令。
在下文中将参考图4和5进一步详细描述通过数据管理系统100管理数据存储和查询的方法400和500。
图4示出了根据本发明一个实施例的数据存储方法400的流程图。以下将结合图2及上文对数据存储装置110的相关介绍,详细介绍数据存储装置110执行方法400的过程。
如图4所示,方法400始于步骤S410。在步骤S410中,判断待存储的数据是否属于预定数据类型。如前文所述,非结构化数据就是属于预定数据类型的数据,预定数据类型例如可以包括以下数据类型中的一种或多种:文本、图片、XML、HTML、图像、音频、视频。
若经判断后确认该待存储的数据不属于预定数据类型,则确认该数据为结构化数据,在随后的步骤S420中,将该数据存储至第二存储区域(即,第二存储单元117所对应的存储区域)。
若经判断后确认该待存储的数据属于预定数据类型,则在随后的步骤S430中,将该数据存储至第一存储区域(即,第一存储单元113所对应的存储区域),并获取该数据的存储位置作为该数据的目录地址。
随后在步骤S440中,提取对应数据的特征向量。
根据一种实施例,将数据的目录地址输入特征提取模型,输出的就是该数据的特征向量。根据又一种实施例,也可以将数据本身输入到特征提取模型,以输出该数据的特征向量。此外,特征提取模型可以是系统固定的,也可以是用户指定的,本发明的实施例对此不做过多限制。一般地,特征提取模型基于卷积神经网络,如CNN。
根据另一种实施例,用户在输入待存储的数据时,会一并定义该数据的元数据,即该数据的描述信息。在根据本发明的实施例中,描述信息包括:用于提取特征向量的特征提取模型。数据存储装置110可以通过下拉菜单等方式向用户展示预存的特征提取模型,以供用户选择其中的一个特征提取模型,作为装置110提取该数据的特征向量的模型。关于如何训练生成预存的特征提取模型的过程,可参见前文对于装置110的相关描述,此处不做赘述。
这样,在步骤S440中,基于该数据的描述信息和目录地址,提取出该数据对应的特征向量。进一步地,先根据数据的描述信息,获取该数据对应的用于提取特征向量的特征提取模型;再将该数据的目录地址输入该特征提取模型,以输出该数据对应的特征向量。
另外,数据的描述信息除了特征提取模型外,还可以包括:用于计算特征相似度的度量方法,以便于在后续数据查询的过程中,计算该数据的特征向量与要查询的数据的特征向量的相似度。
随后在步骤S450中,将数据的特征向量与目录地址关联存储至第二存储区域(即,第二存储单元117所对应的存储区域)。
图5示出了根据本发明一个实施例的数据查询方法500的流程图。以下将结合图2及上文对数据查询装置120的相关介绍,详细介绍数据查询装置120执行方法500的过程。
如图5所示,方法500始于步骤S510。在步骤S510中,响应于用户输入的查询信息,判断该查询信息中是否包含预定数据类型。预定数据类型包含非结构化数据的数据类型,例如:文本、图片、XML、HTML、图像、音频、视频。
如前文所述,查询信息中包含了至少一个查询条件,根据查询条件可以确定出要查询的数据属于结构化数据还是非结构化数据,即判断出查询信息中是否包含预定数据类型。
若经判断后确认查询信息中包含了非预定数据类型,则在随后的步骤S520中,按照传统的结构化数据的查询方法从第二存储区域中获取目标数据。
若经判断后确认查询信息中包含了预定数据类型,则在随后的步骤S530中,生成至少一个待查询的特征向量。
如前文所述,在根据本发明的实施方式中,可以采用两种方式来生成待查询的特征向量。第一种方式,与方法400中所述的提取特征向量的方式相同,响应于查询信息,将查询信息中所包含的各个非结构化数据分别缓存,得到对应的目录地址(即存储地址),作为待查询的目录地址;而后,基于这些待查询的目录地址,分别生成各自的待查询的特征向量。可选地,将待查询的目录地址输入特征提取模型,输出其对应的待查询的特征向量。第二种方式是,直接将查询信息中包含的非结构化数据(如,图像)输入到特征提取模型中,输出对应的待查询的特征向量。采用第一种方式能够最大限度地保证特征向量的获取方式一致,但是会增加缓存,采用第二种方式能够节省缓存,提高计算效率。在实际应用中,本领域技术人员可结合实际场景选择合适的特征提取方式及特征提取模型,本发明的实施例对此不做限制。
需要说明的是,特征提取模型可以是用户在输入查询信息时一并指定的,也可以是在数据查询装置120中预先配置好的(例如,对于图像类的数据,采用CNN模型;对于文字类的数据,采用ResNet模型,不限于此),可以与执行方法400时采用的特征提取模型相一致,还可以采用同一个固定的特征提取模型来生成所有待查询的特征向量。关于特征提取模型的更多内容,可参考前文相关描述。
在又一些实施例中,用户在输入查询信息时,也可以一并输入待查询信息所对应的特征向量,或者,调用外部的特征提取模型来生成查询信息对应的待查询的特征向量。这样,若经判断后确认查询信息中包含了预定数据类型,则直接获取至少一个待查询的特征向量。
随后在步骤S540中,确定与待查询的特征向量相似的至少一个特征向量。
具体地,从第二存储区域(即第二存储单元117所对应的存储区域)中确定与待查询的特征向量相似的至少一个特征向量。
如前文所述,元数据存储单元119中关联存储了数据的目录地址和描述信息,而描述信息中还指定了用于计算特征相似度的度量方法。因此,在步骤S540中,可以依据第二存储区域中所存储的各数据对应的计算特征相似度的度量方法,来计算待查询的特征向量与该数据的特征向量之间的相似度,并确定出相似度满足查询条件的至少一个特征向量。
随后在步骤S550中,获取与所确定的至少一个特征向量相关联的至少一个目录地址。
如前文所述,第二存储区域中关联存储了非结构化数据的特征向量及其目录地址。在经步骤S540获取到特征向量后,进一步从第二存储区域中获取与该特征向量相关联的目录地址。
随后在步骤S560中,确定所获取的至少一个目录地址所指向的至少一个数据,作为目标数据。
如前文所述,第一存储区域中关联存储了非结构化数据本身及其目录地址,故根据所获取的至少一个目录地址,就可以从第一存储区域中确定出各目录地址所指向的各个数据,作为目标数据。
这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本发明的设备。
在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本发明的数据存储方法和/或数据查询方法。
以示例而非限制的方式,可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。
在此处所提供的说明书中,算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的而非限制性的,本发明的范围由所附权利要求书限定。
Claims (24)
1.一种数据存储方法,包括步骤:
判断待存储的数据是否属于预定数据类型;
若所述数据属于预定数据类型,则将所述数据存储至第一存储区域并获取所述数据的目录地址;
提取所述数据的特征向量;以及
将所述数据的特征向量与目录地址关联存储至第二存储区域。
2.如权利要求1所述的方法,还包括步骤:
若经判断后确认所述待存储的数据不属于预定数据类型,则将所述数据存储至第二存储区域。
3.如权利要求1或2所述的方法,其中,所述提取所述数据的特征向量的步骤包括:
将所述数据的目录地址输入特征提取模型,以输出该数据的特征向量。
4.如权利要求1或2所述的方法,其中,在所述提取所述数据的特征向量的步骤之前,还包括步骤:
获取所述数据的描述信息,并与该数据的目录地址关联存储。
5.如权利要求4所述的方法,其中,所述描述信息至少包括:用于提取特征向量的特征提取模型和用于计算特征相似度的度量方法。
6.如权利要求5所述的方法,其中,所述提取所述数据的特征向量的步骤还包括:
基于所述数据的描述信息和目录地址,提取出所述数据对应的特征向量。
7.如权利要求6所述的方法,其中,所述基于数据的描述信息和目录地址,提取出数据对应的特征向量的步骤还包括:
根据所述数据的描述信息,获取该数据对应的用于提取特征向量的特征提取模型;
将所述目录地址输入所述特征提取模型,以输出该数据对应的特征向量。
8.如权利要求1-7中任一项所述的方法,其中,所述预定数据类型包括以下数据类型中的一种或多种:文本、图片、XML、HTML、图像、音频、视频。
9.一种数据存储装置,包括:
判断单元,适于判断待存储的数据是否属于预定数据类型;
第一存储单元,适于在所述数据属于预定数据类型时,存储所述数据并生成所述数据的目录地址;
特征提取单元,适于提取所述数据的特征向量;以及
第二存储单元,适于关联存储所述数据的特征向量与目录地址。
10.如权利要求9所述的装置,其中,所述第二存储单元还适于在所述待存储的数据不属于预定数据类型时,存储该数据。
11.如权利要求9或10所述的装置,还包括:
元数据存储单元,适于在待存储数据属于预定数据类型时,获取所述数据的描述信息,并与该数据的目录地址关联存储。
12.一种数据查询方法,包括步骤:
生成至少一个待查询的特征向量;
确定与待查询的特征向量相似的至少一个特征向量;
获取与所确定的至少一个特征向量相关联的至少一个目录地址;以及
确定所获取的至少一个目录地址所指向的至少一个数据,作为目标数据。
13.如权利要求12所述的方法,其中,所述生成至少一个待查询的特征向量的步骤之前还包括:
响应于用户的查询信息,判断所述查询信息中是否包含预定数据类型;
若包含预定数据类型,则生成至少一个待查询的特征向量。
14.如权利要求13所述的方法,其中,所述预定数据类型包括以下数据类型中的一种或多种:文本、图片、XML、HTML、图像、音频、视频。
15.如权利要求12-14中任一项所述的方法,其中,所述确定与待查询的特征向量相似的至少一个特征向量的步骤包括:
根据指定的计算特征相似度的度量方法,从第二存储区域中分别确定出与待查询的特征向量相似的至少一个特征向量。
16.如权利要求12-15中任一项所述的方法,其中,所述生成至少一个待查询的特征向量的步骤还包括:
响应于查询信息,获取至少一个待查询的目录地址;
基于至少一个待查询的目录地址,生成至少一个待查询的特征向量。
17.如权利要求12-16中任一项所述的方法,其中,所述获取与所确定的至少一个特征向量相关联的至少一个目录地址的步骤包括:
从第二存储区域中分别获取与所确定的至少一个特征向量相关联的至少一个目录地址。
18.如权利要求12-17中任一项所述的方法,其中,所述确定所获取的至少一个目录地址所指向的至少一个数据,作为目标数据的步骤:
从第一存储区域中确定所获取的至少一个目录地址所指向的至少一个数据,作为目标数据。
19.一种数据查询方法,包括步骤:
获取至少一个待查询的特征向量;
确定与待查询的特征向量相似的至少一个特征向量;
获取与所确定的至少一个特征向量相关联的至少一个目录地址;以及
确定所获取的至少一个目录地址所指向的至少一个数据,作为目标数据。
20.一种数据查询装置,包括:
判断单元,适于判断查询信息中是否包含预定数据类型;
特征计算单元,适于基于所述查询信息,生成至少一个待查询的特征向量,还适于确定与待查询的特征向量相似的至少一个特征向量;
第一查询单元,适于从第二存储区域中获取与所确定的至少一个特征向量相关联的至少一个目录地址;
第二查询单元,适于从第一存储区域中确定所获取的至少一个目录地址所指向的至少一个数据,作为目标数据。
21.如权利要求20所述的装置,其中,所述数据包括以下数据类型中的一种或多种:文本、图片、XML、HTML、图像、音频、视频。
22.一种数据管理系统,包括:
如权利要求9-11中任一项所述的数据存储装置;和
如权利要求20或21所述的数据查询装置。
23.一种计算设备,包括:
至少一个处理器;和
存储有程序指令的存储器,其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行如权利要求1-8中任一项所述方法的指令,以及用于执行如权利要求12-19中任一项所述方法的指令。
24.一种存储有程序指令的可读存储介质,当所述程序指令被计算设备读取并执行时,使得所述计算设备执行如权利要求1-8中任一项所述的方法以及如权利要求12-19中任一项所述的方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910139006.XA CN111611418A (zh) | 2019-02-25 | 2019-02-25 | 数据存储方法及数据查询方法 |
TW108142912A TW202032385A (zh) | 2019-02-25 | 2019-11-26 | 資料儲存方法及資料查詢方法 |
PCT/CN2020/075690 WO2020173334A1 (zh) | 2019-02-25 | 2020-02-18 | 数据存储方法及数据查询方法 |
EP20763507.9A EP3933615A4 (en) | 2019-02-25 | 2020-02-18 | DATA STORAGE PROCEDURES AND DATA REQUEST PROCEDURES |
US17/410,899 US20210382902A1 (en) | 2019-02-25 | 2021-08-24 | Data storage method and data query method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910139006.XA CN111611418A (zh) | 2019-02-25 | 2019-02-25 | 数据存储方法及数据查询方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111611418A true CN111611418A (zh) | 2020-09-01 |
Family
ID=72195801
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910139006.XA Pending CN111611418A (zh) | 2019-02-25 | 2019-02-25 | 数据存储方法及数据查询方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20210382902A1 (zh) |
EP (1) | EP3933615A4 (zh) |
CN (1) | CN111611418A (zh) |
TW (1) | TW202032385A (zh) |
WO (1) | WO2020173334A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112395292A (zh) * | 2020-11-25 | 2021-02-23 | 电信科学技术第十研究所有限公司 | 一种数据特征提取、匹配方法及装置 |
CN113836332A (zh) * | 2021-09-08 | 2021-12-24 | 北京灵汐科技有限公司 | 存储设备 |
CN113849454A (zh) * | 2021-09-08 | 2021-12-28 | 北京灵汐科技有限公司 | 计算系统 |
CN117743335A (zh) * | 2023-12-18 | 2024-03-22 | 北京百度网讯科技有限公司 | 面向大模型场景的存储数据和处理数据的方法、相关装置 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI770732B (zh) * | 2020-12-22 | 2022-07-11 | 威聯通科技股份有限公司 | 儲存管理系統及其搜尋排序方法 |
CN112835908B (zh) * | 2021-02-22 | 2023-01-10 | 广东数程科技有限公司 | 一种时序数据存储方法、系统、存储设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102314480A (zh) * | 2011-07-05 | 2012-01-11 | 万达信息股份有限公司 | 一种针对海量数据的分布式数据存储方法 |
CN104169914A (zh) * | 2013-12-11 | 2014-11-26 | 华为技术有限公司 | 数据存储方法、数据处理方法、装置及移动终端 |
CN106649890A (zh) * | 2017-02-07 | 2017-05-10 | 税云网络科技服务有限公司 | 数据存储方法和装置 |
CN108304882A (zh) * | 2018-02-07 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种图像分类方法、装置及服务器、用户终端、存储介质 |
CN108846015A (zh) * | 2018-05-04 | 2018-11-20 | 平安科技(深圳)有限公司 | 不动产信息查询方法、装置、计算机设备和存储介质 |
CN109074363A (zh) * | 2016-05-09 | 2018-12-21 | 华为技术有限公司 | 数据查询方法、数据查询系统确定方法和装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8527436B2 (en) * | 2010-08-30 | 2013-09-03 | Stratify, Inc. | Automated parsing of e-mail messages |
US9646262B2 (en) * | 2013-06-17 | 2017-05-09 | Purepredictive, Inc. | Data intelligence using machine learning |
JP6469890B2 (ja) * | 2015-09-24 | 2019-02-13 | グーグル エルエルシー | 高速直交射影 |
CN106407445B (zh) * | 2016-09-29 | 2019-06-07 | 重庆邮电大学 | 一种基于url的非结构化数据资源标识和定位方法 |
CN108268600B (zh) * | 2017-12-20 | 2020-09-08 | 北京邮电大学 | 基于ai的非结构化数据管理方法及装置 |
CN109189842A (zh) * | 2018-08-02 | 2019-01-11 | 莆田学院 | 大数据分析方法 |
-
2019
- 2019-02-25 CN CN201910139006.XA patent/CN111611418A/zh active Pending
- 2019-11-26 TW TW108142912A patent/TW202032385A/zh unknown
-
2020
- 2020-02-18 WO PCT/CN2020/075690 patent/WO2020173334A1/zh unknown
- 2020-02-18 EP EP20763507.9A patent/EP3933615A4/en active Pending
-
2021
- 2021-08-24 US US17/410,899 patent/US20210382902A1/en not_active Abandoned
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102314480A (zh) * | 2011-07-05 | 2012-01-11 | 万达信息股份有限公司 | 一种针对海量数据的分布式数据存储方法 |
CN104169914A (zh) * | 2013-12-11 | 2014-11-26 | 华为技术有限公司 | 数据存储方法、数据处理方法、装置及移动终端 |
CN109074363A (zh) * | 2016-05-09 | 2018-12-21 | 华为技术有限公司 | 数据查询方法、数据查询系统确定方法和装置 |
CN106649890A (zh) * | 2017-02-07 | 2017-05-10 | 税云网络科技服务有限公司 | 数据存储方法和装置 |
CN108304882A (zh) * | 2018-02-07 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种图像分类方法、装置及服务器、用户终端、存储介质 |
CN108846015A (zh) * | 2018-05-04 | 2018-11-20 | 平安科技(深圳)有限公司 | 不动产信息查询方法、装置、计算机设备和存储介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112395292A (zh) * | 2020-11-25 | 2021-02-23 | 电信科学技术第十研究所有限公司 | 一种数据特征提取、匹配方法及装置 |
CN112395292B (zh) * | 2020-11-25 | 2024-03-29 | 电信科学技术第十研究所有限公司 | 一种数据特征提取、匹配方法及装置 |
CN113836332A (zh) * | 2021-09-08 | 2021-12-24 | 北京灵汐科技有限公司 | 存储设备 |
CN113849454A (zh) * | 2021-09-08 | 2021-12-28 | 北京灵汐科技有限公司 | 计算系统 |
CN117743335A (zh) * | 2023-12-18 | 2024-03-22 | 北京百度网讯科技有限公司 | 面向大模型场景的存储数据和处理数据的方法、相关装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2020173334A1 (zh) | 2020-09-03 |
US20210382902A1 (en) | 2021-12-09 |
TW202032385A (zh) | 2020-09-01 |
EP3933615A1 (en) | 2022-01-05 |
EP3933615A4 (en) | 2022-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111611418A (zh) | 数据存储方法及数据查询方法 | |
US20220036142A1 (en) | Recognition method and device for a target perception data | |
CN108415978B (zh) | 用户标签存储方法、用户画像计算方法及计算设备 | |
TWI729472B (zh) | 特徵詞的確定方法、裝置和伺服器 | |
CN106547871B (zh) | 基于神经网络的搜索结果的召回方法和装置 | |
JP6321153B2 (ja) | モバイルビデオ検索 | |
US20220383053A1 (en) | Ephemeral content management | |
CN111651464B (zh) | 数据处理方法、系统及计算设备 | |
CN110808987B (zh) | 识别恶意域名的方法及计算设备 | |
JP2011525002A (ja) | モバイル装置により記録された画像のコンテンツに基づくデータアクセス | |
US8442987B2 (en) | Method and system for providing contents based on past queries | |
CN107038173A (zh) | 应用查询方法和装置、相似应用检测方法和装置 | |
CN108009205B (zh) | 基于位置的搜索结果缓存方法、搜索方法、客户端及系统 | |
CN112328548A (zh) | 一种文件检索方法及计算设备 | |
CN103473326A (zh) | 一种提供搜索建议的方法和装置 | |
CN109710088A (zh) | 一种信息搜索方法及装置 | |
CN113377289B (zh) | 一种缓存管理方法、系统、计算设备及可读存储介质 | |
CN113449089B (zh) | 一种查询语句的意图识别方法、问答方法及计算设备 | |
JPH10289240A (ja) | 画像処理装置及びその制御方法 | |
CN103136357A (zh) | 一种利用人脸识别技术定位网页的方法、装置和移动设备 | |
CN111414383B (zh) | 数据请求方法、数据处理系统及计算设备 | |
CN111814029A (zh) | 一种数据查询方法、系统及计算设备 | |
CN109815351B (zh) | 信息查询方法及相关产品 | |
KR20110138850A (ko) | 사용자 적응형 이미지 관리 시스템 및 사용자 적응형 이미지 관리 방법 | |
CN116578984A (zh) | 一种业务数据的风险管控方法、系统、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |