[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN114090721B - 基于自然语言数据进行查询、数据更新的方法及装置 - Google Patents

基于自然语言数据进行查询、数据更新的方法及装置 Download PDF

Info

Publication number
CN114090721B
CN114090721B CN202210058318.XA CN202210058318A CN114090721B CN 114090721 B CN114090721 B CN 114090721B CN 202210058318 A CN202210058318 A CN 202210058318A CN 114090721 B CN114090721 B CN 114090721B
Authority
CN
China
Prior art keywords
rule
analysis
added
special word
special
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210058318.XA
Other languages
English (en)
Other versions
CN114090721A (zh
Inventor
田有朋
李俊
黄亚东
王小卫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202210058318.XA priority Critical patent/CN114090721B/zh
Priority to CN202210675063.1A priority patent/CN115098618A/zh
Publication of CN114090721A publication Critical patent/CN114090721A/zh
Application granted granted Critical
Publication of CN114090721B publication Critical patent/CN114090721B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本说明书提供一种基于自然语言数据进行查询、数据更新的方法及装置,基于自然语言数据进行查询的方法,包括:获取用于查询的自然语言数据;基于预设的字典树生成所述自然语言数据对应的字符序列;所述字符序列包括所述自然语言数据中待解析的各个目标专用词语对应的各个目标解析规则的索引信息;根据预设的专用词语规则库以及所述各个目标解析规则的索引信息,对所述字符序列进行转换,得到目标字符序列;基于所述目标字符序列进行数据查询。

Description

基于自然语言数据进行查询、数据更新的方法及装置
技术领域
本说明书一个或多个实施例涉及自然语言查询的技术领域,特别涉及一种基于自然语言数据进行查询、数据更新的方法及装置。
背景技术
目前来说,在查询领域中,通常采用NLP (Natural Language Processing,自然语言处理)的深度学习算法来对自然语言查询语句进行翻译识别,将用于查询的自然语言数据直接翻译为SQL(Structured Query Language,结构化查询语言),再通过SQL进行接下来的数据查询。由于自然语言跟SQL之间的差别太大,只能针对简单的查询语义进行翻译,因此,对自然语言查询语句翻译识别的准确率低。
发明内容
本说明书一个或多个实施例提供一种基于自然语言数据进行查询、数据更新的方法及装置。
根据第一方面,提供一种基于自然语言数据进行查询的方法,所述方法包括:
获取用于查询的自然语言数据;
基于预设的字典树生成所述自然语言数据对应的字符序列;所述字符序列包括所述自然语言数据中待解析的各个目标专用词语对应的各个目标解析规则的索引信息;
根据预设的专用词语规则库以及所述各个目标解析规则的索引信息,对所述字符序列进行转换,得到目标字符序列;
基于所述目标字符序列进行数据查询。
根据第二方面,提供一种数据更新方法,所述方法包括:
获取用户输入的待添加专用词语以及所述待添加专用词语对应的解析内容;
基于所述解析内容生成所述待添加专用词语对应的解析规则,并将所述解析规则添加至预设的专用词语规则库中;
在预设的字典树中添加所述待添加专用词语对应的节点的叶子节点;
利用所述叶子节点记录所述解析规则的索引信息。
根据第三方面,提供一种基于自然语言数据进行查询的装置,所述装置包括:
获取模块,用于获取用于查询的自然语言数据;
生成模块,用于基于预设的字典树生成所述自然语言数据对应的字符序列;所述字符序列包括所述自然语言数据中待解析的各个目标专用词语对应的各个目标解析规则的索引信息;
转换模块,用于根据预设的专用词语规则库以及所述各个目标解析规则的索引信息,对所述字符序列进行转换,得到目标字符序列;
查询模块,用于基于所述目标字符序列进行数据查询。
根据第四方面,提供一种数据更新装置,所述装置包括:
获取模块,用于获取用户输入的待添加专用词语及所述待添加专用词语对应的解析内容;
生成模块,用于基于所述解析内容生成所述待添加专用词语对应的解析规则,并将所述解析规则添加至预设的专用词语规则库中;
添加模块,用于在预设的字典树中添加所述待添加专用词语对应的节点的叶子节点;
记录模块,用于利用所述叶子节点记录所述解析规则的索引信息。
根据第五方面,提供一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面或第二方面中任一项所述的方法。
根据第六方面,提供一种及计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述第一方面或第二方面中任一项所述的方法。
本说明书的实施例提供的技术方案可以包括以下有益效果:
本说明书的实施例提供的基于自然语言数据进行查询方法及装置,通过利用预设的字典树,生成自然语言查询语句对应的字符序列,然后,利用该字符序列包括的待解析的专用词语对应的解析规则的索引信息以及预设专用词语规则库,对该字符序列进行转换,得到目标字符序列,并基于目标字符序列进行数据查询。由于可以通过用户自定义的方式对字典树和专用词语规则库进行更新,因此,能够灵活快速地支持不同业务场景下,不同客户对于各类表述模式的专用词语的诉求,也提高了自然语言数据查询的效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本说明书根据一示例性实施例示出的一种基于自然语言数据进行查询的场景示意图;
图2是本说明书根据一示例性实施例示出的一种基于自然语言数据进行查询的方法流程图;
图3是本说明书根据一示例性实施例示出的一种自然语言解析库的示意图;
图4是本说明书根据一示例性实施例示出的一种数据更新方法流程图;
图5是本说明书根据一示例性实施例示出的一种基于自然语言数据进行查询的装置的框图;
图6是本说明书根据一示例性实施例示出的一种数据更新装置的框图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
目前来说,在查询领域中,通常采用NLP (Natural Language Processing,自然语言处理)的深度学习算法来对自然语言查询语句进行翻译识别,将用于查询的自然语言数据直接翻译为SQL(Structured Query Language,结构化查询语言),再通过SQL进行接下来的数据查询。由于自然语言跟SQL之间的差别太大,只能针对简单的查询语义进行翻译,因此,对自然语言查询语句翻译识别的准确率低。
另外,在一些特定的业务场景下,部分专用词语的使用会带来一些难以解决的问题。例如,“大额”这个词在某银行的使用场景下表示20万,在某商铺的使用场景下表示1万等,这就为如何定义“大额”这个词带来了麻烦。如果通过传统的NLP算法的方式处理包含专用词语的自然语言数据,会涉及很多棘手的问题,比如进行NLP算法模型的训练时缺乏带有专用词语的完备训练样本,NLP算法启动成本高、可以支持的专用词语模式有限等问题。因此,难以灵活快速地支持不同业务场景下,不同客户对于各类表述模式的专用词语的诉求。
本说明书实施例提供了一种基于自然语言数据进行查询的方案,可以灵活快速地支持不同业务场景下,不同客户对于各类表述模式的专用词语的诉求。
如图1所示,是根据一示例性实施例示出的一种基于自然语言数据进行查询的方法的场景示意图。
图1中,可以在不同的场景下(如在不同的客户群体中)维护不同的自然语言解析库,该自然语言解析库可以包括字典树以及专用词语规则库。其中,专用词语规则库中包括自定义的各个专用词语各自对应的解析规则。字典树中的各个非叶子节点各自映射一个词语,若该词语为自定义的专用词语,则该词语映射的节点的叶子节点记录该词语在专用词语规则库中的解析规则的索引信息。若该词语为非专用词语(即普通词语),则该词语映射的节点的叶子节点记录该词语的实体信息。用户可以随时自定义新的专用词语,并将自定义的专用词语添加到自然语言解析库中,以对自然语言解析库进行更新。
具体来说,用户进行查询的过程如下:首先,获取用户输入的自然语言查询语句,根据自然语言解析库包括的字典树,识别出自然语言查询语句中的多个词语。该多个词语可以包括专用词语和非专用词语,可以获取字典树记录的各个非专用词语各自对应的实体信息,并获取字典树记录的各个专用词语各自对应的索引信息。从而得到自然语言查询语句对应的字符序列,该字符序列包括自然语言查询语句中各个词语各自对应的各个字符。其中,非专用词语对应的字符包括该非专用词语对应的实体信息,专用词语对应的字符包括该专用词语对应的解析规则的索引信息。
然后,基于各个专用词语各自对应的解析规则的索引信息,从专用词语规则库中获取各个专用词语各自对应的解析规则。并根据各个专用词语各自对应的解析规则,对自然语言查询语句对应的字符序列中各个专用词语对应的字符进行转换,得到目标字符序列。最后,对目标字符序列进行语法解析和语义解析,然后基于解析的结果进行查询,得到查询结果,并将查询结果返回给用户。
下面将结合具体的实施例对本说明书提供的方案进行详细描述。
如图2所示,图2是根据一示例性实施例示出的一种基于自然语言数据进行查询的方法的流程图,该方法的执行主体可以实现为任何具有计算、处理能力的设备、平台、服务器或设备集群。该方法包括以下步骤:
在步骤201中,获取用于查询的自然语言数据。
在本实施例中,可以获取用户通过预设的查询语句输入接口输入的自然语言查询语句(即用于查询的自然语言数据)。查询语句可以是诸如“昨天大额的交易笔数”“小组1中最年轻的用户”以及“双十一商品A的销量”等语句。
在步骤202中,基于预设的字典树生成自然语言数据对应的字符序列。
在本实施例中,首先,可以获取用户维护的自然语言解析库,该自然语言解析库可以包括预设的字典树和预设的专用词语规则库。其中,该字典树的每个非叶子节点各自映射一个词语,这些词语中包括自定义的专用词语和统一定义的非专用词语。该专用词语规则库中包括该字典树中各个专用词语各自对应的各个解析规则。
可选地,任一专用词语对应的专用词节点的叶子节点记录该专用词语在专用词语规则库中的解析规则的索引信息。可以通过字典树记录的任一专用词语的对应的索引信息,从该专用词语规则库中获取到该专用词语对应的解析规则。进一步可选地,任一非专用词语对应的非专用词节点的叶子节点记录该非专用词语对应的实体信息。
如图3所示,例如,词语ab为预先自定义的专用词语,词语ab对应的解析规则为Rule1,词语ab在字典树中对应的叶子节点记录有解析规则Rule1的索引信息,可以基于解析规则Rule1的索引信息从专用词语规则库中查找到解析规则Rule1。词语ac为统一定义的非专用词语,词语ac在字典树中对应的叶子节点记录有词语ac的实体信息S1。
接着,可以采用例如实体识别的方式,基于该字典树确定自然语言数据中的多个词语各自对应的各个字符。具体来说,该多个词语中可以包括目标专用词语,也可以包括非专用词语。针对任一目标专用词语,可以获取该字典树中该目标专用词语对应的叶子节点记录的索引信息。并基于该索引信息,得到该目标专用词语对应的字符。针对任一非专用词语,可以获取该字典树中该非专用词语对应的叶子节点记录的实体信息,并基于该实体信息,得到该非专用词语对应的字符。将该多个词语各自对应的各个字符进行排列,可以得到该自然语言数据对应的字符序列。
例如,基于字典树可以确定自然语言数据Q中包括词语A、B、C、D,其中,词语A为专用词语,词语B、C、D为非专用词语。可以获取词语A对应的解析规则的索引信息R1,词语B对应的实体信息T1,词语C对应的实体信息T2以及词语D对应的实体信息T3,从而得到自然语言数据Q对应的字符序列R1 T1 T2 T3。
在步骤203中,根据预设的专用词语规则库以及各个目标解析规则的索引信息,对字符序列进行转换,得到目标字符序列。
在本实施例中,可以根据各个目标解析规则的索引信息,从专用词语规则库获取各个目标解析规则,并基于各个目标解析规则确定各个目标专用词语各自对应的各个替换字符。然后,利用各个目标专用词语各自对应的各个替换字符对字符序列进行转换,得到目标字符序列。例如,自然语言数据Q对应的初始的字符序列为R1 T1 T2 T3,其中,R1为词语A对应的解析规则的索引信息。可以基于索引信息R1从专用词语规则库获取词语A对应的解析规则,触发该解析规则生成词语A对应的替换字符T4,并用替换字符T4替换初始的字符序列中的R1,得到目标字符序列T4 T1 T2 T3。
具体来说,专用词语规则库中的解析规则可以包括替换类规则和操作类规则。属于替换类规则的解析规则中包括替换字符,可以直接用该解析规则中包括的替换字符替换字符序列中的字符。属于操作类规则的解析规则中包括量化操作,可以基于量化操作得到量化字符,并用量化字符替换字符序列中的字符。具体地,针对任一目标专用词语,若该目标专用词语对应的目标解析规则属于替换类规则,用该目标解析规则包括的替换字符替换字符序列中该目标专用词语对应的字符。若该目标专用词语对应的目标解析规则属于操作类规则,根据该目标解析规则得到量化字符,并用该量化字符替换字符序列中该目标专用词语对应的字符。
在步骤204中,基于目标字符序列进行数据查询。
在本实施例中,可以进一步对目标字符序列进行语法解析以及语义解析,并基于解析的结果进行数据查询。可以理解,本实施例对语法解析及语义解析,以及数据查询的具体方式方面不限定。
本说明书的上述实施例提供的基于自然语言数据进行查询的方法,通过利用自然语言解析库包括的字典树,生成自然语言查询语句对应的字符序列,然后,利用该字符序列包括的待解析的专用词语对应的解析规则的索引信息以及自然语言解析库包括的专用词语规则库,对该字符序列进行转换,得到目标字符序列,并基于目标字符序列进行数据查询。由于可以通过用户自定义的方式对自然语言解析库进行更新,因此,能够灵活快速地支持不同业务场景下,不同客户对于各类表述模式的专用词语的诉求,也提高了自然语言数据查询的效率。
如图4所示,图4根据一示例性实施例示出的一种数据更新方法的流程图,该方法的执行主体可以实现为任何具有计算、处理能力的设备、平台、服务器或设备集群。该方法包括以下步骤:
在步骤401中,获取用户输入的待添加专用词语以及该待添加专用词语对应的解析内容。
在本实施例中,自然语言解析库可以包括字典树以及专用词语规则库。对自然语言解析库的更新可以包括对字典树的更新,以及对专用词语规则库的更新。
具体来说,可以向用户输出专用词语添加接口,该专用词语添加接口可以包括第一接口和第二接口。第一接口可供用户输入待添加专用词语,第二接口可供用户输入该待添加专用词语的解析内容。可以获取用户通过第一接口输入的待添加专用词语,以及通过第二接口输入的解析内容。其中,待添加专用词语的解析内容可以是对待添加专用词语进行解释的内容,表达待添加专用词语的具体含义。例如,待添加专用词语为“大额”,待添加专用词语的解析内容可以为“金额大于5”。又例如,待添加专用词语为“本地”,待添加专用词语的解析内容可以为“北京市”。
可选地,可以先向用户提供规则类别的选项,以供用户选择待添加专用词语的解析规则是属于替换类规则,还是属于操作类规则。然后,确定用户选择的规则类别,并可以根据用户选择的规则类别,输出与该类别相适应的第二接口。
例如,如果用户选择替换类规则,输出的第二接口可以包括两个子接口,其中一个子接口用于输入待添加专用词语的属性维度,另一个子接口用于输入待添加专用词语在该属性维度上的内容。以待添加专用词语“本地”为例,该属性维度可以是“位置”,该属性维度上的内容可以是“北京”。如果用户选择操作类规则,输出的第二接口可以包括至少三个子接口,其中一个子接口用于输入待添加专用词语的属性维度,其它子接口用于输入待添加专用词语在该属性维度上的值的范围。以待添加专用词语“大额”为例,该属性维度可以是“金额”,该属性维度上的值的范围可以是“大于5”,其中,大于为表示范围的符号,5为范围的边界值。
在步骤402中,基于解析内容生成待添加专用词语对应的解析规则,并将解析规则添加至专用词语规则库中。
在本实施例中,可选地,若用户选择解析规则属于替换类规则,则将用户输入的解析内容直接作为解析规则包括的替换内容,将该解析规则标记为替换类规则,并添加至专用词语规则库中。例如,若用户选择解析规则属于替换类规则,用户输入的待添加专用词语为“本地”,待添加专用词语的解析内容为“北京市”,则可以得到解析规则具体为:
ReplaceRule=[lexeme=本地,tokens=[Token[北京市]]]
其中,“ReplaceRule”表示将该规则标记为替换类规则,“lexeme=本地”表示为用户输入的待添加专用词语为“本地”,tokens=[Token[北京市]]表示为“北京市”为“本地”的替换字符。
若用户选择解析规则属于操作类规则,则基于用户输入的解析内容对待添加专用词语进行量化分析,得到该解析规则,将解析规则标记为操作类规则,并添加至专用词语规则库中。例如,若用户选择解析规则属于操作类规则,用户输入的待添加专用词语为“大额”,待添加专用词语的解析内容为“金额大于5”,则可以对待添加专用词语进行量化分析,可以得到解析规则具体为:
OperationRule=
[lexeme=大额,condition=[left=Token[金额,dim],op=Operator[gt]right=Integer[5]]]
其中,“OperationRule”表示将该规则标记为操作类规则,“lexeme=大额”表示待添加专用词语“大额”,condition=[left=Token[金额,dim],op=Operator[gt]right=Integer[5]]表示为对用户输入的解析内容的量化分析。
在步骤403中,在字典树中添加待添加专用词语对应的节点的叶子节点,并利用该叶子节点记录添加待添加专用词语对应的解析规则的索引信息。
在本实施例中,如果字典树中不存在待添加专用词语对应的节点,则可以在字典树中添加该待添加专用词语对应的节点。如果字典树中存在待添加专用词语对应的节点,则可以进一步添加待添加专用词语对应的节点的叶子节点,并利用该叶子节点记录待添加专用词语对应的解析规则的索引信息,从而完成对自然语言解析库的更新。
本说明书的上述实施例提供的数据更新方法,通过自定义的方式,获取用户输入的待添加专用词语以及待添加专用词语对应的解析内容,基于解析内容生成待添加专用词语对应的解析规则,并将解析规则添加至专用词语规则库中。同时,在字典树中添加待添加专用词语对应的节点的叶子节点,利用叶子节点记录解析规则的索引信息。从而能够更方便快捷的完成对自然语言解析库的更新,使得自然语言解析库能够灵活快速地支持不同业务场景下,不同客户对于各类表述模式的专用词语的诉求。
应当注意,尽管在上述实施例中,以特定顺序描述了本说明书实施例的方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
下面结合一个完整的应用实例,对本说明书一个或多个实施例的方案进行示意性说明。
应用场景可以为:用户输入自然语言查询语句进行查询的过程。
具体来说,首先,用户输入自然语言查询语句“昨天大额的支付情况”。其中,“大额”和“支付情况”为预先自定义的专用词语。“大额”被自定义为“金额大于5”,“支付情况”被自定义为“交易笔数”。根据自然语言解析库包括的字典树和专用词语规则库,可以得到字符序列如下:
Time:(昨天,20220101)
Dialect:(大额,OperationRule123)
Measure:(支付情况,ReplaceRule321)
其中,“Time:(昨天,20220101)”为词语“昨天”对应的字符,“Dialect:(大额,OperationRule123)”为词语“大额”对应的字符,“OperationRule123”为词语“大额”对应的解析规则的索引信息,“Measure:(支付情况,ReplaceRule321)”为词语“支付情况”对应的字符,“ReplaceRule321”为词语“支付情况”对应的解析规则的索引信息。
然后,可以根据索引信息OperationRule123,从专用词语规则库中获取“大额”对应的解析规则:OperationRule123=[lexeme=大额,condition=[left=Token[金额,dim],
op=Operator[gt]right=Integer[5]]]。以及,从专用词语规则库中获取“支付情况”对应的解析规则:ReplaceRule321=[lexeme=支付情况,tokens=[Token[交易笔数]]]。并基于获取的各个解析规则,对该字符序列进行转换,得到目标字符序列如下:
Time:(昨天,20220101)
Dim:金额
OP:Operator[gt]
Number:Integer[5]
Measure:(交易笔数)
最后,可以针对上述目标字符序,进行语法解析以及语义解析,基于解析的结果进行数据查询,得到查询结果,并将查询结果返回给用户。
与前述基于自然语言数据进行查询、数据更新的方法实施例相对应,本说明书还提供了基于自然语言数据进行查询、数据更新的装置的实施例。
如图5所示,图5是本说明书根据一示例性实施例示出的一种基于自然语言数据进行查询的装置框图,该装置可以包括:获取模块501,生成模块502,转换模块503和查询模块504。
其中,获取模块501,用于获取用于查询的自然语言数据。
生成模块502,用于基于预设的字典树生成上述自然语言数据对应的字符序列。该字符序列包括上述自然语言数据中待解析的各个目标专用词语对应的各个目标解析规则的索引信息。
转换模块503,用于根据预设的专用词语规则库以及上述各个目标解析规则的索引信息,对上述字符序列进行转换,得到目标字符序列。
查询模块504,用于基于目标字符序列进行数据查询。
在一些实施方式中,专用词语规则库中包括自定义的专用词语的解析规则。字典树的非叶子节点中包括专用词节点,专用词节点映射的词语为自定义的专用词语。任一专用词节点的叶子节点记录该专用词节点映射的专用词语在专用词语规则库中的解析规则的索引信息。
在另一些实施方式中,生成模块502可以包括:确定子模块和生成子模块(图中未示出)。
其中,确定子模块,用于基于字典树确定上述自然语言数据中的各个目标专用词语在专用词语规则库中的各个目标解析规则的索引信息。
生成子模块,用于基于上述各个目标解析规则的索引信息,生成上述自然语言数据对应的字符序列。
在另一些实施方式中,转换模块503可以包括:获取子模块和替换子模块(图中未示出)。
其中,获取子模块,用于根据上述各个目标解析规则的索引信息,从专用词语规则库获取上述各个目标解析规则,并根据各个目标解析规则确定的各个目标专用词语各自对应的各个替换字符。
替换子模块,用于利用各个替换字符对上述字符序列进行转换,得到目标字符序列。
在另一些实施方式中,专用词语规则库中的解析规则属于替换类规则,或者属于操作类规则。
其中,替换子模块被配置用于:针对各个目标专用词语,若该目标专用词语对应的目标解析规则属于替换类规则,用该目标解析规则包括的替换字符替换字符序列中该目标专用词语对应的字符。若该目标专用词语对应的目标解析规则属于操作类规则,用根据该目标解析规则得到的量化字符替换字符序列中该目标专用词语对应的字符。
在另一些实施方式中,该装置还可以包括:更新模块(图中未示出)。
其中,更新模块,用于更新专用词语规则库以及更新字典树。
其中,更新模块通过如下方式更新专用词语规则库:获取用户输入的待添加专用词语以及待添加专用词语对应的解析内容。基于该解析内容生成待添加专用词语对应的待添加解析规则,并将待添加解析规则添加至专用词语规则库中。
其中,更新模块通过如下方式更新字典树:在字典树中添加待添加专用词语对应的节点的叶子节点,利用叶子节点记录待添加解析规则的索引信息。
在另一些实施方式中,更新模块通过如下方式获取用户输入的待添加专用词语以及待添加专用词语对应的解析内容:向用户输出专用词语添加接口,专用词语添加接口包括第一接口和第二接口。获取用户通过第一接口输入的待添加专用词语,以及通过第二接口输入的解析内容。
在另一些实施方式中,专用词语规则库中的解析规则属于替换类规则,或者属于操作类规则。其中,装置还可以包括:选择模块(图中未示出)。
选择模块,用于确定用户选择待添加解析规则属于替换类规则还是操作类规则。
其中,更新模块通过如下方式基于解析内容生成待添加专用词语对应的待添加解析规则,并将待添加解析规则添加至专用词语规则库中:若用户选择待添加解析规则属于替换类规则,将解析内容作为待添加解析规则包括的替换内容,得到待添加解析规则,将待添加解析规则标记为替换类规则,并添加至专用词语规则库中。若用户选择待添加解析规则属于操作类规则,基于解析内容对待添加专用词语进行量化分析,得到待添加解析规则,将待添加解析规则标记为操作类规则,并添加至专用词语规则库中。
如图6所示,图6是本说明书根据一示例性实施例示出的一种数据更新装置框图,该装置可以包括:获取模块601,生成模块602,添加模块603和记录模块604。
其中,获取模块601,用于获取用户输入的待添加专用词语及待添加专用词语对应的解析内容。
生成模块602,用于基于解析内容生成待添加专用词语对应的解析规则,并将解析规则添加至预设的专用词语规则库中。
添加模块603,用于在预设的字典树中添加待添加专用词语对应的节点的叶子节点。
记录模块604,用于利用叶子节点记录解析规则的索引信息。
在另一些实施方式中,获取模块601被配置用于:向用户输出专用词语添加接口,该专用词语添加接口包括第一接口和第二接口。获取用户通过第一接口输入的待添加专用词语,以及通过第二接口输入的解析内容。
在另一些实施方式中,该装置还可以包括:选择模块(图中未示出)。
其中,选择模块,用于确定用户选择解析规则属于替换类规则还是操作类规则。
其中,生成模块被配置用于:若用户选择解析规则属于替换类规则,将解析内容作为解析规则包括的替换内容,得到解析规则,将解析规则标记为替换类规则,并添加至专用词语规则库中。若用户选择解析规则属于操作类规则,基于解析内容对待添加专用词语进行量化分析,得到解析规则,将解析规则标记为操作类规则,并添加至专用词语规则库中。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书一个或多个实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本说明书一个或多个实施例还提供了一种计算机可读存储介质,该存储介质存储有计算机程序,计算机程序可用于执行上述图2至图4任一实施例提供的基于自然语言数据进行查询、数据更新的方法。
本说明书一个或多个实施例还提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述2至图4任一实施例提供的基于自然语言数据进行查询、数据更新的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (20)

1.一种基于自然语言数据进行查询的方法,所述方法包括:
获取用于查询的自然语言数据;
基于预设的字典树生成所述自然语言数据对应的字符序列;所述字符序列包括所述自然语言数据中待解析的各个目标专用词语对应的各个目标解析规则的索引信息;
根据预设的专用词语规则库以及所述各个目标解析规则的索引信息,对所述字符序列进行转换,得到目标字符序列;
基于所述目标字符序列进行数据查询;
其中,所述专用词语规则库中包括自定义的专用词语的解析规则;所述字典树的非叶子节点包括专用词节点,所述专用词节点映射的词语为自定义的专用词语;任一专用词节点的叶子节点记录该专用词节点映射的专用词语在所述专用词语规则库中的解析规则的索引信息;
其中,所述基于预设的字典树生成所述自然语言数据对应的字符序列,包括:
基于所述字典树确定所述自然语言数据中的各个目标专用词语在所述专用词语规则库中的各个目标解析规则的索引信息;
基于所述各个目标解析规则的索引信息,生成所述自然语言数据对应的字符序列。
2.根据权利要求1所述的方法,其中,所述根据预设的专用词语规则库以及所述各个目标解析规则的索引信息,对所述字符序列进行转换,包括:
根据所述各个目标解析规则的索引信息,从所述专用词语规则库获取所述各个目标解析规则,并根据所述各个目标解析规则确定的所述各个目标专用词语各自对应的各个替换字符;
利用所述各个替换字符对所述字符序列进行转换,得到目标字符序列。
3.根据权利要求2所述的方法,其中,所述专用词语规则库中的解析规则属于替换类规则,或者属于操作类规则;
其中,所述利用所述各个替换字符对所述字符序列进行转换,包括:
针对各个目标专用词语,若该目标专用词语对应的目标解析规则属于替换类规则,用该目标解析规则包括的替换字符替换所述字符序列中该目标专用词语对应的字符;
若该目标专用词语对应的目标解析规则属于操作类规则,用根据该目标解析规则得到的量化字符替换所述字符序列中该目标专用词语对应的字符。
4.根据权利要求1所述的方法,还包括:更新所述专用词语规则库以及更新所述字典树;
其中,所述更新所述专用词语规则库,包括:
获取用户输入的待添加专用词语以及所述待添加专用词语对应的解析内容;
基于所述解析内容生成所述待添加专用词语对应的待添加解析规则,并将所述待添加解析规则添加至所述专用词语规则库中;
其中,所述更新所述字典树,包括:
在所述字典树中添加所述待添加专用词语对应的节点的叶子节点;
利用所述叶子节点记录所述待添加解析规则的索引信息。
5.根据权利要求4所述的方法,其中,所述获取用户输入的待添加专用词语以及所述待添加专用词语对应的解析内容,包括:
向用户输出专用词语添加接口;所述专用词语添加接口包括第一接口和第二接口;
获取用户通过所述第一接口输入的所述待添加专用词语,以及通过所述第二接口输入的所述解析内容。
6.根据权利要求4所述的方法,其中,所述专用词语规则库中的解析规则属于替换类规则,或者属于操作类规则;其中,所述方法还包括:
确定所述用户选择所述待添加解析规则属于替换类规则还是操作类规则;
其中,所述基于所述解析内容生成所述待添加专用词语对应的待添加解析规则,并将所述待添加解析规则添加至所述专用词语规则库中,包括:
若所述用户选择所述待添加解析规则属于替换类规则,将所述解析内容作为所述待添加解析规则包括的替换内容,得到所述待添加解析规则,将所述待添加解析规则标记为替换类规则,并添加至所述专用词语规则库中;
若所述用户选择所述待添加解析规则属于操作类规则,基于所述解析内容对所述待添加专用词语进行量化分析,得到所述待添加解析规则,将所述待添加解析规则标记为操作类规则,并添加至所述专用词语规则库中。
7.一种数据更新方法,所述方法包括:
获取用户输入的待添加专用词语以及所述待添加专用词语对应的解析内容;
基于所述解析内容生成所述待添加专用词语对应的解析规则,并将所述解析规则添加至预设的专用词语规则库中;
在预设的字典树中添加所述待添加专用词语对应的节点的叶子节点;
利用所述叶子节点记录所述解析规则的索引信息;
其中,所述专用词语规则库中包括自定义的专用词语的解析规则;所述字典树的非叶子节点包括专用词节点,所述专用词节点映射的词语为自定义的专用词语;任一专用词节点的叶子节点记录该专用词节点映射的专用词语在所述专用词语规则库中的解析规则的索引信息。
8.根据权利要求7所述的方法,其中,所述获取用户输入的待添加专用词语以及所述待添加专用词语对应的解析内容,包括:
向用户输出专用词语添加接口;所述专用词语添加接口包括第一接口和第二接口;
获取用户通过所述第一接口输入的所述待添加专用词语,以及通过所述第二接口输入的所述解析内容。
9.根据权利要求7所述的方法,其中,所述方法还包括:
确定所述用户选择所述解析规则属于替换类规则还是操作类规则;
其中,所述基于所述解析内容生成所述待添加专用词语对应的解析规则,并将所述解析规则添加至预设的专用词语规则库中,包括:
若所述用户选择所述解析规则属于替换类规则,将所述解析内容作为所述解析规则包括的替换内容,得到所述解析规则,将所述解析规则标记为替换类规则,并添加至所述专用词语规则库中;
若所述用户选择所述解析规则属于操作类规则,基于所述解析内容对所述待添加专用词语进行量化分析,得到所述解析规则,将所述解析规则标记为操作类规则,并添加至所述专用词语规则库中。
10.一种基于自然语言数据进行查询的装置,所述装置包括:
获取模块,用于获取用于查询的自然语言数据;
生成模块,用于基于预设的字典树生成所述自然语言数据对应的字符序列;所述字符序列包括所述自然语言数据中待解析的各个目标专用词语对应的各个目标解析规则的索引信息;
转换模块,用于根据预设的专用词语规则库以及所述各个目标解析规则的索引信息,对所述字符序列进行转换,得到目标字符序列;
查询模块,用于基于所述目标字符序列进行数据查询;
其中,所述专用词语规则库中包括自定义的专用词语的解析规则;所述字典树的非叶子节点包括专用词节点,所述专用词节点映射的词语为自定义的专用词语;任一专用词节点的叶子节点记录该专用词节点映射的专用词语在所述专用词语规则库中的解析规则的索引信息;
其中,所述生成模块包括:
确定子模块,用于基于所述字典树确定所述自然语言数据中的各个目标专用词语在所述专用词语规则库中的各个目标解析规则的索引信息;
生成子模块,用于基于所述各个目标解析规则的索引信息,生成所述自然语言数据对应的字符序列。
11.根据权利要求10所述的装置,其中,所述转换模块包括:
获取子模块,用于根据所述各个目标解析规则的索引信息,从所述专用词语规则库获取所述各个目标解析规则,并根据所述各个目标解析规则确定的所述各个目标专用词语各自对应的各个替换字符;
替换子模块,用于利用所述各个替换字符对所述字符序列进行转换,得到目标字符序列。
12.根据权利要求11所述的装置,其中,所述专用词语规则库中的解析规则属于替换类规则,或者属于操作类规则;
其中,所述替换子模块被配置用于:
针对各个目标专用词语,若该目标专用词语对应的目标解析规则属于替换类规则,用该目标解析规则包括的替换字符替换所述字符序列中该目标专用词语对应的字符;
若该目标专用词语对应的目标解析规则属于操作类规则,用根据该目标解析规则得到的量化字符替换所述字符序列中该目标专用词语对应的字符。
13.根据权利要求10所述的装置,还包括:更新模块,用于更新所述专用词语规则库以及更新所述字典树;
其中,所述更新模块通过如下方式更新所述专用词语规则库:
获取用户输入的待添加专用词语以及所述待添加专用词语对应的解析内容;
基于所述解析内容生成所述待添加专用词语对应的待添加解析规则,并将所述待添加解析规则添加至所述专用词语规则库中;
其中,所述更新模块通过如下方式更新所述字典树:
在所述字典树中添加所述待添加专用词语对应的节点的叶子节点;
利用所述叶子节点记录所述待添加解析规则的索引信息。
14.根据权利要求13所述的装置,其中,所述更新模块通过如下方式获取用户输入的待添加专用词语以及所述待添加专用词语对应的解析内容:
向用户输出专用词语添加接口;所述专用词语添加接口包括第一接口和第二接口;
获取用户通过所述第一接口输入的所述待添加专用词语,以及通过所述第二接口输入的所述解析内容。
15.根据权利要求13所述的装置,其中,所述专用词语规则库中的解析规则属于替换类规则,或者属于操作类规则;其中,所述装置还包括:
选择模块,用于确定所述用户选择所述待添加解析规则属于替换类规则还是操作类规则;
其中,所述更新模块通过如下方式基于所述解析内容生成所述待添加专用词语对应的待添加解析规则,并将所述待添加解析规则添加至所述专用词语规则库中:
若所述用户选择所述待添加解析规则属于替换类规则,将所述解析内容作为所述待添加解析规则包括的替换内容,得到所述待添加解析规则,将所述待添加解析规则标记为替换类规则,并添加至所述专用词语规则库中;
若所述用户选择所述待添加解析规则属于操作类规则,基于所述解析内容对所述待添加专用词语进行量化分析,得到所述待添加解析规则,将所述待添加解析规则标记为操作类规则,并添加至所述专用词语规则库中。
16.一种数据更新装置,所述装置包括:
获取模块,用于获取用户输入的待添加专用词语及所述待添加专用词语对应的解析内容;
生成模块,用于基于所述解析内容生成所述待添加专用词语对应的解析规则,并将所述解析规则添加至预设的专用词语规则库中;
添加模块,用于在预设的字典树中添加所述待添加专用词语对应的节点的叶子节点;
记录模块,用于利用所述叶子节点记录所述解析规则的索引信息;
其中,所述专用词语规则库中包括自定义的专用词语的解析规则;所述字典树的非叶子节点包括专用词节点,所述专用词节点映射的词语为自定义的专用词语;任一专用词节点的叶子节点记录该专用词节点映射的专用词语在所述专用词语规则库中的解析规则的索引信息。
17.根据权利要求16所述的装置,其中,所述获取模块被配置用于:
向用户输出专用词语添加接口;所述专用词语添加接口包括第一接口和第二接口;
获取用户通过所述第一接口输入的所述待添加专用词语,以及通过所述第二接口输入的所述解析内容。
18.根据权利要求16所述的装置,其中,所述装置还包括:
选择模块,用于确定所述用户选择所述解析规则属于替换类规则还是操作类规则;
其中,所述生成模块被配置用于:
若所述用户选择所述解析规则属于替换类规则,将所述解析内容作为所述解析规则包括的替换内容,得到所述解析规则,将所述解析规则标记为替换类规则,并添加至所述专用词语规则库中;
若所述用户选择所述解析规则属于操作类规则,基于所述解析内容对所述待添加专用词语进行量化分析,得到所述解析规则,将所述解析规则标记为操作类规则,并添加至所述专用词语规则库中。
19.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令所述计算机执行权利要求1-9中任一项所述的方法。
20.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-9中任一项所述的方法。
CN202210058318.XA 2022-01-19 2022-01-19 基于自然语言数据进行查询、数据更新的方法及装置 Active CN114090721B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210058318.XA CN114090721B (zh) 2022-01-19 2022-01-19 基于自然语言数据进行查询、数据更新的方法及装置
CN202210675063.1A CN115098618A (zh) 2022-01-19 2022-01-19 基于自然语言数据进行查询、数据更新的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210058318.XA CN114090721B (zh) 2022-01-19 2022-01-19 基于自然语言数据进行查询、数据更新的方法及装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202210675063.1A Division CN115098618A (zh) 2022-01-19 2022-01-19 基于自然语言数据进行查询、数据更新的方法及装置

Publications (2)

Publication Number Publication Date
CN114090721A CN114090721A (zh) 2022-02-25
CN114090721B true CN114090721B (zh) 2022-04-22

Family

ID=80308567

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202210058318.XA Active CN114090721B (zh) 2022-01-19 2022-01-19 基于自然语言数据进行查询、数据更新的方法及装置
CN202210675063.1A Pending CN115098618A (zh) 2022-01-19 2022-01-19 基于自然语言数据进行查询、数据更新的方法及装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202210675063.1A Pending CN115098618A (zh) 2022-01-19 2022-01-19 基于自然语言数据进行查询、数据更新的方法及装置

Country Status (1)

Country Link
CN (2) CN114090721B (zh)

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130311166A1 (en) * 2012-05-15 2013-11-21 Andre Yanpolsky Domain-Specific Natural-Language Processing Engine
CN104915340B (zh) * 2014-03-10 2019-09-10 北京大学 自然语言问答方法及装置
CN104657439B (zh) * 2015-01-30 2019-12-13 欧阳江 用于自然语言精准检索的结构化查询语句生成系统及方法
CN106033466A (zh) * 2015-03-20 2016-10-19 华为技术有限公司 数据库查询的方法和设备
JP7103763B2 (ja) * 2017-07-20 2022-07-20 株式会社日立製作所 情報処理システムおよび情報処理方法
CN108228701A (zh) * 2017-10-23 2018-06-29 武汉大学 一种实现汉语近自然语言查询接口的系统
CN111159330B (zh) * 2018-11-06 2023-06-20 阿里巴巴集团控股有限公司 一种数据库查询语句的生成方法及装置
CN112580357A (zh) * 2019-09-29 2021-03-30 微软技术许可有限责任公司 自然语言查询的语义解析
US11163760B2 (en) * 2019-12-17 2021-11-02 Mastercard International Incorporated Providing a data query service to a user based on natural language request data
CN111177184A (zh) * 2019-12-24 2020-05-19 深圳壹账通智能科技有限公司 基于自然语言的结构化查询语言转换方法、及其相关设备
CN112001188B (zh) * 2020-10-30 2021-03-16 北京智源人工智能研究院 基于向量化语义规则快速实现nl2sql的方法和装置
CN112507083B (zh) * 2020-12-16 2022-07-01 中国南方电网有限责任公司 一种基于调度防误领域语言的防误规则库构建方法
CN112800201B (zh) * 2021-01-28 2023-06-09 杭州汇数智通科技有限公司 自然语言的处理方法、装置及电子设备
CN113553414B (zh) * 2021-06-30 2023-08-25 北京百度网讯科技有限公司 智能对话方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN114090721A (zh) 2022-02-25
CN115098618A (zh) 2022-09-23

Similar Documents

Publication Publication Date Title
CN110543517B (zh) 一种基于Elasticsearch实现海量数据复杂查询方法、装置及介质
CN110502227B (zh) 代码补全的方法及装置、存储介质、电子设备
US20140351228A1 (en) Dialog system, redundant message removal method and redundant message removal program
CN112417846B (zh) 文本自动化生成方法、装置、电子设备及存储介质
CN110795526B (zh) 一种用于检索系统的数学公式索引创建方法与系统
CN111274267A (zh) 一种数据库查询方法、装置及计算机可读取存储介质
CN113641701A (zh) 一种数据查询方法、系统、异构加速平台及存储介质
CN110019712A (zh) 多意图查询方法和装置、计算机设备及计算机可读存储介质
CN110909126A (zh) 一种信息查询方法及装置
CN118170894A (zh) 一种知识图谱问答方法、装置及存储介质
CN113297251A (zh) 多源数据检索方法、装置、设备及存储介质
CN113641813A (zh) 基于知识图谱的问答系统、方法、电子设备及存储介质
CN118035280A (zh) 数据查询方法、装置、电子设备以及存储介质
CN110209780A (zh) 一种问题模板生成方法、装置、服务器及存储介质
CN114090721B (zh) 基于自然语言数据进行查询、数据更新的方法及装置
CN110928535B (zh) 衍生变量部署方法、装置、设备及可读存储介质
CN113157888A (zh) 支持多知识来源的询问答复方法、装置和电子设备
CN101727451A (zh) 信息提取方法和装置
CN109408592B (zh) 一种决策型分布式数据库系统中ai的特征工程知识库及其实现方法
CN117971860A (zh) 基于大语言模型生成sql语句的方法、装置及终端设备
CN117076727A (zh) 一种查询语句解析方法、装置、设备和存储介质
CN113255374B (zh) 问答管理方法及系统
CN116360794A (zh) 数据库语言解析方法、装置、计算机设备及存储介质
CN115203206A (zh) 数据内容搜索方法、装置、计算机设备及可读存储介质
CN115048102A (zh) 代码生成方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant