CN117076688A - 基于领域知识图谱的知识问答方法及其装置、电子设备 - Google Patents
基于领域知识图谱的知识问答方法及其装置、电子设备 Download PDFInfo
- Publication number
- CN117076688A CN117076688A CN202311049695.8A CN202311049695A CN117076688A CN 117076688 A CN117076688 A CN 117076688A CN 202311049695 A CN202311049695 A CN 202311049695A CN 117076688 A CN117076688 A CN 117076688A
- Authority
- CN
- China
- Prior art keywords
- target
- entity
- knowledge
- information
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000012545 processing Methods 0.000 claims abstract description 24
- 230000011218 segmentation Effects 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 13
- 238000010276 construction Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 230000001502 supplementing effect Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 12
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 238000004458 analytical method Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 235000008694 Humulus lupulus Nutrition 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Animal Behavior & Ethology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于领域知识图谱的知识问答方法及其装置、电子设备,涉及人工智能领域、金融科技领域或其他相关领域,其中,该知识问答方法包括:接收目标问题,并对目标问题进行处理,得到问题提示信息,基于目标问题,抽取目标实体集合或者目标关系集合,基于目标实体集合,从预设领域知识图谱中检索与目标实体匹配的三元组信息,得到三元组信息集合,基于三元组信息集合以及问题提示信息,构建输入知识信息,并将输入知识信息输入至预设推理模型,输出目标问题的目标答案。本发明解决了相关技术中对问题进行知识问答推理的准确性较低的技术问题。
Description
技术领域
本发明涉及人工智能领域,具体而言,涉及一种基于领域知识图谱的知识问答方法及其装置、电子设备。
背景技术
当前,在金融服务场景中(例如,金融市场交易场景),需要手动进行交易事前调研、数据分析以及交易决策,往往面临无法快速从海量信息中获取有效信息,并及时对信息进行整合、分析,导致出现决策困难、决策不准确等问题,进而影响业务效率和增长。
随着生成式模型的发布(例如,ChatGPT,全称Chat Generative Pre-trainedTransformer,即一种聊天机器人程序),自然语言文本理解和生成能力得到了显著提升,智能知识问答推理服务水平有了很大改善。然而,当前的生成式模型仍存在逻辑推理不靠谱、生成结果事实性低的问题,更无法为领域类(例如,金融领域)问题提供专业、准确的答案。
相关技术中,往往采用如下方案进行智能知识问答:(1)基于知识图谱的智能问答推理(2)问答对匹配(3)基于生成式模型进行智能问答,其中,
(1)基于知识图谱的智能问答推理,能够基于知识图谱技术,构建通用或专业领域的知识图谱,实现知识推理智能问答应用。
图1是根据相关技术的一种可选的基于知识图谱的智能问答推理的示意图,如图1所示,包括:问题分析模块、问题回答模块、答案生成模块,其中,问题分析模块包括:问题分类以及NLP(Natural Language Processing,即自然语言处理)技术,可以先对输入的问题进行问题分类,然后利用NLP技术进行问题关键词提取、语义分析等处理;问题回答模块包括:模式匹配以及知识问答,通过对问题分析模块传输的数据进行语义理解和解析,利用知识库进行查询、推理得出答案;答案生成模块:能够根据问题分析模块传输的数据,对候选答案进行打分,选出最佳答案。
(2)问答对匹配,依赖问答库,通过计算语义的相似性来匹配答案。
(3)基于生成式模型进行智能问答,基于预先训练好的模型按照上下文场景、用户问题等信息进行意图识别和语义分析,并生成问答答案。
图2是根据相关技术的一种可选的基于生成式模型进行智能问答的示意图,如图2所示,模型包括:意图分析、语义分析以及答案生成等模块,将问题输入至模型中,对问题进行意图分析以及语义分析,然后通过答案生成模块得到问答答案。
然而,相关技术中的智能知识问答方案存在如下问题:(1)对于基于模型进行智能问答推理方案,存在推理结果不可靠、结果可控性低等问题。一方面模型主要通过自收集、自标注的数据进行预训练,若训练样本数据存在样本不均衡,可能导致模型出现偏见性、公平性问题;另一方面针对领域类场景,模型进行预训练的数据中没有足够的专业样本数据(或者某些领域样本数据很少),且模型从网络中收集的信息,也面临非事实性问题,导致模型推理生成的内容可靠性低,且无法真正为领域类问题提供专业、靠谱的答案,而如果采用新标注领域类专业样本数据并注入模型进行预训练,则面临人力、计算成本高,且不能保证模型在领域类各细分场景都达到预期效果的问题;(2)对于基于知识图谱的智能问答推理方案,存在架构调整难,不易根据新的数据或场景进行修改和调整的问题,并且还存在推理能力弱,图谱构建成本高等问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种基于领域知识图谱的知识问答方法及其装置、电子设备,以至少解决相关技术中对问题进行知识问答推理的准确性较低的技术问题。
根据本发明实施例的一个方面,提供了一种基于领域知识图谱的知识问答方法,包括:接收目标问题,并对所述目标问题进行处理,得到问题提示信息;基于所述目标问题,抽取目标实体集合或者目标关系集合,其中,所述目标实体集合包括:多个目标实体,所述目标关系集合包括:多个目标关系;在抽取到所述目标实体集合的情况下,基于所述目标实体集合,从预设领域知识图谱中检索与所述目标实体匹配的三元组信息,或者在抽取到所述目标关系集合的情况下,基于所述目标关系集合,从预设领域知识图谱中检索与所述目标关系匹配的三元组信息,得到三元组信息集合;基于所述三元组信息集合以及所述问题提示信息,构建输入知识信息,并将所述输入知识信息输入至预设推理模型,输出所述目标问题的目标答案。
可选地,对所述目标问题进行处理,得到问题提示信息的步骤,包括:构建问题提示模板,其中,所述问题提示模板包括:问题指令;基于所述问题提示模板,在所述目标问题中加入所述问题指令,生成所述问题提示信息。
可选地,基于所述目标问题,抽取目标实体集合或者目标关系集合的步骤,包括:对所述目标问题进行分词处理,得到多个分词;对所述分词进行分析,确定所述分词的词类型;在所述词类型是第一预设类型的情况下,将所述词类型指示的所述分词确定为所述目标实体,或者,在所述词类型是第二预设类型的情况下,将所述词类型指示的所述分词确定为所述目标关系,得到所述目标关系集合;在所有所述词类型都不是所述第一预设类型以及所述第二预设类型的情况下,确定所述目标问题的上下文信息,并基于所述上下文信息,补充所述目标问题对应的所述目标实体;基于所有所述目标实体,生成所述目标实体集合。
可选地,所述三元组信息包括:主体实体、对象实体和实体关系,在抽取到所述目标实体集合的情况下,基于所述目标实体集合,从预设领域知识图谱中检索与所述目标实体匹配的三元组信息,得到三元组信息集合的步骤,包括:确定检索跳数阈值以及初始检索跳数;从所述预设领域知识图谱中检索与所述目标实体匹配的知识图谱实体,其中,所述知识图谱实体是所述主体实体或者对象实体;在检索到与所述目标实体匹配的第一知识图谱实体的情况下,对所述初始检索跳数进行更新操作,得到当前检索跳数;在所述当前检索跳数小于所述检索跳数阈值的情况下,基于所述实体关系,确定与所述第一知识图谱实体关联的第二知识图谱实体;更新所述当前检索跳数,并继续基于所述实体关系,确定与所述第二知识图谱实体关联的第三知识图谱实体,直到所述当前检索跳数大于等于所述检索跳数阈值,得到知识图谱实体集合;基于所述知识图谱实体集合,确定每个所述知识图谱实体所属的所述三元组信息,得到所述三元组信息集合。
可选地,在抽取到所述目标关系集合的情况下,基于所述目标关系集合,从预设领域知识图谱中检索与所述目标关系匹配的三元组信息,得到三元组信息集合的步骤,包括:从所述预设领域知识图谱中检索与所述目标关系匹配的实体关系,直到检索成功或者检索次数达到预设检索阈值,得到检索结果;在检索成功的情况下,基于所述检索结果确定与所述目标关系匹配的目标实体关系,得到目标实体关系集合;基于所述目标实体关系集合,确定每个所述目标实体关系所属的所述三元组信息,得到所述三元组信息集合。
可选地,在基于所述目标实体集合,从预设领域知识图谱中检索与所述目标实体匹配的三元组信息,得到三元组信息集合之后,还包括:连接所述三元组信息中的主体实体、对象实体以及实体关系,得到回答文本,其中,所述三元组信息对应有与所述目标实体关联的关联值;基于所述关联值,对所有所述回答文本进行排序,得到回答文本集合。
可选地,基于所述三元组信息集合以及所述问题提示信息,构建输入知识信息的步骤,包括:构建回答提示模板,其中,所述回答提示模板包括:回答指令;基于所述回答提示模板,在所述回答文本集合中的每个所述回答文本中加入所述回答指令,生成回答提示信息集合;拼接所述问题提示信息以及所述回答提示信息集合,得到所述输入知识信息。
可选地,将所述输入知识信息输入至预设推理模型,输出所述目标问题的目标答案的步骤,包括:采用所述预设推理模型分析所述问题提示信息,得到答案集合,其中,所述预设推理模型是采用训练数据集合预先训练的推理模型,所述训练数据集合包括:历史问题集合以及与所述历史问题集合中的每个历史问题对应的历史答案;将所述输入知识信息表征为预设条件,并基于所述预设条件,确定所述答案集合中每个答案的条件概率值;将最大条件概率值指示的所述答案确定为所述目标答案。
根据本发明实施例的另一方面,还提供了一种基于领域知识图谱的知识问答装置,包括:接收单元,用于接收目标问题,并对所述目标问题进行处理,得到问题提示信息;抽取单元,用于基于所述目标问题,抽取目标实体集合或者目标关系集合,其中,所述目标实体集合包括:多个目标实体,所述目标关系集合包括:多个目标关系;检索单元,用于在抽取到所述目标实体集合的情况下,基于所述目标实体集合,从预设领域知识图谱中检索与所述目标实体匹配的三元组信息,或者在抽取到所述目标关系集合的情况下,基于所述目标关系集合,从预设领域知识图谱中检索与所述目标关系匹配的三元组信息,得到三元组信息集合;构建单元,用于基于所述三元组信息集合以及所述问题提示信息,构建输入知识信息,并将所述输入知识信息输入至预设推理模型,输出所述目标问题的目标答案。
可选地,所述接收单元包括:第一构建模块,用于构建问题提示模板,其中,所述问题提示模板包括:问题指令;第一生成模块,用于基于所述问题提示模板,在所述目标问题中加入所述问题指令,生成所述问题提示信息。
可选地,所述抽取单元包括:第一处理模块,用于对所述目标问题进行分词处理,得到多个分词;第一分析模块,用于对所述分词进行分析,确定所述分词的词类型;第一确定模块,用于在所述词类型是第一预设类型的情况下,将所述词类型指示的所述分词确定为所述目标实体,或者,在所述词类型是第二预设类型的情况下,将所述词类型指示的所述分词确定为所述目标关系,得到所述目标关系集合;第二确定模块,用于在所有所述词类型都不是所述第一预设类型以及所述第二预设类型的情况下,确定所述目标问题的上下文信息,并基于所述上下文信息,补充所述目标问题对应的所述目标实体;第二生成模块,用于基于所有所述目标实体,生成所述目标实体集合。
可选地,所述三元组信息包括:主体实体、对象实体和实体关系,所述检索单元包括:第三确定模块,用于确定检索跳数阈值以及初始检索跳数;第一检索模块,用于从所述预设领域知识图谱中检索与所述目标实体匹配的知识图谱实体,其中,所述知识图谱实体是所述主体实体或者对象实体;第一更新模块,用于在检索到与所述目标实体匹配的第一知识图谱实体的情况下,对所述初始检索跳数进行更新操作,得到当前检索跳数;第四确定模块,用于在所述当前检索跳数小于所述检索跳数阈值的情况下,基于所述实体关系,确定与所述第一知识图谱实体关联的第二知识图谱实体;第二更新模块,用于更新所述当前检索跳数,并继续基于所述实体关系,确定与所述第二知识图谱实体关联的第三知识图谱实体,直到所述当前检索跳数大于等于所述检索跳数阈值,得到知识图谱实体集合;第五确定模块,用于基于所述知识图谱实体集合,确定每个所述知识图谱实体所属的所述三元组信息,得到所述三元组信息集合。
可选地,所述检索单元还包括:第二检索模块,用于从所述预设领域知识图谱中检索与所述目标关系匹配的实体关系,直到检索成功或者检索次数达到预设检索阈值,得到检索结果;第六确定模块,用于在检索成功的情况下,基于所述检索结果确定与所述目标关系匹配的目标实体关系,得到目标实体关系集合;第七确定模块,用于基于所述目标实体关系集合,确定每个所述目标实体关系所属的所述三元组信息,得到所述三元组信息集合。
可选地,所述知识问答装置还包括:第一连接模块,用于在基于所述目标实体集合,从预设领域知识图谱中检索与所述目标实体匹配的三元组信息,得到三元组信息集合之后,连接所述三元组信息中的主体实体、对象实体以及实体关系,得到回答文本,其中,所述三元组信息对应有与所述目标实体关联的关联值;第一排序模块,用于基于所述关联值,对所有所述回答文本进行排序,得到回答文本集合。
可选地,所述构建单元包括:第二构建模块,用于构建回答提示模板,其中,所述回答提示模板包括:回答指令;第三生成模块,用于基于所述回答提示模板,在所述回答文本集合中的每个所述回答文本中加入所述回答指令,生成回答提示信息集合;第一拼接模块,用于拼接所述问题提示信息以及所述回答提示信息集合,得到所述输入知识信息。
可选地,所述构建单元还包括:第二分析模块,用于采用所述预设推理模型分析所述问题提示信息,得到答案集合,其中,所述预设推理模型是采用训练数据集合预先训练的推理模型,所述训练数据集合包括:历史问题集合以及与所述历史问题集合中的每个历史问题对应的历史答案;第八确定模块,用于将所述输入知识信息表征为预设条件,并基于所述预设条件,确定所述答案集合中每个答案的条件概率值;第九确定模块,用于将最大条件概率值指示的所述答案确定为所述目标答案。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项基于领域知识图谱的知识问答方法。
根据本发明实施例的另一方面,还提供了一种电子设备,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述任意一项基于领域知识图谱的知识问答方法。
在本公开中,接收目标问题,并对目标问题进行处理,得到问题提示信息,基于目标问题,抽取目标实体集合或者目标关系集合,在抽取到目标实体集合的情况下,基于目标实体集合,从预设领域知识图谱中检索与目标实体匹配的三元组信息,或者在抽取到目标关系集合的情况下,基于目标关系集合,从预设领域知识图谱中检索与目标关系匹配的三元组信息,得到三元组信息集合,基于三元组信息集合以及问题提示信息,构建输入知识信息,并将输入知识信息输入至预设推理模型,输出目标问题的目标答案。在本公开中,可以先对接收到的目标问题进行处理,以得到问题提示信息,并可以抽取目标问题中的目标实体集合或者目标关系集合,以根据目标实体集合,从预设领域知识图谱中检索与目标实体匹配的三元组信息或者根据目标关系集合,从预设领域知识图谱中检索与目标关系匹配的三元组信息,然后根据得到的三元组信息集合以及问题提示信息,构建输入知识信息,之后将输入知识信息输入至预设推理模型,以得到输出目标问题的目标答案,通过结合预设领域知识图谱,能够将问题构建为输入知识信息,然后通过预设推理模型处理输入知识信息,能够降低模型推理过程中的偏见,提高对问题进行知识问答推理的准确性,进而解决了相关技术中对问题进行知识问答推理的准确性较低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据相关技术的一种可选的基于知识图谱的智能问答推理的示意图;
图2是根据相关技术的一种可选的基于生成式模型进行智能问答的示意图;
图3是根据本发明实施例的一种可选的基于领域知识图谱的知识问答方法的流程图;
图4是根据本发明实施例的一种可选的基于领域知识图谱的知识问答推理流程的示意图;
图5是根据本发明实施例的一种可选的基于领域知识图谱的知识问答装置的示意图;
图6是根据本发明实施例的一种用于基于领域知识图谱的知识问答方法的电子设备(或移动设备)的硬件结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于本领域技术人员理解本发明,下面对本发明各实施例中涉及的部分术语或名词做出解释:
知识图谱,是一种用图模型来描述知识和建模实体之间的关联关系的方法,由节点和边组成。
语言模型,用于生成词序列的概率分布,即为一个文本确定一个概率分布,表示该文本存在的可能性。
需要说明的是,本公开中的基于领域知识图谱的知识问答方法及其装置可用于人工智能领域在基于领域知识图谱进行知识问答的情况下,也可用于除人工智能领域之外的任意领域在基于领域知识图谱进行知识问答的情况下,本公开中对基于领域知识图谱的知识问答方法及其装置的应用领域不做限定。
需要说明的是,本公开所涉及的相关信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。例如,本系统和相关用户或机构间设置有接口,在获取相关信息之前,需要通过接口向前述的用户或机构发送获取请求,并在接收到前述的用户或机构反馈的同意信息后,获取相关信息。
本发明下述各实施例可应用于各种基于领域知识图谱进行知识问答的系统/应用/设备中。本发明提出了一种基于领域知识图谱的知识问答推理方法,能够解决相关技术中智能推理问答结果可靠程度低、结果存在偏见性和公平性的问题。
本发明利用领域知识图谱数据资产,能够增强模型推理结果的可控性、可靠性,减少模型非事实性错误,提升模型智能问答推理能力水平,提升模型在智能客服、虚拟助手等场景下的适用性,此外,本发明无需按照场景类型重新训练模型,能够灵活适用各类场景下的知识问答推理。
下面结合各个实施例来详细说明本发明。
实施例一
根据本发明实施例,提供了一种基于领域知识图谱的知识问答方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图3是根据本发明实施例的一种可选的基于领域知识图谱的知识问答方法的流程图,如图3所示,该方法包括如下步骤:
步骤S301,接收目标问题,并对目标问题进行处理,得到问题提示信息。
步骤S302,基于目标问题,抽取目标实体集合或者目标关系集合,其中,目标实体集合包括:多个目标实体,目标关系集合包括:多个目标关系。
步骤S303,在抽取到目标实体集合的情况下,基于目标实体集合,从预设领域知识图谱中检索与目标实体匹配的三元组信息,或者在抽取到目标关系集合的情况下,基于目标关系集合,从预设领域知识图谱中检索与目标关系匹配的三元组信息,得到三元组信息集合。
步骤S304,基于三元组信息集合以及问题提示信息,构建输入知识信息,并将输入知识信息输入至预设推理模型,输出目标问题的目标答案。
通过上述步骤,可以接收目标问题,并对目标问题进行处理,得到问题提示信息,基于目标问题,抽取目标实体集合或者目标关系集合,在抽取到目标实体集合的情况下,基于目标实体集合,从预设领域知识图谱中检索与目标实体匹配的三元组信息,或者在抽取到目标关系集合的情况下,基于目标关系集合,从预设领域知识图谱中检索与目标关系匹配的三元组信息,得到三元组信息集合,基于三元组信息集合以及问题提示信息,构建输入知识信息,并将输入知识信息输入至预设推理模型,输出目标问题的目标答案。在本发明实施例中,可以先对接收到的目标问题进行处理,以得到问题提示信息,并可以抽取目标问题中的目标实体集合或者目标关系集合,以根据目标实体集合,从预设领域知识图谱中检索与目标实体匹配的三元组信息或者根据目标关系集合,从预设领域知识图谱中检索与目标关系匹配的三元组信息,然后根据得到的三元组信息集合以及问题提示信息,构建输入知识信息,之后将输入知识信息输入至预设推理模型,以得到输出目标问题的目标答案,通过结合预设领域知识图谱,能够将问题构建为输入知识信息,然后通过预设推理模型处理输入知识信息,能够降低模型推理过程中的偏见,提高对问题进行知识问答推理的准确性,进而解决了相关技术中对问题进行知识问答推理的准确性较低的技术问题。
下面结合上述各步骤对本发明实施例进行详细说明。
步骤S301,接收目标问题,并对目标问题进行处理,得到问题提示信息。
可选地,对目标问题进行处理,得到问题提示信息的步骤,包括:构建问题提示模板,其中,问题提示模板包括:问题指令;基于问题提示模板,在目标问题中加入问题指令,生成问题提示信息。
在本发明实施例中,可以先接收需要进行知识问答的目标问题,然后对目标问题进行处理,以得到问题提示信息,具体为:可以先构建问题提示模板,该问题提示模板包括:问题指令(例如,请回答下述问题),然后依据问题提示模板,在目标问题中加入问题指令,以生成问题提示信息,例如,目标问题x为“某书的作者是谁”,则根据问题提示模板,生成的问题提示信息x'为“请回答下述问题:某书的作者是谁”。
步骤S302,基于目标问题,抽取目标实体集合或者目标关系集合,其中,目标实体集合包括:多个目标实体,目标关系集合包括:多个目标关系。
可选地,基于目标问题,抽取目标实体集合或者目标关系集合的步骤,包括:对目标问题进行分词处理,得到多个分词;对分词进行分析,确定分词的词类型;在词类型是第一预设类型的情况下,将词类型指示的分词确定为目标实体,或者,在词类型是第二预设类型的情况下,将词类型指示的分词确定为目标关系,得到目标关系集合;在所有词类型都不是第一预设类型以及第二预设类型的情况下,确定目标问题的上下文信息,并基于上下文信息,补充目标问题对应的目标实体;基于所有目标实体,生成目标实体集合。
在本发明实施例中,可以通过实体链接或自然语言模型提取问题或句子(即目标问题)中的内容(即实体或者关系,可以是主体实体(即位于主语位置的名词),也可以是对象实体(即位于宾语位置的名词),也可以是实体之间的关系(例如,夫妻关系、主从关系等)),如果实体或者关系不存在,可利用知识补全方法补充问题中的实体(即基于目标问题,抽取目标实体集合或者目标关系集合,该目标实体集合包括:多个目标实体,该目标关系集合包括:多个目标关系),具体为:可以先对目标问题进行分词处理,以得到多个分词,然后对每个分词进行分析,以确定每个分词的词类型(例如,名词、动词、形容词等),如果词类型是第一预设类型(例如,表示对象名称的名词等),则可以将词类型指示的分词确定为目标实体,如果词类型是第二预设类型(例如,表示关系的名词等),则可以将词类型指示的分词确定为目标实体。如果所有词类型都不是第一预设类型和第二预设类型,则可以先确定目标问题的上下文信息,然后根据上下文信息,补充目标问题对应的目标实体,之后根据所有目标实体,生成目标实体集合。
步骤S303,在抽取到目标实体集合的情况下,基于目标实体集合,从预设领域知识图谱中检索与目标实体匹配的三元组信息,或者在抽取到目标关系集合的情况下,基于目标关系集合,从预设领域知识图谱中检索与目标关系匹配的三元组信息,得到三元组信息集合。
可选地,三元组信息包括:主体实体、对象实体和实体关系,在抽取到目标实体集合的情况下,基于目标实体集合,从预设领域知识图谱中检索与目标实体匹配的三元组信息,得到三元组信息集合的步骤,包括:确定检索跳数阈值以及初始检索跳数;从预设领域知识图谱中检索与目标实体匹配的知识图谱实体,其中,知识图谱实体是主体实体或者对象实体;在检索到与目标实体匹配的第一知识图谱实体的情况下,对初始检索跳数进行更新操作,得到当前检索跳数;在当前检索跳数小于检索跳数阈值的情况下,基于实体关系,确定与第一知识图谱实体关联的第二知识图谱实体;更新当前检索跳数,并继续基于实体关系,确定与第二知识图谱实体关联的第三知识图谱实体,直到当前检索跳数大于等于检索跳数阈值,得到知识图谱实体集合;基于知识图谱实体集合,确定每个知识图谱实体所属的三元组信息,得到三元组信息集合。
在本发明实施例中,可以基于提取到的实体,从领域知识图谱(是基于领域知识预先构建的知识图谱,例如,金融领域知识图谱)中检索与从问题中提取到的实体相关的三元组(主体实体、对象实体、关系)(即基于目标实体集合,从预设领域知识图谱中检索与目标实体匹配的三元组信息,得到三元组信息集合),从知识图谱中检索到的三元组即可作为输入问题的相关事实,其中,三元组可能存在多对,三元组信息包括:主体实体、对象实体和实体关系。
在本发明实施例中,在进行三元组检索时,检索空间的大小影响三元组的数量,因此,可以依据问答场景任务复杂度设置从问题上检索的跳数,并且考虑到检索到的三元组存在与目标问题无关或数量较多的问题,可以采用对称知识检索器或者非对称检索器进行检索。
在本发明实施例中,可以先确定检索跳数阈值(可以根据实际情况进行设置,例如,2)以及初始检索跳数(例如,设置初始检索跳数为0),然后可以从预设领域知识图谱中检索与目标实体匹配的知识图谱实体(知识图谱实体是主体实体或者对象实体),如果检索到与目标实体匹配的第一知识图谱实体,则可以对初始检索跳数进行更新操作(即将初始检索跳数加1),得到当前检索跳数.如果当前检索跳数小于检索跳数阈值,则可以根据相应的实体关系,确定与第一知识图谱实体关联的第二知识图谱实体,再次更新当前检索跳数,并继续根据相应的实体关系,确定与第二知识图谱实体关联的第三知识图谱实体,直到当前检索跳数大于等于检索跳数阈值,从而得到知识图谱实体集合,之后根据知识图谱实体集合,确定每个知识图谱实体所属的三元组信息,得到三元组信息集合,其中,三元组信息K可以表示为:si表示主体实体,ri表示对象实体,oi表示实体关系,N表示三元组信息数量。
可选地,在抽取到目标关系集合的情况下,基于目标关系集合,从预设领域知识图谱中检索与目标关系匹配的三元组信息,得到三元组信息集合的步骤,包括:从预设领域知识图谱中检索与目标关系匹配的实体关系,直到检索成功或者检索次数达到预设检索阈值,得到检索结果;在检索成功的情况下,基于检索结果确定与目标关系匹配的目标实体关系,得到目标实体关系集合;基于目标实体关系集合,确定每个目标实体关系所属的三元组信息,得到三元组信息集合。
在本发明实施例中,如果从目标问题中抽取到目标关系集合,则可以从预设领域知识图谱中检索与目标关系匹配的实体关系,如果检索成功,则停止检索,将获取检索到的领域知识图谱中的关系所属的三元组信息(在检索成功的情况下,基于检索结果确定与目标关系匹配的目标实体关系,得到目标实体关系集合,并基于目标实体关系集合,确定每个目标实体关系所属的三元组信息,得到三元组信息集合);如果检索次数达到预设检索阈值(可以根据实际情况进行设置,例如,3次)时还没有检索成功,则可以停止检索。
可选地,在基于目标实体集合,从预设领域知识图谱中检索与目标实体匹配的三元组信息,得到三元组信息集合之后,还包括:连接三元组信息中的主体实体、对象实体以及实体关系,得到回答文本,其中,三元组信息对应有与目标实体关联的关联值;基于关联值,对所有回答文本进行排序,得到回答文本集合。
在本发明实施例中,推理模型的输入是文本形式,因此需要将从领域知识图谱中检索到的跟问题相关的三元组转化为变长文本系列,具体为:可以采用线性方式将三元组的主体实体,实体关系和对象实体进行连接,以生成知识文本(即连接三元组信息中的主体实体、对象实体以及实体关系,得到回答文本)。在本实施例中,可以根据检索到三元组信息时经历的检索跳数,确定该三元组信息与目标实体关联的关联值,然后根据关联值,对所有回答文本进行排序,以得到排序后的回答文本集合。
步骤S304,基于三元组信息集合以及问题提示信息,构建输入知识信息,并将输入知识信息输入至预设推理模型,输出目标问题的目标答案。
在本发明实施例中,需要将回答文本集合k转换为回答提示信息集合k',然后将回答提示信息集合预置到问题提示信息,得到输入知识信息,之后将输入知识信息输入至预设推理模型,由预设推理模型生成答案并返回最终的问答结果(即目标答案)。
可选地,基于三元组信息集合以及问题提示信息,构建输入知识信息的步骤,包括:构建回答提示模板,其中,回答提示模板包括:回答指令;基于回答提示模板,在回答文本集合中的每个回答文本中加入回答指令,生成回答提示信息集合;拼接问题提示信息以及回答提示信息集合,得到输入知识信息。
在本发明实施例中,可以先构建回答提示模板,该回答提示模板包括:回答指令(例如,该问题的答案参考如下),然后依据回答提示模板,在回答文本集合中的每个回答文本中加入回答指令,以生成回答提示信息集合,例如,回答文本集合k为“某书的作者是A,某书的作者是A+B,某书的翻译作者是C”,则根据回答提示模板,生成的回答提示信息集合k'为“该问题的答案参考如下:某书的作者是A,某书的作者是A+B,某书的翻译作者是C”。之后,拼接问题提示信息以及回答提示信息集合,以得到输入知识信息[x′,k′],其中,[]表示连接。
可选地,将输入知识信息输入至预设推理模型,输出目标问题的目标答案的步骤,包括:采用预设推理模型分析问题提示信息,得到答案集合,其中,预设推理模型是采用训练数据集合预先训练的推理模型,训练数据集合包括:历史问题集合以及与历史问题集合中的每个历史问题对应的历史答案;将输入知识信息表征为预设条件,并基于预设条件,确定答案集合中每个答案的条件概率值;将最大条件概率值指示的答案确定为目标答案。
在本发明实施例中,预设推理模型是采用训练数据集合(包括:历史问题集合以及与历史问题集合中的每个历史问题对应的历史答案)预先训练的推理模型,推理模型可以是各种算法模型,例如,利用深度神经网络来学习问题和答案之间的复杂关系的模型,通过分析大量数据来学习问题和答案之间的统计关系的模型等,在此不作限制。
在本发明实施例中,在得到输入知识信息[x′,k′]后,可以将输入知识信息[x′,k′]注入预设推理模型中,然后采用预设推理模型分析问题提示信息x′,得到答案集合,并且,预设推理模型可以将输入知识信息作为预设条件,并根据预设条件,确定答案集合中每个答案的条件概率值(即P(y|[x′,k′]),其中,y表示答案集合中的某个答案),最后将最大条件概率值指示的答案确定为目标答案进行输出。
下面结合另一种可选的具体实施方式进行详细说明。
图4是根据本发明实施例的一种可选的基于领域知识图谱的知识问答推理流程的示意图,如图4所示,包括如下流程:
(1)获取问题,并在问题中按照模板方式加入指令,得到问题提示;
(2)对问题进行实体抽取,得到实体、关系元素,然后依据实体、关系元素,在领域知识图谱中进行知识检索,得到三元组(问题相关);
(3)然后将三元组(问题相关)进行三元组口语化,生成知识文本;
(4)在知识文本中按照模板方式加入指令,得到知识提示(事实),然后将知识提示(事实)预置到问题提示中,融合成知识提示;
(5)将提示注入至推理模型,通过推理模型进行分析,生成问题答案。
本发明实施例中,提出了一种基于领域知识图谱生成知识提示以增强模型专业知识推理能力的方法,能够解决相关技术中模型生成结果可靠性差,以及可能存在的偏见、公平性等问题,并且通过充分利用已构建的领域知识图谱数据资产事实性优势,能够自迭代增强模型推理能力,具备场景适应性更强,灵活度更高,成本最低的优点。此外,本实施例以事实知识为条件基于推理模型生成事实答案,能够有效避免模型生成逻辑较混乱答案,同时能够保持模型的参数不变,知识更新时不需要进行微调,对于应用领域知识更新迭代较快且多变的场景来说,应用更灵活,成本更低。
下面结合另一实施例进行详细说明。
实施例二
本实施例中提供的一种基于领域知识图谱的知识问答装置包含了多个实施单元,每个实施单元对应于上述实施例一中的各个实施步骤。
图5是根据本发明实施例的一种可选的基于领域知识图谱的知识问答装置的示意图,如图5所示,该知识问答装置可以包括:接收单元50,抽取单元51,检索单元52,构建单元53,其中,
接收单元50,用于接收目标问题,并对目标问题进行处理,得到问题提示信息;
抽取单元51,用于基于目标问题,抽取目标实体集合或者目标关系集合,其中,目标实体集合包括:多个目标实体,目标关系集合包括:多个目标关系;
检索单元52,用于在抽取到目标实体集合的情况下,基于目标实体集合,从预设领域知识图谱中检索与目标实体匹配的三元组信息,或者在抽取到目标关系集合的情况下,基于目标关系集合,从预设领域知识图谱中检索与目标关系匹配的三元组信息,得到三元组信息集合;
构建单元53,用于基于三元组信息集合以及问题提示信息,构建输入知识信息,并将输入知识信息输入至预设推理模型,输出目标问题的目标答案。
上述知识问答装置,可以通过接收单元50接收目标问题,并对目标问题进行处理,得到问题提示信息,通过抽取单元51基于目标问题,抽取目标实体集合或者目标关系集合,通过检索单元52在抽取到目标实体集合的情况下,基于目标实体集合,从预设领域知识图谱中检索与目标实体匹配的三元组信息,或者在抽取到目标关系集合的情况下,基于目标关系集合,从预设领域知识图谱中检索与目标关系匹配的三元组信息,得到三元组信息集合,通过构建单元53基于三元组信息集合以及问题提示信息,构建输入知识信息,并将输入知识信息输入至预设推理模型,输出目标问题的目标答案。在本发明实施例中,可以先对接收到的目标问题进行处理,以得到问题提示信息,并可以抽取目标问题中的目标实体集合或者目标关系集合,以根据目标实体集合,从预设领域知识图谱中检索与目标实体匹配的三元组信息或者根据目标关系集合,从预设领域知识图谱中检索与目标关系匹配的三元组信息,然后根据得到的三元组信息集合以及问题提示信息,构建输入知识信息,之后将输入知识信息输入至预设推理模型,以得到输出目标问题的目标答案,通过结合预设领域知识图谱,能够将问题构建为输入知识信息,然后通过预设推理模型处理输入知识信息,能够降低模型推理过程中的偏见,提高对问题进行知识问答推理的准确性,进而解决了相关技术中对问题进行知识问答推理的准确性较低的技术问题。
可选地,接收单元包括:第一构建模块,用于构建问题提示模板,其中,问题提示模板包括:问题指令;第一生成模块,用于基于问题提示模板,在目标问题中加入问题指令,生成问题提示信息。
可选地,抽取单元包括:第一处理模块,用于对目标问题进行分词处理,得到多个分词;第一分析模块,用于对分词进行分析,确定分词的词类型;第一确定模块,用于在词类型是第一预设类型的情况下,将词类型指示的分词确定为目标实体,或者,在词类型是第二预设类型的情况下,将词类型指示的分词确定为目标关系,得到目标关系集合;第二确定模块,用于在所有词类型都不是第一预设类型以及第二预设类型的情况下,确定目标问题的上下文信息,并基于上下文信息,补充目标问题对应的目标实体;第二生成模块,用于基于所有目标实体,生成目标实体集合。
可选地,三元组信息包括:主体实体、对象实体和实体关系,检索单元包括:第三确定模块,用于确定检索跳数阈值以及初始检索跳数;第一检索模块,用于从预设领域知识图谱中检索与目标实体匹配的知识图谱实体,其中,知识图谱实体是主体实体或者对象实体;第一更新模块,用于在检索到与目标实体匹配的第一知识图谱实体的情况下,对初始检索跳数进行更新操作,得到当前检索跳数;第四确定模块,用于在当前检索跳数小于检索跳数阈值的情况下,基于实体关系,确定与第一知识图谱实体关联的第二知识图谱实体;第二更新模块,用于更新当前检索跳数,并继续基于实体关系,确定与第二知识图谱实体关联的第三知识图谱实体,直到当前检索跳数大于等于检索跳数阈值,得到知识图谱实体集合;第五确定模块,用于基于知识图谱实体集合,确定每个知识图谱实体所属的三元组信息,得到三元组信息集合。
可选地,检索单元还包括:第二检索模块,用于从预设领域知识图谱中检索与目标关系匹配的实体关系,直到检索成功或者检索次数达到预设检索阈值,得到检索结果;第六确定模块,用于在检索成功的情况下,基于检索结果确定与目标关系匹配的目标实体关系,得到目标实体关系集合;第七确定模块,用于基于目标实体关系集合,确定每个目标实体关系所属的三元组信息,得到三元组信息集合。
可选地,知识问答装置还包括:第一连接模块,用于在基于目标实体集合,从预设领域知识图谱中检索与目标实体匹配的三元组信息,得到三元组信息集合之后,连接三元组信息中的主体实体、对象实体以及实体关系,得到回答文本,其中,三元组信息对应有与目标实体关联的关联值;第一排序模块,用于基于关联值,对所有回答文本进行排序,得到回答文本集合。
可选地,构建单元包括:第二构建模块,用于构建回答提示模板,其中,回答提示模板包括:回答指令;第三生成模块,用于基于回答提示模板,在回答文本集合中的每个回答文本中加入回答指令,生成回答提示信息集合;第一拼接模块,用于拼接问题提示信息以及回答提示信息集合,得到输入知识信息。
可选地,构建单元还包括:第二分析模块,用于采用预设推理模型分析问题提示信息,得到答案集合,其中,预设推理模型是采用训练数据集合预先训练的推理模型,训练数据集合包括:历史问题集合以及与历史问题集合中的每个历史问题对应的历史答案;第八确定模块,用于将输入知识信息表征为预设条件,并基于预设条件,确定答案集合中每个答案的条件概率值;第九确定模块,用于将最大条件概率值指示的答案确定为目标答案。
上述的知识问答装置还可以包括处理器和存储器,上述接收单元50,抽取单元51,检索单元52,构建单元53等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
上述处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来基于三元组信息集合以及问题提示信息,构建输入知识信息,并将输入知识信息输入至预设推理模型,输出目标问题的目标答案。
上述存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:接收目标问题,并对目标问题进行处理,得到问题提示信息,基于目标问题,抽取目标实体集合或者目标关系集合,在抽取到目标实体集合的情况下,基于目标实体集合,从预设领域知识图谱中检索与目标实体匹配的三元组信息,或者在抽取到目标关系集合的情况下,基于目标关系集合,从预设领域知识图谱中检索与目标关系匹配的三元组信息,得到三元组信息集合,基于三元组信息集合以及问题提示信息,构建输入知识信息,并将输入知识信息输入至预设推理模型,输出目标问题的目标答案。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的计算机程序,其中,在计算机程序运行时控制计算机可读存储介质所在设备执行上述的基于领域知识图谱的知识问答方法。
根据本发明实施例的另一方面,还提供了一种电子设备,包括一个或多个处理器和存储器,存储器用于存储一个或多个程序,其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现上述的基于领域知识图谱的知识问答方法。
图6是根据本发明实施例的一种用于基于领域知识图谱的知识问答方法的电子设备(或移动设备)的硬件结构框图。如图6所示,电子设备可以包括一个或多个(图6中采用602a、602b,……,602n来示出)处理器602(处理器602可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器604。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、键盘、电源和/或相机。本领域普通技术人员可以理解,图6所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,电子设备还可包括比图6中所示更多或者更少的组件,或者具有与图6所示不同的配置。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-On ly Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (11)
1.一种基于领域知识图谱的知识问答方法,其特征在于,包括:
接收目标问题,并对所述目标问题进行处理,得到问题提示信息;
基于所述目标问题,抽取目标实体集合或者目标关系集合,其中,所述目标实体集合包括:多个目标实体,所述目标关系集合包括:多个目标关系;
在抽取到所述目标实体集合的情况下,基于所述目标实体集合,从预设领域知识图谱中检索与所述目标实体匹配的三元组信息,或者在抽取到所述目标关系集合的情况下,基于所述目标关系集合,从预设领域知识图谱中检索与所述目标关系匹配的三元组信息,得到三元组信息集合;
基于所述三元组信息集合以及所述问题提示信息,构建输入知识信息,并将所述输入知识信息输入至预设推理模型,输出所述目标问题的目标答案。
2.根据权利要求1所述的知识问答方法,其特征在于,对所述目标问题进行处理,得到问题提示信息的步骤,包括:
构建问题提示模板,其中,所述问题提示模板包括:问题指令;
基于所述问题提示模板,在所述目标问题中加入所述问题指令,生成所述问题提示信息。
3.根据权利要求1所述的知识问答方法,其特征在于,基于所述目标问题,抽取目标实体集合或者目标关系集合的步骤,包括:
对所述目标问题进行分词处理,得到多个分词;
对所述分词进行分析,确定所述分词的词类型;
在所述词类型是第一预设类型的情况下,将所述词类型指示的所述分词确定为所述目标实体,或者,在所述词类型是第二预设类型的情况下,将所述词类型指示的所述分词确定为所述目标关系,得到所述目标关系集合;
在所有所述词类型都不是所述第一预设类型以及所述第二预设类型的情况下,确定所述目标问题的上下文信息,并基于所述上下文信息,补充所述目标问题对应的所述目标实体;
基于所有所述目标实体,生成所述目标实体集合。
4.根据权利要求1所述的知识问答方法,其特征在于,所述三元组信息包括:主体实体、对象实体和实体关系,在抽取到所述目标实体集合的情况下,基于所述目标实体集合,从预设领域知识图谱中检索与所述目标实体匹配的三元组信息,得到三元组信息集合的步骤,包括:
确定检索跳数阈值以及初始检索跳数;
从所述预设领域知识图谱中检索与所述目标实体匹配的知识图谱实体,其中,所述知识图谱实体是所述主体实体或者对象实体;
在检索到与所述目标实体匹配的第一知识图谱实体的情况下,对所述初始检索跳数进行更新操作,得到当前检索跳数;
在所述当前检索跳数小于所述检索跳数阈值的情况下,基于所述实体关系,确定与所述第一知识图谱实体关联的第二知识图谱实体;
更新所述当前检索跳数,并继续基于所述实体关系,确定与所述第二知识图谱实体关联的第三知识图谱实体,直到所述当前检索跳数大于等于所述检索跳数阈值,得到知识图谱实体集合;
基于所述知识图谱实体集合,确定每个所述知识图谱实体所属的所述三元组信息,得到所述三元组信息集合。
5.根据权利要求1所述的知识问答方法,其特征在于,在抽取到所述目标关系集合的情况下,基于所述目标关系集合,从预设领域知识图谱中检索与所述目标关系匹配的三元组信息,得到三元组信息集合的步骤,包括:
从所述预设领域知识图谱中检索与所述目标关系匹配的实体关系,直到检索成功或者检索次数达到预设检索阈值,得到检索结果;
在检索成功的情况下,基于所述检索结果确定与所述目标关系匹配的目标实体关系,得到目标实体关系集合;
基于所述目标实体关系集合,确定每个所述目标实体关系所属的所述三元组信息,得到所述三元组信息集合。
6.根据权利要求1所述的知识问答方法,其特征在于,在得到三元组信息集合之后,还包括:
连接所述三元组信息中的主体实体、对象实体以及实体关系,得到回答文本,其中,所述三元组信息对应有与所述目标实体关联的关联值;
基于所述关联值,对所有所述回答文本进行排序,得到回答文本集合。
7.根据权利要求6所述的知识问答方法,其特征在于,基于所述三元组信息集合以及所述问题提示信息,构建输入知识信息的步骤,包括:
构建回答提示模板,其中,所述回答提示模板包括:回答指令;
基于所述回答提示模板,在所述回答文本集合中的每个所述回答文本中加入所述回答指令,生成回答提示信息集合;
拼接所述问题提示信息以及所述回答提示信息集合,得到所述输入知识信息。
8.根据权利要求7所述的知识问答方法,其特征在于,将所述输入知识信息输入至预设推理模型,输出所述目标问题的目标答案的步骤,包括:
采用所述预设推理模型分析所述问题提示信息,得到答案集合,其中,所述预设推理模型是采用训练数据集合预先训练的推理模型,所述训练数据集合包括:历史问题集合以及与所述历史问题集合中的每个历史问题对应的历史答案;
将所述输入知识信息表征为预设条件,并基于所述预设条件,确定所述答案集合中每个答案的条件概率值;
将最大条件概率值指示的所述答案确定为所述目标答案。
9.一种基于领域知识图谱的知识问答装置,其特征在于,包括:
接收单元,用于接收目标问题,并对所述目标问题进行处理,得到问题提示信息;
抽取单元,用于基于所述目标问题,抽取目标实体集合或者目标关系集合,其中,所述目标实体集合包括:多个目标实体,所述目标关系集合包括:多个目标关系;
检索单元,用于在抽取到所述目标实体集合的情况下,基于所述目标实体集合,从预设领域知识图谱中检索与所述目标实体匹配的三元组信息,或者在抽取到所述目标关系集合的情况下,基于所述目标关系集合,从预设领域知识图谱中检索与所述目标关系匹配的三元组信息,得到三元组信息集合;
构建单元,用于基于所述三元组信息集合以及所述问题提示信息,构建输入知识信息,并将所述输入知识信息输入至预设推理模型,输出所述目标问题的目标答案。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至8中任意一项所述的基于领域知识图谱的知识问答方法。
11.一种电子设备,其特征在于,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至8中任意一项所述的基于领域知识图谱的知识问答方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311049695.8A CN117076688A (zh) | 2023-08-18 | 2023-08-18 | 基于领域知识图谱的知识问答方法及其装置、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311049695.8A CN117076688A (zh) | 2023-08-18 | 2023-08-18 | 基于领域知识图谱的知识问答方法及其装置、电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117076688A true CN117076688A (zh) | 2023-11-17 |
Family
ID=88703770
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311049695.8A Pending CN117076688A (zh) | 2023-08-18 | 2023-08-18 | 基于领域知识图谱的知识问答方法及其装置、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117076688A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117436531A (zh) * | 2023-12-21 | 2024-01-23 | 安徽大学 | 基于水稻病虫害知识图谱的问答系统及方法 |
CN117493582A (zh) * | 2023-12-29 | 2024-02-02 | 珠海格力电器股份有限公司 | 模型结果的输出方法、装置、电子设备及存储介质 |
CN117634617A (zh) * | 2024-01-25 | 2024-03-01 | 清华大学 | 知识密集型推理问答方法、装置、电子设备和存储介质 |
CN118069817A (zh) * | 2024-04-18 | 2024-05-24 | 国家超级计算天津中心 | 基于知识图谱的生成式问答方法、设备和存储介质 |
-
2023
- 2023-08-18 CN CN202311049695.8A patent/CN117076688A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117436531A (zh) * | 2023-12-21 | 2024-01-23 | 安徽大学 | 基于水稻病虫害知识图谱的问答系统及方法 |
CN117493582A (zh) * | 2023-12-29 | 2024-02-02 | 珠海格力电器股份有限公司 | 模型结果的输出方法、装置、电子设备及存储介质 |
CN117493582B (zh) * | 2023-12-29 | 2024-04-05 | 珠海格力电器股份有限公司 | 模型结果的输出方法、装置、电子设备及存储介质 |
CN117634617A (zh) * | 2024-01-25 | 2024-03-01 | 清华大学 | 知识密集型推理问答方法、装置、电子设备和存储介质 |
CN117634617B (zh) * | 2024-01-25 | 2024-05-17 | 清华大学 | 知识密集型推理问答方法、装置、电子设备和存储介质 |
CN118069817A (zh) * | 2024-04-18 | 2024-05-24 | 国家超级计算天津中心 | 基于知识图谱的生成式问答方法、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112270196B (zh) | 实体关系的识别方法、装置及电子设备 | |
CN111209384B (zh) | 基于人工智能的问答数据处理方法、装置及电子设备 | |
CN117076688A (zh) | 基于领域知识图谱的知识问答方法及其装置、电子设备 | |
CN112016313B (zh) | 口语化要素识别方法及装置、警情分析系统 | |
CN110675023B (zh) | 一种基于神经网络的诉讼请求合理性预测模型训练方法和预测方法及装置 | |
CN116561538A (zh) | 问答评分方法、问答评分装置、电子设备及存储介质 | |
CN117520523B (zh) | 数据处理方法、装置、设备及存储介质 | |
CN109857865B (zh) | 一种文本分类方法及系统 | |
Wu et al. | Chinese text classification based on character-level CNN and SVM | |
CN113537206B (zh) | 推送数据检测方法、装置、计算机设备和存储介质 | |
CN111368096A (zh) | 基于知识图谱的信息分析方法、装置、设备和存储介质 | |
CN114647713A (zh) | 基于虚拟对抗的知识图谱问答方法、设备及存储介质 | |
CN117290488A (zh) | 基于大模型的人机交互方法、装置、电子设备及存储介质 | |
CN112632248A (zh) | 问答方法、装置、计算机设备和存储介质 | |
CN112579752A (zh) | 实体关系的抽取方法及装置、存储介质、电子设备 | |
CN112199958A (zh) | 概念词序列生成方法、装置、计算机设备及存储介质 | |
Tannert et al. | FlowchartQA: the first large-scale benchmark for reasoning over flowcharts | |
EP4030355A1 (en) | Neural reasoning path retrieval for multi-hop text comprehension | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN116049376B (zh) | 一种信创知识检索回复的方法、装置和系统 | |
CN111680501A (zh) | 基于深度学习的问询信息识别方法、装置及存储介质 | |
CN115859973A (zh) | 文本特征提取方法、装置、非易失性存储介质及电子设备 | |
CN113656548A (zh) | 基于数据包络分析的文本分类模型解释方法及系统 | |
CN111191448A (zh) | 词处理方法、装置、存储介质以及处理器 | |
CN117009532B (zh) | 语义类型识别方法、装置、计算机可读介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |