CN117688150A - 基于触发词位置编码的大型语言模型与知识图谱意图对齐的方法、装置、处理器及存储介质 - Google Patents
基于触发词位置编码的大型语言模型与知识图谱意图对齐的方法、装置、处理器及存储介质 Download PDFInfo
- Publication number
- CN117688150A CN117688150A CN202311576591.2A CN202311576591A CN117688150A CN 117688150 A CN117688150 A CN 117688150A CN 202311576591 A CN202311576591 A CN 202311576591A CN 117688150 A CN117688150 A CN 117688150A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- intention
- trigger word
- language model
- knowledge graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000003860 storage Methods 0.000 title claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 28
- 238000013507 mapping Methods 0.000 claims abstract description 17
- 230000002776 aggregation Effects 0.000 claims abstract description 5
- 238000004220 aggregation Methods 0.000 claims abstract description 5
- 238000013528 artificial neural network Methods 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 5
- 238000005520 cutting process Methods 0.000 claims description 4
- 238000003672 processing method Methods 0.000 claims 1
- 238000013136 deep learning model Methods 0.000 abstract description 6
- 230000003993 interaction Effects 0.000 abstract description 4
- 238000003062 neural network model Methods 0.000 abstract description 3
- 238000012549 training Methods 0.000 description 8
- 238000000354 decomposition reaction Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000003491 array Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/041—Abduction
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Animal Behavior & Ethology (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于触发词位置编码实现大型语言模型与知识图谱意图对齐处理的方法,包括以下步骤:获取用户意图;分解意图;进行指令映射;通过生成的KG指令从本地知识图谱库中检索知识;进行知识汇聚;利用LLM生成最终的答案。本发明还涉及一种用于实现基于触发词位置编码的大型语言模型与知识图谱意图对齐处理的装置、处理器及存储介质。采用了本发明的基于触发词位置编码实现大型语言模型与知识图谱意图对齐处理的方法、装置、处理器及其计算机可读存储介质,利用深度神经网络模型做到对用户意图和指令的对齐,融合了触发词的位置信息,确保查询语句的准确性。该方法利用深度学习模型较省时省力的完成LLM与本地KG的交互,有效生成用户意图所需的信息,具有较大的创新性。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及基于意图分解和对齐的深度学习模型领域,具体是指一种基于触发词位置编码实现大型语言模型与知识图谱意图对齐处理的方法、装置、处理器及其计算机可读存储介质。
背景技术
LLM使用深度学习网络从海量的训练数据中进行学习,在模型参数的加持下达到了知识涌现的效果,具有对于文本知识的理解能力,大型语言模型还有着良好的改造性,通过引入专有领域知识以及后处理算法,可以很好的定制适合自己领域的LLM方法。但是,在构建垂直领域LLM的过程中,LLM本身的一些问题:一是,模型输出的结果存在局限性。在某些情况下,训练数据源可能存在偏见或不完整性,导致结果出现与现实不符的假设或结论。并且在统计模式下,结果会存在没有上下文含义的无意义结果;二是,模型实时性差。模型训练数据规模大,耗时长,更新慢,不能提供最新和可验证信息的确凿证据,可能会产生不准确或过时的反应;三是,算力依赖性强。在模型训练的过程中,训练参数量以指数级的速率提升,导致模型对算力的依赖剧增。
KG在领域知识工程中被广泛应用,其以结构化形式表示整合后的数据信息,为下游任务提供准确、可解释性的显性知识。随着新知识的出现,可以在硬件依赖较小的情况下及时更新迭代,以满足现有的知识查询、检索等需求。因KG具有确定且准确的知识、更新快、算力资源小的特点,如何将LLM与KG结合,打造出强壮的领域知识智能应用模型,成为知识工程领域中研究的热点。
与用户交互的问答涉及文本语义理解和分类的技术领域。传统的文本分类算法较多关注文本的线性表达,例如采用词典或n-gram词向量作为输入的支持向量机模型。近些年的研究表明,非线性模型可以有效捕获文本上下文信息,可以产生比线性模型更精准的预测。尤其,是在离散的知识图结果上做信息的汇聚。图卷积神经网络模型是一种典型的非线性模型,它将数据的局部特征转换成低维向量,并保留了与任务相关的信息。这种有效的映射方式在短文本上的表现要比序列模型更优秀。
图卷积神经网络采用邻接信息汇聚的方式获取数据区域特征信息。随着编码层数的增多,会逐渐丢失目标相关的定位信息。文本区域可以表达更复杂的概念,这种仅依靠有步长限制的提取区域特征信息的学习方式可能忽略了任务关键的信息。另外,网络层之间的耦合连接会增加模型的冗余。
注意力机制是一种有效关注模型输入数据中关键信息的方法。注意力模型不仅在训练过程中特别关注特征信息,而且针对不同的特征有效调整神经网络的参数,可以挖掘更多的与任务相关的隐藏特征信息。
发明内容
本发明的目的是克服了上述现有技术的缺点,提供了一种满足时效性高、精准性高、适用范围较为广泛的基于触发词位置编码实现大型语言模型与知识图谱意图对齐处理的方法、装置、处理器及其计算机可读存储介质。
为了实现上述目的,本发明的基于触发词位置编码实现大型语言模型与知识图谱意图对齐处理的方法、装置、处理器及其计算机可读存储介质如下:
该基于触发词位置编码实现大型语言模型与知识图谱意图对齐处理的方法,其主要特点是,所述的方法包括以下步骤:
(1)获取用户意图,将用户问题整理成序列化文本嵌入模型,通过语义编码分析判别出用户问题的意图;
(2)分解意图,并按照意图类别选择不同的处理方式;
(3)进行指令映射,对指令编码时结合触发词做引导打分策略,解码生成KG指令;
(4)通过生成的KG指令从本地知识图谱库中检索知识;
(5)进行知识汇聚;
(6)利用LLM生成最终的答案。
较佳地,所述的步骤(1)具体包括以下步骤:
(1.1)利用外部工具将文本分词;
(1.2)调用预训练的词向量库进行序列映射;
(1.3)通过多层图神经网络对序列编码,提炼意图信息;
(1.4)经过一层前馈神经网络进行softmax分类,得到意图的类别信息。
较佳地,所述的步骤(2)具体包括以下步骤:
对不属于领域的意图问题采用通用LLM回答,对属于领域的意图问题,进行进一步的分解,采取领域触发词将复杂问题分解成更细粒度的LLM指令。
较佳地,所述的步骤(3)具体包括以下步骤:
(2.1)将指令切词,通过预训练的词向量库做序列映射,并记录触发词;
(2.2)采用多层图神经网络对序列数据做编码计算,计算时加入触发词位置编码信息,并加入第一层编码的信息;
(2.3)构建触发词注意力矩阵,采用引导打分策略调式模型的性能。
较佳地,所述的步骤(5)具体为:
将检索的知识和用户问题输入给LLM,LLM触发指令调用相关工具汇聚信息。
该用于实现基于触发词位置编码的大型语言模型与知识图谱意图对齐处理的装置,其主要特点是,所述的装置包括:
处理器,被配置成执行计算机可执行指令;
存储器,存储一个或多个计算机可执行指令,所述的计算机可执行指令被所述的处理器执行时,实现上述的基于触发词位置编码实现大型语言模型与知识图谱意图对齐处理的方法的各个步骤。
该用于实现基于触发词位置编码的大型语言模型与知识图谱意图对齐处理的处理器,其主要特点是,所述的处理器被配置成执行计算机可执行指令,所述的计算机可执行指令被所述的处理器执行时,实现上述的基于触发词位置编码实现大型语言模型与知识图谱意图对齐处理的方法的各个步骤。
该计算机可读存储介质,其主要特点是,其上存储有计算机程序,所述的计算机程序可被处理器执行以实现上述的基于触发词位置编码实现大型语言模型与知识图谱意图对齐处理的方法的各个步骤。
采用了本发明的基于触发词位置编码实现大型语言模型与知识图谱意图对齐处理的方法、装置、处理器及其计算机可读存储介质,可依据本地知识补充LLM实现对领域知识的精准问答。解决在模型结果存在偏差、训练耗时长、知识更新慢、硬件依赖强等问题。一方面,从用户意图出发,精准判别意图所属领域,圈定领域范围,更细粒度划分意图任务,更好的调用LLM指令,汇聚生成精准的答案。另一方面,知识库的检索需要准确的查询语句,KG指令的生成尤为重要。从指令语义及查询触发词位置编码出发,采用一种引导打分策略调优模型对KG指令的生成。本发明利用深度神经网络模型做到对用户意图和指令的对齐,以更好从知识库中检索出答案。对文本语义编码的同时,融合了触发词的位置信息,确保查询语句的准确性。该方法利用深度学习模型较省时省力的完成LLM与本地KG的交互,有效生成用户意图所需的信息,具有较大的创新性。
附图说明
图1为本发明的用于实现基于触发词位置编码的大型语言模型与知识图谱意图对齐处理的装置的结构示意图。
图2为本发明的基于触发词位置编码实现大型语言模型与知识图谱意图对齐处理的方法的流程示意图。
具体实施方式
为了能够更清楚地描述本发明的技术内容,下面结合具体实施例来进行进一步的描述。
本发明的该基于触发词位置编码实现大型语言模型与知识图谱意图对齐处理的方法,其中包括以下步骤:
(1)获取用户意图,将用户问题整理成序列化文本嵌入模型,通过语义编码分析判别出用户问题的意图;
(2)分解意图,并按照意图类别选择不同的处理方式;
(3)进行指令映射,对指令编码时结合触发词做引导打分策略,解码生成KG指令;
(4)通过生成的KG指令从本地知识图谱库中检索知识;
(5)进行知识汇聚;
(6)利用LLM生成最终的答案。
作为本发明的优选实施方式,所述的步骤(1)具体包括以下步骤:
(1.1)利用外部工具将文本分词;
(1.2)调用预训练的词向量库进行序列映射;
(1.3)通过多层图神经网络对序列编码,提炼意图信息;
(1.4)经过一层前馈神经网络进行softmax分类,得到意图的类别信息。
作为本发明的优选实施方式,所述的步骤(2)具体包括以下步骤:
对不属于领域的意图问题采用通用LLM回答,对属于领域的意图问题,进行进一步的分解,采取领域触发词将复杂问题分解成更细粒度的LLM指令。
作为本发明的优选实施方式,所述的步骤(3)具体包括以下步骤:
(2.1)将指令切词,通过预训练的词向量库做序列映射,并记录触发词;
(2.2)采用多层图神经网络对序列数据做编码计算,计算时加入触发词位置编码信息,并加入第一层编码的信息;
(2.3)构建触发词注意力矩阵,采用引导打分策略调式模型的性能。
作为本发明的优选实施方式,所述的步骤(5)具体为:
将检索的知识和用户问题输入给LLM,LLM触发指令调用相关工具汇聚信息。
本发明的该用于实现基于触发词位置编码的大型语言模型与知识图谱意图对齐处理的装置,其中所述的装置包括:
处理器,被配置成执行计算机可执行指令;
存储器,存储一个或多个计算机可执行指令,所述的计算机可执行指令被所述的处理器执行时,实现上述的基于触发词位置编码实现大型语言模型与知识图谱意图对齐处理的方法的各个步骤。
本发明的该用于实现基于触发词位置编码的大型语言模型与知识图谱意图对齐处理的处理器,其中所述的处理器被配置成执行计算机可执行指令,所述的计算机可执行指令被所述的处理器执行时,实现上述的基于触发词位置编码实现大型语言模型与知识图谱意图对齐处理的方法的各个步骤。
本发明的该计算机可读存储介质,其上存储有计算机程序,所述的计算机程序可被处理器执行以实现上述的基于触发词位置编码实现大型语言模型与知识图谱意图对齐处理的方法的各个步骤。
本发明的具体实施方式中,保护了基于触发词位置编码的大型语言模型与知识图谱意图对齐方法。本发明针对现有技术存在的知识局限性、时效性、算力依赖等问题,提出了一种基于深度学习模型的大型语言模型与知识图谱意图对齐方法,该方法可以利用意图分解、知识引导等技术,将LLM指令与KG指令做同一特征空间映射,解决LLM调用外部KG来生成精准知识等问题。
本发明的基于深度学习模型的大型语言模型与知识图谱意图对齐方法,从领域维度将用户问题切分成子任务,分解成不同的LLM指令,通过多层图神经网络对句子语义编码,编码时融合触发词的定位编码信息,结合打分引导策略反向调优模型对指令的映射性能,从而生成准确的KG指令。最终,通过生成的知识查询语句从本地知识图谱库中检索知识,在知识结果返回后,与用户问题一同输入给LLM做分析,进而生成最终答案。
方法包含的步骤具体如下:
步骤一:获取用户意图。将用户问题整理成序列化文本嵌入模型,通过语义编码分析判别出用户问题的意图。首先,利用外部工具将文本分词。然后,调用预训练的词向量库做序列映射。接着,通过多层图神经网络对序列编码,提炼意图信息。最后,经过一层前馈神经网络做softmax分类,得到意图的类别信息。
步骤二:意图分解。按照意图类别选择不同的处理方式。对不属于领域的意图问题采用通用LLM回答。对属于领域的意图问题,做进一步的分解,将复杂问题分解成更细粒度的LLM指令。复杂问题的分解采取领域触发词分解,例如,社交领域的触发词有人员、人员间的关系、人员属性等。
步骤三:指令映射。在对指令编码时,结合触发词做引导打分策略,解码生成KG指令。首先,将指令切词,通过预训练的词向量库做序列映射,并记录触发词;接着,采用多层图神经网络对序列数据做编码计算,计算时加入触发词位置编码信息;另外,为不丢失最初始的信息,每层计算时加入第一层编码的信息;然后,构建触发词注意力矩阵,采用引导打分策略调式模型的性能,使得模型生成最贴近的KG指令。
步骤四:知识检索。通过生成的KG指令从本地知识图谱库中检索出知识。
步骤五:知识汇聚。将检索的知识、用户问题一起输入给LLM,LLM触发指令调用相关工具汇聚信息。用户问题的是开放的,LLM回答是广泛信息的汇聚。而将检索知识和问题一起输入给LLM,缩小了答案的范围,提升了LLM生成信息的准确性。
步骤六:生成答案。利用LLM生成最终的答案,可以以文本或文件的形式展示给客户。
本发明的实施例,以判别中文、英文的多语言混合短文本为例,本发明的多语言混合短文本分类方法包括一下步骤:
1、用户意图判别。首先,将文本数据分词。例如,用户问题如下:“请提供最近一周的A事件信息,并生成舆情报告”。切分后的结果为:{‘请’‘提供’‘最近’‘一周’‘的’‘A’‘事件’‘信息’‘并’‘生成’‘舆情’‘报告’}。接着,按切分后的词通过word2vec嵌入为X={x1,x2,...,xn}。然后,通过L层图神经网络对序列编码,编码方式如下,
其中,Wl是权重矩阵,bl是偏差向量,是xj在第l-1层神经网络上的输入。接着,通过/>对词向量转换成句子向量,d是向量的维度,文本信息特征通过一层前馈神经网络FFNN(·)输出文本类别特征,然后采用softmax预测文本多类别的概率分布/>
P=softmax(FFNN(f(hL)))……(2)
其中,hL表示最后一层L层的输出。最后,通过概率分布计算输出意图的类别,比如P对应两个类别:领域、非领域。则若P{0.99,0.01},对应“领域”类别标签的值最大,即模型判别用户的意图类别结果为“领域”知识问答。
2、意图分解。提取问题中的触发词,划分成子任务。触发词{‘信息收集’‘舆情报告’‘一周’},任务集合{‘一周内的A事件信息收集’‘报告模板工具调用’},相应的LLM指令为{‘查询最近一周的A事件信息’‘舆情报告生成’}。
3、指令映射。对指令切词,切词后通过word2vec嵌入N层的图神经网络,在编码时融合触发词的信息k,经过触发词注意力矩阵K创建打分值矩阵Q,从而生成精准的KG指令。例如,‘查询最近一周的A事件信息’的触发词为‘事件信息’和‘一周’。生成的KG指令为‘Match(n:Event{event_name:"A"},time:time1-time2)--(p:person)--(d:location)return n’。映射目标函数计算如下,
J(θ)=E[Q1:n|hl,θ]=∑y∈YGCN(hl)·K(hl|y)……(3)
其中,E是期望,y为目标值,Y为目标值集合,Q1:n是对完整序列的奖励值,为图卷积后数据内部的特征数值。
4、知识检索。采用生成的KG指令对本地知识进行检索,检索出一周内与该事件有关的人和地点。
知识汇聚。将用户问题与知识检索的结果一起输入给LLM,触发指令,调用相应的Agent结合知识检索结果输出舆情报告的行文,可以以文本或文件的形式展示给客户。
本实施例的具体实现方案可以参见上述实施例中的相关说明,此处不再赘述。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,相应的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
采用了本发明的基于触发词位置编码实现大型语言模型与知识图谱意图对齐处理的方法、装置、处理器及其计算机可读存储介质,可依据本地知识补充LLM实现对领域知识的精准问答。解决在模型结果存在偏差、训练耗时长、知识更新慢、硬件依赖强等问题。一方面,从用户意图出发,精准判别意图所属领域,圈定领域范围,更细粒度划分意图任务,更好的调用LLM指令,汇聚生成精准的答案。另一方面,知识库的检索需要准确的查询语句,KG指令的生成尤为重要。从指令语义及查询触发词位置编码出发,采用一种引导打分策略调优模型对KG指令的生成。本发明利用深度神经网络模型做到对用户意图和指令的对齐,以更好从知识库中检索出答案。对文本语义编码的同时,融合了触发词的位置信息,确保查询语句的准确性。该方法利用深度学习模型较省时省力的完成LLM与本地KG的交互,有效生成用户意图所需的信息,具有较大的创新性。
在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限制性的。
Claims (8)
1.一种基于触发词位置编码实现大型语言模型与知识图谱意图对齐处理的方法,其特征在于,所述的方法包括以下步骤:
(1)获取用户意图,将用户问题整理成序列化文本嵌入模型,通过语义编码分析判别出用户问题的意图;
(2)分解意图,并按照意图类别选择不同的处理方式;
(3)进行指令映射,对指令编码时结合触发词做引导打分策略,解码生成KG指令;
(4)通过生成的KG指令从本地知识图谱库中检索知识;
(5)进行知识汇聚;
(6)利用LLM生成最终的答案。
2.根据权利要求1所述的基于触发词位置编码实现大型语言模型与知识图谱意图对齐处理的方法,其特征在于,所述的步骤(1)具体包括以下步骤:
(1.1)利用外部工具将文本分词;
(1.2)调用预训练的词向量库进行序列映射;
(1.3)通过多层图神经网络对序列编码,提炼意图信息;
(1.4)经过一层前馈神经网络进行softmax分类,得到意图的类别信息。
3.根据权利要求1所述的基于触发词位置编码实现大型语言模型与知识图谱意图对齐处理的方法,其特征在于,所述的步骤(2)具体包括以下步骤:
对不属于领域的意图问题采用通用LLM回答,对属于领域的意图问题,进行进一步的分解,采取领域触发词将复杂问题分解成更细粒度的LLM指令。
4.根据权利要求1所述的基于触发词位置编码实现大型语言模型与知识图谱意图对齐处理的方法,其特征在于,所述的步骤(3)具体包括以下步骤:
(2.1)将指令切词,通过预训练的词向量库做序列映射,并记录触发词;
(2.2)采用多层图神经网络对序列数据做编码计算,计算时加入触发词位置编码信息,并加入第一层编码的信息;
(2.3)构建触发词注意力矩阵,采用引导打分策略调式模型的性能。
5.根据权利要求1所述的基于触发词位置编码实现大型语言模型与知识图谱意图对齐处理的方法,其特征在于,所述的步骤(5)具体为:
将检索的知识和用户问题输入给LLM,LLM触发指令调用相关工具汇聚信息。
6.一种用于实现基于触发词位置编码的大型语言模型与知识图谱意图对齐处理的装置,其特征在于,所述的装置包括:
处理器,被配置成执行计算机可执行指令;
存储器,存储一个或多个计算机可执行指令,所述的计算机可执行指令被所述的处理器执行时,实现权利要求1至5中任一项所述的基于触发词位置编码实现大型语言模型与知识图谱意图对齐处理的方法的各个步骤。
7.一种用于实现基于触发词位置编码的大型语言模型与知识图谱意图对齐处理的处理器,其特征在于,所述的处理器被配置成执行计算机可执行指令,所述的计算机可执行指令被所述的处理器执行时,实现权利要求1至5中任一项所述的基于触发词位置编码实现大型语言模型与知识图谱意图对齐处理的方法的各个步骤。
8.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述的计算机程序可被处理器执行以实现权利要求1至5中任一项所述的基于触发词位置编码实现大型语言模型与知识图谱意图对齐处理的方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311576591.2A CN117688150A (zh) | 2023-11-23 | 2023-11-23 | 基于触发词位置编码的大型语言模型与知识图谱意图对齐的方法、装置、处理器及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311576591.2A CN117688150A (zh) | 2023-11-23 | 2023-11-23 | 基于触发词位置编码的大型语言模型与知识图谱意图对齐的方法、装置、处理器及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117688150A true CN117688150A (zh) | 2024-03-12 |
Family
ID=90136243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311576591.2A Pending CN117688150A (zh) | 2023-11-23 | 2023-11-23 | 基于触发词位置编码的大型语言模型与知识图谱意图对齐的方法、装置、处理器及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117688150A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118643142A (zh) * | 2024-08-15 | 2024-09-13 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种面向大语言模型的结构化知识注入方法及系统 |
-
2023
- 2023-11-23 CN CN202311576591.2A patent/CN117688150A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118643142A (zh) * | 2024-08-15 | 2024-09-13 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种面向大语言模型的结构化知识注入方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111753060B (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
Yu et al. | FlowSense: A natural language interface for visual data exploration within a dataflow system | |
US10262062B2 (en) | Natural language system question classifier, semantic representations, and logical form templates | |
CN110364234B (zh) | 电子病历智能存储分析检索系统及方法 | |
US8818795B1 (en) | Method and system for using natural language techniques to process inputs | |
CN111143576A (zh) | 一种面向事件的动态知识图谱构建方法和装置 | |
CN109829052A (zh) | 一种基于人机交互的开放式对话方法和系统 | |
CN112800170A (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
Tyagi et al. | Demystifying the role of natural language processing (NLP) in smart city applications: background, motivation, recent advances, and future research directions | |
EP3598436A1 (en) | Structuring and grouping of voice queries | |
US20230153522A1 (en) | Image captioning | |
CN114341865A (zh) | 用于实时谈话的渐进式并置 | |
CN112528654A (zh) | 自然语言处理方法、装置及电子设备 | |
CN112579733A (zh) | 规则匹配方法、规则匹配装置、存储介质及电子设备 | |
CN116077942B (zh) | 一种交互式内容推荐的实现方法 | |
CN113988071A (zh) | 一种基于金融知识图谱的智能对话方法及装置、电子设备 | |
CN117909458A (zh) | 基于llm模型的模具专业问答系统的构建方法 | |
CN113282729A (zh) | 基于知识图谱的问答方法及装置 | |
CN117688150A (zh) | 基于触发词位置编码的大型语言模型与知识图谱意图对齐的方法、装置、处理器及存储介质 | |
CN114896387A (zh) | 军事情报分析可视化方法、装置以及计算机可读存储介质 | |
CN111738008B (zh) | 基于多层模型的实体识别方法、装置、设备及存储介质 | |
CN114842982B (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
Das et al. | An improvement of Bengali factoid question answering system using unsupervised statistical methods | |
Anisha et al. | Text to sql query conversion using deep learning: A comparative analysis | |
CN113934450B (zh) | 生成注释信息的方法、装置、计算机设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |