CN111178036B - 一种知识蒸馏的文本相似度匹配模型压缩方法及系统 - Google Patents
一种知识蒸馏的文本相似度匹配模型压缩方法及系统 Download PDFInfo
- Publication number
- CN111178036B CN111178036B CN201911241731.4A CN201911241731A CN111178036B CN 111178036 B CN111178036 B CN 111178036B CN 201911241731 A CN201911241731 A CN 201911241731A CN 111178036 B CN111178036 B CN 111178036B
- Authority
- CN
- China
- Prior art keywords
- model
- training model
- training
- cross entropy
- prediction result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000013140 knowledge distillation Methods 0.000 title claims abstract description 20
- 230000006835 compression Effects 0.000 title claims abstract description 14
- 238000007906 compression Methods 0.000 title claims abstract description 14
- 238000004364 calculation method Methods 0.000 claims abstract description 38
- 230000015654 memory Effects 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 4
- 230000006403 short-term memory Effects 0.000 claims description 4
- 230000007787 long-term memory Effects 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 9
- 230000009467 reduction Effects 0.000 abstract description 6
- 230000009286 beneficial effect Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 7
- 238000013136 deep learning model Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种知识蒸馏的文本相似度匹配模型压缩方法及系统,所述方法执行以下步骤:获取训练数据;根据训练数据,采用第一深度文本匹配算法,确定第一训练模型;将第一训练模型的先验知识蒸馏进入第二训练模型的训练数据,采用第二深度文本匹配算法,确定第二训练模型,其中第一深度文本匹配算法的计算量大于第二深度文本匹配算法的计算量;采用所述第二训练模型对文本相似度匹配结果进行预测。根据本发明的方法,采用基于知识蒸馏的文本匹配方法,将大模型的计算结果融合进入小模型的训练过程中,在采用第二训练模型在线上进行预测时,避免了运算速度出现下降,同时又利用了第一训练大模型的先验结果,可以提高预测的准确性。
Description
技术领域
本发明涉及文本匹配技术领域,特别涉及一种知识蒸馏的文本相似度匹配模型压缩方法及系统。
背景技术
目前在人机对话系统中的开放领域问答中,主流方案为检索模块与匹配模块结合的方案。目前主流的文本匹配方案的步骤是:步骤1:先通过检索模块,得到固定数量N(比如20)的候选结果;步骤2:通过深度文本匹配算法(比如基于长短时记忆的孪生网络),得到每条候选结果的分数;步骤3:取出步骤2中的候选分数,将分数最高的候选作为最终匹配结果。
目前匹配模块的主流方案为深度学习的方法。为了达到更好的效果,深度学习的模型已经越来越复杂,计算量就越来越大。且由于检索模块得到的结果为N个,需要进行N次计算,因此,深度匹配算法在实际落地产品时,为了保证速度,仍然倾向于使用计算量较小的简单模型,计算速度成为了最大的瓶颈。
发明内容
本发明提供一种知识蒸馏的文本相似度匹配模型压缩方法及系统,用以避免运算速度出现下降,同时提高匹配结果的准确性。
本发明提供了一种知识蒸馏的文本相似度匹配模型压缩方法,所述方法执行以下步骤:
步骤1:获取训练数据;
步骤2:根据所述训练数据,采用第一深度文本匹配算法,确定第一训练模型;
步骤3:将所述第一训练模型的先验知识蒸馏进入第二训练模型的训练数据,采用第二深度文本匹配算法,确定所述第二训练模型,其中所述第一深度文本匹配算法的计算量大于所述第二深度文本匹配算法的计算量;
步骤4:采用所述第二训练模型对文本相似度匹配结果进行预测。
进一步地,在所述步骤2中,所述第一训练模型包括Transformer双向编码器表示模型或知识增强的语义表示模型。
进一步地,在所述步骤3中,所述第二深度学习模型包括基于长短时记忆的孪生网络。
进一步地,所述步骤3:将所述第一训练模型的先验知识蒸馏进入第二训练模型的训练数据,采用第二深度文本匹配算法,确定所述第二训练模型,执行以下步骤:
步骤S301:根据所述训练数据以及所述第一训练模型,计算所述第一训练模型的每条训练数据的输出概率;
步骤S302:计算所述第一训练模型的第一预测结果和所述第二训练模型的第二预测结果的第一交叉熵,以及真实标签和所述第二训练模型的第二预测结果的第二交叉熵;
步骤S303:根据所述第一交叉熵和所述第二交叉熵进行加权相加,得到加权交叉熵;
步骤S304:根据所述加权交叉熵,更新所述第二训练模型的模型参数。
进一步地,在所述步骤S302中,采用以下公式计算所述第一训练模型的第一预测结果和所述第二训练模型的第二预测结果的第一交叉熵;
其中,Lsoft为第一训练模型Mb的第一预测结果和第二训练模型Ms的第二预测结果的第一交叉熵,n为输出层的维度,yb为第一训练模型Mb的每条训练数据的输出概率,即最终的归一化指数函数的结果,y为第二训练模型Ms的预测结果;
采用以下公式计算真实标签和所述第二训练模型的第二预测结果的第二交叉熵;
其中,Lhard为真实标签和第二训练模型Ms的第二预测结果的第二交叉熵,yt为真实标签。
进一步地,在所述步骤S303中,采用以下公式得到加权交叉熵;
L=λLhard+(1-λ)Lsoft
其中,L为加权交叉熵,λ为介于0到1之间的常数。
本发明实施例提供的一种知识蒸馏的文本相似度匹配模型压缩方法,具有以下有益效果:采用基于知识蒸馏的文本匹配方法,将第一训练模型这一大模型的计算结果融合进入第二训练模型这一小模型的训练过程中,这样在采用第二训练模型在线上进行预测时,避免了运算速度出现下降,同时又利用了第一训练大模型的先验结果,可以提高匹配结果的准确性。
本发明还提供一种知识蒸馏的文本相似度匹配模型压缩系统,包括:
获取模块,用于获取训练数据;
第一确定模块,用于根据所述获取模块所获取的所述训练数据,采用第一深度文本匹配算法,确定第一训练模型;
第二确定模块,用于将所述第一训练模型的先验知识蒸馏进入第二训练模型的训练数据,采用第二深度文本匹配算法,确定所述第二训练模型,其中所述第一深度文本匹配算法的计算量大于所述第二深度文本匹配算法的计算量;
预测模块,用于采用所述第二训练模型对文本相似度匹配结果进行预测。
进一步地,所述第一训练模型包括Transformer双向编码器表示模型或知识增强的语义表示模型。
进一步地,所述第二深度学习模型包括基于长短时记忆的孪生网络。
进一步地,所述第二确定模块包括:
第一计算单元,用于根据所述训练数据以及所述第一训练模型,计算所述第一训练模型的每条训练数据的输出概率;
第二计算单元,用于计算所述第一训练模型的第一预测结果和所述第二训练模型的第二预测结果的第一交叉熵;
第三计算单元,用于计算真实标签和所述第二训练模型的第二预测结果的第二交叉熵;
第四计算单元,用于根据所述第一交叉熵和所述第二交叉熵进行加权相加,得到加权交叉熵;
更新单元,用于根据所述加权交叉熵,更新所述第二训练模型的模型参数。
本发明实施例提供的一种知识蒸馏的文本相似度匹配模型压缩系统,具有以下有益效果:第二确定模块采用基于知识蒸馏的文本匹配方法,将第一训练模型这一大模型的计算结果融合进入第二训练模型这一小模型的训练过程中,这样在采用第二训练模型在线上进行预测时,避免了运算速度出现下降,同时又利用了第一训练大模型的先验结果,可以提高匹配结果的准确性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种知识蒸馏的文本相似度匹配模型压缩方法的流程示意图;
图2为本发明实施例中一种知识蒸馏的文本相似度匹配模型压缩系统的框图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了一种知识蒸馏的文本相似度匹配模型压缩方法,如图1所示,所述方法执行以下步骤:
步骤1:获取训练数据;
步骤2:根据所述训练数据,采用第一深度文本匹配算法,确定第一训练模型;
步骤3:将所述第一训练模型的先验知识蒸馏进入第二训练模型的训练数据,采用第二深度文本匹配算法,确定所述第二训练模型,其中所述第一深度文本匹配算法的计算量大于所述第二深度文本匹配算法的计算量;
步骤4:采用所述第二训练模型对文本相似度匹配结果进行预测。
上述技术方案的工作原理为:现有的深度学习的文本匹配算法,效果最好的都是计算量很大的大型模型。但是由于速度限制,这些模型很难直接应用到实际线上环境,运算量主要集中在通过深度文本匹配算法(比如基于长短时记忆的孪生网络),得到每条候选结果的分数,而计算量小的模型的文本匹配效果比计算量大的模型的匹配效果差。
本发明在获取训练数据后,根据训练数据,采用计算量大的第一深度文本匹配算法,确定第一训练模型,然后将第一训练模型的先验知识蒸馏进入第二训练模型的训练数据,采用计算量小的第二深度文本匹配算法,确定第二训练模型;将计算量小的第二训练模型部署到线上,对文本相似度匹配结果进行预测。
所述步骤4:采用所述第二训练模型对文本相似度匹配结果进行预测包括:将所述第二训练模型部署到线上,对文本相似度匹配结果进行预测。
上述技术方案的有益效果为:采用基于知识蒸馏的文本匹配方法,将第一训练模型这一大模型的计算结果融合进入第二训练模型这一小模型的训练过程中,这样在采用第二训练模型在线上进行预测时,避免了运算速度出现下降,同时又利用了第一训练大模型的先验结果,可以提高匹配结果的准确性。
在一个实施例中,在所述步骤2中,所述第一训练模型包括Transformer双向编码器表示模型或知识增强的语义表示模型。
上述技术方案的工作原理为:Transformer双向编码器表示模型来自于谷歌,是一种类似于双向LSTM的序列编码器,能够更好的感知上下文信息,其原理是,位置i上的词语表示上下文所有的单词都相关,这意味着每个单词都是整句话或者整个文本的综合表示的结果,每个单词经过计算以后,原来的信息在新的表达中所占的比重,与其本身在整个文本当中所占的比重成正相关,因此可以并行计算和具有上下文编码能力。
知识增强的语义表示模型来自于百度,通过海量数据建模词、实体及实体关系。相较于BERT学习原始语言信号,知识增强的语义表示模型直接对先验语义知识单元进行建模,增强了模型语义表示能力。此外,知识增强的语义表示模型采用多源训练数据,利用高性能分布式深度学习平台飞桨完成预训练。
本发明使用训练运算量较大、效果较好的深度模型方法,得到了训练好的第一训练模型,本发明优选的第一训练模型为Transformer双向编码器表示模型。
上述技术方案的有益效果为:提供了第一训练模型的具体模型。
在一个实施例中,在所述步骤3中,所述第二深度学习模型包括基于长短时记忆的孪生网络。
上述技术方案的工作原理为:基于长短时记忆(Long Short-Term Memory,
LSTM)的孪生网络是一种特殊的循环神经网络,在孪生网络的框架上,不仅能够记忆历史输入信息,还具有遗忘机制,能够处理长时间的序列信息。
上述技术方案的有益效果为:提供了第二深度学习模型的具体模型。
在一个实施例中,所述步骤3:将所述第一训练模型的先验知识蒸馏进入第二训练模型的训练数据,采用第二深度文本匹配算法,确定所述第二训练模型,执行以下步骤:
步骤S301:根据所述训练数据以及所述第一训练模型,计算所述第一训练模型的每条训练数据的输出概率;
步骤S302:计算所述第一训练模型的第一预测结果和所述第二训练模型的第二预测结果的第一交叉熵,以及真实标签和所述第二训练模型的第二预测结果的第二交叉熵;
步骤S303:根据所述第一交叉熵和所述第二交叉熵进行加权相加,得到加权交叉熵;
步骤S304:根据所述加权交叉熵,更新所述第二训练模型的模型参数。
上述技术方案的工作原理为:根据训练数据以及第一训练模型,计算第一训练模型的每条训练数据的输出概率;计算第一训练模型的第一预测结果和第二训练模型的第二预测结果的第一交叉熵,以及真实标签和第二训练模型的第二预测结果的第二交叉熵;根据第一交叉熵和第二交叉熵进行加权相加,得到加权交叉熵;根据加权交叉熵的误差进行反向传播,更新第二训练模型的模型参数。
在所述步骤S302中,采用以下公式计算所述第一训练模型的第一预测结果和所述第二训练模型的第二预测结果的第一交叉熵;
其中,Lsoft为第一训练模型Mb的第一预测结果和第二训练模型Ms的第二预测结果的第一交叉熵,n为输出层的维度,yb为第一训练模型Mb的每条训练数据的输出概率,即最终的归一化指数函数的结果,y为第二训练模型Ms的预测结果;
采用以下公式计算真实标签和所述第二训练模型的第二预测结果的第二交叉熵;
其中,Lhard为真实标签和第二训练模型Ms的第二预测结果的第二交叉熵,即为一般神经网络中的损失,yt为真实标签。
在所述步骤S303中,采用以下公式得到加权交叉熵;
L=λLhard+(1-λ)Lsoft
其中,L为加权交叉熵,λ为介于0到1之间的常数。
利用Lsoft,可以将第一训练模型Mb的先验知识蒸馏进入第二训练模型Ms这一小模型的训练中,完成训练过程,得到运算量较小的方法的模型Ms。
上述技术方案的有益效果为:提供了确定第二训练模型的具体方法,可以将第一训练模型的先验知识蒸馏进入第二训练模型的训练中,完成训练过程,得到运算量较小的模型。
如图2所示,本发明实施例提供了一种知识蒸馏的文本相似度匹配模型压缩系统,包括:
获取模块201,用于获取训练数据;
第一确定模块202,用于根据所述获取模块201所获取的所述训练数据,采用第一深度文本匹配算法,确定第一训练模型;
第二确定模块203,用于将所述第一训练模型的先验知识蒸馏进入第二训练模型的训练数据,采用第二深度文本匹配算法,确定所述第二训练模型,其中所述第一深度文本匹配算法的计算量大于所述第二深度文本匹配算法的计算量;
预测模块204,用于采用所述第二训练模型对文本相似度匹配结果进行预测。
上述技术方案的工作原理为:现有的深度学习的文本匹配算法,效果最好的都是计算量很大的大型模型。但是由于速度限制,这些模型很难直接应用到实际线上环境,运算量主要集中在通过深度文本匹配算法(比如基于长短时记忆的孪生网络),得到每条候选结果的分数,而计算量小的模型的文本匹配效果比计算量大的模型的匹配效果差。
本发明的获取模块201获取训练数据;第一确定模块202根据训练数据,采用第一深度文本匹配算法,确定第一训练模型;第二确定模块203将第一训练模型的先验知识蒸馏进入第二训练模型的训练数据,采用第二深度文本匹配算法,确定第二训练模型;预测模块204采用所述第二训练模型对文本相似度匹配结果进行预测。
上述技术方案的有益效果为:第二确定模块采用基于知识蒸馏的文本匹配方法,将第一训练模型这一大模型的计算结果融合进入第二训练模型这一小模型的训练过程中,这样在采用第二训练模型在线上进行预测时,避免了运算速度出现下降,同时又利用了第一训练大模型的先验结果,可以提高匹配结果的准确性。
在一个实施例中,所述第一训练模型包括Transformer双向编码器表示模型或知识增强的语义表示模型。
上述技术方案的工作原理为:Transformer双向编码器表示模型来自于谷歌,是一种类似于双向LSTM的序列编码器,能够更好的感知上下文信息,其原理是,位置i上的词语表示上下文所有的单词都相关,这意味着每个单词都是整句话或者整个文本的综合表示的结果,每个单词经过计算以后,原来的信息在新的表达中所占的比重,与其本身在整个文本当中所占的比重成正相关,因此可以并行计算和具有上下文编码能力。
知识增强的语义表示模型来自于百度,通过海量数据建模词、实体及实体关系。相较于BERT学习原始语言信号,知识增强的语义表示模型直接对先验语义知识单元进行建模,增强了模型语义表示能力。此外,知识增强的语义表示模型采用多源训练数据,利用高性能分布式深度学习平台飞桨完成预训练。
本发明使用训练运算量较大、效果较好的深度模型方法,得到了训练好的第一训练模型,本发明优选的第一训练模型为Transformer双向编码器表示模型。
上述技术方案的有益效果为:提供了第一训练模型的具体模型。
在一个实施例中,所述第二深度学习模型包括基于长短时记忆的孪生网络。
上述技术方案的工作原理为:基于长短时记忆(Long Short-Term Memory,LSTM)的孪生网络是一种特殊的循环神经网络,在孪生网络的框架上,不仅能够记忆历史输入信息,还具有遗忘机制,能够处理长时间的序列信息。
上述技术方案的有益效果为:提供了第二训练模型的具体模型。
在一个实施例中,所述第二确定模块203包括:
第一计算单元,用于根据所述训练数据以及所述第一训练模型,计算所述第一训练模型的每条训练数据的输出概率;
第二计算单元,用于计算所述第一训练模型的第一预测结果和所述第二训练模型的第二预测结果的第一交叉熵;
第三计算单元,用于计算真实标签和所述第二训练模型的第二预测结果的第二交叉熵;
第四计算单元,用于根据所述第一交叉熵和所述第二交叉熵进行加权相加,得到加权交叉熵;
更新单元,用于根据所述加权交叉熵,更新所述第二训练模型的模型参数。
上述技术方案的工作原理为:第一计算单元根据训练数据以及第一训练模型,计算第一训练模型的每条训练数据的输出概率,第二计算单元计算第一训练模型的第一预测结果和第二训练模型的第二预测结果的第一交叉熵,第三计算单元计算真实标签和第二训练模型的第二预测结果的第二交叉熵;第四计算单元根据第一交叉熵和第二交叉熵进行加权相加,得到加权交叉熵;更新单元根据加权交叉熵的误差进行反向传播,更新第二训练模型的模型参数。
第二计算单元采用以下公式计算所述第一训练模型的第一预测结果和所述第二训练模型的第二预测结果的第一交叉熵;
其中,Lsoft为第一训练模型Mb的第一预测结果和第二训练模型Ms的第二预测结果的第一交叉熵,n为输出层的维度,yb为第一训练模型Mb的每条训练数据的输出概率,即最终的归一化指数函数的结果,y为第二训练模型Ms的预测结果;
第三计算单元采用以下公式计算真实标签和所述第二训练模型的第二预测结果的第二交叉熵;
其中,Lhard为真实标签和第二训练模型Ms的第二预测结果的第二交叉熵,即为一般神经网络中的损失,yt为真实标签。
第四计算单元采用以下公式得到加权交叉熵;
L=λLhard+(1-λ)Lsoft
其中,L为加权交叉熵,λ为介于0到1之间的常数。
利用Lsoft,可以将第一训练模型Mb的先验知识蒸馏进入第二训练模型Ms这一小模型的训练中,完成训练过程,得到运算量较小的方法的模型Ms。
上述技术方案的有益效果为:提供了第二确定模块的具体结构,借助于第一计算单元、第二计算单元、第三计算单元、第四计算单元以及更新单元,可以将第一训练模型的先验知识蒸馏进入第二训练模型的训练中,完成训练过程,得到运算量较小的模型。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (8)
1.一种知识蒸馏的文本相似度匹配模型压缩方法,其特征在于,所述方法执行以下步骤:
步骤1:获取训练数据;
步骤2:根据所述训练数据,采用第一深度文本匹配算法,确定第一训练模型;
步骤3:将所述第一训练模型的先验知识蒸馏进入第二训练模型的训练数据,采用第二深度文本匹配算法,确定所述第二训练模型,其中所述第一深度文本匹配算法的计算量大于所述第二深度文本匹配算法的计算量;
步骤4:采用所述第二训练模型对文本相似度匹配结果进行预测;
所述步骤3:将所述第一训练模型的先验知识蒸馏进入第二训练模型的训练数据,采用第二深度文本匹配算法,确定所述第二训练模型,执行以下步骤:
步骤S301:根据所述训练数据以及所述第一训练模型,计算所述第一训练模型的每条训练数据的输出概率;
步骤S302:计算所述第一训练模型的第一预测结果和所述第二训练模型的第二预测结果的第一交叉熵,以及真实标签和所述第二训练模型的第二预测结果的第二交叉熵;
步骤S303:根据所述第一交叉熵和所述第二交叉熵进行加权相加,得到加权交叉熵;
步骤S304:根据所述加权交叉熵,更新所述第二训练模型的模型参数。
2.如权利要求1所述的方法,其特征在于,在所述步骤2中,所述第一训练模型包括Transformer双向编码器表示模型或知识增强的语义表示模型。
3.如权利要求1所述的方法,其特征在于,在所述步骤3中,所述第二训练模型包括基于长短时记忆的孪生网络。
4.如权利要求1所述的方法,其特征在于,在所述步骤S302中,采用以下公式计算所述第一训练模型的第一预测结果和所述第二训练模型的第二预测结果的第一交叉熵;
其中,L soft 为第一训练模型Mb的第一预测结果和第二训练模型Ms的第二预测结果的第一交叉熵,n为输出层的维度,yb为第一训练模型Mb的每条训练数据的输出概率,即最终的归一化指数函数的结果,y为第二训练模型Ms的预测结果;
采用以下公式计算真实标签和所述第二训练模型的第二预测结果的第二交叉熵;
其中,L hard 为真实标签和第二训练模型Ms的第二预测结果的第二交叉熵,yt为真实标签。
5.如权利要求4所述的方法,其特征在于,在所述步骤S303中,采用以下公式得到加权交叉熵;
其中,L为加权交叉熵,λ为介于0到1之间的常数。
6.一种知识蒸馏的文本相似度匹配模型压缩系统,其特征在于,包括:
获取模块,用于获取训练数据;
第一确定模块,用于根据所述获取模块所获取的所述训练数据,采用第一深度文本匹配算法,确定第一训练模型;
第二确定模块,用于将所述第一训练模型的先验知识蒸馏进入第二训练模型的训练数据,采用第二深度文本匹配算法,确定所述第二训练模型,其中所述第一深度文本匹配算法的计算量大于所述第二深度文本匹配算法的计算量;
预测模块,用于采用所述第二训练模型对文本相似度匹配结果进行预测;
所述第二确定模块包括:
第一计算单元,用于根据所述训练数据以及所述第一训练模型,计算所述第一训练模型的每条训练数据的输出概率;
第二计算单元,用于计算所述第一训练模型的第一预测结果和所述第二训练模型的第二预测结果的第一交叉熵;
第三计算单元,用于计算真实标签和所述第二训练模型的第二预测结果的第二交叉熵;
第四计算单元,用于根据所述第一交叉熵和所述第二交叉熵进行加权相加,得到加权交叉熵;
更新单元,用于根据所述加权交叉熵,更新所述第二训练模型的模型参数。
7.如权利要求6所述的系统,其特征在于,所述第一训练模型包括Transformer双向编码器表示模型或知识增强的语义表示模型。
8.如权利要求6所述的系统,其特征在于,所述第二训练模型包括基于长短时记忆的孪生网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911241731.4A CN111178036B (zh) | 2019-12-06 | 2019-12-06 | 一种知识蒸馏的文本相似度匹配模型压缩方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911241731.4A CN111178036B (zh) | 2019-12-06 | 2019-12-06 | 一种知识蒸馏的文本相似度匹配模型压缩方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111178036A CN111178036A (zh) | 2020-05-19 |
CN111178036B true CN111178036B (zh) | 2023-08-29 |
Family
ID=70657252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911241731.4A Active CN111178036B (zh) | 2019-12-06 | 2019-12-06 | 一种知识蒸馏的文本相似度匹配模型压缩方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111178036B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111444731B (zh) * | 2020-06-15 | 2020-11-03 | 深圳市友杰智新科技有限公司 | 模型训练方法、装置和计算机设备 |
CN112464662B (zh) * | 2020-12-02 | 2022-09-30 | 深圳平安医疗健康科技服务有限公司 | 医学短语匹配方法、装置、设备及存储介质 |
CN112990296B (zh) * | 2021-03-10 | 2022-10-11 | 中科人工智能创新技术研究院(青岛)有限公司 | 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及系统 |
CN114780709B (zh) * | 2022-03-22 | 2023-04-07 | 北京三快在线科技有限公司 | 文本匹配方法、装置及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271537A (zh) * | 2018-08-10 | 2019-01-25 | 北京大学 | 一种基于蒸馏学习的文本到图像生成方法和系统 |
CN109637546A (zh) * | 2018-12-29 | 2019-04-16 | 苏州思必驰信息科技有限公司 | 知识蒸馏方法和装置 |
CA3056098A1 (en) * | 2019-06-07 | 2019-11-22 | Tata Consultancy Services Limited | Sparsity constraints and knowledge distillation based learning of sparser and compressed neural networks |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11853903B2 (en) * | 2017-09-28 | 2023-12-26 | Siemens Aktiengesellschaft | SGCNN: structural graph convolutional neural network |
-
2019
- 2019-12-06 CN CN201911241731.4A patent/CN111178036B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271537A (zh) * | 2018-08-10 | 2019-01-25 | 北京大学 | 一种基于蒸馏学习的文本到图像生成方法和系统 |
CN109637546A (zh) * | 2018-12-29 | 2019-04-16 | 苏州思必驰信息科技有限公司 | 知识蒸馏方法和装置 |
CA3056098A1 (en) * | 2019-06-07 | 2019-11-22 | Tata Consultancy Services Limited | Sparsity constraints and knowledge distillation based learning of sparser and compressed neural networks |
Non-Patent Citations (1)
Title |
---|
梅馨,邢桂芬.文本挖掘技术综述.江苏大学学报(自然科学版).2003,(05),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111178036A (zh) | 2020-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11113479B2 (en) | Utilizing a gated self-attention memory network model for predicting a candidate answer match to a query | |
KR102333939B1 (ko) | 절단 어텐션에 기반하는 실시간 음성 인식 방법, 장치, 기기 및 컴퓨터 판독 가능 저장 매체 | |
CN111178036B (zh) | 一种知识蒸馏的文本相似度匹配模型压缩方法及系统 | |
US10706840B2 (en) | Encoder-decoder models for sequence to sequence mapping | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
CN110704621B (zh) | 文本处理方法、装置及存储介质和电子设备 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN110678882B (zh) | 使用机器学习从电子文档选择回答跨距的方法及系统 | |
CN110929114A (zh) | 利用动态记忆网络来跟踪数字对话状态并生成响应 | |
JP2019159654A (ja) | 時系列情報の学習システム、方法およびニューラルネットワークモデル | |
US20220188636A1 (en) | Meta pseudo-labels | |
CN114021582B (zh) | 结合语音信息的口语理解方法、装置、设备及存储介质 | |
CN111354333A (zh) | 一种基于自注意力的汉语韵律层级预测方法及系统 | |
CN111368066B (zh) | 获取对话摘要的方法、装置和计算机可读存储介质 | |
CN115312033A (zh) | 基于人工智能的语音情感识别方法、装置、设备及介质 | |
CN110852066B (zh) | 一种基于对抗训练机制的多语言实体关系抽取方法及系统 | |
CN112349294A (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN115359321A (zh) | 一种模型训练方法、装置、电子设备及存储介质 | |
CN113421593A (zh) | 语音测评方法、装置、计算机设备和存储介质 | |
CN116932736A (zh) | 一种基于用户需求结合倒排表的专利推荐方法 | |
CN116502649A (zh) | 文本生成模型的训练方法、装置、电子设备及存储介质 | |
CN115240712A (zh) | 一种基于多模态的情感分类方法、装置、设备及存储介质 | |
KR20230136654A (ko) | 셀프 어텐션 및 교차 어텐션 연산을 통해 잠재 임베딩을 강화한 신경망 출력 생성 | |
CN114707509A (zh) | 交通命名实体识别方法、装置、计算机设备及存储介质 | |
CN114417891A (zh) | 基于粗糙语义的回复语句确定方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |