CN112686031B - 文本特征提取模型的量化方法、装置、设备及存储介质 - Google Patents
文本特征提取模型的量化方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112686031B CN112686031B CN202011552423.6A CN202011552423A CN112686031B CN 112686031 B CN112686031 B CN 112686031B CN 202011552423 A CN202011552423 A CN 202011552423A CN 112686031 B CN112686031 B CN 112686031B
- Authority
- CN
- China
- Prior art keywords
- quantization parameter
- quantization
- target
- target quantization
- feature extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013139 quantization Methods 0.000 title claims abstract description 609
- 238000000605 extraction Methods 0.000 title claims abstract description 163
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000013507 mapping Methods 0.000 claims abstract description 48
- 230000008569 process Effects 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 22
- 239000011159 matrix material Substances 0.000 claims description 30
- 238000010606 normalization Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 5
- 230000006872 improvement Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 25
- 239000013598 vector Substances 0.000 description 13
- 238000013528 artificial neural network Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
- G06F40/157—Transformation using dictionaries or tables
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开实施例公开了一种文本特征提取模型的量化方法、装置、设备及存储介质。所述方法包括:在文本特征提取模型训练过程中,根据目标量化参数确定与目标量化参数对应的量化区间;其中,量化区间包含目标量化参数中的部分浮点值;根据量化区间构建目标量化参数的浮点值与定点值的映射关系;其中,目标量化参数中小于量化区间左端点的浮点值映射为量化后的最小定点值,目标量化参数中大于量化区间右端点的浮点值映射为量化后的最大定点值;基于映射关系对目标量化参数进行量化操作。本公开实施例提供的文本特征提取模型的量化方法,在保证提高文本特征提取模型的运行速度的同时,可有效提高文本特征提取模型的精度。
Description
技术领域
本公开实施例涉及计算机技术领域,尤其涉及一种文本特征提取模型的量化方法、装置、设备及存储介质。
背景技术
在自然语言处理中,文本特征提取模型得到了越来越广泛的应用,目前较热门的文本特征提取模型是Transformer模型及其各种变体模型,这些模型都在各种自然语言处理任务上取得了最好的效果。但是,文本特征提取模型的模型参数量和计算量较大,并且受计算机存储能力和计算能力的限制,给文本特征提取模型的快速推理以及模型在移动端的部署带来了很大的问题。
目前,针对这个问题,最直接的解决方法就是对文本特征提取模型进行量化,也即将基于高精度浮点数表示的模型转换为低精度表示,例如把32位浮点数转换为8位整型数。这样模型的参数量和物理体积直接变为了原来的1/4,在移动端等GPU匮乏的终端上推理速度大大加快,效果立竿见影。但对文本特征提取模型进行量化后,会使文本特征提取模型的准确率大大下降,因此,对文本特征提取模型的量化方法进行优化,减小准确率上的损失,变得至关重要。
发明内容
本公开实施例提供一种文本特征提取模型的量化方法、装置、设备及存储介质,在保证提高文本特征提取模型的运行速度的同时,可有效提高文本特征提取模型的精度。
第一方面,本公开实施例提供了一种文本特征提取模型的量化方法,包括:
在文本特征提取模型训练过程中,根据目标量化参数确定与所述目标量化参数对应的量化区间;其中,所述量化区间包含所述目标量化参数中的部分浮点值;
根据所述量化区间构建所述目标量化参数的浮点值与定点值的映射关系;其中,所述目标量化参数中小于所述量化区间左端点的浮点值映射为量化后的最小定点值,所述目标量化参数中大于所述量化区间右端点的浮点值映射为量化后的最大定点值;
基于所述映射关系对所述目标量化参数进行量化操作。
第二方面,本公开实施例还提供了一种文本特征提取模型的量化装置,包括:
量化区间确定模块,用于在文本特征提取模型训练过程中,根据目标量化参数确定与所述目标量化参数对应的量化区间;其中,所述量化区间包含所述目标量化参数中的部分浮点值;
映射关系构建模块,用于根据所述量化区间构建所述目标量化参数的浮点值与定点值的映射关系;其中,所述目标量化参数中小于所述量化区间左端点的浮点值映射为量化后的最小定点值,所述目标量化参数中大于所述量化区间右端点的浮点值映射为量化后的最大定点值;
量化模块,用于基于所述映射关系对所述目标量化参数进行量化操作。
第三方面,本公开实施例还提供了一种电子设备,所述电子设备包括:
一个或多个处理装置;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理装置执行,使得所述一个或多个处理装置实现如本公开实施例所述的文本特征提取模型的量化方法。
第四方面,本公开实施例还提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现如本公开实施例所述的文本特征提取模型的量化方法。
本公开实施例,在文本特征提取模型训练过程中,根据目标量化参数确定与所述目标量化参数对应的量化区间;其中,所述量化区间包含所述目标量化参数中的部分浮点值;根据所述量化区间构建所述目标量化参数的浮点值与定点值的映射关系;其中,所述目标量化参数中小于所述量化区间左端点的浮点值映射为量化后的最小定点值,所述目标量化参数中大于所述量化区间右端点的浮点值映射为量化后的最大定点值;基于所述映射关系对所述目标量化参数进行量化操作。本公开实施例提供的文本特征提取模型的量化方法,可以自适应地根据目标量化参数的数值分布动态选择量化区间,从而基于量化区间构建量化参数进行量化前后的映射关系,以在文本特征提取过程中对目标量化参数的量化,从而实现了文本特征提取模型的量化,可使量化后的目标量化参数的数值均匀分布,有效减少由于量化后的数值集中于某一个数值附近,导致在将量化后的数值还原成高精度数值过程中的精度损失,在保证提高文本特征提取模型的运行速度的同时,可有效提高文本特征提取模型的精度。
附图说明
图1是本公开一实施例中的一种文本特征提取模型的量化方法的流程图;
图2是现有技术中文本特征提取模型的量化原理示意图;
图3是本公开一实施例提供的一种文本特征提取模型的量化原理示意图;
图4是本公开一实施例提供的对文本特征提取模型进行对称量化的原理示意图;
图5是本公开另一实施例中的一种文本特征提取模型的量化方法的流程图;
图6是本公开一实施例中文本特征提取模型的词向量输入网络结构示意图;
图7是本公开一实施例中的文本特征提取模型的整体网络结构示意图;
图8是本公开一实施例中的文本特征提取模型中的注意力层的网络结构示意图;
图9是本公开一实施例中的文本特征提取模型中的前馈神经网络层的网络结构示意图;
图10是本公开一实施例中的文本特征提取模型中的输出层的网络结构示意图;
图11是本公开一实施例中的一种文本特征提取模型的量化方法的流程图;
图12是本公开另一实施例中的一种文本特征提取模型的量化装置的结构示意图;
图13是本公开另一实施例中的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
图1为本公开一实施例提供的一种文本特征提取模型的量化方法的流程图,本公开实施例可适用于对文本特征提取模型进行量化的情况,该方法可以由文本特征提取模型的量化装置来执行,该装置可由硬件和/或软件组成,并一般可集成在具有文本特征提取模型的量化功能的设备中,该设备可以是服务器、移动终端或服务器集群等电子设备。如图1所示,该方法具体包括如下步骤:
步骤110,在文本特征提取模型训练过程中,根据目标量化参数确定与所述目标量化参数对应的量化区间;其中,所述量化区间包含所述目标量化参数中的部分浮点值。
在本公开实施例中,文本特征提取模型可以包括神经网络模型、朴素贝叶斯模型等机器学习模型,还可以为Transformer模型或Transformer模型的变体模型,如BERT(Bidirectional Encoder Representations from Transformers)模型、GPT(GereratePre-Training)模型。需要说明的是,本公开实施例对文本特征提取模型具体采用哪种机器学习模型不做限定。
在本公开实施例中,目标量化参数可以理解为在文本特征提取模型训练过程中,待进行量化的目标参数,其中,目标量化参数可以为文本特征提取模型的网络参数,还可以为文本特征提取模型中的某个网络层的输入或输出的中间量,还可以为文本特征提取模型中网络层执行某运算操作前后的运算操作对象。其中,量化区间为能够对目标量化参数中的部分浮点值进行截断的区间,即目标量化参数中的部分浮点值处于所述量化区间内,目标量化参数中的另一部分浮点值处于所述量化区间外。
在文本特征提取模型训练过程中,根据目标量化参数确定与该目标量化参数对应的量化区间,可以理解的是,对于不同的目标量化参数,其对应的量化区间不同。示例性的,可以基于目标量化参数的数值分布特征确定与目标量化参数对应的量化区间,也可以根据目标量化参数的类型确定与目标量化参数对应的量化区间。需要说明的是,本公开实施例对确定与目标量化参数对应的量化区间的方式不做限定。
步骤120,根据所述量化区间构建所述目标量化参数的浮点值与定点值的映射关系;其中,所述目标量化参数中小于所述量化区间左端点的浮点值映射为量化后的最小定点值,所述目标量化参数中大于所述量化区间右端点的浮点值映射为量化后的最大定点值。
示例性的,以将浮点数量化为8位整型数为例,图2是现有技术中文本特征提取模型的量化原理示意图,如图2所示,区间[wmin,wmax]内的圆心实点代表量化前目标量化参数的浮点值,其中,wmin为目标量化参数的浮点值中的最小值,wmax为目标量化参数的浮点值中的最大值,区间[wmin,wmax]包含目标量化参数中的全部浮点值,[-128,127]内的圆心实点代表量化后目标量参数的定点整型数。根据图2可以看出,现有技术中的文本特征提取模型的量化方法为先求出量化前的浮点数参数范围[wmin,wmax],然后将区间[wmin,wmax]成比例映射到整数区间[-128,127]中去,因此浮点数0.0映射后的整数值z不一定等于整数0。而且量化前大多数浮点值都分布在0.0附近,而只有极少数浮点值范围比较异常,直接按区间[wmin,wmax]进行映射,量化后的大多数定点值(整数值)也都分布在0附近,导致很多浮点数被映射为同一个整数值,导致反量化后的浮点数和原来量化前的浮点值差异较大,致使量化后的文本特征提取模型的精度较差。
在本公开实施例中,根据步骤110确定的量化区间,构建目标量化参数的浮点值与定点值的映射关系。以将浮点数量化为8位整型数为例进行解释说明。图3是本公开一实施例提供的一种文本特征提取模型的量化原理示意图,如图3所示,基于步骤110确定的量化区间为[wcmin,wcmax],其中,量化区间[wcmin,wcmax]可以将目标量化参数中的部分浮点值截断,即使目标量化参数中的部分浮点值处于量化区间[wcmin,wcmax]之外,使目标量化参数中的大部分的浮点值处于量化区间[wcmin,wcmax]内。示例性的,可以将目标量化参数中处于量化区间[wcmin,wcmax]内的浮点值等比例映射到定点区间[-128,127]内,将目标量化参数中小于量化区间左端点wcmin的浮点值统一映射到整型定点值-128,将目标量化参数中大于量化区间右端点wcmax的浮点值统一映射到整型定点值127,从而基于量化区间完成目标量化参数的浮点值与定点值的映射关系的构建操作。根据图3可以看出,本公开实施例提供的文本特征提取模型的量化方法,可以使量化后的目标量化参数分布更加均匀,不会集中在整数0附近了,而目标量化参数中处于量化区间外的浮点值(目标量化参数中被量化区间截断的浮点值),因为所占比例极小,因此文本特征提取模型的精度几乎没有影响。
示例性的,以32位浮点数q量化为8位整型数i为例,可通过算法i=q/s+z,构建目标量化参数的浮点值与定点值的映射关系,其中,s表示量化参数,z表示浮点数0.0量化后对应的整型数数值,浮点数q位于量化区间内。
步骤130,基于所述映射关系对所述目标量化参数进行量化操作。
在本公开实施例中,文本特征提取模型训练过程中,基于目标量化参数的浮点值与定点值的映射关系,对目标量化参数进行量化操作,在对目标量化参数进行量化的过程中,确定量化参数,其中,在每一次文本特征提取模型迭代训练时,确定一次量化参数,直至量化后的文本特征提取模型的精度损失达到最小,甚至为0为止,从而通过多次文本特征提取模型的量化迭代训练完成文本特征提取模型的量化。
本公开实施例提供的方案,在文本特征提取模型训练过程中,根据目标量化参数确定与所述目标量化参数对应的量化区间;其中,所述量化区间包含所述目标量化参数中的部分浮点值;根据所述量化区间构建所述目标量化参数的浮点值与定点值的映射关系;其中,所述目标量化参数中小于所述量化区间左端点的浮点值映射为量化后的最小定点值,所述目标量化参数中大于所述量化区间右端点的浮点值映射为量化后的最大定点值;基于所述映射关系对所述目标量化参数进行量化操作。本公开实施例提供的文本特征提取模型的量化方法,可以自适应地根据目标量化参数的数值分布动态选择量化区间,从而基于量化区间构建量化参数进行量化前后的映射关系,以在文本特征提取过程中对目标量化参数的量化,从而实现了文本特征提取模型的量化,可使量化后的目标量化参数的数值均匀分布,有效减少由于量化后的数值集中于某一个数值附近,导致在将量化后的数值还原成高精度数值过程中的精度损失,在保证提高文本特征提取模型的运行速度的同时,可有效提高文本特征提取模型的精度。
在一些实施例中,根据目标量化参数确定与所述目标量化参数对应的量化区间,包括:确定所述目标量化参数的数值分布特征;基于所述数值分布特征确定与所述目标量化参数对应的量化区间。这样设置的好处在于,可以根据目标量化参数的数值分布特征,动态确定量化区间,可进一步提高文本特征提取模型精度。
示例性的,可以对目标量化参数中的所有浮点值进行分析,如基于目标量化参数中的所有浮点值构建目标量化参数的数值分布示意图,根据数值分布示意图可确定目标量化参数的数值分布特征。其中,目标量化参数的数值分布特征可以包括目标量化参数的数值集中分布于某个数值或某个区间内,或者目标量化参数的数值均匀分布,亦或者目标量化参数的数值呈正态分布。基于目标量参数的数值分布特征确定与目标量化参数对应的量化区间,如根据目标量化参数的数值分布特征确定一量化区间,使目标量化参数中的绝大部分(预设比例或预设数量)数值处于该量化区间内。
在一些实施例中,在基于所述数值分布特征确定与所述目标量化参数对应的量化区间之前,还包括:获取预设截断比例阈值;基于所述数值分布特征确定与所述目标量化参数对应的量化区间,包括:基于所述预设截断比例阈值、所述目标量化参数的数据量及所述目标量化参数的数值分布特征,确定与所述量化参数对应的量化区间。可选的,基于所述预设截断比例阈值、所述目标量化参数的数据量及所述目标量化参数的数值分布特征,确定与所述量化参数对应的量化区间,包括:基于所述预设截断比例阈值及所述目标量化参数的数据量确定截断数据量2N;其中,N为所述预设截断比例阈值及所述目标量化参数的数据量的乘积;基于所述目标量化参数中第N+1个最小数值和第N+1个最大值,确定与所述量化参数对应的量化区间;其中,所述量化区间为[第N+1个最小数值,第N+1个最大值]。这样设置的好处在于,可以准确、快速地确定较好的量化区间,有助于提高文本特征提取模型的精度。
示例性的,获取预设截断比例p,并确定目标量化参数的数据量M,根据预设截断比例p和目标量化参数的数据量M计算截断数据量2N,其中,N=M*p。对目标量化参数中的浮点值按照从小到大或从大到小的顺序排序,将目标量化参数中最小的N个浮点值及最大的N个浮点值截断,根据目标量化参数中第N+1个最小值和第N+1个最大值,确定与量化参数对应的量化区间,也即将目标量化参数中第N+1个最小值作为量化区间的左端点,将目标量化参数中第N+1个最大值作为量化区间的右端点,将量化区间确定为[第N+1个最小数值,第N+1个最大值]。例如,预设截断比例p=0.0001,目标量化参数的数据量为10万,则可将目标量化参数中最小的10个数值和最大的10个数值截断,将截断范围(也即量化范围)确定为[第11小的浮点值,第11大的浮点值]。
在一些实施例中,根据目标量化参数确定与所述目标量化参数对应的量化区间,包括:确定目标量化参数的类型;获取与所述目标量化参数的类型对应的预设区间,并将所述预设区间确定为与所述目标量化参数对应的量化区间。这样设置的好处在于,可以基于目标量化参数的类型快速确定量化区间,可有助于提高文本特征提取模型的精度。
示例性的,目标量化参数的类型可以包括网络参数和中间运算结果,可以根据目标量化参数的类型设定对应的量化区间,其中,目标量化参数的类型不同,对应的量化区间不同。可选的,当目标量化参数为网络参数时,与目标量化参数对应的量化区间为[-0.5,0.5],当目标量化参数为中间运算结果时,与目标量参数对应的量化区间为[-16.0,16.0],这样设置的好处在于,无论是将网络参数作为目标量化参数,还是将文本特征提取模型中的中间运算结果作为目标量化参数,预先设定的量化区间能够覆盖大多数的正常浮点值,可有效避免量化前的浮点值和量化后的整型数值均分别集中于某个数值附近的情况发生,可有效提高量化后的文本特征提取模型的精度。
在一些实施例中,在根据所述量化区间构建所述目标量化参数的浮点值与定点值的映射关系之前,还包括:对所述量化区间进行调整,以使所述浮点数0.0量化后的定点值为0。若与浮点值0.0(量化前的浮点值0.0)对应的整型数值z(量化后的定点值z)如果不为0时,会导致对文本特征提取模型的量化操作的计算量大大增大,因此,在根据量化区间构建目标量化参数的浮点值与定点值的映射关系之前,可对量化区间进行调整,以使所述浮点数0.0量化后的定点值为0,即使浮点数0.0量化后的整数值依然是0。这样设置的好处在于,可以对文本特征提取模型进行对称量化,提高对文本特征提取模型进行量化的效率。示例性的,以32位浮点数q量化为8位整型数i为例,由于量化区间是成比例映射的,为了对文本特征提取模型进行对称量化,可使区间[wcmin,0]和区间[0,wcmax]的长度比等于区间[-128,0]和[0,127]的长度比,也就是(0-wcmin)/(wcmax-0)=128/127,即wcmin=wcmax*128/127,因此,可将量化区间[wcmin,wcmax]调整为[-bound*128/127,bound],其中,bound=max(abs(wcmin),abs(wcmax)),以保证浮点数0.0量化后的定点值为0。图4是本公开一实施例提供的对文本特征提取模型进行对称量化的原理示意图。
在一些实施例中,在根据目标量化参数确定与所述目标量化参数对应的量化区间之前,还包括:根据所述文本特征提取模型的网络层的运算操作或网络参数的类型确定目标量化参数。这样设置的好处在于,可以准确确定文本特征提取模型中待进行量化的目标量化参数,可有效提高文本特征提取模型的运行精度。
可选的,根据所述文本特征提取模型的网络层的运算操作确定目标量化参数,包括:当所述文本特征提取模型的网络层的运算操作为乘积运算时,将用于乘积运算的输入对象确定为目标量化参数;当所述文本特征提取模型的网络层的运算操作为归一化操作时,将归一化操作的输出对象确定为目标量化参数。示例性的,由于文本特征提取模型的网络层的运算操作为乘积操作时,一般都是矩阵与矩阵间的乘积,计算量比较大,因此,可用于乘积运算的输入对象确定为目标量化参数。由于文本特征提取模型的网络层的运算操作为归一化操作时,通常是将归一化操作的输出结果输送至layer层(也即L结点)中,L节点对输入对象的计算量较大,因此,可将归一化操作的输出对象确定为目标量化参数。
可选的,所述网络参数的类型包括权重矩阵和网络偏差;根据所述文本特征提取模型的网络参数的类型确定目标量化参数,包括:当所述网络参数为所述文本特征提取模型的权重矩阵时,将所述权重矩阵确定为目标量化参数。示例性的,由于文本特征提取模型的权重矩阵为2维以上的矩阵,包含的数据量较大,而网络偏差通常为1维数据,因此,可将文本特征提取模型的权重矩阵确定为目标量化参数。
图5是本公开另一实施例中的一种文本特征提取模型的量化方法的流程图,如图5所示,该方法包括如下步骤:
步骤510,在文本特征提取模型训练过程中,根据所述文本特征提取模型的网络层的运算操作或网络参数的类型确定目标量化参数;其中,所述文本特征提取模型为Transformer模型。
可选的,所述网络参数的类型包括权重矩阵和网络偏差;根据所述文本特征提取模型的网络参数的类型确定目标量化参数,包括:当所述网络参数为所述文本特征提取模型的权重矩阵时,将所述权重矩阵确定为目标量化参数。示例性的,文本特征提取模型的权重矩阵weight所占的数据量通常较大,因此,在文本特征提取模型训练过程中,可将文本特征提取模型中所有的权重矩阵weight作为目标量化参数,即在文本特征提取模型训练过程中对所有的权重矩阵weight进行量化。可选的,还可判断权重矩阵的数据量大小,可将数据量大于预设阈值的权重矩阵作为目标量化对象,而对数据量小于预设阈值的权重矩阵作不进行量化。文本特征提取模型的网络偏差bias的数据量通常较小,因此,可不对文本特征提取模型中的网络参数进行量化。
可选的,根据所述文本特征提取模型的网络层的运算操作确定目标量化参数,包括:当所述文本特征提取模型的网络层的运算操作为乘积运算时,将用于乘积运算的输入对象确定为目标量化参数;当所述文本特征提取模型的网络层的运算操作为归一化操作时,将归一化操作的输出对象确定为目标量化参数。
在本公开实施例中,图6是本公开一实施例中文本特征提取模型的词向量输入网络结构示意图,如图6所示,可以将词向量矩阵We作为目标量化参数,也即将词向量矩阵We量化后再输入至G结点,其中,G结点表示对量化后的词向量矩阵We进行gather操作,也即从量化后的词向量矩阵We中取出某些特定单词的词向量,接着和位置向量Wp拼接后得到最终的输出词向量,由于位置向量Wp是对输入的词语进行正弦计算得到的,而不是文本特征提取模型的网络参数,因此,可不对位置向量Wp进行量化。
在本公开实施例中,文本特征提取模型为Transformer模型,其中,Transformer模型包括至少一个注意力层和至少一个前馈神经网络层,图7是本公开一实施例中的文本特征提取模型的整体网络结构示意图。图7中的L(layer)结点表示注意力层或前馈神经网络层,N(normalization)结点表示归一化操作,当文本特征提取模型的网络层的运算操作为归一化操作时,可将归一化操作的输出对象确定为目标量化参数,也即对N结点的输出量进行量化操作,并将量化后的输出结果输入至后面的L结点中。由于每一个网络层是首尾相连的,每个网络层的输出量的量化在下一层的输入量的量化操作里体现,因此,可不对各个网络层的输出量进行量化。图8是本公开一实施例中的文本特征提取模型中的注意力层的网络结构示意图。如图8所示,可将注意力层中所有的权重矩阵及用于乘积操作的输入对象确定为目标量化参数,也即对注意力层中所有的权重矩阵及用于乘积操作的输入对象进行量化。而注意力层的输出量输入至下一网络层后,可对下一网络层中的N结点的输出量进行量化,因此,可不对该注意力层的输出量进行量化。图9是本公开一实施例中的文本特征提取模型中的前馈神经网络层的网络结构示意图。如图9所示,可将前馈神经网络层中所有的权重矩阵及用于乘积操作的输入对象确定为目标量化参数,也即对前馈神经网络层中所有的权重矩阵及用于乘积操作的输入对象进行量化。而前馈神经网络层的输出量输入至下一网络层后,可对下一网络层中的N结点的输出量进行量化,因此,可不对该前馈神经网络层的输出量进行量化。图10是本公开一实施例中的文本特征提取模型中的输出层的网络结构示意图。图10中的输入量x为前馈神经网络的输出量,由于前馈神经网络的最后的输出量没有经过量化的,因此,可在整个Transformer编码器/解码器的最后一层输出后,对x进行归一化操作(即将x输入至图10中的N结点),可对N结点的输出量进行量化。由于最后的输出量需要输送softmax函数,进行较高的计算量操作,因此,在可将最后的输出量量化操作。
需要说明的是,图6-图10中的虚线箭头可以表示对目标量化参数进行量化操作。
步骤520,获取预设截断比例阈值。
步骤530,基于所述预设截断比例阈值及所述目标量化参数的数据量确定截断数据量2N;其中,N为所述预设截断比例阈值及所述目标量化参数的数据量的乘积。
步骤540,基于所述目标量化参数中第N+1个最小数值和第N+1个最大值,确定与所述量化参数对应的量化区间;其中,所述量化区间为[第N+1个最小数值,第N+1个最大值]。
步骤550,对所述量化区间进行调整,以使所述浮点数0.0量化后的定点值为0。
步骤560,根据所述量化区间构建所述目标量化参数的浮点值与定点值的映射关系;其中,所述目标量化参数中小于所述量化区间左端点的浮点值映射为量化后的最小定点值,所述目标量化参数中大于所述量化区间右端点的浮点值映射为量化后的最大定点值。
步骤570,基于所述映射关系对所述目标量化参数进行量化操作。
本公开实施例的技术方案,可以根据文本特征提取模型的网络层的运算操作或网络参数的类型确定目标量化参数,并基于预设截断比例阈值、目标量化参数的数据量及目标量化参数的数值分布特征,确定与量化参数对应的量化区间,并对量化区间进行调整,以使浮点数0.0量化后的定点值为0,从而基于调整后的量化区间构建量化参数进行量化前后的映射关系,以在文本特征提取过程中对目标量化参数的量化,在保证文本特征提取模型精度的同时,可大大提高文本特征提取模型的运行速度。
图11是本公开另一实施例中的一种文本特征提取模型的量化方法的流程图,如图11所示,该方法包括如下步骤:
步骤1110,在文本特征提取模型训练过程中,根据所述文本特征提取模型的网络层的运算操作或网络参数的类型确定目标量化参数;其中,所述文本特征提取模型为Transformer模型。
可选的,根据所述文本特征提取模型的网络层的运算操作确定目标量化参数,包括:当所述文本特征提取模型的网络层的运算操作为乘积运算时,将用于乘积运算的输入对象确定为目标量化参数;当所述文本特征提取模型的网络层的运算操作为归一化操作时,将归一化操作的输出对象确定为目标量化参数。
可选的,所述网络参数的类型包括权重矩阵和网络偏差;根据所述文本特征提取模型的网络参数的类型确定目标量化参数,包括:当所述网络参数为所述文本特征提取模型的权重矩阵时,将所述权重矩阵确定为目标量化参数。
步骤1120,确定目标量化参数的类型。
步骤1130,获取与所述目标量化参数的类型对应的预设区间,并将所述预设区间确定为与所述目标量化参数对应的量化区间。
示例性的,目标量化参数的类型可以包括网络参数和中间运算结果,当目标量化参数为网络参数时,与目标量化参数对应的量化区间为[-0.5,0.5],当目标量化参数为中间运算结果时,与目标量参数对应的量化区间为[-111.0,111.0]。
步骤1140,根据所述量化区间构建所述目标量化参数的浮点值与定点值的映射关系;其中,所述目标量化参数中小于所述量化区间左端点的浮点值映射为量化后的最小定点值,所述目标量化参数中大于所述量化区间右端点的浮点值映射为量化后的最大定点值。
步骤1150,基于所述映射关系对所述目标量化参数进行量化操作。
本公开实施例提供的技术方案,无论是将网络参数作为目标量化参数,还是将文本特征提取模型中的中间运算结果作为目标量化参数,预先设定的量化区间能够覆盖大多数的正常浮点值,可有效避免量化前的浮点值和量化后的整型数值均分别集中于某个数值附近的情况发生,可有效提高量化后的文本特征提取模型的精度。
图12为本公开另一实施例提供的一种文本特征提取模型的量化装置的结构示意图。如图12所示,该装置包括:量化区间确定模块1210,映射关系构建模块1220和量化模块1230。
量化区间确定模块1210,用于在文本特征提取模型训练过程中,根据目标量化参数确定与所述目标量化参数对应的量化区间;其中,所述量化区间包含所述目标量化参数中的部分浮点值;
映射关系构建模块1220,用于根据所述量化区间构建所述目标量化参数的浮点值与定点值的映射关系;其中,所述目标量化参数中小于所述量化区间左端点的浮点值映射为量化后的最小定点值,所述目标量化参数中大于所述量化区间右端点的浮点值映射为量化后的最大定点值;
量化模块1230,用于基于所述映射关系对所述目标量化参数进行量化操作。
本公开实施例,在文本特征提取模型训练过程中,根据目标量化参数确定与所述目标量化参数对应的量化区间;其中,所述量化区间包含所述目标量化参数中的部分浮点值;根据所述量化区间构建所述目标量化参数的浮点值与定点值的映射关系;其中,所述目标量化参数中小于所述量化区间左端点的浮点值映射为量化后的最小定点值,所述目标量化参数中大于所述量化区间右端点的浮点值映射为量化后的最大定点值;基于所述映射关系对所述目标量化参数进行量化操作。本公开实施例提供的文本特征提取模型的量化装置,可以自适应地根据目标量化参数的数值分布动态选择量化区间,从而基于量化区间构建量化参数进行量化前后的映射关系,以在文本特征提取过程中对目标量化参数的量化,从而实现了文本特征提取模型的量化,可使量化后的目标量化参数的数值均匀分布,有效减少由于量化后的数值集中于某一个数值附近,导致在将量化后的数值还原成高精度数值过程中的精度损失,在保证提高文本特征提取模型的运行速度的同时,可有效提高文本特征提取模型的精度。
可选的,所述量化区间确定模块,包括:
分布特征确定单元,用于确定所述目标量化参数的数值分布特征;
量化区间确定单元,用于基于所述数值分布特征确定与所述目标量化参数对应的量化区间。
可选的,所述装置还包括:
截断比例获取模块,用于在基于所述数值分布特征确定与所述目标量化参数对应的量化区间之前,获取预设截断比例阈值;
量化区间确定单元,包括:
量化区间确定子单元,用于基于所述预设截断比例阈值、所述目标量化参数的数据量及所述目标量化参数的数值分布特征,确定与所述量化参数对应的量化区间。
可选的,所述量化区间确定子单元,用于:
基于所述预设截断比例阈值及所述目标量化参数的数据量确定截断数据量2N;其中,N为所述预设截断比例阈值及所述目标量化参数的数据量的乘积;
基于所述目标量化参数中第N+1个最小数值和第N+1个最大值,确定与所述量化参数对应的量化区间;其中,所述量化区间为[第N+1个最小数值,第N+1个最大值]。
所述量化区间确定模块,用于:
确定目标量化参数的类型;
获取与所述目标量化参数的类型对应的预设区间,并将所述预设区间确定为与所述目标量化参数对应的量化区间。
可选的,所述装置还包括:
区间调整模块,用于在根据所述量化区间构建所述目标量化参数的浮点值与定点值的映射关系之前,对所述量化区间进行调整,以使所述浮点数0.0量化后的定点值为0。
可选的,所述装置还包括:
目标量化参数确定模块,用于在根据目标量化参数确定与所述目标量化参数对应的量化区间之前,根据所述文本特征提取模型的网络层的运算操作或网络参数的类型确定目标量化参数。
可选的,所述目标量化参数确定模块,用于:
当所述文本特征提取模型的网络层的运算操作为乘积运算时,将用于乘积运算的输入对象确定为目标量化参数;
当所述文本特征提取模型的网络层的运算操作为归一化操作时,将归一化操作的输出对象确定为目标量化参数。
可选的,所述网络参数的类型包括权重矩阵和网络偏差;
所述目标量化参数确定模块,用于:
当所述网络参数为所述文本特征提取模型的权重矩阵时,将所述权重矩阵确定为目标量化参数。
上述装置可执行本公开前述所有实施例所提供的方法,具备执行上述方法相应的功能模块和有益效果。未在本公开实施例中详尽描述的技术细节,可参见本公开前述所有实施例所提供的方法。
下面参考图13,其示出了适于用来实现本公开实施例的电子设备300的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端,或者各种形式的服务器,如独立服务器或者服务器集群。图13示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图13所示,电子设备300可以包括处理装置(例如中央处理器、图形处理器等)301,其可以根据存储在只读存储装置(ROM)302中的程序或者从存储装置305加载到随机访问存储装置(RAM)303中的程序而执行各种适当的动作和处理。在RAM 303中,还存储有电子设备300操作所需的各种程序和数据。处理装置301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。
通常,以下装置可以连接至I/O接口305:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置306;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置307;包括例如磁带、硬盘等的存储装置308;以及通信装置309。通信装置309可以允许电子设备300与其他设备进行无线或有线通信以交换数据。虽然图13示出了具有各种装置的电子设备300,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行词语的推荐方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置309从网络上被下载和安装,或者从存储装置305被安装,或者从ROM 302被安装。在该计算机程序被处理装置301执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:在文本特征提取模型训练过程中,根据目标量化参数确定与所述目标量化参数对应的量化区间;其中,所述量化区间包含所述目标量化参数中的部分浮点值;根据所述量化区间构建所述目标量化参数的浮点值与定点值的映射关系;其中,所述目标量化参数中小于所述量化区间左端点的浮点值映射为量化后的最小定点值,所述目标量化参数中大于所述量化区间右端点的浮点值映射为量化后的最大定点值;基于所述映射关系对所述目标量化参数进行量化操作。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
根据本公开实施例的一个或多个实施例,本公开实施例提供了一种文本特征提取模型的量化方法,包括:
在文本特征提取模型训练过程中,根据目标量化参数确定与所述目标量化参数对应的量化区间;其中,所述量化区间包含所述目标量化参数中的部分浮点值;
根据所述量化区间构建所述目标量化参数的浮点值与定点值的映射关系;其中,所述目标量化参数中小于所述量化区间左端点的浮点值映射为量化后的最小定点值,所述目标量化参数中大于所述量化区间右端点的浮点值映射为量化后的最大定点值;
基于所述映射关系对所述目标量化参数进行量化操作。
进一步地,根据目标量化参数确定与所述目标量化参数对应的量化区间,包括:
确定所述目标量化参数的数值分布特征;
基于所述数值分布特征确定与所述目标量化参数对应的量化区间。
进一步地,在基于所述数值分布特征确定与所述目标量化参数对应的量化区间之前,还包括:
获取预设截断比例阈值;
基于所述数值分布特征确定与所述目标量化参数对应的量化区间,包括:
基于所述预设截断比例阈值、所述目标量化参数的数据量及所述目标量化参数的数值分布特征,确定与所述量化参数对应的量化区间。
进一步地,基于所述预设截断比例阈值、所述目标量化参数的数据量及所述目标量化参数的数值分布特征,确定与所述量化参数对应的量化区间,包括:
基于所述预设截断比例阈值及所述目标量化参数的数据量确定截断数据量2N;其中,N为所述预设截断比例阈值及所述目标量化参数的数据量的乘积;
基于所述目标量化参数中第N+1个最小数值和第N+1个最大值,确定与所述量化参数对应的量化区间;其中,所述量化区间为[第N+1个最小数值,第N+1个最大值]。
进一步地,根据目标量化参数确定与所述目标量化参数对应的量化区间,包括:
确定目标量化参数的类型;
获取与所述目标量化参数的类型对应的预设区间,并将所述预设区间确定为与所述目标量化参数对应的量化区间。
进一步地,在根据所述量化区间构建所述目标量化参数的浮点值与定点值的映射关系之前,还包括:
对所述量化区间进行调整,以使所述浮点数0.0量化后的定点值为0。
进一步地,在根据目标量化参数确定与所述目标量化参数对应的量化区间之前,还包括:
根据所述文本特征提取模型的网络层的运算操作或网络参数的类型确定目标量化参数。
进一步地,根据所述文本特征提取模型的网络层的运算操作确定目标量化参数,包括:
当所述文本特征提取模型的网络层的运算操作为乘积运算时,将用于乘积运算的输入对象确定为目标量化参数;
当所述文本特征提取模型的网络层的运算操作为归一化操作时,将归一化操作的输出对象确定为目标量化参数。
进一步地,所述网络参数的类型包括权重矩阵和网络偏差;
根据所述文本特征提取模型的网络参数的类型确定目标量化参数,包括:
当所述网络参数为所述文本特征提取模型的权重矩阵时,将所述权重矩阵确定为目标量化参数。
注意,上述仅为本公开的较佳实施例及所运用技术原理。本领域技术人员会理解,本公开不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本公开的保护范围。因此,虽然通过以上实施例对本公开进行了较为详细的说明,但是本公开不仅仅限于以上实施例,在不脱离本公开构思的情况下,还可以包括更多其他等效实施例,而本公开的范围由所附的权利要求范围决定。
Claims (12)
1.一种文本特征提取模型的量化方法,其特征在于,包括:
在文本特征提取模型训练过程中,根据目标量化参数确定与所述目标量化参数对应的量化区间;其中,所述量化区间为对所述目标量化参数的部分浮点值进行截断的区间,所述目标量化参数中的部分浮点值处于所述量化区间内,所述目标量化参数中的另一部分浮点值处于所述量化区间外;
根据所述量化区间构建所述目标量化参数的浮点值与定点值的映射关系;其中,所述目标量化参数中小于所述量化区间左端点的浮点值映射为量化后的最小定点值,所述目标量化参数中大于所述量化区间右端点的浮点值映射为量化后的最大定点值;
基于所述映射关系对所述目标量化参数进行量化操作。
2.根据权利要求1所述的方法,其特征在于,根据目标量化参数确定与所述目标量化参数对应的量化区间,包括:
确定所述目标量化参数的数值分布特征;
基于所述数值分布特征确定与所述目标量化参数对应的量化区间。
3.根据权利要求2所述的方法,其特征在于,在基于所述数值分布特征确定与所述目标量化参数对应的量化区间之前,还包括:
获取预设截断比例阈值;
基于所述数值分布特征确定与所述目标量化参数对应的量化区间,包括:
基于所述预设截断比例阈值、所述目标量化参数的数据量及所述目标量化参数的数值分布特征,确定与所述量化参数对应的量化区间。
4.根据权利要求3所述的方法,其特征在于,基于所述预设截断比例阈值、所述目标量化参数的数据量及所述目标量化参数的数值分布特征,确定与所述量化参数对应的量化区间,包括:
基于所述预设截断比例阈值及所述目标量化参数的数据量确定截断数据量2N;其中,N为所述预设截断比例阈值及所述目标量化参数的数据量的乘积;
基于所述目标量化参数中第N+1个最小数值和第N+1个最大值,确定与所述量化参数对应的量化区间;其中,所述量化区间为[第N+1个最小数值,第N+1个最大值]。
5.根据权利要求1所述的方法,其特征在于,根据目标量化参数确定与所述目标量化参数对应的量化区间,包括:
确定目标量化参数的类型;
获取与所述目标量化参数的类型对应的预设区间,并将所述预设区间确定为与所述目标量化参数对应的量化区间。
6.根据权利要求1所述的方法,其特征在于,在根据所述量化区间构建所述目标量化参数的浮点值与定点值的映射关系之前,还包括:
对所述量化区间进行调整,以使所述目标量化参数的浮点值0.0量化后的定点值为0。
7.根据权利要求1所述的方法,其特征在于,在根据目标量化参数确定与所述目标量化参数对应的量化区间之前,还包括:
根据所述文本特征提取模型的网络层的运算操作或网络参数的类型确定目标量化参数。
8.根据权利要求7所述的方法,其特征在于,根据所述文本特征提取模型的网络层的运算操作确定目标量化参数,包括:
当所述文本特征提取模型的网络层的运算操作为乘积运算时,将用于乘积运算的输入对象确定为目标量化参数;
当所述文本特征提取模型的网络层的运算操作为归一化操作时,将归一化操作的输出对象确定为目标量化参数。
9.根据权利要求7所述的方法,其特征在于,所述网络参数的类型包括权重矩阵和网络偏差;
根据所述文本特征提取模型的网络参数的类型确定目标量化参数,包括:
当所述网络参数为所述文本特征提取模型的权重矩阵时,将所述权重矩阵确定为目标量化参数。
10.一种文本特征提取模型的量化装置,其特征在于,包括:
量化区间确定模块,用于在文本特征提取模型训练过程中,根据目标量化参数确定与所述目标量化参数对应的量化区间;其中,所述量化区间为对所述目标量化参数的部分浮点值进行截断的区间,所述目标量化参数中的部分浮点值处于所述量化区间内,所述目标量化参数中的另一部分浮点值处于所述量化区间外;
映射关系构建模块,用于根据所述量化区间构建所述目标量化参数的浮点值与定点值的映射关系;其中,所述目标量化参数中小于所述量化区间左端点的浮点值映射为量化后的最小定点值,所述目标量化参数中大于所述量化区间右端点的浮点值映射为量化后的最大定点值;
量化模块,用于基于所述映射关系对所述目标量化参数进行量化操作。
11.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理装置;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理装置执行,使得所述一个或多个处理装置实现如权利要求1-9中任一所述的文本特征提取模型的量化方法。
12.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理装置执行时实现如权利要求1-9中任一所述的文本特征提取模型的量化方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011552423.6A CN112686031B (zh) | 2020-12-24 | 2020-12-24 | 文本特征提取模型的量化方法、装置、设备及存储介质 |
PCT/CN2021/136981 WO2022135174A1 (zh) | 2020-12-24 | 2021-12-10 | 文本特征提取模型的量化方法、装置、设备及存储介质 |
US18/259,210 US20240296283A1 (en) | 2020-12-24 | 2021-12-10 | Quantization method and apparatus for text feature extraction model, and device and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011552423.6A CN112686031B (zh) | 2020-12-24 | 2020-12-24 | 文本特征提取模型的量化方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112686031A CN112686031A (zh) | 2021-04-20 |
CN112686031B true CN112686031B (zh) | 2023-09-08 |
Family
ID=75452785
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011552423.6A Active CN112686031B (zh) | 2020-12-24 | 2020-12-24 | 文本特征提取模型的量化方法、装置、设备及存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20240296283A1 (zh) |
CN (1) | CN112686031B (zh) |
WO (1) | WO2022135174A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112686031B (zh) * | 2020-12-24 | 2023-09-08 | 北京有竹居网络技术有限公司 | 文本特征提取模型的量化方法、装置、设备及存储介质 |
US20220207358A1 (en) * | 2021-09-21 | 2022-06-30 | Intel Corporation | Model optimization in infrastructure processing unit (ipu) |
CN113743593B (zh) * | 2021-09-27 | 2023-08-22 | 上海齐感电子信息科技有限公司 | 神经网络量化方法、系统、存储介质及终端 |
CN114648101B (zh) * | 2022-05-13 | 2022-08-12 | 杭州研极微电子有限公司 | 基于transformer结构的softmax函数量化实现方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543821A (zh) * | 2018-11-26 | 2019-03-29 | 济南浪潮高新科技投资发展有限公司 | 一种限制权重分布提高量化效果的卷积神经网络训练方法 |
CN110276451A (zh) * | 2019-06-28 | 2019-09-24 | 南京大学 | 一种基于权重归一化的深度神经网络压缩方法 |
CN110929838A (zh) * | 2018-09-19 | 2020-03-27 | 杭州海康威视数字技术股份有限公司 | 神经网络中位宽定点化方法、装置、终端和存储介质 |
CN111738419A (zh) * | 2020-06-19 | 2020-10-02 | 北京百度网讯科技有限公司 | 神经网络模型的量化方法和装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11645493B2 (en) * | 2018-05-04 | 2023-05-09 | Microsoft Technology Licensing, Llc | Flow for quantized neural networks |
CN112686031B (zh) * | 2020-12-24 | 2023-09-08 | 北京有竹居网络技术有限公司 | 文本特征提取模型的量化方法、装置、设备及存储介质 |
-
2020
- 2020-12-24 CN CN202011552423.6A patent/CN112686031B/zh active Active
-
2021
- 2021-12-10 WO PCT/CN2021/136981 patent/WO2022135174A1/zh active Application Filing
- 2021-12-10 US US18/259,210 patent/US20240296283A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929838A (zh) * | 2018-09-19 | 2020-03-27 | 杭州海康威视数字技术股份有限公司 | 神经网络中位宽定点化方法、装置、终端和存储介质 |
CN109543821A (zh) * | 2018-11-26 | 2019-03-29 | 济南浪潮高新科技投资发展有限公司 | 一种限制权重分布提高量化效果的卷积神经网络训练方法 |
CN110276451A (zh) * | 2019-06-28 | 2019-09-24 | 南京大学 | 一种基于权重归一化的深度神经网络压缩方法 |
CN111738419A (zh) * | 2020-06-19 | 2020-10-02 | 北京百度网讯科技有限公司 | 神经网络模型的量化方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
US20240296283A1 (en) | 2024-09-05 |
WO2022135174A1 (zh) | 2022-06-30 |
CN112686031A (zh) | 2021-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112686031B (zh) | 文本特征提取模型的量化方法、装置、设备及存储介质 | |
CN110413812B (zh) | 神经网络模型的训练方法、装置、电子设备及存储介质 | |
CN110009101B (zh) | 用于生成量化神经网络的方法和装置 | |
CN112634904B (zh) | 热词识别方法、装置、介质和电子设备 | |
CN112017685B (zh) | 语音生成方法、装置、设备和计算机可读介质 | |
CN116388112B (zh) | 异常供应端断电方法、装置、电子设备和计算机可读介质 | |
CN113240108B (zh) | 模型训练方法、装置和电子设备 | |
CN116340632A (zh) | 对象推荐方法、装置、介质及电子设备 | |
CN111582456B (zh) | 用于生成网络模型信息的方法、装置、设备和介质 | |
CN111680754B (zh) | 图像分类方法、装置、电子设备及计算机可读存储介质 | |
CN111756833B (zh) | 节点处理方法、装置、电子设备及计算机可读介质 | |
CN111832279B (zh) | 文本划分方法、装置、设备和计算机可读介质 | |
CN113361677A (zh) | 神经网络模型的量化方法和装置 | |
CN115565607B (zh) | 确定蛋白质信息的方法、装置、可读介质及电子设备 | |
CN116703262B (zh) | 配送资源调整方法、装置、电子设备和计算机可读介质 | |
CN118331716B (zh) | 异构算力集成系统下算力智能迁移方法 | |
CN115328811B (zh) | 用于工控网络仿真的程序语句测试方法、装置、电子设备 | |
CN116307998B (zh) | 电力设备材料运输方法、装置、电子设备和计算机介质 | |
CN116755889B (zh) | 应用于服务器集群数据交互的数据加速方法、装置与设备 | |
CN116467178B (zh) | 数据库检测方法、装置、电子设备和计算机可读介质 | |
CN112346728B (zh) | 设备适配方法、装置、设备和计算机可读介质 | |
CN115994120B (zh) | 数据文件合并方法、装置、电子设备和计算机可读介质 | |
CN111582482B (zh) | 用于生成网络模型信息的方法、装置、设备和介质 | |
CN111949938B (zh) | 异动信息的确定方法、装置、电子设备和计算机可读介质 | |
CN116028819A (zh) | 模型量化训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |