CN112863521B - 一种基于互信息估计的说话人识别方法 - Google Patents
一种基于互信息估计的说话人识别方法 Download PDFInfo
- Publication number
- CN112863521B CN112863521B CN202011546522.3A CN202011546522A CN112863521B CN 112863521 B CN112863521 B CN 112863521B CN 202011546522 A CN202011546522 A CN 202011546522A CN 112863521 B CN112863521 B CN 112863521B
- Authority
- CN
- China
- Prior art keywords
- speaker
- voice
- network
- target
- mutual information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000012360 testing method Methods 0.000 claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000005070 sampling Methods 0.000 claims abstract description 8
- 238000011176 pooling Methods 0.000 claims description 20
- 238000001228 spectrum Methods 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 7
- 238000013077 scoring method Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于互信息估计的说话人识别方法,解决了说话人身份特征区分性不强及识别系统错误率高的问题。在训练时,先对语音提取语谱图,将其作为VGG‑M网络的输入;然后对训练数据进行随机的三元组采样,获取正负样本进行互信息估计,并利用基于互信息估计的目标函数训练网络。在识别时,利用训练好的VGG‑M网络提取测试语音与目标说话人语音对应的嵌入特征;然后计算上述两个嵌入特征间的余弦距离,并将其作为说话人的匹配得分;将得分与设定的阈值比较,判断测试语音是否来自目标说话人。该方法能够有效利用正负样本对应的说话人特征间的互信息,以此优化网络训练并降低系统的错误率。本发明可以应用于说话人识别领域。
Description
技术领域
本发明属于说话人识别技术领域,具体涉及一种基于互信息估计的说话人识别方法。
背景技术
近年来,生物信息识别技术逐渐成为一种方便快捷的身份信息验证方式。语音是人们最常用最直接的一种交流方式,把从语音中获取到的每个人独特的生理特征称之为“声纹”。由于每个人的发声器官以及发音习惯有着个体上的差异性,致使每个人的声纹都不同,具有其唯一性。因此可以从说话人的语音信号中提取出其特有的生物特征,作为可唯一认证的身份信息。
随着深度学习在图像处理、语音识别等领域的快速发展,基于深度学习的方法正逐渐应用于说话人识别领域。其中,d-vector方法通过利用深度神经网络(Deep NeuralNetwork,DNN)来提取帧级嵌入(Embedding)特征,并将一段语音中全部帧级特征的均值作为这段语音的d-vector特征。X-vector方法则利用时延神经网络(Time-Delay NeuralNetwork,TDNN)提取语音帧的上下文相关信息,然后采用统计池化层计算帧级特征的统计量,并从网络的最后一个隐藏层中提取出x-vector特征。在此基础上,通过在帧级层上采用多尺度卷积方法,能够从不同的感受野中获取更多的说话人信息;通过将TDNN与统计池化层相结合,则能够获取更具表示能力的说话人特征。此外,视觉几何组-中等(VisualGeometry Group-Medium,VGG-M)网络与深度残差网络(Deep Residual Network,ResNet)等方法均能够通过学习更复杂的网络架构来进行说话人特征表示。
特征表示是无监督学习中一项很重要的任务,使用深度神经网络的目的就是为了学习到一个有效的特征表示。近年来,图像处理领域中很多研究内容都逐渐开始关注使用互信息来进行无监督的表示学习。其中,神经网络互信息估计(Mutual InformationNerual Estimation,MINE)方法利用神经网络的梯度下降法可以实现高维连续随机变量之间的互信息估计,并且使用Kullback-Leibler散度的对偶表示——Donsker-Varadhan表示,将神经网络的互信息估计转化为最大化Donsker-Varadhan表示的下界。Deep Infomax方法通过最大化图像的局部特征与高层的全局特征之间的互信息来无监督地学习特征表示。除此之外,在场景识别中,对比多视图编码(Contrastive Multiview Coding,CMC)方法则是通过选取同一场景的不同视图来对比,最大化同一场景的视图之间的互信息,即让同一场景视图生成的特征表示尽可能接近,这样来基于所提取特征之间的相似度来判断场景的相似度。在语音处理领域中,对比预测编码(Contrastive Predictive Coding,CPC)方法利用原始语音信号数据,通过训练自回归模型,最大化未来的语音信号与当前信号编码之间的互信息,来训练得到一个具有较高表达能力的特征表示,使得该特征表示不仅能尽可能地保留原信号的重要信息,也能具有一定的预测能力。
目前在说话人识别研究领域中,研究者们在无监督的说话人识别任务中已经取得了一定的成果。然而,直接利用深度神经网络进行无监督学习并提取说话人特征时,无法判断经网络判断提取到的说话人特征表示是否具有独特性,是否具有较高的表示能力。因此,可以利用互信息估计来优化网络的训练过程,以实现使用深度神经网络提取到更具表示能力的特征,这具有重要的研究意义与应用价值。
发明内容
本发明的目的是为提高目前经神经网络所提取到的说话人特征的表示能力,并降低说话人识别系统的等错误率,而提出了一种基于互信息估计的说话人识别方法。
本发明为解决上述技术问题采取的技术方案是:一种基于互信息估计的说话人识别方法,该方法包括以下步骤:
步骤1、对数据集中所有语音进行预处理并提取语谱图特征;
步骤2、在训练阶段,首先对语音提取语谱图,将其作为VGG-M网络的输入;然后对训练数据进行随机的三元组采样,从而获取正负样本对;最后对正负样本对进行互信息估计,并利用基于互信息估计的目标函数进行网络训练,更新网络参数;
步骤3、利用训练好的VGG-M网络提取测试语音与目标说话人语音对应的表示说话人身份特征的嵌入特征向量;
步骤4、计算测试语音与目标说话人语音对应的嵌入特征之间的余弦距离,并将其作为说话人匹配的得分;
步骤5、将上述说话人匹配得分与设定的判定阈值比较,判断测试语音是否来自目标说话人。
进一步地,所述步骤1的具体过程为:
对输入的语音信号进行预加重、分帧与加窗操作,然后进行傅里叶变换得到频谱;对频谱进行取模、求对数操作,获得语谱图特征。
进一步地,所述步骤2的具体过程为:
步骤2-1、将训练集语音的语谱图特征作为VGG-M网络的输入,其中VGG-M网络的基本组成主要有卷积层、池化层与全连接层;VGG-M网络采用多个卷积层与池化层来进行特征表示,其中池化层采用最大池化,并且卷积之后的激活函数采用修正线性单元(RectifiedLinear Unit,ReLU)函数;经过多层卷积层与池化层的组合特征表示后,再由平均池化层得到句级特征表示,并最终经过全连接层得到说话人语音对应的嵌入特征。
对训练数据的嵌入特征进行随机的三元组采样得到za、zp、zn,分别表示为za=f(xa|Θ)、zp=f(xp|Θ)、zn=f(xn|Θ),并构成正样本对(za,zp)∈Zp、负样本对(za,zn)∈Zn。其中,f表示VGG-M网络,Θ为VGG-M网络的参数;xa、xp、xn分别表示嵌入特征za、zp、zn所对应语音的语谱图特征,Zp表示正样本集,Zn表示负样本集。
步骤2-2、对正负样本对(za,zp)、(za,zn)进行互信息估计,并利用基于互信息估计的目标函数进行网络训练,更新网络参数。通过最大化目标函数L(Θ)来优化网络训练过程,即最大化正样本集Zp与负样本集Zn之间的互信息,可以使得经网络提取的说话人嵌入特征构成的正样本对(za,zp)的距离得分更大,负样本对(za,zn)的距离得分更小,以学习到更为合适的说话人特征表示。
进一步地,所述步骤3的具体过程为:
测试语音与目标说话人语音对应的语谱图特征为xtest与xtarget,它们经过训练好的VGG-M网络提取到的说话人嵌入特征可以表示为ztest=f(xtest|Θ)与ztarget=f(xtarget|Θ)。
进一步地,所述步骤4的具体过程为:
采用余弦距离打分方法计算说话人嵌入特征ztest与ztarget之间的匹配得分S(ztest,ztarget)。
进一步地,所述步骤5的具体过程为:
将说话人匹配得分S(ztest,ztarget)与设置的判定阈值S比较,若得分S(ztest,ztarget)大于等于阈值S,则认为测试语音来自于目标说话人;否则当得分S(ztest,ztarget)小于阈值S时,则认为测试语音与目标语音不是来自同一个说话人。
有益效果
本发明的有益效果在于:本发明提出了一种基于互信息估计的说话人识别方法,能够有效利用正负样本对应的说话人身份特征,通过最大化正样本集与负样本集分布之间的互信息来优化网络训练,可以使得经神经网络提取的说话人特征更具有代表性。经在官方说话人识别实验数据集VoxCeleb1上的实验验证,采用等错误率(Equal Error Rate,EER)作为评价指标。与经典的方法相比,本发明方法显著降低了说话人识别系统的EER。
附图说明
为使本发明的目的、技术方案与优点更加清楚,下面将结合附图对本发明作进一步描述,其中:
图1为基于互信息估计的说话人识别流程图;
图2为本发明方法使用的VGG-M网络结构图;
图3为本发明方法在不同训练次数时对应的EER变化曲线图;
图4为在数据库VoxCeleb1上本发明方法(命名为MI-max VGG-M)与其他方法的等错误率对比图。
具体实施方式
下面将通过实施例并结合附图,对本发明中的技术方案进行详细清楚的描述,所描述的实施例仅是本发明的一部分实施例。
实施例:
本发明采取的技术方案是一种基于互信息估计的说话人识别方法,该方法包括以下步骤:
步骤1、对数据集中所有语音进行预处理并提取语谱图特征;
步骤2、在训练阶段,首先对语音提取语谱图,将其作为VGG-M网络的输入;然后对训练数据进行随机的三元组采样,从而获取正负样本对;最后对正负样本对进行互信息估计,并利用基于互信息估计的目标函数进行网络训练,更新网络参数;
步骤3、利用训练好的VGG-M网络提取测试语音与目标说话人语音对应的表示说话人身份特征的嵌入特征向量;
步骤4、计算测试语音与目标说话人语音对应的嵌入特征之间的余弦距离,并将其作为说话人匹配的得分;
步骤5、将上述说话人匹配得分与设定的判定阈值比较,判断测试语音是否来自目标说话人。
在本实施例中,所述步骤1的具体过程为:
对输入的语音信号进行预加重、分帧与加窗操作;其中,语音信号的采样率为16000Hz,预加重系数设置为0.97,窗长为25ms,帧移为10ms。然后进行快速傅里叶变换(Fast Fourier Transform,FFT),FFT的点数设置为512;对频谱进行取模、求对数操作,获得语谱图特征。将说话人的语音分成每3s一段,那么就能得到3s语音段对应的512×300维语谱图特征。
在本实施例中,所述步骤2的具体过程为:
步骤2-1、将训练集语音的语谱图特征作为VGG-M网络的输入,其中,VGG-M网络的基本组成主要有卷积层、池化层与全连接层,具体结构如图2所示。VGG-M网络采用多个卷积层与池化层来进行特征表示,其中池化层采用最大池化,并且卷积之后的激活函数采用ReLU函数;经过多层卷积层与池化层的组合特征表示后,经过平均池化层得到段级特征表示,并最终经过全连接层得到说话人语音对应的嵌入特征;全连接层的节点数设置为1024个,因此得到的嵌入特征维度为1024维。
对训练数据的嵌入特征进行随机的三元组采样得到za、zp、zn,分别表示为za=f(xa|Θ)、zp=f(xp|Θ)、zn=f(xn|Θ),并构成正样本对(za,zp)∈Zp、负样本对(za,zn)∈Zn。其中,f表示VGG-M网络,Θ为VGG-M网络的参数;xa、xp、xn分别表示嵌入特征za、zp、zn所对应语音的语谱图特征;Zp表示正样本集,Zn表示负样本集。
步骤2-2、对正负样本对(za,zp)、(za,zn)进行互信息估计,并利用基于互信息估计的目标函数进行网络训练,更新网络参数。训练VGG-M网络的优化器采用随机梯度下降(Stochastic Gradient Descent,SGD)算法,初始的学习率设置为0.01,最终的学习率设置为0.0001,训练次数设置为60次。
基于互信息估计的目标函数具体可以表示为:
其中,d(za,zp)与d(za,zn)分别表示为说话人嵌入特征对(za,zp)与(za,zn)之间距离打分函数,此处使用余弦距离打分方法,其公式如下:
其中,<·表示内积,||表示模。
通过最大目标函数L(Θ)来优化网络训练过程,即最大化正样本集Zp与负样本集Zn之间的互信息,可以使得经网络提取的说话人嵌入特征构成的正样本对(za,zp)的距离得分更大,负样本对(za,zn)的距离得分更小,以学习到更为合适的说话人特征表示。
在本实施例中,所述步骤3的具体过程为:
测试语音与目标说话人语音对应的语谱图特征为xtest与xtarget,它们经过训练好的VGG-M网络提取到的说话人嵌入特征可以表示为ztest=f(xtest|Θ)与ztarget=f(xtarget|Θ);
在本实施例中,所述步骤4的具体过程为:
采用余弦距离打分方法计算说话人嵌入特征ztest与ztarget之间的匹配得分S(ztest,ztarget),其计算方式可表示为:
在本实施例中,所述步骤5的具体过程为:
将说话人匹配得分S(ztest,ztarget)与设置的阈值S比较,若得分S(ztest,ztarget)大于等于阈值S,则认为测试语音来自于目标说话人;否则当得分S(ztest,ztarget)小于阈值S时,则认为测试语音与目标语音不是来自同一个说话人。
在官方说话人识别实验数据库VoxCeleb1上进行实验验证,采用等错误率(EER)作为评价指标。结果表明,与经典的方法相比,本发明方法显著降低了说话人识别系统的EER。本发明方法(命名为MI-max VGG-M)随训练次数的增加,EER变化情况如图3所示,该方法在第52次训练时EER达到最低为6.68%。如图4所示,与其他方法相比,MI-max VGG-M方法的EER明显降低。由实验结果可见,本发明所采用的基于互信息估计的说话人识别方法,可以通过最大化正负样本分布之间的互信息来优化网络训练过程,以提取到更具表示能力的说话人特征。
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。因此,凡依据本发明所揭示的原理、思路所作的等同变化,仍属于本发明的保护范围之内。
Claims (7)
1.一种基于互信息估计的说话人识别方法,其特征在于,所述方法包括如下步骤:
步骤1、对数据集中所有语音进行预处理并提取语谱图特征;
步骤2、在训练阶段,首先对语音提取语谱图,将其作为VGG-M网络的输入;然后对训练数据进行随机的三元组采样,从而获取正负样本对;最后对正负样本对进行互信息估计,并利用基于互信息估计的目标函数进行网络训练,更新网络参数;所述基于互信息估计的目标函数为:
其中,Zp表示正样本集,Zn表示负样本集;d(za,zp)与d(za,zn)分别表示为说话人嵌入特征对(za,zp)与(za,zn)之间距离打分函数;
步骤3、利用训练好的VGG-M网络提取测试语音与目标说话人语音对应的表示说话人身份特征的嵌入特征向量;
步骤4、计算测试语音与目标说话人语音对应的嵌入特征之间的余弦距离,并将其作为说话人匹配的得分;
步骤5、将上述说话人匹配得分与设定的判定阈值比较,判断测试语音是否来自目标说话人。
2.根据权利要求1所述的一种基于互信息估计的说话人识别方法,其特征在于,所述步骤1的具体过程为:
对输入的语音信号进行预加重、分帧与加窗操作,然后进行傅里叶变换得到频谱;对频谱进行取模、求对数操作,获得语谱图特征。
3.根据权利要求1所述的一种基于互信息估计的说话人识别方法,其特征在于,所述步骤2的具体过程为:
步骤2-1、将训练集语音的语谱图特征作为VGG-M网络的输入,其中VGG-M网络的基本组成主要有卷积层、池化层与全连接层;VGG-M网络采用多个卷积层与池化层来进行特征表示,其中池化层采用最大池化,并且卷积之后的激活函数采用修正线性单元(RectifiedLinear Unit,ReLU)函数;经过多层卷积层与池化层的组合特征表示后,再由平均池化层得到句级特征表示,并最终经过全连接层得到说话人语音对应的嵌入特征;
对训练数据的嵌入特征进行随机的三元组采样得到za、zp、zn,分别表示为za=f(xa|Θ)、zp=f(xp|Θ)、zn=f(xn|Θ),并构成正样本对(za,zp)∈Zp、负样本对(za,zn)∈Zn;其中,f表示VGG-M网络,Θ为VGG-M网络的参数;xa、xp、xn分别表示嵌入特征za、zp、zn所对应语音的语谱图特征;
步骤2-2、对正负样本对(za,zp)、(za,zn)进行互信息估计,并通过最大化目标函数L(Θ)来优化网络训练过程,即最大化正样本集Zp与负样本集Zn之间的互信息,可以使得经网络提取的说话人嵌入特征构成的正样本对(za,zp)的距离得分d(za,zp)更大,负样本对(za,zn)的距离得分更小,以学习到更为合适的说话人特征表示。
5.根据权利要求1所述的一种基于互信息估计的说话人识别方法,其特征在于,所述步骤3的具体过程为:
测试语音与目标说话人语音对应的语谱图特征为xtest与xtarget,它们经过训练好的VGG-M网络提取到的说话人嵌入特征可以表示为ztest=f(xtest|Θ)与ztarget=f(xtarget|Θ)。
7.根据权利要求1所述的一种基于互信息估计的说话人识别方法,其特征在于,步骤5的具体过程为:
将说话人匹配得分S(ztest,ztarget)与设置的判定阈值S比较,若得分S(ztest,ztarget)大于等于阈值S,则认为测试语音来自于目标说话人;否则当得分S(ztest,ztarget)小于阈值S时,则认为测试语音与目标语音不是来自同一个说话人。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011546522.3A CN112863521B (zh) | 2020-12-24 | 2020-12-24 | 一种基于互信息估计的说话人识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011546522.3A CN112863521B (zh) | 2020-12-24 | 2020-12-24 | 一种基于互信息估计的说话人识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112863521A CN112863521A (zh) | 2021-05-28 |
CN112863521B true CN112863521B (zh) | 2022-07-05 |
Family
ID=75996594
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011546522.3A Active CN112863521B (zh) | 2020-12-24 | 2020-12-24 | 一种基于互信息估计的说话人识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112863521B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113327604B (zh) * | 2021-07-02 | 2024-07-19 | 因诺微科技(天津)有限公司 | 一种超短语音语种识别方法 |
CN114639372B (zh) * | 2022-03-07 | 2024-10-25 | 哈尔滨理工大学 | 基于调整余弦互信息估计的语种识别方法 |
CN114613369B (zh) * | 2022-03-07 | 2024-08-09 | 哈尔滨理工大学 | 一种基于特征差异最大化的说话人识别方法 |
CN114978306A (zh) * | 2022-05-17 | 2022-08-30 | 上海交通大学 | 基于深度学习的光纤通信传输系统互信息量计算方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106971205A (zh) * | 2017-04-06 | 2017-07-21 | 哈尔滨理工大学 | 一种基于k近邻互信息估计的嵌入式动态特征选择方法 |
CN107656983A (zh) * | 2017-09-08 | 2018-02-02 | 广州索答信息科技有限公司 | 一种基于声纹识别的智能推荐方法及装置 |
CN108417217A (zh) * | 2018-01-11 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 说话人识别网络模型训练方法、说话人识别方法及系统 |
CN110347897A (zh) * | 2019-06-28 | 2019-10-18 | 哈尔滨理工大学 | 基于事件检测的微博网络情感社区识别方法 |
CN111179961A (zh) * | 2020-01-02 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 音频信号处理方法、装置、电子设备及存储介质 |
CN111724794A (zh) * | 2020-06-17 | 2020-09-29 | 哈尔滨理工大学 | 一种说话人识别方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170206904A1 (en) * | 2016-01-19 | 2017-07-20 | Knuedge Incorporated | Classifying signals using feature trajectories |
US20170294192A1 (en) * | 2016-04-08 | 2017-10-12 | Knuedge Incorporated | Classifying Signals Using Mutual Information |
CN109949795A (zh) * | 2019-03-18 | 2019-06-28 | 北京猎户星空科技有限公司 | 一种控制智能设备交互的方法及装置 |
CN111462761A (zh) * | 2020-03-03 | 2020-07-28 | 深圳壹账通智能科技有限公司 | 声纹数据生成方法、装置、计算机装置及存储介质 |
-
2020
- 2020-12-24 CN CN202011546522.3A patent/CN112863521B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106971205A (zh) * | 2017-04-06 | 2017-07-21 | 哈尔滨理工大学 | 一种基于k近邻互信息估计的嵌入式动态特征选择方法 |
CN107656983A (zh) * | 2017-09-08 | 2018-02-02 | 广州索答信息科技有限公司 | 一种基于声纹识别的智能推荐方法及装置 |
CN108417217A (zh) * | 2018-01-11 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 说话人识别网络模型训练方法、说话人识别方法及系统 |
CN110347897A (zh) * | 2019-06-28 | 2019-10-18 | 哈尔滨理工大学 | 基于事件检测的微博网络情感社区识别方法 |
CN111179961A (zh) * | 2020-01-02 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 音频信号处理方法、装置、电子设备及存储介质 |
CN111724794A (zh) * | 2020-06-17 | 2020-09-29 | 哈尔滨理工大学 | 一种说话人识别方法 |
Non-Patent Citations (2)
Title |
---|
Learning Speaker Representations with Mutual Information;Mila,等;《arXiv》;20190405;第1-5页 * |
鉴别性最大后验概率线性回归说话人自适应研究;齐耀辉等;《北京理工大学学报》;20190930;第39卷(第5期);第946-950页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112863521A (zh) | 2021-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112863521B (zh) | 一种基于互信息估计的说话人识别方法 | |
Bai et al. | Speaker recognition based on deep learning: An overview | |
CN110459225B (zh) | 一种基于cnn融合特征的说话人辨认系统 | |
CN110211594B (zh) | 一种基于孪生网络模型和knn算法的说话人识别方法 | |
CN109637545A (zh) | 基于一维卷积非对称双向长短时记忆网络的声纹识别方法 | |
CN111243602A (zh) | 基于性别、国籍和情感信息的声纹识别方法 | |
CN102201237B (zh) | 基于模糊支持向量机的可靠性检测的情感说话人识别方法 | |
CN112053694A (zh) | 一种基于cnn与gru网络融合的声纹识别方法 | |
CN104538036A (zh) | 一种基于语义细胞混合模型的说话人识别方法 | |
CN109961794A (zh) | 一种基于模型聚类的分层说话人识别方法 | |
CN114220438B (zh) | 基于bottleneck和通道切分的轻量级说话人识别方法及系统 | |
CN110085236B (zh) | 一种基于自适应语音帧加权的说话人识别方法 | |
CN113345464B (zh) | 语音提取方法、系统、设备及存储介质 | |
CN111091840A (zh) | 一种建立性别识别模型的方法及性别识别方法 | |
CN111243621A (zh) | 一种用于合成语音检测的gru-svm深度学习模型的构造方法 | |
Laskar et al. | Integrating DNN–HMM technique with hierarchical multi-layer acoustic model for text-dependent speaker verification | |
CN115101077A (zh) | 一种声纹检测模型训练方法及声纹识别方法 | |
JP2015175859A (ja) | パターン認識装置、パターン認識方法及びパターン認識プログラム | |
CN113851148A (zh) | 一种基于迁移学习和多损失动态调整的跨库语音情感识别方法 | |
CN114613369B (zh) | 一种基于特征差异最大化的说话人识别方法 | |
CN114639372B (zh) | 基于调整余弦互信息估计的语种识别方法 | |
CN116434758A (zh) | 声纹识别模型训练方法、装置、电子设备及存储介质 | |
Zi et al. | Joint filter combination-based central difference feature extraction and attention-enhanced Dense-Res2Block network for short-utterance speaker recognition | |
CN114927144A (zh) | 一种基于注意力机制和多任务学习的语音情感识别方法 | |
CN113299295A (zh) | 声纹编码网络的训练方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |