[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN113436634B - 基于声纹识别的语音分类方法、装置及相关设备 - Google Patents

基于声纹识别的语音分类方法、装置及相关设备 Download PDF

Info

Publication number
CN113436634B
CN113436634B CN202110872842.6A CN202110872842A CN113436634B CN 113436634 B CN113436634 B CN 113436634B CN 202110872842 A CN202110872842 A CN 202110872842A CN 113436634 B CN113436634 B CN 113436634B
Authority
CN
China
Prior art keywords
voice
data
audio
verified
audio coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110872842.6A
Other languages
English (en)
Other versions
CN113436634A (zh
Inventor
李少军
杨杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202110872842.6A priority Critical patent/CN113436634B/zh
Publication of CN113436634A publication Critical patent/CN113436634A/zh
Application granted granted Critical
Publication of CN113436634B publication Critical patent/CN113436634B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及数据处理技术,提供一种基于声纹识别的语音分类方法、装置、计算机设备与存储介质,包括:预处理历史语音会话数据;将语音会话片段变换为目标频谱数据;训练目标音频编码模型;调用目标音频编码模型处理所有代理人的音频数据,得到代理音频编码,创建声纹库;接收待验证语音会话数据,调用目标音频编码模型处理待验证会话数据,得到待验证音频编码集;计算待验证音频编码与声纹库中代理音频编码的相似度,检测是否存在目标待验证音频编码与代理音频编码的相似度未超过预设相似度阈值;当结果为否时,确定待验证语音会话数据为真实语音会话数据。本申请能够提高语音分类准确性与效率,促进智慧城市快速发展。

Description

基于声纹识别的语音分类方法、装置及相关设备
技术领域
本申请涉及数据处理技术领域,尤其涉及一种基于声纹识别的语音分类方法、装置、计算机设备及介质。
背景技术
在保险行业“金融+科技”、“金融+生态”战略的指引下,科技加速保险数字化转型这一重要节点上,大量线下业务场景都切换到线上进行,产生出大量的代理人与客户间业务沟通的会客音频数据。经排查发现,当前会客音频数据中存在大量代理人自行练习的音频,即整段音频并没有客户出现,仅为代理人自行练习数据,但是从后端得到的音频数据中无法区分是代理人练习音频还是与客户的真实沟通讲解音频,这样的数据无法满足下游AI任务的需求。
在实现本申请的过程中,发明人发现现有技术存在如下技术问题:当前区分出代理人与客户真实对话数据主要依靠声纹识别的方式,通常考虑较多的是线性预测系数、梅尔倒谱系数、语谱图特征等参数,其中,语谱图是目前深度学习研究领域在声纹识别方向中常用到的一种特征表示,语谱图中除了包含有丰富的说话人个性信息局部空间特征和时序特征外,也存在空白语音信息片段和语音能量不足的情况,会导致语谱图存在大量的冗余信息,以至于网络训练无法快速收敛,耗费大量计算成本,无法保证语音分类的速率与准确性。
因此,有必要提供一种基于声纹识别的语音分类方法,能够提高语音分类的速率与准确性。
发明内容
鉴于以上内容,有必要提出一种基于声纹识别的语音分类方法、基于声纹识别的语音分类装置、计算机设备及介质,能够提高语音分类的速率与准确性。
本申请实施例第一方面提供一种基于声纹识别的语音分类方法,所述基于声纹识别的语音分类方法包括:
预处理历史语音会话数据,得到预设时长的语音会话片段集;
调用快速傅里叶变换算法将所述语音会话片段集中每一语音会话片段变换为目标频谱数据;
获取初始音频编码模型,并删除所述初始音频编码模型中的无用通道数,得到改进后的初始音频编码模型;
调用改进后的所述初始音频编码模型聚合处理所述目标频谱数据,得到频谱特征;
以所述频谱特征为输入向量,所述频谱特征对应的音频编码为输出向量训练改进后的所述初始音频编码模型,得到训练好的目标音频编码模型;
调用所述目标音频编码模型处理所有代理人的音频数据,得到每个代理人的代理音频编码,并根据所述代理音频编码创建对应所有代理人的声纹库;
接收待验证语音会话数据,并调用所述目标音频编码模型处理所述待验证会话数据,得到待验证音频编码集;
计算所述待验证音频编码集中每一待验证音频编码与所述声纹库中每一代理音频编码的相似度值,并检测是否存在目标待验证音频编码与所述代理音频编码的相似度未超过预设相似度阈值;
当检测结果为存在目标待验证音频编码与所述代理音频编码的相似度未超过所述预设相似度阈值时,确定所述待验证语音会话数据为真实语音会话数据。
进一步地,在本申请实施例提供的上述基于声纹识别的语音分类方法中,所述预处理历史语音会话数据,得到预设时长的语音会话片段集包括:
获取所述历史语音会话数据中每段语音会话的对话开启时间与对话结束时间,并根据所述对话开启时间与所述对话结束时间确定所述语音会话的会话时长;
删除所述历史语音会话数据中所述会话时长未超过预设语音时长阈值的语音会话,得到第一语音会话数据;
调用VAD语音检测技术检测所述第一语音会话数据中每段语音会话的噪声片段,并删除噪声片段的数量超过预设数量阈值的语音会话,得到第二语音会话数据;
按照预设时长裁剪所述第二语音会话数据,得到语音会话片段集。
进一步地,在本申请实施例提供的上述基于声纹识别的语音分类方法中,所述调用快速傅里叶变换算法将所述语音会话片段集中每一语音会话片段变换为目标频谱数据包括:
提取所述语音会话片段集中每一语音会话片段的频谱信息;
根据所述频谱信息生成对应于时域的第一波形图,并将所述第一波形图进行分帧处理,得到若干第一单帧波形图;
对每个第一单帧波形图进行快速傅里叶变换操作,以得到多个第一单帧频谱图,其中,每个第一单帧频谱图的横轴用于表示频率,每个第一单帧频谱图的纵轴用于表示振幅;
将每个第一单帧频谱图的进行反转操作和灰度操作,以得到多个第一一维灰度振幅图;
合成若干所述第一一维灰度振幅图,以得到语音频谱图,并基于所述语音频率图中的坐标信息得到目标频谱数据。
进一步地,在本申请实施例提供的上述基于声纹识别的语音分类方法中,所述删除所述初始音频编码模型中的无用通道数,得到改进后的初始音频编码模型包括:
预先设置无用通道数;
检测所述初始音频编码模型的每一层的最后一个维度中是否存在所述无用通道数;
当检测结果为所述初始音频编码模型的每一层的最后一个维度中存在所述无用通道数时,删除所述无用通道数,得到改进后的初始音频编码模型。
进一步地,在本申请实施例提供的上述基于声纹识别的语音分类方法中,所述调用改进后的所述初始音频编码模型聚合处理所述目标频谱数据,得到频谱特征包括:
获取目标频谱数据,并从所述目标频谱数据中提取出预设数量的频谱帧,得到频谱帧集合,每一频谱帧对应目标频谱数据中的唯一时间戳;
向量化处理所述频谱帧集合中的每一频谱帧,得到帧特征向量;
聚合分析所述帧特征向量,得到与所述目标频谱数据对应的频谱特征。
进一步地,在本申请实施例提供的上述基于声纹识别的语音分类方法中,在调用所述目标音频编码模型处理所述待验证会话数据,得到待验证音频编码集之前,所述方法还包括:
根据预设规则将所述待验证语音会话数据划分为若干数据帧;
统计当前数据帧的频谱能量,并将所述频谱能量与所述预设能量阈值进行比对;
若所述频谱能量小于或等于所述预设能量阈值,则确定当前数据帧为正常音频信号;
若所述频谱能量大于所述预设能量阈值,则确定当前数据帧包含异常信号。
进一步地,在本申请实施例提供的上述基于声纹识别的语音分类方法中,所述计算所述待验证音频编码集中每一待验证音频编码与所述声纹库中每一代理音频编码的相似度值包括:
将所述待验证音频编码与所述代理音频编码转换为向量形式;
采用预设夹角余弦值计算模型处理向量形式的所述待验证音频编码与所述代理音频编码,得到夹角余弦值;
根据所述夹角余弦值确定所述待验证音频编码与所述代理音频编码的相似度值。
本申请实施例第二方面还提供一种基于声纹识别的语音分类装置,所述基于声纹识别的语音分类装置包括:
数据预处理模块,用于预处理历史语音会话数据,得到预设时长的语音会话片段集;
数据变换模块,用于调用快速傅里叶变换算法将所述语音会话片段集中每一语音会话片段变换为目标频谱数据;
模型改进模块,用于获取初始音频编码模型,并删除所述初始音频编码模型中的无用通道数,得到改进后的初始音频编码模型;
聚合处理模块,用于调用改进后的所述初始音频编码模型聚合处理所述目标频谱数据,得到频谱特征;
模型训练模块,用于以所述频谱特征为输入向量,所述频谱特征对应的音频编码为输出向量训练改进后的所述初始音频编码模型,得到训练好的目标音频编码模型;
声纹库创建模块,用于调用所述目标音频编码模型处理所有代理人的音频数据,得到每个代理人的代理音频编码,并根据所述代理音频编码创建对应所有代理人的声纹库;
编码获取模块,用于接收待验证语音会话数据,并调用所述目标音频编码模型处理所述待验证会话数据,得到待验证音频编码集;
相似度计算模块,用于计算所述待验证音频编码集中每一待验证音频编码与所述声纹库中每一代理音频编码的相似度值,并检测是否存在目标待验证音频编码与所述代理音频编码的相似度未超过预设相似度阈值;
数据确定模块,用于当检测结果为存在目标待验证音频编码与所述代理音频编码的相似度未超过所述预设相似度阈值时,确定所述待验证语音会话数据为真实语音会话数据。
本申请实施例第三方面还提供一种计算机设备,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如上述任意一项所述基于声纹识别的语音分类方法。
本申请实施例第四方面还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述基于声纹识别的语音分类方法。
本申请实施例提供的上述基于声纹识别的语音分类方法、基于声纹识别的语音分类装置、计算机设备以及计算机可读存储介质,通过训练目标音频编码模型,并调用所述目标音频编码模型处理所有代理人的音频数据以及待验证语音会话数据,得到每个代理人的代理音频编码以及待验证音频编码,继而实现利用音频编码的相似度进行语音分类,能够避免直接调用网络模型对声纹信息进行语音分类时,由于声纹信息中存在大量冗余信息导致语音分类效果差的问题,能够提高语音分类的速率与准确性;此外,本申请采用改进的初始音频编码模型,通过对初始音频编码模型的通道数进行简化,并调用初始音频编码模型对目标频谱数据在时间轴上进行聚合得到频谱特征,实现了对频谱特征的优化,使得频谱特征能够尽可能避免受到劣质帧的影响,以提高音频编码提取的准确性与效率,继而提高语音分类的准确性与效率。本申请可应用于智慧政务、智慧交通等智慧城市的各个功能模块中,比如智慧政务的基于声纹识别的语音分类模块等,能够促进智慧城市的快速发展。
附图说明
图1是本申请实施例一提供的基于声纹识别的语音分类方法的流程图。
图2是本申请实施例二提供的基于声纹识别的语音分类装置的结构图。
图3是本申请实施例三提供的计算机设备的结构示意图。
如下具体实施方式将结合上述附图进一步说明本申请。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施例对本申请进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
本发明实施例提供的基于声纹识别的语音分类方法由计算机设备执行,相应地,基于声纹识别的语音分类装置运行于计算机设备中。
图1是本申请第一实施方式的基于声纹识别的语音分类方法的流程图。如图1所示,所述基于声纹识别的语音分类方法可以包括如下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略:
S11,预处理历史语音会话数据,得到预设时长的语音会话片段集。
在本申请的至少一实施例中,所述历史语音会话数据可以是代理人A与代理人B间的练习语音会话内容,也可以是代理人A与客户B间的真实语音会话内容。所述历史语音会话数据除了包含语音会话内容,还包含预先设置的不同会话者的音频编码,每个会话者均对应唯一的音频编码,所述音频编码可以为纯数字形式的编码、纯字母形式的编码或者数字与字母结合形式的编码,在此不做限制。原始的历史语音会话数据可以为PCM格式的音频数据,为了方便声纹识别处理,本申请将PCM格式的音频数据转换为WAV格式的音频数据。由于将PCM格式的音频数据转换为WAV格式的音频数据为现有技术,在此不再赘述。
可选地,所述预处理历史语音会话数据,得到预设时长的语音会话片段集包括:
获取所述历史语音会话数据中每段语音会话的对话开启时间与对话结束时间,并根据所述对话开启时间与所述对话结束时间确定所述语音会话的会话时长;
删除所述历史语音会话数据中所述会话时长未超过预设语音时长阈值的语音会话,得到第一语音会话数据;
调用VAD语音检测技术检测所述第一语音会话数据中每段语音会话的噪声片段,并删除噪声片段的数量超过预设数量阈值的语音会话,得到第二语音会话数据;
按照预设时长裁剪所述第二语音会话数据,得到语音会话片段集。
其中,所述第一语音会话数据中包含若干段语音会话,每段语音会话可能属于具有背景噪声的区段或者属于具有背景噪声和语音两者的区段,所述VAD语音检测技术用于将语音会话按照时间信号分成若干帧并确定将给定帧置于何种区段中,可以理解的是,当检测结果为语音会话处于背景噪声的区段时,表明该语音会话为噪声片段;当检测结果为语音会话处于背景噪声与语音两者的区段时,表明该语音会话为非噪声片段。所述预设语音时长为系统人员预先设置的时长。所述预设数量阈值为系统人员预先设置的值。
在本申请的至少一实施例中,所述预设时长可以为2-6秒,裁剪的语音会话片段中包含最长静音片段不超过0.3秒。所述预设时长可以为系统人员预先设置的,也可以通过机器学习的方式确定。通过将所述预设时长设置2-6秒,能够保证裁剪的语音会话片段中包含的有效信息最多,有效信息是指语音会话中除去静音片段、语气词之外的,能够表达会话主旨的信息。
本申请通过预处理历史语音会话数据,删除对话时长过短,噪声过多的语音会话数据,避免训练样本存在无效对话导致的模型训练准确性较低的问题;且本申请将历史语音会话数据按照预设时长裁剪为语音会话片段集,用多个短时的语音会话片段代替冗长的对话数据作为训练样本,能够提高模型训练的效率。
S12,调用快速傅里叶变换算法将所述语音会话片段集中每一语音会话片段变换为目标频谱数据。
在本申请的至少一实施例中,所述快速傅里叶变换(FFT)是离散傅里叶变换的快速算法,可以将一个时域信号变换到频域信号,因为有些信号在时域上是无法找到其特征的,但是如果变换到频域之后,其特征就显现出来。另外,快速傅里叶变换(FFT)可以将一个信号的频谱提取出来,从而反映信号能量在频率域的分布。
可选地,所述调用快速傅里叶变换算法将所述语音会话片段集中每一语音会话片段变换为目标频谱数据包括:
提取所述语音会话片段集中每一语音会话片段的频谱信息;
根据所述频谱信息生成对应于时域的第一波形图,并将所述第一波形图进行分帧处理,得到多个第一单帧波形图;
对每个第一单帧波形图进行快速傅里叶变换操作,以得到多个第一单帧频谱图,其中,每个第一单帧频谱图的横轴用于表示频率,每个第一单帧频谱图的纵轴用于表示振幅;
将每个第一单帧频谱图的进行反转操作和灰度操作,以得到多个第一一维灰度振幅图;
合成所述若干第一一维灰度振幅图,以得到语音频谱图,并基于所述语音频率图中的坐标信息得到目标频谱数据。
其中,所述反转操作用于调换第一单帧频谱图中的横轴和纵轴,所述灰度操作用于通过灰度值表示经过反转操作之后的第一单帧频谱图中的振幅。所述语音频谱图是反映信号频率与能量的关系的图像,所述第一波形图(Wave)是根据所述频谱信息生成的一段连续的声音波形信号图。在一实施例中,所述语音频谱图可以通过处理所述频谱信息得到。例如,首先将所述频谱信息转化为对应于所述频谱信息时域的第一波形图,并将所述第一波形图划分为时长相等的多个第一单帧波形图,对每个所述第一单帧波形图进行连续采样得到多个采样点,然后再对该多个采样点做傅里叶变换(FFT)操作,以得到多个第一单帧频谱图(Spectrum),将每个第一单帧频谱图进行反转操作和灰度操作即可得到第一一维灰度振幅图,其中,每个第一单帧频谱图的横轴用于表示频率,每个第一单帧频谱图的纵轴用于表示振幅(Amplitude);最终将多个第一一维灰度振幅图拼接即可得到频谱信息对应的语音频谱图。例如,当多个采样点为4096个采样点,每个第一单帧波形图的时长为1/10秒(s),第一波形图对应的语音频谱图中的每个点对应的数值为相应频率的振幅。因此,所述频谱信息对应的所述语音频谱图反映的即是音频在时间上的频率分布情况。
S13,获取初始音频编码模型,并删除所述初始音频编码模型中的无用通道数,得到改进后的初始音频编码模型。
在本申请的至少一实施例中,所述初始音频编码模型可以是指初始化的ResNet34模型。所述初始音频编码模型用于对音频数据进行编码处理,得到每个音频数据对应的音频编码。本申请对RESNET34模型的改进在于:一方面,本申请对RESNET34模型的每一层的最后一个维度进行通道数处理,删除不需要的通道数,使得在原有模型约2200万参数的基础上简化为约300万个参数,以提高音频编码提取的效率,继而提高语音分类的效率。另一方面,通过加入NetVlad方法达到在时间轴上对特征进行聚合,以提高音频编码提取的准确性,继而提高语音分类的准确性。其中,NetVLAD的本质是对特征计算残差,对不同的时刻和帧进行聚合(aggregation),得到新的特征。
可选地,所述删除所述初始音频编码模型中的无用通道数,得到改进后的初始音频编码模型包括:
预先设置无用通道数;
检测所述初始音频编码模型的每一层的最后一个维度中是否存在所述无用通道数;
当检测结果为所述初始音频编码模型的每一层的最后一个维度中存在所述无用通道数时,删除所述无用通道数,得到改进后的初始音频编码模型。
其中,所述无用通道数可以为系统人员预先设置的,所述无用通道数存储于所述预设数据库中。在其他实施例中,还可以通过构建数学模型的方式确定模型中的无用通道数,所述数学模型不作具体限制。
S14,调用改进后的所述初始音频编码模型聚合处理所述目标频谱数据,得到频谱特征。
在本申请的至少一实施例中,所述调用改进后的所述初始音频编码模型聚合处理所述目标频谱数据,得到频谱特征包括:
获取目标频谱数据,并从所述目标频谱数据中提取出预设数量的频谱帧,得到频谱帧集合,每一频谱帧对应目标频谱数据中的唯一时间戳;
向量化处理所述频谱帧集合中的每一频谱帧,得到帧特征向量;
聚合分析所述帧特征向量,得到与所述目标频谱数据对应的频谱特征。
其中,所述聚合分析可以包括自适应权重聚合或者时序关联聚合。通过在RESNET34模型处理过程中加入NetVlad方法达到在时间轴上对特征进行聚合,实现了对频谱特征的优化,使得频谱特征能够尽可能避免提取到劣质帧的影响,从而提高音频编码提取的准确性,继而提高语音分类的准确性。
S15,以所述频谱特征为输入向量,所述频谱特征对应的音频编码为输出向量训练改进后的所述初始音频编码模型,得到训练好的目标音频编码模型。
在本申请的至少一实施例中,以所述频谱特征为输入向量,所述频谱特征对应的音频编码为输出向量训练改进后的所述初始音频编码模型,得到训练好的目标音频编码模型。其中,所述音频编码可以为预先设置好的编码信息。
可选地,所述输入所述目标频谱数据至初始音频编码模型中,得到训练好的目标音频编码模型包括:
获取所述频谱特征作为样本数据,并将所述样本数据拆分为训练集与测试集,所述样本数据以所述频谱特征为输入向量,所述频谱特征对应的音频编码为输出向量;
输入所述训练集至改进后的初始音频编码模型中,得到训练完成的音频编码模型;
输入所述测试集至所述训练完成的音频编码模型中,得到模型的评估指标;
检测所述模型的评估指标是否超过预设指标阈值;
当检测结果为所述模型的评估指标超过预设指标阈值时,确定模型训练完成,得到训练完成的目标音频编码模型;当检测结果为所述模型的评估指标未超过预设指标阈值时,增加训练集,重新训练模型,直至所述模型的评估指标超过预设指标阈值。
其中,所述预设指标阈值为预先设置的值,例如,所述预设指标阈值为95%。
本申请采用改进的ResNet34模型作为音频编码模型,通过对标准ResNet34模型通道数进行简化,并加入NetVlad方法达到时间轴上对特征进行聚合的目的,实现了对频谱特征的优化,使得频谱特征能够尽可能避免提取到劣质帧的影响,以提高音频编码提取的准确性与效率,继而提高语音分类的准确性与效率。
S16,调用所述目标音频编码模型处理所有代理人的音频数据,得到每个代理人的代理音频编码,并根据所述代理音频编码创建对应所有代理人的声纹库。
在本申请的至少一实施例中,建立预设数据库,所述预设数据库中存储所有代理人的音频数据,所述音频数据可以是请每个代理人朗读预设文本的语音数据,所述预设文本为系统人员预先设置的文本。调用所述目标音频编码模型处理所有代理人的音频数据,得到每个代理人的代理音频编码,所述代理音频编码与每个代理人存在映射关系,一个代理人对应一个代理音频编码。创建声纹库,所述声纹库中存储每个代理人的基础信息及其对应的代理音频编码。通过查询所述映射关系,能够得到每个代理人的代理音频编码。其中,所述代理人的基础信息可以包括姓名、ID等标识代理人身份的信息,在此不做限制。所述声纹库可以按照预设时间间隔进行更新,所述预设时间间隔可以为7天。
本申请通过对代理人建立音频编码模型,可对代理人进行音频特征编码,通过声纹特征快速且准确判断每一通会话为代理人练习音频还是代理人与客户的真实音频。
S17,接收待验证语音会话数据,并调用所述目标音频编码模型处理所述待验证会话数据,得到待验证音频编码集。
在本申请的至少一实施例中,所述待验证语音会话数据为需要验证当前语音会话数据是代理人间的练习语音会话内容或者代理人与客户间的真实语音会话内容。所述待验证音频编码集是指所述待验证语音会话数据中每个人的音频编码的集合,所述待验证音频编码集中包含两个或者两个以上的待验证音频编码。
可选地,在调用所述目标音频编码模型处理所述待验证会话数据,得到待验证音频编码集之前,所述方法还包括:
根据预设规则将所述待验证语音会话数据划分为若干数据帧;
统计当前数据帧的频谱能量,并将所述频谱能量与所述预设能量阈值进行比对;
若所述频谱能量小于或等于所述预设能量阈值,则确定当前数据帧为正常音频信号;
若所述频谱能量大于所述预设能量阈值,则确定当前数据帧包含异常信号。
其中,预设规则指的是数据帧的划分长度,示例性的,预设规则可以是将时长为10ms或者20ms的音频信号换分为一个数据帧,在一实施例中,对每一个数据帧的音频信号进行实时检测,确定是否存在异常信号。对每一个数据帧,通过能量统计的方法确定数据帧的能量,能量统计可以是通过周期性RMS(Root Mean Square,均方根)统计方法。在一实施例中,依次将数据帧中的音频信号的频谱能量与预设能量阈值,若该数据帧中的存在音频信号的频谱能量小于或等于所述预设能量阈值,则确定所述当前数据帧为正常音频信号,对该数据帧不做任何处理,继续检测下一个数据帧;若该数据帧中的存在音频信号的频谱能量大于预设能量阈值,则确定该音频信号为异常信号,并继续检测该数据帧的其他音频信号,直到该数据帧检测结束,继续检测下一个数据帧。
本申请能够避免由于硬件设备老化导致的异常信号影响音频效果的问题,实现了低成本的消除异常信号,提高了音频信号质量。
S18,计算所述待验证音频编码集中每一待验证音频编码与所述声纹库中每一代理音频编码的相似度值,并检测是否存在目标待验证音频编码与所述代理音频编码的相似度未超过预设相似度阈值,当检测结果为存在目标待验证音频编码与所述代理音频编码的相似度未超过所述预设相似度阈值时,执行步骤S19。
在本申请的至少一实施例中,余弦相似度又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值,绘制到向量空间中,如最常见的二维空间,求得他们的夹角,并得出夹角对应的余弦值,此余弦值就可以用来表征这两个向量的相似性。夹角越小,余弦值越接近于1,它们的方向更加吻合,则越相似;夹角越大,余弦值越接近于0,它们越接近于正交,相似性越差。
可选地,所述计算所述待验证音频编码集中每一待验证音频编码与所述声纹库中每一代理音频编码的相似度值包括:
将所述待验证音频编码与所述代理音频编码转换为向量形式;
采用预设夹角余弦值计算模型处理向量形式的所述待验证音频编码与所述代理音频编码,得到夹角余弦值;
根据所述夹角余弦值确定所述待验证音频编码与所述代理音频编码的相似度值。
其中,所述夹角余弦值越大,表明所述待验证音频编码与所述代理音频编码越相近;所述夹角余弦值的值越小,表明所述待验证音频编码与所述代理音频编码越不相关。本申请设置预设相似度阈值,当所述夹角余弦值超过所述预设相似度阈值时,确定所述待验证音频编码与所述代理音频编码相近,也即所述待验证音频编码处于所述声纹库中,也即所述待验证音频编码对应的会话方为声纹库中的代理人;当所述夹角余弦值未超过所述预设相似度阈值时,确定所述待验证音频编码与所述代理音频编码不相关,也即所述待验证音频编码未处于所述声纹库中,也即所述待验证音频编码对应的会话方为陌生人(也即为客户)。所述预设相似度阈值为系统人员预先设定的值,例如,所述预设相似度阈值可以为95%,在此不做限制。
S19,确定所述待验证语音会话数据为真实语音会话数据。
在本申请的至少一实施例中,检测是否存在目标待验证音频编码与所述代理音频编码的相似度未超过预设相似度阈值,当检测结果为存在目标待验证音频编码与所述代理音频编码的相似度未超过所述预设相似度阈值时,确定所述待验证语音会话数据为真实语音会话数据;当检测结果为存在目标待验证音频编码与所述代理音频编码的相似度均超过所述预设相似度阈值时,确定所述待验证语音会话数据为训练语音会话数据。其中,所述真实语音会话数据是指代理人与客户间的会话数据,所述训练语音会话数据是指代理人与代理人间的会话数据。
本申请实施例提供的上述基于声纹识别的语音分类方法,通过训练目标音频编码模型,并调用所述目标音频编码模型处理所有代理人的音频数据以及待验证语音会话数据,得到每个代理人的代理音频编码以及待验证音频编码,继而实现利用音频编码的相似度进行语音分类,能够避免直接调用网络模型对声纹信息进行语音分类时,由于声纹信息中存在大量冗余信息导致语音分类效果差的问题,能够提高语音分类的速率与准确性;此外,本申请采用改进的初始音频编码模型,通过对初始音频编码模型的通道数进行简化,并调用初始音频编码模型对目标频谱数据在时间轴上进行聚合得到频谱特征,实现了对频谱特征的优化,使得频谱特征能够尽可能避免受到劣质帧的影响,以提高音频编码提取的准确性与效率,继而提高语音分类的准确性与效率。本申请可应用于智慧政务、智慧交通等智慧城市的各个功能模块中,比如智慧政务的基于声纹识别的语音分类模块等,能够促进智慧城市的快速发展。
图2是本申请实施例二提供的基于声纹识别的语音分类装置的结构图。
在一些实施例中,所述基于声纹识别的语音分类装置20可以包括多个由计算机程序段所组成的功能模块。所述基于声纹识别的语音分类装置20中的各个程序段的计算机程序可以存储于计算机设备的存储器中,并由至少一个处理器所执行,以执行(详见图1描述)模型训练处理的功能。
本实施例中,所述基于声纹识别的语音分类装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:数据预处理模块201、数据变换模块202、模型改进模块203、聚合处理模块204、模型训练模块205、声纹库创建模块206、编码获取模块207、相似度计算模块208以及数据确定模块209。本申请所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
所述数据预处理模块201用于预处理历史语音会话数据,得到预设时长的语音会话片段集。
在本申请的至少一实施例中,所述历史语音会话数据可以是代理人A与代理人B间的练习语音会话内容,也可以是代理人A与客户B间的真实语音会话内容。所述历史语音会话数据除了包含语音会话内容,还包含预先设置的不同会话者的音频编码,每个会话者均对应唯一的音频编码,所述音频编码可以为纯数字形式的编码、纯字母形式的编码或者数字与字母结合形式的编码,在此不做限制。原始的历史语音会话数据可以为PCM格式的音频数据,为了方便声纹识别处理,本申请将PCM格式的音频数据转换为WAV格式的音频数据。由于将PCM格式的音频数据转换为WAV格式的音频数据为现有技术,在此不再赘述。
可选地,所述预处理历史语音会话数据,得到预设时长的语音会话片段集包括:
获取所述历史语音会话数据中每段语音会话的对话开启时间与对话结束时间,并根据所述对话开启时间与所述对话结束时间确定所述语音会话的会话时长;
删除所述历史语音会话数据中所述会话时长未超过预设语音时长阈值的语音会话,得到第一语音会话数据;
调用VAD语音检测技术检测所述第一语音会话数据中每段语音会话的噪声片段,并删除噪声片段的数量超过预设数量阈值的语音会话,得到第二语音会话数据;
按照预设时长裁剪所述第二语音会话数据,得到语音会话片段集。
其中,所述第一语音会话数据中包含若干段语音会话,每段语音会话可能属于具有背景噪声的区段或者属于具有背景噪声和语音两者的区段,所述VAD语音检测技术用于将语音会话按照时间信号分成若干帧并确定将给定帧置于何种区段中,可以理解的是,当检测结果为语音会话处于背景噪声的区段时,表明该语音会话为噪声片段;当检测结果为语音会话处于背景噪声与语音两者的区段时,表明该语音会话为非噪声片段。所述预设语音时长为系统人员预先设置的时长。所述预设数量阈值为系统人员预先设置的值。
在本申请的至少一实施例中,所述预设时长可以为2-6秒,裁剪的语音会话片段中包含最长静音片段不超过0.3秒。所述预设时长可以为系统人员预先设置的,也可以通过机器学习的方式确定。通过将所述预设时长设置2-6秒,能够保证裁剪的语音会话片段中包含的有效信息最多,有效信息是指语音会话中除去静音片段、语气词之外的,能够表达会话主旨的信息。
本申请通过预处理历史语音会话数据,删除对话时长过短,噪声过多的语音会话数据,避免训练样本存在无效对话导致的模型训练准确性较低的问题;且本申请将历史语音会话数据按照预设时长裁剪为语音会话片段集,用多个短时的语音会话片段代替冗长的对话数据作为训练样本,能够提高模型训练的效率。
所述数据变换模块202用于调用快速傅里叶变换算法将所述语音会话片段集中每一语音会话片段变换为目标频谱数据。
在本申请的至少一实施例中,所述快速傅里叶变换(FFT)是离散傅里叶变换的快速算法,可以将一个时域信号变换到频域信号,因为有些信号在时域上是无法找到其特征的,但是如果变换到频域之后,其特征就显现出来。另外,快速傅里叶变换(FFT)可以将一个信号的频谱提取出来,从而反映信号能量在频率域的分布。
可选地,所述调用快速傅里叶变换算法将所述语音会话片段集中每一语音会话片段变换为目标频谱数据包括:
提取所述语音会话片段集中每一语音会话片段的频谱信息;
根据所述频谱信息生成对应于时域的第一波形图,并将所述第一波形图进行分帧处理,得到多个第一单帧波形图;
对每个第一单帧波形图进行快速傅里叶变换操作,以得到多个第一单帧频谱图,其中,每个第一单帧频谱图的横轴用于表示频率,每个第一单帧频谱图的纵轴用于表示振幅;
将每个第一单帧频谱图的进行反转操作和灰度操作,以得到多个第一一维灰度振幅图,合成所述多个第一一维灰度振幅图,以得到语音频谱图,并基于所述语音频率图中的坐标信息得到目标频谱数据。
其中,所述反转操作用于调换第一单帧频谱图中的横轴和纵轴,所述灰度操作用于通过灰度值表示经过反转操作之后的第一单帧频谱图中的振幅。所述语音频谱图是反映信号频率与能量的关系的图像,所述第一波形图(Wave)是根据所述频谱信息生成的一段连续的声音波形信号图。在一实施例中,所述语音频谱图可以通过处理所述频谱信息得到。例如,首先将所述频谱信息转化为对应于所述频谱信息时域的第一波形图,并将所述第一波形图划分为时长相等的多个第一单帧波形图,对每个所述第一单帧波形图进行连续采样得到多个采样点,然后再对该多个采样点做傅里叶变换(FFT)操作,以得到多个第一单帧频谱图(Spectrum),将每个第一单帧频谱图进行反转操作和灰度操作即可得到第一一维灰度振幅图,其中,每个第一单帧频谱图的横轴用于表示频率,每个第一单帧频谱图的纵轴用于表示振幅(Amplitude);最终将多个第一一维灰度振幅图拼接即可得到频谱信息对应的语音频谱图。例如,当多个采样点为4096个采样点,每个第一单帧波形图的时长为1/10秒(s),第一波形图对应的语音频谱图中的每个点对应的数值为相应频率的振幅。因此,所述频谱信息对应的所述语音频谱图反映的即是音频在时间上的频率分布情况。
所述模型改进模块203用于获取初始音频编码模型,并删除所述初始音频编码模型中的无用通道数,得到改进后的初始音频编码模型。
在本申请的至少一实施例中,所述初始音频编码模型可以是指初始化的ResNet34模型。所述初始音频编码模型用于对音频数据进行编码处理,得到每个音频数据对应的音频编码。本申请对RESNET34模型的改进在于:一方面,本申请对RESNET34模型的每一层的最后一个维度进行通道数处理,删除不需要的通道数,使得在原有模型约2200万参数的基础上简化为约300万个参数,以提高音频编码提取的效率,继而提高语音分类的效率。另一方面,通过加入NetVlad方法达到在时间轴上对特征进行聚合,以提高音频编码提取的准确性,继而提高语音分类的准确性。其中,NetVLAD的本质是对特征计算残差,对不同的时刻和帧进行聚合(aggregation),得到新的特征。
可选地,所述删除所述初始音频编码模型中的无用通道数,得到改进后的初始音频编码模型包括:
预先设置无用通道数;
检测所述初始音频编码模型的每一层的最后一个维度中是否存在所述无用通道数;
当检测结果为所述初始音频编码模型的每一层的最后一个维度中存在所述无用通道数时,删除所述无用通道数,得到改进后的初始音频编码模型。
其中,所述无用通道数可以为系统人员预先设置的,所述无用通道数存储于所述预设数据库中。在其他实施例中,还可以通过构建数学模型的方式确定模型中的无用通道数,所述数学模型不作具体限制。
所述聚合处理模块204用于调用改进后的所述初始音频编码模型聚合处理所述目标频谱数据,得到频谱特征。
在本申请的至少一实施例中,所述调用改进后的所述初始音频编码模型聚合处理所述目标频谱数据,得到频谱特征包括:
获取目标频谱数据,并从所述目标频谱数据中提取出预设数量的频谱帧,得到频谱帧集合,每一频谱帧对应目标频谱数据中的唯一时间戳;
向量化处理所述频谱帧集合中的每一频谱帧,得到帧特征向量;
聚合分析所述帧特征向量,得到与所述目标频谱数据对应的频谱特征。
其中,所述聚合分析可以包括自适应权重聚合或者时序关联聚合。通过在RESNET34模型处理过程中加入NetVlad方法达到在时间轴上对特征进行聚合,实现了对频谱特征的优化,使得频谱特征能够尽可能避免提取到劣质帧的影响,从而提高音频编码提取的准确性,继而提高语音分类的准确性。
所述模型训练模块205用于以所述频谱特征为输入向量,所述频谱特征对应的音频编码为输出向量训练改进后的所述初始音频编码模型,得到训练好的目标音频编码模型。
在本申请的至少一实施例中,以所述频谱特征为输入向量,所述频谱特征对应的音频编码为输出向量训练改进后的所述初始音频编码模型,得到训练好的目标音频编码模型。其中,所述音频编码可以为预先设置好的编码信息。
可选地,所述输入所述目标频谱数据至初始音频编码模型中,得到训练好的目标音频编码模型包括:
获取所述频谱特征作为样本数据,并将所述样本数据拆分为训练集与测试集,所述样本数据以所述频谱特征为输入向量,所述频谱特征对应的音频编码为输出向量;
输入所述训练集至改进后的初始音频编码模型中,得到训练完成的音频编码模型;
输入所述测试集至所述训练完成的音频编码模型中,得到模型的评估指标;
检测所述模型的评估指标是否超过预设指标阈值;
当检测结果为所述模型的评估指标超过预设指标阈值时,确定模型训练完成,得到训练完成的目标音频编码模型;当检测结果为所述模型的评估指标未超过预设指标阈值时,增加训练集,重新训练模型,直至所述模型的评估指标超过预设指标阈值。
其中,所述预设指标阈值为预先设置的值,例如,所述预设指标阈值为95%。
本申请采用改进的ResNet34模型作为音频编码模型,通过对标准ResNet34模型通道数进行简化,并加入NetVlad方法达到时间轴上对特征进行聚合的目的,实现了对频谱特征的优化,使得频谱特征能够尽可能避免提取到劣质帧的影响,以提高音频编码提取的准确性与效率,继而提高语音分类的准确性与效率。
所述声纹库创建模块206用于调用所述目标音频编码模型处理所有代理人的音频数据,得到每个代理人的代理音频编码,并根据所述代理音频编码创建对应所有代理人的声纹库。
在本申请的至少一实施例中,存在预设数据库,所述预设数据库中存储所有代理人的音频数据,所述音频数据可以是请每个代理人朗读预设文本的语音数据,所述预设文本为系统人员预先设置的文本。调用所述目标音频编码模型处理所有代理人的音频数据,得到每个代理人的代理音频编码,所述代理音频编码与每个代理人存在映射关系,一个代理人对应一个代理音频编码。创建声纹库,所述声纹库中存储每个代理人的基础信息及其对应的代理音频编码。通过查询所述映射关系,能够得到每个代理人的代理音频编码。其中,所述代理人的基础信息可以包括姓名、ID等标识代理人身份的信息,在此不做限制。所述声纹库可以按照预设时间间隔进行更新,所述预设时间间隔可以为7天。
本申请通过对代理人建立音频编码模型,可对代理人进行音频特征编码,通过声纹特征快速且准确判断每一通会话为代理人练习音频还是代理人与客户的真实音频。
所述编码获取模块207用于接收待验证语音会话数据,并调用所述目标音频编码模型处理所述待验证会话数据,得到待验证音频编码集。
在本申请的至少一实施例中,所述待验证语音会话数据为需要验证当前语音会话数据是代理人间的练习语音会话内容或者代理人与客户间的真实语音会话内容。所述待验证音频编码集是指所述待验证语音会话数据中每个人的音频编码的集合,所述待验证音频编码集中包含两个或者两个以上的待验证音频编码。
可选地,在调用所述目标音频编码模型处理所述待验证会话数据,得到待验证音频编码集之前,所述方法还包括:
根据预设规则将所述待验证语音会话数据划分为若干数据帧;
统计当前数据帧的频谱能量,并将所述频谱能量与所述预设能量阈值进行比对;
若所述频谱能量小于或等于所述预设能量阈值,则确定当前数据帧为正常音频信号;
若所述频谱能量大于所述预设能量阈值,则确定当前数据帧包含异常信号。
其中,预设规则指的是数据帧的划分长度,示例性的,预设规则可以是将时长为10ms或者20ms的音频信号换分为一个数据帧,在一实施例中,对每一个数据帧的音频信号进行实时检测,确定是否存在异常信号。对每一个数据帧,通过能量统计的方法确定数据帧的能量,能量统计可以是通过周期性RMS(Root Mean Square,均方根)统计方法。在一实施例中,依次将数据帧中的音频信号的频谱能量与预设能量阈值,若该数据帧中的存在音频信号的频谱能量小于或等于所述预设能量阈值,则确定所述当前数据帧为正常音频信号,对该数据帧不做任何处理,继续检测下一个数据帧;若该数据帧中的存在音频信号的频谱能量大于预设能量阈值,则确定该音频信号为异常信号,并继续检测该数据帧的其他音频信号,直到该数据帧检测结束,继续检测下一个数据帧。
本申请能够避免由于硬件设备老化导致的异常信号影响音频效果的问题,实现了低成本的消除异常信号,提高了音频信号质量。
所述相似度计算模块208用于计算所述待验证音频编码集中每一待验证音频编码与所述声纹库中每一代理音频编码的相似度值,并检测是否存在目标待验证音频编码与所述代理音频编码的相似度未超过预设相似度阈值。
在本申请的至少一实施例中,余弦相似度又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值,绘制到向量空间中,如最常见的二维空间,求得他们的夹角,并得出夹角对应的余弦值,此余弦值就可以用来表征这两个向量的相似性。夹角越小,余弦值越接近于1,它们的方向更加吻合,则越相似;夹角越大,余弦值越接近于0,它们越接近于正交,相似性越差。
可选地,所述计算所述待验证音频编码集中每一待验证音频编码与所述声纹库中每一代理音频编码的相似度值包括:
将所述待验证音频编码与所述代理音频编码转换为向量形式;
采用预设夹角余弦值计算模型处理向量形式的所述待验证音频编码与所述代理音频编码,得到夹角余弦值;
根据所述夹角余弦值确定所述待验证音频编码与所述代理音频编码的相似度值。
其中,所述夹角余弦值越大,表明所述待验证音频编码与所述代理音频编码越相近;所述夹角余弦值的值越小,表明所述待验证音频编码与所述代理音频编码越不相关。本申请设置预设相似度阈值,当所述夹角余弦值超过所述预设相似度阈值时,确定所述待验证音频编码与所述代理音频编码相近,也即所述待验证音频编码处于所述声纹库中,也即所述待验证音频编码对应的会话方为声纹库中的代理人;当所述夹角余弦值未超过所述预设相似度阈值时,确定所述待验证音频编码与所述代理音频编码不相关,也即所述待验证音频编码未处于所述声纹库中,也即所述待验证音频编码对应的会话方为陌生人(也即为客户)。所述预设相似度阈值为系统人员预先设定的值,例如,所述预设相似度阈值可以为95%,在此不做限制。
所述数据确定模块209用于当检测结果为存在目标待验证音频编码与所述代理音频编码的相似度未超过所述预设相似度阈值时,确定所述待验证语音会话数据为真实语音会话数据。
在本申请的至少一实施例中,检测是否存在目标待验证音频编码与所述代理音频编码的相似度未超过预设相似度阈值,当检测结果为存在目标待验证音频编码与所述代理音频编码的相似度未超过所述预设相似度阈值时,确定所述待验证语音会话数据为真实语音会话数据;当检测结果为存在目标待验证音频编码与所述代理音频编码的相似度均超过所述预设相似度阈值时,确定所述待验证语音会话数据为训练语音会话数据。其中,所述真实语音会话数据是指代理人与客户间的会话数据,所述训练语音会话数据是指代理人与代理人间的会话数据。
参阅图3所示,为本申请实施例三提供的计算机设备的结构示意图。在本申请较佳实施例中,所述计算机设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。
本领域技术人员应该了解,图3示出的计算机设备的结构并不构成本申请实施例的限定,既可以是总线型结构,也可以是星形结构,所述计算机设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述计算机设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述计算机设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述计算机设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本申请,也应包含在本申请的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器31中存储有计算机程序,所述计算机程序被所述至少一个处理器32执行时实现如所述的基于声纹识别的语音分类方法中的全部或者部分步骤。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在一些实施例中,所述至少一个处理器32是所述计算机设备3的控制核心(Control Unit),利用各种接口和线路连接整个计算机设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行计算机设备3的各种功能和处理数据。例如,所述至少一个处理器32执行所述存储器中存储的计算机程序时实现本申请实施例中所述的基于声纹识别的语音分类方法的全部或者部分步骤;或者实现基于声纹识别的语音分类装置的全部或者部分功能。所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(CentralProcessing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。
在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
尽管未示出,所述计算机设备3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,计算机设备,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。说明书中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本申请的技术方案而非限制,尽管参照较佳实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,可以对本申请的技术方案进行修改或等同替换,而不脱离本申请技术方案的精神和范围。

Claims (10)

1.一种基于声纹识别的语音分类方法,其特征在于,所述基于声纹识别的语音分类方法包括:
预处理历史语音会话数据,得到预设时长的语音会话片段集;
调用快速傅里叶变换算法将所述语音会话片段集中每一语音会话片段变换为目标频谱数据;
获取初始音频编码模型,并删除所述初始音频编码模型中的无用通道数,得到改进后的初始音频编码模型;
调用改进后的所述初始音频编码模型聚合处理所述目标频谱数据,得到频谱特征;
以所述频谱特征为输入向量,所述频谱特征对应的音频编码为输出向量训练改进后的所述初始音频编码模型,得到训练好的目标音频编码模型;
调用所述目标音频编码模型处理所有代理人的音频数据,得到每个代理人的代理音频编码,并根据所述代理音频编码创建对应所有代理人的声纹库;
接收待验证语音会话数据,并调用所述目标音频编码模型处理所述待验证语音会话数据,得到待验证音频编码集;
计算所述待验证音频编码集中每一待验证音频编码与所述声纹库中每一代理音频编码的相似度值,并检测是否存在目标待验证音频编码与所述代理音频编码的相似度未超过预设相似度阈值;
当检测结果为存在目标待验证音频编码与所述代理音频编码的相似度未超过所述预设相似度阈值时,确定所述待验证语音会话数据为真实语音会话数据。
2.根据权利要求1所述的基于声纹识别的语音分类方法,其特征在于,所述预处理历史语音会话数据,得到预设时长的语音会话片段集包括:
获取所述历史语音会话数据中每段语音会话的对话开启时间与对话结束时间,并根据所述对话开启时间与所述对话结束时间确定所述语音会话的会话时长;
删除所述历史语音会话数据中所述会话时长未超过预设语音时长阈值的语音会话,得到第一语音会话数据;
调用VAD语音检测技术检测所述第一语音会话数据中每段语音会话的噪声片段,并删除噪声片段的数量超过预设数量阈值的语音会话,得到第二语音会话数据;
按照预设时长裁剪所述第二语音会话数据,得到语音会话片段集。
3.根据权利要求1所述的基于声纹识别的语音分类方法,其特征在于,所述调用快速傅里叶变换算法将所述语音会话片段集中每一语音会话片段变换为目标频谱数据包括:
提取所述语音会话片段集中每一语音会话片段的频谱信息;
根据所述频谱信息生成对应于时域的第一波形图,并将所述第一波形图进行分帧处理,得到若干第一单帧波形图;
对每个第一单帧波形图进行快速傅里叶变换操作,以得到多个第一单帧频谱图,其中,每个第一单帧频谱图的横轴用于表示频率,每个第一单帧频谱图的纵轴用于表示振幅;
将每个第一单帧频谱图的进行反转操作和灰度操作,以得到多个第一一维灰度振幅图;
合成若干所述第一一维灰度振幅图,以得到语音频谱图,并基于所述语音频谱图中的坐标信息得到目标频谱数据。
4.根据权利要求1所述的基于声纹识别的语音分类方法,其特征在于,所述删除所述初始音频编码模型中的无用通道数,得到改进后的初始音频编码模型包括:
预先设置无用通道数;
检测所述初始音频编码模型的每一层的最后一个维度中是否存在所述无用通道数;
当检测结果为所述初始音频编码模型的每一层的最后一个维度中存在所述无用通道数时,删除所述无用通道数,得到改进后的初始音频编码模型。
5.根据权利要求1所述的基于声纹识别的语音分类方法,其特征在于,所述调用改进后的所述初始音频编码模型聚合处理所述目标频谱数据,得到频谱特征包括:
获取目标频谱数据,并从所述目标频谱数据中提取出预设数量的频谱帧,得到频谱帧集合,每一频谱帧对应目标频谱数据中的唯一时间戳;
向量化处理所述频谱帧集合中的每一频谱帧,得到帧特征向量;
聚合分析所述帧特征向量,得到与所述目标频谱数据对应的频谱特征。
6.根据权利要求1所述的基于声纹识别的语音分类方法,其特征在于,在调用所述目标音频编码模型处理所述待验证会话数据,得到待验证音频编码集之前,所述方法还包括:
根据预设规则将所述待验证语音会话数据划分为若干数据帧;
统计当前数据帧的频谱能量,并将所述频谱能量与预设能量阈值进行比对;
若所述频谱能量小于或等于所述预设能量阈值,则确定当前数据帧为正常音频信号;
若所述频谱能量大于所述预设能量阈值,则确定当前数据帧包含异常信号。
7.根据权利要求1所述的基于声纹识别的语音分类方法,其特征在于,所述计算所述待验证音频编码集中每一待验证音频编码与所述声纹库中每一代理音频编码的相似度值包括:
将所述待验证音频编码与所述代理音频编码转换为向量形式;
采用预设夹角余弦值计算模型处理向量形式的所述待验证音频编码与所述代理音频编码,得到夹角余弦值;
根据所述夹角余弦值确定所述待验证音频编码与所述代理音频编码的相似度值。
8.一种基于声纹识别的语音分类装置,其特征在于,所述基于声纹识别的语音分类装置包括:
数据预处理模块,用于预处理历史语音会话数据,得到预设时长的语音会话片段集;
数据变换模块,用于调用快速傅里叶变换算法将所述语音会话片段集中每一语音会话片段变换为目标频谱数据;
模型改进模块,用于获取初始音频编码模型,并删除所述初始音频编码模型中的无用通道数,得到改进后的初始音频编码模型;
聚合处理模块,用于调用改进后的所述初始音频编码模型聚合处理所述目标频谱数据,得到频谱特征;
模型训练模块,用于以所述频谱特征为输入向量,所述频谱特征对应的音频编码为输出向量训练改进后的所述初始音频编码模型,得到训练好的目标音频编码模型;
声纹库创建模块,用于调用所述目标音频编码模型处理所有代理人的音频数据,得到每个代理人的代理音频编码,并根据所述代理音频编码创建对应所有代理人的声纹库;
编码获取模块,用于接收待验证语音会话数据,并调用所述目标音频编码模型处理所述待验证语音会话数据,得到待验证音频编码集;
相似度计算模块,用于计算所述待验证音频编码集中每一待验证音频编码与所述声纹库中每一代理音频编码的相似度值,并检测是否存在目标待验证音频编码与所述代理音频编码的相似度未超过预设相似度阈值;
数据确定模块,用于当检测结果为存在目标待验证音频编码与所述代理音频编码的相似度未超过所述预设相似度阈值时,确定所述待验证语音会话数据为真实语音会话数据。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述基于声纹识别的语音分类方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述基于声纹识别的语音分类方法。
CN202110872842.6A 2021-07-30 2021-07-30 基于声纹识别的语音分类方法、装置及相关设备 Active CN113436634B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110872842.6A CN113436634B (zh) 2021-07-30 2021-07-30 基于声纹识别的语音分类方法、装置及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110872842.6A CN113436634B (zh) 2021-07-30 2021-07-30 基于声纹识别的语音分类方法、装置及相关设备

Publications (2)

Publication Number Publication Date
CN113436634A CN113436634A (zh) 2021-09-24
CN113436634B true CN113436634B (zh) 2023-06-20

Family

ID=77762411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110872842.6A Active CN113436634B (zh) 2021-07-30 2021-07-30 基于声纹识别的语音分类方法、装置及相关设备

Country Status (1)

Country Link
CN (1) CN113436634B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114049899A (zh) * 2021-11-23 2022-02-15 中国林业科学研究院资源信息研究所 一种声音识别方法、装置、电子设备及存储介质
CN113948090B (zh) * 2021-12-17 2022-05-17 阿里巴巴达摩院(杭州)科技有限公司 语音检测方法、会话记录产品及计算机存储介质
CN115297406B (zh) * 2022-07-28 2024-11-05 湖南芯海聆半导体有限公司 基于双模音频三维码的声音接收设备控制方法及装置
CN115019804B (zh) * 2022-08-03 2022-11-01 北京惠朗时代科技有限公司 一种多员工密集签到的多重校验式声纹识别方法及系统
CN115662444B (zh) * 2022-12-14 2023-04-07 北京惠朗时代科技有限公司 基于人工智能的电子印章语音交互式应用方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108900725A (zh) * 2018-05-29 2018-11-27 平安科技(深圳)有限公司 一种声纹识别方法、装置、终端设备及存储介质
CN111951809A (zh) * 2019-05-14 2020-11-17 深圳子丸科技有限公司 多人声纹辨别方法及系统
CN112053695A (zh) * 2020-09-11 2020-12-08 北京三快在线科技有限公司 声纹识别方法、装置、电子设备及存储介质
CN112435684A (zh) * 2020-11-03 2021-03-02 中电金信软件有限公司 语音分离方法、装置、计算机设备和存储介质
CN112735383A (zh) * 2020-12-23 2021-04-30 深圳壹账通智能科技有限公司 语音信号的处理方法、装置、设备及存储介质
CN112786057A (zh) * 2021-02-23 2021-05-11 厦门熵基科技有限公司 一种声纹识别方法、装置、电子设备及存储介质
CN113129867A (zh) * 2019-12-28 2021-07-16 中移(上海)信息通信科技有限公司 语音识别模型的训练方法、语音识别方法、装置和设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150112682A1 (en) * 2008-12-10 2015-04-23 Agnitio Sl Method for verifying the identity of a speaker and related computer readable medium and computer
KR102127126B1 (ko) * 2018-08-03 2020-06-26 엘지전자 주식회사 음성 판독 장치

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108900725A (zh) * 2018-05-29 2018-11-27 平安科技(深圳)有限公司 一种声纹识别方法、装置、终端设备及存储介质
CN111951809A (zh) * 2019-05-14 2020-11-17 深圳子丸科技有限公司 多人声纹辨别方法及系统
CN113129867A (zh) * 2019-12-28 2021-07-16 中移(上海)信息通信科技有限公司 语音识别模型的训练方法、语音识别方法、装置和设备
CN112053695A (zh) * 2020-09-11 2020-12-08 北京三快在线科技有限公司 声纹识别方法、装置、电子设备及存储介质
CN112435684A (zh) * 2020-11-03 2021-03-02 中电金信软件有限公司 语音分离方法、装置、计算机设备和存储介质
CN112735383A (zh) * 2020-12-23 2021-04-30 深圳壹账通智能科技有限公司 语音信号的处理方法、装置、设备及存储介质
CN112786057A (zh) * 2021-02-23 2021-05-11 厦门熵基科技有限公司 一种声纹识别方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113436634A (zh) 2021-09-24

Similar Documents

Publication Publication Date Title
CN113436634B (zh) 基于声纹识别的语音分类方法、装置及相关设备
CN112562691B (zh) 一种声纹识别的方法、装置、计算机设备及存储介质
CN110457432B (zh) 面试评分方法、装置、设备及存储介质
CN108900725B (zh) 一种声纹识别方法、装置、终端设备及存储介质
CN112863529B (zh) 基于对抗学习的说话人语音转换方法及相关设备
CN112466314A (zh) 情感语音数据转换方法、装置、计算机设备及存储介质
CN112967725A (zh) 语音对话数据处理方法、装置、计算机设备及存储介质
CN113421594B (zh) 语音情感识别方法、装置、设备及存储介质
CN113345468B (zh) 语音质检方法、装置、设备及存储介质
CN112309372B (zh) 基于语调的意图识别方法、装置、设备及存储介质
CN110704618B (zh) 确定对话数据对应的标准问题的方法及装置
CN113077821B (zh) 音频质量检测方法、装置、电子设备及存储介质
CN113948090B (zh) 语音检测方法、会话记录产品及计算机存储介质
CN111524524A (zh) 声纹识别方法、装置、设备及存储介质
US10446138B2 (en) System and method for assessing audio files for transcription services
CN110675858A (zh) 基于情绪识别的终端控制方法和装置
CN113436617A (zh) 语音断句方法、装置、计算机设备及存储介质
CN108847251A (zh) 一种语音去重方法、装置、服务器及存储介质
CN113870826A (zh) 基于时长预测模型的发音时长预测方法及相关设备
CN109524009B (zh) 基于语音识别的保单录入方法和相关装置
CN112908299B (zh) 客户需求信息识别方法、装置、电子设备及存储介质
CN113421590B (zh) 异常行为检测方法、装置、设备及存储介质
CN115631748A (zh) 基于语音对话的情感识别方法、装置、电子设备及介质
CN109493868B (zh) 基于语音识别的保单录入方法和相关装置
CN113421572B (zh) 实时音频对话报告生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant