发明内容
本申请的目的在于提供一种咳嗽声音识别方法、设备和存储介质,能对咳嗽声音进行识别,且算法简单、计算量小,对硬件设备要求低。
为实现上述目的,第一方面,本申请实施例提供了一种咳嗽声音识别方法,用于识别设备,所述方法包括:
采样声音信号并获取所述声音信号的梅尔频率倒谱系数特征参数矩阵;
从所述声音信号的梅尔频率倒谱系数特征参数矩阵中提取信号特征;
确认所述信号特征是否匹配预先获取的基于支持向量数据描述算法的咳嗽信号特征模型;
如果匹配,则确认所述声音信号为咳嗽声音。
可选的,所述方法还包括:
预先获取所述基于支持向量数据描述算法的咳嗽信号特征模型。
可选的,所述预先获取所述基于支持向量数据描述算法的咳嗽信号特征模型,包括:
采集预设数量的咳嗽声音样本信号并获取所述咳嗽声音样本信号的梅尔频率倒谱系数特征参数矩阵;
从所述咳嗽声音样本信号的梅尔频率倒谱系数特征参数矩阵中提取所述信号特征;
将所述咳嗽声音样本信号的信号特征作为输入,训练支持向量数据描述算法模型,以获取所述基于支持向量数据描述算法的咳嗽信号特征模型。
可选的,所述信号特征包括能量特征、局部特征以及整体趋势特征中的一种或多种子信号特征。
可选的,若所述信号特征包括能量特征,所述从所述咳嗽声音样本信号的梅尔频率倒谱系数特征参数矩阵中提取所述信号特征,包括:
从所述咳嗽声音样本信号的梅尔频率倒谱系数特征参数矩阵中选择能量系数之和最大的预设比例的连续帧咳嗽声音样本信号的能量系数;
将所述连续帧咳嗽声音样本信号的能量系数基于动态时间归整算法归整到预设长度获得所述咳嗽声音样本信号的能量特征;
所述从所述声音信号的梅尔频率倒谱系数特征参数矩阵中提取信号特征,包括:
从所述声音信号的梅尔频率倒谱系数特征参数矩阵中选择能量系数之和最大的预设比例的连续帧声音信号的能量系数;
将所述连续帧声音信号的能量系数基于动态时间归整算法归整到预设长度获得所述声音信号的能量特征。
可选的,若所述信号特征包括局部特征,所述从所述咳嗽声音样本信号的梅尔频率倒谱系数特征参数矩阵中提取所述信号特征,包括:
从所述咳嗽声音样本信号的梅尔频率倒谱系数特征参数矩阵中选择能量系数之和最大的连续S2帧咳嗽声音样本信号的梅尔频率倒谱系数,所述S2为正整数;
基于所述S2帧咳嗽声音样本信号的能量系数确定所述S2帧咳嗽声音样本信号的梅尔频率倒谱系数的权重,并根据所述S2帧咳嗽声音样本信号的梅尔频率倒谱系数的权重对所述S2帧咳嗽声音样本信号的梅尔频率倒谱系数进行加权求和,获得所述咳嗽声音样本信号的局部特征,所述S2帧咳嗽声音样本信号的梅尔频率倒谱系数的权重与所述S2帧咳嗽声音样本信号的能量系数正相关;
所述从所述声音信号的梅尔频率倒谱系数特征参数矩阵中提取信号特征,包括:
从所述声音信号的梅尔频率倒谱系数特征参数矩阵中选择能量系数之和最大的S2帧声音信号的梅尔频率倒谱系数;
基于所述S2帧声音信号的能量系数确定所述S2帧声音信号的梅尔频率倒谱系数的权重,并根据所述S2帧声音信号的梅尔频率倒谱系数的权重对所述S2帧声音信号的梅尔频率倒谱系数进行加权求和,获得所述声音信号的局部特征,所述S2帧声音信号的梅尔频率倒谱系数的权重与所述S2帧声音信号的能量系数正相关。
可选的,若所述信号特征包括整体趋势特征,所述从所述咳嗽声音样本信号的梅尔频率倒谱系数特征参数矩阵中提取所述信号特征,包括:
采用线性判别分析算法对所述咳嗽声音样本信号的梅尔频率倒谱系数特征参数矩阵进行降维处理,获得所述咳嗽声音样本信号的整体趋势特征;
所述从所述声音信号的梅尔频率倒谱系数特征参数矩阵中提取信号特征,包括:
采用线性判别分析算法对所述声音信号的梅尔频率倒谱系数特征参数矩阵进行降维处理,获得所述声音信号的整体趋势特征。
可选的,所述基于支持向量数据描述算法的咳嗽信号特征模型包括基于支持向量数据描述算法的能量特征模型,基于支持向量数据描述算法的局部特征模型以及基于支持向量数据描述算法的整体趋势特征模型中的一种或多种基于支持向量数据描述算法的子信号特征模型;
若所述基于支持向量数据描述算法的咳嗽信号特征模型包括多种基于支持向量数据描述算法的子信号特征模型,所述确认所述信号特征是否匹配预先获取的基于支持向量数据描述算法的咳嗽信号特征模型,包括:
分别确定所述信号特征中的多种子信号特征是否均匹配预先获取的所述多种基于支持向量数据描述算法的子信号特征模型。
第二方面,本申请实施例还提供了一种咳嗽声音识别设备,所述咳嗽声音识别设备包括:
声音输入单元,用于接收声音信号;
信号处理单元,用于对所述声音信号进行模拟信号处理;
所述信号处理单元与咳嗽声音识别设备内置或者外置的运算处理单元相连,所述运算处理单元包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行:
采样声音信号并获取所述声音信号的梅尔频率倒谱系数特征参数矩阵;
从所述声音信号的梅尔频率倒谱系数特征参数矩阵中提取信号特征;
确认所述信号特征是否匹配预先获取的基于支持向量数据描述算法的咳嗽信号特征模型;
如果匹配,则确认所述声音信号为咳嗽声音。
可选的,所述至少一个处理器还能够执行:
预先获取所述基于支持向量数据描述算法的咳嗽信号特征模型。
可选的,所述预先获取所述基于支持向量数据描述算法的咳嗽信号特征模型,包括:
采集预设数量的咳嗽声音样本信号并获取所述咳嗽声音样本信号的梅尔频率倒谱系数特征参数矩阵;
从所述咳嗽声音样本信号的梅尔频率倒谱系数特征参数矩阵中提取所述信号特征;
将所述咳嗽声音样本信号的信号特征作为输入,训练支持向量数据描述算法模型,以获取所述基于支持向量数据描述算法的咳嗽信号特征模型。
可选的,所述信号特征包括能量特征、局部特征以及整体趋势特征中的一种或多种子信号特征。
可选的,若所述信号特征包括能量特征,所述从所述咳嗽声音样本信号的梅尔频率倒谱系数特征参数矩阵中提取所述信号特征,包括:
从所述咳嗽声音样本信号的梅尔频率倒谱系数特征参数矩阵中选择能量系数之和最大的预设比例的连续帧咳嗽声音样本信号的能量系数;
将所述连续帧咳嗽声音样本信号的能量系数基于动态时间归整算法归整到预设长度获得所述咳嗽声音样本信号的能量特征;
所述从所述声音信号的梅尔频率倒谱系数特征参数矩阵中提取信号特征,包括:
从所述声音信号的梅尔频率倒谱系数特征参数矩阵中选择能量系数之和最大的预设比例的连续帧声音信号的能量系数;
将所述连续帧声音信号的能量系数基于动态时间归整算法归整到预设长度获得所述声音信号的能量特征。
可选的,若所述信号特征包括局部特征,所述从所述咳嗽声音样本信号的梅尔频率倒谱系数特征参数矩阵中提取所述信号特征,包括:
从所述咳嗽声音样本信号的梅尔频率倒谱系数特征参数矩阵中选择能量系数之和最大的连续S2帧咳嗽声音样本信号的梅尔频率倒谱系数,所述S2为正整数;
基于所述S2帧咳嗽声音样本信号的能量系数确定所述S2帧咳嗽声音样本信号的梅尔频率倒谱系数的权重,并根据所述S2帧咳嗽声音样本信号的梅尔频率倒谱系数的权重对所述S2帧咳嗽声音样本信号的梅尔频率倒谱系数进行加权求和,获得所述咳嗽声音样本信号的局部特征,所述S2帧咳嗽声音样本信号的梅尔频率倒谱系数的权重与所述S2帧咳嗽声音样本信号的能量系数正相关;
所述从所述声音信号的梅尔频率倒谱系数特征参数矩阵中提取信号特征,包括:
从所述声音信号的梅尔频率倒谱系数特征参数矩阵中选择能量系数之和最大的S2帧声音信号的梅尔频率倒谱系数;
基于所述S2帧声音信号的能量系数确定所述S2帧声音信号的梅尔频率倒谱系数的权重,并根据所述S2帧声音信号的梅尔频率倒谱系数的权重对所述S2帧声音信号的梅尔频率倒谱系数进行加权求和,获得所述声音信号的局部特征,所述S2帧声音信号的梅尔频率倒谱系数的权重与所述S2帧声音信号的能量系数正相关。
可选的,若所述信号特征包括整体趋势特征,所述从所述咳嗽声音样本信号的梅尔频率倒谱系数特征参数矩阵中提取所述信号特征,包括:
采用线性判别分析算法对所述咳嗽声音样本信号的梅尔频率倒谱系数特征参数矩阵进行降维处理,获得所述咳嗽声音样本信号的整体趋势特征;
所述从所述声音信号的梅尔频率倒谱系数特征参数矩阵中提取信号特征,包括:
采用线性判别分析算法对所述声音信号的梅尔频率倒谱系数特征参数矩阵进行降维处理,获得所述声音信号的整体趋势特征。
可选的,所述基于支持向量数据描述算法的咳嗽信号特征模型包括基于支持向量数据描述算法的能量特征模型,基于支持向量数据描述算法的局部特征模型以及基于支持向量数据描述算法的整体趋势特征模型中的一种或多种基于支持向量数据描述算法的子信号特征模型;
若所述基于支持向量数据描述算法的咳嗽信号特征模型包括多种基于支持向量数据描述算法的子信号特征模型,所述确认所述信号特征是否匹配预先获取的基于支持向量数据描述算法的咳嗽信号特征模型,包括:
分别确定所述信号特征中的多种子信号特征是否均匹配预先获取的多种所述基于支持向量数据描述算法的子信号特征模型。
第三方面,本申请实施例还提供了一种存储介质,所述存储介质存储有可执行指令,所述可执行指令被咳嗽声音识别设备执行时,使所述咳嗽声音识别设备执行上述的方法。
第四方面,本申请实施例还提供了一种程序产品,所述程序产品包括存储在存储介质上的程序,所述程序包括程序指令,当所述程序指令被咳嗽声音识别设备执行时,使所述咳嗽声音识别设备执行上述的方法。
本申请实施例提供的咳嗽声音识别方法、设备和存储介质,能对咳嗽声音进行识别,从而能够通过监测使用者发出的声音对咳嗽情况进行监测,无需使用者佩戴任何检测部件。且由于采用基于MFCC特征参数和SVDD模型的识别算法,算法复杂度低、计算量少,从而对硬件要求低,降低了产品制造成本。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提出一种基于梅尔频率倒谱系数(Mel Frequency CepstralCoefficients,MFCC)特征参数和支持向量数据描述算法(Support Vector DataDescription,SVDD)模型的咳嗽声音识别方案,适用于图1所示的应用环境。所述应用环境包括用户10和咳嗽声音识别设备20,咳嗽声音识别设备20用于接收用户10发出的声音,并对该声音进行识别,以确定该声音是否为咳嗽声音。
进一步的,在识别出该声音为咳嗽声音之后,所述咳嗽声音识别设备20还可以对咳嗽声音进行记录和处理,以输出用户10的咳嗽情况信息,该咳嗽情况信息可以包括咳嗽声音的次数、咳嗽声音的时长以及咳嗽声音的分贝。例如,可以通过在咳嗽声音识别设备中包括计数器,用于在检测到咳嗽声音时,对咳嗽声音进行计数统计;可以通过在咳嗽声音识别设备中包括计时器,用于在检测到咳嗽声音时,对咳嗽声音的持续时长进行统计;可以通过在咳嗽声音识别设备中包括分贝检测装置,用于在检测到咳嗽声音时,检测该咳嗽声音的分贝。
本申请实施例对咳嗽声音的识别原理与语音识别的原理相似,都是将输入的声音经过处理后将其和声音模型进行比较,从而得到识别结果。其可分为两个阶段,分别为咳嗽声音模型训练阶段和咳嗽声音识别阶段。咳嗽声音模型训练阶段主要是采集一定数量的咳嗽声音样本,计算咳嗽声音信号的MFCC特征参数,从MFCC特征参数中提取信号特征,将所述信号特征基于SVDD算法进行模型训练,得到咳嗽声音的参考特征模型。在咳嗽声音识别阶段,对需要判断的声音,计算其MFCC特征参数,并提取与特征模型对应的信号特征,然后判断信号特征是否匹配特征模型,如果匹配,则判为咳嗽声音,否则判为非咳嗽声音。其识别过程主要包括预处理、特征提取、模型训练、模式匹配及判决等。
其中,在预处理步骤,包括采样咳嗽声音信号以及计算所述咳嗽声音信号的MFCC系数。在特征提取步骤,从MFCC系数矩阵中选择咳嗽声音信号的能量特征、整体趋势特征和局部特征,作为输入获取SVDD模型。在模型训练步骤,根据从咳嗽声音信号的MFCC系数矩阵中提取出的三类特征,分别训练出三个SVDD模型,分别为SVDD能量特征模型、SVDD局部特征模型和SVDD整体趋势特征模型。在模式匹配及判决步骤,利用三个SVDD模型来识别新的声音信号是否为咳嗽声音信号。首先计算声音信号的MFCC系数矩阵,然后从MFCC系数矩阵中提取声音信号的能量特征、整体趋势特征和局部特征,再分别判断上述三个特征是否均匹配SVDD能量特征模型、SVDD局部特征模型和SVDD整体趋势特征模型,如果匹配,则判断所述声音信号为咳嗽声音信号,否则,判断所述声音信号不是咳嗽声音信号。
MFCC结合SVDD识别咳嗽声音的方案可以简化算法的复杂度,减少计算量,并能够显著提高咳嗽声音识别的准确性。
本申请实施例提供了一种咳嗽声音识别方法,可以用于上述的咳嗽声音识别设备20,所述咳嗽声音识别方法需要预先获得基于支持向量数据描述算法的特征模型,即基于SVDD算法的特征模型,该基于SVDD算法的特征模型可以是预先配置的,也可以通过步骤101至步骤103中的方法训练得到,在训练得到基于SVDD算法的特征模型后,后续可基于该基于SVDD算法的特征模型识别咳嗽声音,更进一步地,若由于场景变换或其它原因导致该基于SVDD算法的特征模型用于识别咳嗽声音时准确率不合格,可重新配置或训练基于SVDD算法的特征模型。
其中,如图5所示,所述预先获得基于支持向量数据描述算法的特征模型包括:
步骤101:采集预设数量的咳嗽声音样本信号并获取所述咳嗽声音样本信号的梅尔频率倒谱系数特征参数矩阵;
采样得到咳嗽声音样本信号s(n),并根据所述咳嗽声音样本信号获取所述咳嗽声音样本信号的梅尔频率倒谱系数特征参数矩阵。梅尔频率倒谱系数主要用于声音数据特征提取和降低运算维度。例如:对于一帧有512维(采样点)的数据,经过MFCC处理后可以提取出最重要的40维数据,同时也达到了降维的目的。梅尔频率倒谱系数计算一般包括:预加重、分帧、加窗、快速傅里叶变换、梅尔滤波器组和离散余弦变换。
获取所述咳嗽声音样本信号的梅尔频率倒谱系数特征参数矩阵具体包括以下步骤:
①预加重
预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。同时,也是为了消除发生过程中声带和嘴唇的效应,来补偿声音信号受到发音系统所抑制的高频部分,也为了突出高频的共振峰。其实现方法是将经采样后的咳嗽声音样本信号s(n)通过一个一阶有限长单位冲激响应(FiniteImpulse Response,FIR)高通数字滤波器来进行预加重,其传递函数为:
H(z)=1-a·z-1(1)
其中,z表示输入信号,时域表示即为咳嗽声音样本信号s(n),a表示预加重系数,一般取0.9~1.0中的常数。
②分帧
将咳嗽声音样本信号s(n)中每P个采样点集合成一个观测单位,称为帧。P的值可以取256或512,涵盖的时间约为20~30ms左右。为了避免相邻两帧的变化过大,可以让两相邻帧之间有一段重叠区域,此重叠区域包含了M个取样点,M的值可以约为P的1/2或1/3。通常声音信号的采样频率为8KHz或16KHz,以8KHz来说,若帧长度为256个采样点,则对应的时间长度是256/8000×1000=32ms。
③加窗
将每一帧乘以汉明窗,以增加帧左端和右端的连续性。假设分帧后的信号为S(n),n=0,1…,P-1,P为帧的大小,那么乘上汉明窗后:S′(n)=S(n)×W(n),其中,
其中,l表示窗长。
④快速傅里叶变换(Fast Fourier Transform,FFT)
由于信号在时域上的变换通常很难看出信号的特性,所以通常将它转换为频域上的能量分布来观察,不同的能量分布,就能代表不同声音的特性。所以在乘上汉明窗后,每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布。对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。并对语音信号的频谱取模平方得到声音信号的功率谱。
⑤三角带通滤波器滤波
将能量谱通过一组梅尔尺度的三角形滤波器组进行滤波。定义一个有M个滤波器的滤波器组(滤波器的个数和临界带的个数相近),采用的滤波器为三角滤波器,中心频率为f(m),m=1,2,...,M。M可以取22-26。各f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽,请参照图4。
三角滤波器的频率响应定义为:
⑥离散余弦变换
计算每个滤波器组输出的对数能量为:
对对数能量s(m)经离散余弦变换(Dual Clutch Transmission,DCT)得到MFCC系数:
步骤102:从所述咳嗽声音样本信号的梅尔频率倒谱系数特征参数矩阵中提取所述信号特征;
由式(5)可知,MFCC系数为一个N*L的系数矩阵,其中N为声音信号帧数,L为MFCC系数长度。由于MFCC系数矩阵维度较高,且声音信号长度不一致导致矩阵行数N不同,MFCC系数矩阵无法作为直接输入获得SVDD模型。因此需要进一步的从MFCC系数矩阵中提取有效特征,以用于直接输入SVDD模型。
为了进一步从MFCC系数矩阵中提取有效特征,需要对MFCC系数矩阵进行降维,而直接对MFCC矩阵降维可能会损失咳嗽声音信号有效特征,可以结合咳嗽声音信号的时域与频域特性在MFCC系数矩阵中提取有效特征。
请参考图2,图2为咳嗽声音信号的时间-幅度图(时域图),从图2可以看出,咳嗽声音信号的发生过程很短,具有明显的突发性,单声咳嗽声音所持续的时长通常小于550ms,甚至患上严重的咽喉和支气管疾病的病人,他们的单声咳嗽声音的时长也一般维持在1000ms左右。从能量上看,咳嗽声音信号的能量主要集中在信号的前半部分。因此,可以选择能量相对集中的信号段的能量系数作为能量特征来表征咳嗽声音样本信号的特性,例如从所述咳嗽声音样本信号中选择前1/2部分信号的一组能量系数作为能量特征,并将该能量特征作为输入,建立SVDD模型对声音信号进行识别。
由于各个咳嗽声音样本信号长度不一致将导致参数矩阵行数N不同,则能量系数的长度亦不同。因此需要将所述能量系数统一归一化到相同长度。
具体的,从咳嗽声音样本信号的梅尔频率倒谱系数特征参数矩阵中提取能量特征包括:
从所述咳嗽声音样本信号的梅尔频率倒谱系数特征参数矩阵中选择能量系数之和最大的预设比例的连续帧咳嗽声音样本信号的能量系数;
将所述连续帧咳嗽声音样本信号的能量系数基于DTW算法归整到预设长度获得所述咳嗽声音样本信号的能量特征。
具体应用中,结合咳嗽声音信号的能量分布,所述能量系数之和最大的预设比例的连续帧咳嗽声音样本信号,可以是咳嗽声音样本信号的前1/2部分、前4/7部分或者前5/9部分等等。其中,预设长度可以根据实际应用情况进行设定。
从图2中可以看出,大部分咳嗽声音信号(约90%)变化趋势基本一致,在咳嗽脉冲发生之后,信号能量迅速降低,干咳时下降速度较快,湿咳时下降速度稍慢。因此,咳嗽声音信号的变化趋势能很好的表征咳嗽声音信号的特性,可以从咳嗽声音信号的MFCC系数矩阵中提取整体趋势特征(整体趋势特征能反映信号的变化趋势),并将该整体趋势特征作为输入,建立SVDD模型对声音信号进行识别。
具体的,咳嗽声音样本信号的整体趋势特征可以采用线性判别分析算法(LandingDistance Available,LDA),对所述咳嗽声音样本信号的梅尔频率倒谱系数特征参数矩阵进行降维处理获得。
图3为咳嗽声音信号的时间-频率图(频谱图),从图3可以看出,频谱能量也集中在信号开始段,且频率分布范围较广(一般集中在200~6000Hz内)。因此,可以选择咳嗽声音样本信号中频谱能量集中的几帧信号的MFCC系数作为局部特征来表征咳嗽声音信号的特性,并将该局部特征作为输入,建立SVDD模型对声音信号进行识别。具体的,局部特征可以通过如下方法获得:从咳嗽声音样本信号中选取能量最为集中的几帧信号,然后为各帧信号的MFCC系数分配不同的权重并相加,可以获得咳嗽声音样本信号的局部特征。因为咳嗽声音样本信号的梅尔频率倒谱系数的权重与所述咳嗽声音样本信号的能量系数正相关,因此权重值可以根据嗽声音样本信号的能量系数确定。即:从所述咳嗽声音样本信号的梅尔频率倒谱系数特征参数矩阵中选择能量系数之和最大的连续S2帧咳嗽声音样本信号的梅尔频率倒谱系数,所述S2为正整数;然后基于所述S2帧咳嗽声音样本信号的能量系数确定所述S2帧咳嗽声音样本信号的梅尔频率倒谱系数的权重,并根据所述S2帧咳嗽声音样本信号的梅尔频率倒谱系数的权重对所述S2帧咳嗽声音样本信号的梅尔频率倒谱系数进行加权求和,获得所述咳嗽声音样本信号的局部特征。
通过上述分析,能量特征、局部特征和整体趋势特征能反映咳嗽声音信号的特性,从咳嗽声音样本信号的MFCC系数矩阵中提取能量特征、局部特征、整体趋势特征中的一种或多种子信号特征。并将该一种或多种子信号特征作为输入,建立SVDD模型对声音信号进行识别,大大提高了咳嗽声音识别的准确率,同时降低了误识别率。为提高咳嗽声音识别的准确率,可以在MFCC系数矩阵中同时提取能量特征、局部特征和整体趋势特征。在从咳嗽声音样本信号的MFCC系数矩阵中同时提取能量特征、局部特征和整体趋势特征作为输入,训练SVDD模型对声音信号进行识别时,咳嗽声音的识别率可以达到95%以上。
也可以采用其他降维方法对咳嗽声音样本信号的MFCC系数进行降维,例如采用DTW、主成分分析(Principal Component Analysis,PCA)等算法对MFCC系数进行降维。在采用PCA算法对咳嗽声音样本信号的MFCC系数进行降维,并利用降维后的参数训练SVDD模型的场合,获得的咳嗽声音信号的SVDD模型,对咳嗽声音与噪声区分度很小,咳嗽声音识别率约为85%,噪声误识别率达到65%。
步骤103:将所述咳嗽声音样本信号的信号特征作为输入,训练支持向量数据描述算法模型,以获取所述基于支持向量数据描述算法的咳嗽信号特征模型。
在所述信号特征包括能量特征、局部特征和整体趋势特征的场合,分别将所述能量特征、局部特征和整体趋势特征作为输入,训练SVDD模型,即训练能量特征的SVDD模型(能量特征模型)、局部特征的SVDD模型(局部特征模型)和整体趋势特征的SVDD模型(整体趋势特征模型)。从而获得由能量特征模型、局部特征模型和整体趋势特征模型组成的基于支持向量数据描述算法的咳嗽信号特征模型。
SVDD基本原理是为输入样本计算一个球状的决策边界,将整个空间划分为两部分,一部分是边界内的空间,看作可接受的部分;另一部分则是边界外的空间,看作是拒绝的部分。这就使SVDD具有一类样本的分类特征。
具体地,SVDD的优化目标就是,求一个中心为a,半径为R的最小球面:
使得这个球面满足(对于3维以上的数据xi,该球面即为超球面。其中,超球面是指3维以上的空间中的球面,对应的2维空间中就是曲线,3维空间中就是球面):
满足这个条件就是说要把训练数据集中的数据点都包含在球面里,其中xi表示输入样本数据,即咳嗽声音样本信号。
现在有了要求解的目标,又有了约束,接下来的求解方法可以采用Lagrangian乘子法:
其中αi≥0,γi≥0,分别对参数R,a,ξi求偏导并令导数等于0得到:
将上面(7)、(8)、(9)代入式(6)中,便可得到其对偶问题:
上面的向量内积可以通过核函数K解决,即:
通过上述计算过程可以得到中心a,半径为R的取值,也即确定了SVDD模型。分别利用上述计算过程训练得到3个SVDD模型的中心a1、a2、a3和半径R1、R2、R3后,分别对应能量特征模型、局部特征模型和整体趋势特征模型,训练过程完成。
在训练的过程中,我们一方面通过控制超球的大小和范围使超球面包含住尽可能多的样本点,另一方面我们又要求它的半径达到最小,使其达到最优化的分类效果。
具体地,在本申请实施例中,能量特征模型、局部特征模型和整体趋势特征模型,每一模型对应一个超球面,并在包含所有咳嗽声音信号前提下,优化超球面边界,使得它的半径达到最小,最终得到最符合要求的基于支持向量数据描述算法的咳嗽信号特征模型,从而使得利用该基于支持向量数据描述算法的咳嗽信号特征模型对提取到的声音信号的信号特征进行识别时准确率高。
如图6所示,所述咳嗽声音识别方法包括:
步骤201:采样声音信号并获取所述声音信号的梅尔频率倒谱系数特征参数矩阵;
在实际应用中,可以在所述咳嗽声音识别设备20上设置声音输入单元(例如麦克风)来采集声音信号,对声音信号进行放大、滤波等处理后转换成数字信号。该数字信号可以在咳嗽声音识别设备20本地的运算处理单元中进行采样及其他计算处理,也可以通过网络上传到云端服务器、智能终端或者其他服务器中进行处理。
其中,获取声音信号的梅尔频率倒谱系数特征参数矩阵的技术细节请参照步骤101,在此不再赘述。
步骤202:从所述声音信号的梅尔频率倒谱系数特征参数矩阵中提取信号特征;
在预先获取的基于支持向量数据描述算法的特征模型包括能量特征模型、局部特征模型和整体趋势特征模型的场合,可以从声音信号的特征参数矩阵中提取能量特征、局部特征和整体趋势特征中的一种或者几种。为提高识别准确率,可以全部提取三个特征,即能量特征、局部特征和整体趋势特征。其中,所述声音信号的能量特征、局部特征和整体趋势特征的具体计算方法请参照步骤102,在此不再赘述。
步骤203:确认所述信号特征是否匹配预先获取的基于支持向量数据描述算法的咳嗽信号特征模型;
在预先获取的基于支持向量数据描述算法的特征模型包括能量特征模型、局部特征模型和整体趋势特征模型的场合,分别判断步骤202中获取的能量特征、局部特征和整体趋势特征是否符合特征模型,即能量特征是否符合能量特征模型、局部特征是否符合局部特征模型以及整体趋势特征是否符合整体趋势特征模型。由步骤103的论述可知,能量特征模型、局部特征模型和整体趋势特征模型分别是中心为a1、a2、a3,半径为R1、R2、R3的超球面模型。在判断能量特征、局部特征和整体趋势特征是否符合特征模型时,可以分别计算能量特征、局部特征和整体趋势特征到中心a1、a2、a3的距离D1、D2、D3,只有当三个特征全部在SVDD模型边界内(即D1<R1,D2<R2,D3<R3)时,才能判定该声音样本为咳嗽声音。
步骤204:如果匹配,则确认所述声音信号为咳嗽声音。
本申请实施例提供的咳嗽声音识别方法,能对咳嗽声音进行识别,从而能够通过监测使用者发出的声音对咳嗽情况进行监测,无需使用者佩戴任何检测部件。且由于采用基于MFCC特征参数和SVDD模型的识别算法,算法复杂度低、计算量少,从而对硬件要求低,降低了产品制造成本。
相应的,本申请实施例还提供了一种咳嗽声音识别装置,用于识别设备20,所述装置包括:
采样及特征参数获取模块301,用于采样声音信号并获取所述声音信号的梅尔频率倒谱系数特征参数矩阵;
信号特征提取模块302,用于从所述声音信号的梅尔频率倒谱系数特征参数矩阵中提取信号特征;
特征匹配模块303,用于确认所述信号特征是否匹配预先获取的基于支持向量数据描述算法的咳嗽信号特征模型;
确认模块304,用于如果所述信号特征匹配预先获取的基于支持向量数据描述算法的咳嗽信号特征模型,则确认所述声音信号为咳嗽声音。
本申请实施例提供的咳嗽声音识别装置,能对咳嗽声音进行识别,从而能够通过监测使用者发出的声音对咳嗽情况进行监测,无需使用者佩戴任何检测部件。且由于采用基于MFCC特征参数和SVDD模型的识别算法,算法复杂度低、计算量少,从而对硬件要求低,降低了产品制造成本。
可选的,在所述装置的其他实施例中,所述装置还包括:
特征模型预设模块,用于预先获取所述基于支持向量数据描述算法的咳嗽信号特征模型;
所述特征模型预设模块,具体用于:
采集预设数量的咳嗽声音样本信号并获取所述咳嗽声音样本信号的梅尔频率倒谱系数特征参数矩阵;
从所述咳嗽声音样本信号的梅尔频率倒谱系数特征参数矩阵中提取所述信号特征;
将所述咳嗽声音样本信号的信号特征作为输入,训练支持向量数据描述算法模型,以获取基于支持向量数据描述算法的咳嗽信号特征模型。
其中,可选的,在所述装置的某些实施例中,所述信号特征包括:所述信号特征包括能量特征、局部特征以及整体趋势特征中的一种或多种子信号特征。
可选的,在所述装置的某些实施例中,若所述信号特征包括能量特征,所述从所述咳嗽声音样本信号的梅尔频率倒谱系数特征参数矩阵中提取所述信号特征,包括:
从所述咳嗽声音样本信号的梅尔频率倒谱系数特征参数矩阵中选择能量系数之和最大的预设比例的连续帧咳嗽声音样本信号的能量系数;
将所述连续帧咳嗽声音样本信号的能量系数基于动态时间归整算法归整到预设长度;
所述从所述声音信号的梅尔频率倒谱系数特征参数矩阵中提取信号特征,包括:
从所述声音信号的梅尔频率倒谱系数特征参数矩阵中选择能量系数之和最大的预设比例的连续帧声音信号的能量系数;
将所述连续帧声音信号的能量系数基于动态时间归整算法归整到预设长度。
可选的,在所述装置的某些实施例中,若所述信号特征包括局部特征,所述从所述咳嗽声音样本信号的梅尔频率倒谱系数特征参数矩阵中提取所述信号特征,包括:
从所述咳嗽声音样本信号的梅尔频率倒谱系数特征参数矩阵中选择能量系数之和最大的连续S2帧咳嗽声音样本信号的梅尔频率倒谱系数,所述S2为正整数;
基于所述S2帧咳嗽声音样本信号的能量系数确定所述S2帧咳嗽声音样本信号的梅尔频率倒谱系数的权重,并根据所述S2帧咳嗽声音样本信号的梅尔频率倒谱系数的权重对所述S2帧咳嗽声音样本信号的梅尔频率倒谱系数进行加权求和,获得所述咳嗽声音样本信号的局部特征,所述S2帧咳嗽声音样本信号的梅尔频率倒谱系数的权重与所述S2帧咳嗽声音样本信号的能量系数正相关;
所述从所述声音信号的梅尔频率倒谱系数特征参数矩阵中提取信号特征,包括:
从所述声音信号的梅尔频率倒谱系数特征参数矩阵中选择能量系数之和最大的S2帧声音信号的梅尔频率倒谱系数;
基于所述S2帧声音信号的能量系数确定所述S2帧声音信号的梅尔频率倒谱系数的权重,并根据所述S2帧声音信号的梅尔频率倒谱系数的权重对所述S2帧声音信号的梅尔频率倒谱系数进行加权求和,获得所述声音信号的局部特征,所述S2帧声音信号的梅尔频率倒谱系数的权重与所述S2帧声音信号的能量系数正相关。
可选的,在所述装置的某些实施例中,若所述信号特征包括整体趋势特征,所述从所述咳嗽声音样本信号的梅尔频率倒谱系数特征参数矩阵中提取所述信号特征,包括:
采用线性判别分析算法对所述咳嗽声音样本信号的梅尔频率倒谱系数特征参数矩阵进行降维处理,获得所述咳嗽声音样本信号的整体趋势特征;
所述从所述声音信号的梅尔频率倒谱系数特征参数矩阵中提取信号特征,包括:
采用线性判别分析算法对所述声音信号的梅尔频率倒谱系数特征参数矩阵进行降维处理,获得所述声音信号的整体趋势特征。
可选的,在所述装置的某些实施例中,所述基于支持向量数据描述算法的咳嗽信号特征模型包括基于支持向量数据描述算法的能量特征模型,基于支持向量数据描述算法的局部特征模型以及基于支持向量数据描述算法的整体趋势特征模型中的一种或多种基于支持向量数据描述算法的子信号特征模型;
若所述基于支持向量数据描述算法的咳嗽信号特征模型包括多种基于支持向量数据描述算法的子信号特征模型,所述确认所述咳嗽信号特征是否匹配预先获取的基于支持向量数据描述算法的咳嗽信号特征模型,包括:
分别确定所述信号特征中的多种子信号特征是否均匹配预先获取的多种所述基于支持向量数据描述算法的子信号特征模型。
需要说明的是,上述装置可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本申请实施例还提供了一种咳嗽声音识别设备,如图8所示,所述咳嗽声音识别设备20包括声音输入单元21、信号处理单元22和运算处理单元23。其中:声音输入单元21,用于接收声音信号,所述声音输入单元可以例如是麦克风等。信号处理单元22,用于对所述声音信号进行信号处理;所述信号处理单元22可以对所述声音信号进行放大、滤波、数模转换等模拟信号处理,将获得的数字信号发送给运算处理单元23。
所述信号处理单元22与咳嗽声音识别设备内置或者外置的运算处理单元23相连(图8以运算处理单元内置在咳嗽声音识别设备中为例说明),运算处理单元23可以内置在咳嗽声音识别设备20上,也可以外置在咳嗽声音识别设备20外部,所述运算处理单元23还可以是远程设置的服务器,例如可以是通过网络与咳嗽声音识别设备20通信连接的云端服务器、智能终端或者其他服务器。
所述运算处理单元23包括:
至少一个处理器232(图8中以一个处理器举例说明)和存储器231,处理器232和存储器231可以通过总线或者其他方式连接,图8中以通过总线连接为例。
存储器231用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的咳嗽声音识别方法对应的程序指令/模块(例如,附图7所示的采样及特征参数获取模块301)。处理器232通过运行存储在存储器231中的非易失性软件程序、指令以及模块,从而执行各种功能应用以及数据处理,即实现上述方法实施例的咳嗽声音识别方法。
存储器231可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据咳嗽声音识别装置使用所创建的数据等。此外,存储器231可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器231可选包括相对于处理器232远程设置的存储器,这些远程存储器可以通过网络连接至咳嗽声音识别装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器231中,当被所述一个或者多个处理器232执行时,执行上述任意方法实施例中的咳嗽声音识别方法,例如,执行以上描述的图5中的方法步骤101-103,图6中的方法步骤201至步骤204;实现图7中的模块301-304的功能。
本申请实施例提供的咳嗽声音识别设备,能对咳嗽声音进行识别,从而能够通过监测使用者发出的声音对咳嗽情况进行监测,无需使用者佩戴任何检测部件。且由于采用基于MFCC特征参数和SVDD模型的识别算法,算法复杂度低、计算量少,从而对硬件要求低,降低了产品制造成本。
上述咳嗽声音识别设备可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本申请实施例提供了一种存储介质,所述存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行(例如图8中的一个处理器232),可使得上述一个或多个处理器可执行上述任意方法实施例中的咳嗽声音识别方法,例如,执行以上描述的图5中的方法步骤101-103,图6中的方法步骤201至步骤204;实现图7中的模块301-304的功能。
以上所描述的实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施例的描述,本领域普通技术人员可以清楚地了解到各实施例可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;在本申请的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本申请的不同方面的许多其它变化,为了简明,它们没有在细节中提供;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。