CN106297795A - 语音识别方法及装置 - Google Patents
语音识别方法及装置 Download PDFInfo
- Publication number
- CN106297795A CN106297795A CN201510271782.7A CN201510271782A CN106297795A CN 106297795 A CN106297795 A CN 106297795A CN 201510271782 A CN201510271782 A CN 201510271782A CN 106297795 A CN106297795 A CN 106297795A
- Authority
- CN
- China
- Prior art keywords
- frame
- current sound
- voiced
- sound frame
- calculate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
Abstract
一种语音识别方法及装置,所述语音识别方法包括:将获取的声音数据进行分帧处理,以得到至少两个声音帧;从所述至少两个声音数据帧中选取满足选取条件的声音帧;计算所述满足选取条件的声音帧的语音识别分值;当计算得到的语音识别分值大于预设的分值阈值时,对所述获取的声音数据进行语音识别。上述的方案可以节约计算资源,提升语音识别的速度。
Description
技术领域
本发明属于语音识别技术领域,特别是涉及一种语音识别方法及装置。
背景技术
移动终端,是指可以在移动中使用的计算机设备,广义地讲包括手机、笔记本、平板电脑、POS机、车载电脑等。随着集成电路技术的飞速发展,移动终端已经拥有了强大的处理能力,移动终端正在从简单的通话工具变为一个综合信息处理平台,这也给移动终端增加了更加宽广的发展空间。
移动终端的使用,通常需要用户集中一定的注意力。如今的移动终端设备都配备有触摸屏,用户需要触摸所述触摸屏,以执行相应的操作。但是,用户无法触碰到移动终端设备时,操作移动终端便会变得极其不方便。例如,当用户驾驶车辆或者手中提有物品的时候。
语音识别方法和总听系统(Always Listening System)的使用,使得可以对移动终端进行非手动激活和操作。当所述总听系统检测到声音信号时,语音识别系统便会激活,并对检测到的声音信号进行识别,之后,移动终端便会根据所识别出的声音信号执行相应的操作,例如,当用户输入“拨打XX的手机”的语音时,移动终端便可以对用户输入的“拨打XX的手机”的语音信息进行识别,并在正确识别后,从移动终端中获取XX的手机号码的信息,并拨打。
但是,现有技术中的语音识别方法,在进行语音识别时,存在着计算量大、识别速度慢的问题。
发明内容
本发明实施例解决的问题是节省语音识别的计算资源,提高语音识别的速度。
为解决上述问题,本发明实施例提供了一种语音识别方法,所述语音识别方法包括:
将获取的声音数据进行分帧处理,以得到至少两个声音帧;
从所述至少两个声音数据帧中选取满足选取条件的声音帧;
计算所述满足选取条件的声音帧的语音识别分值;
当计算得到的语音识别分值大于预设的分值阈值时,对所述获取的声音数据进行语音识别。
可选地,所述从所述至少两个声音数据帧中选取满足选取条件的声音帧,包括:
计算当前声音帧的后信噪比;
根据所述当前声音帧的后信噪比计算前一声音帧和当前声音帧之间的后验信噪比权重能量距离;
计算当前声音帧的第一选取阈值;
当所述前一声音帧和当前声音帧之间的后验信噪比权重能量距离大于当前声音帧的第一选取阈值时,则选取当前声音帧。
可选地,采用如下的公式计算当前声音帧的后信噪比:
其中,SNRpost(t)表示当前声音帧的后信噪比,t表示当前声音帧的位序,E(t)表示当前声音帧的嘈杂语音能量,Enoise(t)表示当前声音帧的噪音能量。
可选地,采用如下的公式计算前一声音帧和当前声音帧之间的后验信噪比权重能量距离:
D(t)=|logE(t)-logE(t-1)|×SNRpost(t);其中,D(t)表示前一声音帧和当前声音帧之间的后验信噪比权重能量距离,logE(t)表示当前声音帧的对数能量,logE(t-1)表示前一声音帧的对数能量。
可选地,采用如下的公式计算当前声音帧的第一选取阈值:
T(t)=Da(t)×f(logEnoise(t)),其中,T(t)表示当前声音帧的第二选取阈值,Da(t)表示当前声音帧之前的连续声音帧的后验信噪比权重能量距离均值,f(logEnoise(t))为S型函数。
可选地,所述从得到的多个声音数据帧中选取满足预设的选取条件的声音帧,包括:
计算当前声音帧的后信噪比;
当确定计算得到的后信噪比大于预设的第二选取阈值时,选取当前声音帧。
可选地,采用如下的公式计算当前声音帧的后信噪比:
其中,SNRpost(t)表示当前声音帧的后信噪比,t表示当前声音帧的位序,E(t)表示当前声音帧的嘈杂语音能量,Enoise(t)表示当前声音帧的噪音能量。
可选地,采用如下的公式计算所述满足选取条件的声音帧的语音识别分值,包括:
本发明实施例还提供了一种语音识别装置,所述语音识别装置包括:
分帧处理单元,适于将获取的声音数据进行分帧处理,以得到至少两个声音帧;
选取单元,适于从所述至少两个声音数据帧中选取满足选取条件的声音帧;
计算单元,适于计算所述满足选取条件的声音帧的语音识别分值;
识别单元,适于当计算得到的语音识别分值大于预设的分值阈值时,对所述获取的声音数据进行语音识别。
可选地,所述选取单元适于计算当前声音帧的后信噪比;根据所述当前声音帧的后信噪比计算前一声音帧和当前声音帧之间的后验信噪比权重能量距离;计算当前声音帧的第二选取阈值;当所述前一声音帧和当前声音帧之间的后验信噪比权重能量距离大于当前声音帧的第二选取阈值时,则选取当前声音帧。
可选地,所述选取单元适于计算当前声音帧的后信噪比;当确定计算得到的后信噪比大于预设的第一选取阈值时,选取当前声音帧。
与现有技术相比,本发明的技术方案具有以下的优点:
通过从待识别的声音数据中选取满足预设条件的声音帧进行语音识别,可以排除不包括语音信息的非语音数据帧,而仅对所选取的声音帧均进行语音识别处理,因此,可以节约计算资源,提升语音识别的速度,提升用户的使用体验。
进一步地,根据计算得到的当前声音帧的后信噪比,计算得到当前声音帧和前一声音帧的后验信噪比权重能量距离,并将计算得到的后验信噪比权重能量距离与计算得到的当前声音帧的第二选取阈值进行比较,与仅仅计算当前声音帧的后信噪比相比,可以将更多的不包括语音信息的非语音声音帧排除在外,因此,可以进一步节省计算资源,提升语音识别的速度。
进一步地,通过仅仅将计算得到的当前声音帧的后信噪比与预设的第一选取阈值进行比较,可以将更多的不包括语音信息的声音帧排除,并可以节省计算资源,因此,可以进一步提高语音识别的速度。
附图说明
图1是本发明实施例中的一种语音识别方法的流程图;
图2是本发明实施例中的另一种语音识别方法的流程图;
图3是本发明实施例中的又一种语音识别方法的流程图;
图4是本发明实施例中的一种语音识别装置的结构示意图。
具体实施方式
现有技术中的语音识别方法,在进行语音识别时,通常以固定帧率(FixedFrame Rate,FFR)对待识别的声音数据划分得到的多个声音帧进行语音识别处理。由于划分得到的多个声音帧中的某些声音帧中并不包括语音信息,对这些不包括语音信息的非语音帧进行语音识别处理,不仅对于语音识别毫无意义,而且还会浪费计算资源,降低语音的识别速度。
为解决现有技术中存在的上述问题,本发明实施例采用的技术方案通过从待识别的声音数据中选取满足预设条件的声音帧进行语音识别,可以节约计算资源,提升语音识别的速度,提升用户的使用体验。
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
图1示出了本发明实施例中的一种语音识别方法的流程图。如图1所示的语音识别方法,可以包括:
步骤S101:将获取的声音数据进行分帧处理,以得到至少两个声音帧。
在具体实施中,可以采用麦克来对输入的声音信号进行实时采集。当采集到声音数据时,通过相应的处理,将输入的声音信号转换成为对应的声音数据。之后,可以对转换得到的声音数据进行分帧处理,从而得到至少两个声音帧。
步骤S102:从所述至少两个声音数据帧中选取满足选取条件的声音帧。
现有的语音识别方法,在进行语音识别时,通常需要对声音数据划分得到的所述至少两个声音帧均进行相应的语音识别处理。但是,并不是每个声音帧中均包括语音信息,而对不包括语音信息的声音帧进行语音识别处理将会浪费资源,并且会降低语音识别的速度。因此,在本发明实施例中,首先从划分得到的至少两个的声音帧中选取部分声音帧,将部分不包括语音数据的声音帧排除,这样,可以节省资源,并可以提升语音识别的速度。
步骤S103:计算所述满足选取条件的声音帧的语音识别分值。
在具体实施中,所述选取条件可以根据实际的需要进行设置。
步骤S104:当计算得到的语音识别分值大于预设的分值阈值时,对所述获取的声音数据进行语音识别。
在具体实施中,当根据所选取的声音帧计算得到的语音识别分值大于预设的分值阈值时,可以确定所获取的声音数据中包含有用户的语音信息,此时,可以对获取的声音数据进行语音识别。反之,则不需要对其进行语音识别。其中,语音识别分值可以根据实际的需要进行设置。
图2示出了本发明实施例中的另一种语音识别方法的流程图。如图2所示的语音识别方法,可以包括:
步骤S201:将获取的声音数据进行分帧处理,以得到至少两个声音帧。
步骤S202:遍历所述至少两个声音帧。
步骤S203:计算当前声音帧的后信噪比。
在具体实施中,为了确定选取哪些声音帧,可以遍历所述至少两个声音帧,并对各个声音帧分别采用如下的公式计算对应的后信噪比(post SNR):
其中,SNRpost(t)表示当前声音帧的后信噪比,t表示当前声音帧的位序,E(t)表示当前声音帧的嘈杂语音(noisy speech)能量,Enoise(t)表示当前声音帧的噪音能量。
步骤S204:根据所述当前声音帧的后信噪比计算前一声音帧和当前声音帧之间的后验信噪比权重能量距离。
在本发明一实施例中,采用如下的公式计算前一声音帧和当前声音帧之间的后验信噪比权重能量距离:
D(t)=|logE(t)-logE(t-1)|×SNRpost(t) (2)
其中,D(t)表示前一声音帧和当前声音帧之间的后验信噪比权重能量距离,logE(t)表示当前声音帧的对数能量,logE(t-1)表示前一声音帧的对数能量。
步骤S205:计算当前声音帧的第一选取阈值。
在本发明一实施例中,需要对所获取的声音数据划分得到的每个声音帧均计算相应的第一选取阈值。具体地,各个声音帧的第一选取阈值可以采用如下的公式计算得到:
T(t)=Da(t)×f(logEnoise(t)) (3)
其中,T(t)表示当前声音帧的第一选取阈值,Da(t)表示包括当前声音帧在内的两个连续声音帧的后验信噪比权重能量距离均值,f(logEnoise(t))为S型函数(sigmoid function)。
这里需要指出的是,Da(t)并不是一个常量,其随着声音帧的变化而变化。以所获取的声音数据划分得到3个声音帧——第一声音帧、第二声音帧和第三声音帧为例,其中,D(1)表示第一声音帧与前一声音帧的后验信噪比权重能量距离(为第一声音帧的能量对数与第一声音帧的后信噪比的乘积),D(2)表示第二声音帧和第一声音帧的后验信噪比权重能量距离,D(3)表示第三声音帧和第二声音帧的后验信噪比权重能量距离。那么,在采用公式(3)计算第一声音帧的第一选取阈值时,Da(1)等于D(1);计算第二声音帧的第一选取阈值时,Da(2)为D(1)和D(2)的平均值;计算第三声音帧的第一选取阈值时,Da(3)为D(1)、D(2)和D(3)的平均值。因此,可见,Da(t)随着声音帧进行更新。
步骤S206:将所述前一声音帧和当前声音帧之间的后验信噪比权重能量距离与当前声音帧的第一选取阈值进行比较。
步骤S207:当确定所述前一声音帧和当前声音帧之间的后验信噪比权重能量距离大于当前声音帧的第一选取阈值时,选取当前声音帧。
步骤S208:计算所述满足选取条件的声音帧的语音识别分值。
在本发明一实施例中,可以采用移动平均法(moving average method)来计算满足选取条件的声音帧的语音识别分值,具体为采用如下的公式计算所述满足选取条件的声音帧的语音识别分值,包括:
其中,Mn表示计算得到的语音识别分值,n表示所选取的声音帧中位于中间的声音帧的位序,n-表示所选取的声音帧中起始声音帧的位序,n+表示所选取的声音帧中终止声音帧的位序,α表示预设的调整参数,m表示随着所选取的声音帧位序变化的正整数,f(α×(n+m))表示移动平均法预测模型。
在采用上述的公式(4)计算满足选取条件的声音帧的语音识别分值时,计算得到的Mn是以10ms的帧移计算得出的,可以用于作为平均移动窗口内的声音帧的平均数量的衡量。
步骤S209:当计算得到的语音识别分值大于预设的分值阈值时,对所述获取的声音数据进行语音识别。
在具体实施中,当当计算得到的语音识别分值大于预设的分值阈值时,确定所获取的声音数据中包括语音信息,接着便可以对所获取的声音数据进行语音识别。
在具体实施中,当识别出所获取的声音数据中的语音信息时,移动终端可以执行相应的操作。例如,当移动终端识别出的语音信息为“打开FACEBOOK”时,移动终端将会为用户打开FACEBOOK。
在具体实施中,为了进一步将不包括语音数据的声音帧排除在外,可以仅仅通过将各个声音帧的后信噪比与预设的第二选取阈值进行比较来进行确定,这样不仅可以节省计算资源,同时也可以进一步提高语音识别的速度,具体请参见图3所示。
图3示出了本发明实施例中的另一种语音识别方法的流程图。如图3所示的语音识别方法,可以包括:
步骤S301:将获取的声音数据进行分帧处理,以得到至少两个声音帧。
在本发明一实施例中,为了便于对声音帧的分析处理,将获取的声音数据划分得到的至少两个声音帧中各个声音帧的长度为25ms,相邻两个声音帧之间的帧移为1ms。
步骤S302:遍历所得到的至少两个声音帧,并计算当前声音帧的后信噪比。
在本发明实施例中,采用上述的公式(1)计算出的后信噪比,可以直接用在在后续步骤中判断是否选取当前声音帧。
这里需要指出的是,与计算先信噪比(priori SNR)相比,采用声音帧的后信噪比来确定是否选取声音帧将变得更加直观、明确,因为在计算各个声音帧的先信噪比需要对当前声音帧中的纯净语音的能量进行预估,而对声音帧中的纯净语音能量进行评估将是一件相当不易的事情。
步骤S303:将当前声音帧的后信噪比与预设的第二选取阈值进行比较。
在具体实施中,第二选取阈值可以根据实际的需要进行设定。
步骤S304:当确定当前帧的后信噪比大于预设的第二选取阈值时,选取当前声音帧。
在具体实施中,当确定当前帧的后信噪比大于第二选取阈值时,说明当前帧中可能包括有语音信息,此时选取当前帧。反之,则舍弃当前帧,而继续进行下一声音帧的判断。
步骤S305:计算所述满足选取条件的声音帧的语音识别分值。
步骤S306:当计算得到的语音识别分值大于预设的分值阈值时,对所述获取的声音数据进行语音识别。
图4示出了本发明实施例还提供了一种语音识别装置。如图4所示的语音识别装置,可以包括分帧处理单元401、选取单元402、计算单元403和识别单元404,其中:
分帧处理单元401,适于将获取的声音数据进行分帧处理,以得到至少两个声音帧。
选取单元402,适于从所述至少两个声音数据帧中选取满足选取条件的声音帧。在本发明一实施例中,选取单元402适于计算当前声音帧的后信噪比。当确定计算得到的后信噪比大于预设的第一选取阈值时,选取当前声音帧。在本发明另一实施例中,选取单元402适于计算当前声音帧的后信噪比;根据所述当前声音帧的后信噪比计算前一声音帧和当前声音帧之间的后验信噪比权重能量距离;计算当前声音帧的第二选取阈值;当所述前一声音帧和当前声音帧之间的后验信噪比权重能量距离大于当前声音帧的第二选取阈值时,则选取当前声音帧。
计算单元403,适于计算所述满足选取条件的声音帧的语音识别分值。
识别单元404,适于当计算得到的语音识别分值大于预设的分值阈值时,对所述获取的声音数据进行语音识别。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
以上对本发明实施例的方法及系统做了详细的介绍,本发明并不限于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
Claims (11)
1.一种语音识别方法,其特征在于,包括:
将获取的声音数据进行分帧处理,以得到至少两个声音帧;
从所述至少两个声音数据帧中选取满足选取条件的声音帧;
计算所述满足选取条件的声音帧的语音识别分值;
当计算得到的语音识别分值大于预设的分值阈值时,对所述获取的声音数据进行语音识别。
2.根据权利要求1所述的语音识别方法,其特征在于,所述从所述至少两个声音数据帧中选取满足选取条件的声音帧,包括:
计算当前声音帧的后信噪比;
根据所述当前声音帧的后信噪比计算前一声音帧和当前声音帧之间的后验信噪比权重能量距离;
计算当前声音帧的第一选取阈值;
当所述前一声音帧和当前声音帧之间的后验信噪比权重能量距离大于当前声音帧的第一选取阈值时,则选取当前声音帧。
3.根据权利要求2所述的语音识别方法,其特征在于,采用如下的公式计算当前声音帧的后信噪比:
其中,SNRpost(t)表示当前声音帧的后信噪比,t表示当前声音帧的位序,E(t)表示当前声音帧的嘈杂语音能量,Enoise(t)表示当前声音帧的噪音能量。
4.根据权利要求3所述语音识别方法,其特征在于,采用如下的公式计算前一声音帧和当前声音帧之间的后验信噪比权重能量距离:
D(t)=|logE(t)-logE(t-1)|×SNRpost(t);其中,D(t)表示前一声音帧和当前声音帧之间的后验信噪比权重能量距离,logE(t)表示当前声音帧的对数能量,logE(t-1)表示前一声音帧的对数能量。
5.根据权利要求4所述的语音识别方法,其特征在于,采用如下的公式计算当前声音帧的第一选取阈值:
T(t)=Da(t)×f(logEnoise(t)),其中,T(t)表示当前声音帧的第一选取阈值,Da(t)表示当前声音帧之前的连续声音帧的后验信噪比权重能量距离均值,f(logEnoise(t))为S型函数。
6.根据权利要求1所述的语音识别方法,其特征在于,所述从得到的多个声音数据帧中选取满足预设的选取条件的声音帧,包括:
计算当前声音帧的后信噪比;
当确定计算得到的后信噪比大于预设的第二选取阈值时,选取当前声音帧。
7.根据权利要求6所述的语音识别方法,其特征在于,采用如下的公式计算当前声音帧的后信噪比:
其中,SNRpost(t)表示当前声音帧的后信噪比,t表示当前声音帧的位序,E(t)表示当前声音帧的嘈杂语音能量,Enoise(t)表示当前声音帧的噪音能量。
8.根据权利要求2或7所述的语音识别方法,其特征在于,采用如下的公式计算所述满足选取条件的声音帧的语音识别分值,包括:
其中,Mn表示计算得到的语音识别分值,n表示当前声音帧的位序,n-表示所选取的声音帧中起始声音帧的位序,n+表示所选取的声音帧中终止声音帧的位序,α表示预设的调整参数,m表示随着所选取的声音帧位序变化的正整数,f(α×(n+m))表示移动平均法预测模型。
9.一种语音识别装置,其特征在于,包括:
分帧处理单元,适于将获取的声音数据进行分帧处理,以得到至少两个声音帧;
选取单元,适于从所述至少两个声音数据帧中选取满足选取条件的声音帧;
计算单元,适于计算所述满足选取条件的声音帧的语音识别分值;
识别单元,适于当计算得到的语音识别分值大于预设的分值阈值时,对所述获取的声音数据进行语音识别。
10.根据权利要求9所述的语音识别装置,其特征在于,所述选取单元适于计算当前声音帧的后信噪比;根据所述当前声音帧的后信噪比计算前一声音帧和当前声音帧之间的后验信噪比权重能量距离;计算当前声音帧的第一选取阈值;当所述前一声音帧和当前声音帧之间的后验信噪比权重能量距离大于当前声音帧的第一选取阈值时,则选取当前声音帧。
11.根据权利要求9所述的语音识别装置,其特征在于,所述选取单元适于计算当前声音帧的后信噪比;当确定计算得到的后信噪比大于预设的第二选取阈值时,选取当前声音帧。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510271782.7A CN106297795B (zh) | 2015-05-25 | 2015-05-25 | 语音识别方法及装置 |
CN201910945249.2A CN110895930B (zh) | 2015-05-25 | 2015-05-25 | 语音识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510271782.7A CN106297795B (zh) | 2015-05-25 | 2015-05-25 | 语音识别方法及装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910945249.2A Division CN110895930B (zh) | 2015-05-25 | 2015-05-25 | 语音识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106297795A true CN106297795A (zh) | 2017-01-04 |
CN106297795B CN106297795B (zh) | 2019-09-27 |
Family
ID=57634654
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910945249.2A Active CN110895930B (zh) | 2015-05-25 | 2015-05-25 | 语音识别方法及装置 |
CN201510271782.7A Active CN106297795B (zh) | 2015-05-25 | 2015-05-25 | 语音识别方法及装置 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910945249.2A Active CN110895930B (zh) | 2015-05-25 | 2015-05-25 | 语音识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN110895930B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107702706A (zh) * | 2017-09-20 | 2018-02-16 | 广东欧珀移动通信有限公司 | 路径确定方法、装置、存储介质及移动终端 |
CN107738622A (zh) * | 2017-08-29 | 2018-02-27 | 科大讯飞股份有限公司 | 车辆智能响应方法及装置、存储介质、电子设备 |
CN112420079A (zh) * | 2020-11-18 | 2021-02-26 | 青岛海尔科技有限公司 | 语音端点检测方法和装置、存储介质及电子设备 |
WO2023050301A1 (zh) * | 2021-09-30 | 2023-04-06 | 华为技术有限公司 | 语音质量评估、语音识别质量预测与提高的方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101122636A (zh) * | 2006-08-09 | 2008-02-13 | 富士通株式会社 | 声音到达方向的估测方法以及声音到达方向的估测设备 |
US20080109219A1 (en) * | 2003-10-16 | 2008-05-08 | Yen-Shih Lin | ADPCM encoding and decoding method and system with improved step size adaptation thereof |
CN102270450A (zh) * | 2010-06-07 | 2011-12-07 | 株式会社曙飞电子 | 多模型自适应和语音识别装置及其方法 |
CN103730110A (zh) * | 2012-10-10 | 2014-04-16 | 北京百度网讯科技有限公司 | 一种检测语音端点的方法和装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6324509B1 (en) * | 1999-02-08 | 2001-11-27 | Qualcomm Incorporated | Method and apparatus for accurate endpointing of speech in the presence of noise |
CN100456356C (zh) * | 2004-11-12 | 2009-01-28 | 中国科学院声学研究所 | 一种应用于语音识别系统的语音端点检测方法 |
CN101320559B (zh) * | 2007-06-07 | 2011-05-18 | 华为技术有限公司 | 一种声音激活检测装置及方法 |
CA2778343A1 (en) * | 2009-10-19 | 2011-04-28 | Martin Sehlstedt | Method and voice activity detector for a speech encoder |
-
2015
- 2015-05-25 CN CN201910945249.2A patent/CN110895930B/zh active Active
- 2015-05-25 CN CN201510271782.7A patent/CN106297795B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080109219A1 (en) * | 2003-10-16 | 2008-05-08 | Yen-Shih Lin | ADPCM encoding and decoding method and system with improved step size adaptation thereof |
CN101122636A (zh) * | 2006-08-09 | 2008-02-13 | 富士通株式会社 | 声音到达方向的估测方法以及声音到达方向的估测设备 |
CN102270450A (zh) * | 2010-06-07 | 2011-12-07 | 株式会社曙飞电子 | 多模型自适应和语音识别装置及其方法 |
CN103730110A (zh) * | 2012-10-10 | 2014-04-16 | 北京百度网讯科技有限公司 | 一种检测语音端点的方法和装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107738622A (zh) * | 2017-08-29 | 2018-02-27 | 科大讯飞股份有限公司 | 车辆智能响应方法及装置、存储介质、电子设备 |
CN107702706A (zh) * | 2017-09-20 | 2018-02-16 | 广东欧珀移动通信有限公司 | 路径确定方法、装置、存储介质及移动终端 |
CN112420079A (zh) * | 2020-11-18 | 2021-02-26 | 青岛海尔科技有限公司 | 语音端点检测方法和装置、存储介质及电子设备 |
WO2023050301A1 (zh) * | 2021-09-30 | 2023-04-06 | 华为技术有限公司 | 语音质量评估、语音识别质量预测与提高的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110895930A (zh) | 2020-03-20 |
CN110895930B (zh) | 2022-01-28 |
CN106297795B (zh) | 2019-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11100941B2 (en) | Speech enhancement and noise suppression systems and methods | |
US8239194B1 (en) | System and method for multi-channel multi-feature speech/noise classification for noise suppression | |
CN103325386B (zh) | 用于信号传输控制的方法和系统 | |
CN103067322B (zh) | 评估单通道音频信号中的音频帧的语音质量的方法 | |
CN103440872B (zh) | 瞬态噪声的去噪方法 | |
CN101010722A (zh) | 音频信号中话音活动的检测 | |
CN106157967A (zh) | 脉冲噪声抑制 | |
CN110047470A (zh) | 一种语音端点检测方法 | |
CN110335593B (zh) | 语音端点检测方法、装置、设备及存储介质 | |
KR102012325B1 (ko) | 오디오 신호의 배경 잡음 추정 | |
CN113766073A (zh) | 会议系统中的啸叫检测 | |
EP3118852B1 (en) | Method and device for detecting audio signal | |
CN106297795A (zh) | 语音识别方法及装置 | |
EP4325487A1 (en) | Voice signal enhancement method and apparatus, and electronic device | |
CN111223492A (zh) | 一种回声路径延迟估计方法及装置 | |
CN103295582A (zh) | 噪声抑制方法及其系统 | |
CN103903629A (zh) | 基于隐马尔科夫链模型的噪声估计方法和装置 | |
CN106033669A (zh) | 语音识别方法及装置 | |
CN106920543B (zh) | 语音识别方法及装置 | |
CN113160846B (zh) | 噪声抑制方法和电子设备 | |
CN106816157A (zh) | 语音识别方法及装置 | |
JP2014194437A (ja) | 音声処理装置、音声処理方法および音声処理プログラム | |
JP2005258158A (ja) | ノイズ除去装置 | |
CN106340310B (zh) | 语音检测方法及装置 | |
JP4551817B2 (ja) | ノイズレベル推定方法及びその装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |