[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN101031958B - 语音端点指示器 - Google Patents

语音端点指示器 Download PDF

Info

Publication number
CN101031958B
CN101031958B CN2006800007466A CN200680000746A CN101031958B CN 101031958 B CN101031958 B CN 101031958B CN 2006800007466 A CN2006800007466 A CN 2006800007466A CN 200680000746 A CN200680000746 A CN 200680000746A CN 101031958 B CN101031958 B CN 101031958B
Authority
CN
China
Prior art keywords
audio stream
pointer
audio
rule
energy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2006800007466A
Other languages
English (en)
Other versions
CN101031958A (zh
Inventor
P·赫瑟林顿
A·埃斯科特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BlackBerry Ltd
Original Assignee
QNX Software Systems Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by QNX Software Systems Ltd filed Critical QNX Software Systems Ltd
Publication of CN101031958A publication Critical patent/CN101031958A/zh
Application granted granted Critical
Publication of CN101031958B publication Critical patent/CN101031958B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

基于规则的端点指示器将在音频流中包含的口语话语从背景噪声和非语音瞬间隔离开。基于规则的端点指示器包括多个规则,以基于多个语音特征来确定口语话语的开始和/或结尾。规则可基于事件、事件的组合、事件的持续时间、与事件相关的持续时间来对音频流或音频流的部分进行分析。规则可取决于包括音频流自身的特征、音频流中包含的预期回答、或环境条件而手动或自动定制。

Description

语音端点指示器
技术领域
本发明涉及自动语音识别,并且更具体地,涉及将口语话语从背景噪声和非语音瞬间隔离的系统。
背景技术
在车辆环境中,可使用自动语音识别(ASR)系统,以向乘客提供基于语音输入的导航指导。这项功能减少了对安全性的考虑,其中司机在试图手动键入或从屏幕读取信息时,注意力不用从路面移开。另外,可使用ASR系统以控制音频系统、气候控制、或其他车辆功能。
ASR系统使用户的语音进入麦克风,且信号被转换成命令并被计算机识别。一旦识别了命令,计算机可执行应用程序。实现ASR系统的一个要素是正确地识别口语话语。这要求定位话语的开始和/或结尾(“端点指示”)。
一些系统搜索音频帧中的能量。一旦检测到能量,系统通过减去从检测到该能量的点的时间段(确定话语的开始时间),并加上从检测到该能量的点的预定时间(确定话语的结尾时间)而预测话语的结尾点。在尝试确定口语话语中,音频流的选择部分然后被传送到ASR。
声音信号中的能量可来自许多源。例如在车辆环境中,可从诸如车身振动、关门声、重击、爆裂声、引擎噪声、空气运动等的瞬态噪声中获得。关注能量的存在的上述系统,可将这些瞬态噪声误判为口语话语,并将信号的环境部分传送到ASR系统用于处理。ASR系统可能不必要地将瞬态噪声当作语音命令而尝试识别,因而产生错误的确定,且延迟了对真实命令的响应。
因此,存在对可在瞬态噪声环境中识别口语话语的智能端点指示器系统的需求。
发明内容
基于规则的端点指示器包括一个或多个规则,该规则确定在音频流中的音频语音片断的开始、结尾、或确定开始和结尾。规则可基于多种因素,诸如事件或事件的组合的出现、或者语音特征的存在/不存在的持续时间。此外,该规则可以包括:对无声的持续时间、浊音音频事件、非浊音音频事件、或任何这样的事件的组合,事件的持续时间,或与事件有关的持续时间进行分析。取决于应用的规则或被分析的音频流的内容,基于规则的端点指示器传送到ASR的音频流的量可能改变。
动态端点指示器可分析关于音频流的一个或多个动态方面,并基于分析的动态方面而确定音频语音片段的开始、结尾或开始和结尾。可被分析的动态方面包括,但不限于:(1)音频流自身,诸如说话者的语速、说话者的音调等;(2)音频流中的预期回答,诸如向说话者提出的问题的预期回答(例如“yes”或“no”);(3)环境条件,诸如背景噪声水平、回声等。规则可使用一个或多个动态方面,以对音频语音片段进行端点指示。
本领域技术人员在查看下文中的附图和详细说明后,将清楚本发明的其它系统、方法、特征和优势。说明书中包括的这样另外的系统、方法、特征和优势将落在本发明的范畴中,并由权利要求保护。
附图说明
参照附图和说明书,将更好地理解本发明,图中的部件不是必须成比例的,相反重点在于说明本发明的原理。此外,在附图中,在不同的图中,相同的附图标记被分配给相应的部件。
图1是语音端点指示系统的框图;
图2是结合到车辆中的语音端点指示系统的部分视图;
图3是语音端点指示器的流程图;
图4是图3的一部分的更详细的流程图;
图5是模拟的语音声音的端点指示;
图6是图5的一些模拟的语音声音的详细端点指示;
图7是图5的一些模拟的语音声音的第二详细端点指示;
图8是图5的一些模拟的语音声音的第三详细端点指示;
图9是图5的一些模拟的语音声音的第四详细端点指示;
图10是基于声音的动态语音端点指示系统的部分流程图。
具体实施方式
基于规则的端点指示器可为了触发特征而检查音频流的一个或多个特征。触发特征可包括浊音或非浊音的声音。当声带振动时产生的浊音语音片断(例如,元音),发出接近周期性的时域信号。当声带没有振动时产生的非浊音语音片断(诸如在英语中字母“f”的发音时)缺乏周期性,并具有与类似噪声的结构相似的时域信号。通过在音频流中识别触发特征,并采用在语音声音的自然特性上进行操作的一组规则,端点指示器可提高语音话语的开头和/或结尾的确定。
可选地,端点指示器可分析音频流的至少一个动态方面。可被分析的音频流的动态方面包括,但不限于:(1)音频流自身,诸如说话者的语速、说话者的音调等;(2)音频流的预期回答,诸如说话者对问题的预期回答(例如,“yes”或“no”);或(3)环境情况,诸如背景噪声水平、回声等。动态端点指示器可以是基于规则的。端点指示器的动态特性使得能提高对语音片断的开始和/或结尾的确定。
图1是用于执行基于声音的语音端点指示的设备100的框图。端点指示设备100可具有硬件或能在一个或多个处理器上结合一个或多个操作系统进行运行的软件。端点指示设备100可包括诸如计算机的处理环境102。处理环境102可包括处理单元104和存储器106。处理单元104可通过经由双向总线访问系统存储器106而执行算术、逻辑和/或控制操作。存储器106可存储输入音频流。存储器106可包括用于检测音频语音片断的开始和/或结尾的规则模块108。存储器106也可包括用于检测在音频片段中的触发特征的声音分析模块116和/或可以用于识别音频输入的ASR单元118。另外,存储单元106可存储在端点指示器的操作期间获得的缓存音频数据。处理单元104与输入/输出(I/O)单元110进行通信。I/O单元110从将声波转换成电信号的装置114接收输入音频流,并将输出信号传送到将电信号转换成音频声音的装置112。I/O单元110可作为处理单元104、将电信号转变成音频声音的装置112和将声波转变成电信号的装置114之间的接口。I/O单元110可把通过将声波转换成电信号的装置114所接收的输入音频流从声学波形转换成计算机可理解的格式。类似地,I/O单元110可将从处理环境102发送的信号转换成电信号,以通过将电信号转变成音频声音的装置112而输出。处理单元104可适当地编程,以执行图3和4的流程图。
图2示出了结合到车辆200中的端点指示器设备100。车辆200可包括司机座椅202、乘客座椅204和后部座椅206。另外,车辆200可包括端点指示器设备100。处理环境102可被结合到车辆200的车载计算机中,诸如电子控制单元、电子控制模块、车身控制模块,或者处理环境102可以是使用一个或多个允许的协议而与车辆200的现有电路进行通信的单独的后加工单元。协议的一些可包括JI850VPW、JI850PWM、ISO、ISO9141-2、ISO14230、CAN、高速CAN、MOST、LIN、IDB-1394、IDB-C、D2B、蓝牙、TTCAN、TTP或在商标FlexRay下推广的协议。将电信号转变成音频声音的一个或多个装置112可位于车辆200的乘客空间、诸如前乘客空间。而不限于这样的配置,将声波转变成电信号的装置114可连接到I/O单元110,用于接收输入的音频流。可选地,或另外,将电信号转变成音频声音的另外的装置212和将声波转变成电信号的装置214可位于车辆200的后乘客空间中,用于从在后座椅中的乘客接收音频流,并将信息输出给这些相同的乘客。
图3是语音端点指示器系统的流程图。该系统可通过将输入音频流分成离散的片段(诸如帧),从而可在逐帧的基础上分析输入的音频流。每帧可包括整个输入音频流的大约10ms至大约100ms的任何地方。在开始处理数据前,该系统可缓冲预定量的数据,诸如大约350ms至大约500ms的输入音频数据。如块302所示,能量检测器可用于确定是否出现与噪声无关的能量。能量检测器检查诸如帧的音频流的部分来获得出现的能量的量,并将该量与噪声能量的估计相比较。噪声能量的估计可以是恒定的或可以是动态确定的。以分贝(dB)、或功率的比例的形式的差可以是瞬时信噪比(SNR)。在分析前,将帧假设为是非语音,从而如果能量检测器确定帧中存在这样的能量,则将帧标记成非语音,如块304所示。在检测到能量后,如块306所示,可进行指定为帧n的当前帧的声音分析。可如2005年5月17日提交的序列号为11/131,150的美国专利申请中所述那样进行声音分析,这里通过引用结合该说明书。声音分析可检查在帧n中出现的任何触发特征。声音分析可查看帧n中是否出现“S”或“X”。可选地,声音分析可检查元音的存在。为说明的目的但并不受限制,使用元音作为声音分析的触发特征来描述图3的剩余部分。
存在声音分析可识别帧中元音的存在的多种方法。一种方式是通过使用音调估计器。音调估计器可在帧中搜索指示存在元音的周期信号。或者,音调估计器可在帧中搜索特定频率的预定水平,其可指示元音的存在。
如块310所示,当声音分析确定在帧n中存在元音时,帧n被标记成语音。系统然后可检查一个或多个的先前的帧。如块312所示,系统可检查紧接在前的帧,帧n-1。如块314所示,系统可确定先前的帧是否被标记为包含语音。如果先前的帧已经被标记为语音(即,对块314回答为“YES”),则系统已经确定在帧中包括语音,并对新的音频帧进行分析,如块304所示。如果先前的帧没有被标记为语音(即,对块314回答为“No”),则系统可使用一个或多个规则,以确定帧是否应该被标记成语音。
如图3中所示,被指定为判决块“外部端点指示”的块316可使用惯例(该惯例使用一个或多个规则),以确定帧是否应被标记成语音。一个或多个规则可被应用到诸如帧或帧组的音频流的任何部分。规则可确定正在检查的当前一帧或多帧是否包含语音。规则可指示在帧或帧组中是否存在语音。如果存在语音,则可将帧指定成在端点内。
如果规则指示不存在语音,则将帧指定成在端点外。如果判决块316指示帧n-1在端点外(例如,不存在语音),然后新帧,帧n+1,被输入到系统,并被标记成非语音,如块304所示。如果判决块316指示帧n-1处于端点内(例如,存在语音),则帧n-1被标记成语音,如块318所示。可逐帧分析先前的音频流,直到存储器中的最后一帧被分析,如块320所示。
图4是图3中所示的块316的更详细的流程图。如上述,块316可包括一个或多个规则。这些规则可涉及关于语音的存在和/或不存在的任何方面。在这种方式下,可使用规则以确定口语话语的开始和/或结尾。
规则可基于对事件(例如,浊音的能量、非浊音的能量、无声的不存在/存在)或事件的组合(例如,非浊音能量之后接着是无声之后再接着浊音能量、浊音能量之后接着无声再接着是非浊音能量再接着是无声)进行分析。特别地,规则可检查从无声时期进入能量事件,或从无声时期进入能量事件的转变。规则可采用在元音之前语音可包括不超过一个从非浊音事件或无声的转变的规则,来分析元音之前转变的次数。或者规则可采用在元音之后语音可包括不超过两个从非浊音事件或无声的转变,来分析元音之后的转变的次数。
一个或多个的规则可检查多个持续时期。具体地,规则可检查关于事件(例如,浊音能量、非浊音能量、无声的不存在/存在等)的持续。规则可采用语音在元音之前可包括持续时间大约300ms至400ms的范围内,且可以是大约350ms,的规则来分析元音之前的持续时间。或者规则可采用语音可在元音之后包括持续时间大约400ms至800ms的范围内,且可以是大约600ms,的规则来分析元音之后的持续时间。
一个或多个规则可检查事件的持续。具体地,规则可检查某种能量的持续或缺乏某种能量的持续。非浊音能量是一种可被分析的能量。规则可采用语音可包括在大约150ms至300ms的范围中,且可能是大约200ms的连续非浊音能量的持续时间的规则,来分析连续的非浊音能量的持续。可选地,连续的无声可被分析成缺乏能量。规则可采用语音在元音之前可包括大约50ms至80ms的范围内,且可以是大约70ms的连续无声的持续时间的规则,来分析在元音之前的连续无声的持续。或者规则可采用语音在元音之后可包括大约200ms至300ms的范围内,且可以是大约250ms的连续无声的持续时间的规则,来分析在元音之后的连续无声的持续时间。
在块402,执行检查,以确定被分析的帧或帧组具有高于背景噪声水平的能量。具有高于背景噪声水平的帧或帧组可基于某种能量的持续时间或关于事件的持续时间而被进一步分析。如果被分析的帧或帧组不具有高于背景噪声水平的能量,则帧或帧组可基于连续无声、从无声时期进入能量事件的转变、或从进入能量事件的无声时期的转变而被进一步分析。
如果在被分析的帧或帧组中存在能量,则“能量”计数器在块404增加。“能量”计数器对时间量进行计数。它根据帧长度而增加。如果帧尺寸是大约32ms,则块404将“能量”计数器增加大约32ms。在判决406,执行检查,以察看“能量”计数器的值是否超过时间阈值。在判决块406估计的阈值与用于确定语音的存在和/或不存在的连续非浊音能量规则相对应。在判决块406,可估计连续非浊音能量的最大持续时间的阈值。如果判决406确定设定的阈值被“能量”计数器的值超过,则在块408将被分析的帧或帧组指定成在端点外(例如,不存在语音)。结果,返回参照图3,系统跳回到块304,其中新的帧,帧n+1被输入到系统且标记成非语音。可选地,在块406可估计多个阈值。
如果在块406,“能量”计数器的值没有超过任何时间阈值,则在判决块410执行检查,以确定“无能量”计数器是否超过隔离阈值。与“能量”计数器404类似,“无能量”计数器418计数,且在被分析的帧或帧组不具有大于噪声水平的能量时使计数器增加帧的长度。隔离阈值是定义两个爆破音事件之间的时间量的时间阈值。爆破音是从说话者嘴中逐字爆发的辅音。空气被瞬时阻止,以建立压强,用于释放爆破音。爆破音可包括发音“P”、“T”、“B”和“K”。该阈值处于大约10ms至大约50ms范围中,且可以是大约25ms。如果隔离阈值超过隔离的非浊音能量事件,则被无声包围的爆破音已经被识别(例如,STOP中的P),并且“隔离事件”计数器412递增。“隔离事件”计数器412以整数值递增。在“隔离事件”计数器412递增后,在块414对“无能量”计数器418进行复位。因为在被分析的帧或帧组中发现能量,所以对计数器进行复位。如果“无能量”计数器418没有超过隔离阈值,则在块414对“无能量”计数器418进行复位,而不递增“隔离事件”计数器412。此外,因为在正被分析的帧或帧组中发现能量,所以对“无能量”计数器418进行复位。在对“无能量”计数器418进行复位后,外部端点指示分析通过在块416返回“NO”值而将正被分析的帧或多帧指定为在端点指示内(例如,出现语音)。结果,返回参照图3,系统在318或322将已分析的帧标记成语音。
可选地,如果判决402确定不存在高于噪声水平的能量,则正被分析的帧或帧组包含无声或背景噪声。在这种情况下,“无能量”计数器418递增。在判决420,执行检查,以察看“无能量”计数器的值是否超过时间阈值。在判决420估计的阈值与可用于确定语音的存在和/或不存在的连续非浊音能量规则阈值相对应。在判决块420,可估计连续无声的持续时间的阈值。如果判决420确定“无能量”计数器的值超过设定的阈值,则在块408将正被分析的帧或帧组指定成在端点外(例如,不存在语音)。结果,返回参照图3,系统跳回到块304,其中新帧,帧n+1,被输入到系统中,且标记成非语音。可选地,可在块420估计多个阈值。
如果“无能量”计数器418的值没有超过任何时间阈值,则在判决块422执行检查,以确定是否已经出现最大数量的允许的隔离事件。“隔离事件”计数器提供必要的信息,以回答该检查。允许的隔离事件的最大数量是可配置的参数。如果期望语法(例如,“Yes”或“No”的回答),则可相应设置允许的隔离事件的最大数量,以端点指示器的结果变得“紧密”。如果已经超过允许的隔离事件的最大数量,则在块408将正被分析的帧或多帧指定成在端点外(例如,不存在语音)。结果,返回参照图3,系统跳到块304,其中新的帧,帧n+1,被输入到系统中,且被标记成非语音。
如果还没有达到允许的隔离事件的最大数量,则在块424对“能量”计数器404进行复位。当识别出无能量的帧时,对“能量”计数器404进行复位。在对“能量”计数器404进行复位后,外部端点指示分析通过在块416返回“NO”,而将正被分析的帧或多帧指定成在端点内(例如,存在语音)。结果,返回参照图3,系统在318或322将已分析的帧标记成语音。
图5-9示出了模拟音频流的一些未加工的时间序列、这些信号的多种特征曲线、和相应未加工信号的声谱。在图5中,块502示出了模拟音频流的未加工的时间序列。该模拟的音频流包括口语话语“NO”504、“YES”506、“NO”504、“YES”506、“NO”504、“YESSSSS”508、“NO”504、以及若干“滴答”声音510。这些嘀嗒声音可表示当车辆转弯信号接通时产生的声音。块512表示未加工的时间序列音频流的多种特征曲线。块512沿x轴显示了若干采样。曲线514是端点指示器分析的一种表示。当曲线514处于零水平时,端点指示器还没有确定口语话语的存在。当曲线514处于非零水平,端点指示器限定口语话语的开始和/或结尾。曲线516表示比背景能量水平高的能量。曲线518表示时域中的口语话语。块520表示块502中识别的相应音频流的谱表示。
块512示出了端点指示器可以如何响应输入音频流。如图5中所示,端点指示器曲线514正确地捕获“NO”504和“YES”506信号。当“YESSSSS”508被分析时,端点指示器曲线514暂时捕获末尾的“S”,当其发现已经超过在元音之后的最大时限,或连续非浊音能量的最大持续时间时,端点指示器截至。基于规则的端点指示器将端点指示器曲线514限定的音频流的部分传送到ASR。如块512和图6-9中所示,传送到ASR的音频流的部分取决于应用的规则而变化。“滴答”510被检测为具有能量。这由在块512的最右部的上方的背景能量的曲线516所示。然而,因为在“滴答”510中没有检测到元音,所以端点指示器排除了这些音频声音。
图6是一个端点指示的“NO”504的放大图。口语话语曲线518由于时间拖尾效应而落后一帧或两帧。曲线518在由高于能量曲线516表示的检测到能量的整个时期内继续。在口语话语曲线518上升后,其调整水平位置且沿着背景能量曲线516上方。当检测到语音能量时,开始端点指示器曲线514。在曲线518表示的时期期间,没有违反任何端点指示器的规则,并且音频流被识别成口语话语。当已经违反在元音后最大连续无声持续时间规则或者在元音后的最大时间规则时,端点指示器在最右端截止。如举例说明,发送到ASR的音频流的部分包括大约3150个采样。
图7是一个端点指示的“YES”506的放大图。口语话语曲线518再次由于时间拖尾效应而滞后一帧或两帧。端点指示器曲线514在检测到能量时开始。端点指示器曲线514继续直到能量跌落到噪声;当已经违反在元音后最大连续非浊音能量持续时间规则或者在元音后的最大时间规则时。如举例说明,发送到ASR的音频流的部分包括大约5550个采样。在图6和图7中发送到ASR的音频流的量之间的差别由应用不同的规则的端点指示器引起。
图8是一个端点指示的“YESSSSS”508的放大图。端点指示器将元音后的能量作为可能的辅音而接收,然而仅在合理的时间量内。在合理的时间段后,可能已经违反连续非浊音能量的最大持续时间规则或者在元音后的最大时间规则,并且端点指示器曲线跌落,限制通过ASR的数据。如举例说明,发送到ASR的音频流的部分包括大约5750个采样。尽管口语话语持续了另外的6500个采样,因为端点指示器在合理的时间量后截止,发送到ASR的音频流的量与在图6和图7中发送的量不同。
图9是端点指示的“NO”504继之以若干“滴答”510的放大图。与图6-8一样,口语话语曲线518由于时间拖尾效应而滞后一帧或两帧。当检测到能量时端点指示器曲线514开始。第一次滴答被包括在端点指示曲线514内,因为存在高于背景噪声能量水平的能量,且该能量可能是辅音,即,拖尾“T”。然而,在第一和接下来的滴答之间存在大约300ms的无声。根据该实例使用的阈值,该无声时段违反了端点指示器在元音之后持续无声的最大持续时间的规则。因此,端点指示器排除了第一次滴答之后的能量。
端点指示器也可被配置成通过分析音频流的至少一个动态方面,来确定音频语音片段的开始和/或结尾。图10是分析音频流的至少一个动态方面的端点指示器系统的部分流程图。在1002可执行全局方面的初始化。全局方面可包括音频流自身的特性。为说明的目的但不受限,这些全局方面可包括说话者的语速或说话者的音调。在1004,可执行局部方面的初始化。为说明的目的和不受限制,这些局部方面可包括预期的说话者的回答(例如,“YES”或“NO”回答)、环境情况(例如,开放或封闭的环境,影响系统中回声或反馈的存在)、背景噪声的估计。
在整个系统操作中,在多个时间可出现全局和局部初始化。每次系统加电和/或在预定时段后,可执行背景噪声的估计(局部方面初始化)。可采用更小的频率而进行对说话者的语速和音调的确定(全局初始化)的分析和初始化。类似地,可采用更小的频率对预期的某种回答的局部方面进行初始化。可在ASR与期望某种回答的端点指示器通信时发生这样的初始化。环境情况的局部方面可被配置成每个动力循环进行一次初始化。
在初始化时段1002和1004期间,端点指示器可在关于图3和图4以前描述的默认阈值设置中运作。如果任何初始化都需要改变阈值设置或计时器,系统可动态地改变合适的阈值。可选地,基于初始化的值,系统可重新调出在系统存储器中存储的特定或普通用户简档(profile)。该简档可改变全部或某些阈值设置和计时器。如果在初始化过程期间,系统确定用户说话速度快,则某些规则的最大持续时间可下降到在简档中存储的水平。此外,可能以训练模式操作系统,从而系统执行初始化,以创建并存储用于以后使用的用户简档。在系统存储器中可存储一个或多个简档,用于以后的使用。
与图1中所述的端点指示器类似,可对动态端点指示器进行配置。另外,动态端点指示器可包括处理环境和ASR之间的双向总线。双向总线可在处理环境和ASR之间传送数据和控制信息。从ASR传送到处理环境的信息可包括数据,该数据指示响应对说话者提出的问题而预期的某种回答。从ASR传送到处理环境的信息可用于动态分析音频流的方面。
动态端点指示器的操作可与参照图3和4描述的端点指示器类似,除了“外部端点指示”例程、块316的一个或多个规则的一个或多个阈值可被动态配置。如果存在大量的背景噪声,能量高于噪声判决的阈值(块402)可被动态提高,以计算这种情况。一旦执行这样的重新配置,动态端点指示器可拒绝更多的瞬态和非语音声音,因而减少了错误确认的数量。动态可配置的阈值不限于背景噪声水平。动态端点指示器使用的任何阈值可被被动态配置。
图3、4和10中所示的方法可在信号承载介质、诸如存储器的计算机可读介质中被编码,可在诸如一个或多个集成电路、或由控制器或计算机处理的装置内被编程。如果方法由软件实现,软件可驻留在或连接到规则模块108或任何类型的通信接口。存储器可包括用于实现逻辑功能的可执行指令的有序列表。逻辑功能可通过数字电路、通过源代码、通过模拟电路、或诸如通过电、音频或视频信号的通过模拟源而实现。软件可在任何计算机可读或信号承载介质中具体化,用于由指令可执行系统、设备或装置使用,或与指令可执行系统、设备或装置相关。这样的系统可包括基于计算机的系统、包含处理器的系统、或者可选择性地从指令可执行系统、设备或也可执行指令的装置中获取指令的其它系统。
“计算机可读介质”、“机器可读介质”、“传播的信号”介质和/或“信号承载介质”可包括任何包含、存储、通信、传播或传输软件,用于由指令可执行系统、设备或装置或与指令可执行系统、设备或装置相关。机器可读介质可选择性地是,但不限于电、磁、光学、电磁、红外线或半导体系统、设备、装置或传播介质。机器可读介质实例的非穷举列表可包括:具有一个或多个导线的电连接“电”、移动磁盘或光盘、诸如随机存取存储器“RAM”(电)的易失性存储器、只读存储器“ROM”(电)、电可擦除可编程只读存储器(EPROM或闪存存储器)(电)、或光纤(光)。机器可读介质还可包括在其上打印软件的有形介质、由于软件可电存储为图像或其它形式(例如,通过光学扫描),然后编译,并/或解释或另外处理。处理的介质可存储在计算机和/或机器存储器中。
尽管已经描述了本发明的多个实施例,对于本领域技术人员来说很明显在本发明的范围内有很多另外的实施例和实现。从而,本发明不受限于,除了根据附属权利要求以及它们的等同物。

Claims (20)

1.一种确定音频语音片段的开始和结尾中的至少一个的端点指示器,所述端点指示器包括:
声音触发模块,其识别包括音频语音片段的音频流的一部分;和
规则模块,其与所述声音触发模块进行通信,所述规则模块包括多个规则,所述多个规则分析所述音频流的至少一部分,以检测所述音频语音片段的开始和结尾中的至少一个,并确定关于所述音频语音片段的音频流的所述部分是否在音频端点内;
其中,所述规则模块分析所述音频流的所述部分中爆破音的预定数量。
2.根据权利要求1所述的端点指示器,其中所述声音触发模块对元音进行识别。
3.根据权利要求1所述的端点指示器,其中所述声音触发模块对S或X声音进行识别。
4.根据权利要求1所述的端点指示器,其中所述音频流的所述部分包括帧。
5.根据权利要求1所述的端点指示器,其中所述规则模块分析所述音频流的所述部分中的能量的缺乏。
6.根据权利要求1所述的端点指示器,其中所述规则模块分析所述音频流中的所述部分中的能量。
7.根据权利要求1所述的端点指示器,其中所述规则模块分析所述音频流的所述部分中的经过的时间。
8.根据权利要求1所述的端点指示器,其中所述规则模块检测所述音频语音片段的开始和结尾。
9.根据权利要求1所述的端点指示器,还包括能量检测模块。
10.根据权利要求1所述的端点指示器,还包括与麦克风输入端通信的处理环境、处理单元和存储器,其中所述规则模块驻留在所述存储器中。
11.一种利用具有多个判决规则的端点指示器来确定音频语音片段的开始和结尾中的至少一个的方法,所述方法包括:
接收音频流的一部分;
确定所述音频流的所述部分是否包括触发特征;并且
将至少一个判决规则应用到关于所述触发特征的所述音频流的所述部分,包括分析所述音频流的所述部分中爆破音的预定数量,以检测所述音频语音片段的开始和结尾中的至少一个,并确定所述音频流的所述部分是否在音频端点内。
12.根据权利要求11所述的方法,其中所述判决规则被应用到包括所述触发特征的所述音频流的所述部分。
13.根据权利要求11所述的方法,其中所述判决规则被应用到与包括所述触发特征的所述部分不同的所述音频流的部分。
14.根据权利要求11所述的方法,其中所述触发特征是元音。
15.根据权利要求11所述的方法,其中所述触发特征是S或X声音。
16.根据权利要求11所述的方法,其中所述音频流的所述部分是帧。
17.根据权利要求11所述的方法,还包括分析所述音频流的所述部分中的能量的缺乏。
18.根据权利要求11所述的方法,还包括分析所述音频流的所述部分中的能量。
19.根据权利要求11所述的方法,还包括分析所述音频流的所述部分中的经过的时间。
20.根据权利要求11所述的方法,还包括检测可能的语音片段的开始和结尾。
CN2006800007466A 2005-06-15 2006-04-03 语音端点指示器 Active CN101031958B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/152,922 US8170875B2 (en) 2005-06-15 2005-06-15 Speech end-pointer
US11/152,922 2005-06-15
PCT/CA2006/000512 WO2006133537A1 (en) 2005-06-15 2006-04-03 Speech end-pointer

Publications (2)

Publication Number Publication Date
CN101031958A CN101031958A (zh) 2007-09-05
CN101031958B true CN101031958B (zh) 2012-05-16

Family

ID=37531906

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006800007466A Active CN101031958B (zh) 2005-06-15 2006-04-03 语音端点指示器

Country Status (7)

Country Link
US (3) US8170875B2 (zh)
EP (1) EP1771840A4 (zh)
JP (2) JP2008508564A (zh)
KR (1) KR20070088469A (zh)
CN (1) CN101031958B (zh)
CA (1) CA2575632C (zh)
WO (1) WO2006133537A1 (zh)

Families Citing this family (128)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7117149B1 (en) 1999-08-30 2006-10-03 Harman Becker Automotive Systems-Wavemakers, Inc. Sound source classification
US7949522B2 (en) * 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
US7725315B2 (en) 2003-02-21 2010-05-25 Qnx Software Systems (Wavemakers), Inc. Minimization of transient noises in a voice signal
US8326621B2 (en) 2003-02-21 2012-12-04 Qnx Software Systems Limited Repetitive transient noise removal
US7895036B2 (en) 2003-02-21 2011-02-22 Qnx Software Systems Co. System for suppressing wind noise
US8073689B2 (en) 2003-02-21 2011-12-06 Qnx Software Systems Co. Repetitive transient noise removal
US8271279B2 (en) 2003-02-21 2012-09-18 Qnx Software Systems Limited Signature noise removal
US7885420B2 (en) 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
US8170879B2 (en) 2004-10-26 2012-05-01 Qnx Software Systems Limited Periodic signal enhancement system
US7680652B2 (en) 2004-10-26 2010-03-16 Qnx Software Systems (Wavemakers), Inc. Periodic signal enhancement system
US7949520B2 (en) 2004-10-26 2011-05-24 QNX Software Sytems Co. Adaptive filter pitch extraction
US8543390B2 (en) 2004-10-26 2013-09-24 Qnx Software Systems Limited Multi-channel periodic signal enhancement system
US7716046B2 (en) 2004-10-26 2010-05-11 Qnx Software Systems (Wavemakers), Inc. Advanced periodic signal enhancement
US8306821B2 (en) 2004-10-26 2012-11-06 Qnx Software Systems Limited Sub-band periodic signal enhancement system
US8284947B2 (en) * 2004-12-01 2012-10-09 Qnx Software Systems Limited Reverberation estimation and suppression system
FR2881867A1 (fr) * 2005-02-04 2006-08-11 France Telecom Procede de transmission de marques de fin de parole dans un systeme de reconnaissance de la parole
US8027833B2 (en) 2005-05-09 2011-09-27 Qnx Software Systems Co. System for suppressing passing tire hiss
US8311819B2 (en) 2005-06-15 2012-11-13 Qnx Software Systems Limited System for detecting speech with background voice estimates and noise estimates
US8170875B2 (en) * 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8701005B2 (en) * 2006-04-26 2014-04-15 At&T Intellectual Property I, Lp Methods, systems, and computer program products for managing video information
US7844453B2 (en) 2006-05-12 2010-11-30 Qnx Software Systems Co. Robust noise estimation
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
JP4282704B2 (ja) * 2006-09-27 2009-06-24 株式会社東芝 音声区間検出装置およびプログラム
US8326620B2 (en) 2008-04-30 2012-12-04 Qnx Software Systems Limited Robust downlink speech and noise detector
US8335685B2 (en) * 2006-12-22 2012-12-18 Qnx Software Systems Limited Ambient noise compensation system robust to high excitation noise
JP4827721B2 (ja) * 2006-12-26 2011-11-30 ニュアンス コミュニケーションズ,インコーポレイテッド 発話分割方法、装置およびプログラム
US8904400B2 (en) 2007-09-11 2014-12-02 2236008 Ontario Inc. Processing system having a partitioning component for resource partitioning
US8850154B2 (en) 2007-09-11 2014-09-30 2236008 Ontario Inc. Processing system having memory partitioning
US8694310B2 (en) 2007-09-17 2014-04-08 Qnx Software Systems Limited Remote control server protocol system
KR101437830B1 (ko) * 2007-11-13 2014-11-03 삼성전자주식회사 음성 구간 검출 방법 및 장치
US8209514B2 (en) 2008-02-04 2012-06-26 Qnx Software Systems Limited Media processing system having resource partitioning
JP4950930B2 (ja) * 2008-04-03 2012-06-13 株式会社東芝 音声/非音声を判定する装置、方法およびプログラム
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8442831B2 (en) * 2008-10-31 2013-05-14 International Business Machines Corporation Sound envelope deconstruction to identify words in continuous speech
US8413108B2 (en) * 2009-05-12 2013-04-02 Microsoft Corporation Architectural data metrics overlay
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
CN101996628A (zh) * 2009-08-21 2011-03-30 索尼株式会社 提取语音信号的韵律特征的方法和装置
CN102044242B (zh) 2009-10-15 2012-01-25 华为技术有限公司 语音激活检测方法、装置和电子设备
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8473289B2 (en) 2010-08-06 2013-06-25 Google Inc. Disambiguating input based on context
CN102456343A (zh) * 2010-10-29 2012-05-16 安徽科大讯飞信息科技股份有限公司 录音结束点检测方法及系统
DE112010005959B4 (de) 2010-10-29 2019-08-29 Iflytek Co., Ltd. Verfahren und System zur automatischen Erkennung eines Endpunkts einer Tonaufnahme
CN102629470B (zh) * 2011-02-02 2015-05-20 Jvc建伍株式会社 辅音区间检测装置及辅音区间检测方法
US8543061B2 (en) 2011-05-03 2013-09-24 Suhami Associates Ltd Cellphone managed hearing eyeglasses
KR101247652B1 (ko) * 2011-08-30 2013-04-01 광주과학기술원 잡음 제거 장치 및 방법
US20130173254A1 (en) * 2011-12-31 2013-07-04 Farrokh Alemi Sentiment Analyzer
KR20130101943A (ko) 2012-03-06 2013-09-16 삼성전자주식회사 음원 끝점 검출 장치 및 그 방법
JP6045175B2 (ja) * 2012-04-05 2016-12-14 任天堂株式会社 情報処理プログラム、情報処理装置、情報処理方法及び情報処理システム
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9520141B2 (en) * 2013-02-28 2016-12-13 Google Inc. Keyboard typing detection and suppression
US9076459B2 (en) * 2013-03-12 2015-07-07 Intermec Ip, Corp. Apparatus and method to classify sound to detect speech
US20140288939A1 (en) * 2013-03-20 2014-09-25 Navteq B.V. Method and apparatus for optimizing timing of audio commands based on recognized audio patterns
US20140358552A1 (en) * 2013-05-31 2014-12-04 Cirrus Logic, Inc. Low-power voice gate for device wake-up
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US8775191B1 (en) 2013-11-13 2014-07-08 Google Inc. Efficient utterance-specific endpointer triggering for always-on hotwording
US8719032B1 (en) 2013-12-11 2014-05-06 Jefferson Audio Video Systems, Inc. Methods for presenting speech blocks from a plurality of audio input data streams to a user in an interface
US8843369B1 (en) 2013-12-27 2014-09-23 Google Inc. Speech endpointing based on voice profile
US9607613B2 (en) * 2014-04-23 2017-03-28 Google Inc. Speech endpointing based on word comparisons
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10272838B1 (en) * 2014-08-20 2019-04-30 Ambarella, Inc. Reducing lane departure warning false alarms
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10575103B2 (en) * 2015-04-10 2020-02-25 Starkey Laboratories, Inc. Neural network-driven frequency translation
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) * 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
US10134425B1 (en) * 2015-06-29 2018-11-20 Amazon Technologies, Inc. Direction-based speech endpointing
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
JP6604113B2 (ja) * 2015-09-24 2019-11-13 富士通株式会社 飲食行動検出装置、飲食行動検出方法及び飲食行動検出用コンピュータプログラム
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
KR101942521B1 (ko) 2015-10-19 2019-01-28 구글 엘엘씨 음성 엔드포인팅
US10269341B2 (en) 2015-10-19 2019-04-23 Google Llc Speech endpointing
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11010601B2 (en) 2017-02-14 2021-05-18 Microsoft Technology Licensing, Llc Intelligent assistant device communicating non-verbal cues
US11100384B2 (en) 2017-02-14 2021-08-24 Microsoft Technology Licensing, Llc Intelligent device user interactions
US10467509B2 (en) 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
CN107103916B (zh) * 2017-04-20 2020-05-19 深圳市蓝海华腾技术股份有限公司 一种应用于音乐喷泉的音乐开始和结束检测方法及系统
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10929754B2 (en) 2017-06-06 2021-02-23 Google Llc Unified endpointer using multitask and multidomain learning
WO2018226779A1 (en) 2017-06-06 2018-12-13 Google Llc End of query detection
CN107180627B (zh) * 2017-06-22 2020-10-09 潍坊歌尔微电子有限公司 去除噪声的方法和装置
CN109859749A (zh) * 2017-11-30 2019-06-07 阿里巴巴集团控股有限公司 一种语音信号识别方法和装置
KR102629385B1 (ko) 2018-01-25 2024-01-25 삼성전자주식회사 바지-인 관련 직접 경로를 지원하는 저전력 보이스 트리거 시스템을 포함하는 애플리케이션 프로세서, 이를 포함하는 전자 장치 및 그 동작 방법
CN108962283B (zh) * 2018-01-29 2020-11-06 北京猎户星空科技有限公司 一种发问结束静音时间的确定方法、装置及电子设备
TWI672690B (zh) * 2018-03-21 2019-09-21 塞席爾商元鼎音訊股份有限公司 人工智慧語音互動之方法、電腦程式產品及其近端電子裝置
US11996119B2 (en) * 2018-08-15 2024-05-28 Nippon Telegraph And Telephone Corporation End-of-talk prediction device, end-of-talk prediction method, and non-transitory computer readable recording medium
CN110070884B (zh) * 2019-02-28 2022-03-15 北京字节跳动网络技术有限公司 音频起始点检测方法和装置
CN111223497B (zh) * 2020-01-06 2022-04-19 思必驰科技股份有限公司 一种终端的就近唤醒方法、装置、计算设备及存储介质
US11049502B1 (en) * 2020-03-18 2021-06-29 Sas Institute Inc. Speech audio pre-processing segmentation
WO2022198474A1 (en) 2021-03-24 2022-09-29 Sas Institute Inc. Speech-to-analytics framework with support for large n-gram corpora
US11615239B2 (en) * 2020-03-31 2023-03-28 Adobe Inc. Accuracy of natural language input classification utilizing response delay
WO2024005226A1 (ko) * 2022-06-29 2024-01-04 엘지전자 주식회사 디스플레이 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6317711B1 (en) * 1999-02-25 2001-11-13 Ricoh Company, Ltd. Speech segment detection and word recognition

Family Cites Families (132)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US55201A (en) * 1866-05-29 Improvement in machinery for printing railroad-tickets
US4435617A (en) * 1981-08-13 1984-03-06 Griggs David T Speech-controlled phonetic typewriter or display device using two-tier approach
US4454609A (en) 1981-10-05 1984-06-12 Signatron, Inc. Speech intelligibility enhancement
US4531228A (en) * 1981-10-20 1985-07-23 Nissan Motor Company, Limited Speech recognition system for an automotive vehicle
JPS5870292A (ja) * 1981-10-22 1983-04-26 日産自動車株式会社 車両用音声認識装置
US4486900A (en) * 1982-03-30 1984-12-04 At&T Bell Laboratories Real time pitch detection by stream processing
US4701955A (en) * 1982-10-21 1987-10-20 Nec Corporation Variable frame length vocoder
US4989248A (en) * 1983-01-28 1991-01-29 Texas Instruments Incorporated Speaker-dependent connected speech word recognition method
US4817159A (en) * 1983-06-02 1989-03-28 Matsushita Electric Industrial Co., Ltd. Method and apparatus for speech recognition
JPS6146999A (ja) * 1984-08-10 1986-03-07 ブラザー工業株式会社 音声始端決定装置
US5146539A (en) * 1984-11-30 1992-09-08 Texas Instruments Incorporated Method for utilizing formant frequencies in speech recognition
US4630305A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic gain selector for a noise suppression system
GB8613327D0 (en) 1986-06-02 1986-07-09 British Telecomm Speech processor
US4856067A (en) * 1986-08-21 1989-08-08 Oki Electric Industry Co., Ltd. Speech recognition system wherein the consonantal characteristics of input utterances are extracted
JPS63220199A (ja) * 1987-03-09 1988-09-13 株式会社東芝 音声認識装置
US4843562A (en) * 1987-06-24 1989-06-27 Broadcast Data Systems Limited Partnership Broadcast information classification system and method
US4811404A (en) * 1987-10-01 1989-03-07 Motorola, Inc. Noise suppression system
DE3739681A1 (de) * 1987-11-24 1989-06-08 Philips Patentverwaltung Verfahren zum bestimmen von anfangs- und endpunkt isoliert gesprochener woerter in einem sprachsignal und anordnung zur durchfuehrung des verfahrens
JPH01169499A (ja) * 1987-12-24 1989-07-04 Fujitsu Ltd 単語音声区間切出し方式
US5027410A (en) * 1988-11-10 1991-06-25 Wisconsin Alumni Research Foundation Adaptive, programmable signal processing and filtering for hearing aids
CN1013525B (zh) 1988-11-16 1991-08-14 中国科学院声学研究所 认人与不认人实时语音识别的方法和装置
US5201028A (en) * 1990-09-21 1993-04-06 Theis Peter F System for distinguishing or counting spoken itemized expressions
JP2974423B2 (ja) * 1991-02-13 1999-11-10 シャープ株式会社 ロンバード音声認識方法
US5152007A (en) * 1991-04-23 1992-09-29 Motorola, Inc. Method and apparatus for detecting speech
US5680508A (en) * 1991-05-03 1997-10-21 Itt Corporation Enhancement of speech coding in background noise for low-rate speech coder
US5293452A (en) * 1991-07-01 1994-03-08 Texas Instruments Incorporated Voice log-in using spoken name input
US5408583A (en) * 1991-07-26 1995-04-18 Casio Computer Co., Ltd. Sound outputting devices using digital displacement data for a PWM sound signal
EP0543329B1 (en) 1991-11-18 2002-02-06 Kabushiki Kaisha Toshiba Speech dialogue system for facilitating human-computer interaction
US5305422A (en) * 1992-02-28 1994-04-19 Panasonic Technologies, Inc. Method for determining boundaries of isolated words within a speech signal
US5617508A (en) * 1992-10-05 1997-04-01 Panasonic Technologies Inc. Speech detection device for the detection of speech end points based on variance of frequency band limited energy
FR2697101B1 (fr) * 1992-10-21 1994-11-25 Sextant Avionique Procédé de détection de la parole.
DE4243831A1 (de) 1992-12-23 1994-06-30 Daimler Benz Ag Verfahren zur Laufzeitschätzung an gestörten Sprachkanälen
US5400409A (en) * 1992-12-23 1995-03-21 Daimler-Benz Ag Noise-reduction method for noise-affected voice channels
US5692104A (en) * 1992-12-31 1997-11-25 Apple Computer, Inc. Method and apparatus for detecting end points of speech activity
US5596680A (en) * 1992-12-31 1997-01-21 Apple Computer, Inc. Method and apparatus for detecting speech activity using cepstrum vectors
JP3186892B2 (ja) 1993-03-16 2001-07-11 ソニー株式会社 風雑音低減装置
US5583961A (en) 1993-03-25 1996-12-10 British Telecommunications Public Limited Company Speaker recognition using spectral coefficients normalized with respect to unequal frequency bands
WO1994023424A1 (en) 1993-03-31 1994-10-13 British Telecommunications Public Limited Company Speech processing
CA2157496C (en) 1993-03-31 2000-08-15 Samuel Gavin Smyth Connected speech recognition
US5526466A (en) * 1993-04-14 1996-06-11 Matsushita Electric Industrial Co., Ltd. Speech recognition apparatus
JP3071063B2 (ja) 1993-05-07 2000-07-31 三洋電機株式会社 収音装置を備えたビデオカメラ
NO941999L (no) 1993-06-15 1994-12-16 Ontario Hydro Automatisert intelligent overvåkingssystem
US5495415A (en) * 1993-11-18 1996-02-27 Regents Of The University Of Michigan Method and system for detecting a misfire of a reciprocating internal combustion engine
JP3235925B2 (ja) * 1993-11-19 2001-12-04 松下電器産業株式会社 ハウリング抑制装置
US5568559A (en) * 1993-12-17 1996-10-22 Canon Kabushiki Kaisha Sound processing apparatus
DE4422545A1 (de) * 1994-06-28 1996-01-04 Sel Alcatel Ag Start-/Endpunkt-Detektion zur Worterkennung
EP0703569B1 (de) * 1994-09-20 2000-03-01 Philips Patentverwaltung GmbH System zum Ermitteln von Wörtern aus einem Sprachsignal
US5790754A (en) * 1994-10-21 1998-08-04 Sensory Circuits, Inc. Speech recognition apparatus for consumer electronic applications
US5502688A (en) * 1994-11-23 1996-03-26 At&T Corp. Feedforward neural network system for the detection and characterization of sonar signals with characteristic spectrogram textures
WO1996016533A2 (en) * 1994-11-25 1996-06-06 Fink Fleming K Method for transforming a speech signal using a pitch manipulator
US5701344A (en) 1995-08-23 1997-12-23 Canon Kabushiki Kaisha Audio processing apparatus
US5584295A (en) 1995-09-01 1996-12-17 Analogic Corporation System for measuring the period of a quasi-periodic signal
US5949888A (en) * 1995-09-15 1999-09-07 Hughes Electronics Corporaton Comfort noise generator for echo cancelers
JPH0990974A (ja) * 1995-09-25 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> 信号処理方法
FI99062C (fi) * 1995-10-05 1997-09-25 Nokia Mobile Phones Ltd Puhesignaalin taajuuskorjaus matkapuhelimessa
US6434246B1 (en) * 1995-10-10 2002-08-13 Gn Resound As Apparatus and methods for combining audio compression and feedback cancellation in a hearing aid
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
DE19629132A1 (de) * 1996-07-19 1998-01-22 Daimler Benz Ag Verfahren zur Verringerung von Störungen eines Sprachsignals
JP3611223B2 (ja) * 1996-08-20 2005-01-19 株式会社リコー 音声認識装置及び方法
US6167375A (en) 1997-03-17 2000-12-26 Kabushiki Kaisha Toshiba Method for encoding and decoding a speech signal including background noise
FI113903B (fi) * 1997-05-07 2004-06-30 Nokia Corp Puheen koodaus
US20020071573A1 (en) * 1997-09-11 2002-06-13 Finn Brian M. DVE system with customized equalization
US6487532B1 (en) * 1997-09-24 2002-11-26 Scansoft, Inc. Apparatus and method for distinguishing similar-sounding utterances speech recognition
US6173074B1 (en) * 1997-09-30 2001-01-09 Lucent Technologies, Inc. Acoustic signature recognition and identification
US6216103B1 (en) * 1997-10-20 2001-04-10 Sony Corporation Method for implementing a speech recognition system to determine speech endpoints during conditions with background noise
DE19747885B4 (de) * 1997-10-30 2009-04-23 Harman Becker Automotive Systems Gmbh Verfahren zur Reduktion von Störungen akustischer Signale mittels der adaptiven Filter-Methode der spektralen Subtraktion
US6098040A (en) * 1997-11-07 2000-08-01 Nortel Networks Corporation Method and apparatus for providing an improved feature set in speech recognition by performing noise cancellation and background masking
US6192134B1 (en) * 1997-11-20 2001-02-20 Conexant Systems, Inc. System and method for a monolithic directional microphone array
US6163608A (en) 1998-01-09 2000-12-19 Ericsson Inc. Methods and apparatus for providing comfort noise in communications systems
US6240381B1 (en) * 1998-02-17 2001-05-29 Fonix Corporation Apparatus and methods for detecting onset of a signal
US6480823B1 (en) 1998-03-24 2002-11-12 Matsushita Electric Industrial Co., Ltd. Speech detection for noisy conditions
US6175602B1 (en) * 1998-05-27 2001-01-16 Telefonaktiebolaget Lm Ericsson (Publ) Signal noise reduction by spectral subtraction using linear convolution and casual filtering
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
US6507814B1 (en) * 1998-08-24 2003-01-14 Conexant Systems, Inc. Pitch determination using speech classification and prior pitch estimation
US6711540B1 (en) * 1998-09-25 2004-03-23 Legerity, Inc. Tone detector with noise detection and dynamic thresholding for robust performance
PT1141948E (pt) 1999-01-07 2007-07-12 Tellabs Operations Inc Processo e dispositivo para suprimir ruido de modo adaptativo.
US6574601B1 (en) * 1999-01-13 2003-06-03 Lucent Technologies Inc. Acoustic speech recognizer system and method
US6453291B1 (en) * 1999-02-04 2002-09-17 Motorola, Inc. Apparatus and method for voice activity detection in a communication system
US6324509B1 (en) * 1999-02-08 2001-11-27 Qualcomm Incorporated Method and apparatus for accurate endpointing of speech in the presence of noise
JP2000267690A (ja) * 1999-03-19 2000-09-29 Toshiba Corp 音声検知装置及び音声制御システム
JP2000310993A (ja) * 1999-04-28 2000-11-07 Pioneer Electronic Corp 音声検出装置
US6611707B1 (en) * 1999-06-04 2003-08-26 Georgia Tech Research Corporation Microneedle drug delivery device
US6910011B1 (en) 1999-08-16 2005-06-21 Haman Becker Automotive Systems - Wavemakers, Inc. Noisy acoustic signal enhancement
US7117149B1 (en) * 1999-08-30 2006-10-03 Harman Becker Automotive Systems-Wavemakers, Inc. Sound source classification
US6405168B1 (en) * 1999-09-30 2002-06-11 Conexant Systems, Inc. Speaker dependent speech recognition training using simplified hidden markov modeling and robust end-point detection
US6356868B1 (en) * 1999-10-25 2002-03-12 Comverse Network Systems, Inc. Voiceprint identification system
US7421317B2 (en) * 1999-11-25 2008-09-02 S-Rain Control A/S Two-wire controlling and monitoring system for the irrigation of localized areas of soil
US20030123644A1 (en) 2000-01-26 2003-07-03 Harrow Scott E. Method and apparatus for removing audio artifacts
KR20010091093A (ko) 2000-03-13 2001-10-23 구자홍 음성 인식 및 끝점 검출방법
US6535851B1 (en) * 2000-03-24 2003-03-18 Speechworks, International, Inc. Segmentation approach for speech recognition systems
US6766292B1 (en) 2000-03-28 2004-07-20 Tellabs Operations, Inc. Relative noise ratio weighting techniques for adaptive noise cancellation
US6304844B1 (en) * 2000-03-30 2001-10-16 Verbaltek, Inc. Spelling speech recognition apparatus and method for communications
DE10017646A1 (de) * 2000-04-08 2001-10-11 Alcatel Sa Geräuschunterdrückung im Zeitbereich
US6996252B2 (en) * 2000-04-19 2006-02-07 Digimarc Corporation Low visibility watermark using time decay fluorescence
AU2001257333A1 (en) * 2000-04-26 2001-11-07 Sybersay Communications Corporation Adaptive speech filter
US6873953B1 (en) * 2000-05-22 2005-03-29 Nuance Communications Prosody based endpoint detection
US6587816B1 (en) * 2000-07-14 2003-07-01 International Business Machines Corporation Fast frequency-domain pitch estimation
US6850882B1 (en) * 2000-10-23 2005-02-01 Martin Rothenberg System for measuring velar function during speech
US6721706B1 (en) * 2000-10-30 2004-04-13 Koninklijke Philips Electronics N.V. Environment-responsive user interface/entertainment device that simulates personal interaction
US7617099B2 (en) * 2001-02-12 2009-11-10 FortMedia Inc. Noise suppression by two-channel tandem spectrum modification for speech signal in an automobile
JP2002258882A (ja) * 2001-03-05 2002-09-11 Hitachi Ltd 音声認識システム及び情報記録媒体
US20030028386A1 (en) * 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
DE10118653C2 (de) * 2001-04-14 2003-03-27 Daimler Chrysler Ag Verfahren zur Geräuschreduktion
US6782363B2 (en) * 2001-05-04 2004-08-24 Lucent Technologies Inc. Method and apparatus for performing real-time endpoint detection in automatic speech recognition
US6859420B1 (en) * 2001-06-26 2005-02-22 Bbnt Solutions Llc Systems and methods for adaptive wind noise rejection
US7146314B2 (en) * 2001-12-20 2006-12-05 Renesas Technology Corporation Dynamic adjustment of noise separation in data handling, particularly voice activation
US20030216907A1 (en) * 2002-05-14 2003-11-20 Acoustic Technologies, Inc. Enhancing the aural perception of speech
US6560837B1 (en) 2002-07-31 2003-05-13 The Gates Corporation Assembly device for shaft damper
US7146316B2 (en) * 2002-10-17 2006-12-05 Clarity Technologies, Inc. Noise reduction in subbanded speech signals
JP4352790B2 (ja) * 2002-10-31 2009-10-28 セイコーエプソン株式会社 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物
US7885420B2 (en) 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
US8073689B2 (en) 2003-02-21 2011-12-06 Qnx Software Systems Co. Repetitive transient noise removal
US7895036B2 (en) 2003-02-21 2011-02-22 Qnx Software Systems Co. System for suppressing wind noise
US7725315B2 (en) * 2003-02-21 2010-05-25 Qnx Software Systems (Wavemakers), Inc. Minimization of transient noises in a voice signal
US7949522B2 (en) * 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
US7146319B2 (en) 2003-03-31 2006-12-05 Novauris Technologies Ltd. Phonetically based speech recognition system and method
WO2004111996A1 (ja) * 2003-06-11 2004-12-23 Matsushita Electric Industrial Co., Ltd. 音響区間検出方法および装置
US7014630B2 (en) * 2003-06-18 2006-03-21 Oxyband Technologies, Inc. Tissue dressing having gas reservoir
US20050076801A1 (en) * 2003-10-08 2005-04-14 Miller Gary Roger Developer system
EP1676261A1 (en) * 2003-10-16 2006-07-05 Koninklijke Philips Electronics N.V. Voice activity detection with adaptive noise floor tracking
US20050096900A1 (en) * 2003-10-31 2005-05-05 Bossemeyer Robert W. Locating and confirming glottal events within human speech signals
US7492889B2 (en) * 2004-04-23 2009-02-17 Acoustic Technologies, Inc. Noise suppression based on bark band wiener filtering and modified doblinger noise estimate
US7433463B2 (en) * 2004-08-10 2008-10-07 Clarity Technologies, Inc. Echo cancellation and noise reduction method
US7383179B2 (en) * 2004-09-28 2008-06-03 Clarity Technologies, Inc. Method of cascading noise reduction algorithms to avoid speech distortion
GB2422279A (en) * 2004-09-29 2006-07-19 Fluency Voice Technology Ltd Determining Pattern End-Point in an Input Signal
US7716046B2 (en) * 2004-10-26 2010-05-11 Qnx Software Systems (Wavemakers), Inc. Advanced periodic signal enhancement
US8284947B2 (en) * 2004-12-01 2012-10-09 Qnx Software Systems Limited Reverberation estimation and suppression system
EP1681670A1 (en) 2005-01-14 2006-07-19 Dialog Semiconductor GmbH Voice activation
KR100714721B1 (ko) * 2005-02-04 2007-05-04 삼성전자주식회사 음성 구간 검출 방법 및 장치
US8027833B2 (en) * 2005-05-09 2011-09-27 Qnx Software Systems Co. System for suppressing passing tire hiss
US8170875B2 (en) 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US7890325B2 (en) * 2006-03-16 2011-02-15 Microsoft Corporation Subword unit posterior probability for measuring confidence

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6317711B1 (en) * 1999-02-25 2001-11-13 Ricoh Company, Ltd. Speech segment detection and word recognition

Also Published As

Publication number Publication date
US20060287859A1 (en) 2006-12-21
EP1771840A4 (en) 2007-10-03
US8170875B2 (en) 2012-05-01
CA2575632C (en) 2013-01-08
JP2008508564A (ja) 2008-03-21
CA2575632A1 (en) 2006-12-21
US20070288238A1 (en) 2007-12-13
JP2011107715A (ja) 2011-06-02
KR20070088469A (ko) 2007-08-29
EP1771840A1 (en) 2007-04-11
JP5331784B2 (ja) 2013-10-30
CN101031958A (zh) 2007-09-05
WO2006133537A1 (en) 2006-12-21
US8554564B2 (en) 2013-10-08
US20120265530A1 (en) 2012-10-18
US8165880B2 (en) 2012-04-24

Similar Documents

Publication Publication Date Title
CN101031958B (zh) 语音端点指示器
US20220122609A1 (en) System and method of text zoning
US9263040B2 (en) Method and system for using sound related vehicle information to enhance speech recognition
US9934780B2 (en) Method and system for using sound related vehicle information to enhance spoken dialogue by modifying dialogue&#39;s prompt pitch
US9418674B2 (en) Method and system for using vehicle sound information to enhance audio prompting
US7228275B1 (en) Speech recognition system having multiple speech recognizers
CN101548313B (zh) 话音活动检测系统和方法
US7818174B1 (en) Speech-recognition grammar analysis
CN105529028A (zh) 语音解析方法和装置
US9530432B2 (en) Method for determining the presence of a wanted signal component
US10861459B2 (en) Apparatus and method for determining reliability of recommendation based on environment of vehicle
Pallett Performance assessment of automatic speech recognizers
US20020123893A1 (en) Processing speech recognition errors in an embedded speech recognition system
US20190348032A1 (en) Methods and apparatus for asr with embedded noise reduction
CN117636872A (zh) 音频处理方法、装置、电子设备和可读存储介质
CN115132195B (zh) 语音唤醒方法、装置、设备、存储介质及程序产品
KR101892736B1 (ko) 실시간 단어별 지속시간 모델링을 이용한 발화검증 장치 및 방법
CN114420103A (zh) 语音处理方法、装置、电子设备及存储介质
KR20230146898A (ko) 대화 처리 방법 및 대화 시스템
Tatarinov et al. Hmm and ehmm based voice activity detectors and design of testing platform for vad classification
Wu et al. Speech and word detection algorithms for hands-free applications

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: QNX SOFTWARE SYSTEMS CO., LTD.

Free format text: FORMER OWNER: QNX SOFTWARE SYSTEMS WAVEMAKER

Effective date: 20111107

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20111107

Address after: Ontario, Canada

Applicant after: QNX Software Systems Ltd.

Address before: British Columbia

Applicant before: QNX SOFTWARE SYSTEMS (WAVEMAKERS), Inc.

C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: 2236008 ONTARIO INC.

Free format text: FORMER OWNER: 8758271 CANADIAN INC.

Effective date: 20140729

Owner name: 8758271 CANADIAN INC.

Free format text: FORMER OWNER: QNX SOFTWARE SYSTEMS CO., LTD.

Effective date: 20140729

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20140729

Address after: Ontario

Patentee after: 2236008 ONTARIO Inc.

Address before: Ontario

Patentee before: 8758271 Canadian Ex-plosives Ltd

Effective date of registration: 20140729

Address after: Ontario

Patentee after: 8758271 Canadian Ex-plosives Ltd

Address before: Ontario, Canada

Patentee before: QNX Software Systems Ltd.

TR01 Transfer of patent right

Effective date of registration: 20200529

Address after: Voight, Ontario, Canada

Patentee after: BlackBerry Ltd.

Address before: Rika Univ.

Patentee before: 2236008 Ontario Inc.

TR01 Transfer of patent right