CN1830009B - 声音检测和定位系统 - Google Patents
声音检测和定位系统 Download PDFInfo
- Publication number
- CN1830009B CN1830009B CN038145073A CN03814507A CN1830009B CN 1830009 B CN1830009 B CN 1830009B CN 038145073 A CN038145073 A CN 038145073A CN 03814507 A CN03814507 A CN 03814507A CN 1830009 B CN1830009 B CN 1830009B
- Authority
- CN
- China
- Prior art keywords
- sound
- sound event
- event
- input
- channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 177
- 230000004807 localization Effects 0.000 title claims description 150
- 230000007246 mechanism Effects 0.000 claims abstract description 74
- 238000000034 method Methods 0.000 claims description 278
- 230000006978 adaptation Effects 0.000 claims description 65
- 230000003044 adaptive effect Effects 0.000 claims description 47
- 230000006870 function Effects 0.000 claims description 15
- 230000004308 accommodation Effects 0.000 abstract 1
- 238000001914 filtration Methods 0.000 description 63
- 238000010586 diagram Methods 0.000 description 47
- 230000008569 process Effects 0.000 description 26
- 230000001105 regulatory effect Effects 0.000 description 26
- 230000014509 gene expression Effects 0.000 description 22
- 238000004088 simulation Methods 0.000 description 21
- 238000010606 normalization Methods 0.000 description 19
- 230000007704 transition Effects 0.000 description 19
- 230000030808 detection of mechanical stimulus involved in sensory perception of sound Effects 0.000 description 12
- 238000012935 Averaging Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 8
- 230000000875 corresponding effect Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- 230000004044 response Effects 0.000 description 8
- 230000000630 rising effect Effects 0.000 description 7
- 238000005070 sampling Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 6
- 230000002349 favourable effect Effects 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 239000004615 ingredient Substances 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 238000005520 cutting process Methods 0.000 description 3
- 210000000883 ear external Anatomy 0.000 description 3
- 230000002787 reinforcement Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 208000003443 Unconsciousness Diseases 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 230000003466 anti-cipated effect Effects 0.000 description 2
- 238000010009 beating Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 210000000959 ear middle Anatomy 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 210000000653 nervous system Anatomy 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000007493 shaping process Methods 0.000 description 2
- 235000015170 shellfish Nutrition 0.000 description 2
- 238000005728 strengthening Methods 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 241000220317 Rosa Species 0.000 description 1
- 230000005534 acoustic noise Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000007600 charging Methods 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000012421 spiking Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/802—Systems for determining direction or deviation from predetermined direction
- G01S3/808—Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
- G01S3/8083—Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems determining direction of source
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01V—GEOPHYSICS; GRAVITATIONAL MEASUREMENTS; DETECTING MASSES OR OBJECTS; TAGS
- G01V1/00—Seismology; Seismic or acoustic prospecting or detecting
- G01V1/001—Acoustic presence detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Remote Sensing (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Signal Processing (AREA)
- Geology (AREA)
- Geophysics (AREA)
- Environmental & Geological Engineering (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- General Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Stereophonic System (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
人类听觉机制的初始检测、适应和频偏特性已经被模拟并用来创造能对声场中的定向瞬时声(“声音事件”)进行检测和分别对其定位的系统。这些模型将声场分解成声音事件和非声音事件并分别对这些声音事件和非声音事件进行定位。根据频偏和初始检测特性,声音事件通常被识别出来。一旦声音事件被检测出来,根据反映声音事件在其上升时间中指示的方向的差分转角(稳态信号已经被适应了的转角)或普通转角,声音事件通常能被定位。当没有检测到任何声音事件时,根据不反映快速运动的转角,非声音事件得到了定位。
Description
相关申请的交叉引用
本申请基于序列号为60/377,558,标题为“Adaptive Circuit forDetermining the Direction and Timing of Sound Events Embeddedin a Complex Sound Field”(“复杂声场中用于确定声音事件的方向和记时的自适应电路”)的待审的美国临时申请。本申请要求该临时申请的提交日的权益。
技术领域
本发明通常涉及检测和定位声音。本发明尤其涉及检测和/或定位包括复杂声场中的声音事件的声音。
背景技术
许多基于声音的应用,如音频回放系统、音频和语音编码系统、语音识别系统、和音频放大系统,要求具有区分和检测某些类别的声音并能确定出声音发源或起源的方向的能力。检测某些类别的声音的能力对于例如声音放大等应用是重要的,而检测和定位声音的能力对涉及声音回放的应用检测则是至关重要的。不幸的是,声音的检测和定位可能会非常复杂,这是因为声音很少单独存在。
现场的或者回放的声音通常包括一段时间内出现的许多不同声音的复杂组合以形成复杂声场。声场中的各种声音可以叠加,一个接一个,或以任意组合形式出现。一种将声场中的单独声音进行分类的方法是根据声音是否发源或者起源于一个特定的地方。那些能以发自或源于特定方向的形式被检测的声音被称为定向声音,而那些根本不能以发自或源于特定方向的方式被检测的声音被称作无定向声音。另一种对声音进行分类的方法以声音是瞬时声音还是稳态声音为根据。稳态声音是那些在一段时间内功率基本恒定的声音,例如相同的音符。稳态声音可以是定向声音或无定向声音。瞬时声音(“瞬时声”)是那些具有初始能量跃冲的声音,如喊叫声或者击鼓声。瞬时声也可以是定向声音或无定向声音。一个无定向瞬时声音的例子是在直射声音被物体挡住的混响处的话音。在这种情况下,如果声音的混响时间比保存的声音信号的特征时间少一秒钟,有关信号方向的信息就会丢失。
在本申请中,定向瞬时声被统一称作“声音事件”。音节声音和脉冲声音是两种类型声音事件。音节声音包括音素和音符。音素是一些瞬时声音,这些瞬时声音是人类话语中单音的特征,并在检测和定位人类话语中的音节声音时特别有用。音符是乐器发出的独特的符号音。因为音素和音符具有共同的特征,在本申请中,他们统一被称为“音节声音”。音节声音,通常具有下面的特征:大约从至少50ms到大约200ms的,但典型地约为150ms的有限时段;大约33ms的上升时间;通常出现的频率不超过每0.2ms一次到大约每0.5ms一次;且其音量(振幅)可高可低。相反,脉冲声音是一些非常短时的瞬时声,例如击鼓声或话语中的摩擦音和爆破音。脉冲声音通常有如下特性:大约5ms到大约50ms的短时段,大约1ms到大约10ms的上升时间,和高音量。
为了检测声场中的声音,不论声音是现场产生的或是回放的,通常该声场需要仅在一个输入或“输入声道”中产生。然而,为定位声音,该声场通常需要在至少两个输入或输入声道中产生。声音定位的原型是自然听觉,主要是通过代表两个输入声道的两耳之间的到达时间差来检测声音的方位角。当用电子仪器定位声音时,主要是通过两个或更多个输入声道所产生的声音信号间的幅值和相位关系来基本确定声源的方位角。通常,为了描述这些输入声道上的定向声音的方位角,根据每个相互对应的声道对(每个“声道对”)间的夹角来表述这些声源的方向。如果声音仅在两个声道中产生,那么声音的方向将根据声道对的夹角给出,通常为左/右角“lr”。如果声音在四个声道中产生,那么声音的方向将根据每个声道对的夹角给出,通常为一个左/右角“lr”,和一个前/后角“cs”。例如,当声场在两个声道中产生时,声场中声音的平均方向只根据“lr”给出。在此情况下,lr的值位于大约-45°度到45°之间,用-45°表示声场源于左输入声道,45°表示声场源于右输入声道,并且0°表示声场源自于左右输入声道的正中间位置(通常被称作“中央”的位置)。
然而,当声场在如环绕声系统的两个声道对中产生时,则可定义第二方向分量。此外,即便该声场仅在一个声道对中产生,因为经常可以在一个声道对的基础上获得一个附加声道对,同样也可以指定第二方向分量。除了可以根据lr指定方向,也可根据cs来指定方向。cs的值也位于大约-45°到大约45°之间,用lr=0°和cs=45°表示该声场只源自于中央输入声道,并用lr=0°和cs=-45°表示该声场只源自于后输入声道。类似地,lr=-45°和cs=0°表示声音源自于左边,和lr=45°和cs=0°表示该声场源自于右边。此外,lr=-22.5°和cs=-22.5°表示该声场源自于左后方,而lr=22.5°和cs=-22.5°表示该声场源自于右后方。
在回放录制声音时采用了一种确定这些角度的已知技术。通常,该已知技术通过比较一个输入声道对的一个输入声道中的信号幅值和该声道对的另一输入声道中的信号幅值(通常是,左同右比较,中央同环绕比较)从而确定想知道的声音方向。更具体些,用此幅值比率来为每一个输入声道对确定通常所称的“一般转角”或“OSA”。为了获得该OSA,调整一个输入声道对的每个输入声道中的电压信号,并且对调整后的电压取对数。用一个输入声道对中一个输入声道的整形电压的对数值减去另一个输入声道的整形电压对数值,产生一个信号,该信号等于该输入声道对中电压比率的对数值,当转换回到幅值域时,该对数值就是一般转角。在环绕声回放系统中,通常用称为矩阵解码器的装置来确定该值。
不幸地是,因为此项已知技术是根据每个输入声道的相对电压强度来确定整个声场的方向,所以该技术认为整个声场好像只是包含单声.因此,多个定向单独声音将不能被正确定位.为了将声场当作很多声音的复杂组合来处理,已经不断尝试去设计可以分离定向瞬时声音(声音事件)的滤波器以便能分别地确定出声音的方向.然而,在设计这样的滤波器时遇到了一个基本问题.如果使该滤波器能足够快地区分出所有定向瞬时声信号的波动,那么该滤波器同样也能区分例如混响和噪声的无定向瞬时声信号的波动特性.结果,混响和噪声的快速波动部分如同声音中的定向变化一样被再现,这严重降低了回放声音的质量.另一方面,如果该滤波器不能足够快地区分出无定向瞬时声信号的波动特征,那么通常情况下,该滤波器由于太慢而不能区分某些声音事件的波动,特别是脉冲声音.结果,很多声音事件都不能够被正确定位.无论这些滤波器是如何设计的,它们通常只对一类而不是对全部音乐都很有效.例如,快速滤波器对充满了快速变化的复杂的流行音乐就很有效,但当回放高混响的一段经典音乐时,快速滤波器会反映错误的方向变化(转向太大).
当在给定数量的输入声道中录制的声音被不同数量的输入声道回放时,还会出现其他的问题。例如,立体声和环绕声是两类普通的声音录制和回放技术。用于以立体声(2声道)回放的已录制的声音会希望该声音听起来好象只是从前面发出的。用于以环绕声(大于2个的任意多个输入声道,但通常是5或7个声道)回放的已录制的声音会希望该声音听起来好象是从四周围发出的,通常用1或2个输入声道来回放从后面传来的声音。录制打算以立体声回放的声音所采用的技术通常不同于录制准备以环绕声回放的声音所采用的技术。然而,因为环绕声系统并未被普遍采用,故用环绕声回放的录制的声音通常需要能用立体声高质量回放。例如,在典型的5声道环绕声系统中,将中央声道中的声音编码到右输入声道和左输入信道中以使中央声道“c”中包含的声音等于包括在左输入声道和右输入声道中的声音的和(c=l+r)。类似地,将环绕声道中的声音编码到左输入声道和右输入声道中以使环绕声道“s”中包含的声音等于包括在左输入声道和右输入声道中的声音的差(s=l-r)。在另一个例子中,录制用于以环绕声回放的声音的杜比环绕声系统将负相位添加到打算从收听者后面(后方)回放的声音上。该负相位通常不能被立体声回放系统检测出来,且对收听者是透明的。然而,该负相位可被环绕声回放系统检测出来,然后在后输入声道中将相关声音回放出来。不幸地是,即使以立体声的格式录制,许多声音本身就有负相位,因此会被环绕声回放系统在其后输入声道中不正确地回放出来。这种声音可能走调和不自然。
发明内容
存在一种需要,即对一种能区分声音事件和声场中其余部分的检测器,一种能分别确定被检测声音事件方向的定位器,和一种能分别确定声场中的声音事件和其余声音的方向的声音定位器的需求。人类听觉机制的特性已经被模拟并被用来创造具着这些特征的各种系统,这是因为人类听觉机制并没有经历很多已有声音检测和系统遇到的那些问题。
人类听觉机制通过将声场分解成单独的声音,确定这些单独声音的方向,将有关的各种声音合在一起形成声音流(如特定乐器的旋律主线或特定演讲人的发言主线),并基于该声音流中单独声音的平均方向来确定声音流的方向,来定位声场中的声音。在将声场分解成独立声音的过程中,人类听觉机制具有区分瞬时声音和其他声音的能力,并且具有区分声音事件和其他无定向瞬时声的能力。
而且,人类听觉机制根据初始检测和适应特性,可从非瞬时声音中区分出瞬时声,并甚至在背景声音信号存在下,从其他瞬时声音中区分出声音事件.初始检测是人类神经系统高度进化的以至于能确定声音初始点和结束点的结果,并使人类的听觉机制对声音上升和下降时段特别敏感.适应是一种特性,它使人类的听觉机制通过逐渐忽略稳态声音的存在而从稳态声音中区分出瞬时声.此外,出于定位的目的,人类的听觉机制更依赖某些频率的声音和声音开始部分的显著方向.人类听觉机制为确定方向最依赖从大约500Hz到大约4000Hz的频率.这种频偏主要是耳朵外部(外耳壳,外耳和耳道)的频率响应的结果,以及由中耳对声音的频率传递功能所造成的.人类听觉机制对声音的上升时段部分所指示的方向的依赖比对声音的其他时段部分所指示的方向的依赖更大.这样的依赖是有利的,因为即使在高反射环境中,声音上升时段部分所指示的方向不太会被回声和其他反射的声音所影响.
在检测出单独声音的方向后,人类听觉机制又将有关的声音重新合成为声音流,并且单独确定每一个声音流的方向。每个声音流的方向通常是该声音流中所有单独声音的平均方向。无论如何,将有关声音重新合成为声音流以及确定每个声音流的方向的过程都是人类听觉机制在无意识和自动状态下执行的。
人类听觉机制的特性已经被模拟用来创造产生指示声场中发生了声音事件的信号的声音事件检测方法。这些声音事件的检测方法利用初始检测特性来检测声音事件的发生。初始检测特性也被模拟用来识别声音事件的典型发生过程,并利用这些发生过程来产生触发信号。此外,这些声音事件检测方法可以利用适应特性来提高该触发信号的准确度。适应特性也被模拟用来在一段时间上降低任何稳态声音对声场可能具有的影响。在声场中降低这些影响是为了产生差分信号。该差分信号然后可被初始检测模型用来产生改良的触发信号。声音事件的检测方法也可以包括加强对人类听觉机制重要的频率。
人类听觉机制的特性已被用来创造声音事件检测和定位方法,来确定在有背景声音信号时发生的声音事件的方位。无论何时只要触发信号指示已经发生了声音事件,这些声音事件的检测和定位方法就会产生至少一个用以指示声音事件方向的转角(“差分转角”)。声音事件的检测和定位方法在所有的稳态声音已被去除后,通过比较每个输入声道对的每个输入声道中的声音事件的相对功率,使用差分信号来确定差分转角。通过比较一个输入声道对的每个输入声道中的功率而不是如同已知方法的比较一个输入声道对的每个输入声道中的电压,就能够确认出单独声音事件并分别给予定位。
人类听觉机制的特性也可被用来去确定声场中所有声音的方位。通过将这些声音事件的检测和定位方法和确定声音预定方向的已知方法相结合,已经开发出了在有背景声音存在时更精确地定位任意声音组合中的单独声音的声音定位方法。这些声音定位方法将声场分成声音事件和非声音事件并依据真差分转角或真普通转角来定位声音事件,以及依据已滤波的普通转角来定位非声音事件。这些方法本质上将非声音事件看作一种独立的声音,并单独为之确定方向。声音定位方法,以及声音事件检测和定位方法与声音事件检测方法,能被用于由任意多输入声道对产生的声场中的任意多声音事件类型以及这些声音事件类型的任意组合。
人类听觉机制的特性已经被模拟用来创造能从背景声音信号中检测出声音事件的电路。这些声音事件检测器可被用于各种具体应用,对这些应用来说,声音事件的特定类型的检测是有帮助的。例如,用来检测音节声音的声音事件检测器可被用作语音检测器的一部分、或用作语音识别系统或语音编码的一部分。在另外一个例子中,检测音节声音的声音事件检测器可与例如麦克风的声音放大装置结合使用。这样使麦克风一直保持关闭直到检测到讲话者的音节声音为止,因而防止麦克风去放大那些不必要的声音以及当讲话者保持沉默时麦克风自己产生的反馈信号。声音事件检测器,同那些声音事件的检测方法一样,是基于初始检测特性和适应特性的并且通常产生包括一些例如脉冲的标识或标记指示声音事件的发生的触发信号。
人类听觉机制的特性已经被模拟并用来创造能从背景声音信号中检测出声音事件并对其进行定位的电路.这些声音事件检测和定位器,像那些声音事件检测和定位方法一样,可依据差分转角或普通转角来确定涉及一个或多个输入声道对的声音事件的方向,且在某些情况下,可检验转角的精度.声音事件检测和定位器的一种应用是作为立体声/环绕声检测器.立体声/环绕声检测器确定声场是要以两输入声道回放还是要以多于两个的输入声道回放.
人类听觉机制的特性已经被模拟并用来创造能从背景声音信号中检测出声音事件的电路(统一称作“声音事件检测器”)。声音事件检测器可被用到各种各样的具体应用中,检测特定声音事件类型对这些应用有帮助。例如,检测音节声音的声音事件检测器可被用作语音检测器的一部分、或用作语音识别系统或语音编码的一部分。在另外一个例子中,检测音节声音的声音事件检测器可与如麦克风的声音放大装置结合使用。这使麦克风一直保持关闭直到检测到讲话者的音节声音为止,因而防止麦克风去放大那些不必要的声音和讲话者沉默时麦克风自己产生的反馈信号。声音事件检测器,同那些声音事件检测方法一样,通常产生包括一些如脉冲的指示发生了声音事件的标识或标记的触发信号。还有,像声音事件检测方法一样,声音事件检测器能被用于由任何多输入声道对产生的声场中的任意多声音事件类型以及这些声音事件类型的任意组合。
声音事件检测方法、声音事件检测和定位方法、声音定位方法,和任何声音事件检测器、声音事件检测和定位器以及声音定位器可在声音事件设备和/或计算机可读软件代码中得到实施。
基于如下附图和详细的说明书,本发明的其他系统、方法、特色和优势对于本领域的技术人员来说是显而易见的。所有这样的其他系统、方法、特色和优势都应包括在本说明书中,都应属于本发明的范畴内,并都应被如下的权利要求所保护。
附图说明
参考下面的附图和说明可以更好地理解本发明。图中各组成部分不必按比例制图、强调,而只是用于说明本发明的各种原理。在这些附图中:
图1是用于单输入声道和单声音事件类型的声音事件检测方法的流程图;
图2是适应方法的流程图;
图3是瞬时声的开始部分被辨认前、被辨认中、被辨认后和已将瞬时声同背景声音区分开后的声场中某采样段的一系列时域图;
图4是用于单输入声道的初始检测的方法流程图;
图5是用于多输入声道的声音事件检测方法的流程图;
图6是用于多输入声道的初始检测方法的流程图;
图7是用于单输入声道和多声音事件类型的声音事件检测方法的流程图;
图8是用于多输入声道和多声音事件类型的声音事件检测方法的流程图;
图9是用于单输入声道对和单声音事件类型的声音事件检测和定位方法的流程图;
图10是用于多输入声道对和单声音事件类型的声音事件检测和定位方法的流程图;
图11是用于多输入声道对和多声音事件类型的声音事件检测和定位方法的流程图;
图12是用于单输入声道对和多声音事件类型的声音事件检测和定位方法的流程图;
图13是声音定位方法的流程图;
图14是用于单输入声道对和单声音事件类型的方向选择方法的流程图;
图15是用于单输入声道对和单短时声音事件的方向选择方法的流程图;
图16是用于多输入声道对和单声音事件类型的方向选择方法的流程图;
图17是差分转角确定方法的流程图。
图18是用于多输入声道对和单短时声音事件类型的方向选择方法的流程图;
图19是声音事件设备的框图;
图20是用于单输入声道和单声音事件类型的声音事件检测器的框图;
图21是用于单输入声道的适应性电路的电路图;
图22是用于单输入声道的触发信号产生电路的电路图;
图23是用于单输入声道和短时声音事件类型的声音事件检测器的电路图;
图24是用于多输入声道和单声音事件类型的声音事件检测器的框图;
图25是用于多输入声道对的交替触发信号产生电路的电路图;
图26是用于单输入声道和多声音事件类型的声音事件检测器的框图;
图27是用于多输入声道和多声音事件类型的声音事件检测器的框图;
图28是用于单输入声道对和单声音事件类型的声音事件检测和定位器的框图;
图29是用于单输入声道对和单声音事件类型的声音事件定位电路的电路图;
图30是用于多输入声道对和单声音事件类型的声音事件检测和定位器的框图;
图31是用于多输入声道对和单声音事件类型的声音事件定位电路的电路图;
图32是用于单输入声道对和多声音事件类型的声音事件检测和定位器的框图;
图33是用于多输入声道对和多声音事件类型的声音事件检测和定位器的框图;
图34是用于单声音事件类型的立体声/环绕声检测器的框图;
图35是用于多声音事件类型的立体声/环绕声检测器的框图;
图36是用于单输入声道对和单声音事件类型的声音定位器的框图;
图37是用于单输入声道对和单声音事件类型的声音定位电路的电路图;
图38是用于单输入声道对和短时声音事件类型的声音定位电路的电路图;
图39是用于多输入声道对和单声音事件类型的声音定位器的框图;
图40是用于多输入声道对和单声音事件类型的声音定位电路的电路图;
图41是用于多输入声道对和短时声音事件类型的声音定位电路的框图;
图42是用于单输入声道对和多声音事件类型的声音定位器的框图;
图43是用于多输入声道对和多声音事件类型的声音定位器的框图。
具体实施方式
包括各种方法和设备的声音检测和定位系统已经被开发出来,该系统基于人类听觉机制的特性来检测和独立地确定复杂声场中的声音事件的方向.包括双耳、听觉系统和大脑的相关部分的人类的听觉机制,由于两个基本原因被选作为模型.第一个原因是人类听觉机制能非常有效地检测声音并确定声音的方向而不具有那些已知系统的缺点.第二个原因是按人类听觉机制建模的系统所产生的很多错误通常也是人类听觉机制犯的错误,这样使得这些错误不会被听见.
对人类听觉机制进行研究并将其作为模型来建立各种声音检测和定位系统。通过模拟人类听觉机制中的频偏、初始检测特性、适应特性和初始依赖(onset reliance),已经发明了极为有效、高质量方法,用于存在稳态声音时的声音事件的检测,用于存在稳态声音时的声音事件的检测和定位,和用于声场中所有声音的检测和定位。这些方法也可以用软件、硬件来实现以创造出程序,设备和甚至更复杂的可广泛应用的系统。
许多已知的声音检测和定位系统中遇到的问题是人类听觉机制所从未经历过的。例如,人类收听者一般不会将高混响音乐误认为是收听到了音乐或是音乐源的快速变动。而且,人类听觉机制通过将声场分解成许多单独的声音,确定单独声音的方向,分别将相关的的声音合成声音流(例如特定乐器的旋律主线或是特定演讲人的发言主线),和根据声音流中单独声音的平均方向确定该声音流的方向,来定位声场中各种声音。人类听觉机制的这种健壮性增强了其分辨声音和确定声音方向的能力,以至于即使是对此时声音流中各种声音方向的确定只正确了50%,对整个声音流方向的确定也很有可能是正确的。
在将声场分解成许多单独的声音的过程中,人类听觉机制有辨别瞬时声和其他声音的能力,和有将声音事件同无定向瞬时声区分开的能力。而且,通过依靠初始检测和适应的特性,人类听觉机制甚至能在有背景声音信号存在的情况下从非瞬时声音中区分出瞬时声音和从其他瞬时声音中区分出声音事件。初始检测起源于高度进化以能确定声音的起点和终点的人类神经系统,并使人类的听觉机制对声音上升和下降时间特别敏感。适应是一种允许人类的听觉机制通过逐渐忽略稳态声音的存在而从稳态声音中区分出瞬时声音的特性。初始检测和适应的特性及它们对定位的影响是通过实验发现和证明的。在使用耳机的实验中,发现了只有在音调开始或结束时才能检测出音调的方位(用来指示方向)。如果该音调是连续的,要确定它的方向就变得很难。而且,如果把新的声音加到稳态音调上,能很容易地确定出新声音的真实方向。这证明一些声音既有瞬时分量又有稳态分量。这还证明了人类听觉机制对声音的包括声音的起点和终点的瞬时分量特别敏感,而且人类听觉机制利用声音的起点和终点来定位(初始检测检测特性)。这还证明了人类听觉机制忽略了一段时间上的稳态声音,并通常不依靠这些稳态声音来定位(适应特性)。这还进一步揭示了人类听觉机制逐渐忽略稳态声音的速度(“适应速度”)同正被检测的声音事件类型无关。实验还发现适应速率可以不是常数,并且可适应声音条件和话语的快慢进行调整。然而,还发现适应速率的合理平均值为大约300ms。
此外,出于定位的目的,人类听觉机制更严重地依赖某些频率和声音起点的明显方向。为确定方向,人类听觉机制最依赖的是介于大约500Hz到大约4000Hz之间的频率。这种频偏主要是外耳(外耳壳,外耳和耳道)的频率响应的结果和由中耳的频率传输功能所造成的。人类听觉机制对声音的上升时段中所指示的方向的依赖要比对声音其他时段部分中所指示的方向的依赖大。这种依赖是有利的,因为即使在高反射环境中,声音上升时段中所指示的方向也不太可能被声音的反射和混响所恶化。
在检测单独声音的方向后,人类听觉机制将有关的声音重新合成为声音流,并且分别确定每个声音流的方向.每个声音流的方向通常是该声音流内所有声音的平均方向.很多情况下,声音被合成为前景声音流和背景声音流.在一个例子中,该前景声音流可以由会话构成且背景声音流可以由会话声源附近产生的环境声音构成.无论如何,将有关声音重新合成声音流以及确定每个声音流方向的处理过程都是人类听觉机制在无意识和自动状态下执行的.
通过应用人类听觉机制的特性,一些系统已经被开发出来用于(a)在声场中检测声音事件;(b)在声场中检测和定位声音事件;和(c)定位声场中的所有声音。这些方法、设备和系统利用人类听觉机制的特性将声场分解成单独声音,区分单独的声音事件,并确定出单独声音事件和其他声音的方向。当利用单独声音的方向去再现该声场时,由人类听觉机制将有关声音重新合成为声音流并确定每个声音流的方向。
检测声音事件的方法
人类听觉机制特性已经被模拟以发明在背景信号存在的情况下检测声音事件的方法(统一称作“声音事件检测方法”)。声音事件检测方法会产生包括指示声音事件的发生的标志或标记的信号(本申请文件中被称作“触发信号”),如脉冲。可以用声音事件检测方法来检测任意多个输入声道对中的任意多声音事件以及声音事件的任意组合。在下面的说明中,按照复杂度不断增加的顺序讨论声音事件的检测方法,除非特别声明,每一后续声音事件检测方法都将结合前述方法的那些步骤。
图1显示了在有背景信号存在的情况下检测声音事件的方法示例,该方法只检测单输入声道中产生的声场中的单个声音事件类型(“用于单输入声道和单声音事件类型的声音事件检测方法”),并由参考数字100表示。用于单输入声道和单声音事件类型的声音事件检测方法100包括:通过模拟频偏加强对方向重要的频率104;通过模拟适应将声音事件同背景声音分开106;和通过模拟初始检测来检测声音事件108。
采用频率加强方法通过模拟人类听觉机制的频偏加强对方向重要的频率104。频率加强方法包括在一个输入声道对的每个输入声道中加强介于大约500Hz到大约4kHz之间的频率,以便在每个输入声道中产生已滤波的信号。这些频率被加强是因为它们在确定方向上对人类听觉机制影响最多。通过模拟适应将声音事件同背景声音分开106通常包括检查声场中输入功率中的变化,在图2中有更详细的显示。更具体些,通过模拟适应将声音事件同背景声音分开106(“适应方法”)包括:确定输入声道的功率包络201;确定任何稳态声音的功率202;和从输入声道的功率包络中减去任何稳态声音的功率。确定输入声道功率包络201通常包括将输入声道中的电压取平方值。无论是现场产生还是来自录音的声场,通常被表示成时域上的电压信号。不幸的是,电压信号不具有可加性,这意味着不能通过两个电压信号的幅值的简单相加确定源于两个电压信号合成的电压信号的幅度。然而,功率信号就有可加性。因此,通过将电压信号转换成功率信号(通常通过取电压的平方),得到了可被用来减其他功率信号的功率包络。为获得更纯净的信号功率包络(包含有更少波动),可将功率包络中那些不具有正被检测的声音事件类型的特征的波动部分去掉。例如,如果正在检测的是音节声音,那么就将那些上升时间少于33ms的波动部分从该功率包络中去掉。
在声场中确定任何稳态信号的功率202包括确定该声场的长期平均功率.通过在等于正被检测的声音事件类型的上升时间的一段时段内对功率包络进行积分,就可以确定长期平均功率(在本申请文件中被称为是“适应信号”).一旦声音事件已经到达了它的最大值(即该声音事件上升时间的终点),为了模拟人类听觉机制逐渐忽略存在声音事件情况时的稳态声音的影响的方法,以等于人类听觉机制的适应速率(是大概300ms)的速率从功率包络逐渐减掉适应信号204.为了能控制适应,在所有时候都应使适应信号小于或等于功率包络.因此,当声音事件结束时,会导致功率包络快速下降,使适应信号同功率包络相等.从绝对信号功率中将适应信号减去后的结果是“差分信号”.该差分信号包括正脉冲和其他的波动部分.差分信号中的每个脉冲表示一个声音事件的发生,而其他的波动部分则是由例如回声、高斯噪声和其他那些不可以在前景声音流中出现的各种信号的噪声引起的.
图3显示的是适应方法如何影响输入信号的一个例子。图3中的时域图A显示了声场的一段采样信号。该段信号包括为音节的特征的变化频率的一群声波300。该音节的幅度是信号中的电压“V”。电压V随着时间t而变化,且有持续时间“D”。时域图B显示的是将段300转换成了功率信号(图2中的步骤201)之后的脉冲302,。脉冲302的幅值代表了信号中的功率(“V2”),并也有持续时间D。时域图C显示的是将上升时间不是音节的特征的波动部分从脉冲302中去除后的脉冲304。脉冲304的也具有幅值V2,且有上升时间tr,其中tr大约等于33ms。时域图D显示的是通过减去适应信号使脉冲304中的稳态声音被适应后的脉冲306。脉冲306的上升时间同脉冲304的一样。然而,在音节的幅值达到它的最大值后(tr后),任何同时发生的稳态信号的影响都以同人类听觉机制的适应速率(大约300ms)相同的速率从脉冲信号306中去除。当声音事件结束时,功率包络V2(脉冲304)快速下降。在V2将要变成小于适应信号“AccSig”的点上,将一直使AccSig与V2基本相同直到该声音事件的结束。这使得差分信号变为零。
再参考图1,,一旦通过模拟适应106将声音事件从背景声音中区分出来,就要通过模拟初始检测108来检测声音事件。模拟初始检测包括从差分信号中的噪声中将声音事件区分出来。如同前面的讨论,差分信号包括一系列快速上升的脉冲和噪声。当每个脉冲信号都表示声音事件的发生时,噪声包括可能错误地表示声音事件的发生的波动部分。因此为了检测出声音事件,需要区别声音事件和噪声。模拟初始检测108在图4中更详细地被显示并包括减弱音量的影响;加强声音事件404;减弱噪音406;和检测声音事件408。
同时能完成步骤404、406和408的一种方法是用该差分信号的噪音分量包含的短期平均功率(“短期平均高频功率”)来缩放该差分信号。采用通常涉及自动增益控制(“自动增益方法”)的技术,将短期平均高频功率隔离出来并用短期平均高频功率去除以差分信号。通过滤波差分信号以获得频率高于正被检测的声音事件类型的特征频率的差分信号的分量,并在一小段时间上对此高频部分进行积分,便能将短期平均高频功率分离。其中对于不同类音乐或者话语速率,这一小段时间是不同的。然而,实验认为大约160ms的值对各种输入都起到很好的效果。
采用自动增益方法归一化差分信号有两个效果,一个明显的和二个不很明显的效果。第一个效果是通过根据差分信号中的波动部分的幅值(代表功率)归一化差分信号,从而降低了音量对差分信号的影响402。因为更高声的声音事件和噪声通常包含更大的功率,更高声的声音事件和噪声的缩放要比那些不是高声的声音更大些。这就是自动增益控制方法的标准功能。
第二个效果是通过减弱那些比正被检测的声音事件类型的特征波动(比如,音节通常是大约每200ms出现或重复一次)更频繁出现的波动,来减弱噪声406.由噪声引起的差分信号的各部分中的波动部分通常要比声音事件的典型波动出现地更频繁.这些噪声波动的快速重复率会增大用来除差分信号的那部分的平均高频功率.这样就减弱了含有该噪声的那部分差分信号.归一化差分信号的第三个效果是通过加强那些出现和重复的频率低于正被检测的声音事件类型的特征波动的出现频率的波动来加强声音事件404.那些包含比正被检测的声音事件类型的特征波动还要少出现的波动的差分信号部分会有较低的平均高频功率(同含有噪声的部分相比),该平均高频功率是用来除那部分差分信号的.这为声音事件提供了相对的加强.
可进一步通过去除由噪声引起的差分信号中的多个波动部分完成减弱噪声406。根据上升时间和其他特性,一些由噪声引起的波动部分能被识别并被去除。例如,去掉具有与被测声音事件类型的特征不一致的上升时间的波动部分。例如,如果被检测的声音事件类型为音节,那么那些具有少于33ms上升时间的声音将被去除。在另一个例子中,如果被检测的声音事件类型为突发脉冲声音(impulse sound),那么那些有着少于3.3ms上升时间的声音将被去除。此外,比例如噪音和回声的声音事件的特征频率更经常发生的低振幅瞬时声也能被滤掉。而且,因为只要声场的功率值比起前一个声音事件的功率的降低超过了大概10dB,就均可以认为同时被检测出的瞬时声音是噪声或一些其他的无定向瞬时声,所以也可以将这样条件下发生的瞬时声去除。步骤402、404和406的结果是,许多差分信号中的波动都被去除以产生改善的差分信号,该差分信号包括各自表示声音事件的出现的脉冲。然而,一些噪音仍旧存在。
因此,为产生仅含有表示声音事件的出现的脉冲的触发信号,需要从噪音中将声音事件检测出来408。因为在这一点上,与声音事件造成的波动相比,已改进的差分信号中由噪音造成的大多波动部分的振幅比较低,可以通过采用阀值检测方法来确定振幅超过阀值的波动,来检测出声音事件408。在阀值检测方法中,将那些没有超过阀值的波动部分去除或忽略以产生触发信号。该方法的优点是触发过程不必非常理想。声音事件检测方法并不是完美的,其中有些声音事件不能被检测出来,而且由于噪声而出现的一些波动会导致触发信号中的某个脉冲错误地表示了声音事件的出现。然而,这些偶然的错误并不重要。因为声音事件检测方法是以人类的听觉机制为模型的,它产生的错误同人类听觉机制产生的错误是同类的。因此,结果将被非常的自然的收听到。
选择阀值以使以低幅值波动为特征的噪音和回声不会被检测到。阀值可以是通过实验确定的固定值。然而,如果阀值随声场函数的变化而变化,则可以获得可更为精确的结果。例如,当声场包括很多声音事件时,阀值通常要小于包括少量声音事件的声场的阀值。当声场中有大量声音事件出现时,这样做允许有更高的灵敏度。
作为其他选择,可以根据声场具有的特征,从实验确定的两个或更多个值中人工地选择出所需的阀值。例如,如果声场是一般包括许多声音事件的现代或流行音乐的声场,可以被选较低的阀值,而作为其他选择,如果声场是一般包括较少声音事件并且可以被高度混响的古典音乐的声场,可以选择较高的阀值。另一种选择是,可将阀值的选择作为一定时期内被检测声音事件数量的一个函数。因此,在检测到较少声音事件的时期,阀值被增大,在检测到较多声音事件的时期,阀值被降低。这样就提供了作为声场函数的阀值的自动和连续适应并且产生更准确的触发信号。
任何声音事件检测方法还可以包括仅实现了初始检测的方法,这些初始检测方法对检测如各种突发脉冲声音的短期的声音事件(“短时声音事件”)特别的有用.如突发脉冲声音的短时声音事件往往在适应作用能被感觉前就结束了.因此,这些声音事件检测方法可以被简化成包括对输入信号(以分贝量级)仅进行直接初始检测的方法.包括仅进行初始检测方法的声音事件检测方法(“用于短时声音事件的声音事件检测方法”)也可以包括在执行初始检测方法之前将任何上升时间比被检测的短时声音事件的特征上升时间长的波动部分去除.例如,如果突发脉冲声音正被检测,就将输入信号中上升时间大于3ms的波动部分去除.
当声场在两个或多个输入声道中产生时,在存在背景信号的情况下检测单声音事件类型的方法也可被实现(“用于多输入声道和单声音事件类型的声音事件检测方法”)。用于多输入声道和单声音事件类型的声音事件检测方法可以包括对每个输入声道并行地执行用于单输入声道和单声音事件类型的声音事件检测方法,以便无论正检测的声音事件类型是什么,均为每个输入声道产生指示声音事件的出现的触发信号。
作为其他选择,用于多输入声道和单声音事件的声音事件检测方法可以包括检测多对输入声道中的声音事件,而不是分别检测每个声道中的声音事件。通常,这包括会用一个输入声道对中的一个声道的已适应的信号去减该输入声道对中的另一个声道的已适应的信号来产生一个“差值信号”,然后再用差值信号去产生触发信号。通常差值信号的产生是用输入声道对中的一个输入声道的适应信号去减该输入声道对的另一个输入声道的适应信号。例如,输入声道对可能包括左-右声道对和/或中央-环绕声道对。在整篇申请文件中,“输入声道对”这个术语包括的是两输入声道的任意组合以及能由这两个输入声道推演得到的声道。采用多于一个声道去推演触发信号的目的是突出定向信号。例如,在用电子设备录制的音乐和讲话中,可以通过输入声道间的相位和振幅关系将定向信号从无定向信号中区分出来。例如,声场通常在两个输入声道中(普通立体声)产生。从这两个输入声道中导出四个功率包络并将这四个功率包络组织成两个功率包络对是有用的。例如,如果起先的两个输入声道被赋予了传统的“左”和“右”的名字,则产生的功率包络可以被分别称作“左功率”和“右功率”,并且一同构成一个功率包络对。另一个功率包络对由两个输入声道的和与差导出的两个功率包络“左加右功率”和“左减右功率”构成。这对功率包络也常被称作“中央功率”和“环绕功率”。无定向信号几乎总是使全部四个功率包络在量级上相等。无定向瞬时信号会导致全部四个功率包络同时上升。当差值信号被用来产生触发信号时,无定向瞬时信号不会导致该差值信号上升,因为每个输入声道中的信号都相同。相反,例如仅在左声道中的声音事件的定向信号,将导致“左功率”包络发生很大的变化,但在“右功率”包络中没有相应的增长。因此,由左右已适应的信号产生的差值信号将会有很大的增长,而且这种变化可被用来产生非常方便地将定向信号和无定向信号区分开的触发信号。
一个用于多输入声道和单声音事件的声音事件检测方法的例子500包括图5所示的多对声道中声音事件的检测.这种检测包括:通过模拟频偏加强那些对方向重要的频率504;通过在每个输入声道中模拟适应特性将声音事件从背景声音中分离开506;和通过在每个输入声道对中模仿初始检测对每个输入声道对中的声音事件进行检测.使用频率加强方法504加强那些对方向重要的频率.然后,通过使用适应方法为每个输入声道产生一个差分信号,将每个输入声道中的声音事件同背景声音分离开506.接下来,对每个输入声道对并行地使用一种交替初始检测方法和利用每个声道对的差分信号将每个输入声道对中的声音事件检测出来508.
图6更详细地显示了一种交替的初始检测方法并可以包括:为每个输入声道对确定出差值信号601;减弱每个输入声道对中的音量效果602;加强每个输入声道对中的声音事件604;减弱每个输入声道对中的噪声606;和检测每个输入声道对中的声音事件608。因此,用于多输入声道的声音事件区分方法包括的步骤同作用于每个输入声道对的差值信号的声音事件区分方法的步骤是一致的。
通过确定一个输入声道对的两输入声道的差分信号之间的差和调整该差值信号以确定差值信号601。输入声道对的两输入声道间的差值包括代表在该输入声道对的某个声道中出现声音事件的正负两种脉冲。脉冲信号的正负取决于输入声道对中哪个声道反映了特定声音事件中的大多数功率。因此,调整该差值以产生只有正脉冲的差值信号。尽管差值信号如同前面讨论的仍旧是用来指示声音事件,但它指示的不是两输入声道中的共同声音事件。因此,该差值信号比单独输入声道中的差分信号具有更高的信噪比。而且,差值信号并不包括任何在一个输入声道对的两个声道中都相同的信号,这就帮着消除掉了某些通常在所有的输入声道中都相等的无定向信号,例如噪声。一旦确定了每个输入声道对的差值信号601,就要削弱音量对这些差值信号的影响602,加强一些声音事件604,和通过采用自动增益方法将差值信号中的噪声减弱606,以便能产生一系列表示任何保留的瞬时声的脉冲信号。接下来,通过确定哪些脉冲大于某一给定的阀值将每个输入声道中的声音事件检测出来608。通常,步骤602,604和608包括有调整步骤以使表示保留的瞬时声的脉冲信号都是正的。步骤608的结果是具有正脉冲的触发信号,该信号中的正脉冲能用来指示各个输入声道对中的声音事件的发生。通过为每个输入声道对并行执行该方法来为每个输入声道对分别产生独立的触发信号,该声音事件检测方法可被用于多输入声道对。
用于多输入声道和单声音事件类型的声音事件检测方法可能也可以包括在多声道对中检测声音事件类型(统一称作,“用于多输入声道对和单声音事件类型的声音事件检测方法”)。这些方法通常包括用于多输入声道和单声音事件类型的声音事件检测方法,用于多输入声道和单声音事件类型的声音事件检测方法又包括用于多声道对或者能导出四个功率包络的单声道对的交替初始检测方法。
在存在背景信号的情况下检测出一个或多个声音事件的方法也可被用于在单输入声道中将如音节或突发脉冲声音的多种声音事件类型检测出来(“用于单输入声道和多声音事件类型的声音事件检测方法”)。图7只显示了一个能将音节或突发脉冲声音检测出来的用于单输入声道和多声音事件类型的声音事件检测方法的例子(尽管该方法可以被用来检测任何多种声音事件及其任意组合)。图7所示的是用于单输入声道和多声音事件的声音事件检测方法的例子700,该方法基本上包括:通过模拟初始检测加强那些对方向重要的频率704;通过模拟适应从背景声音中区分出声音事件706;通过模拟始检测来检测出音节声音710;和通过模拟初始检测对突发脉冲声音进行检测712;其中,理解音节声音和突发脉冲声音经常会同时发生是十分重要的。
使用频偏方法加强对定向重要的频率704.然后,使用产生差分信号的适应方法将声音事件从背景声音中区分出来706.为了提高结果的质量,该适应方法也可以包括将那些不具有音节上升时间特征(即那些超过了33ms的)的波动部分从功率包络中去掉.接下来,使用用于单输入声道的初始检测方法(见图4)检测音节710,并且使用了用于短时声音事件的声音事件检测方法检测突发脉冲声音.如图4的相关描述,检测声音事件包括减弱音量的影响,加强声音事件,利用自动增益方法和通过将某些波动部分去除来减弱噪声,以及使用阀值检测方法来检测声音事件.然而,在这种情况下,当检测音节时,用来归一化差分信号的短时高频功率是在167ms以内确定的差分信号中那些超过30Hz的分量的功率.此外,将那些上升时间少于33ms的波动部分从功率包络中去掉.不同的是,在这些情况下,当检测突发脉冲声音时,用于单短时声音事件的声音事件检测方法包括:去除某些波动部分;减弱音量影响,利用自动增益方法和通过将某些起伏波去除来加强声音事件和减弱噪声,和使用阀值检测方法来检测声音事件.然而,当检测突发脉冲声音时,自动增益方法使用的是输入信号(量级为分贝)而不是差分信号.而且,那些被去掉的波动部分是上升时间少于3ms的起伏波.
在存在背景信号的情况下将一个或多个声音事件检测出来的方法也可以被实施以使可以将多输入声道中产生的声场中的多类声音事件检测出来(“用于多输入声道和多声音事件的声音事件检测方法”)。用于多输入声道和多声音事件的声音事件检测方法包括为声场中的每个输入声道同时进行的用于单输入声道和多声音事件类型的声音事件检测方法以给每个输入声道中的每个声音事件类型产生触发信号。作为其他选择,如图8所示,用于多输入声道和多声音事件的声音事件检测方法800可以对仅在每个输入声道对中的每个声音事件进行检测,因而为每个输入声道对中的每个声音事件类型产生触发信号。在图8所示的例子中,该方法800被用来检测两个输入声道(一个右输入声道和一个左输入声道)中的两种声音事件(音节声音或突发脉冲声音)以为该输入声道对产生两个触发信号,第一个表示音节声音的出现,第二个表示突发脉冲声音的出现。然而,该方法可检测任意多个输入声道中的任意多个声音事件以为每个输入声道对产生每个声音事件类型的触发信号。用于多输入声道和多声音事件类型的声音事件检测方法800通常包括:通过在左输入声道中模拟频偏,加强对定位重要的频率802;通过在右输入声道中模拟频偏,加强对定位重要的频率804;通过在左输入声道中对适应的模拟,将声音事件从背景声音中分离出来806;通过在右输入声道中对适应的模拟,将声音事件从背景声音中分离出来808;通过模拟初始检测,在左-右输入声道对中检测突发脉冲声音812;和通过模拟初始检测,在左-右输入声道对中检测出音节声音814。
使用频偏的方法,对定位重要的频率分别在左输入声道和右输入声道中得到了加强802和804。接下来,在左输入声道和右输入声道中分别使用适应方法将声音事件从背景声音中分离出来806和810,以分别为左右输入声道产生差分信号。然后,通过模拟初始检测,用两个声道的差分信号检测音节声音814。对音节声音的检测可以采用初始检测方法将每个输入声道中的音节声音分别检测出来以便产生表示每个声道中音节的出现的触发信号。作为其他选择,也可采用交替初始检测方法对音节声音进行检测以给声道对产生指示音节的出现的触发信号。为了通过模拟初始检测来检测突发脉冲声音812,用于单声道和短时声音事件的声音事件检测方法被用来为每个输入声道产生表示突发脉冲声音的出现的触发信号。在该方法里,像在所有声音事件检测方法一样,触发信号可以被结合去产生更少的触发信号。
用于多声道和多声音事件类型的声音事件检测方法也可以包括在多声道对中对多个声音事件进行检测(统一称作,“用于多声道对和多声音事件类型的声音事件检测方法”).这些方法通常包括用于多声道和多声音事件类型的声音事件检测方法,用于多声道和多声音事件类型的声音事件检测方法又包括用于多声道对或可以导出四个功率包络的单声道队的交替初始检测方法.
检测和定位声音事件的方法
人类听觉机制的特性已经被用来发明确定在背景信号存在的情况下出现的声音事件的方位的方法(统一称为“声音事件的检测和定位方法”)。如同前面的讨论,用于多输入声道的声音事件检测方法不仅可以产生用来指示声音事件的出现的触发信号,而且也可以产生差分信号,并依此确定声音事件的方向。声音事件的检测和定位方法使用这些差分信号,通过在去除稳态声音后比较每个输入声道对的每个输入声道中的声音事件的相对功率来确定声音事件的方向。通过比较一个输入声道对的每个声道中的功率而不是像那些已知方法中的做法一样比较一个输入声道对的每个声道中的电压,单独的声音事件可以被识别出来并可被分别定位。声音事件的检测和定位方法可用来检测和定位在任意多输入声道对中产生的声场中的任意多声音事件类型和这些声音事件类型的任意组合。在下面的描述中,将采用由浅入深的顺序对声音事件的检测和定位方法进行讨论,除非特别声明,每个后续声音事件的检测和定位方法都结合前述方法的步骤。
图9显示了一个用于单输入声道对和单声音事件类型的声音事件的检测和定位方法的例子。该种用于单输入声道对和单声音事件类型的声音事件的检测和定位方法900检测单声音事件类型并且将该声音事件定位到相关的单输入声道对中。根据通过输入声道对中输入声道间的夹角(在本申请文件中被称为“真差分转角”或“真DSA”)给出由这神方法900确定的声音事件的定位。声音事件检测和定位方法900通常包括:为输入声道对中的每个输入声道产生差分信号并检测输入声道对中的声音事件904;确定初始声音事件方向906;并分离出真DSA908。904和906合起来定义了一种用于单输入声道对和单声音事件类型的DSA确定方法901。
为一个输入声道对的每个输入声道产生一个差分信号,并且采用适合于检测声音事件的一种用于单输入声道对和单声音事件类型的声音事件的检测方法或者一种用于单输入声道对和单短时声音事件的声音事件检测方法,来检测该声道对中的声音事件904。结果,为该输入声道对产生出表示单声音事件出现的触发信号,并且为该输入声道对的每个输入声道产生差分信号。当在该输入声道对中检测到声音事件904时,如触发信号所指示的,通过使用初始方向确定方法来确定这个声音事件的初始方向906。因为声音事件发生时存在差分信号,所以初始方向确定方法根据输入声道对中每个输入声道的差分信号来确定声音事件的方向。更具体地说,当触发信号指示发生了声音事件时,各输入声道的差分信号被转换成分贝以为每个输入声道产生一个分贝差分信号。然后,将用于一个输入声道的分贝差分信号去减另一个输入声道的分贝差分信号以产生一个分贝比率值。通过使用已知的方法将该分贝比率值转换成等效角度以产生一个来表示该输入声道对中两输入声道间的声音事件的方位的“差分转角”或“DSA”。
例如,如果音节声音正被检测,那么可以通过分离出这些音节声音的大约头20ms到大约头30ms内的DSA,然后再在以后的大约200ms中一直使用(保留)该DSA,这样就可获得这些被检测的音节声音的真实方向.在另一个例子中,如果突发脉冲声音正被检测,那么可以通过分离出这些突发脉冲声音大约头3.3ms到大约头5ms间的DSA,然后再在以后的大约50ms中一直使用该DSA,这样就可获得这些被检测的突发脉冲声音的真实方向.然而,对如各种突发脉冲声音的短时声音事件,可以使用初始方向确定方法获得更准确的初始方向.这种初始方向确定方法会检测很小一段触发信号(通常为3ms)中出现的所有触发脉冲,并确定出同这些脉冲相对应的各DSA,然后再确定出这些DSA的短期平均值并利用该短期平均DSA为所检测的短时声音事件类型的典型时段表示在很小一段时间内检测到的所有短时声音事件的方向.例如,如果正被检测的是突发脉冲声音,那么在接下来的大约50ms内仍然使用该短期平均值.将声音事件上升时间段的时间平均作为获得其方向的测量的思想也适用于更长时的声音段,但是采用更长的时段求平均要更有利,因为长时信号的上升时间经常比较长.
可用声音事件的检测和定位方法来检测和定位多输入声道对中的单声音事件类型(“用于多输入声道对和单声音事件类型的声音事件定位方法”)。例如,一个典型的环绕声系统至少包括一个左-右输入声道对和一个中央-环绕输入声道对。在用于多输入声道对和单声音事件类型的声音事件定位方法中,每当任何声道对中的触发信号表示正在发生声音事件,总是为每个声道对确定真DSA,然而,仅当此DSA准确时,它才能被用来去指示声音事件的方向。如果该DSA不准确,可用真OSA去指示方向。
图10展示了一个用于多输入声道对和单声音事件类型的声音事件定位方法的例子,并表示为参考数字1000,该方法包括:为单输入声道对和每个输入声道对的单声音事件确定其相应的DSA(统一称为“用于多输入声道对和单声音事件类型的DSA确定方法”)1051;为每个声道对确定普通转角1003;确定DSA是否准确1010,其中如果该DSA不准确,分离出真OSA并在正被检测的声音事件类型的典型时段内使用每个输入声道对的真OSA1014;其中如果该DSA准确,分离出真DSA并在正被检测的声音事件类型的典型时段内使用真DSA1012。
用于多输入声道对和单声音事件类型的DSA确定方法1051包括:检测每个输入声道对中的声音事件并为该声道对的每个声道分别产生一个差分信号1004;并为该声道对中的每个输入声道确定初始DSA1006。检测每个输入声道对中的声音事件并为该输入声道对的每个声道产生一个差分信号1004包括:并行地为每个声道对提供用于单输入声道对和单声音事件类型的声音事件检测方法。为该声道对中的每个输入声道确定初始DSA1006包括并行地为每个声道对提供初始方向确定方法。为每个声道对确定OSA1003通常采用已知的方法来完成。
确定DSA是否准确包括:在触发信号指示声音事件正在发生时使用“背景信号检验”来确定一个声道中开始时的声音事件是否就是另一声道中结束时的声音事件,并且确定为DSA所获得的值是否与“一致性检验”值相互一致。通常,当一个输入声道对是从另一个输入声道对演变而来的(例如,一个中央-环绕输入声道对是从一个左-右输入声道对演变来的),当声音事件恰恰发生在其他方向上的另一声音事件结束时,声音事件的检测和定位方法将不会产生准确的结果。这通常以出现如下的情况为特征,即输入声道中的至少两个的功率包络同时发生了大约3dB的下降。尽管这类信号在自然环境中并不常见,但在许多用于声音仪器的常用测试信号中常会出现这些信号,而且这些信号有时也在流行音乐中使用。因此,背景信号检验检查每个输入声道的功率包络并且当其中两个同时下降了大约3dB时,可以认为DSA不准确。
一致性检验确定左-右输入声道对中的真实声音事件方向的绝对值与中央-环绕输入声道对中的真实声音事件方向的绝对值的和是否小于45度。因此,小于45度的和就意味着稳态声音信号确实保持不变并且真实声音事件方向所表示的方向是准确的。然而,大于或等于45度的和就意味着稳态声音信号没有保持不变并且真实声音事件方向所表示的方向是不准确的。基于这一点,每当发现真实声音事件不准确,一致性检验就会产生一个信号,由此指出一个错误(“错误信号”)。
如果发现DSA是准确的,就将真DSA分离出来并在正被检测的声音事件类型的典型时段内使用1012。例如,如果正检测的是音节声音,DSA就可被用于声音事件的典型时段内。在另一个例子中,如果正检测的突发脉冲声音,DSA就可被用于某一突发脉冲声音的典型时段内。然而如果DSA不准确,真OSA将被分离出来并用于正被检测的声音事件类型的典型时段内1014。真OSA就是在被检测声音事件类型的上升时间期间内发生的OSA。
用于多声道对和单声音事件类型的声音事件的检测和定位方法还可以包括:使用适应性调节方法来降低决定声音事件真实方向时错误的出现的方法。适应性调节方法使用一致性检验去调节适应信号中的适应度。如同前面的讨论,适应信号代表的是声场中出现的稳态信号,这是因为它们逐渐地被人类听觉机制所忽略。忽略这些稳态信号的速度被称为适应度。适应度由适应信号(“AccSig”)来定义。适应性调节方法将适应信号AccSig同调节因子Adj相乘,以使将AccSig定义成下面的公式:
AccSig=AccSig(Adj) (1)
其中Adj由下面的方程定义:
其中α是在一段大约几秒钟的时间段内进行一致性检验查出的错误的数量。在这段精确时间段上出现的错误的数量相对不很重要。有Adj的目的是为了降低适应度以能来降低适应信号,因此使稳态信号以较低的速率被忽略。这会导致检测出较少的瞬时声音信号,由此减少被错误定位的瞬时声音信号的数量。经过实验确认:如果Adj大约等于或大于0.998,一致性检验查出的错误数量则被降低,并且用于多输入声道对的声音事件的检测和定位方法仍旧能获得可用的结果。然而,如果Adj大约等于或小于0.995,就会有非常多的瞬时声音不能被检测出来,这样用于多输入声道对的声音事件的检测和定位方法不能产生出可用的结果。
作为其他选择,用于多声道对和单声音事件类型的声音事件的检测和定位方法可以用错误个数来调节阀值,起到错误阀值调节方法的部分作用。错误阀值适应方法确定由一致性检验方法在预定的大约几秒钟的时间段内所确定的错误数量并用该数量值来调节阀值。当错误数量上升时,该阀值也上升使较少的声音事件被检测出来。因此,可以实现对阀值的连续性调节,阀值同一致性检验检测出的错误数量成正比。
声音事件的检测和定位方法也可以被用来检测和定位一个单输入声道对中的多声音事件类型(“用于单输入声道对和多声音事件类型的声音事件的定位方法”).图11显示了一种声音事件的检测和定位方法1100,该方法被用来检测和定位两类声音事件(音节声音和突发脉冲声音)以产生总是指示声音事件产生的DSA.然而,该方法也可以相似的方式实现用来检测和定位任意数量和种类的声音事件.用于单输入声道对和多声音事件类型的声音事件的检测和定位方法1100通常包括:为该输入声道对产生一个差分信号1104;检测该输入声道对中的音节声音1106;检测该输入声道对中的突发脉冲声音1107;确定初始方向1108;和为所检测的声音事件分离出真DSA1110.将步骤1104,1106,1107和1108合起来一起定义为用于单声道对和多声音事件类型的DSA确定方法1101.
为该声道对产生差分信号1104包括对各输入声道都使用适应性方法。检测该对输入声道中的音节声音1106包括:执行用于单声道对和单声音事件类型的初始检测方法以产生用以指示该声道对中音节声音的出现的触发信号。检测该输入声道对中的突发脉冲声音1107包括:对该声道对中的每个声道并行地执行用于单输入声道和单短时声音事件的声音事件的检测方法(产生的两个触发信号可被结合以形成一个指示该声道对中突发脉冲声音的出现的单个触发信号)。
当有触发信号指示检测到音节声音或突发脉冲声音时,初始方向将被确定1108。这时,初始方向确定方法被用来确定由该输入声道对中每个输入声道的差分信号确定的被检测的声音事件的初始方向。当有触发信号指示有两种声音事件之一发生时,按照使用差分信号产生真DSA的真实方向分离方法,将真DSA分离出来1110。然后将真DSA用于检测到的声音事件类型的典型时段。例如,如果检测到音节声音,该DSA将被用于音节声音的典型时段。相反,如果检测到突发脉冲声音,该DSA将被用于突发脉冲声音的典型时段。
声音事件的检测和定位方法也可以被用来检测和定位多输入声道对中的多声音事件类型(“用于多输入声道对和多声音事件类型的声音事件的定位方法”)。用于多输入声道对和多声音事件类型的声音事件的定位方法通常涉及:在每个输入声道对中并行地执行用于单输入声道对和多声音事件类型的声音事件的检测和定位方法。作为其他选择,用于多输入声道对和多声音事件类型的声音事件的定位方法可以包括:检测出声音事件,确定该声音事件的DSA,确定该DSA是否准确,如果该DSA不准确,使用其OSA。图12显示了一个用于多输入声道对和多声音事件类型的声音事件的定位方法的例子,该例中,如果DSA不准确,就使用OSA去指示声音事件的方向。在这个例子中,音节声音和突发脉冲声音在两个声道对中被检测出来。然而,该方法可以被用来检测任意多个声道中的任意多个声音事件类型。
在图12中,用于多输入声道对和多声音事件类型的声音事件的定位方法1200包括:为输入声道对产生差分信号1204;在每个输入声道对中检测出音节声音1206;在每个输入声道对中检测出突发脉冲声音1207;为每个输入声道对确定初始方向1208;确定DSA是否准确1210;其中如果DSA准确,分离出真DSA并将其在检测出的该声音事件类型的典型时段内使用1212;其中如果DSA不准确,分离出真OSA并将其在检测出的声音事件类型的典型时段内使用1214;将步骤1204,1206,1207和1208统一定义为用于多输入声道对和多声音事件类型的DSA确定方法1201。
为每个声道对产生一个差分信号1204包括在每个输入声道中并行地执行适应性方法.在每个输入声道对中检测出音节声音1206包括并行地执行用于单输入声道对和单声音事件类型的初始检测方法以给每个声道对产生指示在任何声道对中的音节声音的出现的触发信号.在每个输入声道对中检测出突发脉冲声音1207包括为每个声道对中的每个声道并行地执行用于单输入声道和单短时声音事件的声音事件检测方法(对每个声道对来说,产生的两个触发信号可被结合以形成一个指示在该声道对中的突发脉冲声音的出现的单个触发信号).同时,利用已知的方法确定每个声道对的OSA 1203。
当有触发信号指示检测到有音节声音或突发脉冲声音时,每个声道的初始方向将被确定1208。此时,初始方向确定法被用来确定使用该输入声道对中每个输入声道的差分信号所检测出的声音事件的初始方向。然后使用初始检测方法和/或一致性检验来确定各DSA值是否准确1210。如果发现各DSA值是准确的,按照用差分信号产生真DSA的真实方向的分离方法将真DSA分离出来1210。然后将真DSA在音节声音的典型时段内使用。相反,如果检测到突发脉冲声音,该DSA将被用于这个突发脉冲声音的典型时段内。然而,如果发现该DSA不准确,就将真OSA分离出来1214并产生真OSA值。然后在突发脉冲声音的上升时段内将真OSA同OSA分离并且将其用于突发脉冲声音的典型时段内。此外,用于多输入声道对和单声音事件类型的声音事件的检测和定位方法可以进一步包括适应性调节方法和/或错误阀值调节方法。
在任何声音事件检测和定位方法中,任意声音事件的方向被用来表示在被检测的声音事件类型的典型时段中的整个声场的方向。然而,如果后续的声音事件是在典型时段中发生的,那么一旦后续声音事件发生,则该后续声音事件的方向将被用于所有的输入声场,并将其继续用于后续声音事件的声音事件类型的典型时段内。通常这意味着当多个声音事件相互重叠时,将使用最近发生的声音事件的方向。
声音事件检测和定位方法的一个应用是用来确定以立体声(两声道)还是以环绕声(多于两个声道)回放录制的声音的各种方法(“立体声/环绕声检测方法”)。立体声/环绕声检测方法通常用来确定将在听者后面回放的声音事件的数量以及用来确定该数量值是否超过了预定值。这些方法与已知方法相比具有一定的优势,即这些方法使用负相位来指示在听者后面回放的那些声音,这是因为那些本来具有负相位的瞬时声音不会错误的指示后面的方向。
如前所述,用于以环绕声回放的声场包括要在听者后面回放的声音事件。因此,立体声/环绕声检测方法包括为用于被检测的声音事件类型的中央-环绕输入声道对执行用于单输入声道对的声音事件的检测和定位方法,并确定具有大约0°到大约-45°之间的相关联的真差分转角的声音事件的数量(指示后面的方向)。为避免由于不准确的差分转角而导致的对环绕声的错误指示,环绕声检测方法还确定检测出的在后方回放的声音事件的数量是否超过了定义时间段内的预定值。通常,如果在从大约10秒到大约15秒的时间段内只检测出几种(大约2到3)要在后面方向上回放的声音事件,就可以确定出以环绕声回放的声场或该声场中的一部分。此外,如果可以确定声音事件的持续时间,就可以认为那些持续时间超过预定值的声音事件才是要从后面回放的声音事件。例如,持续时间很短的大约小于50ms的声音事件通常对声场的预期方向的指示很差。因此,只有持续时间超过50ms的声音事件才会被认为是要在后面回放的声音事件。在另一个例子中,只有那些持续时间大约为200ms到300ms间的声音事件才被算作是要从后面回放的声音事件。
定位声音的方法
人类听觉机制特性也可以被用来确定声场中所有声音的方位.通过将声音事件的检测和定位方法与用来确定声音预期方向的已知方法相结合,已经开发出为任意声音组合在有背景声音存在的情况下更精确定位的方法(“声音定位方法”).声音定位方法将声场分成声音事件和非声音事件并通过真差分转角或真普通转角来对声音事件进行定位,以及通过已滤波的普通转角来对非声音事件进行定位.这些方法本质上把非声音事件看作独立的声音,并单独确定其方位.声音定位方法能被用来对由任意多输入声道对构成的声场中的任意数量的声音事件和任意声音事件的组合进行定位,还能对其他的各种声音进行定位.在下面的描述中,将采用由浅入深的顺序对声音方法进行讨论,除非特别声明,每个后续声音定位方法都结合前述方法的步骤.
通常,在所有声音的定位方法中,用已滤波的OSA去指示声场的方向,除非检测出声音事件,这时用真DSA去指示声场的方向。在多声道对(或可产生其他声道对的单声道对)产生的声场中,只有在当DSA被确定为准确的情况下,声音定位方法才用真DSA去指示声音事件的方向。在这些情况下,如果DSA被认为是不准确的,就用真OSA去指示各种声音事件的方向。此外,无论采用何种转角(OSA或DSA),声场中所有输入声道都将使用此种转角。例如,如果在有噪声存在时检测声音事件,其中声音事件只在一个输入声道中被检测到而噪声在每个输入声道中都存在,那么在该声音事件持续期间DSA(指示该声音事件的方向)将被用来(在某些情况下该值必须要准确)定义整个声场的方向。幸运的是,人类的听觉机制通常把声音事件当成一部分前景声音流来感知并将噪声当成一部分背景声音流来感知,所以会认为声音事件已经被移动并只能听出声音事件。
图13显示了用于检测单输入声道对中的单声音事件类型的声音定位方法(“用于单输入声道对和单声音事件类型的声音定位方法”),该方法通常包括:确定出DSA和触发信号1302;确定出OSA 1306;并确定出使用的方向1304。只要声场被感知到,1302,1304和1306通常是同时和并发进行的。
确定DSA和触发信号1302通常是通过执行用于单输入声道对和单声音事件类型的DSA确定方法来完成的,该方法包括交替初始检测方法,用来为该输入声道对产生一个单独触发信号。尽管无论何时只有在声音事件发生时,触发信号中才出现脉冲,可是对DSA的确定则可以是连续的。作为其他选择,也可以连续地确定出脉冲信号,并且只有在触发信号中出现脉冲时确定DSA。通常使用已知方法连续地确定OSA 1306。确定要使用的方向1304基本包括:确定声音事件何时发生,在检测的声音事件类型的典型时段内使用真DSA且在声音事件结束时逐渐过渡到使用OSA。然而,如果在任何时候都有后续声音事件发生(甚至发生在一个声音事件期间内),那么在后续声音事件类型的典型时段内使用用于后续声音事件的DSA。
图14显示了一种确定使用的方向的方法(“用于单输入声道对和单声音事件类型的方向选择方法”)并由参考数字1304表示。该方法通常包括:确定是否有输入信号1402;其中如果有输入信号,则确定是否有声音事件1404;如果有声音事件,产生并选择用于被检测的声音事件类型的典型时段内的当前的真DSA 1406;确定该典型时段是否已结束1408;如果该典型时段还没有结束,确定是否检测到后续声音事件1410,其中如果没有检测到后续声音事件,则重复确定该典型时段是否已经结束1408并确定是否已经检测到后续声音事件1410,一直到或者确定出该典型时段已经结束1408或者确定出已经检测到后续声音事件1410时才停止重复;如果已经检测到后续声音事件,则将此后续声音事件的DSA定为当前的DSA 1414并酌情重复1406,1408,1410和1414各步骤;如果在步骤1408中确定了典型时段已经结束,则酌情从1402开始重复整个方法;如果在1404中没有检测到声音事件,确定是否有即刻前声音事件1416;如果即刻之前没有声音事件,就选择已滤波的OSA 1418;并酌情从1402开始重复整个方法;且如果即刻之前确有声音事件,从真DSA选择并逐渐过渡到已滤波的OSA 1420;并酌情从1402开始重复整个方法;酌情重复整个方法直到在步骤1402中没检测到输入信号,其中,如果没有输入信号,就停止该方法。
确定是否有输入信号1402包括确定所有输入声道中的声场的输入功率(“I2”)是否大于零。此外,该方法还可以包括确定输入功率相对于前面的声音事件在所有输入声道中是否有超过30dB的下降。如果有,通常认为输入信号已经停止了。如果有输入信号,那么就要通过检查触发信号来确定是否有声音事件1404。无论何时,只要当触发信号中包含有脉冲或其他发生声音事件的指示,就存在一个声音事件。相反地,无论何时,只要当触发信号中没有脉冲或其他发生声音事件的指示,就不存在声音事件。
如果有声音事件,那么将通过使用真方向分离方法从当前DSA产生一个真DSA并将其作为正被检测的声音事件类型的典型时段的真DSA 1408。如同前面的讨论,如果正被检测的声音事件类型是音节声音,那么该声音事件的典型时段将大约为50ms到200ms(大约150ms比较好)并且如果正被检测的声音事件类型是突发脉冲声音,那么其典型时段将大约为50ms。DSA的选择和在典型时段中的使用同所检测的声音事件实际上何时结束并无关系。然而,在典型时段期间,要监视输入信号以便确定是否检测出带有准确DSA的后续声音事件(1408和1410)。如果在典型时段期间内检测出有后续声音事件,那么将用该后续声音事件的DSA来重新定义当前的DSA 1414,而该重新定义的当前DSA将被用来产生被选用于所检测的声音事件类型的典型时段的当前真DSA 1406;并且酌情重复1408,1410和1414。然而,如果在典型时段期间没有检测到后续的声音事件(1408和1410),那么将酌情从1402重复整个方法。
相反,如果在1404中确定没有声音事件,那么就确定是否在此之前刚刚出现过声音事件1416。如果即刻之前没有声音事件(即典型时段刚刚结束的声音事件)出现,将选择或继续选择已滤波的OSA1418并酌情从1402重复该过程。这个已滤波的OSA是将上升时间小于某一特定上升时间的波动部分去除后的OSA。例如,上升时间小于300ms的波动部分可以被去除。在未检测到声音事件时,这样做防止了该OSA去反映方向的迅速变化。然而如果即刻之前有声音事件(即典型时段刚刚结束的声音事件),将从即刻之前声音事件的真DSA中选择并逐渐过渡成OSA 1420。这种过渡帮助提供了从即刻之前声音事件的DSA到OSA之间的平稳转移。提供该种平稳转移所需的过渡时间的长短主要依赖于即刻之前声音事件的所属声音事件类型。如果即刻之前的声音事件是音节声音,这种过渡通常为大约300ms。该过程然后酌情从1402重复,直到在步骤1402中确定出该输入信号已经结束。
在某些情况下,特别是在要定位非常短时的声音事件时,如果方向选择方法中包括确定在典型时段结束时该短时声音事件是否实际上已经结束了,和如果确定出该短时声音事件实际仍未结束,就没有任何过渡地立即选择OSA,则会获得更加准确的结果。图15显示了这样的方法(“用于单输入声道对和短时声音事件的方向选择方法”)并由参考数字1500表示。用于单输入声道对和短时声音事件类型的方向选择方法通常包括:确定是否有输入信号1502;其中如果有输入信号,确定是否有短时声音事件1504;如果有短时声音事件,产生并选择用于被检测的短时声音事件的典型时段内的真DSA 1506;确定该典型时段是否已经结束1508;如果该典型时段仍未结束,确定是否检测到后续短时声音事件1510,如果没有检测到后续短时声音事件,重复确定该典型时段是否已经结束1508和是否已经检测到后续短时声音事件,直到或者在步骤1508中确定出该典型时段已经结束或者在步骤1510中确定出已经检测到后续短时声音事件;如果已经检测到后续短时声音事件,将后续短时声音事件的DSA定为当前的DSA 1512并酌情重复步骤1506,1508,1510和1512;如果在步骤1508中确定了典型时段已经结束,酌情从1502重复整个方法;如果在步骤1504中没有检测到短时声音事件,确定是否有即刻之前的短时声音事件1514;如果没有即刻之前的短时声音事件,选择并继续选择已滤波的OSA 1516;并且酌情从1502重复整个方法;且如果有即刻之前的短时声音事件,确定该即刻之前的短时声音事件是否实际上结束1518;如果该即刻之前的短时声音事件实际上已经结束,立即到已滤波的OSA 1520;并酌情从1502重复整个方法;如果即刻之前的短时声音事件实际上并未结束,选择并逐步过渡到已滤波的OSA 1522并重复酌情从1522重复整个方法;其中整个方法要一直酌情重复直到在1502中没有检测出输入信号,如果没有输入信号,就停止该方法。
除了用于单输入声道对和短时声音事件的方向选择方法是用来检测短时声音事件的,用于单输入声道对和短时声音事件的方向选择方法几乎同前面讨论的方向选择方法一样。而且,在短时声音事件典型时段的结尾(假定没有新的声音事件或没有新的声音事件正发生),要确定声音事件是否已经结束1514;并且根据短时声音事件是否已经结束,或者立即使用已滤波的OSA 1520或者在过渡后使用该已滤波的OSA1522。用于单输入声道对和短时声音事件的方向选择方法通过为每个声道对的每个输入声道使用用于单输入声道和单短时声音事件的声音事件检测方法以产生能指示任何时间检测到的短时声音事件的一个触发信号(或两个触发信号),来检测短时声音事件。
通过比较该声道对的每个输入声道中的功率包络和适应性信号可以确定即刻之前的短时声音事件是否实际上已经结束1518。如果输入功率包络I2大于该输入声道对的任一输入声道适应性信号AccSig,就确定短时声音事件实际上仍未结束。因此,将即刻之前的短时声音事件的DSA过渡到已滤波的OSA。然而如果I2大约等于或小于该输入声道对的每个输入声道中的AccSig,就确定短时声音事件实际上已经结束并立即选择已滤波的OSA 1522。提供该种平稳转移所需的过渡时间的长短主要依赖于正被检测的声音事件的类型。例如,如果即刻之前的短时声音事件是突发脉冲声音,过渡大约会占用5ms。
声音定位方法也可用来定位包括有多输入声道对的声场中的声音(“用于多输入声道对和单声音事件类型的声音定位方法”)。用于多输入声道对和单声音事件类型的声音定位方法包括的基本步骤同用于单输入声道对和单声音事件类型的声音定位方法是相同的,该方法通常包括:确定出OSA;确定出DSA和触发信号;并确定出将使用的方向。然而,确定出DSA和触发信号这一步包括为每个声道对都确定一个DSA和一个触发信号并且通过执行包括交替初始检测方法的用于多输入声道对和单声音事件的DSA确定方法来完成该步骤。此外,确定出将使用的方向的步骤(“用于多声道对和单声音事件类型的方向选择方法”)包括响应输入声道对中的任意的差分信号、触发信号和DSA;并且当在任意输入声道对中检测到具有准确DSA的声音事件时,为所有的输入声道对产生和选择真差分转角。
图16更详细地显示了用于多声道对和单声音事件类型的方向选择方法并由参考数字1600表示.通常,该方向选择方法包括任意触发信号指示有声音事件发生时,确定DSA是否准确;而且如果DSA不准确,就不用DSA,而为正在检测的声音事件的典型时段使用真OSA.更具体地,这种方向选择方法1600包括:确定是否有输入信号1602;其中,如果有输入信号,确定是否有声音事件1604;如果有声音事件,确定其当前真DSA是否准确1606;其中如果当前真DSA是准确的,为正在被检测的声音事件类型的典型时段产生并选择此当前真DSA1608;如果其当前真DSA是不准确的,为正在检测的声音事件类型的典型时段产生并选择当前真OSA 1620;一旦产生并选择了真OSA或真DSA,确定该典型时段是否已经结束1610;如果该典型时段仍未结束,确定是否检测到后续声音事件1612,如果没有检测到后续声音事件,重复确定该典型时段是否已经结束1610以及是否已经检测到后续声音事件1612,直到确定或者在步骤1610中该典型时段已经结束或者已经在步骤1612中检测到后续声音事件;如果已经检测到后续声音事件,就确定后续声音事件的真DSA是否准确1614;如果该后续声音事件的真DSA是准确的,将此后续声音事件的DSA定为当前的DSA 1616并酌情重复1610、1612、1614、1616和1618;如果在步骤1614中确定出该后续声音事件的真DSA是不准确的,将此后续声音事件的已滤波OSA定为当前的已滤波OSA 1618并酌情重复步骤1610、1612、1614、1616和1618;如果在步骤1610中确定出典型时段已经结束,酌情从1602重复整个方法;其中如果在步骤1604中没有检测出声音事件,确定是否有即刻之前的声音事件1622;如果没有即刻之前的声音事件,选择或继续选择已滤波的OSA 1624;并酌情从1602重复整个方法;并且如果有即刻之前的声音事件,从真DSA中选择并过渡到已滤波的OSA1626;并酌情从1602重复整个方法;酌情重复整个方法直到在步骤1602中没有检测到输入信号,如果没有输入信号,就停止该方法。
确定是否有输入信号1602包括确定每个声道对的每个输入声道中是否存在输入信号。确定是否有声音事件1604包括为每个声道对都执行用于单输入声道对和单声音事件类型的声音事件检测方法,以便为每个声道对产生指示发生任意声音事件的触发信号。确定当前真DSA是否准确1606包括采用用于多输入声道对的DSA准确度确定方法来确定每个输入声道对的当前DSA(DSA是在触发信号指示发生了声音事件时被确定的)是否准确。图17更详细地显示了一种用于多输入声道对的确定DSA准确度的方法并由参考数字1700表示,且包括:在至少两个输入声道中确定背景信号是否已经衰减了3dB或更多1702;而且,如果至少两个输入声道中的背景信号没有衰减3dB或更多,那么确定是否所有的当前DSA都能通过一致性检验1704。通过对所有输入声道进行背景信号检验来确定在至少两个输入声道中的背景信号是否已经衰减了3dB或更多。如果背景信号在至少两个输入声道中都已经衰减了3dB或更多,就认为这时的DSA不准确。然而,如果背景信号在至少两个输入声道中没有衰减3dB或更多,就像前面说明的那样来进行一致性检验。如果这些DSA通过了一致性检验,就认为它们是准确的。
如图16所示,如果认为这些DSA是准确的,就使用真方向分离方法为每个声道对产生和选择当前的真DSA 1608。然而,如果认为这些DSA是不准确的,就为每个声道对产生和选择当前的真OSA(OSA是在任意触发信号指示发生了当前声音事件时被确定的)1620。除非在典型时段期间检测出后续声音事件,否则或者将当前的真DSA或者将当前的真OSA用于正在检测的声音事件类型的典型时段。只要在步骤1610中确定出典型时段仍未结束,就去确定是否检测到了任何后续声音事件1612。如果检测到了后续声音事件,就采用用于多输入声道对的DSA 1614准确度确定方法来确定该后续声音事件的真DSA是否是准确的.如果确定出该后续声音事件的这些真DSA是准确的,为反映该后续声音事件的方向,就使该后续声音事件的这些真DSA成为当前各DSA1616.然而,如果确定出该后续声音事件的这些真DSA是不准确的,为反映该后续声音事件的方向,就使该后续声音事件的那些真OSA成为当前各OSA 1618。酌情从1608或1620重复该过程,直到任何后续声音事件的典型时段结束为止。
一旦任意后续声音事件的典型时段结束,就在1622中确定是否有即刻之前的声音事件。如果确有即刻之前的声音事件出现过,就选择那些已滤波的OSA并将声场的方向从由那些DSA所指示的方向过渡到由那些OSA所指示的方向1626。然而,如果没有即刻之前的声音事件出现过,就使用或者继续使用那些已滤波的OSA 1624。此外,任何用于多声道对和单声音事件类型的声音定位方法可以进一步包括:通过利用如前所述的适应性方法和/或错误阀值调节方法,采用一致性检验来减少不准确的DSA的出现。
在某些情况下,特别是当定位具有很短持续时间的声音事件时,如果用于多输入声道对和单声音事件类型的方向选择方法包括确定在典型时段的结尾短时声音事件是否实际上已经结束,和如果短时声音事件实际上仍未结束就无过渡地立即选择已滤波的OSA,则能获得更加准确的结果。图18显示了这样一种方法(“用于多输入声道对和短时声音事件的方向选择方法”),并由参考数字1800表示。用于单输入声道对和短时声音事件的方向选择方法通常包括:确定是否有输入信号1802;如果有输入信号,则确定是否有短时声音事件1804;如果有短时声音事件,则确定当前的真DSA是否准确1806;如果当前的真DSA是准确的,为正在检测的短时声音事件的典型时段产生并选择当前的真DSA 1808;如果当前的真DSA不准确,为正被检测的短时声音事件的典型时段产生并选择当前的真OSA 1820;一旦产生并选择了真OSA或真DSA,就确定典型时段是否已经结束1810;如果该典型时段尚未结束,确定是否检测到后续短时声音事件1812;如果没有检测到后续声音事件,重复确定典型时段是否已经结束1810并确定是否已经检测到后续声音事件1812,直到确定或者典型时段已经在步骤1810中结束或者已经在步骤1812中检测到后续声音事件;如果已经检测到后续声音事件,确定该后续声音事件的真DSA是否准确1814;如果该后续声音事件的真DSA是准确的,将该后续声音事件的真DSA定为当前的DSA1816并酌情重复1810、1812、1814、1816和1818;如果在1814中该后续声音事件的真DSA不准确,则将该后续声音事件的真OSA定为当前的OSA 1818并酌情重复1810、1812、1814、1816和1818;如果在1810中确定出典型时段已经结束,酌情从1802重复整个方法;如果在1804中没有没检测出声音事件,确定是否有即刻之前的声音事件1622;如果没有即刻之前的声音事件,选择或继续选择已滤波的OSA1824;并酌情从1802重复整个方法;如果有即刻之前的声音事件,确定即刻之前的声音事件是否实际上已经结束1825;如果即刻之前的声音事件实际上已经结束,选择已滤波的OSA并立即从真DSA到已滤波的OSA 1826;并酌情从1802重复整个方法;如果即刻之前的声音事件实际仍未结束,选择已滤波的OSA并过渡到已滤波的OSA 1828并酌情从1802重复整个方法;一直重复整个方法直到未在1802中检测到输入信号,其中如果没有输入信号,就停止该方法。
这种用于多输入声道对和短时声音事件的方向选择方法同前面讨论的用于多输入声道和单声音事件类型的方向选择方法基本上是一样的,除了用于多输入声道对和短时声音事件的方向选择方法是用来检测短时声音事件的.而且,在短时声音事件的典型时段的结尾(假设没有新的声音事件发生),确定该声音事件是否实际上已经结束1825;根据该短时声音事件是否实际上已经结束,或者立即采用已滤波的OSA1826或是在一段过渡后采用已滤波的OSA 1828。用于多输入声道对和短时声音事件的方向选择方法通过为声道对的每个输入声道使用用于多输入声道对和短时声音事件的声音事件检测方法以产生一个用来指示检测到了短时声音事件的触发信号(或两个触发信号),从而检测短时声音事件。
通过确定输入功率包络是否大于任意输入声道中的短时声音事件的适应性信号来确定即刻之前的声音事件是否实际上已经结束1825。如果该输入功率包络大于任意输入声道中的短时声音事件的适应性信号,就认定该短时声音事件实际上仍未结束。因此,从即刻之前的短时声音事件的DSA到已滤波的OSA要产生一个过渡1826。然而如果在每个输入声道中,功率包络大致等于适应性信号,就认定该短时声音事件实际上已经结束并且立即选择已滤波的OSA 1828。提供该种平稳转移的过渡时间的长短取决于正被检测的声音事件的类型。例如,如果即刻之前的声音事件是突发脉冲声音,这种过渡大约会占用5ms。
通过区分多种声音事件类型,声音定位方法还可被用来定位声场中的各种声音(“用于单输入声道对和多声音事件类型的声音定位方法”)。用于单输入声道对和多声音事件类型的声音定位方法包括的基本步骤同用于单输入声道对和单声音事件类型的声音定位方法是相同的,该方法通常包括:确定出OSA;确定出DSA和触发信号;并确定出将要使用的方向。然而,通过进行使用交替初始检测方法的用于单输入声道对和多声音事件类型的DSA确定方法来为每个声音事件类型都确定DSA和触发信号。此外,确定出将要使用的方向这一步骤包括对正被检测的每个声音事件类型并行地执行用于单输入声道对的方向选择方法(用于单声音事件类型或短时声音事件)。然而,无论何时,只要在任意声道对中检测出任意类型的声音事件,就在每个输入声道对中将该DSA用于实际检测到的该类声音事件的典型时段内。
通过区分多种声音事件类型,声音定位方法还可被用来定位有着多输入声道对的声场中的各种声音(“用于多输入声道对和多声音事件类型的声音定位方法”)。用于多输入声道对和多声音事件类型的声音定位方法包括的基本步骤同用于多输入声道对和单声音事件类型的声音定位方法是相同的,该方法通常包括:确定出OSA;为每个声道对确定出DSA和触发信号;并根据用于多输入声道对和单声音事件类型的方向选择方法确定出要使用哪个方向。然而,在检测多个声音事件的方法中,为每个声道对确定其DSA和触发信号的步骤包括为每个输入声道对中的每个声音事件类型都确定DSA和触发信号。通过执行包括交替初始检测方法的用于多个输入声道对和多声音事件类型的DSA确定方法,来完成为每个输入声道对中的每个声音事件类型确定DSA和触发信号。此外,为每个声音事件并行地执行用于多输入声道对和多声音事件类型的方向选择方法包括:响应任何声音事件类型的触发信号;如果在任意输入声道对中检测出任何一种有着准确DSA的声音事件,就为所有的输入声道对产生和选择真DSA;或如果在任意声道中检测出任何一种有着不准确DSA的声音事件,就为所有的输入声道对产生和选择真OSA。作为其他选择,用于多输入声道对和多声音事件类型的声音定位方法也可包括使用如前所述的适应性调节方法和/或错误阀值调节方法。
采用这样的方式确定将要使用的方向对于简单和比较复杂的声音事件是十分有效的.例如,考虑一个包括有显著的鼓点声的流行音乐的声场,其中大部分音乐来源于前面(中央输入声道)而鼓点声来源于后面(环绕输入声道).音乐的方向被已滤波的OSA确定为位于中央输入声道(假设音乐不包括其他声音事件).然而,当有鼓点声时,该方法将检测突发脉冲声音(假设DSA是准确的)并用真DSA中指示的方向将整个声场移到了后方.在突发脉冲声音的典型时段结束时,该方法将确定鼓点声是否已真地结束,并且如果是结束了,该方法将立即转而采用已滤波的OSA指示的方向并将整个声场移回到中央输入声道.当用这种方式去确定方向时,人类听觉机制感觉鼓点声源于后方,而音乐声一直源于前方,似乎从未移动过.然而如果对DSA的使用时间超过了鼓点声的典型时段或者当鼓点声实际上在典型时段结束前就已经结束,如果在典型时段结束时使用过渡来转用已滤波的OSA,则会感觉包括音乐声的整个声场都已经移到了后面.
在更复杂的例子中,考虑一个存在环境噪音的情况下包含有话音的声场,话音具有非常尖锐的冲击,比如一声喊叫。这种话音很复杂是因为它既包括了突发脉冲声音(冲击)又包括了音节声音(喊声的其他部分)。喊声的开始部分将被检测成一个突发脉冲,并假设当前的突发脉冲的DSA是正确的,那么将该突发脉冲的DSA选用于突发脉冲声音的典型时段。然而,在典型时段中和紧接着典型时段后,该喊声的音节声音部分将会被检测到并且假定其是正确的,该音节声音的DSA将被选用于音节声音的典型时段。因为在检测音节声音的时候,先前检测的突发脉冲声音的DSA同音节声音的DSA相同,所以没有方同上的变化。因此,根据突发脉冲声音的性质,在该尖锐冲击中指示出的方向将被很快地捕获,并且此方向也被用于以音节性质为特征的时段中。
声音事件设备
声音事件的检测方法、声音事件的检测和定位方法以及声音定位方法和任何这些方法中所包括的任何方法可在图19所示的并由参考数字1900所指示的声音事件设备中得到实现。这种优选的设备1900通常包括检测单元1902并且也可包括接口单元1904。该检测单元1902包括一个连接着存储设备1906的处理器1908。该存储设备1906可以是任何种类的固定或可移动的数字存储设备和(如果需要)用来读取数字存储设备的设备,包括:软盘和软驱,CD-ROM盘(CD-ROM)和CD-ROM驱动器,光盘和光盘驱动器,硬盘驱动器,随机存取存储器(RAM),随机只读存储器(ROM)和其他用来存储数字信息的设备。处理器1908可以是处理数字信息的设备。存储设备1906可将声场和以下的至少一个方法存储下来:声音事件检测方法,声音事件检测和定位方法和声音定位方法以及任何包括在这些方法中的各种方法(统一称为“检测和/或定位方法”)。一旦收到了来自处理器1908的以处理器信号1910发出的有关请求,存储器会同某一个检测和/或定位方法进行通信,并且如果必要,会通过到处理器1908的存储器信号1912同声场通信。然后处理器1908就会执行检测和/或定位方法
接口单元1904通常包括输入设备1914和输出设备1916。输出设备1916是能将来自于处理器或存储设备的信息传到人或其它处理器或存储器的任何类型的视频、手动、音频、电子或电磁设备。输出设备的例子包括但并不仅限于:各种监视器、扬声器、液晶显示器、网络、总线和接口设备。输入设备1914是能将来自于人或其他处理器或存储器的信息传到处理器或存储设备的任何类型的视频、手动、音频、电子或电磁设备。输入设备的例子包括各种键盘、麦克风、语音识别系统、跟踪球、鼠标、网络、总线和接口设备。作为其他选择,输入设备1914和输出设备1916分别被包括在通过网络与处理器连接的如触摸屏、计算机、处理器或存储器的单独设备中。通过处理器1920,可将来自输入设备1914的声场传到存储设备1918。此外,可将优化的模型参数从处理器1920传到输出设备1916。
声音事件检测器
人类听觉机制的各种特性已被模拟用来发明能在背景信号存在的情况下检测出声音事件的电路(统一为“声音事件检测器”)。声音事件检测器可被用于各种有利于特定种类声音事件的检测的应用。例如,一个检测音节声音的声音事件检测器可被用作语音检测器的一部分或用作语音识别或语音编码系统的一部分。在另一个例子中,检测音节声音的声音事件检测器可与音频放大设备如麦克风结合在一起使用。这会允许该麦克风一直保持关闭状态,直到检测到讲话者的一个音节声音,由此防止该麦克风去放大不想要的声音以及当讲话者沉默时,防止麦克风放大本身的反馈信号。就像声音事件检测方法一样,声音事件检测器通常会产生一个触发信号,该触发信号会包括一些如指示声音事件的出现的脉冲的标记或记号。就像声音事件检测方法一样,声音事件检测器也能被用来检测由任意多个输入声道产生的声场中的任意数量的声音事件类型及其任意组合。在下面的说明中,将按复杂度不断增加的顺序,讨论这些声音事件检测器,除非特别声明,对每一后续声音检测器的讨论都将结合前述声音事件检测器的组成部分。
图20显示了检测单输入声道所产生的声场中的单类声音事件的一个声音事件检测器的例子并由参考数字2000表示。然而,该声音事件检测和定位器可被用来检测任意数量的输入声道对中的任意多个声音事件类型。在本例中,整个声场是通过左输入声道产生的。本例中所用的术语“左”并不具有任何方向的含义,因为整个声场都被包含在一个单独的输入声道中并且该术语只是用作说明的目的。用于单输入声道和单声音事件类型的声音事件检测器1900通常包括偏频滤波器2001;用于单输入声道的适应电路2002;和用于单输入声道的触发信号产生电路2004。通常,用于单输入声道的适应电路2002利用声场为正被检测的声音事件类型在左输入声道中产生一个差分信号“Lo”,而且用于单输入声道的触发信号产生电路2004利用适应性信号Lo去产生表示检测出正被检测类型的声音事件的触发信号“T1”。[109]偏频滤波器2001通过加强声场中大约500Hz到大约4000Hz间的频率区域模拟人类听觉机制的频偏。用于单输入声道的适应电路1702通过模拟适应过程在声场中将声音事件从任意背景信号中分离。图21详细显示了该电路2102,通常包括:乘法器2002;低通滤波器2104;和适应信号电路2006。乘法器2002将在左输入声道中产生的声场(“输入信号”)转换成功率信号“Lin2”。该输入信号通常为电压信号并通常通过取该输入信号的平方将其转换成功率信号。得到的功率信号Lin2会包括很多波动,一些用来指示声音事件,一些用来指示噪声。为了减少由噪声引起的波动,低通滤波器会从功率信号Lin2中将那些上升时间少于大约30ms的波动部分滤掉以产生已滤波的功率信号L2。该低通滤波器2104可为任意类型,如在每个倍频程上有12dB滚将的滤波器。
适应性信号电路2106就是从已滤波的功率信号L2中产生适应信号并通过减掉适应信号(该适应信号代表声场中的长时平均功率)来产生差分信号Lo。适应电路2106通常包括一个运算放大器2108;一个电阻2114;一个二极管2112和一个电容2110。已滤波的功率信号L2同运算放大器2108的正极端子相连,或者与能确定出两信号间差值的任何替换的设备相连。当已滤波的功率信号L2未包括有声音事件,电容2110将工作在开路状态并会产生与已滤波功率信号L2大致相同的适应信号L2,故产生出约为零的差分信号。
然而,当已滤波的功率信号L2确实包含有声音事件时,已滤波的功率信号L2将根据此声音事件的上升时间迅速增长。这个L2的迅速增长将引起差分信号Lo中相应的尖峰信号.在声音事件的上升时间结束后,电容2110充电并使适应信号L2按照电阻2114和电容2110定义的时间常数逐渐增大。该时间常数通常被设为同人类听觉机制的适应速率相一致,由实验确定为大约300ms。L2将继续上升直到电容2110上的电压(并因此为L2)等于L2或者直到声音事件结束或开始衰减为止。从L2中减去这个不断增大的L2会使Lo的值逐渐衰减,就是这样的过程模拟了人类听觉机制中的适应性特性。当声音事件衰减时,功率包络L2将根据声音事件的下降时间快速地下降。当L2接近L2的值时,电容2110通过二极管2112放电以阻止适应信号L2超过已滤波的功率信号L2。这样便阻止了在声音事件结束时Lo中的负脉冲的产生。
因此,差分信号Lo包括一系列持续时间等于或小于正被检测的声音事件类型的特征持续时间并且具有由适应信号和/或该声音事件的结束部分定义的下降时间的波动部分。用于单输入声道的触发信号产生电路1904(如图19所示)接着检测声音事件以在检测到声音事件时产生包括脉冲的触发信号T1′。图22更详细地显示了用于单输入声道的触发信号产生电路1904,该电路包括:一个高通滤波器2202;一个归一化电路2206和一个低通滤波器2208。
触发信号产生电路1904的作用是将尽可能多的由噪声引起的波动部分去除并将那些未去除的部分降低。如同前面的相关声音事件检测方法的解释,这是通过去除那些频率比正检测声音事件的特征频率高的波动部分并用差分信号中的短期高频功率来归一化差分信号Lo实现的。通过使用包括高通滤波器2202和归一化电路2206的自动增益控制电路完成归一化。该高通滤波器包括一个电容/电阻对,用来定义与正检测声音事件的特征截止频率相同的截至频率。此外,也可包括一个位于高通滤波器2202和归一化电路2206间的整流器(未显示)以调整任何负脉冲或者波动。归一化电路2206包括一个积分器2210和一个分频电路2212,接着对Lo的高频部分在由积分器2210定义的短时间段上求平均。由积分器2210定义的短时间段可以约等于160ms,然而,该短时间段可以作为声场类型的函数而被调节。然后分频电路2212会将Lo除以平均HF1以便产生出归一化的差分信号N1。此外,可在归一化电路2206和低通滤波器2208间包括一个整流器(未显示)用来对任何负脉冲或波动进行调整。
然后用低通滤波器2208去滤波归一化的差分信号N1以去除频率高于正被检测声音事件的特征频率的波动部分,以产生一个已滤波的归一化差分信号N1′。尽管没有显示,还可从N1′中去除更多的噪声,这要通过采用电路去检测和去除那些比正被检测声音事件的特征波动部分更频繁出现的波动部分,以及采用电路来去除任何在检测到声场中至少有10dB下降时发生的波动部分。因此,N1′中包括了一系列的不同幅值的脉冲信号,这些幅值代表声音事件和噪声引起的波动的出现。
为了从已滤波的归一化差分信号N1′中的噪声中检测出声音事件,阀值检测器2218仅检测出那些幅值大于阀值的脉冲信号.这有助于从噪声引起的波动中区分出那些指示声音事件的脉冲信号.该阀值检测器的输出是触发信号“T1”,该触发信号通常以脉冲信号的方式来指示在声场的单独(左)输入声道中的声音事件的出现.作为其他选择,用于单输入声道和单声音事件类型的声音事件检测器也可包括阀值调节电路.该阀值调节电路调节阀值检测器的阀值以调节声音事件检测器的灵敏度.阀值检测器可以允许阀值的手动调节并且可包括与触发信号产生电路中的阈值检测器相连的一个电压源和一个可变电阻.通过采用旋钮或开关或其他类似装置来控制由电压源提供的应用到阀值检测器上的被阀值检测器用来定义阀值的电压,该电阻的阻值可被手动控制.作为其他选择,阀值检测器可提供对阀值的自动调节并且包括一个连接到触发信号产生电路输出端的计数器以及一个连接计数器和触发信号产生电路中的阀值检测器的比较器.计数器记录特定时间段内发生的声音事件的数量并将此数值传递到比较器.其中该特定时间段通常是大约几秒种的量级.该比较器然后产生一个与声音事件数量成反比的电压并将此电压值传给用该电压定义阀值的阀值检测器.通常,阀值在检测到更多的声音事件时会增大,从而提高声音检测器的灵敏度.
任何声音事件检测器都可不包括适应信号电路,但当检测短时声音事件如突发脉冲声音时,适应信号电路特别有用。图23显示了一个不包括适应信号电路(“用于短时声音事件的声音事件检测器”)的声音事件检测器的例子。这个用于短时声音事件的声音事件检测器2300包括:频偏滤波器2301;线性dB转换器2302;高通滤波器2303;和用于单声道对的触发信号产生电路2304。频偏滤波器2301将输入信号中从大约500Hz到大约4000Hz间频率的部分加强以此产生一个已滤波的输入信号。然后通过线性dB转换器2302,该已滤波的输入信号被转换成分贝形式以此产生一个分贝滤波输入信号。此分贝滤波输入信号再被滤波,这次是用高通滤波器2303。高通滤波器2303去除上升时间多于正被检测的短时声音事件的特征上升时间的的波动部分。然后用于单声道对的触发信号产生电路2304使用二次滤波的分贝输入信号去产生指示发生短时声音事件的触发信号。作为其他选择,用于短时声音事件的声音事件检测器也可以包括阀值调节电路。
声音事件检测器也可用于在两个或多个输入声道中产生的声场。用来检测在两个输入声道中产生的声场中的单声音事件类型的声音事件检测器(“用于多声道和单声音事件类型的声音事件检测器”)可包括对应每个输入声道的用于单声道和单声道对的声音事件检测器,该声音事件检测器可为每个输入声道产生触发信号。作为其他选择,两个触发信号可结合成一个触发信号用来指示任何输入声道中声音事件的出现。作为其他选择,用于多输入声道和单声音事件类型的声音事件检测器可以根据差值信号为每个声道对只产生一个单独的触发信号。图24显示了这样一个用于多输入声道和单声音事件类型的声音事件检测器。在此例中,整个声场通过包含左输入声道和右输入声道的单输入声道对产生。然而,此方法可应用于任意数量的输入声道或输入声道对。
用于多输入声道和单声音事件类型的声音检测器2400包括:用于单输入声道的第一适应电路2402;用于单输入声道的第二适应电路2404;和用于单输入声道对的交替触发信号产生电路2406。第一和第二适应电路2402和2404通常是相同的。第一适应电路2402使用左输入声道信号(“Lin”)去为左输入声道产生一个差分信号(“左差分信号”或“Lo”)。第二适应电路2404使用右输入声道信号(“Rin”)去为右输入声道产生一个差分信号(“右差分信号”或“Ro”)。
用于单输入声道对的交替触发信号产生电路2406使用左差分信号和右差分信号产生一个指示两声道之一的输入声道中声音事件的出现的触发信号(“左-右触发信号”或“Tlr”).图25更详细地显示了用于单输入声道对的触发信号产生电路2406,该电路包括:运算放大器2501;整流高通滤波器2502;整流归一化电路2506;低通滤波器2508和阀值检测器2510.尽管同用于单输入声道的触发信号产生电路相似(如图22所示),用于单输入声道对的触发信号产生电路2406还包括一个运算放大器2501(或其他能确定信号差值的设备),用来产生一个等于左差分信号和右差分信号之间差值的信号(“左-右差值信号”或“Lo-Ro”)并利用该左-右差值信号去产生一个用于左-右输入声道对的触发信号(“左-右触发信号”或“Tlr”).尽管在这个例子中,左-右差值信号的获得是通过从Lo中减去Ro得到的,它也可以选择性的通过从Ro中减去Lo而确定.左-右差值信号包括分别指示该对输入声道中某一个声道中事件和噪声的发生的一系列脉冲信号和其他一些波动部分.然而,因为同样发生在两个输入声道中的声音事件将被去除,所以许多由噪声造成的波动也由此被去除了.根据瞬时声信号中的功率在左输入声道中较大还是在右输入声道中较大,差值信号中的脉冲和波动部分可分别有正或负的幅值.
为产生仅包括正脉冲的触发信号,应在整流高通滤波器2502中包括第一整流器2504和在归一化电路2506中包括第二整流器。整流高通滤波器2502产生整流的高通左-右差值信号(“HFlr”)。该整流的高通左-右差值信号被归一化电路2506用来将Lo-Ro差值信号归一化,其结果再由第二整流器2507进行整流以产生归一化左-右信号(“Nlr”)。低通滤波器2508将那些由噪声造成的且其上升时间小于正被检测的声音事件的上升特征时间的波动部分去掉,由此产生已滤波的归一化左-右信号(“Nlr′”)。就像在用于单输入声道的触发信号产生电路中一样,通过采用电路去检测和去除那些比正被检测声音事件的特征波动部分更频繁出现的波动部分,以及采用电路来去除任何在检测到声场中至少有10dB下降时发生的波动部分,(未显示)能从Nlr′中去除其他的噪声。因此,Nlr′中包括了一系列的不同幅值的脉冲信号,这些幅值表示发生了声音事件和发生了由噪声引起的波动。阀值检测器2510然后检测声音事件并检测出那些幅值大于阀值的脉冲信号以产生左-右触发信号Tlr。该声音事件检测器可被并行地重复用于多输入声道对来为每个输入声道对产生触发信号。作为其他选择,此用于多输入声道和单声音事件的声音事件检测器也可包括对应于每个触发信号产生电路的阀值调节电路。包括交替触发信号产生电路的用于多输入声道和单声音事件的声音事件检测器也可被称为“用于单声道对和单声音事件类型的声音事件检测器”。此外,任何用于多输入声道(或单输入声道对)和单声音事件的声音事件检测器可以包括对应于每个触发信号产生电路的阀值调节电路。
声音事件检测器也可用于检测多类声音事件。这些“用于单输入声道和多声音事件类型的声音事件检测器”通常包括为每个正被检测的声音事件类型并行地实施的用于单输入声道和单声音事件类型的声音事件检测器,用来为每个正被检测的声音事件类型产生触发信号。图26显示了一个用于单输入声道和多声音事件类型的声音事件检测器的例子并由参考数字2600表示。在该例中,整个声场是通过左输入声道产生的。如同本例中所用到的术语“左”,并不具有任何方向的含义,因为整个声场都被包含在一个单独的输入声道中,实际上,该输入声道可被赋予任何的称谓。而且,在这个例子中,用于单输入声道和多声音事件类型的声音事件检测器2600是用来检测音节声音和突发脉冲声音的。然而,任意数量的声音事件以及它们的任意组合也可以被检测到。
在此例中,用于单输入声道和多声音事件类型的声音事件检测器2600通常包括:用于单输入声道的适应电路2602;为音节声音而实现的用于单输入声道的触发信号产生电路2604;和为突发脉冲声音而实现的用于单输入声道和单短时声音事件的声音事件检测器2606.用于单输入声道的适应电路2602使用输入信号Lin去产生一个差分信号.用来检测音节声音的用于单输入声道的触发信号产生电路用该差分信号去产生一个指示声场(“Tl(s)”)的单独的输入声道(左)中发生了音节声音的触发信号.用来检测音节声音的用于单输入声道的触发信号产生电路2604包括截止频率上升时间大约为33ms的滤波器(见图22).用来检测突发脉冲声音的用于单输入声道的触发信号产生电路2606使用输入信号Lin去产生指示声场(“Tl(i)”)的单独的输入声道(左)中发生了突发脉冲声音的触发信号.用来检测突发脉冲声音的用于单输入声道的触发信号产生电路2606包括截止频率上升时间大约为3ms的高通滤波器(见图22中的2303).作为其他选择,用于多输入声道和单声音事件的声音事件检测器可以包括对应每个触发信号产生电路的阀值调节电路.
声音事件检测器也可用来检测多输入声道中的多类声音事件。这些“用于多输入声道和多声音事件类型的声音事件检测器”可为每个输入声道对中的每个声音事件类型产生一个触发信号。作为其他选择,每个声道中对的触发信号可以以几乎任意形式被结合在一起以减少触发信号的数量。图27显示了一个这样的用于多输入声道和多声音事件类型的声音事件检测器的例子并由参考数字2700表示。在该例中,整个声场或者是在一个左输入声道和一个右输入声道中被检测或者是通过一个左输入声道和一个右输入声道被再现出来。然而,该方法可以被用于任意数量的输入声道及其任意组合。此外,在此例中,用于多输入声道和多声音事件类型的声音事件检测器被用来检测音节声音和突发脉冲声音。然而,任意数量的声音事件以及它们的任意组合都可以被检测。
用于多输入声道和多声音事件类型的声音事件检测器2700通常包括:用于单输入声道的第一适应电路2702;用于单输入声道的第二适应电路2706;用于单声道和短时声音事件的第一声音事件检测器2708;用于单输入声道对的交替触发信号产生电路2710;和用于单声道和短时声音事件的第二声音事件检测器2712。
用于单声道的第一和第二适应电路2702和2703分别彼此相同。用于单声道的第一适应电路2702为左输入声道产生一个差分信号Lo。用于单声道的第二适应电路2703为右输入声道产生一个差分信号Ro。用于单声道对的交替触发信号产生电路2718使用Lo和Ro去产生一个指示左-右声道对中音节声音的产生的触发信号Tlr(s)。用于单声道对的交替触发信号产生电路2718(图25中显示的更详细,由参考数字2406所指示)包括截止频率上升时间大约为33ms的滤波器。用于单声道和单短时声音事件的第一和第二声音事件检测器2708和2712,分别使用Lin和Rin去产生指示分别在左输入声道和右输入声道中发生了突发脉冲声音的触发信号。这两个触发信号然后可被合并成一个触发信号用来指示在左右声道对中触发信号的出现。用于单声道和单短时声音事件的第一和第二声音事件检测器2708和2712分别包括一个截止频率上升时间大约为3ms的高通滤波器(见图23中的2303)。
作为其他选择,用于多输入声道和多声音事件类型的声音事件检测器包括了为每个声道中的每个声音事件类型并行执行的用于单输入声道和单声音事件的声音事件检测器.此声音事件检测器为每个输入声道中的每个声音事件产生一个触发信号.作为其他选择,用于多输入声道和多声音事件类型的声音事件检测器可以包括为每个输入声道并行执行的用于单输入声道和多声音事件类型的声音事件检测器.这个用于多输入声道和多声音事件类型的声音事件检测器也为每个声道中的每个声音事件产生一个触发信号.作为其他选择,用于多输入声道和多声音事件类型的任何声音事件检测器也可以包括用于每个触发信号产生电路的阀值调节电路.
声音事件检测和定位器
人类听觉机制的特性已经被模拟用来发明在背景信号存在的情况下检测和定位声音事件的电路(统一称为“声音事件检测和定位器”)。声音事件检测和定位器,如同声音事件检测和定位方法一样,根据差分转角或普通转角来确定和一个或多个输入声道对相关的声音事件的方向,并且在有些情况下要检验转角的准确性。还有,像声音事件检测和定位方法一样,声音事件检测和定位器可以用于在由任意多输入声道产生的声场中检测任意多声音事件类型及其任意组合。在下面的说明中,按复杂度不断增加的顺序讨论这些检测和定位器,除非特别声明,对每个后续声音检测和定位器的讨论都将结合前述声音事件检测器的组成部分。
图28显示了用来检测单输入声道对中的单声音事件类型的声音事件检测和定位器的一个例子(“用于单输入声道对和单声音事件类型的声音事件检测和定位器”)。在该例中,对声音事件的检测和定位与左声道和右声道有关。然而,只是为了解释的目的,此方法也适用于使用左右声道的任意输入声道间的组合。图28所示的用于单输入声道对和单声音事件类型的声音事件检测和定位器2800通常包括:用于单输入声道和单声音事件类型的声音事件检测器2804;以及用于单输入声道对和单声音事件类型的声音事件定位电路2806;
用于单输入声道对和单声音事件类型的声音事件检测器2804包括任何用于多输入声道和单声音事件的声音事件检测器;用于多输入声道和单声音事件的声音事件检测器包括用于单输入声道对的触发信号产生电路并被用来检测任意的声音事件。用于单输入声道对和单声音事件类型的声音事件检测器2804使用左输入信号Lin和右输入信号Rin为左输入声道产生一个差分信号Lo,为右输入声道产生一个差分信号Ro,和产生指示在左右任一声道中检测出声音事件的触发信号Tlr。然后,用于单输入声道对和单声音事件类型的声音事件定位电路2806使用Lo、Ro和Tlr产生一个用来指示被检测声音事件相对于左右输入声道的方向的真差分转角dlr′。
图29更详细地显示了用于单输入声道对和单声音事件类型的声音事件定位电路2806,并且该电路通常包括DSA电路2904;开关2518;电阻2906;电容2908;和控制电路2910。该DSA电路2904使用左适应信号Lo和右适应信号Ro去确定差分转角dlr。DSA电路2904包括第一线性分贝电路2912;第二线性分贝电路2914;运算放大器2916以及分贝等效角度电路2918。第一和第二线性分贝电路2912和2914分别将左适应信号和右适应信号从功率信号转换成分贝信号。运算放大器2916(或作为其他选择,能确定差值的任何电路)通过确定出这两个信号之间的差值来确定出左分贝信号和右分贝信号之间的比率。将该比率然后通过分贝等效角度电路2918转换成等效角度以产生差分转角dlr。
控制电路2910,开关2906和电容2908通常形成采样保持电路并因此能被执行相似功能的任何装置和电路所代替.通常,当声音事件被检测出来,控制电路2910使开关2906闭合并且使电容2908在声音事件的上升时间内捕获dlr用以为正被检测的声音事件类型的典型时段产生真DSA(“dlr”).更具体些,控制电路2910收到触发信号Tlr并产生控制信号“con”去控制开关2906.开关2906是一个两态开关并且在没有检测到声音事件时通常位于状态C.当在位置A时,开关2906闭合,当在位置B时,开关2906断开,以及当在位置C时,开关2906接地.当该控制电路2910收到来自表示正有声音事件发生的触发信号Tlr的指示时,该控制电路通过“con”将一个闭合命令传到开关2906(到位置A).作为响应,开关2906闭合.当位于正被检测声音事件的典型上升时间的结尾时,控制电路2910通过con将一个打开命令传到开关2906(到位置B).在正被检测声音事件类型的典型时段后,控制电路2910通过con将一个接地命令传到开关2906(到位置C).在开关2906闭合期间(声音事件的上升时间),左-右差分转角dlr被电容2908所捕获用以产生真DSAdlr′.尽管该声音事件实际上并未结束,此真DSA将只被保持到声音事件的典型时段结束.例如,如果正被检测的声音事件是音节声音,该真DSA将被保持大约50ms到200ms,最好是大约150ms.在另一例中,如果正被检测的声音事件是突发脉冲声音,该真DSA将被保持大约50ms.在正被检测声音事件类型的典型时段结束时,电容通过开关C接地使电容的电压dlr′为零.选择电容2908以使其在正被检测的声音事件的上升时间期间能充分地捕获dlr.例如,如果正被检测的声音事件是音节声音,该电容必须能在20ms到大约30ms内捕获到dlr.在另一个例子中,如果正被检测的声音事件是突发脉冲声音,该电容必须能在大约5ms内捕获到dlr.
作为其他选择,可以为例如突发脉冲声音的有着非常短时段的声音事件优化用于单输入声道对和单声音事件类型的声音事件检测和定位器。在有些情况下,为短时声音事件获得一个准确的DSA是很难的,因此将发生在一定期间(通常为大约3ms)内的所有的短时声音事件的平均方向作为该段时间内所有的短时声音事件的方向是有帮助的。因此,这个优化的用于单输入声道对和单声音事件类型的声音事件检测和定位器进一步包括一个用于在大约3ms的时帧内确定检测到的所有声音事件的平均DSA的电路(“DSA平均电路”)。该DSA平均电路通常在DSA电路2804和开关2906间的声音事件定位电路2806中实施。
声音事件检测和定位器也可被用来检测多输入声道对产生的声场中的单声音事件类型(“用于多输入声道对和单声音事件类型的声音事件检测和定位器”)。图30显示了一个用于多输入声道对和单声音事件类型的声音事件检测和定位器的例子并由参考数字3000所指示,该实施例的声音事件检测和定位器用来检测和定位左-右输入声道对(“LR输入声道对”)和中央-环绕输入声道对(“CS输入声道对”)中的单声音事件。仅出于举例的目的,该检测和定位器可用于具有LR输入声道对和CS输入声道对的声道对的任意组合。用于多输入声道对和单声音事件类型的声音事件检测和定位器3000为LR输入声道对(dlr′)和CS输入声道对(dcs′)产生真差分转角并且通常包括:分别用于单输入声道对和单声音事件的第一和第二声音事件检测器3010和3012;和用于多输入声道对和单声音事件类型的声音事件定位电路3014。
用于单输入声道对和单声音事件类型的第一和第二声音事件检测器3010和3012都被用来检测同样的声音事件。用于多输入声道的第一声音事件检测器3010分别使用在左输入声道和右输入声道中的输入信号Lin和Rin去产生一个左差分信号Lo,一个右差分信号Ro,一个左功率包络L2,一个右功率包络R2和一个左-右触发信号Tlr.类似地,用于多输入声道的第二声音事件检测器3012分别使用在中央输入声道和环绕输入声道中的输入信号Cin和Sin去产生一个中央差分信号Co,一个环绕差分信号So,一个中央功率包络C2,一个环绕功率包络S2和一个中央-环绕触发信号Tcs。
用于多输入声道对和单声音事件类型的声音事件定位电路3014使用左差分信号Lo,右差分信号Ro,和左-右触发信号为左-右输入声道对去产生一个指示被检测的声音事件的方向的或者等于真OSA或者等于真DSA的角度(“左-右声音事件角”或“d/lr′”),并使用中央差分信号Co,环绕差分信号So,和中央-环绕触发信号为中央-环绕输入声道对去产生一个指示被检测的声音事件的方向的或者等于真OSA或者等于真DSA的角度(“中央-环绕声音事件角”或“d/cs′”)。此外,电路3014使用所有的功率包络,dlr和dcs去检验DSA的准确性。图31更详细地显示了用于多输入声道对和单声音事件类型的声音事件定位电路2614,该电路通常包括:第一OSA电路3102;第一DSA电路3104;第二DSA电路3106;第二OSA电路3108;校验电路3116;控制电路3118;第一两态开关3110;第一三态开关3112;第一电容3114;第二两态开关3120;第二三态开关3122和第二电容3124。
通过第一OSA电路3102、第一DSA电路3104、第一两态开关3110、第一三态开关3112和第一电容3114产生d/lr′。类似地,通过第二OSA电路3108、第二DSA电路3106、第二两态开关3120、第二三态开关3122和第二电容3124产生d/cs′。第一和第二OSA电路3102和3108使用已知方法分别将Lin和Rin以及Cin和Sin转换成普通转角“lr”和“cs”。控制电路3118、第一三态开关3112和第一电容3114形成第一采样保持电路,同时控制电路3118、第二三态开关3122和第二电容3124形成第二采样保持电路。第一和第二三态开关3112和3122在没有检测到声音事件时通常分别位于位置C并且由控制电路所控制,以便当检测到有声音事件时使每个开关都闭合(移动到位置A),当正被检测的声音事件类型的典型上升时间结束时使开关打开(移动到位置B),以及当正被检测的声音事件类型的典型时段结束时使开关接地(移动到位置C)。控制电路3118产生一个控制信号“con”用来同三态开关3112和3122通信。无论何时,只要有任何触发信号(Tlr或Tcs)指示在每个输入声道对中检测到了声音事件,控制信号会使三态开关3112和3122移动到(或待在)位置A。接下来,在声音事件类型的典型上升时间结束时,con使三态开关3112和3122移动到位置B。然后,当正被检测的声音事件类型的典型时段结束时,con使三态开关3112和3122移动到位置C。
两态开关3110和3120都包括位置D和E。当检测到声音事件并且两个两态开关3110和3120都在位置D时,每个声道对的DSA都被用来指示声音事件的方向。然而,当检测到声音事件并且两个两态开关3110和3120都在位置E时,每个声道对的OSA都被用来指示声音事件的方向。根据检测到声音事件时的DSA是否正确,校验电路3116通过校验信号“vs”分别控制开关3110和3120。当有一个触发信号(Tlr或Tcs)指示检测到了声音事件时,该校验电路将确定功率包络(L2、R2、C2、S2)中是否至少有两个功率包络已经下降了至少3dB或更多。如果从上个声音事件以来至少有两个功率包络已经下降了至少3dB或更多,校验电路将通过vs同两个两态开关3110和3120通信并使它们移动到或待在位置E。然而,如果至少两个功率包络没有下降至少3dB或更多,校验电路将通过vs同两个两态开关3110和3120通信并使它们移动到或待在位置D。
作为替换,声音事件定位电路的校验电路3116也包括执行一致性检验的电路(“一致性检验电路”).该一致性检验电路同各DSA电路相连并使用由每个DSA电路产生的差分转角对差分转角的准确性作进一步的确定.当任一触发信号指示已经检测到声音事件时,一致性检验电路使用已知电路来确定dlr和dcs的绝对值的和,并确定是否该和小于或等于45度.如果该和小于或等于45度,并且没有至少两个功率包络下降至少3dB或更多,校验电路将通过vs同两个两态开关3110和3120通信并使它们移动到或待在位置D.
而且,也可增加额外的电路来调节适应度(“适应调节电路”)并将阀值作为一致性检验的函数来加以调节(“错误阀值电路”)。适应调节电路和错误误差阀值电路(未显示)均被连接到一致性检验电路,并且还包括一个计数器用来记录在大约几秒种的时间段里通过一致性检验检测出的错误的数量。适应调节电路也通过适应信号同DSA电路3104和3102中的瞬时声音检测电路相连,并且进一步包括根据计数器中记载的错误的数量进行调节的适应性电压源。当错误数量上升时,适应性电压源产生的电压将增高从而降低了适应度。与其相对比,错误阀值电路也同触发信号产生电路中的阀值检测器相连,并进一步包括根据计数器中记载的错误的数量进行调节的错误性电压源。当错误数量增加时,错误性电压源产生的阀值电压将会增高,从而导致更少的声音事件被检测出来。
声音事件检测和定位器也可被用来检测单输入声道对中产生的声场的多声音事件类型(“用于单输入声道对和多声音事件类型的声音事件检测和定位器”)。用于单输入声道对和多声音事件类型的声音事件检测和定位器通常包括:为正被检测的每个声音事件类型并行地执行用于单输入声道和单声音事件类型的声音事件检测和定位器以便为输入声道对中的每个声音事件类型产生一个差分转角。作为其他选择,用于单输入声道对和多声音事件类型的声音事件检测和定位器可以包括:为正被检测的每个声音事件类型并行地执行用于单输入声道对和单声音事件类型的声音事件检测器,以及用于单声道对和单声音事件类型的声音事件定位电路,以产生差分转角指示正被检测的所有类型的声音事件的方向。图32显示了一个检测音节声音和突发脉冲声音的用于单输入声道对和多声音事件类型的声音事件检测和定位器的例子。
在图32中,用于单输入声道对和多声音事件类型的声音事件检测和定位器包括:用于单声道对和单声音事件类型的声音事件检测器3202;用于单输入声道对和短时声音事件类型的声音事件检测器3204;和用于单输入声道对和单声音事件类型的声音事件定位电路3206。用于单声道对和单声音事件类型的声音事件检测器3202可以包括图24所示的用于多声道和单声音事件类型的声音事件检测器,用来检测音节声音并产生一个左差分信号Lo、一个右差分信号Ro和一个指示发生了音节声音的左-右触发信号“Tlr(s)”。用于单声道对和短时声音事件类型的声音事件检测器3204可以包括图23所示的用于单声道对和单短时声音事件的声音事件检测器,用来检测突发脉冲声音并产生一个指示发生了突发脉冲声音的左-右触发信号“Tlr(i)”(作为左触发信号和右触发信号的合并信号)。用于单输入声道对和单声音事件类型的声音事件定位电路3206可以包括图29所示的用于单声道对和多声音事件类型的声音事件定位电路,以在有触发信号(Tlr(s)或Tlr(i))指示发生了声音事件的任何时候产生指示被测音节声音方向或突发脉冲声音方向的左-右差分转角。尽管该声音检测和定位器是被用来检测和定位左-右输入声道对中的音节声音和突发脉冲声音的,但仅仅通过增加额外的用于单声道对的声音事件检测器去检测希望检测的声音事件类型,并使用于单输入声道对和单声音事件类型的声音事件定位电路响应用于单声道对的声音事件检测器所产生的任何触发信号,该声音检测和定位器也可被用于检测任意声道对中的任意数量的声音事件类型。
声音事件的检测和定位器也可以被用来检测多输入声道对中产生的声场中的多声音事件类型(“用于多输入声道对和多声音事件类型的声音事件检测和定位器”)。图33显示了一个用来检测左-右声道对和中央-环绕声道对中的音节声音和突发脉冲声音的用于多输入声道对和多声音事件类型的声音事件检测和定位器的例子。这种用于多输入声道对和多声音事件类型的声音事件检测和定位器3300包括:用于单声道对和单短时声音事件的第一和第二声音事件检测器3302和3308;用于单声道对和单声音事件类型的第一和第二声音事件检测器3304和3306;和用于多声道对和单声音事件类型的声音事件定位电路3310。
用于单声道对和单声音事件类型的第一声音事件检测器3304可以包括图24所示的用于多声道和单声音事件类型的声音事件检测器,被实施用来检测音节声音并产生一个左差分信号Lo、一个右差分信号Ro和一个指示发生了音节声音的左-右触发信号“Tlr(s)”。类似地,用于单声道对和单声音事件类型的第二声音事件检测器3306可以包括图24所示的用于多声道和单声音事件类型的声音事件检测器,被实施用来检测音节声音并产生一个中央差分信号Co、一个环绕差分信号So和一个指示发生了音节声音的中央-环绕触发信号“Tcs(s)”。用于单声道对和单短时声音事件类型的第一声音事件检测器3302可以包括图23所示的用于单声道对和单短时声音事件的声音事件检测器,被实施用来检测突发脉冲声音并产生一个指示发生了突发脉冲声音的左-右触发信号(作为左触发信号和右触发信号的合并信号)“Tlr(i)”。类似地,用于单声道对和单短时声音事件类型的第二声音事件检测器3308可以包括图23所示的用于单声道对和单短时声音事件的声音事件检测器,被实施用来检测突发脉冲声音并产生一个指示发生了突发脉冲声音的中央-环绕触发信号(作为中央触发信号和环绕触发信号的合并信号)“Tcs(i)”。用于多声道对和单声音事件类型的声音事件定位电路3310可以包括图31所示的用于多声道对和单声音事件类型的声音事件定位电路,被实施用来当任何时候有任一触发信号(Tlr(s),Tlr(i),Tcs(s)或Tcs(i))指示发生了声音事件,就产生一个指示被测音节声音方向或突发脉冲声音方向的左-右声音事件角度“d/lr′(s,i)”,以及当任何时候有任一触发信号(Tlr(s),Tlr(i),Tcs(s)或Tcs(i))指示发生了声音事件,就产生一个指示被测音节声音方向或突发脉冲声音方向的中央-环绕声音事件角度“d/cs′(s,i)”。尽管该声音检测和定位器是被用于检测和定位左-右和中央-环绕输入声道对中的音节声音和突发脉冲声音的,但仅仅通过增加额外的用于单声道对的声音事件检测器去检测期望声道对中的期望声音事件类型,并使用于多输入声道对和单声音事件类型的声音事件定位电路响应任何由用于单声道对的声音事件检测器所产生的触发信号,该声音检测和定位器就也可被用于检测任意声道对中的任意数量的声音事件类型。
而且,任一用于多输入声道对和多声音事件类型的声音事件检测和定位器可以额外地包括一个适应调节电路和/或一个错误阀值电路.适应调节电路和错误阀值电路(未显示)被连到一致性检验电路并包括一个计数器用来记录在大约几秒种的时间段里通过一致性检验检测出的错误的数量.该适应调节电路同DSA电路中的瞬时声音检测电路中的适应信号连接.与其相对比,错误阀值电路也同触发信号产生电路中的阀值检测器相连,并进一步包括一个根据计数器中记载的错误的数量进行调节的错误性电压源.当错误数量增加时,该错误性电压源产生的电压将增高以使阀值电压增高,进而使更少的声音事件被检测出来.
环绕声检测器
声音事件检测和定位器的一个应用是立体声/环绕声检测器。立体声/环绕声检测器确定是要在两个输入声道中还是在多于两个输入声道中再现声场。图34中显示了一个被用于检测单声音事件类型的立体声/环绕声检测器3400(用于单声音事件类型的立体声/环绕声检测器)的例子并包括:用于单输入声道对和单声音事件类型的声音事件检测和定位器3402和检测计数器3404。用于单输入声道对和单声音事件类型的声音事件检测和定位器3402使用中央输入声道中的信号Cin和环绕输入声道中的信号Cin去产生一个反映出任何正被检测的声音事件的方向的真差分转角dcs′。然后阀值检测计数器3404确定dcs′位于大约0到大约-45度范围内的次数。如果该数字超过了一个预设值,那么阀值检测计数器3404会产生一个sursig信号指示该声场应以环绕声回放。相反,如果该数字未超过预设值,那么检测计数器3404会产生一个sursig信号指示该声场应以立体声回放。通常,如果在大约10到大约15秒量级的相对较长时间段内检测的声音事件的数量是大约2或3,该检测计数器3404将产生一个sursig信号指示该声场应以环绕声回放。此外,该检测计数器可以进一步确定声音事件的持续时间并只将那些持续时间超过预定值的声音事件记为要在后面方向回放的声音事件。在一个例子中,那些持续时间小于大约50ms的声音事件将不被记为要在后面方向回放的声音事件。在另一个例子中,那些持续时间为大约200ms到300ms之间的声音事件将被记为要在后面方向回放的声音事件。
作为其他选择,图35显示了一种被用于检测单声音事件类型(“用于多声音事件类型的立体声/环绕声”)的立体声/环绕声检测器并由参考数字3500所指示。在图35的例子中,立体声/环绕声检测器3500被用来记录音节声音和突发脉冲声音的数量以便在后面方向回放。然而,立体声/环绕声检测器也可被用来记录任何类声音事件及其任意组合的数量。检测器3500包括:用于单输入声道对和单声音事件类型的第一和第二声音事件检测和定位器3502和3504和检测计数器3506。用于单输入声道对的第一声音事件检测和定位器3502使用中央输入声道中的信号Cin和环绕输入声道中的信号Sin去产生一个反映音节声音方向的真差分转角dcs′(s)。类似地,用于单输入声道对的第二声音事件检测和定位器3504使用中央输入声道中的信号Cin和环绕输入声道中的信号Sin去产生一个反映突发脉冲声音方向的真差分转角dcs′(i)。检测计数器3506则确定dcs′(s,i)在位于大约0到大约-45度范围内的次数以产生一个指示是将声音以立体声回放还是以环绕声回放的sursig(s,i)信号。
声音定位器
人类听觉机制的特性已经被模拟用来产生在背景信号和所有其他声音存在的情况下定位出声音事件的电路(统一称为“声音定位器”).声音定位器分别对声场中的声音事件和非声音事件进行检测和定位以便产生对该声场方向的连续指示.这些声音定位器可以被用于各种应用中,如录制声音的回放,特别是如果声音是包括与稳态声音同时发生的声音事件的复杂声场的一部分.当以立体声格式存储的声场要以环绕声被回放时,声音定位器可被用作矩阵解码器的一部分来从两输入声道的混合中推演出声音的真实方向.声音定位器也能被用来检测在任意个输入声道中产生的声场中的任意声音事件类型及其任意组合.在下面的说明中,按复杂度不断增加的顺序进行讨论声音定位器,除非有所指出,每个后续声音定位器将结合前述各种声音定位器的各组成部分.
图36显示了一个用来分别定位单输入声道对中的单声音事件类型的声音定位器(“用于单输入声道对和单声音事件类型的声音定位器”)的例子。用于单输入声道对和单声音事件类型的声音定位器3600包括:用于单声道对和单声音事件类型的声音事件检测器3602;和用于单输入声道对和单声音事件的声音定位电路3604。用于单声道对和单声音事件类型的声音事件检测器3602可以包括图24所示的用于多声道和单声音事件类型的声音事件检测器,被实施用来检测和定位无论何种被检测的声音事件并分别产生左和右差分信号Lo和Ro,以及左-右触发信号Tlr。声音定位电路3604分别使用Tlr、Lo、Ro以及左和右输入声道中的信号Lin和Rin,根据普通转角和差分转角去产生指示相对于左-右输入声道的声场的方向的转角(在本申请中通常被称为“综合转角”,而且同左-右输入声道对有关的综合转角被称为“clr”)。
图37更详细地显示了用于单输入声道对和单声音事件类型的声音定位电路3604,该定位电路包括:普通转角(OSA)电路3702;DSA电路3704;控制电路3706;第一开关3708;电阻3710;第二开关3712和电容3714。用于单输入声道对和单声音事件类型的声音事件定位电路3604分别使用左和右差分信号Lo和Ro,以及左和右输入信号Lin和Rin,去产生左-右综合转角clr′。通常,当没有检测到声音事件时,clr′等于或保持为OSA,而当检测到声音事件时,clr′等于或保持为DSA。OSA电路3702使用Lin和Rin去确定普通转角lr。DSA电路3704使用差分信号Lo和Ro去产生差分转角。控制电路3706、第一开关3708、电阻3710;第二开关3712和电容3714通常形成采样保持电路并能被执行类似功能的任意装置或电路所代替。
通常,当未检测到声音事件时,第一开关3708将打开,且第二开关3712将关闭。在此状态下,clr′将以电阻3710和电容3714定义的速率随lr变动。然而,当检测到声音事件时,在正被检测声音事件类型的典型上升时间段,控制电路3706使第一开关3708关闭并使电容3712捕获dlr以至于在正被检测声音事件类型的典型上升时间内,clr′同真DSA相同。更具体些就是,控制电路3706接收到触发信号Tlr并产生控制第一开关3708和第二开关3712的控制信号“con”。当Tlr指示发生了声音事件,控制电路3706通过“con”向第一开关3708发出关闭命令使第一开关3708关闭。在正被检测声音事件类型的典型上升时间段结束时,控制电路3706通过“con”向第一开关3708和第二开关3712分别发出打开命令,使第一开关3708和第二开关3712打开。在正被检测声音事件类型的典型上升时间段结束后,控制电路3706通过“con”向第二开关3712发出关闭命令使第二开关3712关闭。在第一开关3708关闭期间(声音事件的上升时间),左-右差分转角dlr被电容3714捕获并用来产生真DSA dlr′。clr′由真DSA所定义,真DSA只在声音事件的典型时段内被一直保持不变,即使该声音事件并未真正结束。例如,如果正被检测的声音事件是音节声音,则真DSA将被一直保留大约50ms到大约200ms,最好是大约150ms。在另一个例子中,如果正被检测的声音事件是突发脉冲声音,则真DSA将被一直保留大约50ms。在正被检测声音事件类型的典型时段的结尾,电容3714将一直充电或放电直到它以特定的速率反映出lr。选择电容3714和电阻3710以使该电容和电阻定义导致特定速度的衰减的RC时间常数。例如,RC时间常数大约等于300ms。
作为其他选择,可为短时声音事件定制声音定位电路.如前面的讨论,如果如突发脉冲声音的短时声音事件根据DSA得到了定位,那么在该短时声音事件类型的典型时段的结尾去确定是否该声音事件已经真的结束,并且如果该声音事件已经结束,就立即切换到OSA,这样做通常是很有利的.图38显示了一个包含有此功能的声音事件定位电路(在此申请中被称为“用于单输入声道对和短时声音事件的声音定位电路”)的例子.用于单输入声道对和短时声音事件的声音定位电路3800包括:OSA电路3802;DSA电路3804;控制电路3808;检测器3810;第一开关3812;第二开关3816;第一电阻3814;第三开关3813;第二电阻3815;和电容3818.该声音定位电路3800产生一个左-右综合转角clr′.当没有检测到声音事件的时,clr′等于已滤波的OSA(在被电阻3814和电容3816滤波后是lr).然而,当检测到声音事件时,clr′既可以等于真OSA也可以等于真DSA.用于单输入声道对和单短时声音事件的声音定位电路与图37所示的声音定位电路的工作方式通常相同,但在声音事件结束时有例外,即clr′要根据声音事件是否已真的结束或者过渡到lr或直接成为lr.
在控制电路3808收到指示发生声音事件的触发信号,并且已确定出正被检测的声音事件的典型时段已经结束,以及完成了其他前面说到的功能后,该控制电路将同检测器3810通信来确立该声音事件是否真的已经结束了。检测器3810是通过将功率包络同声道对的每个输入声道中的适应信号进行比较,来确定声音事件是否已经真地结束。如果输入功率包络比输入声道对的任一输入声道中的适应信号都大,检测器3810将确定该短时声音事件还未真的结束。相反,如果该输入功率包络不比输入声道对的任何输入声道中的适应信号大,检测器3810将确定该短时声音事件已经真地结束。如果控制电路3808确立声音事件还未真的结束,那么该控制电路将通过con指示第二开关3816关闭。当第二开关3816关闭时,clr′将以某一特定速率逐渐变动到已滤波的OSA。因此,选择电容3818和电阻3814以使该电容3818和电阻3814的RC时间常数大约等于该特定速率(通常为大约300ms)。例如,如果正在检测突发脉冲声音,电容3818和电阻3814的RC时间常数大约等于5ms。然而,如果该控制电路3808确立该声音事件已经真的结束了,那么它将通过con指示第三开关3813关闭。当第三开关3813关闭时,clr′将立即变到lr。因此,选择第二电阻3815以使第二电阻3815和电容3818的RC时间常数比第一电阻3814和电容3818的RC时间常数低很多(通常低10倍)。通常,第三开关3813将在很短一段时间内保持关闭(通常为大约3ms到大约5ms)。在这很短一段时间结束后,控制电路3808将指示第三开关3813打开和第二开关3816关闭以使clr′变到已滤波的OSA。此外,用于单输入声道对和短时声音事件类型的声音定位器可以进一步包括平均DSA电路。平均DSA电路可在DSA电路3804和开关3812间的声音事件定位电路3800中被实施。
声音定位器也可被用来检测多输入声道对中产生的声场中的单声音事件类型(“用于多输入声道对和单声音事件类型的声音定位器”).图39显示了一个用来检测和定位LR输入声道对和CS输入声道对中的单声音事件的用于多输入声道对和单声音事件类型的声音定位器的例子并由参考数字3900表示.仅以解释为目的,该声音定位器可被实施用于具有本例中用到的LR输入声道对和CS输入声道对的输入声道对间的任意组合.用于多输入声道对和单声音事件类型的声音定位器3900为LR输入声道对(“clr′”)和CS输入声道对(“ccs′”)产生综合转角并通常包括:用于单输入声道对和单声音事件的第一和第二声音事件检测器3902和3904;以及用于多输入声道对和单声音事件类型的声音定位电路3906.
用于单输入声道对和单声音事件的第一和第二声音事件检测器3902和3904可以包括:用于多输入声道和单声音事件类型的声音事件检测器,如同图24所显示的检测器,用来检测同样的声音事件。用于单输入声道的第一声音事件检测器3902使用Lin′和Rin′去产生一个左差分信号Lo,一个右差分信号Ro,和一个左-右触发信号Tlr。类似地,用于单输入声道的第二声音事件检测器3904使用Cin′和Sin′去产生一个中央差分信号Co,一个环绕差分信号So,和一个中央-环绕触发信号Tcs。
用于多输入声道对和单声音事件类型的声音定位电路3906使用左差分信号Lo、右差分信号Ro、和左-右触发信号去产生一个左-右综合转角clr′,并使用中央差分信号Co、环绕差分信号So和中央-环绕触发信号Tcs去产生一个中央-环绕综合转角ccs′。此外,图40更详细地显示了电路3906,该电路通常包括:第一OSA电路4002;第一DSA电路4004;第二DSA电路4006;第二OSA电路4008;校验电路4020;控制电路4022;第一两态开关4010;第一开关4012;第一电阻4014;第一电容4018;第二开关4016;第二两态开关4030;第三开关4032;第二电容4038;第四开关4036;和第二电阻4034。
由第一OSA电路4002、第一DSA电路4004、第一两态开关4010、第一开关4012、第一电阻4014、第二开关4016和第一电容4018产生。类似地,ccs′由第二OSA电路4008、第二DSA电路4006、第二两态开关4030、第三开关4032、第二电阻4034和第二电容4038产生。第一和第二OSA电路4002和4008分别将Lin和Rin以及Cin和Sin转换成普通转角lr和cs。控制电路4022、第一开关4012、第二开关4016和第一电容4018形成了第一采样保持电路,而控制电路4022、第三开关4032、第四开关4034、第二电阻4034和第二电容4038形成了第二采样保持电路。当没有检测到声音事件时,第一开关4012和第三开关4032通常都打开,并由控制电路所控制,以使在当检测到声音事件时,每一开关都闭合,以及在被检测声音事件的典型上升时间结束时,每一开关都打开。当没有检测到声音事件时,第二开关4016和第四开关4036通常都闭合,并在检测到声音事件后以及在被检测声音事件的典型上升时间已经结束时打开。控制电路4022产生同所有的开关4012、4016、4032和4036通信的控制信号“con”。无论何时,只要有触发信号(Tlr或Tcs)指示在一个输入声道对中检测到声音事件,控制信号便使第一开关和4012第二开关4016关闭(或待在关闭状态)。接下来,con使所有的开关4012、4016、4032和4036在声音事件的典型上升时间刚结束时全部打开。
两态开关4010和4030包括位置D和E。当检测到声音事件并且两态开关4010和4030均位于位置D时,每个声道对的DSA会被用来指示声音事件的方向。然而,当检测到声音事件并且两态开关4010和4030均位于位置E时,每个声道对的OSA会被用来指示声音事件的方向。校验电路4020通过检验信号“vs”并根据检测到声音事件时DSA是否正确来控制两态开关4010和4030。当任何一个触发信号(Tlr或Tcs)指示正检测到声音事件时,校验电路确定是否有至少两个功率包络(L2、R2、C2、S2)已经下降了至少3dB或更多。如果从上个声音事件以来,已经有至少两个功率包络下降了至少3dB或更多,那么校验电路将通过vs与两态开关4010和4030都通信并使它们移到或待在位置E。然而,如果没有至少两个功率包络下降了至少3dB或更多,校验电路将通过vs与两态开关4010和4030都通信并使它们移到或待在位置D。
作为其他选择,声音事件定位电路的检测电路4020还包括一致性检验电路。如前文所述,一致性检验电路被连接到两个DSA电路并使用这两个电路产生的差分转角去进一步确定这两个差分转角的准确性。而且,用于多声音事件类型的声音定位器和单声音事件类型的声音定位器可以进一步包括适应调节电路和/或错误阀值电路。
作为其他选择,用于多声道对和单声音事件类型的声音定位电路能被专门用于如突发脉冲声音的短时声音事件。如前文所讨论的,如果短时声音事件得到了定位,那么在该短时声音事件类型的典型时段正结束时去确定该声音事件是否已经真的结束并且如果该声音事件还没有真的结束就立即切换到OSA,这样做是很有利的。图41显示了这样一个用于多声道对和单声音事件类型的声音事件定位电路的例子并由参考数字4100表示。这样一个用于多声道对和单声音事件类型的声音事件定位电路4100通常包括:第一OSA电路4102;第一DSA电路4104;第二DSA电路4106;第二OSA电路4108;校验电路4120;控制电路4122;检测器电路4124;第一两态开关4110;第一开关4112;第一电阻4114;第一电容4118;第二开关4116;第二两态开关4130;第三开关4132;第二电容4138;第四开关4136;第二电阻4134;第五开关4113;第三电阻4115;第六开关4133;和第四电阻4135。该声音定位电路4100产生左-右综合转角。当没有声音事件时,clr′将等于已滤波的OSA(在被第一电阻4114和第一电容4118滤波后是lr)。当检测到有声音事件时,clr′将或者等于左-右声道对的真OSA或着等于左-右声道对的真DSA。该声音定位电路4100也产生中央-环绕综合转角ccs′。当未检测到声音事件时,clr′等于已滤波的OSA。当检测到声音事件时,clr′将或者等于中央-环绕声道对的真OSA或着等于中央-环绕声道对的真DSA。用于多声道对和单短时声音事件的声音定位电路通常会有着图40所示的用于多声道对和单声音事件类型的声音定位电路的同样工作表现,除了在声音事件结束时,要根据声音事件是否已真的结束了来使clr′或者过渡到已滤波的OSA或者立即直接转到OSA。
在控制电路4122接收到指示发生声音事件的触发信号并且已确定出正被检测的声音事件的典型时段已经结束,以及完成了其他前面所述的功能后,该控制电路将同检测器4124通信来确立该声音事件是否真的已经结束了。检测器4122是通过将功率包络同声道对的每个输入声道中的适应信号进行比较,来确定声音事件是否已经真地结束了。如果输入功率包络比输入声道对的任何输入声道中的适应信号都大,检测器4122将确定该短时声音事件还未真的结束。相反,如果该输入功率包络不比该输入声道对的任何输入声道中的适应信号大,检测器4124将确定该短时声音事件已经真地结束了。如果控制电路4122确立声音事件还未真的结束,那么它将通过con分别指示第二开关4116和第四开关4136关闭。当第二开关4116和第四开关4136关闭时,clr′将以某一特定速率逐渐变到左-右已滤波的OSA(在已经被第一电阻4114和第一电容4118滤波后是lr)并且ccs′也将以某一特定速率逐渐变动到中央-环绕已滤波的OSA(在已经被第二电阻4134和第二电容4138滤波后是cs)。因此,分别选择第一和第二电容4118和4138,以及第一和第二电阻4114和4134以使它们的RC时间常数大约等于该特定速率。例如,如果正在检测突发脉冲声音,电容4118和电阻4114的RC时间常数以及电容4138和电阻4134的RC时间常数都大约等于5ms。
然而,如果该控制电路4122确立该声音事件已经真的结束了,那么该控制电路将通过con分别指示第五和第六开关4113和4133关闭.当第五和第六开关4113和4133分别关闭时,clr′和ccs′将分别立即变到lr和cs.因此,第三电阻4115和第一电容4118的RC时间常数以及第四电阻4135和第二电容4138的RC时间常数都将很低.这些RC时间常数可以比第一电容4118和第一电阻4114的RC时间常数以及第二电容4138和第二电阻4134的RC时间常数都低至少10倍.第五和第六开关4113和4133将分别在很短一段时间内保持关闭.这很短一段时间可以为大约3ms到大约10ms.在这很短一段时间结束后,控制电路4122将分别指示第五和第六开关4113和4133打开,并且分别指示第二和第四开关4166和4136关闭以使clr′和ccs′将反映出已滤波的OSA.此外,用于多输入声道对和短时声音事件类型的声音定位器可以进一步包括第一和第二DSA平均电路.第一DSA平均电路可在第一DSA电路4104和第一两态开关4110间的声音事件定位电路4100中被实施.同样,第二DSA平均电路可在第二DSA电路4106和第二两态开关4130间的声音事件定位电路4100中被实施.
作为其他选择,用于多声道对和单短时声音事件类型的声音定位器4100的校验电路还包括一致性检验电路。如前文所描述的,该一致性检验电路被分别连接到两个DSA电路并使用每个DSA电路产生的差分转角进一步确定这两个差分转角的准确性。而且,用于多声音事件类型的声音定位器和用于单声音事件类型的声音定位器可以进一步包括适应调节电路和/或错误阀值电路。
声音定位器也可被用来检测单输入声道对中产生的声场中的多声音事件类型(“用于单输入声道对和多声音事件类型的声音定位器”)。图42显示了一个能检测和定位左-右输入声道对中的音节声音和突发脉冲声音的用于单输入声道对和多声音事件类型的声音事件检测和定位器的例子并由参考数字4200所指示(然而,此定位器可以被实施用于任意的输入声道对以对声音事件类型的任意组合进行检测)。用于单输入声道对和多声音事件类型的声音检测和定位器4200通常包括:用于单输入声道对和单声音事件类型的声音事件检测器4202;用于单声道和单短时声音事件类型的声音事件检测器4206;和用于单输入声道对和多声音事件类型的声音定位电路4204。
用于单声道对和单声音事件类型的声音事件检测器4202可以包括图24中显示的用于多声道和单声音事件类型的声音事件检测器,用来检测音节声音并产生左差分信号Lo、右差分信号Ro和指示发生了音节声音的左-右触发信号Tlr(s)。用于单声道对和短时声音事件类型的声音事件检测器4206可以包括图23中显示的用于单声道对和单短时声音事件的声音事件检测器用来检测突发脉冲声音并产生指示发生了突发脉冲声音的左-右触发信号(作为一个左触发信号和一个右触发信号的合并信号)Tlr(i)。用于单输入声道对和单声音事件类型的声音定位电路4204可以包括图37中显示的用于单声道对和多声音事件类型的声音定位电路用来产生左-右差分转角,无论在任何时候只要触发信号(Tlr(s)或Tlr(i))指示有声音事件发生,则用差分转角指示被检测音节声音或突发脉冲声音的方向。尽管该声音定位器是用来检测和定位左-右输入声道对中的音节声音和突发脉冲声音的,仅仅通过为单声道对增加额外的声音事件检测器来检测期望的声音事件类型以及使用于单声道对和单声音事件类型的声音定位电路响应由用于单声道对的声音事件检测器所产生的任何触发信号,该声音定位就可被用来检测任意声道对中的任意声音事件类型。
声音定位器也可被用来检测由多输入声道对中产生的声场中的多声音事件类型(“用于多输入声道对和多声音事件类型的声音定位器”).图43显示了一个专门用来定位左-右声道对和中央-环绕声道对中的音节声音和突发脉冲声音的用于多输入声道对和多声音事件类型的声音定位器(然而,用于多输入声道对和多声音事件类型的声音定位器可被专门用来定位任意输入声道对中的声音事件的任意组合).该用于多输入声道对和多声音事件类型的声音定位器4300包括:用于单声道对和单短时声音事件的第一和第二声音事件检测器4308和4306;用于单声道对和单声音事件类型的第一和第二声音事件检测器4302和4304;和用于多声道对和单声音事件类型的声音事件定位电路4310.
用于单声道对和单声音事件类型的第一声音事件检测器4302可以包括图24所示的用于多声道和单声音事件类型的声音事件检测器,被用来检测音节声音以产生一个左差分信号Lo、一个右差分信号Ro和一个指示发生了音节声音的左-右触发信号Tlr(s)。类似地,用于单声道对和单声音事件类型的第二声音事件检测器4304可以包括图24所示的用于多声道和单声音事件类型的声音事件检测器,被用来检测音节声音以产生一个中央差分信号Co、一个环绕差分信号So和一个指示发生了音节声音的中央-环绕触发信号Tcs(s)。
用于单声道对和单短时声音事件类型的第一声音事件检测器4308可以包括图23所示的用于单声道对和单短时声音事件的声音事件检测器,被用来检测突发脉冲声音并产生一个指示发生了突发脉冲声音的左-右触发信号(作为左触发信号和右触发信号的合并信号)Tlr(i)。类似地,用于单声道对和单短时声音事件类型的第二声音事件检测器4306可以包括图23所示的用于单声道对和单短时声音事件的声音事件检测器,被用来检测突发脉冲声音以产生一个指示发生了突发脉冲声音的中央-环绕触发信号(作为中央触发信号和环绕触发信号的合并信号)Tcs(i)。用于多声道对和单声音事件类型的声音定位电路4310可以包括图40所示的用于多声道对和单声音事件类型的声音定位电路,被用来当任何时候有任一触发信号(Tlr(s),Tlr(i),Tcs(s)或Tcs(i))指示发生了声音事件,就产生一个指示被测音节声音方向或突发脉冲声音方向的左-右声音事件角度“clr′(s,i)”,以及当任何时候有任一触发信号(Tlr(s),Tlr(i),Tc s(s)或Tcs(i))指示发生了声音事件,就产生一个指示被测音节声音方向或突发脉冲声音方向的中央-环绕声音事件角度“ccs′(s,i)”。尽管该声音定位器是被用来检测和定位左-右和中央-环绕输入声道对中的音节声音和突发脉冲声音的,但仅仅通过增加额外的用于单声道对的声音事件检测器去检测期望声道对中的期望声音事件类型,并使用于多声道对和单声音事件类型的声音定位电路4310响应由用于单声道对的声音事件检测器所产生的任一触发信号,该声音定位器就也可被用于检测任意声道对中的任意数量的声音事件类型。
而且,用于多输入声道对和多声音事件类型的任何声音事件定位器可以额外地包括适应调节电路和/或错误阀值电路。适应调节电路和错误阀值电路(未显示)都被连到一致性检验电路并包括计数器用来记录在大约几秒种的时间段里通过一致性检验检测出的错误的数量。该适应调节电路同DSA电路中的瞬时声音检测电路中的适应信号连接。与其相对比,错误阀值电路也同触发信号产生电路中的阀值检测器相连,并进一步包括一个根据计数器中记载的错误的数量进行调节的错误性电压源。当错误数量增加时,该错误性电压源产生的电压将增高,使阀值电压增高,以至于更少的声音事件被检测出来。
软件
对各种声音事件检测方法、各种声音事件检测和定位方法以及各种声音定位方法和任何包括在这些方法中的各种方法的实施都要包括计算机可读软件代码.这些算法可被一起实现或分别实现.这样的代码可以被存储到处理器,存储设备或任何其他计算机可读存储介质中.作为其他选择,软件代码可被编码成为计算机可读的电子信号或计算机可读的光信号.这些代码可以是基于对象的代码或任何其他用来描述或控制本申请中说明的功能的代码.计算机可读存储介质可以是磁质的存储盘:如软盘、光盘:如CD-ROM、半导体存储器或任何其他用来存储程序代码或相关数据的物质.
尽管已经对本发明的各种实施例进行了说明,在本发明的范围内的可能更多的实施例或实施方案对于本领域的技术人员是显而易见的。因此,本发明并不仅限于根据所附权利要求和等效物所要求的范围。
Claims (5)
1.一种检测声场中的声音事件的方法,包括:
模拟人类听觉机制的适应特性;
根据所述适应特性从任何背景声音中分离出声音事件;
模拟人类听觉机制的初始检测特性;并
根据所述初始检测特性检测所述声音事件。
2.根据权利要求1所述的方法,进一步包括:
模拟人类听觉机制的频偏特性;并
根据所述频偏特性加强声场中对方向重要的频率。
3.一种声音事件检测设备,包括:
用于接收声场的接口单元;和
检测单元,其中所述检测单元包括,
处理器,其中所述处理器与所述接口单元连接并接收声场;和
存储器,其中所述存储器与所述处理器连接并存储声音事件检测方法;其中根据来自所述处理器的请求,所述存储器将所述声音事件检测方法传送到所述处理器;其中该处理器使用所述声音事件检测方法去检测声场中的声音事件以产生触发信号,并且其中所述处理器将该触发信号传送到所述接口单元,
其中,所述声音事件检测方法包括:
所述模拟人类听觉机制的适应特性;
根据所述适应特性从任何背景声音中分离出声音事件;
模拟人类听觉机制的初始检测特性;并
根据所述初始检测特性检测所述声音事件。
4.一种用于检测和定位声场中的声音事件的方法,其中声场在一个或多个输入声道对中产生,该方法包括:
通过模拟人类听觉机制的适应特性,为每个输入声道对中的每个输入声道产生适应信号;
通过模拟人类听觉机制的初始检测特性检测出每个声道对中的声音事件;
为每个输入声道对确定作为适应信号的函数的初始差分转角。
5.一种用于检测和定位声场中的声音事件的设备,包括:
用于接收声场的接口单元;和
检测单元,其中该检测单元包括,
处理器,其中该处理器与所述接口单元连接并接收声场;和
存储器,其中该存储器与所述处理器连接并存储声音事件检测和定位方法;其中基于来自所述处理器的请求,所述存储器将所述声音事件检测和定位方法传送到所述处理器;其中所述处理器使用用来检测声场中声音事件的所述声音事件检测和定位方法去检测声场中的声音事件并在检测出声音事件的任何时候,产生至少一个真差分转角,并且将所述至少一个真差分转角传送到所述接口单元
其中,所述声音事件检测和定位方法包括:
通过模拟人类听觉机制的适应特性,为每个输入声道对中的每个输入声道产生适应信号;
通过模拟人类听觉机制的初始检测特性检测出每个声道对中的声音事件;和
为每个输入声道对确定作为适应信号的函数的初始差分转角。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US37755802P | 2002-05-03 | 2002-05-03 | |
US60/377,558 | 2002-05-03 | ||
PCT/US2003/013685 WO2003093775A2 (en) | 2002-05-03 | 2003-05-02 | Sound detection and localization system |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1830009A CN1830009A (zh) | 2006-09-06 |
CN1830009B true CN1830009B (zh) | 2010-05-05 |
Family
ID=29401529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN038145073A Expired - Lifetime CN1830009B (zh) | 2002-05-03 | 2003-05-02 | 声音检测和定位系统 |
Country Status (8)
Country | Link |
---|---|
US (4) | US7567676B2 (zh) |
EP (1) | EP1585947B1 (zh) |
JP (2) | JP4744874B2 (zh) |
KR (1) | KR101047194B1 (zh) |
CN (1) | CN1830009B (zh) |
AU (1) | AU2003265935A1 (zh) |
CA (2) | CA2773294C (zh) |
WO (1) | WO2003093775A2 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI728632B (zh) * | 2019-12-31 | 2021-05-21 | 財團法人工業技術研究院 | 特定音源的定位方法 |
Families Citing this family (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7782256B2 (en) | 1999-03-05 | 2010-08-24 | Era Systems Corporation | Enhanced passive coherent location techniques to track and identify UAVs, UCAVs, MAVs, and other objects |
US8203486B1 (en) | 1999-03-05 | 2012-06-19 | Omnipol A.S. | Transmitter independent techniques to extend the performance of passive coherent location |
US8446321B2 (en) | 1999-03-05 | 2013-05-21 | Omnipol A.S. | Deployable intelligence and tracking system for homeland security and search and rescue |
US7570214B2 (en) | 1999-03-05 | 2009-08-04 | Era Systems, Inc. | Method and apparatus for ADS-B validation, active and passive multilateration, and elliptical surviellance |
US7908077B2 (en) | 2003-06-10 | 2011-03-15 | Itt Manufacturing Enterprises, Inc. | Land use compatibility planning software |
US7889133B2 (en) | 1999-03-05 | 2011-02-15 | Itt Manufacturing Enterprises, Inc. | Multilateration enhancements for noise and operations management |
US7777675B2 (en) | 1999-03-05 | 2010-08-17 | Era Systems Corporation | Deployable passive broadband aircraft tracking |
US7739167B2 (en) | 1999-03-05 | 2010-06-15 | Era Systems Corporation | Automated management of airport revenues |
US7667647B2 (en) | 1999-03-05 | 2010-02-23 | Era Systems Corporation | Extension of aircraft tracking and positive identification from movement areas into non-movement areas |
US6804565B2 (en) * | 2001-05-07 | 2004-10-12 | Harman International Industries, Incorporated | Data-driven software architecture for digital sound processing and equalization |
US7451006B2 (en) * | 2001-05-07 | 2008-11-11 | Harman International Industries, Incorporated | Sound processing system using distortion limiting techniques |
KR100548899B1 (ko) * | 2001-05-11 | 2006-02-02 | 교세라 가부시키가이샤 | 휴대용 통신 단말기, 무선 데이터 통신 네트워크 시스템, 무선 통신 장치와 그 방법, 및 통신 방식 전환 방법 |
CN1830009B (zh) * | 2002-05-03 | 2010-05-05 | 哈曼国际工业有限公司 | 声音检测和定位系统 |
US7443987B2 (en) * | 2002-05-03 | 2008-10-28 | Harman International Industries, Incorporated | Discrete surround audio system for home and automotive listening |
US20050108024A1 (en) * | 2003-11-13 | 2005-05-19 | Fawcett John Jr. | Systems and methods for retrieving data |
WO2006069064A2 (en) | 2004-12-22 | 2006-06-29 | Nucleonics, Inc. | Conserved hbv and hcv sequences useful for gene silencing |
US8036402B2 (en) | 2005-12-15 | 2011-10-11 | Harman International Industries, Incorporated | Distortion compensation |
ES2617546T3 (es) * | 2006-02-23 | 2017-06-19 | Togewa Holding Ag | Sistema de conmutación y método correspondiente para la unidifusión o multidifusión de transmisiones de flujo de datos de extremo a extremo y/o multimedia entre nodos de red |
JP4786384B2 (ja) * | 2006-03-27 | 2011-10-05 | 株式会社東芝 | 音声処理装置、音声処理方法および音声処理プログラム |
US7965227B2 (en) | 2006-05-08 | 2011-06-21 | Era Systems, Inc. | Aircraft tracking using low cost tagging as a discriminator |
JP4867516B2 (ja) * | 2006-08-01 | 2012-02-01 | ヤマハ株式会社 | 音声会議システム |
ATE484761T1 (de) * | 2007-01-16 | 2010-10-15 | Harman Becker Automotive Sys | Vorrichtung und verfahren zum verfolgen von surround kopfhörern unter verwendung von audiosignalen unterhalb der maskierten hörschwelle |
US9015051B2 (en) * | 2007-03-21 | 2015-04-21 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Reconstruction of audio channels with direction parameters indicating direction of origin |
US8908873B2 (en) * | 2007-03-21 | 2014-12-09 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Method and apparatus for conversion between multi-channel audio formats |
CN100505837C (zh) | 2007-05-10 | 2009-06-24 | 华为技术有限公司 | 一种控制图像采集装置进行目标定位的系统及方法 |
US8050414B2 (en) * | 2008-10-16 | 2011-11-01 | Gas Technology Institute | Robust pipe-strike pulse detector |
US8045738B2 (en) * | 2008-10-31 | 2011-10-25 | Zounds Hearing, Inc. | System for managing feedback |
WO2011139772A1 (en) * | 2010-04-27 | 2011-11-10 | James Fairey | Sound wave modification |
TWI403304B (zh) | 2010-08-27 | 2013-08-01 | Ind Tech Res Inst | 隨身語能偵知方法及其裝置 |
US9111526B2 (en) | 2010-10-25 | 2015-08-18 | Qualcomm Incorporated | Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal |
CN102592597B (zh) * | 2011-01-17 | 2014-08-13 | 鸿富锦精密工业(深圳)有限公司 | 电子装置及音频数据的版权保护方法 |
US9143571B2 (en) * | 2011-03-04 | 2015-09-22 | Qualcomm Incorporated | Method and apparatus for identifying mobile devices in similar sound environment |
US8723656B2 (en) * | 2011-03-04 | 2014-05-13 | Blackberry Limited | Human audible localization for sound emitting devices |
JP5994470B2 (ja) * | 2012-08-08 | 2016-09-21 | 株式会社Jvcケンウッド | 音源方向検出装置、音源方向検出方法、音源方向検出プログラム |
DE102013207149A1 (de) * | 2013-04-19 | 2014-11-06 | Siemens Medical Instruments Pte. Ltd. | Steuerung der Effektstärke eines binauralen direktionalen Mikrofons |
KR102195897B1 (ko) * | 2013-06-05 | 2020-12-28 | 삼성전자주식회사 | 음향 사건 검출 장치, 그 동작 방법 및 그 동작 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능 기록 매체 |
US9747899B2 (en) | 2013-06-27 | 2017-08-29 | Amazon Technologies, Inc. | Detecting self-generated wake expressions |
CN103531202B (zh) * | 2013-10-14 | 2015-10-28 | 无锡儒安科技有限公司 | 分布式检测声音事件并选取相同事件点的方法 |
US9672727B1 (en) * | 2013-11-05 | 2017-06-06 | Alarm.Com Incorporated | Handling duress input |
US9478229B2 (en) | 2013-12-10 | 2016-10-25 | Massachusetts Institute Of Technology | Methods and apparatus for recording impulsive sounds |
US10134416B2 (en) * | 2015-05-11 | 2018-11-20 | Microsoft Technology Licensing, Llc | Privacy-preserving energy-efficient speakers for personal sound |
US9977645B2 (en) * | 2015-10-01 | 2018-05-22 | Moodelizer Ab | Dynamic modification of audio content |
US10134422B2 (en) * | 2015-12-01 | 2018-11-20 | Qualcomm Incorporated | Determining audio event based on location information |
EP3434024B1 (en) * | 2016-04-21 | 2023-08-02 | Hewlett-Packard Development Company, L.P. | Electronic device microphone listening modes |
WO2017192200A1 (en) * | 2016-05-05 | 2017-11-09 | The Research Foundation For The State Unversity Of New York | Compositions for treating periodontitis and dental calculus accumulation |
US10264999B2 (en) | 2016-09-07 | 2019-04-23 | Massachusetts Institute Of Technology | High fidelity systems, apparatus, and methods for collecting noise exposure data |
EP3324407A1 (en) | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic |
EP3324406A1 (en) * | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a variable threshold |
CN106814670A (zh) * | 2017-03-22 | 2017-06-09 | 重庆高略联信智能技术有限公司 | 一种河道采砂智能监管方法及系统 |
CN108806711A (zh) * | 2018-08-07 | 2018-11-13 | 吴思 | 一种提取方法及装置 |
US10811032B2 (en) * | 2018-12-19 | 2020-10-20 | Cirrus Logic, Inc. | Data aided method for robust direction of arrival (DOA) estimation in the presence of spatially-coherent noise interferers |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3845572A (en) * | 1972-08-02 | 1974-11-05 | Singer Co | Modular vehicle trainer sound system having a plurality of separately controllable sound generators and a polyphonic speaker array |
US5500900A (en) * | 1992-10-29 | 1996-03-19 | Wisconsin Alumni Research Foundation | Methods and apparatus for producing directional sound |
CN1158642A (zh) * | 1994-09-26 | 1997-09-03 | 欧文斯-科尔宁格 | 形成复合股线的方法和设备 |
EP1088300A1 (de) * | 1998-06-26 | 2001-04-04 | Ascom AG | Verfahren zur durchführung einer maschinengestützten beurteilung der übertragungsqualität von audiosignalen |
Family Cites Families (117)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4251688A (en) * | 1979-01-15 | 1981-02-17 | Ana Maria Furner | Audio-digital processing system for demultiplexing stereophonic/quadriphonic input audio signals into 4-to-72 output audio signals |
JPS56132804A (en) * | 1980-03-22 | 1981-10-17 | Sharp Corp | Operational tone quality control circuit |
JPS60107998A (ja) * | 1983-11-16 | 1985-06-13 | Nissan Motor Co Ltd | 車両用音響装置 |
US4704728A (en) | 1984-12-31 | 1987-11-03 | Peter Scheiber | Signal re-distribution, decoding and processing in accordance with amplitude, phase, and other characteristics |
US4941177A (en) * | 1985-03-07 | 1990-07-10 | Dolby Laboratories Licensing Corporation | Variable matrix decoder |
US4799260A (en) * | 1985-03-07 | 1989-01-17 | Dolby Laboratories Licensing Corporation | Variable matrix decoder |
US5046098A (en) * | 1985-03-07 | 1991-09-03 | Dolby Laboratories Licensing Corporation | Variable matrix decoder with three output channels |
JPS621441U (zh) * | 1985-06-20 | 1987-01-07 | ||
US4759066A (en) * | 1987-05-27 | 1988-07-19 | Polk Investment Corporation | Sound system with isolation of dimensional sub-speakers |
US4972482A (en) | 1987-09-18 | 1990-11-20 | Sanyo Electric Co., Ltd. | Fm stereo demodulator |
US4829299A (en) | 1987-09-25 | 1989-05-09 | Dolby Laboratories Licensing Corporation | Adaptive-filter single-bit digital encoder and decoder and adaptation control circuit responsive to bit-stream loading |
US4862502A (en) * | 1988-01-06 | 1989-08-29 | Lexicon, Inc. | Sound reproduction |
US5189703A (en) * | 1988-01-06 | 1993-02-23 | Lucasarts Entertainment Company | Timbre correction units for use in sound systems |
US4932059A (en) * | 1988-01-11 | 1990-06-05 | Fosgate Inc. | Variable matrix decoder for periphonic reproduction of sound |
JPH0256600A (ja) * | 1988-08-23 | 1990-02-26 | Ricoh Co Ltd | 音声ダイヤリング方式 |
JPH0623119Y2 (ja) * | 1989-01-24 | 1994-06-15 | パイオニア株式会社 | サラウンド方式ステレオ再生装置 |
US5146507A (en) * | 1989-02-23 | 1992-09-08 | Yamaha Corporation | Audio reproduction characteristics control device |
US5109419A (en) * | 1990-05-18 | 1992-04-28 | Lexicon, Inc. | Electroacoustic system |
US5504819A (en) * | 1990-06-08 | 1996-04-02 | Harman International Industries, Inc. | Surround sound processor with improved control voltage generator |
US5295189A (en) * | 1990-06-08 | 1994-03-15 | Fosgate James W | Control voltage generator for surround sound processor |
US5666424A (en) | 1990-06-08 | 1997-09-09 | Harman International Industries, Inc. | Six-axis surround sound processor with automatic balancing and calibration |
US5172415A (en) * | 1990-06-08 | 1992-12-15 | Fosgate James W | Surround processor |
US5339363A (en) | 1990-06-08 | 1994-08-16 | Fosgate James W | Apparatus for enhancing monophonic audio signals using phase shifters |
US5428687A (en) * | 1990-06-08 | 1995-06-27 | James W. Fosgate | Control voltage generator multiplier and one-shot for integrated surround sound processor |
US5625696A (en) | 1990-06-08 | 1997-04-29 | Harman International Industries, Inc. | Six-axis surround sound processor with improved matrix and cancellation control |
KR920004817Y1 (ko) * | 1990-08-14 | 1992-07-20 | 삼성전자 주식회사 | 음성다중방식의 공용수신장치 |
JP3118023B2 (ja) * | 1990-08-15 | 2000-12-18 | 株式会社リコー | 音声区間検出方式及び音声認識装置 |
US5119422A (en) | 1990-10-01 | 1992-06-02 | Price David A | Optimal sonic separator and multi-channel forward imaging system |
US5274740A (en) | 1991-01-08 | 1993-12-28 | Dolby Laboratories Licensing Corporation | Decoder for variable number of channel presentation of multidimensional sound fields |
ATE138238T1 (de) | 1991-01-08 | 1996-06-15 | Dolby Lab Licensing Corp | Kodierer/dekodierer für mehrdimensionale schallfelder |
US5136650A (en) * | 1991-01-09 | 1992-08-04 | Lexicon, Inc. | Sound reproduction |
KR970000147B1 (ko) * | 1991-01-31 | 1997-01-04 | 삼성전자 주식회사 | 다중음성기록재생시스템 |
US5594800A (en) | 1991-02-15 | 1997-01-14 | Trifield Productions Limited | Sound reproduction system having a matrix converter |
JPH06276599A (ja) * | 1991-07-26 | 1994-09-30 | Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho | 衝撃音抑圧装置 |
US5161197A (en) | 1991-11-04 | 1992-11-03 | Lexicon, Inc. | Acoustic analysis |
US5199075A (en) | 1991-11-14 | 1993-03-30 | Fosgate James W | Surround sound loudspeakers and processor |
JPH05191899A (ja) * | 1992-01-16 | 1993-07-30 | Pioneer Electron Corp | ステレオサラウンド装置 |
US5319713A (en) * | 1992-11-12 | 1994-06-07 | Rocktron Corporation | Multi dimensional sound circuit |
US5333201A (en) * | 1992-11-12 | 1994-07-26 | Rocktron Corporation | Multi dimensional sound circuit |
US5357574A (en) | 1992-12-14 | 1994-10-18 | Ford Motor Company | Coherent signal generation in digital radio receiver |
DE69424888T2 (de) * | 1993-01-22 | 2001-02-15 | Koninklijke Philips Electronics N.V., Eindhoven | Digitale Dreikanalübertragung von linken und rechten Stereosignalen und von einem Mittelsignal |
CA2112171C (en) * | 1993-02-25 | 2003-10-21 | Bradley Anderson Ballard | Dsp-based vehicle equalization design system |
US5748749A (en) * | 1993-03-24 | 1998-05-05 | Noise Cancellation Technologies, Inc. | Active noise cancelling muffler |
SG43996A1 (en) * | 1993-06-22 | 1997-11-14 | Thomson Brandt Gmbh | Method for obtaining a multi-channel decoder matrix |
DE69428119T2 (de) | 1993-07-07 | 2002-03-21 | Picturetel Corp., Peabody | Verringerung des hintergrundrauschens zur sprachverbesserung |
US5463424A (en) * | 1993-08-03 | 1995-10-31 | Dolby Laboratories Licensing Corporation | Multi-channel transmitter/receiver system providing matrix-decoding compatible signals |
US5386473A (en) | 1994-01-21 | 1995-01-31 | Harrison; Robert W. | Passive surround sound circuit |
US5602923A (en) * | 1994-03-07 | 1997-02-11 | Sony Corporation | Theater sound system with upper surround channels |
US5497425A (en) | 1994-03-07 | 1996-03-05 | Rapoport; Robert J. | Multi channel surround sound simulation device |
US6144747A (en) | 1997-04-02 | 2000-11-07 | Sonics Associates, Inc. | Head mounted surround sound system |
US5561737A (en) | 1994-05-09 | 1996-10-01 | Lucent Technologies Inc. | Voice actuated switching system |
CA2149680A1 (en) * | 1994-06-30 | 1995-12-31 | John Charles Baumhauer Jr. | Direction finder |
US5638452A (en) * | 1995-04-21 | 1997-06-10 | Rocktron Corporation | Expandable multi-dimensional sound circuit |
US5761313A (en) | 1995-06-30 | 1998-06-02 | Philips Electronics North America Corp. | Circuit for improving the stereo image separation of a stereo signal |
KR0128064Y1 (ko) * | 1995-08-18 | 1998-11-02 | 김광호 | 서브우퍼신호 합성기능을 가지는 서라운드 음향신호 재생장치 |
JP2956545B2 (ja) * | 1995-08-28 | 1999-10-04 | ヤマハ株式会社 | 音場制御装置 |
US5930370A (en) | 1995-09-07 | 1999-07-27 | Rep Investment Limited Liability | In-home theater surround sound speaker system |
US5708719A (en) * | 1995-09-07 | 1998-01-13 | Rep Investment Limited Liability Company | In-home theater surround sound speaker system |
US6118876A (en) * | 1995-09-07 | 2000-09-12 | Rep Investment Limited Liability Company | Surround sound speaker system for improved spatial effects |
KR0174084B1 (ko) * | 1995-09-25 | 1999-04-01 | 이준 | Mpeg-2 다채널 오디오 복호화기의 역변환기 |
US5798818A (en) * | 1995-10-17 | 1998-08-25 | Sony Corporation | Configurable cinema sound system |
US5642423A (en) * | 1995-11-22 | 1997-06-24 | Sony Corporation | Digital surround sound processor |
US5956674A (en) * | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
US5771295A (en) * | 1995-12-26 | 1998-06-23 | Rocktron Corporation | 5-2-5 matrix system |
US5841993A (en) | 1996-01-02 | 1998-11-24 | Ho; Lawrence | Surround sound system for personal computer for interfacing surround sound with personal computer |
US5727068A (en) * | 1996-03-01 | 1998-03-10 | Cinema Group, Ltd. | Matrix decoding method and apparatus |
DE59611450D1 (de) * | 1996-05-17 | 2008-01-03 | Micronas Gmbh | Raumklangsystem |
US5850455A (en) | 1996-06-18 | 1998-12-15 | Extreme Audio Reality, Inc. | Discrete dynamic positioning of audio signals in a 360° environment |
US5870480A (en) * | 1996-07-19 | 1999-02-09 | Lexicon | Multichannel active matrix encoder and decoder with maximum lateral separation |
US5796844A (en) * | 1996-07-19 | 1998-08-18 | Lexicon | Multichannel active matrix sound reproduction with maximum lateral separation |
US6697491B1 (en) * | 1996-07-19 | 2004-02-24 | Harman International Industries, Incorporated | 5-2-5 matrix encoder and decoder system |
FI105522B (fi) | 1996-08-06 | 2000-08-31 | Sample Rate Systems Oy | Järjestely kotiteatteri- tai muussa äänentoistolaitteistossa |
US6144474A (en) | 1996-10-21 | 2000-11-07 | Fujitsu Limited | Optical transmission system including optical repeaters with selectively enabled gain equalizers contained therein and including an add/drop apparatus with a plurality of individually selectable filters |
DE19651308C2 (de) | 1996-12-10 | 1998-10-22 | Becker Gmbh | Audio-Soundsystem für ein Kraftfahrzeug |
US6711266B1 (en) * | 1997-02-07 | 2004-03-23 | Bose Corporation | Surround sound channel encoding and decoding |
US6038324A (en) * | 1997-02-21 | 2000-03-14 | Ambourn; Paul R. | Automotive surround sound circuit background of the invention |
US5862228A (en) | 1997-02-21 | 1999-01-19 | Dolby Laboratories Licensing Corporation | Audio matrix encoding |
JP3663461B2 (ja) | 1997-03-13 | 2005-06-22 | スリーエス テック カンパニー リミテッド | 周波数選択的空間感向上システム |
US6973200B1 (en) * | 1997-04-22 | 2005-12-06 | Canon Kabushiki Kaisha | Image processing apparatus, image processing method, and storage medium |
US6198826B1 (en) * | 1997-05-19 | 2001-03-06 | Qsound Labs, Inc. | Qsound surround synthesis from stereo |
JP4478220B2 (ja) * | 1997-05-29 | 2010-06-09 | ソニー株式会社 | 音場補正回路 |
US5983087A (en) | 1997-06-26 | 1999-11-09 | Delco Electronics Corporation | Distributed digital signal processing for vehicle audio systems |
US6108584A (en) * | 1997-07-09 | 2000-08-22 | Sony Corporation | Multichannel digital audio decoding method and apparatus |
US6141597A (en) * | 1997-09-08 | 2000-10-31 | Picturetel Corporation | Audio processor |
JP3906533B2 (ja) * | 1997-11-04 | 2007-04-18 | ヤマハ株式会社 | 擬似ステレオ回路 |
US6683962B1 (en) | 1997-12-23 | 2004-01-27 | Harman International Industries, Incorporated | Method and system for driving speakers with a 90 degree phase shift |
US6624873B1 (en) * | 1998-05-05 | 2003-09-23 | Dolby Laboratories Licensing Corporation | Matrix-encoded surround-sound channels in a discrete digital sound format |
JP4151110B2 (ja) | 1998-05-14 | 2008-09-17 | ソニー株式会社 | オーディオ信号処理装置およびオーディオ信号再生装置 |
JP3781902B2 (ja) * | 1998-07-01 | 2006-06-07 | 株式会社リコー | 音像定位制御装置および音像定位制御方式 |
JP2000032434A (ja) * | 1998-07-08 | 2000-01-28 | Victor Co Of Japan Ltd | 撮像装置 |
JP3484988B2 (ja) | 1998-09-22 | 2004-01-06 | ヤマハ株式会社 | 演奏情報編集方法および演奏情報編集プログラムを記録した記録媒体 |
FI113935B (fi) | 1998-09-25 | 2004-06-30 | Nokia Corp | Menetelmä äänitason kalibroimiseksi monikanavaisessa äänentoistojärjestelmässä ja monikanavainen äänentoistojärjestelmä |
US6453047B1 (en) | 1998-09-28 | 2002-09-17 | Creative Technology Ltd | Matrix encoding system with improved behavior frequency |
US6590983B1 (en) * | 1998-10-13 | 2003-07-08 | Srs Labs, Inc. | Apparatus and method for synthesizing pseudo-stereophonic outputs from a monophonic input |
GB2342830B (en) * | 1998-10-15 | 2002-10-30 | Central Research Lab Ltd | A method of synthesising a three dimensional sound-field |
US6711536B2 (en) * | 1998-10-20 | 2004-03-23 | Canon Kabushiki Kaisha | Speech processing apparatus and method |
US6556685B1 (en) * | 1998-11-06 | 2003-04-29 | Harman Music Group | Companding noise reduction system with simultaneous encode and decode |
US6442277B1 (en) | 1998-12-22 | 2002-08-27 | Texas Instruments Incorporated | Method and apparatus for loudspeaker presentation for positional 3D sound |
US6694027B1 (en) * | 1999-03-09 | 2004-02-17 | Smart Devices, Inc. | Discrete multi-channel/5-2-5 matrix system |
MY149792A (en) | 1999-04-07 | 2013-10-14 | Dolby Lab Licensing Corp | Matrix improvements to lossless encoding and decoding |
US6539357B1 (en) * | 1999-04-29 | 2003-03-25 | Agere Systems Inc. | Technique for parametric coding of a signal containing information |
JP2001028799A (ja) | 1999-05-10 | 2001-01-30 | Sony Corp | 車載用音響再生装置 |
US6442278B1 (en) | 1999-06-15 | 2002-08-27 | Hearing Enhancement Company, Llc | Voice-to-remaining audio (VRA) interactive center channel downmix |
CN100429960C (zh) | 2000-07-19 | 2008-10-29 | 皇家菲利浦电子有限公司 | 用于获得立体声环绕和/或音频中心信号的多声道立体声转换器 |
US7236838B2 (en) * | 2000-08-29 | 2007-06-26 | Matsushita Electric Industrial Co., Ltd. | Signal processing apparatus, signal processing method, program and recording medium |
JP4264686B2 (ja) | 2000-09-14 | 2009-05-20 | ソニー株式会社 | 車載用音響再生装置 |
US7457422B2 (en) * | 2000-11-29 | 2008-11-25 | Ford Global Technologies, Llc | Method and implementation for detecting and characterizing audible transients in noise |
DE10110422A1 (de) * | 2001-03-05 | 2002-09-19 | Harman Becker Automotive Sys | Verfahren zur Steuerung eines mehrkanaligen Tonwiedergabesystems und mehrkanaliges Tonwiedergabesystem |
WO2002091799A2 (en) * | 2001-05-03 | 2002-11-14 | Harman International Industries, Incorporated | System for transitioning from stereo to simulated surround sound |
US6804565B2 (en) * | 2001-05-07 | 2004-10-12 | Harman International Industries, Incorporated | Data-driven software architecture for digital sound processing and equalization |
US7451006B2 (en) * | 2001-05-07 | 2008-11-11 | Harman International Industries, Incorporated | Sound processing system using distortion limiting techniques |
US7177432B2 (en) * | 2001-05-07 | 2007-02-13 | Harman International Industries, Incorporated | Sound processing system with degraded signal optimization |
US7447321B2 (en) * | 2001-05-07 | 2008-11-04 | Harman International Industries, Incorporated | Sound processing system for configuration of audio signals in a vehicle |
CN1830009B (zh) * | 2002-05-03 | 2010-05-05 | 哈曼国际工业有限公司 | 声音检测和定位系统 |
US20040086130A1 (en) * | 2002-05-03 | 2004-05-06 | Eid Bradley F. | Multi-channel sound processing systems |
KR100878004B1 (ko) * | 2003-06-02 | 2009-01-12 | 후지쓰 텐 가부시키가이샤 | 음장 조정 장치 |
US20050063551A1 (en) * | 2003-09-18 | 2005-03-24 | Yiou-Wen Cheng | Multi-channel surround sound expansion method |
-
2003
- 2003-05-02 CN CN038145073A patent/CN1830009B/zh not_active Expired - Lifetime
- 2003-05-02 EP EP03747642.1A patent/EP1585947B1/en not_active Expired - Lifetime
- 2003-05-02 US US10/428,405 patent/US7567676B2/en active Active
- 2003-05-02 US US10/428,366 patent/US7492908B2/en active Active
- 2003-05-02 CA CA2773294A patent/CA2773294C/en not_active Expired - Lifetime
- 2003-05-02 KR KR1020047017705A patent/KR101047194B1/ko active IP Right Grant
- 2003-05-02 CA CA2483609A patent/CA2483609C/en not_active Expired - Lifetime
- 2003-05-02 WO PCT/US2003/013685 patent/WO2003093775A2/en active Application Filing
- 2003-05-02 AU AU2003265935A patent/AU2003265935A1/en not_active Abandoned
- 2003-05-02 US US10/428,451 patent/US20040005065A1/en not_active Abandoned
- 2003-05-02 JP JP2004501891A patent/JP4744874B2/ja not_active Expired - Lifetime
-
2004
- 2004-03-26 US US10/810,989 patent/US7499553B2/en not_active Expired - Lifetime
-
2010
- 2010-09-16 JP JP2010208638A patent/JP2011022602A/ja not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3845572A (en) * | 1972-08-02 | 1974-11-05 | Singer Co | Modular vehicle trainer sound system having a plurality of separately controllable sound generators and a polyphonic speaker array |
US5500900A (en) * | 1992-10-29 | 1996-03-19 | Wisconsin Alumni Research Foundation | Methods and apparatus for producing directional sound |
CN1158642A (zh) * | 1994-09-26 | 1997-09-03 | 欧文斯-科尔宁格 | 形成复合股线的方法和设备 |
EP1088300A1 (de) * | 1998-06-26 | 2001-04-04 | Ascom AG | Verfahren zur durchführung einer maschinengestützten beurteilung der übertragungsqualität von audiosignalen |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI728632B (zh) * | 2019-12-31 | 2021-05-21 | 財團法人工業技術研究院 | 特定音源的定位方法 |
Also Published As
Publication number | Publication date |
---|---|
AU2003265935A1 (en) | 2003-11-17 |
JP2011022602A (ja) | 2011-02-03 |
CA2483609C (en) | 2012-09-18 |
WO2003093775A2 (en) | 2003-11-13 |
US7567676B2 (en) | 2009-07-28 |
JP2005539413A (ja) | 2005-12-22 |
US20040022392A1 (en) | 2004-02-05 |
KR101047194B1 (ko) | 2011-07-06 |
WO2003093775A3 (en) | 2006-03-30 |
CA2773294A1 (en) | 2003-11-13 |
CA2483609A1 (en) | 2003-11-13 |
US7499553B2 (en) | 2009-03-03 |
US20040005065A1 (en) | 2004-01-08 |
AU2003265935A8 (en) | 2003-11-17 |
EP1585947A2 (en) | 2005-10-19 |
KR20040105252A (ko) | 2004-12-14 |
JP4744874B2 (ja) | 2011-08-10 |
CN1830009A (zh) | 2006-09-06 |
EP1585947A4 (en) | 2011-04-27 |
EP1585947B1 (en) | 2020-01-01 |
CA2773294C (en) | 2013-03-12 |
US20040179697A1 (en) | 2004-09-16 |
US20040005064A1 (en) | 2004-01-08 |
US7492908B2 (en) | 2009-02-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1830009B (zh) | 声音检测和定位系统 | |
Vecchiotti et al. | End-to-end binaural sound localisation from the raw waveform | |
EP3707716B1 (en) | Multi-channel speech separation | |
JP4952698B2 (ja) | 音声処理装置、音声処理方法およびプログラム | |
US6411927B1 (en) | Robust preprocessing signal equalization system and method for normalizing to a target environment | |
Vesa | Binaural sound source distance learning in rooms | |
EP3757993A1 (en) | Pre-processing for automatic speech recognition | |
CN103901400B (zh) | 一种基于时延补偿和双耳一致性的双耳声音源定位方法 | |
Trinh et al. | Directly comparing the listening strategies of humans and machines | |
Dumortier et al. | Blind RT60 estimation robust across room sizes and source distances | |
Roman et al. | A classification-based cocktail-party processor | |
JP2004325127A (ja) | 音源検出方法、音源分離方法、およびこれらを実施する装置 | |
Glotin et al. | A CASA-labelling model using the localisation cue for robust cocktail-party speech recognition | |
Spille et al. | Using binarual processing for automatic speech recognition in multi-talker scenes | |
Kundegorski et al. | Two-Microphone dereverberation for automatic speech recognition of Polish | |
KR101073632B1 (ko) | 반향 환경에서의 영교차 기반 다음원 국지화 방법 및 장치 | |
Jiang et al. | Binaural deep neural network for robust speech enhancement | |
Schulz et al. | Binaural source separation in non-ideal reverberant environments | |
Brown et al. | Speech separation based on the statistics of binaural auditory features | |
Kallasjoki et al. | Mask estimation and sparse imputation for missing data speech recognition in multisource reverberant environments | |
Mahmoodzadeh et al. | Binaural speech separation based on the time-frequency binary mask | |
Zeng et al. | Low-complexity Multi-Channel Speaker Extraction with Pure Speech Cues | |
Palomäki et al. | A binaural model for missing data speech recognition in noisy and reverberant conditions | |
Palomäki et al. | A binaural auditory model for missing data recognition of speech in noise | |
Henderson | Estimating azimuth from speech in a natural auditory environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CX01 | Expiry of patent term | ||
CX01 | Expiry of patent term |
Granted publication date: 20100505 |