CN115209331A - 包括降噪系统的听力装置 - Google Patents
包括降噪系统的听力装置 Download PDFInfo
- Publication number
- CN115209331A CN115209331A CN202210057051.2A CN202210057051A CN115209331A CN 115209331 A CN115209331 A CN 115209331A CN 202210057051 A CN202210057051 A CN 202210057051A CN 115209331 A CN115209331 A CN 115209331A
- Authority
- CN
- China
- Prior art keywords
- beamformer
- signal
- hearing device
- electrical input
- input signals
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000009467 reduction Effects 0.000 title abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 93
- 238000012986 modification Methods 0.000 claims abstract description 6
- 230000004048 modification Effects 0.000 claims abstract description 6
- 238000000034 method Methods 0.000 claims description 39
- 230000006870 function Effects 0.000 claims description 33
- 230000001419 dependent effect Effects 0.000 claims description 25
- 238000012546 transfer Methods 0.000 claims description 8
- 238000009499 grossing Methods 0.000 claims description 4
- 238000013442 quality metrics Methods 0.000 claims description 4
- 239000013598 vector Substances 0.000 description 18
- 230000000694 effects Effects 0.000 description 14
- 230000005236 sound signal Effects 0.000 description 14
- 238000005457 optimization Methods 0.000 description 13
- 230000001629 suppression Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 9
- 210000000613 ear canal Anatomy 0.000 description 9
- 238000005070 sampling Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000033001 locomotion Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 210000000988 bone and bone Anatomy 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 230000014759 maintenance of location Effects 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 4
- 239000000654 additive Substances 0.000 description 4
- 230000000996 additive effect Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 208000032041 Hearing impaired Diseases 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 108020004414 DNA Proteins 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000001010 compromised effect Effects 0.000 description 2
- 230000006735 deficit Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 239000007943 implant Substances 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000011017 operating method Methods 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 210000003454 tympanic membrane Anatomy 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 102000053602 DNA Human genes 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001055 chewing effect Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 210000003625 skull Anatomy 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000005641 tunneling Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/50—Customised settings for obtaining desired overall acoustical characteristics
- H04R25/505—Customised settings for obtaining desired overall acoustical characteristics using digital signal processing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/50—Customised settings for obtaining desired overall acoustical characteristics
- H04R25/502—Customised settings for obtaining desired overall acoustical characteristics using analog signal processing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/40—Arrangements for obtaining a desired directivity characteristic
- H04R25/405—Arrangements for obtaining a desired directivity characteristic by combining a plurality of transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/40—Arrangements for obtaining a desired directivity characteristic
- H04R25/407—Circuits for combining signals of a plurality of transducers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/10—Earpieces; Attachments therefor ; Earphones; Monophonic headphones
- H04R1/1083—Reduction of ambient noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/50—Customised settings for obtaining desired overall acoustical characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/50—Customised settings for obtaining desired overall acoustical characteristics
- H04R25/505—Customised settings for obtaining desired overall acoustical characteristics using digital signal processing
- H04R25/507—Customised settings for obtaining desired overall acoustical characteristics using digital signal processing implemented by neural network or fuzzy logic
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/10—Details of earpieces, attachments therefor, earphones or monophonic headphones covered by H04R1/10 but not provided for in any of its subgroups
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2225/00—Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
- H04R2225/41—Detection or adaptation of hearing aid parameters or programs to listening situation, e.g. pub, forest
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2225/00—Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
- H04R2225/43—Signal processing in hearing aids to enhance the speech intelligibility
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Neurosurgery (AREA)
- Otolaryngology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Automation & Control Theory (AREA)
- Evolutionary Computation (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本申请公开了包括降噪系统的听力装置,所述听力装置包括:包括至少两个输入变换器的输入单元;包括通过优化的波束形成器权重定义的最小处理波束形成器的波束形成器滤波器,波束形成器滤波器配置成根据至少两个电输入信号及优化的波束形成器权重提供滤波后信号;表示听力装置周围的声音的参考信号;最小处理波束形成器的性能判据;其中所述最小处理波束形成器是在仍然满足所述性能判据的同时提供相较于参考信号在所选距离度量方面具有尽可能小的修正的滤波后信号的波束形成器;其中所述优化的波束形成器权重根据所述至少两个电输入信号、所述参考信号、所述距离度量及所述性能判据自适应确定。
Description
技术领域
本申请涉及助听器或耳机,尤其涉及助听器或耳机中的降噪。
背景技术
大多数现代助听器或耳机均配备定向降噪系统,其能够显著地抑制从不同于目标语音的角度到达的噪声声音。在有太多噪声情形下这可能符合需要的同时,在许多其它情形下,其由于将用户与环境声音分开的固有倾向或者使目标语音失真的趋势而可能事与愿违。
此外,在目前技术发展水平的助听器或耳机中实施的大多数现有增强技术要不以使语音信号失真为代价提供高水平的降噪,要不以差的降噪性能为代价保留语音质量。尚未开发出能够最好地实现这两方面(即与现有攻击的噪声抑制波束形成器同样高效地降噪,同时完全保留语音质量)的波束形成器。
例如,在助听器用户之间常见的抱怨是他们的助听器在许多情形下趋于对声音过度处理,导致隧穿听力的感觉以及与环境分离。
发明内容
在本发明中,提供目标在于产生尽可能接近原始的有噪声传声器信号的自然输出声音的增强系统。这通过将传声器信号的处理保持在获得完全可懂语音信号所必需的最小水平的波束形成理论基础实现。所得的增强系统的输出由两个分量组成:原始传声器信号及其处理后版本,其中噪声被抑制。这两个分量之后动态组合以产生适应下述情形的输出信号:在有大量噪声(因而噪声干扰语音可懂度)时,动态组合朝向降噪的分量倾斜。在没有太多噪声(因而噪声被感知为无害的环境声音)时,动态组合朝向原始未经处理的传声器信号倾斜。与所提出的方法类似的波束形成理论基础,其提供将传声器信号的处理限制到最小必要程度的系统性方式,在之前的文献中尚未解决。这些想法在[Zahedi et al.;2021]中详细描述。
此外,以语音失真为代价攻击地抑制噪声的现有波束形成器被介绍为参考波束形成器。我们则设计一种波束形成系统,其具有尽可能接近参考波束形成器的表现,同时实现输出声音的一定水平的保留。使用该方法,所得的增强系统仅在不显著损害语音时继承参考波束形成器的强降噪特性。所得的系统由参考波束形成器和语音保留波束形成器的动态线性组合组成。根据具体情况(噪声和语音功率等),该线性组合可朝向两个波束形成器之一倾斜,或者使用两个波束形成器的可比的部分。换言之,提供参考波束形成器的线性组合的权重可能大于或等于0并小于或等于1。线性组合的权重的和可等于1。我们的实验确认所提出的增强系统提供强噪声抑制性能(相当于或好于目前技术发展水平),同时保持目标语音实质上不失真。
多通道齐纳滤波器(multi-channel Wiener filter,MWF)连同其变化一起可论证地构成声学信号处理中最常讨论的波束形成器。所提出的MWF的语音失真加权的一般化覆盖大且常用的波束形成器家族,包括最小方差无失真响应(MVDR)波束形成器和标准MWF。该波束形成器家族的理论基础暗含的原理是噪声固有的不合需要。因此,理想在于消除噪声使得仅留下纯净语音。该理论基础可能有限制,在一些情形下甚至不现实。
有多种真实生活场合,其中噪声提供空间感知、环境认知等的场境。在这些情形下,希望仅将噪声降低到确保目标语音足够可懂的程度。上面提及的理论基础显然不适合该目的。MWF及其一般化的另一典型问题在于在高水平噪声抑制时语音显著失真。
在本发明中,提出新的理论基础,其允许更一般和灵活的表达,同时作为特殊情形覆盖经典的理论基础。所提出的理论基础基于使波束形成器输出与遭受某一性能约束的给定参考信号之间的距离最小化。具体地,给出一例子,其中距离度量基于均方误差(mean-square error,MSE),性能判据为受语音可懂度指数(speech intelligibility index,SII)(参见[ANSI-S3-22-1997])启发的可懂度估计器。根据参考信号的选择,所提出的理论基础可导致环境保留波束形成器或者攻击型噪声抑制波束形成器,或者简单地简化为现有的MWF波束形成器家族。
应注意,除了作为本发明的主要焦点的MWF家族的波束形成器之外,已提出备选的波束形成方法。例子包括鲁棒/强健的波束形成、基于稀疏性的波束形成、基于DNN的波束形成、及回声知晓波束形成。此外,本说明书主要聚焦于人类终端用户的波束形成,例如听力辅助装置。波束形成的其它应用例如可以是自动语音识别。
听力装置
在本申请的一方面,提供适于佩戴在用户耳朵处或耳朵中的听力装置如助听器。听力装置可包括:
-包括至少两个输入变换器的输入单元,每一输入变换器用于将听力装置周围的声音转换为表示所述声音的电输入信号,从而提供至少两个电输入信号;
-包括通过优化的波束形成器权重定义的最小处理波束形成器的波束形成器滤波器,波束形成器滤波器配置成根据至少两个电输入信号及优化的波束形成器权重提供滤波后信号;
-表示听力装置周围的声音的参考信号;及
-最小处理波束形成器的性能判据。
听力装置可配置成使得优化的波束形成器权重根据所述至少两个电输入信号、所述参考信号及所述性能判据自适应确定。
从而可提供改进的听力装置如助听器。
术语“最小处理波束形成器”意为这样一种波束形成器,其提供相较于参考信号被尽可能小地修正(就所选距离度量而言:例如均方误差(MSE),例如信号波形之间,或量值谱等)的输出信号(例如滤波后信号),同时仍然满足性能判据,例如通过至少获得最小水平的性能(例如通过性能度量定义,如语音可懂度或声音质量等)。换言之,“最小处理波束形成器”可意为在满足最小性能判据(通过所选性能度量确定)的同时提供相较于参考信号进行最小修正的输出信号(在此为“滤波后信号”)(通过所选距离度量确定)的波束形成器。术语“表示用户周围的声音”例如包括“听力装置周围的声音或由(参考)波束形成器处理的声音……”(换言之,参考信号可以是处理后的信号)。参考信号可以是波束形成信号,例如至少两个电信号已被参考波束形成器(由参考波束形成器权重确定,例如参见等式(44)中的参考波束形成器)滤波后的结果。在该例子中,参考信号则由给出,其中xk表示至少两个电输入信号。在波束形成信号的特殊实施例中,参考信号可以是(未经处理的)至少两个电输入信号之一。在该情形下,参考波束形成器可例示为将输入信号之一选择为参考信号的波束形成器er。在该情形下,示例性的参考信号由给出。
听力装置可配置成使得优化的波束形成器权重根据所述至少两个电输入信号、参考信号、所选的距离度量以及性能判据自适应确定。
参考信号可由波束形成器提供(在一极端情形下,为波束形成器的(例如有噪声的)电输入信号之一)。参考波束形成器的波束形成器权重可以固定或自适应确定(例如根据参考波束形成器的(至少部分)电输入信号自适应确定)。
参考信号(有噪声的输入,或者有噪声的输入的波束形成版本)不是传至参考传声器的信号的纯净版(例如像MVDR或MWF框架中那样)(其不易在听力装置中得到)。参考信号可物理观察。
优化的波束形成器权重可每子频带地自适应确定。将应用于第m个电输入信号(m=1,…,M,其中M≥2为输入变换器(因而电输入信号)的数量)的优化的波束形成器权重Wm取决于频率指数例如k(或子频带表示中的i,参见图4B),即Wm(k)或Wm(i)。
优化的波束形成器权重可通过使参考信号与滤波后信号之间的距离最小化而自适应确定,其中所述距离通过距离度量进行估计。优化的波束形成器权重可通过使参考信号与滤波后信号之间的距离(或处理损失/处理惩罚或价值函数)最小化使得满足性能判据而自适应确定。然而,性能判据和/或(最小)距离度量可在全频带域定义。提供最小处理波束形成器的波束形成器权重的一部分处理可在全频带域(一个“子频带”)进行。
性能判据可与最小处理波束形成器的性能估计器大于或等于最小值有关。优化的波束形成器权重可通过使参考信号与滤波后信号之间的距离(或处理损失)最小化使得最小处理波束形成器的性能估计器大于或等于最小值而自适应确定。换言之,优化问题是在性能估计器大于或等于(例如预先确定的)最小值的约束条件下使距离(或处理损失)最小化。最小化问题可每频率窗口(k)或每子频带(i)级地解决。
距离度量可基于参考信号与滤波后信号之间的平方误差。距离度量可基于数学意义上的度规。距离度量可以是统计的距离度量。距离度量可基于均方误差(MSE)。
参考信号可以是至少两个电输入信号之一。参考信号例如可以是来自被选择为参考输入变换器的输入变换器的参考输入信号,例如来自听力装置的BTE部分的前传声器(BTE部分配置成位于用户耳朵处或耳后)或者听力装置的ITE部分的朝向环境的传声器(ITE部分配置成位于用户耳道处或耳道中)的信号。在一些波束形成器中例如在MVDR波束形成器中,传声器信号被处理使得从目标方向传至所选参考传声器的声音不被改变。
参考信号为波束形成信号。参考信号例如可以是由目标在于使性能判据如语音可懂度度量(例如SII,或STOI(参见[Taal et al.;2011]))或信号质量度量如信噪比等最大化的最佳波束形成器提供。参考信号例如可以是有噪声的多传声器输入信号,通过(参考)波束形成系统滤波。(参考)波束形成系统可以是固定的波束形成器、噪声或目标自适应的MVDR(最小方差无失真响应)波束形成器、噪声或目标自适应的MWF(多通道齐纳滤波器)波束形成器、噪声或目标自适应的LCMV(线性约束最小方差)波束形成器。参考信号可以是单传声器降噪系统的输出。参考信号可以是基于深度学习的降噪系统(例如包括神经网络如循环神经网络)的输出。
性能估计器可包括算法语音可懂度度量或信号质量度量。性能估计器例如可以是或包括语音可懂度度量(如SII或STOI)。性能估计器例如可以是或包括信号质量度量,例如信号-干扰度量(如信噪比)。
听力装置可包括使能在时频域处理至少两个电输入信号或源自其的信号的滤波器组,其中电输入信号按时频表示k,l提供,其中k为频率指数,l为时间指数。听力装置可包括话音活动检测器,用于估计输入信号是否(或以何种概率)包括话音信号(在给定时间点),例如按频率窗口或子频带级估计。
最小处理波束形成器可被确定为至少两个波束形成器的随信号而变的线性组合,其中所述至少两个波束形成器之一为参考波束形成器。换言之,最小处理波束形成器的优化的波束形成器权重自适应确定为至少两个波束形成器的波束形成器权重的随信号而变的线性组合。参考信号可以是已通过参考波束形成器滤波的至少两个电信号的结果。最小处理(MP)波束形成器可被写为:BFMP=αBF1+(1-α)BF2,其中BFMP为最小处理波束形成器,BF1为参考波束形成器,BF2可以是语音保留波束形成器(例如MVF波束形成器),α为线性组合的随信号而变的权重。
线性组合可包括随信号而变的权重α,其根据至少两个电输入信号自适应更新。随信号而变的权重α可以是时间和频率的函数。
随信号而变的权重α可根据至少两个电输入信号以及参考信号自适应更新。随信号而变的权重α可取决于性能判据。随信号而变的权重α可取决于用户的听力特征,例如随频率而变的听觉阈,其例如从听力图提取。用户可以是正常听力用户或听力受损用户。
听力装置可配置成提供随信号而变的权重α的随时间平滑。为避免随信号而变的权重α的急剧变化(因而可能听得见的处理失真),可进行随时间平滑例如跨多个时间帧的递归平均。时间帧的数量可取决于至少两个电输入信号的变化性。递归平均可使用20ms、50ms、100ms、500ms、1s、2s、、5s的时间常数执行。帧数取决于帧长度等。用于参考,一时间帧例如可包括Ns=64或128个音频数据样本。采样时间ts例如可以是50μs级(1/fs,对于fs=20kHz),导致3.2ms的帧长度(对于Ns=64)。根据实际应用,也可使用其它帧长度。2s的时间常数因而对应于约625个时间帧(如果非重叠),在重叠时更多。
最小处理波束形成器可由参考波束形成器和语音保留波束形成器的动态、随信号而变的线性组合组成。参考波束形成器可包括多通道齐纳滤波器(MWF),其配置成尽可能多地消除波束形成信号中的噪声。语音保留波束形成器可以是多通道齐纳滤波器(MWF),其配置成例如通过优化信噪比而保留语音(避免或最小化有噪声环境中的语音失真)。
听力装置还可包括输出单元,配置成基于滤波后信号或其处理后版本向用户提供可感知为声音的刺激。听力装置还可包括信号处理器,配置成将一个或多个处理算法应用于滤波后信号并提供处理后的信号。信号处理器的输入可连接到波束形成器滤波器。听力装置可以是或包括助听器。信号处理器的输出(例如提供处理后的信号)可连接到输出单元的输入。听力装置可包括用于将滤波后信号或其进一步处理后的版本传给另一装置如通信装置例如智能电话的发射器。听力装置可以是或包括耳机。
听力装置可由助听器构成或者包括助听器,例如空气传导型助听器、骨导型助听器、耳蜗植入型助听器或其组合。
听力装置可适于提供随频率而变的增益和/或随电平而变的压缩和/或一个或多个频率范围到一个或多个其它频率范围的移频(具有或没有频率压缩)以补偿用户的听力受损。听力装置可包括用于增强输入信号并提供处理后的输出信号的信号处理器。
听力装置可包括输出单元,用于基于处理后的电信号提供由用户感知为声学信号的刺激。输出单元可包括耳蜗植入件的多个电极(对于CI型助听器)或者骨导助听器的振动器。输出单元可包括输出变换器。输出变换器可包括用于将刺激作为声信号提供给用户的接收器(扬声器)(例如在声学(基于空气传导的)助听器中)。输出变换器可包括用于将刺激作为颅骨的机械振动提供给用户的振动器(例如在附着到骨头的或骨锚式助听器中)。输出单元可包括用于将处理后的电信号传给另一装置例如通信装置的无线发射器。
听力装置可包括用于提供表示声音的电输入信号的输入单元。输入单元可包括用于将输入声音转换为电输入信号的输入变换器如传声器。输入单元可包括无线接收器,用于接收包括或表示声音的无线信号并提供表示所述声音的电输入信号。无线接收器例如可配置成接收在无线电频率范围(3kHz到300GHz)的电磁信号。无线接收器例如可配置成接收在光频率范围(例如红外光300GHz到430THz或者可见光如430THz到770THz)的电磁信号。
听力装置可以是便携(即配置成可穿戴)装置或形成其一部分,如包括本机能源如电池例如可再充电电池的装置。听力装置例如可以是轻质、容易穿戴的装置,例如具有小于100g的总重量。
听力装置可包括输入单元(如输入变换器,例如传声器或传声器系统和/或直接电输入(如无线接收器))和输出单元如输出变换器之间的正向或信号通路。信号处理器可位于该正向通路中。信号处理器可适于根据用户的特定需要提供随频率而变的增益。听力装置可包括具有用于分析输入信号(如确定电平、调制、信号类型、声反馈估计量等)的功能件的分析通路。分析通路和/或信号通路的部分或所有信号处理可在频域进行。分析通路和/或信号通路的部分或所有信号处理可在时域进行。
表示声信号的模拟电信号可在模数(AD)转换过程中转换为数字音频信号,其中模拟信号以预定采样频率或采样速率fs进行采样,fs例如在从8kHz到48kHz的范围中(适应应用的特定需要)以在离散的时间点tn(或n)提供数字样本xn(或x[n]),每一音频样本通过预定的Nb比特表示声信号在tn时的值,Nb例如在从1到48比特的范围中如24比特。每一音频样本因此使用Nb比特量化(导致音频样本的2Nb个不同的可能的值)。数字样本x具有1/fs的时间长度,如50μs,对于fs=20kHz。多个音频样本可按时间帧安排。一时间帧可包括64个或128个音频数据样本。根据实际应用可使用其它帧长度。
听力装置可包括模数(AD)转换器以按预定的采样速率如20kHz对模拟输入(例如来自输入变换器如传声器)进行数字化。听力装置可包括数模(DA)转换器以将数字信号转换为模拟输出信号,例如用于经输出变换器呈现给用户。
听力装置如输入单元和/或天线及收发器电路可包括用于提供输入信号的时频表示的时频(TF)转换单元。时频表示可包括所涉及信号在特定时间和频率范围的相应复值或实值的阵列或映射。TF转换单元可包括用于对(时变)输入信号进行滤波并提供多个(时变)输出信号的滤波器组,每一输出信号包括截然不同的输入信号频率范围。TF转换单元可包括用于将时变输入信号转换为(时-)频域中的(时变)信号的傅里叶变换单元。听力装置考虑的、从最小频率fmin到最大频率fmax的频率范围可包括从20Hz到20kHz的典型人听频范围的一部分,例如从20Hz到12kHz的范围的一部分。通常,采样率fs大于或等于最大频率fmax的两倍,即fs≥2fmax。听力装置的正向通路和/或分析通路的信号可拆分为NI个(例如均匀宽度的)频带,其中NI例如大于5,如大于10,如大于50,如大于100,如大于500,至少其部分个别进行处理。听力装置可适于在NP个不同频道处理正向和/或分析通路的信号(NP≤NI)。频道可以宽度一致或不一致(如宽度随频率增加)、重叠或不重叠。
听力装置可配置成在不同模式下运行,如正常模式及一个或多个特定模式,例如可由用户选择或者可自动选择。运行模式可针对特定声学情形或环境进行优化。运行模式可包括低功率模式,其中听力装置的功能被减少(例如以便节能),例如禁用无线通信和/或禁用听力装置的特定特征。
听力装置可包括多个检测器,其配置成提供与听力装置的当前网络环境(如当前声环境)有关、和/或与佩戴听力装置的用户的当前状态有关、和/或与听力装置的当前状态或运行模式有关的状态信号。作为备选或另外,一个或多个检测器可形成与听力装置(如无线)通信的外部装置的一部分。外部装置例如可包括另一听力装置、遥控器、音频传输装置、电话(如智能电话)、外部传感器等。
多个检测器中的一个或多个可对全带信号起作用(时域)。多个检测器中的一个或多个可对频带拆分的信号起作用((时-)频域),例如在有限的多个频带中。
多个检测器可包括用于估计正向通路的信号的当前电平的电平检测器。检测器可配置成确定正向通路的信号的当前电平是否高于或低于给定(L-)阈值。电平检测器作用于全频带信号(时域)。电平检测器作用于频带拆分信号((时-)频域)。
听力装置可包括话音活动检测器(VAD),用于估计输入信号(在特定时间点)是否(或者以何种概率)包括话音信号。在本说明书中,话音信号可包括来自人类的语音信号。其还可包括由人类语音系统产生的其它形式的发声(如唱歌)。话音活动检测器单元可适于将用户当前的声环境分类为“话音”或“无话音”环境。这具有下述优点:包括用户环境中的人发声(如语音)的电传声器信号的时间段可被识别,因而与仅(或主要)包括其它声源(如人工产生的噪声)的时间段分离。话音活动检测器可适于将用户自己的话音也检测为“话音”。作为备选,话音活动检测器可适于从“话音”的检测排除用户自己的话音。
听力装置可包括自我话音检测器,用于估计特定输入声音(如话音,如语音)是否(或以何种概率)源自听力装置系统用户的话音。听力装置的传声器系统可适于能够进行用户自己的话音与另一人的话音及可能与无话音声音的区分。
多个检测器可包括运动检测器,例如加速度传感器。运动检测器可配置成检测用户面部肌肉和/或骨头的例如因语音或咀嚼(如颌部运动)引起的运动并提供标示该运动的检测器信号。
听力装置可包括分类单元,配置成基于来自(至少部分)检测器的输入信号及可能其它输入对当前情形进行分类。在本说明书中,“当前情形”可由下面的一个或多个定义:
a)物理环境(如包括当前电磁环境,例如出现计划或未计划由听力装置接收的电磁信号(包括音频和/或控制信号),或者当前环境不同于声学的其它性质);
b)当前声学情形(输入电平、反馈等);及
c)用户的当前模式或状态(运动、温度、认知负荷等);
d)听力装置和/或与听力装置通信的另一装置的当前模式或状态(所选程序、自上次用户交互之后消逝的时间等)。
分类单元可基于或者包括神经网络,例如经训练的神经网络。
听力装置还可包括用于所涉及应用的其它适宜功能,如压缩、反馈控制等。
听力装置可包括助听器,例如听力仪器,例如适于位于用户耳朵处或者完全或部分位于耳道中的听力仪器。听力装置可包括耳机、耳麦、耳朵保护装置或其组合。
应用
一方面,提供如上所述的、“具体实施方式”部分中详细描述的和权利要求中限定的助听器的应用。可提供在包括音频分布的系统中的应用。可提供在包括一个或多个助听器(如听力仪器)、耳机、耳麦、主动耳朵保护系统等的系统中的应用,例如免提电话系统、远程会议系统(例如包括喇叭扩音器)、广播系统、卡拉OK系统、教室放大系统等。
方法
一方面,提供适于佩戴在用户耳朵处或耳朵中的听力装置如助听器的运行方法。该方法可包括:
-提供表示听力装置周围的声音的至少两个电输入信号;
-提供最小处理波束形成器的优化的波束形成器权重,当其应用于至少两个电输入信号时提供滤波后信号;
-提供表示听力装置周围的声音的参考信号;
-提供最小处理波束形成器的性能判据。
该方法还可包括:
-根据所述至少两个电输入信号、所述参考信号和所述性能判据自适应确定优化的波束形成器权重。
一方面,提供适于佩戴在用户耳朵处或耳朵中的听力装置的运行方法。该方法可包括:
-提供表示听力装置周围的声音的至少两个电输入信号;
-提供最小处理波束形成器的优化的波束形成器权重,当其应用于至少两个电输入信号时提供滤波后信号;
-提供表示听力装置周围的声音的参考信号;
-提供最小处理波束形成器的性能判据。
最小处理波束形成器可以是在仍然满足性能判据的同时提供相较于参考信号就所选距离度量而言具有尽可能小的修正的滤波后信号的波束形成器。
该方法还可包括:
-根据所述至少两个电输入信号、所述参考信号、所述距离度量和所述性能判据自适应确定优化的波束形成器权重。
当由对应的过程适当代替时,上面描述的、“具体实施方式”中详细描述的或权利要求中限定的装置的部分或所有结构特征可与本发明方法的实施结合,反之亦然。方法的实施具有与对应装置一样的优点。
听力装置的运行方法例如可包括步骤:
-提供至少两个电输入信号在给定时频单元是否包括语音的估计;
-基于至少两个电输入信号提供信号统计,例如协方差矩阵、声学传递函数等;
-提供参考波束形成器和另一(例如语音保留)波束形成器;
-计算参考波束形成器和另一波束形成器的波束形成器权重;
-根据所述至少两个电输入信号、所述参考信号、所述距离度量和所述性能判据自适应确定所述参考波束形成器和所述另一波束形成器的线性组合的加权系数,从而确定所述优化的波束形成器权重。
计算机可读介质或数据载体
本发明进一步提供保存包括程序代码(指令)的计算机程序的有形计算机可读介质(数据载体),当计算机程序在数据处理系统(计算机)上运行时,使得数据处理系统执行(实现)上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的至少部分(如大部分或所有)步骤。
作为例子但非限制,前述有形计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储器、磁盘存储器或其他磁性存储装置,或者可用于执行或保存指令或数据结构形式的所需程序代码并可由计算机访问的任何其他介质。如在此使用的,盘包括压缩磁盘(CD)、激光盘、光盘、数字多用途盘(DVD)、软盘及蓝光盘,其中这些盘通常磁性地复制数据,同时这些盘可用激光光学地复制数据。其它存储介质包括存储在DNA中(例如合成的DNA链中)。上述盘的组合也应包括在计算机可读介质的范围内。除保存在有形介质上之外,计算机程序也可经传输介质如有线或无线链路或网络如因特网进行传输并载入数据处理系统从而在不同于有形介质的位置处运行。
计算机程序
此外,本申请提供包括指令的计算机程序(产品),当该程序由计算机运行时,导致计算机执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法(的步骤)。
数据处理系统
一方面,本发明进一步提供数据处理系统,包括处理器和程序代码,程序代码使得处理器执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的至少部分(如大部分或所有)步骤。
听力系统
另一方面,提供包括上面描述的、“具体实施方式”中详细描述的及权利要求中限定的助听器及包括辅助装置的听力系统。
听力系统可适于在助听器与辅助装置之间建立通信链路以使得信息(如控制和状态信号,可能音频信号)可进行交换或者从一装置转发给另一装置。
辅助装置可包括遥控器、智能电话或者其它便携或可穿戴电子装置智能手表等。
辅助装置可由遥控器构成或者包括遥控器,其用于控制助听器的功能和运行。遥控器的功能实施在智能电话中,该智能电话可能运行使能经智能电话控制音频处理装置的功能的APP(助听器包括适当的到智能电话的无线接口,例如基于蓝牙或一些其它标准化或专有方案)。
辅助装置可由音频网关设备构成或者包括音频网关设备,其适于(例如从娱乐装置如TV或音乐播放器、从电话设备如移动电话或者从计算机如PC)接收多个音频信号并适于选择和/或组合所接收的音频信号中的适当信号(或信号组合)以传给助听器。
辅助装置可由另一助听器构成或者包括另一助听器。听力系统可包括适于实施双耳听力系统如双耳助听器系统的两个助听器。
APP
另一方面,本发明还提供称为APP的非短暂应用。APP包括可执行指令,其配置成在辅助装置上运行以实施用于上面描述的、“具体实施方式”中详细描述的及权利要求中限定的助听器或听力系统的用户接口。APP可配置成在移动电话如智能电话或另一使能与所述助听器或听力系统通信的便携装置上运行。
用户接口可实施在辅助装置如遥控器中,例如实施为智能电话或其它便携(或固定不动的)电子设备中的APP。用户接口可实施用于根据本发明的最小处理波束形成器的配置的最小处理APP。用户接口(和辅助装置及听力装置)可配置成使用户能选择用于根据本发明确定最小处理波束形成器的优化的波束形成器权重的参考信号和性能判据。辅助装置和听力装置配置成使用户能经用户接口配置根据本发明的最小处理波束形成器。用于估计根据本发明的最小处理波束形成器的波束形成器权重的方法的部分(可能非必需的)参数可存储在听力装置(或辅助装置)的存储器中,例如性能判据的细节,例如不同语音可懂度度量(如SII、STOI等)的最小值。
附图说明
本发明的各个方面将从下面结合附图进行的详细描述得以最佳地理解。为清晰起见,这些附图均为示意性及简化的图,它们只给出了对于理解本发明所必要的细节,而省略其他细节。在整个说明书中,同样的附图标记用于同样或对应的部分。每一方面的各个特征可与其他方面的任何或所有特征组合。这些及其他方面、特征和/或技术效果将从下面的图示明显看出并结合其阐明,其中:
图1A为根据本发明的听力装置的第一实施例的示意性框图;
图1B为根据本发明的听力装置的第二实施例的示意性框图;
图3示出了频带可听度与语音-干扰比之间的关系的ANSI推荐(参见[ANSI-S3-22-1997]);
图4A按样本示意性地示出了时变模拟信号(振幅-时间)及其数字化,这些样本安排在多个时间帧中,每一时间帧包括Ns个样本;
图4B示意性地示出了图4A的时变电信号的时频表示;
图5A示出了根据本发明的听力装置的运行方法的流程图;
图5B示出了图5A的听力装置运行方法的步骤S5的流程图;
图6示出了与包括用于听力装置的用户接口的辅助装置通信的根据本发明的听力装置的实施例,其包括位于用户耳后的BTE部分和位于用户耳道中的ITE部分。
通过下面给出的详细描述,本发明进一步的适用范围将显而易见。然而,应当理解,在详细描述和具体例子表明本发明优选实施例的同时,它们仅为说明目的给出。对于本领域技术人员来说,基于下面的详细描述,本发明的其它实施方式将显而易见。
具体实施方式
下面结合附图提出的具体描述用作多种不同配置的描述。具体描述包括用于提供多个不同概念的彻底理解的具体细节。然而,对本领域技术人员显而易见的是,这些概念可在没有这些具体细节的情形下实施。装置和方法的几个方面通过多个不同的块、功能单元、模块、元件、电路、步骤、处理、算法等(统称为“元素”)进行描述。根据特定应用、设计限制或其他原因,这些元素可使用电子硬件、计算机程序或其任何组合实施。
电子硬件可包括微机电系统(MEMS)、(例如专用)集成电路、微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、选通逻辑、分立硬件电路、印刷电路板(PCB)(如柔性PCB)、及配置成执行本说明书中描述的多个不同功能的其它适当硬件,例如用于感测和/或记录环境、装置、用户等的物理性质的传感器。计算机程序应广义地解释为指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、可执行、执行线程、程序、函数等,无论是称为软件、固件、中间件、微码、硬件描述语言还是其他名称。
本申请涉及助听器领域。本申请涉及助听器,尤其涉及助听器中的降噪。
A、记法和信号模型
在下面,矩阵和向量分别通过粗体大写和小写字母表示。协方差矩阵由字母C及跟随的下标表示,例如,对于随机向量xk,类似地,随机变量的方差由具有适当下标的符号σ2表示。集合和泛函分别通过黑板粗体和书法符号记为A和F。MxM单位矩阵由IM表示,er指除了其第r个分量为1其余均为0的向量。上标H用于指厄米转置。对于标量的复共轭,使用上标*(以不与用于标记优化问题的解的上标混淆)。统计预期运算由E[·]表示。
在本发明中,语音和噪声信号在时频域表示。因而需要频率窗口指数k和时间帧指数l来确定某一时频窗口。然而,在本发明的大多数表达式和公式中,已摒弃时间帧指数l以避免令人混淆的记法。因此,默认假定我们考虑某一时间帧l,除非另行明确指出。
将传声器的数量记为M,在不损失一般性的情形下,传声器r,1≤r≤M被任意地选择为参考传声器。假定K={1,…,K}为所有频率窗口指数的集合。对于频率窗口k,将所有传声器获得的信号堆在一个向量中,使用下面的噪声中语音模型:
其中,所有变量一般为复值。M维随机向量和分别表示由M个传声器收集的噪声信号和有噪声信号,随机变量指参考传声器处的纯净语音信号。M维向量dk表示M个传声器(相对于参考传声器)的相对传递函数,因而其第r个分量为1。因而我们具有
在波束形成的一些应用中,例如在一些听力辅助装置(如助听器)中,信号需要根据应用进行放大或衰减。这意味着将传到听者耳朵的语音将遭受插入增益gk。因此,在理想条件下,装置输出处的纯净语音由下式给出:
xk=skdk+vk (3)
与语音处理文献中的常见实践一样,我们假定跨频率窗口独立,在所涉及的信号的相关时间相较于时频分析窗口大小短时,其大约有效。此外,我们假定语音信号和噪声信号不相关和零均值。结合这些假设,xk的协方差矩阵由下式给出:
在本说明书中,进行可逆的共同假设。因而,我们排除噪声仅由少于M个点源组成的稀少情形。在实践中,即使在该情形下,传声器添加小的不相关的噪声项,其确保满秩协方差矩阵。除之外,参考传声器处的噪声分量vk的方差也将被引用。
所提出的概念严重依赖于感知驱动的性能判据,例如可懂度或质量预测器。
这些预测器的大多数众所周知的例子如PESQ、STOI及ESTOI、HASPI及HASQI、和SII及ESII在为遵守声音的人类感知而有意定义的子频带中定义。临界频带、倍频带和分数倍频带为几个例子。另一方面,波束形成器通常使用容易反转的时频变换例如短时傅里叶变换(STFT)在时频域推导和分析。
为了一般性,我们在二者之间进行区分:对于其中定义某一性能判据的感知驱动的子频带划分,我们使用术语子频带,而对于其中得出/应用波束形成器权重向量的时频窗口,我们使用术语频率窗口。两者被选择为一样的情形为该一般框架的特殊情形。根据怎样定义子频带和频率窗口,可能有多个频率窗口贡献于同一子频带和/或多个子频带贡献于同一频率窗口,每一个具有一定权重。在本说明书中,我们使用i对子频带进行索引,使用k对频率窗口进行索引。
假设我们具有n个子频带,Bi(i=1,…,n)为贡献于子频带i的所有频率窗口k的集合。作为我们怎样使用子频带与频率窗口之间的对应的例子,子频带i的纯净语音谱水平定义为:
其中βi为子频带i的带宽,ωi,k为指明频率窗口k对子频带i的贡献的权重(对于更多细节,参见[Zahedi et al.;2021]中的附录A)。
图1A示出了对于M=2个传声器的特殊情形,具有上面介绍的信号模型的线性波束形成器的简单图。将频率窗口k处的波束形成器权重向量记为wk,波束形成器的输出由下式给出:
图1A、1B中的权重估计器WGT-EST的目的在于确定使D(REF,Y)最小化的波束形成器权重(W1(k)和W2(k)),同时I(Y)≥Imin,其中REF为参考信号,Imin为性能估计器的最小可接受的值,Y为最小处理波束形成信号,D为距离度量(或处理损失)。
B、多通道齐纳滤波器
MWF的标准形式源自对使下面的价值函数最小化的最小MSE问题的求解:
其中,等式(9)从等式(7)以及语音和噪声不相关的假设得来。解由下式给出:
(9)的右手边的第一项为因增强引入到纯净语音的失真,第二项为残余噪声功率。如等式(9)中所示,MSE判据同等地罚语音失真和残余噪声。该价值函数的自然的一般化是使这两项具有不同的权重。如先前提出的,一种这样的一般化是使用
μ为非负常数,导致下面的一般化的MWF:
众所周知,MWF可换一个方式叙述为MVDR波束形成器与齐纳后滤波器的级联。可以表明(例如参见[Zahedi et al.;2021]中的附录B),等式(12)中的μMWF波束形成器可类似地换一个方式叙述为MVDR波束形成器与下面的一般化的齐纳后滤波器的级联:
其中为MVDR波束形成器的输出处的SNR。对于μ=1、μ<1和μ>1,图2将的绘图示为ξk的函数。对于μ=1,其简化为众所周知的单通道齐纳滤波器(SWF),导致MSE最佳的波束形成器。对于μ<1,后滤波器以较高残余噪声为代价相较于标准齐纳滤波器引起较低水平的语音失真。在μ→0的极限时,μMWF波束形成器简化为MVDR波束形成器。相反,μ>1导致攻击型后滤波器,其以较高水平的语音失真为代价相较于标准SWF抑制更多噪声。
迄今介绍的所有波束形成器均以重构纯净语音为目标进行公式表示,即噪声的完全抑制作为理想。已提出可能有兴趣除目标语音之外还保留一小部分噪声,例如除了目标语音之外,还更好地保留噪声的空间特征。对于该目的,可使对于给定正常数α最小化,这导致下面的解:
实际上,MWF-N波束形成器取得MWF波束形成器的输出并将来自参考传声器的未经处理的有噪声语音的一小部分添加到该输出。
最后,可组合μMWF和MWF-N波束形成器以获得下面的一般化的波束形成器(例如参见[Van den Bogaert et al,2009]):
在对于μMWF部分μ选择为大值时这尤其有用,即具有高水平语音失真的攻击型波束形成器。在该情形下,导致的纯净语音的失真可通过将未经处理的信号的一小部分添加到μMWF波束形成器的输出而部分补偿。等式(15)中的μMWF-N波束形成器为上面提及的波束形成器中的最一般的波束形成器。所有其它波束形成器可看作等式(15)对于参数μ和α的某些选择的特殊情形。
最小处理波束形成
A、提出的概念
假定为给定的参考信号(以不与参考传声器处的纯净语音混淆)。考虑某一子频带i。我们将对于k∈Bi的所有堆成记为的向量。类似地,我们将对于k∈Bi的所有yk,sk和vk分别堆成向量yi,si和vi。同样,考虑两个有限非负泛函D(·,·)和I(·,·)。我们将子频带i的最小处理波束形成器定义为下面的优化问题的解:
在等式(16)中,为了一般性,I(yi,·si)对纯净语音si的相依性通过该记法暗含。在许多实际情形下,性能仅从波束形成器输出进行估计,我们具有I(yi,·si)=I(yi)。
等式(16)的特殊情形,其中处理损失D被选择为等式(11)中定义的约束条件通过设置Ii=0而消灭,导致等式(15)中的一般化的μMWF-N波束形成器。这证明了等式(16)中的公式表示的一般性。在本发明中,概述了一种案例研究,其中处理损失D类似于判据,性能判据I(·,·)为基于SII[ANSI S3.22-1997]的可懂度估计器。对于任何给定的参考信号问题可通过分析求解。
在下面,例示两种特殊情形:“环境保留模式”和“攻击模式”。
环境保留模式
攻击模式
B、动机
现有的研究(以及我们的经验)表明定向助听器在一些情形下趋于过度抑制自然环境噪声,给用户留下孤单或排他的感觉。在不淡化足够的语音可懂度的关键作用的同时,如果发生环境噪声的任何抑制似乎合理,其应限于阻止对语音可懂度的任何损害的最小必要量。这可通过将等式(16)中的参考信号设定为等于参考传声器处未经处理的信号并将语音可懂度估计器选择为性能判据I(·,·)而进行公式表示。换言之,我们应用最小处理原理来尽可能小地修正有噪声信号而获得需要的可懂度水平。这实际上为本发明的初始动机。然而,该概念已一般化,从使用参考传声器处的有噪声信号到等式(16)中的任何给定参考信号。特别感兴趣的例子为在参考信号为某一波束形成器的输出时。在某一上下文内或对于某一应用,在参考波束形成器具有受损于明显的缺陷的、特别需要的特性时,这可能有用。作为例子,等式(12)中具有攻击性噪声抑制特性(μ>>1)的μMWF波束形成器以语音失真为代价能够有效地抑制噪声。通过选择它作为等式(16)中的参考波束形成器,同时选择语音保留性能判据I(·,·),我们获得做显著的抑制噪声工作的波束形成器,只要其不高于某一程度地损害语音。
理论
处理损失
定义处理损失D(·,·)的出发点例如可以是MSE判据。为了与等式(16)中的公式表示兼容,将它按子频带写,而不是按频率窗口,其采取下面的形式:
定义向量rk和uk:
示例性的性能判据
在下面的例子中,基于SII的语音可懂度的估计用作性能判据。其在每帧的基础上进行评估。假定正常的发音努力因而没有语音级的失真,SII由所谓的频带可听度函数跨所有子频带的加权和给出[ANSI S3.22-1997]。由于等式(16)针对某一子频带定义,我们针对每一子频带定义频带可听度约束而不是针对整个信号设置单一可懂度约束。此外,我们不理谱掩蔽效应以避免不必要的难题,因为我们的经验表明对于大多数实际感兴趣的情形,其对所得的得分没有显著影响。
使用ζi为子频带i的语音-干扰比,子频带i的可听度函数Ψ(ζi)由下面的函数给出:
该函数在图3中绘出。在性能估计器选择为I(yi,·si)=Ψ(ζi)时,等式(16)中的性能判据由下式给出:
Ψ(ζi)≥I′i (24)
为计算ζi,对于k∈Bi,我们首先获得波束形成器wk的输出处子频带i的总误差功率。这以与等式(11)类似的方式计算为语音失真和噪声功率的和:
其中通过带宽βi归一化符合ANSI标准[ANSI S3.22-1997]。设Λi指子频带i的等效内部噪声水平(参见[ANSI S3.22-1997]),对听觉的阈值进行建模。对于正常听力听者,Λi遵循一般正常听力人员在安静时的听觉阈。对于听力受损人员,该阈值必须基于个体的纯音听力图升高。使用Ni和Λi,子频带i的等效干扰谱计算为(参见[ANSI S3.22-1997]):
Di=max(Λi,Ni) (26)
最后,我们使用下面的公式计算语音-干扰比ζi:
听觉阈Λi以及插入增益gk(分别参见等式(26)和(2))被考虑的事实使本框架适合听力受损用户和正常听力用户。
问题公式表示和解法
组合上面概述的结果,等式(16)中设定的优化问题可写为如下的公式:
从上面的等式,可推导下面的结果(例如参见[Zahedi et al.;2021]):
根据频率窗口和子频带之间考虑的对应的类型,在子频带之间可有重叠,即单一频率窗口可贡献于一个以上子频带。为此,我们在波束形成器权重向量中已假定对频率窗口指数k和子频带指数i的相依性。设Fk指频率窗口k贡献于其的所有子频带的集合,ηi,k为说明该贡献对波束形成器权重向量的影响的权重。频率窗口k的波束形成器权重向量由下式给出:
在[Zahedi et al.;2021]的附录A中,对ηi,k的计算以及与子频带和频率窗口之间的对应有关的其它考虑提供更多细节。
参考信号
在本发明的例子中,我们将自己限于参考信号的两个选择,记住两个不同的目标。显然,对于任何其它有关的场合,必须定义适合相应应用的参考信号。
1、环境噪声保留模式
在应用中,例如助听装置,当不同于目标语音的声音可能传达有用信息(例如交通噪声警报等)或感兴趣(例如背景音乐)时,希望完全或部分保留它们,条件是不损害目标语音的可懂度水平。将参考信号设定为等于来自参考传声器的未经处理的信号使该运行模式可行。代入等式(19)和等式(20)中的结果,我们获得:
uk=er (38)
根据等式(35),我们因而具有:
该波束形成器类似于等式(15),重要区别在于系数αi随信号而变。更具体地,根据给定时间帧和子频带中的语音有多少噪声,αi适应相应情形,参见等式(36)。
将等式(38)和(39)代入(30),我们具有:
使用等式(5),应用Sherman-Morrison公式并简化结果,等式(41)简化如下:
2、攻击模式
因此,等式(35)采取下面的形式:
参考波束形成器的一个切实可行的选择是μMWF波束形成器,μ>>1。该波束形成器可进行显著的抑制噪声的工作,但同时使目标语音明显失真。在SNR不是特别高的时间帧和子频带中,这些失真将非常严重,引起整个输出语音比希望的更多听得见的失真。我们试图通过将μMWF波束形成器(μ>>1)选择为参考波束形成器而在噪声抑制方面获得尽可能接近其的性能。另一方面,对于等式(44)右边的第二项,我们设定μ<<1以获得语音保留波束形成器,其排除语音在不利条件下的过多失真。这产生:
其中μ1>>1,μ2<<1。
因而变得清楚的是,为子频带i时参考波束形成器输出处的总误差并可写为参考波束形成器的输出处的噪声功率和语音失真的和。为使用(31)计算hi,我们将(45)中的两个μMWF波束形成器重新写为MVDR波束形成器与一般化的齐纳后滤波器的串联以获得:
实际要考虑的事
对于所提出的波束形成器在现实生活情形下的最佳运行,有至关重要的实际问题。在该部分,我们解决这些要考虑的事。
组合权重的时间平均
由等式(36)给出的αi的值跨时间帧可能急剧变化,导致语音的听得见的失真。为避免该问题,可按如下进行αi跨时间帧的递归平均:
其中l和l-1分别指当前及先前的时间帧,b使用下面的公式从时间常数τ进行计算:
其中R为帧率。
目标损失效果
将波束形成器应用于有噪声信号xk通常导致输出处的目标信号sk的抑制,即目标损失。目标损失的公式表示需要由波束形成器引入的语音失真的模型。最简单的模型为附加噪声模型,即语音失真被看待为与语音和噪声不相关的附加噪声。使用附加噪声模型,等式(28)中的目标损失Λi为零,语音失真通过将其添加到残余噪声功率而进行说明,如等式(25)中一样。备选方法是除了将语音失真看待为残余噪声功率之外,将语音失真从纯净语音功率减去。在该情形下,我们具有:
其表明Λi取决于权重向量wk。这致使等式(16)中的优化问题很难通过分析解决。为减轻该问题,我们注意到,由于用大的时间常数求平均(参见上面及[Zahedi et al.;2021]中的部分VI),我们具有Λi(l)≈Λi(l-1),使其独立于wk(l)。在实践中,我们在附加噪声与相减模型之间未观察到任何显著的性能差异。
如(51)中看到的,Λi对权重向量的相依性通过αi的存在反映。从等式(51)和(28),需要知道αi才能计算另一方面,必须已知以计算等式(36)中的αi。如上面提出的,为解决该问题,我们利用逼近即我们使用来分别计算等式(51)和(28)中的Λi(l)和然后使用更新
1)环境保留模式:在该运行模式下,我们具有uk=er。代入等式(51),产生:
图1A示出了根据本发明的听力装置HD如助听器的第一实施例的示意性框图。听力装置可适于佩戴在用户耳朵处或耳朵中,例如部分在耳道中及部分在用户耳廓处或耳廓后面。目标声源S在图1A和1B中示出,目标信号的、通过从声源S的位置到安装在用户耳朵处的听力装置HD的第一和第二传声器(M1,M2)的位置的声学传递函数变换的相应版本(s1,s2)通过到相应声学求和单元“+”的箭头示出。声学求和单元“+”示出了目标声源分量与(附加)噪声分量(v1,v2)的混合以向相应的传声器M1和M2提供声学输入。听力装置包括包含至少两个输入变换器(在此为两个传声器M1,M2)的输入单元IU,每一输入变换器用于将听力装置周围的声音转换为表示所述声音的电输入信号,从而提供至少两个电输入信号(在此为两个时域电输入信号x1(n),x2(n),其中n表示时间)。输入单元IU例如可包括适当的模数转换器以将来自输入变换器的可能的模拟输出信号转换为对应的数字信号(相应的数字样本流,例如参见图4A,其中n为音频样本xm(n),m=1,2的时间指数)。听力装置还包括连接到输入单元的处理器PRO如数字信号处理器(DSP),其配置成处理至少两个电输入信号(x1(n),x2(n))并提供处理后的输出信号,在此为时域信号o(n)。听力装置还包括用于将处理后的输出信号转换为可由用户感知为声音的刺激的输出单元OU。在图1A的实施例中,输出单元包括扬声器SPK形式的输出变换器,用于将处理后的输出信号o(n)转换为包括空气中振动的声学信号(在听力装置安装在用户耳朵处时导向用户的耳膜)。输出单元可包括数模转换器,用于将音频样本流o(n)转换为馈给输出变换器的模拟电输出信号。输入单元IU、处理器PRO和输出单元OU一起包括听力装置的正向(音频)通路,其用于处理输入单元捕获的声音信号并将处理后的信号提供为可由用户感知为所述声音信号的代表的刺激,例如通过衰减所述声音信号中的噪声(和/或通过增强目标信号)。听力装置(如输入单元IU,或者如在此的,处理器PRO)还包括适当的时域到频域转换器(例如分析滤波器组FB-A),以将相应的至少两个电输入信号(在此为(x1(n),x2(n))转换为子频带信号(按时频表示,例如(k,l),其中k为频率指数,l为时间帧指数)。每一时间帧(指数l)表示电输入信号xm(n)(m=1,2)的频谱,从而例如提供时域信号在不同频率指数k=1,…,K时的复值Xm(k,l)(例如量值和相位),其中K为(分析)滤波器组(例如通过快速傅里叶变换算法表示,如短时傅里叶变换(STFT)或类似算法)的频率窗口的数量。每一窗口(k,l)包括转换后的信号的(复)值(例如参见图4B)。听力装置(例如处理器PRO)还包括波束形成器滤波器BF,其包括根据本发明的最小处理波束形成器。波束形成器滤波器BF配置成接收所述至少两个电输入信号并根据所述至少两个电输入信号(X1(k),X2(k))和自适应确定的波束形成器权重(W1(k),W2(k))提供滤波后信号Y(k)。最小处理波束形成器通过自适应确定的(优化的)波束形成器权重(W1(k),W2(k))定义。波束形成器滤波器配置成将波束形成器权重(W1(k),W2(k))应用于至少两个电输入信号(Xm(k),m=1,2,其中为简单起见,时间指数l已省略),从而提供滤波后信号Y(k)。滤波后信号Y(k)因而为电输入信号(X1(k),X2(k))的线性组合,Y(k)=W1(k)X1(k)+W2(k)X2(k)。听力装置(如处理器PRO)还可包括信号处理单元G,用于将一个或多个算法应用于滤波后信号。信号处理单元G例如可配置成应用(另外的)降噪算法、(随频率和电平而变的)压缩放大算法、反馈控制算法等中的一个或多个并提供处理后的输出信号O(k)。听力装置(如处理器PRO)还可包括合成滤波器组FB-S,用于将子频带信号O(k)转换为时域的处理后的输出信号o(n)。
在图1A的实施例中,听力装置包括权重估计单元WGT-EST,配置成进行最小处理波束形成器BF的波束形成器权重(W1(k),W2(k))的优化。
听力装置HD如处理器PRO配置成提供或接收表示听力装置周围的声音的参考信号REF。参考信号在上面概述的数学表达式(等式(1)-(53))中称为(或),其中k和i分别为频率窗口指数和子频带指数(例如参见图4B)。参考信号由输入到权重估计单元WGT-EST的信号REF-ctr定义,或为参考信号本身的形式,或为确定哪一参考信号当前被选择的控制信号的形式(例如来自用户接口,例如参见图6)。前述提供则可根据至少两个电输入信号(X1(k),X2(k))等在权重估计单元WGT-EST内部提供。
听力装置HD如处理器PRO配置成提供或接收波束形成器滤波器的性能估计器的最小值。最小值用于确保最小处理波束形成器的性能可为用户接受,例如提供可接受的语音可懂度。性能估计器的最小值可存储在听力装置的存储器中,或者例如经用户接口从另一装置接收(例如由用户经用户接口提供,例如完全或部分实施为智能电话或类似便携通信装置的应用程序(APP))。在图1A的实施例中,性能估计器的最小值由输入到权重估计单元WGT-EST的信号Imin-ctr确定。控制信号Imin-ctr还可包括用于在不同的性能估计器(因而所选性能估计器的不同最小值)之间选择的选项,例如参见图6。
听力装置HD如处理器PRO,例如如图1A中所示,波束形成器滤波器BF,尤其是权重估计单元WGT-EST,配置成使得波束形成器权重(W1(k),W2(k))根据至少两个电输入信号(X1(k),X2(k))、参考信号(由REF-ctr确定)以及性能估计器的最小值(由Imin-ctr确定)而自适应确定。
权重估计单元WGT-EST可配置成将最小处理波束形成器的波束形成器权重(W1(k),W2(k))优化为至少两个波束形成器的随信号而变的线性组合。最小处理(MP)波束形成器可被写为BFMP=αBF1+(1-α)BF2,其中BFMP为最小处理波束形成器,BF1为参考波束形成器,BF2可以是语音保留波束形成器(例如MVDR波束形成器),α为线性组合的随信号而变的权重。
权重估计单元WGT-EST的实施例示意性地在图1B中示出,用于优化最小处理波束形成器的波束形成器权重(W1(k),W2(k))的算法在图5B中示出。
图1B示出了根据本发明的听力装置的第二(部分)实施例HD’的示意性框图。图1B的实施例包括与图1A一样的元件(输入单元IU、相应的分析滤波器组FB-A和提供滤波后信号Y(k)的波束形成器滤波器(图1A的助听器的其余部分未在图1B中示出))。相较于图1A的实施例,图1B提供权重估计单元WGT-EST的更详细的实施例。
图1B的权重估计单元WGT-EST包括话音活动检测器VAD,用于估计输入信号是否(或者以何种概率)包括话音信号(在给定时间点),例如频率窗口或子频带级地进行估计。话音活动检测器单元可适于按二元方式将用户当前的声环境分类为话音和无话音环境,或者按概率方式分类为语音存在概率(SPP)。从而,可识别至少两个电输入信号的包括用户环境中的人发声(例如语音)的时间段,因而与仅(或主要)包括其它声源(例如人为产生的噪声)的时间段分开。这对于在权重估计单元WGT-EST的信号统计结果估计模块SIG-STAT-EST中进行的确定至少两个电输入信号的“信号统计结果”有用。其它检测器可能适合SIG-STAT-EST模块,例如用于估计至少两个电输入信号的当前电平的电平估计器。连同至少两个电输入信号(X1(k),X2(k))一起,(由信号SPP表示的)检测器信号从话音活动检测器VAD馈给信号统计结果估计模块SIG-STAT-EST。信号统计结果例如可包括多个(随频率和时间而变的)协方差矩阵,例如和对应于所选择的、用于声音传播到听力装置HD的传声器的信号模型(例如x=s+v)。在此,xk为表示在M个传声器处接收到的第k个频带中的(有噪声)信号,即xk=[x1(k),…,xM(k)]T。对应地,sk和vk分别表示M个传声器处第k个频带中的纯净信号和噪声(在图1A和1B的例子中,M=2)。协方差矩阵的估计例如在EP2701145A1中描述。可在SIG-STAT-EST模块中确定的其它信号统计结果为从不同声源位置到每一传声器的(随频率(可能及时间)而变的)声学传递函数(ATF),例如从所选参考传声器(例如图1A、1B中的M1)到听力装置(或系统)的每一其它传声器的相对声学传递函数(RATF)的形式。有关传递函数的估计(例如视(或转向)向量的)在EP2701145A1中描述。图1B的权重估计单元WGT-EST还包括波束形成器权重确定模块IND-BF-WGT-DET,用于对有关波束形成器(例如对参考波束形成器和语音保留波束形成器)提供随信号而变的波束形成器权重wk。除了来自信号统计结果估计模块SIG-STAT-EST的输入信号CovM-RTF和至少两个电输入信号(X1(k),X2(k))之外,波束形成器权重确定模块IND-BF-WGT-DET的输入还有由信号REF-ctr标示的参考信号(或波束形成器)的选择,例如从用户接口接收(例如参见图6)。参考信号可以是至少两个电信号已被参考波束形成器滤波的结果。多通道齐纳滤波器(MWF)和MVDR波束形成器和后滤波器的包括波束形成器权重(或系数)的计算的多个不同方面在[Brandstein&Ward;2001]中讨论。波束形成器权重(信号W1-W2)连同至少两个电输入信号(X1(k),X2(k))一起馈给优化模块OPTIM-α。优化模块OPTIM-α另外接收表示波束形成信号Y(k)中可接受的性能估计器的最小值的输入信号Imin-ctr。权重估计单元WGT-EST配置成将最小处理波束形成器的优化的波束形成器权重确定为至少两个波束形成器的、在(如果根本可能)提供性能估计器的最小值的同时使输入信号的处理最小化的最佳线性组合。最小处理(MP)波束形成器可被写为BFMP=αBF1+(1-α)BF2,其中BFMP为最小处理波束形成器,BF1为参考波束形成器,BF2可以是语音保留波束形成器(例如MVDR波束形成器),α为线性组合的随信号而变的权重。优化模块OPTIM-α配置成根据当前的至少两个电输入信号自适应确定优化的线性组合权重α(k)、针对参考信号和语音保留波束形成器的给定选择提供最小处理波束形成器,同时满足所选的性能判据。随信号而变的权重α可取决于用户的听力特征,例如随频率而变的听觉阈。优化模块OPTIM-α可配置成在随信号而变的权重α用在优化的波束形成器权重的最终确定之前提供随信号而变的权重α的随时间的平滑。图1B的权重估计单元WGT-EST还包括最小处理波束形成器权重确定模块RES-BF-WGT-DET,其从优化模块OPTIM-α接收输入信号ALFA(优化的线性组合权重α(k))和W1-W2(参考波束形成器和语音保留波束形成器的波束形成器权重)。波束形成器权重确定模块RES-BF-WGT-DET配置成使用优化的(线性组合)权重α(在优化模块OPTIM-α中确定)将最小处理波束形成器的优化的波束形成器权重提供为参考波束形成器和语音保留波束形成器的波束形成器权重(在波束形成器权重确定模块IND-BF-WGT-DET中确定)的线性组合,例如参见上面的示例性数学表达等式(35)、(44)、(45)。波束形成器权重确定模块RES-BF-WGT-DET的输出为优化的波束形成器权重(W1(k),W2(k)),其在相应的组合单元X中应用于至少两个电输入信号(X1(k),X2(k)),组合单元X的输出在组合单元+中组合以提供滤波后(波束形成)信号Y(k)。
图3示出了频带可听度与语音-干扰比之间的关系的ANSI推荐(参见[ANSI-S3-22-1997])。
图4A示意性地示出了样本中的时变模拟信号(振幅-时间)及其数字化,这些样本安排在多个时间帧中,每一时间帧包括Ns个样本。图4A示出了模拟电信号x(t)(实线曲线),例如表示来自传声器的声输入信号,其在模数转换过程中转换为数字音频信号,在模数转换过程中,模拟信号x(t)以预定采样频率或速率fs进行采样,fs例如在从8kHz到40kHz的范围中(适应应用的特定需要),以在离散时间点n提供数字样本x(n),如从时间轴延伸的在其与所述曲线“重合”的端点处具有实心点的垂直线所示,表示在对应的不同时间点n的数字样本值。每一(音频)样本x(n)表示通过预定数量(Nb)的比特表示声信号在n的值,Nb例如在从1到16比特的范围中。数字样本x(n)具有1/fs的时间长度,例如对于fs=20kHz,该时间长度为50μs。多个(音频)样本Ns安排在时间帧中,如图4A下部示意性图示的,其中各个(在此均匀间隔的)样本(1,2,…,Ns)按时间帧(1,…,L)分组。同样如图4A的下部图示的,时间帧可连续地安排成非重叠(时间帧1,2,…,l,…,L)或重叠(在此为50%,时间帧1,2,…,l,…,L’),其中l为时间帧指数。一时间帧例如可包括64个音频数据样本。根据实际应用,也可使用其它帧长度。一时间帧例如可具有3.2ms的持续时间。
图4B示意性地示出了图2A的(数字化)时变电信号x(n)的时频表示。该时频表示包括信号的对应复值或实值在特定时间和频率范围的阵列或映射。该时频表示例如可以是将时变输入信号x(n)转换为时频(或滤波器组)域的(时变)信号x(k,l)的傅里叶变换的结果。在上面概述的表达式()中,使用记法xk代替x(k,l),其中省略时间指数l。傅里叶变换包括离散傅里叶变换算法(DFT),或短时傅里叶变换(STFT),或类似算法。典型听力装置(如助听器或耳机)考虑的从最小频率fmin到最大频率fmax的频率范围包括从20Hz到20kHz的典型人听频范围的一部分,如从20Hz到12kHz的范围的一部分。在图4B中,信号x(n)的时频表示x(k,l)(xk)包括信号的量值和/或相位在指数(k,l)确定的多个DFT窗口(或瓦)中的复值,其中k=1,…,K表示K个频率值(参见图4B中的纵向k轴),及l=1,…,L(L’)表示L(L’)个时间帧(参见图4B中的水平l轴)。时间帧由特定时间指数l和对应的K个DFT窗口确定(参见图4A与4B之间的过渡中的时间帧l的指示)。时间帧l表示信号x在时间l的频谱。包括所涉及信号的(实或)复值x(k,l)的DFT窗口或瓦(k,l)在图4B中通过时频图中对应场的阴影图示。DFT窗口或时频单元(k,m)例如可包括信号的复值:其中|x|表示量值,及表示在该时频单元中的信号的相位)。频率指数k的每一值对应于频率范围Δfk,如图4B中通过纵向频率轴f指明。时间指数l的每一值表示时间帧。连续时间指数跨越的时间Δtl取决于时间帧的长度(例如对于fs=20kHz和Ns=64,Δtl=3.2ms)(参见图4B中的水平t轴)。
在本申请中,定义具有子频带指数i=1,2,…,J的J个(非均匀)子频带,每一子频带包括一个或多个DFT窗口(参见图4B中的纵向子频带i轴)。第i个子频带(由图4B的右部的子频带i(xi(k,l)指明)包括分别具有下和上指数和的DFT窗口(或瓦),例如分别定义第i个子频带的下和上截止频率。特定时频单元(i,l)由特定时间指数l和从到的DFT窗口指数定义,如图4B中通过对应DFT窗口(或瓦)周围的粗框架指明。特定时频单元(i,l)包含第i个子频带信号xi(k,l)在时间l的复值或实值,其中
图5A示出了根据本发明的适于佩戴在用户耳朵处或耳朵中的听力装置如助听器的运行方法的流程图。该方法包括步骤:
S1,提供表示听力装置周围的声音的至少两个电输入信号;
S2,提供最小处理波束形成器的优化的波束形成器权重,当其应用于至少两个电输入信号时提供经滤波的信号;
S3,提供表示听力装置周围的声音的参考信号;
S4,提供最小处理波束形成器的性能判据;
S5,根据所述至少两个电输入信号、所述参考信号和所述性能判据自适应确定优化的波束形成器权重。
图5B示出了图5A的听力装置运行方法的步骤S5的流程图。步骤S5例如可包括步骤:
S51,提供至少两个电输入信号在给定时频单元是否包括语音的估计;
S52,基于至少两个电输入信号提供信号统计,例如协方差矩阵、声学传递函数等;
S53,提供参考波束形成器和另一(例如语音保留)波束形成器;
S54,计算参考波束形成器和另一波束形成器的波束形成器权重;
S55,提供最小处理波束形成器的性能判据;
S56,根据所述至少两个电输入信号、所述参考信号和所述性能判据自适应确定所述参考波束形成器和所述另一波束形成器的线性组合的加权系数,从而确定所述优化的波束形成器权重。
图5B中所示的步骤S5的方法例如可实施在图1A、1B的权重估计单元WGT-EST中。
图6示出了根据本发明的听力装置HD如助听器的实施例,其与包括用于听力装置的用户接口UI的辅助装置AUX通信并包括位于用户耳后的BTE部分以及位于用户耳道中的ITE部分。图6示出了被形成为耳内接收器式(RITE)助听器的示例性助听器HD,其包括适于位于耳廓后面的BTE部分BTE及包括适于位于用户耳道中的输出变换器OT(如扬声器/接收器)的部分ITE(例如例示如图1A中所示的助听器HD)。BTE部分(BTE)和ITE部分(ITE)通过连接元件IC进行连接(如电连接)。在图6的助听器实施例中,BTE部分包括两个输入变换器(在此为传声器)(MBTE1,MBTE2),每一输入变换器提供表示来自环境(在图6的情形下,来自声源S)的输入声音信号SBTE的电输入音频信号。图6的助听器HD还包括两个无线接收器WLR1,WLR2,用于提供相应的直接接收的辅助音频和/或信息/控制信号。助听器HD包括衬底SUB,其上安装多个电子元件并根据所涉及的应用(模拟、数字、无源元件等)进行功能划分,但包括经电导体Wx彼此连接及连接到输入和输出单元的信号处理器DSP、前端芯片FE和存储器单元MEM。所提及的功能单元(及其它元件)可根据所涉及的应用按电路和元件进行划分(例如为了尺寸、功耗、模拟-数字处理、无线电通信等),例如集成在一个或多个集成电路中,或者作为一个或多个集成电路与一个或多个单独的电子元件(如电感器、电容器等)的组合。信号处理器DSP提供增强的音频信号(参见图1A中的信号o(n)),其计划呈现给用户。在图6的助听器实施例中,ITE部分包括扬声器(接收器)SPK形式的输出单元,用于将电信号o(n)转换为声信号(从而提供或贡献于耳膜处的声信号SED)。ITE部分还包括包含输入变换器(如传声器)MITE的输入单元,用于提供表示耳道处或耳道中来自环境的输入声音信号SITE的电输入音频信号。在另一实施例中,助听器可仅包括BTE传声器(MBTE1,MBTE2)。在又一实施例中,助听器可包括位于不同于耳道处的别处的输入单元IT3与位于BTE部分和/或ITE部分中的一个或多个输入单元的组合。ITE部分还包括引导元件如圆顶DO,用于引导并将ITE部分定位在用户耳道中。
图6中例示的助听器HD为便携装置,及还包括用于对BTE部分及ITE部分的电子元件供电的电池BAT。
助听器HD包括定向传声器系统(波束形成器滤波器(图1A、1B中的BF)),其适于增强佩戴助听器的用户的局部环境中的多个声源之中的目标声源。存储器单元MEM可包括预定(或自适应确定)的复数、随频率而变的常数,其定义预定(或自适应确定)或“固定”的波束图(例如参考波束形成器权重)、性能判据(例如最小(计划)语音可懂度度量)等,连同定义或有利于最小处理波束形成器权重因而波束成形信号Y(k)的计算一起(例如参见图1A、1B)。
图6的助听器可构成或形成根据本发明的助听器和/或双耳助听器系统的一部分。
根据本发明的助听器HD可包括用户接口UI,例如如图6中下部所示实施在辅助装置AUX如遥控器中,例如实施为智能电话或其它便携(或固定不动的)电子设备中的APP。在图6的实施例中,用户接口UI的屏幕示出了最小处理APP。如该屏幕上部由标题“配置:选择参考信号和性能判据”所示,辅助装置AUX和助听器HD配置成使用户能经用户接口UI配置根据本发明的最小处理波束形成器。如该屏幕顶部下方所示,用户接口使用户能选择参考波束形成器、语音保留波束形成器和性能判据(参见具有下划线的标题部分)。对于这些部分中的每一部分,可用的(在此为两个)选项可经选项左边的“复选框”选择。黑色正方形标示目前的选择,而空心正方形标示未被选中的选项。对于参考波束形成器,可进行单传声器选择与最大噪声抑制(如MVDR)波束形成器之间的选择。当前最大噪声抑制波束形成器被选择。对于语音保留波束形成器,可进行基于多通道齐纳滤波器(MWF)的波束形成器与最小方差无失真响应(MVDR)波束形成器之间的选择。当前MWF波束形成器被选择。对于性能判据,可进行基于语音可懂度的判据(例如本发明中例示的SII)与声音质量判据之间的选择。当前语音可懂度判据被选择。与最小处理波束形成器的优化的配置有关的其它方面可被使得可从用户接口进行配置。不同方面的一些细节可存储在听力装置(或辅助装置)的存储器中,例如性能判据的细节,例如不同语音可懂度度量(如SII、STOI等)的最小值。
辅助装置和助听器适于使能将表示用户当前选择的参考信号、性能判据、语音保留波束形成器等的数据经例如无线通信链路(参见到图6的助听器中的无线接收器WLR2的虚线箭头WL2)传给助听器。通信链路WL2例如可基于远场通信,例如蓝牙或低功耗蓝牙(或类似技术),其通过助听器HD和辅助装置AUX中的适当的天线和收发器电路实施,通过助听器中的收发器单元WLR2标示。
当由对应的过程适当代替时,上面描述的、“具体实施方式”中详细描述的及权利要求中限定的装置的结构特征可与本发明方法的步骤结合。
除非明确指出,在此所用的单数形式“一”、“该”的含义均包括复数形式(即具有“至少一”的意思)。应当进一步理解,说明书中使用的术语“具有”、“包括”和/或“包含”表明存在所述的特征、整数、步骤、操作、元件和/或部件,但不排除存在或增加一个或多个其他特征、整数、步骤、操作、元件、部件和/或其组合。应当理解,除非明确指出,当元件被称为“连接”或“耦合”到另一元件时,可以是直接连接或耦合到其他元件,也可以存在中间插入元件。如在此所用的术语“和/或”包括一个或多个列举的相关项目的任何及所有组合。除非明确指出,在此公开的任何方法的步骤不必须精确按所公开的顺序执行。
应意识到,本说明书中提及“一实施例”或“实施例”或“方面”或者“可”包括的特征意为结合该实施例描述的特定特征、结构或特性包括在本发明的至少一实施方式中。此外,特定特征、结构或特性可在本发明的一个或多个实施方式中适当组合。提供前面的描述是为了使本领域技术人员能够实施在此描述的各个方面。各种修改对本领域技术人员将显而易见,及在此定义的一般原理可应用于其他方面。本发明的实施例如可用在如助听器或耳机的应用中。
权利要求不限于在此所示的各个方面,而是包含与权利要求语言一致的全部范围,其中除非明确指出,以单数形式提及的元件不意指“一个及只有一个”,而是指“一个或多个”。除非明确指出,术语“一些”指一个或多个。
参考文献
·[Zahedi et al.;2021]Adel Zahedi,Michael Syskind Pedersen,JanThomas Ulrich Christiansen,LarsJesper Jensen,“MinimumProcessing Beamforming”,accepted for publication in IEEE Transactions onAudio,Speech,and Language Processing,2021.Published 21.01.2021(https://ieeexplore.ieee.org/document/9332253).
·[ANSI S3.22-1997]“Methods for calculation of the speechintelligibility index”,American National Standard Institute(ANSI),1997.
·[Van den Bogaert et al,2009]T.Van den Bogaert,S.Doclo,J.Wouters,andM.Moonen,“Speech enhancement with multichannel wiener filter techniques inmultimicrophone binaural hearing aids”,J.Acoust.Soc.Am.(JASA),vol.125,no.1,pp.360–371,2009.
·EP2701145A1(Retune,Oticon)26.02.2014.
·[Brandstein&Ward;2001]M.Brandstein and D.Ward,"Microphone Arrays",Springer 2001.
·[Taal et al.;2011]Cees H.Taal,Richard C.Hendriks,Richard Heusdens,and Jesper Jensen,"An Algorithm for Intelligibility Prediction of Time-Frequency Weighted Noisy Speech",IEEE Transactions on Audio,Speech andLanguage Processing,vol.19,no.7,1September 2011,pages 2125-2136.
Claims (17)
1.适于佩戴在用户耳朵处或耳朵中的听力装置,所述听力装置包括:
-包括至少两个输入变换器的输入单元,每一输入变换器用于将听力装置周围的声音转换为表示所述声音的电输入信号,从而提供至少两个电输入信号;
-包括通过优化的波束形成器权重定义的最小处理波束形成器的波束形成器滤波器,波束形成器滤波器配置成根据至少两个电输入信号及优化的波束形成器权重提供滤波后信号;
-表示听力装置周围的声音的参考信号;
-最小处理波束形成器的性能判据;
其中所述最小处理波束形成器是在仍然满足所述性能判据的同时提供相较于参考信号在所选距离度量方面具有尽可能小的修正的滤波后信号的波束形成器;
其中所述优化的波束形成器权重根据所述至少两个电输入信号、所述参考信号、所述距离度量及所述性能判据自适应确定。
2.根据权利要求1所述的听力装置,其中,所述优化的波束形成器权重每子频带地进行自适应确定。
3.根据权利要求1所述的听力装置,其中,所述参考信号由参考波束形成器产生。
4.根据权利要求1所述的听力装置,其中,所述性能判据与最小处理波束形成器的性能估计器大于或等于最小值有关。
5.根据权利要求1所述的听力装置,其中,所述距离度量基于参考信号与滤波后信号之间的平方误差。
6.根据权利要求1所述的听力装置,其中,所述参考信号是至少两个电输入信号之一。
7.根据权利要求1所述的听力装置,其中,所述参考信号为波束形成信号。
8.根据权利要求4所述的听力装置,其中,所述性能估计器包括算法语音可懂度度量或信号质量度量。
9.根据权利要求1所述的听力装置,包括使能在时频域处理至少两个电输入信号或源自其的信号的滤波器组,其中电输入信号按时频表示k,l提供,其中k为频率指数,l为时间指数。
10.根据权利要求3所述的听力装置,其中,所述最小处理波束形成器被确定为至少两个波束形成器的随信号而变的线性组合,其中所述至少两个波束形成器之一为所述参考波束形成器。
11.根据权利要求10所述的听力装置,其中,线性组合包括随信号而变的权重α,其根据至少两个电输入信号自适应更新。
12.根据权利要求10所述的听力装置,其中,所述随信号而变的权重α根据至少两个电输入信号以及参考信号自适应更新。
13.根据权利要求11所述的听力装置,配置成提供随信号而变的权重α的随时间平滑。
14.根据权利要求10所述的听力装置,其中,最小处理波束形成器由参考波束形成器和语音保留波束形成器的动态、随信号而变的线性组合组成。
15.根据权利要求1所述的听力装置,由助听器构成或者包括助听器。
16.适于佩戴在用户耳朵处或耳朵中的听力装置的运行方法,所述方法包括:
-提供表示听力装置周围的声音的至少两个电输入信号;
-提供最小处理波束形成器的优化的波束形成器权重,当其应用于至少两个电输入信号时提供滤波后信号;
-提供表示听力装置周围的声音的参考信号;
-提供最小处理波束形成器的性能判据;
其中最小处理波束形成器是在仍然满足性能判据的同时提供相较于参考信号就所选距离度量而言具有尽可能小的修正的滤波后信号的波束形成器;其中所述方法还包括:
-根据所述至少两个电输入信号、所述参考信号、所述距离度量和所述性能判据自适应确定优化的波束形成器权重。
17.根据权利要求16所述的方法,包括:
-提供至少两个电输入信号在给定时频单元是否包括语音的估计;
-基于至少两个电输入信号提供信号统计,例如协方差矩阵、声学传递函数等;
-提供参考波束形成器和另一(例如语音保留)波束形成器;
-计算参考波束形成器和另一波束形成器的波束形成器权重;
-根据所述至少两个电输入信号、所述参考信号、所述距离度量和所述性能判据自适应确定所述参考波束形成器和所述另一波束形成器的线性组合的加权系数,从而确定所述优化的波束形成器权重。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP21151965.7 | 2021-01-18 | ||
EP21151965 | 2021-01-18 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115209331A true CN115209331A (zh) | 2022-10-18 |
Family
ID=74186565
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210057051.2A Pending CN115209331A (zh) | 2021-01-18 | 2022-01-18 | 包括降噪系统的听力装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220240026A1 (zh) |
EP (1) | EP4040806A3 (zh) |
CN (1) | CN115209331A (zh) |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5511128A (en) * | 1994-01-21 | 1996-04-23 | Lindemann; Eric | Dynamic intensity beamforming system for noise reduction in a binaural hearing aid |
EP3190587B1 (en) | 2012-08-24 | 2018-10-17 | Oticon A/s | Noise estimation for use with noise reduction and echo cancellation in personal communication |
US10231062B2 (en) * | 2016-05-30 | 2019-03-12 | Oticon A/S | Hearing aid comprising a beam former filtering unit comprising a smoothing unit |
WO2019055586A1 (en) * | 2017-09-12 | 2019-03-21 | Whisper. Ai Inc. | LOW-LOW AUDIO IMPROVEMENT |
EP3471440B1 (en) * | 2017-10-10 | 2024-08-14 | Oticon A/s | A hearing device comprising a speech intelligibilty estimator for influencing a processing algorithm |
DE102018207346B4 (de) * | 2018-05-11 | 2019-11-21 | Sivantos Pte. Ltd. | Verfahren zum Betrieb eines Hörgeräts sowie Hörgerät |
US10622004B1 (en) * | 2018-08-20 | 2020-04-14 | Amazon Technologies, Inc. | Acoustic echo cancellation using loudspeaker position |
DK3672280T3 (da) * | 2018-12-20 | 2023-06-26 | Gn Hearing As | Høreaggregat med accelerationsbaseret stråleformning |
-
2022
- 2022-01-10 EP EP22150697.5A patent/EP4040806A3/en active Pending
- 2022-01-14 US US17/575,968 patent/US20220240026A1/en active Pending
- 2022-01-18 CN CN202210057051.2A patent/CN115209331A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4040806A2 (en) | 2022-08-10 |
US20220240026A1 (en) | 2022-07-28 |
EP4040806A3 (en) | 2022-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10966034B2 (en) | Method of operating a hearing device and a hearing device providing speech enhancement based on an algorithm optimized with a speech intelligibility prediction algorithm | |
EP3253075B1 (en) | A hearing aid comprising a beam former filtering unit comprising a smoothing unit | |
US11503414B2 (en) | Hearing device comprising a speech presence probability estimator | |
CN109660928B (zh) | 包括用于影响处理算法的语音可懂度估计器的听力装置 | |
CN107872762B (zh) | 话音活动检测单元及包括话音活动检测单元的听力装置 | |
CN111556420A (zh) | 包括降噪系统的听力装置 | |
CN107046668B (zh) | 单耳语音可懂度预测单元、助听器及双耳听力系统 | |
US20220124444A1 (en) | Hearing device comprising a noise reduction system | |
US12096184B2 (en) | Hearing aid comprising a feedback control system | |
CN112492434A (zh) | 包括降噪系统的听力装置 | |
US20240205615A1 (en) | Hearing device comprising a speech intelligibility estimator | |
CN115209331A (zh) | 包括降噪系统的听力装置 | |
EP4199541A1 (en) | A hearing device comprising a low complexity beamformer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |