[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN102549661B - 音响处理装置、音响处理方法及助听器 - Google Patents

音响处理装置、音响处理方法及助听器 Download PDF

Info

Publication number
CN102549661B
CN102549661B CN2010800449129A CN201080044912A CN102549661B CN 102549661 B CN102549661 B CN 102549661B CN 2010800449129 A CN2010800449129 A CN 2010800449129A CN 201080044912 A CN201080044912 A CN 201080044912A CN 102549661 B CN102549661 B CN 102549661B
Authority
CN
China
Prior art keywords
unit
level
sound
speaker
directive property
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2010800449129A
Other languages
English (en)
Other versions
CN102549661A (zh
Inventor
寺田泰宏
山田麻纪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN102549661A publication Critical patent/CN102549661A/zh
Application granted granted Critical
Publication of CN102549661B publication Critical patent/CN102549661B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/40Arrangements for obtaining a desired directivity characteristic
    • H04R25/407Circuits for combining signals of a plurality of transducers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L2021/065Aids for the handicapped in understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2225/00Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
    • H04R2225/43Signal processing in hearing aids to enhance the speech intelligibility

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Otolaryngology (AREA)
  • Neurosurgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

公开了无论话筒的配置间隔如何,都高效率地增强用户附近的说话者的声音的音响处理装置、音响处理方法及助听器。音响处理装置使用多个无指向性话筒的各个输出信号,输出在说话者方向上形成了指向性的主轴的第1指向性信号,并输出在说话者方向上形成了指向性的死角的第2指向性信号。音响处理装置分别计算第1指向性信号的电平、第2指向性信号的电平,基于该第1指向性信号的电平及第2指向性信号的电平,判定与说话者的远近。音响处理装置根据该判定结果,计算对第1指向性信号提供的增益,并使用该增益,控制第1指向性信号的电平。

Description

音响处理装置、音响处理方法及助听器
技术领域
本发明涉及相比位于距用户远的说话者的声音,通过相对地增强位于用户附近的说话者的声音,从而容易听见附近的说话者的声音的音响处理处理装置、音响处理方法及助听器。
背景技术
作为仅增强位于用户附近的说话者的声音的音响处理装置的一例,可列举专利文献1。在该专利文献1中,使用被输入到50[cm]~1[m]左右的隔开配置的两个话筒的声音的振幅比,基于对应于该振幅比而预先计算的权重函数来进行附近场声的增强。图30是表示专利文献1中公开的音响处理装置的内部结构的方框图。
在图30中,除法器1614输入由第1振幅提取器1613A算出的话筒1601A的振幅值,以及由第2振幅提取器1613B算出的话筒1601B的振幅值。接着,除法器1614基于话筒1601A的振幅值和话筒1601B的振幅值,获得话筒A、B间的振幅比。系数计算器1615计算与除法器1614算出的振幅比对应的加权系数。附近场声源分离装置1602根据由系数计算器1615算出的振幅比的值,使用预先算出的权重系数,进行附近场的声音的增强处理。
现有技术文献
专利文献
专利文献1:日本特开2009-36810号公报
发明内容
发明要解决的课题
但是,使用上述的附近场声源分离装置1602,在要增强位于用户附近的声源或说话者的声音的情况下,需要在话筒1601A、1601B之间获得大的振幅比。为此,两个话筒1601A、1601B需要隔开相当大的间隔来配置。因此,特别地在话筒的间隔为从数[mm](毫米)至数[cm](厘米)的范围内,难以应用在所配置的小型的音响处理装置上。
特别地在低频频带中,由于两个话筒间的振幅比小,所以难以适当地判别位于用户附近的声源或说话者和位于距用户远的位置的声源或说话者。
本发明鉴于上述以往的情况而完成,其目的在于,提供无论话筒的配置间隔如何,都有效地增强用户附近的说话者的声音的音响处理装置、音响处理方法及助听器。
用于解决课题的方案
本发明的音响处理装置包括:第1指向性形成单元,其使用多个无指向性话筒的各自的输出信号,输出在说话者方向上形成了指向性的主轴的第1指向性信号;第2指向性形成单元,其使用所述多个无指向性话筒的各自的输出信号,输出在说话者方向上形成了指向性的死角的第2指向性信号;第1电平计算单元,其计算由所述第1指向性形成单元输出的第1指向性信号的电平;第2电平计算单元,其计算由所述第2指向性形成单元输出的第2指向性信号的电平(level);说话者远近判定单元,其基于由所述第1电平计算单元及第2电平计算单元算出的所述第1指向性信号的电平及所述第2指向性信号的电平,判定与所述说话者的远近;增益导出单元,其根据所述说话者远近判定单元的结果,导出对所述第1指向性信号提供的增益;以及电平控制单元,其使用由所述增益导出单元导出的增益,控制所述第1指向性信号的电平。
而且,本发明的音响处理方法包括:使用多个无指向性话筒的各自的输出信号,输出在说话者方向上形成了指向性的主轴的第1指向性信号的步骤;使用所述多个无指向性话筒的各自的输出信号,输出在说话者方向上形成了指向性的死角的第2指向性信号的步骤;计算所述输出的第1指向性信号的电平的步骤;计算所述输出的第2指向性信号的电平的步骤;基于所述计算的所述第1指向性信号的电平及所述第2指向性信号的电平,判定与所述说话者的远近的步骤;根据所述判定出的与所述说话者的远近,导出对所述第1指向性信号提供的增益的步骤;以及使用所述导出的增益,控制所述第1指向性信号的电平的步骤。
而且,本发明的助听器包括上述音响处理装置。
发明效果
根据本发明的音响处理装置、音响处理方法及助听器,无论话筒的配置间隔如何,都可以有效地增强位于用户附近的说话者的声音。
附图说明
图1是表示第1实施方式的音响处理装置的内部结构的方框图。
图2是表示一例由第1指向性话筒输出的声音波形及由第1电平计算单元算出的电平的时间变化的图,图2的(a)是表示由第1指向性话筒输出的声音波形的时间变化的图,图2的(b)是表示由第1电平计算单元算出的电平的时间变化的图。
图3是表示一例由第2指向性话筒输出的声音波形及由第2电平计算单元算出的电平的时间变化的图,图3的(a)是表示由第2指向性话筒输出的声音波形的时间变化的图,图3的(b)是表示由第2电平计算单元算出的电平的时间变化的图。
图4是表示一例算出的电平差和瞬时增益之间的关系的图。
图5是说明第1实施方式的音响处理装置的动作的流程图。
图6是说明第1实施方式的音响处理装置的增益导出单元的增益导出处理的流程图。
图7是表示第2实施方式的音响处理装置的内部结构的方框图。
图8是表示第1指向性形成单元及第2指向性形成单元的内部结构的方框图。
图9是表示一例由第1指向性形成单元输出的声音波形及由第1电平计算单元算出的电平的时间变化的图,图9的(a)是表示由第1指向性形成单元输出的声音波形的时间变化的图,图9的(b)是表示由第1电平计算单元算出的电平的时间变化的图。
图10是表示一例由第2指向性形成单元输出的声音波形及由第2电平计算单元算出的电平的时间变化的图,图10的(a)是表示由第2指向性形成单元输出的声音波形的时间变化的图,图10的(b)是表示由第2电平计算单元算出的电平的时间变化的图。
图11是表示一例与说话者的距离、由第1电平计算单元算出的电平和由第2电平计算单元算出的电平的电平差之间的关系的图。
图12是说明第1实施方式的音响处理装置的动作的流程图。
图13是表示第2实施方式的音响处理装置的内部结构的方框图。
图14是表示第2实施方式的音响处理装置的声音区间检测单元的内部结构的方框图。
图15是表示由第1指向性形成单元输出的声音信号的波形、由声音区间检测单元的检测结果、及由第3电平计算单元算出的电平和估计噪声电平之间的比较结果的时间变化的图,图15的(a)是表示由第1指向性形成单元输出的声音信号的波形的时间变化的图,图15的(b)是表示由声音区间检测单元检测出的声音区间检测结果的时间变化的图,图15的(c)是表示通过声音区间检测单元,对由第1指向性形成单元输出的声音信号的波形的电平和由声音区间检测单元算出的估计噪声电平进行比较的图。
图16是说明第2实施方式的音响处理装置的动作的流程图。
图17是表示第3实施方式的音响处理装置的内部结构的方框图。
图18是表示第3实施方式的音响处理装置的远近判定阈值设定单元的内部结构的方框图。
图19是说明第3实施方式的音响处理装置的动作的流程图。
图20是表示第4实施方式的音响处理装置的内部结构的方框图。
图21是表示一例以同一时间轴表示远近判定结果信息和自身说话声音判定结果信息的图。
图22是表示另一例以同一时间轴表示远近判定结果信息和自身说话声音判定结果信息的图。
图23是说明第4实施方式的音响处理装置的动作的流程图。
图24是表示第5实施方式的音响处理装置的内部结构的方框图。
图25是表示第5实施方式的音响处理装置的非线性放大单元的内部结构的方框图。
图26是表示对用户的听觉特性进行补偿的电平的输入输出特性。
图27是说明第5实施方式的音响处理装置的动作的流程图。
图28是说明第5实施方式的音响处理装置的非线性放大单元的动作的流程图。
图29是说明第5实施方式的音响处理装置的非线性放大单元的频带增益设定单元的动作的流程图。
图30是表示一例以往的音响处理装置的内部结构的方框图。
标号说明
10音响处理装置
20音响处理装置
30音响处理装置
40音响处理装置
50音响处理装置
1101指向性收音单元
1102话筒阵列
1103第1指向性形成单元
1104第2指向性形成单元
103第1电平计算单元
104第2电平计算单元
105说话者远近判定单元
106增益导出单元
107电平控制单元
1201-1无指向性话筒
1201-2无指向性话筒
1202延迟器
1203运算器
1204EQ
501声音区间检测单元
601第3电平计算单元
602估计噪声电平计算单元
603电平比较单元
604声音区间判定单元
801自身说话声音判定单元
802远近判定阈值设定单元
901自适应滤波器
902延迟器
903差信号计算单元
904判定阈值设定单元
1001谈话对方判定单元
3101非线性放大单元
3201频带分割单元
3202频带信号控制单元
3202-1频带电平计算单元
3202-2频带增益设定单元
3202-3频带增益控制单元
3203频带合成单元
具体实施方式
以下,对于本发明的各实施方式,参照附图进行说明。在各实施方式中,说明将本发明的音响处理装置应用于助听器的例子。因此,假设将音响处理装置安装在用户的耳朵,说话者在用户的大致正前方。
(第1实施方式)
图1是表示第1实施方式的音响处理装置10的内部结构的方框图。如图1所示,音响处理装置10包括第1指向性话筒101、第2指向性话筒102、第1电平计算单元103、第2电平计算单元104、说话者远近判定单元105、增益导出单元106、以及电平控制单元107。
(第1实施方式的音响处理装置10的内部结构)
第1指向性话筒101是在说话者方向上具有指向性的主轴的单一指向性话筒,主要将说话者的声音的直接声进行收音。第1指向性话筒101将该收音的声音信号x1(t)分别输出到第1电平计算单元103及电平控制单元107。
第2指向性话筒102是在说话者方向上具有指向性的死角的单一指向性话筒或双指向性话筒,不对说话者的声音的直接声进行收音,而主要对通过房屋的墙面等的反射产生的说话者的声音的混响声进行收音。第2指向性话筒102将该收音的声音信号x2(t)输出到第2电平计算单元104。此外,第1指向性话筒101和第2指向性话筒102的配置间隔从数[mm]至数[cm]左右的距离。
第1电平计算单元103获取由第1指向性话筒101输出的声音信号x1(t),计算该获取的声音信号x1(t)的电平Lx1(t)[dB]。第1电平计算单元103将该算出的声音信号x1(t)的电平Lx1(t)输出到说话者远近判定单元105。算式(1)表示一例由第1电平计算单元103算出的电平Lx1(t)的计算式。
Lx 1 ( t ) = 10 log 10 ( τ · 1 N Σ n = 0 N - 1 x 1 2 ( t - n ) + ( 1 - τ ) · 10 Lx 1 ( t - 1 ) / 10 ) . . . ( 1 )
在算式(1)中,N是用于电平计算所需的样本数。例如,在采样周期为8[kHz]、用于电平计算的分析时间为20[毫秒]的情况下,样本数N为N=160。此外,τ表示时间常数,取0<τ≤1的值,被预先确定。为了尽快地跟踪声音的上升,时间常数τ在如下算式(2)所示
10 log 10 ( 1 N Σ n = 0 N - 1 x 1 2 ( t - n ) ) > Lx 1 ( t - 1 ) . . . ( 2 )
的关系成立的情况下使用小的时间常数。另一方面,在上述算式(2)所示的关系不成立的情况下(算式(3)),在声音的子音区间或句节间,为了减轻电平的下降而使用大的时间常数。
10 log 10 ( 1 N Σ n = 0 N - 1 x 1 2 ( t - n ) ) ≤ Lx 1 ( t - 1 ) . . . ( 3 )
图2表示由第1指向性话筒101输出的声音波形和第1电平计算单元103计算时的电平Lx1(t)。再有,电平Lx1(t)是第1电平计算单元103将算式(2)的情况下的时间常数设为100[毫秒]、将算式(3)的情况下的时间常数设为400[毫秒]进行计算的例子。
图2的(a)是表示由第1指向性话筒101输出的声音波形的时间变化的图,图2的(b)是表示由第1电平计算单元103算出的电平的时间变化的图。在图2的(a)中,纵轴表示振幅,横轴表示时间[秒]。在图2的(b)中,纵轴表示电平,横轴表示时间[秒]。
第2电平计算单元104获取由第2指向性话筒102输出的声音信号x2(t),计算该获取的声音信号x2(t)的电平Lx2(t)。第2电平计算单元104将该算出的声音信号x2(t)的电平Lx2(t)输出到说话者远近判定单元105。由第2电平计算单元104算出的电平Lx2(t)的算式与计算电平Lx1(t)的算式(1)是相同的。
图3表示由第2指向性话筒102输出的声音波形、以及第2电平计算单元104计算时的电平Lx2(t)。再有,电平Lx2(t)是第2电平计算单元104将算式(2)的情况下的时间常数设为100[毫秒]、将算式(3)的情况下的时间常数设为400[毫秒]进行计算的例子。
图3的(a)是表示由第2指向性话筒102输出的声音波形的时间变化的图。此外,图3的(b)是表示由第2电平计算单元104算出的电平的时间变化的图。在图3的(a)中,纵轴表示振幅,横轴表示时间[秒]。在图3的(b)中,纵轴表示电平,横轴表示时间[秒]。
说话者远近判定单元105获取由第1电平计算单元103算出的声音信号x1(t)的电平Lx1(t)、以及由第2电平计算单元104算出的声音信号x2(t)的电平Lx2(t)。说话者远近判定单元105基于这些获取的电平Lx1(t)及电平Lx2(t),判定说话者是否在距用户近的位置。说话者远近判定单元105将作为该判定结果的远近判定结果信息输出到增益导出单元106。
具体地说,说话者远近判定单元105输入由第1电平计算单元103算出的声音信号x1(t)的电平Lx1(t)、以及由第2电平计算单元104算出的声音信号x2(t)的电平Lx2(t)。接着,说话者远近判定单元105计算作为声音信号x1(t)的电平Lx1(t)和声音信号x2(t)的电平Lx2(t)之间的差分的电平差ΔLx(t)=Lx1(t)-Lx2(t)。
说话者远近判定单元105基于该算出的电平差ΔLx(t),判定说话者是否在用户的附近。作为表示说话者距用户近的位置的距离,例如,说话者和用户之间的距离为2[m]以内的情况是适当的。但是,表示说话者在距用户近的位置的距离不限定为2[m]以内。
在电平差ΔLx(t)为预先设定的第1阈值β1以上的情况下,说话者远近判定单元105判定为说话者在距用户近的位置。第1阈值β1例如为12[dB]。此外,在电平差ΔLx(t)低于预先设定的第2阈值β2的情况下,说话者远近判定单元105判定为说话者在距用户远的位置。
第2阈值β2例如为8[dB]。此外,在电平差ΔLx(t)为第2阈值β2以上,并且低于第1阈值β1的情况下,说话者远近判定单元105判定为说话者位于距用户稍远的位置。
说话者远近判定单元105在ΔLx(t)≥β1的情况下,将表示说话者位于距用户近的位置的远近判定结果信息‘1’输出到增益导出单元106。远近判定结果信息‘1’表示由第1指向性话筒101收音的直接声多,由第2指向性话筒102收音的混响声少。
说话者远近判定单元105在ΔLx(t)<β2的情况下,输出表示说话者位于距用户远的位置的远近判定结果信息‘-1’。远近判定结果信息‘-1’表示由第1指向性话筒101收音的直接声少,由第2指向性话筒102收音的混响声多。
说话者远近判定单元105在β2≤ΔLx(t)<β1的情况下,将表示说话者位于距用户稍远的位置的远近判定结果信息‘0’输出。
这里,仅以第1电平计算单元103算出的电平Lx1(t)的大小来判定说话者的远近,该判定的精度不是高效率的。在第1指向性话筒101的特性上,仅以电平Lx1(t)的大小,难以判定距用户远的位置的人以大的音量说话的情况和位于距该用户近的位置的人以通常的音量说话的情况的哪种情况。
第1指向性话筒101及第2指向性话筒102的特性如下。在说话者距用户近的情况下,由第1指向性话筒101输出的声音信号x1(t)相对地大于由第2指向性话筒102输出的声音信号x2(t)。
而在说话者距用户远的情况下,由第1指向性话筒101输出的声音信号x1(t)和由第2指向性话筒102输出的声音信号x2(t)几乎不变。特别地,在混响多的房间中使用的情况下,这种倾向十分明显。
因此,说话者远近判定单元105仅以第1电平计算单元103算出的电平Lx1(t)的大小,判定不了说话者距用户近还是远。因此,说话者远近判定单元105基于主体地收音了直接声的声音信号x1(t)的电平Lx1(t)和主体地收音了混响声的声音信号x2(t)的电平Lx2(t)之差,判定说话者的远近。
增益导出单元106基于由说话者远近判定单元105输出的远近判定结果信息,导出对由第1指向性话筒101输出的声音信号x1(t)的增益α(t)。增益导出单元106将该导出的增益α(t)输出到电平控制单元107。
增益α(t)基于远近判定结果信息或电平差ΔLx(t)来决定。图4是表示一例由说话者远近判定单元105算出的电平差ΔLx(t)和增益α(t)之间关系的图。
如图4所示,在远近判定结果信息为‘1’的情况下,说话者在距用户近的位置作为该用户的谈话对方的可能性高,所以被赋予增益α1作为对声音信号x1(t)的增益α(t)。在增益α1上,例如通过被设定为‘2.0’,声音信号x1(t)被相对地增强。
此外,在远近判定结果信息为‘-1’的情况下,说话者在距用户远的位置作为该用户的谈话对方的可能性低,所以被赋予增益α2作为对声音信号x1(t)的增益α(t)。在增益α2上,例如通过被设定为‘0.5’,声音信号x1(t)被相对地衰减。
此外,在远近判定结果信息为‘0’的情况下,对声音信号x1(t)不进行特别增强也不进行特别衰减,所以赋予‘1.0’作为增益α(t)。
这里,为了减轻因增益α(t)急剧地变化而对声音信号x1(t)产生的失真,在上述说明中作为增益α(t)导出的值,作为瞬时性的增益α’(t)被赋予。增益导出单元106根据下述算式(4),最终地进行增益α(t)的计算。此外,在算式(4)中,τα表示时间常数,取0<τα≤1的值,且被预先决定。
α(t)=τα·α’(t)+(1-τα)·α(t-1)    ...(4)
电平控制单元107获取由增益导出单元106根据上述算式(4)导出的增益α(t)、以及由第1指向性话筒101输出的声音信号x1(t)。电平控制单元107生成将对于由第1指向性话筒101输出的声音信号x1(t)乘以了由增益导出单元106导出的增益α(t)后的输出信号y(t)。
(第1实施方式的音响处理装置10的动作)
下面,参照图5说明第1实施方式的音响处理装置10的动作。图5是说明第1实施方式的音响处理装置10的动作的流程图。
第1指向性话筒101将说话者的声音的直接声进行收音(S101)。同时,第2指向性话筒102将说话者的声音的混响声进行收音(S102)。由第1指向性话筒101及第2指向性话筒102分别进行的声音的收音处理,以相同的定时(timing)进行。
第1指向性话筒101将该收音的声音信号x1(t)分别输出到第1电平计算单元103及电平控制单元107。而第2指向性话筒102将该收音的声音信号x2(t)输出到第2电平计算单元104。
第1电平计算单元103获取由第1指向性话筒101输出的声音信号x1(t),计算该获取的声音信号x1(t)的电平Lx1(t)(S103)。同时,第2电平计算单元104获取由第2指向性话筒102输出的声音信号x2(t),计算该获取的声音信号x2(t)的电平Lx2(t)(S104)。
第1电平计算单元103将该算出的电平Lx1(t)输出到说话者远近判定单元105。而第2电平计算单元104将该算出的电平Lx2(t)输出到说话者远近判定单元105。
说话者远近判定单元105获取由第1电平计算单元103算出的电平Lx1(t)、以及由第2电平计算单元104算出的电平Lx2(t)。
说话者远近判定单元105基于这些获取的电平Lx1(t)及电平Lx2(t)之间的电平差ΔLx(t),判定说话者是否位于距用户近的位置(S105)。说话者远近判定单元105将作为该判定结果的远近判定结果信息输出到增益导出单元106。
增益导出单元106获取由说话者远近判定单元105输出的远近判定结果信息。增益导出单元106基于由说话者远近判定单元105输出的远近判定结果信息,导出对由第1指向性话筒101输出的声音信号x1(t)的增益α(t)(S106)。
后面论述该增益α(t)的导出的细节。增益导出单元106将该导出的增益α(t)输出到电平控制单元107。
电平控制单元107获取由增益导出单元106导出的增益α(t)、以及由第1指向性话筒101输出的声音信号x1(t)。电平控制单元107生成将对于第1指向性话筒101输出的声音信号x1(t)乘以了由增益导出单元106导出的增益α(t)后的输出信号y(t)(S107)。
(增益导出处理的细节)
有关增益导出单元106基于由说话者远近判定单元105输出的远近判定结果信息,导出对声音信号x1(t)的增益α(t)的处理的细节,参照图6进行说明。图6是说明增益导出单元106的动作细节的流程图。
在远近判定结果信息为‘1’,即电平差ΔLx(t)≥β1的情况下(S1061为“是”),作为对声音信号x1(t)的瞬时增益α’(t)被导出‘2.0’(S1062)。在远近判定结果信息为‘-1’,即电平差ΔLx(t)<β2的情况下(S1063为“是”),作为对声音信号x1(t)的瞬时增益α’(t)被导出‘0.5’(S1064)。
在远近判定结果信息为‘0’,即β2≤电平差ΔLx(t)<β1的情况下(S1063为“否”),作为瞬时增益α’(t)被导出‘1.0’(S1065)。在瞬时增益α’(t)被导出后,增益导出单元106根据上述算式(4)进行增益α(t)的计算(S1066)。
如以上那样,在第1实施方式的音响处理装置中,即使在使用了配置间隔从数[mm]到数[cm]左右的第1指向性话筒及第2指向性话筒的情况下,仍判定说话者位于距用户近的位置还是远的位置。具体地说,本实施方式中,从配置间隔为数[mm]到数[cm]左右的第1指向性话筒及第2指向性话筒,根据分别收音的声音信号x1(t)及x2(t)的电平差ΔLx(t)的大小,判定说话者的距离。
根据该判定结果算出的增益乘以输出到对说话者的直接声进行收音的第1指向性话筒的声音信号,进行电平的控制。
因此,谈话对方等那样距用户位于近的位置的说话者的声音被增强,相反地,位于距用户远的位置的说话者的声音被衰减或被抑制。其结果,无论话筒的配置间隔如何,可以为了清楚并且有效地听见仅位于用户近的谈话对方的声音而对其进行增强。
(第2实施方式)
图7是表示第2实施方式的音响处理装置11的内部结构的方框图。在图7中,对与图1相同的结构元素使用相同的标号,省略该结构元素的说明。如图7所示,音响处理装置11包括指向性收音单元1101、第1电平计算单元103、第2电平计算单元104、说话者远近判定单元105、增益导出单元106、以及电平控制单元107。
(第2实施方式的音响处理装置11的内部结构)
如图7所示,指向性收音单元1101包括话筒阵列1102、第1指向性形成单元1103及第2指向性形成单元1104。
话筒阵列1102是配置了多个无指向性话筒的阵列。图7的结构是一例由两个无指向性话筒构成了阵列的情况。两个无指向性话筒的间隔D是根据必要的频带或设置空间的制约而决定的任意的值。这里,从频带的观点来说,考虑D=5mm~30mm左右的范围。
第1指向性形成单元1103使用由话筒阵列1102的两个无指向性话筒输出的声音信号,形成在说话者方向上具有指向性的主轴的指向性,主要对说话者的声音的直接声进行收音。第1指向性形成单元1103将进行了指向性的形成的声音信号x1(t)分别输出到第1电平计算单元103及电平控制单元107。
第2指向性形成单元1104使用由话筒阵列1102的两个无指向性话筒输出的声音信号,形成在说话者方向上具有指向性的死角的指向性。接着,第2指向性形成单元1104不对说话者的声音的直接声进行收音,而主要对因房屋的墙面等的反射产生的说话者的声音的混响声进行收音。第2指向性形成单元1104将进行了指向性的形成的声音信号x2(t)输出到第2电平计算单元104。
作为指向性的形成的方法,一般地,采用音压梯度型或加法运算型。这里,关于指向性形成的一例,参照图8进行说明。图8是表示图7所示的指向性收音单元1101的内部结构的方框图,是说明音压梯度型的指向性的形成法的图。如图8所示,在话筒阵列1102上,使用两个无指向性话筒1201-1、1201-2。
第1指向性形成单元1103由延迟器1202、运算器1203及EQ1204构成。
延迟器1202获取由无指向性话筒1201-2输出的声音信号,将该获取的声音信号延迟规定量。该延迟器1202造成的延迟量在将话筒间隔设为D[m]、音速设为c[m/s]的情况下,例如成为与延迟时间D/c[s]相当的值。延迟器1202将延迟了规定量的声音信号输出到运算器1203。
运算器1203分别获取由无指向性话筒1201-1输出的声音信号、以及由延迟器1202延迟过的声音信号。运算器1203计算从无指向性话筒1201-1输出的声音信号中减去由延迟器1202延迟过的声音信号后的差,将该算出的声音信号输出到EQ1204。
均衡器EQ1204主要对由运算器1203输出的声音信号的低频频带进行补偿。通过运算器1203,在由无指向性话筒1201-1输出的声音信号和由延迟器1202延迟过的声音信号之差上,低频频带的信号变小。因此,为了使说话者方向的频率特性平坦而插入EQ1204。
第2指向性形成单元1104由延迟器1205、运算器1206及EQ1207构成。第2指向性形成单元1104,输入信号与第1指向性形成单元1103相反。
延迟器1205获取由无指向性话筒1201-1输出的声音信号,将该获取的声音信号延迟规定量。该延迟器1205造成的延迟量在将话筒间隔设为D[m]、音速设为c[m/s]的情况下,例如成为与延迟时间D/c[s]相当的值。延迟器1205将延迟了规定量的声音信号输出到运算器1206。
运算器1206分别获取由无指向性话筒1201-2输出的声音信号、以及由延迟器1205延迟过的声音信号。运算器1206计算由无指向性话筒1201-2输出的声音信号和由延迟器1205延迟过的声音信号之间的差分,将该算出的声音信号输出到EQ1207。
均衡器EQ1207主要对由运算器1206输出的声音信号的低频频带进行补偿。通过运算器1206,在由无指向性话筒1201-2输出的声音信号和由延迟器1205延迟过的声音信号之间的差分上,低频频带的信号变小。因此,为了使说话者方向的频率特性平坦而插入EQ1207。
第1电平计算单元103获取由第1指向性形成单元1103输出的声音信号x1(t),根据上述算式(1)计算该获取的声音信号x1(t)的电平Lx1(t)[dB]。第1电平计算单元103将该算出的声音信号x1(t)的电平Lx1(t)输出到说话者远近判定单元105。
在上述算式(1)中,N是为了电平计算所需的样本数。例如,在采样频率为8[kHz]、用于电平计算的分析时间为20[毫秒]的情况下,样本数N为N=160。
此外,τ表示时间常数,取0<τ≤1的值,被预先确定。为了尽快地跟踪声音的上升,时间常数τ在上述算式(2)所示的关系成立的情况下,使用小的时间常数。
另一方面,在上述算式(2)所示的关系不成立的情况下(上述算式(3)),在声音的子音区间或句节间,为了减轻电平的下降而使用大的时间常数。
图9表示由第1指向性形成单元1103输出的声音波形、以及第1电平计算单元103计算时的电平Lx1(t)。再有,算出的电平Lx1(t)是第1电平计算单元103在上述算式(2)中将时间常数设为100[毫秒]、在上述算式(3)中将时间常数设为400[毫秒]的例子。
图9的(a)是表示由第1指向性形成单元1103输出的声音波形的时间变化的图,图9的(b)是表示由第1电平计算单元103算出的电平的时间变化的图。在图9的(a)中,纵轴表示振幅,横轴表示时间[秒]。在图9的(b)中,纵轴表示电平,横轴表示时间[秒]。
第2电平计算单元104获取由第2指向性形成单元1104输出的声音信号x2(t),计算该获取的声音信号x2(t)的电平Lx2(t)。第2电平计算单元104将该算出的声音信号x2(t)的电平Lx2(t)输出到说话者远近判定单元105。由第2电平计算单元104算出的电平Lx2(t)的算式与计算电平Lx1(t)的算式(1)是相同的。
图10表示由第2指向性形成单元1104输出的声音波形、以及第2电平计算单元104计算时的电平Lx2(t)。再有,算出的电平Lx2(t)是第2电平计算单元104在上述算式(2)中将时间常数设为100[毫秒]、在上述算式(3)中将时间常数设为400[毫秒]的例子。
图10的(a)是表示由第2指向性形成单元1104输出的声音波形的时间变化的图,而图10的(b)是表示由第2电平计算单元104算出的电平的时间变化的图。在图10的(a)中,纵轴表示振幅,横轴表示时间[秒]。在图10的(b)中,纵轴表示电平,横轴表示时间[秒]。
说话者远近判定单元105获取由第1电平计算单元103算出的声音信号x1(t)的电平Lx1(t)、以及由第2电平计算单元104算出的声音信号x2(t)的电平Lx2(t)。说话者远近判定单元105基于这些获取的电平Lx1(t)及电平Lx2(t),判定说话者是否位于距用户近的位置。说话者远近判定单元105将作为该判定结果的远近判定结果信息输出到增益导出单元106。
具体地说,说话者远近判定单元105输入由第1电平计算单元103算出的声音信号x1(t)的电平Lx1(t)、以及由第2电平计算单元104算出的声音信号x2(t)的电平Lx2(t)。接着,说话者远近判定单元105计算作为声音信号x1的电平Lx1(t)和声音信号x2的电平Lx2(t)之间的差分的电平差ΔLx(t)=Lx1(t)-Lx2(t)。
说话者远近判定单元105基于该算出的电平差ΔLx(t),判定说话者是否在用户的附近。作为表示说话者距用户近的位置的距离,例如,说话者和用户之间的距离为2[m]以内的情况是适当的。但是,表示说话者在距用户近的位置的距离不限定为2[m]以内。
在电平差ΔLx(t)为预先设定的第1阈值β1以上的情况下,说话者远近判定单元105判定为说话者在距用户近的位置。第1阈值β1例如为12[dB]。此外,在电平差ΔLx(t)低于预先设定的第2阈值β2的情况下,说话者远近判定单元105判定为说话者在距用户远的位置。
第2阈值β2例如为8[dB]。此外,在电平差ΔLx(t)为第2阈值β2以上,并且低于第1阈值β1的情况下,说话者远近判定单元105判定为说话者位于距用户稍远的位置。
作为一例,图11是以曲线表示了使用由实际的两个无指向性话筒收录的数据,根据上述方法算出的电平差ΔLx(t)、用户和说话者之间的距离的关系的图。根据图11,可以确认随着说话者距用户变远,电平差ΔLx(t)下降。此外,在将第1阈值β1、第2阈值β2分别设定为上述的值(β1=12[dB]、β2=8[dB])的情况下,可以将约2[m]以内的说话者的声音增强,可以将约4[m]以上的说话者的声音衰减。
说话者远近判定单元105在ΔLx(t)≥β1的情况下,将表示说话者位于距用户近的位置的远近判定结果信息‘1’输出到增益导出单元106。远近判定结果信息‘1’表示由第1指向性话筒1103收音的直接声多,由第2指向性话筒1104收音的混响声少。
说话者远近判定单元105在ΔLx(t)<β2的情况下,输出表示说话者位于距用户远的位置的远近判定结果信息‘-1’。远近判定结果信息‘-1’表示由第1指向性话筒1103收音的直接声少,由第2指向性话筒1104收音的混响声多。
说话者远近判定单元105在β2≤ΔLx(t)<β1的情况下,将表示说话者位于距用户稍远的位置的远近判定结果信息‘0’输出。
这里,与第1实施方式同样,仅以第1电平计算单元103算出的电平Lx1(t)的大小来判定说话者的远近,该判定的精度不是高效率的。在第1指向性形成单元1103的特性上,仅以电平Lx1(t)的大小,难以判定距用户远的位置的人以大的音量说话的情况和位于距该用户近的位置的人以通常的音量说话的情况的哪种情况。
第1指向性形成单元1103及第2指向性形成单元1104的特性如下。在说话者距用户近的情况下,由第1指向性形成单元1103输出的声音信号x1(t)相对地大于由第2指向性形成单元1104输出的声音信号x2(t)。
而在说话者距用户远的情况下,由第1指向性形成单元1103输出的声音信号x1(t)和由第2指向性形成单元1104输出的声音信号x2(t)几乎不变。特别地,在混响多的房间中使用的情况下,这种倾向十分明显。
因此,说话者远近判定单元105仅以第1电平计算单元103算出的电平Lx1(t)的大小,判定不了说话者距用户近还是远。因此,说话者远近判定单元105基于主体地收音了直接声的声音信号x1(t)的电平Lx1(t)和主体地收音了混响声的声音信号x2(t)的电平Lx2(t)之间的差分,判定说话者的远近。
增益导出单元106基于由说话者远近判定单元105输出的远近判定结果信息,导出对由第1指向性形成单元1103输出的声音信号x1(t)的增益α(t)。增益导出单元106将该导出的增益α(t)输出到电平控制单元107。
增益α(t)基于远近判定结果信息或电平差ΔLx(t)来决定。由说话者远近判定单元105算出的电平差ΔLx(t)和增益α(t)之间关系与第1实施方式中图4所示的关系是相同的。
如图4所示,在远近判定结果信息为‘1’的情况下,说话者在距用户近的位置作为该用户的谈话对方的可能性高,所以被赋予增益α1作为对声音信号x1(t)的增益α(t)。在增益α1上,例如通过被设定为‘2.0’,声音信号x1(t)被相对地增强。
此外,在远近判定结果信息为‘-1’的情况下,说话者在距用户远的位置作为该用户的谈话对方的可能性低,所以被赋予增益α2作为对声音信号x1(t)的增益α(t)。在增益α2上,例如通过被设定为‘0.5’,声音信号x1(t)被相对地衰减。
此外,在远近判定结果信息为‘0’的情况下,对声音信号x1(t)不进行特别增强也不进行特别衰减,所以赋予‘1.0’作为增益α(t)。
这里,为了减轻因增益α(t)急剧地变化而对声音信号x1(t)产生的失真,在上述说明中作为增益α(t)导出的值,作为瞬时性的增益α’(t)被赋予。增益导出单元106根据下述算式(4),进行增益α(t)的计算。此外,在算式(4)中,τα表示时间常数,取0<τα≤1的值,且被预先决定。
电平控制单元107获取由增益导出单元106根据上述算式(4)导出的增益α(t)、以及由第1指向性形成单元1103输出的声音信号x1(t)。电平控制单元107生成将对于由第1指向性形成单元1103输出的声音信号x1(t)乘以了由增益导出单元106导出的增益α(t)后的输出信号y(t)。
(第2实施方式的音响处理装置11的动作)
下面,参照图12说明第2实施方式的音响处理装置11的动作。图12是说明第2实施方式的音响处理装置11的动作的流程图。
对由指向性收音单元1101的话筒阵列1102分别输出的声音信号,第1指向性形成单元1103形成与来自说话者的直接声成分有关的指向性(S651)。第1指向性形成单元1103将形成了该指向性的声音信号分别输出到第1电平计算单元103及电平控制单元107。
同时,对由指向性收音单元1101的话筒阵列1102分别输出的声音信号,第2指向性形成单元1104形成与来自说话者的混响声成分有关的指向性(S652)。第2指向性形成单元1104将形成了该指向性的声音信号输出到第2电平计算单元104。
第1电平计算单元103获取由第1指向性形成单元1103输出的声音信号x1(t),计算该获取的声音信号x1(t)的电平Lx1(t)(S103)。同时,第2电平计算单元104获取由第2指向性形成单元1104输出的声音信号x2(t),计算该获取的声音信号x2(t)的电平Lx2(t)(S104)。
第1电平计算单元103将该算出的电平Lx1(t)输出到说话者远近判定单元105。而第2电平计算单元104将该算出的电平Lx2(t)输出到说话者远近判定单元105。
说话者远近判定单元105获取由第1电平计算单元103算出的电平Lx1(t)、以及由第2电平计算单元104算出的电平Lx2(t)。
说话者远近判定单元105基于这些获取的电平Lx1(t)及电平Lx2(t)之间的电平差ΔLx(t),判定说话者是否位于距用户近的位置(S105)。说话者远近判定单元105将作为该判定结果的远近判定结果信息输出到增益导出单元106。
增益导出单元106获取由说话者远近判定单元105输出的远近判定结果信息。增益导出单元106基于由说话者远近判定单元105输出的远近判定结果信息,导出对由第1指向性形成单元1103输出的声音信号x1(t)的增益α(t)(S106)。
该增益α(t)的导出的细节,在第1实施方式中参照图6进行了说明,所以省略该说明。增益导出单元106将该导出的增益α(t)输出到电平控制单元107。
电平控制单元107获取由增益导出单元106导出的增益α(t)、以及由第1指向性形成单元1103输出的声音信号x1(t)。电平控制单元107生成将对于第1指向性形成单元1103输出的声音信号x1(t)乘以了由增益导出单元106导出的增益α(t)后的输出信号y(t)(S107)。
如以上那样,在第2实施方式的音响处理装置中,通过多个无指向性话筒的配置间隔从数[mm]至数[cm]左右的话筒阵列来收音。其次,该装置根据由第1指向性形成单元及第2指向性形成单元分别形成了指向性的声音信号x1(t)、x2(t)的电平差ΔLx(t)的大小,来判定说话者距用户位于近的位置还是远的位置。
根据该判定结果算出的增益乘以输出到对说话者的直接声进行收音的第1指向性形成单元的声音信号,进行电平的控制。
因此,在第2实施方式中,谈话对方等那样距用户位于近的位置的说话者的声音被增强,相反地,距用户位于远的位置的说话者的声音被衰减或被抑制。其结果,无论话筒的配置间隔如何,可以为了清楚并且有效地听见仅位于用户附近的谈话对方的声音而对其进行增强。
而且,在第2实施方式中,通过增加构成话筒阵列的无指向性话筒的个数,在说话者方向上可形成尖锐的指向性,可以高精度地判定说话者的远近。
(第3实施方式)
图13是表示第3实施方式的音响处理装置12的内部结构的方框图。如图13所示,第3实施方式的音响处理装置12与第2实施方式的音响处理装置11不同的方面是,还包括声音区间检测单元501的结构元素。在图13中,对与图7相同的结构元素使用相同的标号,省略该结构元素的说明。
(第3实施方式的音响处理装置12的内部结构)
声音区间检测单元501获取由第1指向性形成单元1103输出的声音信号x1(t)。声音区间检测单元501使用由第1指向性形成单元1103输出的声音信号x1(t),检测不包含音响处理装置12的用户的说话者发出声音的区间。声音区间检测单元501将该检测出的声音区间检测结果信息输出到说话者远近判定单元105。
图14表示一例声音区间检测单元501的内部结构的方框图。如图14所示,声音区间检测单元501包括第3电平计算单元601、估计噪声电平计算单元602、电平比较单元603及声音区间判定单元604。
第3电平计算单元601根据上述算式(1),计算由第1指向性形成单元1103输出的声音信号x1(t)的电平Lx3(t)。再有,估计噪声电平计算单元602及电平比较单元603也可以分别输入由第1电平计算单元103算出的声音信号x1(t)的电平Lx1(t)来替换电平Lx3(t)。
这种情况下,声音区间检测单元501不需要具有第3电平计算单元601,只要Lx3(t)=Lx1(t)即可。第3电平计算单元601将该算出的电平Lx3(t)分别输出到估计噪声电平计算单元602及电平比较单元603。
估计噪声电平计算单元602获取由第3电平计算单元601输出的电平Lx3(t)。估计噪声电平计算单元602计算对该获取的电平Lx3(t)的估计噪声电平Nx(t)[dB]。算式(5)表示一例由估计噪声电平计算单元602计算的估计噪声电平Nx(t)的算式。
Nx(t)=10log10N·10Lx3(t)/10+(1-τN)·10Nx(t-1)/10)    ...(5)
在算式(5)中,τN是时间常数,取0<τN≤1的值,其被预先决定。时间常数τN,在声音区间中,Lx3(t)>Nx(t-1)时采用大的时间常数,以使估计噪声电平Nx(t)不上升。估计噪声电平计算单元602将该算出的估计噪声电平Nx(t)输出到电平比较单元603。
电平比较单元603分别获取由估计噪声电平计算单元602算出的估计噪声电平Nx(t)、以及由第3电平计算单元601算出的电平Lx3(t)。电平比较单元603将电平Lx3(t)和上述噪声电平Nx(t)进行比较,将该比较过的比较结果信息输出到声音区间判定单元604。
声音区间判定单元604获取由电平比较单元603输出的比较结果信息。声音区间判定单元604基于该获取的比较结果信息,对于由第1指向性形成单元1103输出的声音信号x1(t),判定说话者发出声音的区间。声音区间判定单元604将作为判定为声音区间的声音区间检测结果的声音区间检测结果信息输出到说话者远近判定单元105。
在电平Lx3(t)和估计噪声电平Nx(t)的比较中,电平比较单元603将电平Lx3(t)和估计噪声电平Nx(t)之差为第3阈值βN以上的区间作为‘声音区间’输出到声音区间判定单元604。
第3阈值βN,例如为6[dB]。此外,电平比较单元603将电平Lx3(t)和上述噪声电平Nx(t)进行比较,将它们的差低于第3阈值βN的区间作为‘非声音区间’输出到声音区间判定单元604。
参照图15说明声音区间检测单元501的声音区间的检测结果。图15是表示由第1指向性形成单元1103输出的声音信号的波形、声音区间判定单元604的检测结果、以及由第3电平计算单元601算出的电平和噪声估计电平的比较结果的时间变化的图。
图15的(a)是表示由第1指向性形成单元1103输出的声音信号x1(t)的波形的时间变化的图。在图15的(a)中,纵轴表示振幅,横轴表示时间[秒]。
图15的(b)是表示由声音区间检测单元604检测出的声音区间检测结果的时间变化的图。在图15的(b)中,纵轴表示声音区间检测结果,横轴表示时间[秒]。
图15的(c)是表示在声音区间检测单元604中,相对于由第1指向性形成单元1103输出的声音信号x1(t)的波形的电平Lx3(t)和估计噪声电平Nx(t)的比较的图。在图15的(c)中,纵轴表示电平,横轴表示时间[秒]。
在图15的(c)中,是Lx3(t)≤Nx(t-1)中的时间常数为1[秒],Lx3(t)>Nx(t-1)中的时间常数为120[秒]的例子。在图15的(b)及图15的(c)中,表示了电平L x3(t)和噪声电平Nx(t)、以及第3阈值βN为6[dB]的情况下的(Nx(t)+βN)和声音检测结果。
说话者远近判定单元105获取由声音区间检测单元501的声音区间判定单元604输出的声音区间检测结果信息。说话者远近判定单元105基于该获取的声音区间检测结果信息,判定仅在由声音区间检测单元501检测出的声音区间,说话者是否位于距用户近的位置。说话者远近判定单元105将该判定出的远近判定结果信息输出到增益导出单元106。
(第3实施方式的音响处理装置12的动作)
下面,参照图16说明第3实施方式的音响处理装置12的动作。图16是说明第3实施方式的音响处理装置12的动作的流程图。在图16中,省略与图12所示的第2实施方式的音响处理装置11的动作相同的动作的说明,主要说明与上述结构元素关联的处理。
第1指向性形成单元1103将在步骤S651中形成的声音信号x1(t)分别输出到声音区间检测单元501及电平控制单元107。声音区间检测单元501获取由第1指向性形成单元1103输出的声音信号x1(t)。
声音区间检测单元501使用在步骤S651中由第1指向性形成单元1103输出的声音信号x1(t),检测说话者发出声音的区间(S321)。声音区间检测单元501将该检测出的声音区间检测结果信息输出到说话者远近判定单元105。
在该声音区间检测的处理中,第3电平计算单元601根据上述算式(1),计算由第1指向性形成单元1103输出的声音信号x1(t)的电平Lx3(t)。第3电平计算单元601将该算出的电平Lx3(t)分别输出到估计噪声电平计算单元602及电平比较单元603。
估计噪声电平计算单元602获取由第3电平计算单元601输出的电平Lx3(t)。估计噪声电平计算单元602计算对该获取的电平Lx3(t)的估计噪声电平Nx(t)。估计噪声电平计算单元602将该算出的估计噪声电平Nx(t)输出到电平比较单元603。
电平比较单元603分别获取由估计噪声电平计算单元602算出的估计噪声电平Nx(t)、以及由第3电平计算单元601算出的电平Lx3(t)。电平比较单元603将电平Lx3(t)和上述噪声电平Nx(t)进行比较,将该比较过的比较结果信息输出到声音区间判定单元604。
声音区间判定单元604获取由电平比较单元603输出的比较结果信息。声音区间判定单元604基于该获取的比较结果信息,对于由第1指向性形成单元1103输出的声音信号x1(t),判定说话者发出声音的区间。声音区间判定单元604将作为判定为声音区间的声音区间检测结果的声音区间检测结果信息输出到说话者远近判定单元105。
说话者远近判定单元105获取由声音区间检测单元501的声音区间判定单元604输出的声音区间检测结果信息。说话者远近判定单元105基于该获取的声音区间检测结果信息,仅在由声音区间检测单元501检测出的声音区间,判定说话者是否位于距用户近的位置(S105)。这些处理之后的内容与第2实施方式(参照图12)是相同的,所以省略。
如以上那样,在第3实施方式的音响处理装置中,通过在第2实施方式的音响处理装置的内部结构上附加的声音区间检测单元501,检测由第1指向性形成单元形成的声音信号的声音区间。仅在该检测出的声音区间,判定说话者位于距用户近的位置还是位于远的位置。根据该判定结果算出的增益乘以输出到将说话者的直接声进行收音的第1指向性形成单元的声音信号,进行电平的控制。
因此,如谈话对方等那样位于距用户近的位置的说话者的声音被增强,相反地,位于距用户远的位置的说话者的声音被衰减或被抑制。其结果,无论话筒的配置间隔如何,可以为了清楚并且有效地听见仅位于用户近的谈话对方的声音而对其进行增强。而且,由于仅在由第1指向性形成单元输出的声音信号x1(t)的声音区间内判定与说话者的远近,所以可以高精度地判定与说话者的远近。
(第4实施方式)
图17是表示第4实施方式的音响处理装置13的内部结构的方框图。如图17所示,第4实施方式的音响处理装置13与第3实施方式的音响处理装置12不同的方面是,还包括自身说话声音判定单元801及远近判定阈值设定单元802的结构元素。
在图17中,对于与图13相同的结构元素使用相同的标号,省略说明。此外,在以下的说明中,自身说话声音表示戴着装载了第4实施方式的音响处理装置13的助听器的用户发出的声音。
(第4实施方式的音响处理装置13的内部结构)
声音区间检测单元501获取由第1指向性形成单元1103输出的声音信号x1(t)。声音区间检测单元501使用由第1指向性形成单元1103输出的声音信号x1(t),检测音响处理装置13的用户或说话者发出声音的区间。
声音区间检测单元501将该检测出的声音区间检测结果信息分别输出到说话者远近判定单元105及自身说话声音判定单元801。声音区间检测单元501的具体的结构元素与图14所示的结构元素是相同的。
自身说话声音判定单元801获取从声音区间检测单元501输出的声音区间检测结果信息。自身说话声音判定单元801在基于该获取的声音区间检测结果信息的声音区间中,使用电平Lx3(t)的绝对音压电平,判定由声音区间检测单元501检测出的声音是否为自身说话声音。
作为自身说话声音的声源的用户的嘴边,位于与配置第1指向性形成单元1103的用户的耳朵位置近的位置,所以由第1指向性形成单元1103收音的自身说话声音的绝对音压电平大。自身说话声音判定单元801在电平Lx3(t)为第4阈值β4以上的情况下,判定为与该电平Lx3(t)对应的声音为自身说话声音。
第4阈值β4例如为74[dB(SPL)]。自身说话声音判定单元801将与该判定出的结果对应的自身说话声音判定结果信息分别输出到远近判定阈值设定单元802及说话者远近判定单元105。
在说话者远近判定单元105进行说话者远近的判定时,有自身说话声音以大于需要的电平输入到用户的耳朵的情况,在保护用户的耳朵的观点上不令人满意。因此,自身说话声音判定单元801在判定为与电平Lx3(t)对应的声音为自身说话声音的情况下,输出‘0’或‘-1’作为该自身说话声音判定结果信息。
即,以保护用户的耳朵的观点,优选自身说话声音本身不由电平控制单元107进行电平控制。
远近判定阈值设定单元802获取由自身说话声音判定单元801输出的自身说话声音判定结果信息。远近判定阈值设定单元802使用由自身说话声音判定单元801判定为自身说话声音的声音区间的声音信号x1(t)及x2(t),除去在声音信号x2(t)中包含的直接声成分。
远近判定阈值设定单元802计算在声音信号x2(t)中包含的混响电平。远近判定阈值设定单元802根据该算出的混响电平,设定第1阈值β1及第2阈值β2。图18表示一例使用了自适应滤波器的远近判定阈值设定单元802的内部结构。
图18是表示远近判定阈值设定单元802的内部结构的方框图。远近判定阈值设定单元802由自适应滤波器901、延迟器902、差信号计算单元903及判定阈值设定单元904构成。
自适应滤波器901在由第1指向性形成单元1103输出的声音信号x1(t)中,卷积该自适应滤波器901的系数。接着,自适应滤波器901将该卷积后的声音信号yh(t)分别输出到差信号计算单元903及判定阈值设定单元904。
延迟器902将由第2指向性形成单元1104输出的声音信号x2(t)延迟规定量,将该延迟过的声音信号x2(t-D)输出到差信号计算单元903。参数D表示由延迟器902延迟过的样本数。
差信号计算单元903获取由自适应滤波器901输出的声音信号yh(t)及由延迟器902延迟过的声音信号x2(t-D)。差信号计算单元903计算作为这些声音信号x2(t-D)和声音信号yh(t)之差的差信号e(t)。
差信号计算单元903将该算出的差信号e(t)输出到判定阈值设定单元904。自适应滤波器901使用由差信号计算单元903算出的差信号e(t)来更新滤波器系数。再有,滤波器系数被调整,以除去在由第2指向性形成单元1104输出的声音信号x2(t)中包含的直接声成分。
此外,作为更新自适应滤波器901的系数的算法,采用学习鉴别法、仿射(affine)投影法、递归最小二乘法等。而且,由于仅除去由第2指向性形成单元1104输出的声音信号x2(t)的直接声成分,该声音信号x2(t)的混响声成分作为差信号被输出,所以自适应滤波器901的抽头(tap)长度被设得比较短。例如,自适应滤波器901的抽头长度设为相当于数[毫秒]~数十[毫秒]左右的长度。
延迟第2指向性形成单元1104输出的声音信号x2(t)的延迟器902,为了满足与第1指向性形成单元1103的因果律而被插入。因为由第1指向性形成单元1103输出的声音信号x1(t)通过自适应滤波器901时一定产生规定量的延迟。
延迟的样本数被设定为自适应滤波器901的抽头长度的一半左右的值。
判定阈值设定单元904分别获取由差信号计算单元903输出的差信号e(t)、以及由自适应滤波器901输出的声音信号yh(t)。判定阈值设定单元904使用该获取的差信号e(t)及声音信号yh(t)计算电平Le(t),并设定第1阈值β1及第2阈值β2。
电平Le(t)[dB]根据算式(6)来计算。参数L是用于电平计算的样本数。样本数L是一句节或一单词长度左右的值,例如在该长度为2[秒]及采样周期8[kHz]的情况下,L=16000。在算式(6)中,为了降低对差信号e(t)的绝对电平的依赖,以在直接声的估计信号时的由自适应滤波器901输出的声音信号yh(t)的电平进行归一化。
Le ( t ) = 10 log 10 ( Σ n = 0 L - 1 e 2 ( t - n ) Σ n = 0 L - 1 yh 2 ( t - n ) ) . . . ( 6 )
在算式(6)中,电平Le(t)在混响声成分多的情况下值大,在混响声成分少的情况下值小。例如,作为极端的例子,在无混响的无混响室中,在算式(6)中分子小,所以Le(t)成为接近-∞[dB]的值。另一方面,在混响多、接近扩散声场的混响室中,在算式(6)中分母和分子为相同电平,所以成为接近0[dB]的值。
因此,在电平Le(t)大于规定值的情况下,即使是说话者位于用户附近的情况,也由第2指向性形成单元1104大量地收音混响声。规定量例如为-10[dB]。
这种情况下,由于由第1电平计算单元103及第2电平计算单元104分别算出的电平Lx1(t)、电平Lx2(t)之间的电平差ΔLx(t)小,所以第1阈值β1及第2阈值β2被分别设定小的值。
相反地,在电平Le(t)小于规定值的情况下,由第2指向性形成单元1104不过多地收音混响声。规定量例如为-10[dB]。这种情况下,由于由第1电平计算单元103及第2电平计算单元104分别算出的电平Lx1(t)、电平Lx2(t)之间的电平差ΔLx(t)大,所以第1阈值β1及第2阈值β2被分别设定大的值。
说话者远近判定单元105输入声音区间检测单元501的声音区间检测结果信息、自身说话声音判定单元801的自身说话声音判定结果信息、以及由远近判定阈值设定单元802设定的第1阈值β1及第2阈值β2。接着,说话者远近判定单元105基于输入的声音区间检测结果信息、自身说话声音判定结果信息、以及设定的第1阈值β1及第2阈值β2,判定说话者是否位于距用户近的位置。说话者远近判定单元105将该判定出的远近判定结果信息输出到增益导出单元106。
(第4实施方式的音响处理装置13的动作)
下面,参照图19说明第4实施方式的音响处理装置13的动作。图19是说明第4实施方式的音响处理装置13的动作的流程图。在图19中,省略与图16所示的第3实施方式的音响处理装置13的动作相同的动作的说明,主要说明与上述结构元素关联的处理。
声音区间检测单元501将检测出的声音区间检测结果信息分别输出到说话者远近判定单元105及自身说话声音判定单元801。自身说话声音判定单元801获取从声音区间检测单元501输出的声音区间检测结果信息。
自身说话声音判定单元801在基于该获取的声音区间检测结果信息的声音区间中,使用电平Lx3(t)的绝对音压电平,判定由声音区间检测单元501检测出的声音是否为自身说话声音(S431)。自身说话声音判定单元801将与该判定出的结果对应的自身说话声音判定结果信息分别输出到远近判定阈值设定单元802及说话者远近判定单元105。
远近判定阈值设定单元802获取由自身说话声音判定单元801输出的自身说话声音判定结果信息。远近判定阈值设定单元802使用由自身说话声音判定单元801判定为自身说话声音的声音区间的声音信号x1(t)、以及x2(t),计算在声音信号x2(t)中包含的混响电平。远近判定阈值设定单元802根据该算出的混响电平,设定第1阈值β1及第2阈值β2(S432)。
说话者远近判定单元105输入声音区间检测单元501的声音区间检测结果信息、自身说话声音判定单元801的自身说话声音判定结果信息、以及远近判定阈值设定单元802设定的第1阈值β1及第2阈值β2。接着,说话者远近判定单元105基于输入的声音区间检测结果信息、自身说话声音判定结果信息、以及设定的第1阈值β1及第2阈值β2,判定说话者是否位于距用户近的位置(S105)。
说话者远近判定单元105将该判定出的远近判定结果信息输出到增益导出单元106。这些处理以后的内容与第1实施方式(参照图5)是相同的,所以省略。
如以上那样,在第4实施方式的音响处理装置中,通过在第3实施方式的音响处理装置的内部结构中附加的自身说话声音判定单元,来判定在由第1指向性形成单元收音的声音信号x1(t)中是否包含自身说话声音。
而且,通过在第3实施方式的音响处理装置的内部结构中附加的远近判定阈值设定单元,在判定为自身说话声音的声音区间中,计算在由第2指向性形成单元分别收音的声音信号中包含的混响电平。此外,通过远近判定阈值设定单元,根据该算出的混响的电平,来设定第1阈值β1及第2阈值β2。
在本实施方式中,基于该设定的第1阈值β1及第2阈值β2、声音区间检测结果信息及自身说话声音判定结果信息,判定说话者在距用户近的位置还是远的位置。根据该判定结果算出的增益乘以输出到对说话者的直接声进行收音的第1指向性形成单元1103的声音信号,从而进行电平的控制。
因此,在本实施方式中,如谈话对方等那样距用户近的位置的说话者的声音被增强,相反地,距用户远的位置的说话者的声音被衰减或被抑制。其结果,无论话筒的配置间隔如何,都可以为了清楚并且有效地听见仅位于用户附近的谈话对方的声音而对其进行增强。
而且,在本实施方式中,仅在由第1指向性形成单元1103输出的声音信号x1(t)的声音区间中判定说话者的远近,所以可以高精度地判定说话者的远近。
而且,在本实施方式中,使用检测出的声音区间中的自身说话声音来计算声音信号的混响电平,根据该混响电平的范围,可动态地设定用于判定远近的阈值。因此,在本实施方式中,可以高精度地判定用户和说话者之间的远近。
(第5实施方式)
图20是表示第5实施方式的音响处理装置14的内部结构的方框图。如图20所示,第5实施方式的音响处理装置14与第3实施方式的音响处理装置12不同的方面是,还包括自身说话声音判定单元801及谈话对方判定单元1001的结构元素。在图20中,对与图7相同的结构元素使用相同的标号,省略说明。
(第5实施方式的音响处理装置14的内部结构)
自身说话声音判定单元801获取从声音区间检测单元501输出的声音区间检测结果信息。自身说话声音判定单元801在基于该获取的声音区间检测结果信息的声音区间中,使用电平Lx3(t)的绝对音压电平,判定由声音区间检测单元501检测出的声音是否为自身说话声音。
作为自身说话声音的声源的用户的嘴边,位于与配置第1指向性形成单元1103的用户的耳朵位置近的位置,所以由第1指向性形成单元1103收音的自身说话声音的绝对音压电平大。自身说话声音判定单元801在电平Lx3(t)为第4阈值β4以上的情况下,判定为与该电平Lx3(t)对应的声音为自身说话声音。
第4阈值β4例如为74[dB(SPL)]。自身说话声音判定单元801将与该判定出的结果对应的自身说话声音判定结果信息输出到谈话对方判定单元1001。此外,自身说话声音判定单元801也可以将自身说话声音判定结果信息分别输出到说话者远近判定单元105及谈话对方判定单元1001。
说话者远近判定单元105基于声音区间检测单元501的声音区间检测结果信息,判定说话者是否在距用户近的位置。此外,说话者远近判定单元105也可以获取由自身说话声音判定单元801输出的自身说话声音判定结果信息。
这种情况下,说话者远近判定单元105在检测为声音区间的区间之中除去被判定为自身说话声音的声音区间,来判定与说话者的远近。说话者远近判定单元105基于声音区间检测结果信息,将判定出的远近判定结果信息输出到谈话对方判定单元1001。
此外,说话者远近判定单元105也可以基于声音区间检测结果信息及自身说话声音判定结果信息,将判定出的远近判定结果信息输出到谈话对方判定单元1001。
谈话对方判定单元1001分别获取自身说话声音判定单元801的自身说话声音判定结果信息、以及说话者远近判定单元105的远近判定结果信息。
谈话对方判定单元1001在判定为说话者在用户的附近的情况下,使用在用户附近的说话者的声音和由自身说话声音判定单元801判定出的自身说话声音,判定说话者是否为用户的谈话对方。
由说话者远近判定单元105判定为说话者在附近的情况是远近判定结果信息表示‘1’的情况。
谈话对方判定单元1001在判定为该说话者是用户的谈话对方的情况下,将谈话对方判定结果设为‘1’,输出到增益导出单元106。另一方面,谈话对方判定单元1001在该说话者被判定为不是用户的谈话对方的情况下,将谈话对方判定结果信息设为‘0’或‘-1’,输出到增益导出单元106。
参照图21及图22说明有关谈话对方判定单元1001基于自身说话声音判定结果信息及远近判定结果信息,判定说话者是否为用户的谈话对方的一例。
图21是表示一例以相同的时间轴表示远近判定结果信息和自身说话声音判定结果信息的图。图22是表示另一例以相同的时间轴表示远近判定结果信息和自身说话声音判定结果信息的图。谈话对方判定单元1001参照图21及图22所示的远近判定结果信息和自身说话声音判定结果信息。
图21是自身说话声音判定结果信息未被输出到说话者远近判定单元105时的图,在该情况下,自身说话声音判定结果信息被输出到谈话对方判定单元1001。如图21所示,在自身说话声音判定结果信息为‘1’时远近判定结果信息也为‘1’。此时,谈话对方判定单元1001将远近判定结果信息作为‘0’来处理。在远近判定结果信息为‘1’的状态和自身说话声音判定结果信息为‘1’的状态时间上几乎连续地交替地发生的情况下,谈话对方判定单元1001判定为说话者是用户的谈话对方。
此外,图22是自身说话声音判定结果信息被输出到说话者远近判定单元105时的图。如图22所示,在远近判定结果信息为‘1’的状态和自身说话声音判定结果信息为‘1’的状态时间上几乎连续地交替地发生的情况下,谈话对方判定单元1001判定为说话者是用户的谈话对方。
增益控制单元106使用谈话对方判定单元1001的谈话对方判定结果信息,导出增益α(t)。具体地说,在谈话对方判定结果信息为‘1’的情况下,由于判定为说话者是用户的谈话对方,所以增益导出单元106将瞬时增益α’(t)设定为‘2.0’。
此外,在谈话对方判定结果信息为‘0’或‘-1’的情况下,由于判定为说话者不是用户的谈话对方,所以将增益α’(t)设定为‘0.5’或‘1.0’的任何一个。再有,设定为‘0.5’或‘1.0’的哪一个都可以。
增益导出单元106使用导出的瞬时增益α’(t),根据上述算式(4)导出增益α(t),并将导出的增益α(t)输出到电平控制单元107。
(第5实施方式的音响处理装置14的动作)
下面,参照图23说明第5实施方式的音响处理装置14的动作。图23是说明第5实施方式的音响处理装置14的动作流程图。在图23中,省略有关与图16所示的第3实施方式的音响处理装置12的动作相同的动作的说明,主要说明与上述结构元素关联的处理。
声音区间检测单元501将检测出的声音区间检测结果信息分别输出到说话者远近判定单元105及自身说话声音判定单元801。自身说话声音判定单元801获取从声音区间检测单元501输出的声音区间检测结果信息。
自身说话声音判定单元801在基于该获取的声音区间检测结果信息的声音区间中,使用电平Lx3(t)的绝对音压电平,判定由声音区间检测单元501检测出的声音是否为自身说话声音(S431)。
自身说话声音判定单元801将与该判定出的结果对应的自身说话声音判定结果信息输出到谈话对方判定单元1001。此外,自身说话声音判定单元801也可以将自身说话声音判定结果信息输出到谈话对方判定单元1001及说话者远近判定单元105。
说话者远近判定单元105基于声音区间检测单元501的声音区间检测结果信息,判定说话者是否位于距用户近的位置(S105)。在由说话者远近判定单元105判定为说话者位于附近的情况下(S541为“是”),谈话对方判定单元1001判定说话者是否为用户的谈话对方(S542)。具体地说,谈话对方判定单元1001使用位于用户附近的说话者的声音和由自身说话声音判定单元801判定出的自身说话声音,判定说话者是否为用户的谈话对方。
在说话者远近判定单元105判定为说话者不在附近的情况下,即,在远近判定结果信息为‘0’的情况下(S541为“否”),进行增益导出单元106的增益导出的处理(S106)。
增益导出单元106使用谈话对方判定单元1001的谈话对方判定结果信息,导出增益α(t)(S106)。这些处理以后的内容与第1实施方式(参照图5)是相同的,所以省略。
如以上那样,在第5实施方式的音响处理装置中,通过在第3实施方式的音响处理装置的内部结构中附加的自身说话声音判定单元,来判定在由第1指向性形成单元收音的声音信号x1(t)中是否包含自身说话声音。
而且,在本实施方式中,通过谈话对方判定单元,在判定为说话者位于用户附近的声音区间中,基于自身说话声音判定结果信息和远近判定结果信息的时间上的发生顺序,判定该说话者是否是用户的谈话对方。
基于该判定出的谈话对方判定结果信息算出的增益,乘以被输出到对说话者的直接声进行收音的第1指向性形成单元的声音信号,从而进行电平的控制。
因此,在本实施方式中,如谈话对方等那样距用户近的位置的说话者的声音被增强,相反地,距用户远的位置的说话者的声音被衰减或被抑制。其结果,无论话筒的配置间隔如何,都可以为了清楚并且有效地听见仅位于用户附近的谈话对方的声音而对其进行增强。
而且,在本实施方式中,仅在由第1指向性形成单元输出的声音信号x1(t)的声音区间中判定说话者的远近,所以可以高精度地判定说话者的远近。
而且,在本实施方式中,可以仅在位于用户附近的说话者是谈话对方的情况下增强该说话者的声音,所以可以清楚地听见仅用户的谈话对方的声音。
(第6实施方式)
图24是表示第6实施方式的音响处理装置15的内部结构的方框图。第6实施方式的音响处理装置15是将第2实施方式的音响处理装置11应用于助听器的实施方式。如图24所示,与第2实施方式的音响处理装置11不同的方面是,将图7所示的增益导出单元106和电平控制单元107集成为非线性放大单元3101,而且包括扬声器3102作为声音输出单元的结构元素。在第6实施方式中,对与图7相同的结构元素使用相同的标号,省略该结构元素的说明。
(第6实施方式的音响处理装置15的内部结构)
非线性放大单元3101获取由第1指向性形成单元1103输出的声音信号x1(t)、以及由说话者远近判定单元105输出的远近判定结果信息。非线性放大单元3101基于由说话者远近判定单元105输出的远近判定结果信息,将由第1指向性形成单元1103输出的声音信号x1(t)放大,并输出到扬声器3102。
图25是表示一例非线性放大单元3101的内部结构的方框图。如图25所示,非线性放大单元3101包括频带分割单元3201、多个频带信号控制单元(#1~#N)3202、以及频带合成单元3203。
频带分割单元3201将来自第1指向性形成单元1103的声音信号x1(t),通过滤波器等分割为N频段的频带的信号x1n(t)。其中,参数n为n=1~N。再有,滤波器使用DFT(Discrete Fourier Transform;离散傅立叶变换)滤波库(filter bank)或带通滤波器等。
各频带信号控制单元(#1~#N)3202基于来自说话者远近判定单元105的远近判定结果信息、以及来自频带分割单元3201的各频带的信号x1n(t)的电平,设定与各频带信号x1n(t)相乘的增益。接着,各频带信号控制单元(#1~#N)3202使用设定的增益,控制该各频带的信号x1n(t)的电平。
在图25中,对于频带信号控制单元(#1~#N)3202中频带#n的频带信号控制单元(#n)3202,表示了其内部结构。该频带信号控制单元(#n)3202包括频带电平计算单元3202-1、频带增益设定单元3202-2、以及频带增益控制单元3202-3。其他频带的频带信号控制单元3202具有同样的内部结构。
频带电平计算单元3202-1计算频带信号x1n(t)的电平Lx1n(t)[dB]。电平算式例如以上述算式(1)的方法来计算。
频带增益设定单元3202-2输入由频带电平计算单元3202-1算出的频带电平Lx1n(t)、以及由说话者远近判定单元105输出的远近判定结果信息。接着,频带增益设定单元3202-2基于频带电平Lx1n(t)、以及远近判定结果信息,设定与作为该频带信号控制单元3202的控制对象的频带信号x1n(t)相乘的频带增益αn(t)。
具体地说,在远近判定结果信息为‘1’的情况下,说话者在距用户近的位置,作为该用户的谈话对方的可能性高。因此,频带增益设定单元3202-2使用该信号的频带电平Lx1n(t),设定对图26所示的该用户的听觉特性进行补偿的频带增益αn(t)。图26是表示对用户的听觉特性进行补偿的电平的输入输出特性的说明图。
例如在频带电平Lx1n(t)=60[dB]的情况下,将输出频带电平设为80[dB],所以频带增益设定单元3202-2设定使频带增益上升20[dB]的增益值αn(t)=10[倍](=10^(20/20))。
此外,在远近判定结果信息为‘0’或‘-1’的情况下,说话者不在距用户近的位置,作为该用户的谈话对方的可能性低。因此,频带增益设定单元3202-2设定‘1.0’作为对该控制对象的频带信号x1n(t)的频带增益αn(t)。
频带增益控制单元3202-3将该频带增益αn(t)乘以作为该控制对象的频带信号x1n(t),计算频带信号控制单元3202的控制后的频带信号yn(t)。
频带合成单元3203根据与频带分割单元3201对应的方法来将各频带信号yn(t)进行合成,计算频带合成后的信号y(t)。
扬声器3102将通过非线性放大单元3101设定了频带增益的频带合成后的信号y(t)输出。
(第6实施方式的音响处理装置15的动作)
下面,参照图27说明第6实施方式的音响处理装置15的动作。图27是说明第6实施方式的音响处理装置15的动作的流程图。在图27中,省略与图12所示的第2实施方式的音响处理装置11的动作相同的动作的说明,主要说明与上述结构元素关联的处理。
非线性放大单元3101获取由第1指向性形成单元1103输出的声音信号x1(t)、以及由说话者远近判定单元105输出的远近判定结果信息。接着,非线性放大单元3101基于由说话者远近判定单元105输出的远近判定结果信息,放大由第1指向性形成单元1103输出的声音信号x1(t),并输出到扬声器3102(S3401)。
有关非线性放大单元3101的处理的细节,参照图28进行说明。图28是说明非线性放大单元3101的动作的细节的流程图。
频带分割单元3201将由第1指向性形成单元1103输出的声音信号x1(t)分割为N个频段的频带的信号x1n(t)(S3501)。
频带电平计算单元3202-1计算各频带的信号x1n(t)的电平Lx1n(t)(S3502)。
频带增益计算单元3202-2基于频带电平Lx1n(t)、以及由说话者远近判定单元105输出的远近判定结果信息,设定与频带信号x1n(t)相乘的频带增益αn(t)(S3503)。
图29是说明频带增益设定单元3202-2的动作细节的流程图。
频带增益设定单元3202-2在远近判定结果信息为‘1’的情况下(S36061为“是”),说话者在距用户近的位置、作为该用户的谈话对方的可能性高。因此,频带增益设定单元3202-2使用频带电平Lx1n(t),设定对图26所示的该用户的听觉特性进行补偿的频带增益αn(t)(S3602)。
此外,在远近判定结果信息为‘0’或‘-1’的情况下(S3601为“否”),说话者不在距用户近的位置,作为该用户的谈话对方的可能性低。因此,频带增益设定单元3202-2设定‘1.0’作为频带信号x1n(t)的频带增益αn(t)(S3603)。
频带增益控制单元3202-3将频带增益αn(t)乘以作为频带信号x1n(t),计算频带信号控制单元3202的控制后的频带信号yn(t)(S3504)。
频带合成单元3203根据与频带分割单元3201对应的方法来将各频带信号yn(t)进行合成,计算频带合成后的信号y(t)(S3505)。
扬声器3102将调整了增益的频带合成后的信号y(t)输出(S3402)。
如以上那样,在第6实施方式的音响处理装置15中,将第2实施方式的音响处理装置11的内部结构的增益导出单元106和电平控制单元107集成在非线性放大单元3101中。此外,在第6实施方式的音响处理装置15中,通过在声音输出单元中还包括扬声器3102的结构元素,可以仅放大谈话对方的声音,只有用户的谈话对方的声音可以清楚地听见。
以上,参照附图说明了各种实施方式,但不言而喻,本发明的音响处理装置不限定于这样的例子。只要是本领域技术人员,就明白在权利要求的范围中记载的范畴内,明显可想到各种变更例或修正例,对于它们来说,当然也属于本发明的技术范围。例如,通过将上述各实施方式1~6适当组合而构成,可进行精度更高的说话者的电平控制。
上述瞬时增益α’(t)的值被具体地记载为‘2.0’或‘0.5’,但不限定于该数字。例如,本发明的音响处理装置,根据用作助听器的用户的耳背程度等,该瞬时增益α’(t)也可以单独地预先设定。
上述第5实施方式的谈话对方判定单元,在由说话者远近判定单元判定为说话者在用户的附近的情况下,使用该说话者的声音和由自身说话声音判定单元判定出的自身说话声音,判定说话者是否为用户的谈话对方。
另外,谈话对方判定单元1001在由说话者远近判定单元105判定为说话者在用户的附近的情况下,识别说话者和自身说话各自的声音。此时,谈话对方判定单元1001也可以在该识别出的声音之中提取规定的关键词(keyword),并在判定为相同领域的关键词的情况下,将该说话者判定为用户的谈话对方。
规定的关键词,例如,如果是‘旅行’的话题,则为‘飞机’、‘车’、‘北海道’、‘九州’等的关键词,与同一领域关联。
此外,谈话对方判定单元1001对于在用户附近的说话者进行特定说话者识别。在该识别出的结果的人物,在为预先事先注册的特定的说话者或该用户的周围仅有一人的情况下,将该人物判定为用户的谈话对方。
此外,在图16所示的第3实施方式中,表示了第1电平计算的处理在声音区间检测的处理之后进行。但是,第1电平计算的处理也可以在声音区间检测的处理之前进行。
此时,在图19所示的第4实施方式中,表示了第1电平计算的处理在声音区间检测及自身说话声音判定的各处理之后、并且在远近判定阈值设定的处理之前进行。
再有,如果满足声音区间检测的处理、自身说话声音判定的处理以及远近判定阈值设定的处理的顺序,则第1电平计算的处理也可以在声音检测的处理或自身说话声音判定的处理之前、或远近判定阈值设定之后进行。
同样地,表示了第2电平计算的处理在远近判定阈值设定的处理之前进行。但是,第2电平计算的处理也可以在远近判定阈值设定之后进行。
此外,在图23所示的第5实施方式中,表示了第1电平计算的处理在声音区间检测及自身说话声音判定的各处理之后进行。但是,如果满足在声音区间检测的处理之后进行自身说话声音判定的处理的条件,则第1电平计算的处理也可以在声音区间检测的处理或自身说话声音判定的处理之前进行。
除了上述话筒阵列1102的各处理单元,具体地说,作为由微处理器、ROM、RAM等构成的计算机系统来安装。在各处理单元中,包含第1指向性形成单元1103及第2指向性形成单元1104、第1电平计算单元103及第2电平计算单元104、说话者远近判定单元105、增益导出单元106、电平控制单元107、声音区间检测单元501、自身说话声音判定单元801、远近判定阈值设定单元802、谈话对方判定单元1001等。
在该RAM中,存储了计算机程序。通过微处理器根据计算机程序进行动作,从而各装置完成其功能。这里,计算机程序是为了完成规定的功能,组合多个表示对计算机的指令的命令码而构成的程序。
构成上述各处理单元的结构元素的一部分或全部,也可以由一个系统LSI(Large Scale Integration:大规模集成电路)构成。系统LSI是将多个结构部分集成制造在一个芯片上的超多功能LSI,具体地说,是包含且构成微处理器、ROM、RAM等构成的计算机系统。
在RAM中,存储了计算机程序。通过上述微处理器根据上述计算机程序进行动作,系统LSI完成其功能。
构成上述各处理单元的结构元素的一部分或全部,也可以由在音响处理装置10~60的任何一个的音响处理装置中可拆装的IC卡或单体的模块构成。
该IC卡或模块是由微处理器、ROM、RAM等构成的计算机系统。此外,IC卡或模块也可以包含上述超多功能LSI。通过微处理器根据计算机程序进行动作,IC卡或模块完成其功能。该IC卡或该模块也可以具有抗窜改性。
此外,本发明的实施方式,也可以是上述音响处理装置进行的音响处理方法。此外,本发明可以是由计算机执行这些方法的计算机程序,也可以是计算机程序构成的数字信号。
此外,本发明也可以是在计算机可读取的存储媒体、例如,软盘、硬盘、CD-ROM、MO、DVD、DVD-ROM、DVD-RAM、BD(Blu-ray Disc;蓝光光盘)、半导体存储器等中存储计算机程序或数字信号的形式。
此外,本发明也可以是这些存储媒体中存储的数字信号。此外,本发明也可以是经由电通信线路、无线或有线通信线路、以因特网为代表的网络、数据广播等传输计算机程序或数字信号的形式。
此外,本发明是包括了微处理器和存储器的计算机系统,该存储器存储上述计算机程序,该微处理器也可以根据该计算机程序进行动作。
此外,本发明也可以通过将程序或数字信号存储转送到存储媒体中,或者通过将程序或数字信号经由网络等转送,从而由独立的其他计算机系统来实施。
本申请基于2009年10月21日申请的日本专利申请(特愿2009-242602),其内容在这里作为参考而引用于此。
工业实用性
本发明的音响处理装置具有与两个指向性话筒的电平差对应的说话者远近判定单元,作为仅想听见附近的谈话对方的声音的助听器是有用的。

Claims (6)

1.音响处理装置,其特征在于,包括:
第1指向性形成单元,其使用多个无指向性话筒的各自的输出信号,输出在说话者方向上形成了指向性的主轴的第1指向性信号;
第2指向性形成单元,其使用所述多个无指向性话筒的各自的输出信号,输出在说话者方向上形成了指向性的死角的第2指向性信号;
第1电平计算单元,其计算由所述第1指向性形成单元输出的第1指向性信号的电平;
第2电平计算单元,其计算由所述第2指向性形成单元输出的第2指向性信号的电平;
说话者远近判定单元,其基于由所述第1电平计算单元及第2电平计算单元算出的所述第1指向性信号的电平及所述第2指向性信号的电平,判定与所述说话者的远近;
增益导出单元,其根据所述说话者远近判定单元的结果,导出对所述第1指向性信号提供的增益;以及
电平控制单元,其使用由所述增益导出单元导出的增益,控制所述第1指向性信号的电平。
2.如权利要求1所述的音响处理装置,其特征在于,还包括:
声音区间检测单元,其检测所述第1指向性信号的声音区间,
所述说话者远近判定单元基于由所述声音区间检测单元检测出的声音区间中的声音信号,判定所述说话者的远近。
3.如权利要求2所述的音响处理装置,其特征在于,还包括:
自身说话声音判定单元,其基于由所述声音区间检测单元检测出的声音区间中的所述第1指向性信号的电平,判定是否为自身说话声音;以及
远近判定阈值设定单元,其估计由所述自身说话声音判定单元判定出的自身说话声音中包含的混响声,基于该估计出的混响声,设定所述说话者远近判定单元在判定与所述说话者的远近时所使用的判定阈值,
所述说话者远近判定单元使用由所述远近判定阈值设定单元所设定的所述判定阈值,判定与所述说话者的远近。
4.如权利要求3所述的音响处理装置,其特征在于,还包括:
谈话对方判定单元,其基于所述说话者远近判定单元的结果和所述自身说话声音判定单元的结果,判定由所述说话者远近判定单元判定的所述说话者声音是否由谈话对方发声,
所述增益导出单元根据所述谈话对方判定单元的结果,导出对所述第1指向性信号提供的增益。
5.音响处理方法,其特征在于,包括:
使用多个无指向性话筒的各自的输出信号,输出在说话者方向上形成了指向性的主轴的第1指向性信号的步骤;
使用所述多个无指向性话筒的各自的输出信号,输出在说话者方向上形成了指向性的死角的第2指向性信号的步骤;
计算所述输出的第1指向性信号的电平的步骤;
计算所述输出的第2指向性信号的电平的步骤;
基于所述计算的所述第1指向性信号的电平及所述第2指向性信号的电平,判定与所述说话者的远近的步骤;
根据所述判定出的与所述说话者的远近,导出对所述第1指向性信号提供的增益的步骤;以及
使用所述导出的增益,控制所述第1指向性信号的电平的步骤。
6.助听器,其特征在于,包括权利要求1~权利要求4的任何一项所述的音响处理装置。
CN2010800449129A 2009-10-21 2010-10-20 音响处理装置、音响处理方法及助听器 Active CN102549661B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2009-242602 2009-10-21
JP2009242602 2009-10-21
PCT/JP2010/006231 WO2011048813A1 (ja) 2009-10-21 2010-10-20 音響処理装置、音響処理方法及び補聴器

Publications (2)

Publication Number Publication Date
CN102549661A CN102549661A (zh) 2012-07-04
CN102549661B true CN102549661B (zh) 2013-10-09

Family

ID=43900057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010800449129A Active CN102549661B (zh) 2009-10-21 2010-10-20 音响处理装置、音响处理方法及助听器

Country Status (5)

Country Link
US (1) US8755546B2 (zh)
EP (1) EP2492912B1 (zh)
JP (1) JP5519689B2 (zh)
CN (1) CN102549661B (zh)
WO (1) WO2011048813A1 (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5817366B2 (ja) * 2011-09-12 2015-11-18 沖電気工業株式会社 音声信号処理装置、方法及びプログラム
US8185387B1 (en) * 2011-11-14 2012-05-22 Google Inc. Automatic gain control
US20140112483A1 (en) * 2012-10-24 2014-04-24 Alcatel-Lucent Usa Inc. Distance-based automatic gain control and proximity-effect compensation
US9685171B1 (en) * 2012-11-20 2017-06-20 Amazon Technologies, Inc. Multiple-stage adaptive filtering of audio signals
JP6162254B2 (ja) * 2013-01-08 2017-07-12 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 背景ノイズにおけるスピーチ了解度を増幅及び圧縮により向上させる装置と方法
JP6125953B2 (ja) * 2013-02-21 2017-05-10 日本電信電話株式会社 音声区間検出装置、その方法、及びプログラム
US10091583B2 (en) 2013-03-07 2018-10-02 Apple Inc. Room and program responsive loudspeaker system
DE102013207149A1 (de) * 2013-04-19 2014-11-06 Siemens Medical Instruments Pte. Ltd. Steuerung der Effektstärke eines binauralen direktionalen Mikrofons
EP2876900A1 (en) 2013-11-25 2015-05-27 Oticon A/S Spatial filter bank for hearing system
CN105474610B (zh) * 2014-07-28 2018-04-10 华为技术有限公司 通信设备的声音信号处理方法和设备
JP6361360B2 (ja) * 2014-08-05 2018-07-25 沖電気工業株式会社 残響判定装置及びプログラム
CN107431867B (zh) * 2014-11-19 2020-01-14 西万拓私人有限公司 用于快速识别自身语音的方法和设备
CN105100413B (zh) * 2015-05-27 2018-08-07 努比亚技术有限公司 一种信息处理方法及装置、终端
DE102015210652B4 (de) 2015-06-10 2019-08-08 Sivantos Pte. Ltd. Verfahren zur Verbesserung eines Aufnahmesignals in einem Hörsystem
KR20170035504A (ko) * 2015-09-23 2017-03-31 삼성전자주식회사 전자 장치 및 전자 장치의 오디오 처리 방법
WO2018173266A1 (ja) * 2017-03-24 2018-09-27 ヤマハ株式会社 収音装置および収音方法
DE102017215823B3 (de) * 2017-09-07 2018-09-20 Sivantos Pte. Ltd. Verfahren zum Betrieb eines Hörgerätes
JP7028307B2 (ja) * 2018-02-16 2022-03-02 日本電信電話株式会社 ハウリング抑圧装置、その方法、およびプログラム
US10939202B2 (en) * 2018-04-05 2021-03-02 Holger Stoltze Controlling the direction of a microphone array beam in a video conferencing system
DE102018207346B4 (de) * 2018-05-11 2019-11-21 Sivantos Pte. Ltd. Verfahren zum Betrieb eines Hörgeräts sowie Hörgerät
JP7210926B2 (ja) * 2018-08-02 2023-01-24 日本電信電話株式会社 集音装置
JP7422683B2 (ja) * 2019-01-17 2024-01-26 Toa株式会社 マイクロホン装置
CN112712790B (zh) * 2020-12-23 2023-08-15 平安银行股份有限公司 针对目标说话人的语音提取方法、装置、设备及介质
WO2022137806A1 (ja) * 2020-12-25 2022-06-30 パナソニックIpマネジメント株式会社 耳装着型デバイス、及び、再生方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004226656A (ja) * 2003-01-22 2004-08-12 Fujitsu Ltd マイクロホンアレイを用いた話者距離検出装置及び方法並びに当該装置を用いた音声入出力装置
CN101031162A (zh) * 1998-01-16 2007-09-05 索尼公司 扬声装置及内部安装了扬声装置的电子设备
JP2008312002A (ja) * 2007-06-15 2008-12-25 Yamaha Corp テレビ会議装置
JP5207587B2 (ja) * 2005-02-18 2013-06-12 三洋電機株式会社 回路装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0511696A (ja) * 1991-07-05 1993-01-22 Sumitomo Electric Ind Ltd 地図表示装置
JPH05207587A (ja) * 1992-01-24 1993-08-13 Matsushita Electric Ind Co Ltd マイクロホン装置
JPH09311696A (ja) * 1996-05-21 1997-12-02 Nippon Telegr & Teleph Corp <Ntt> 自動利得調整装置
US6243322B1 (en) * 1999-11-05 2001-06-05 Wavemakers Research, Inc. Method for estimating the distance of an acoustic signal
US8503691B2 (en) * 2007-06-13 2013-08-06 Aliphcom Virtual microphone arrays using dual omnidirectional microphone array (DOMA)
US8326611B2 (en) * 2007-05-25 2012-12-04 Aliphcom, Inc. Acoustic voice activity detection (AVAD) for electronic systems
JP2004537233A (ja) * 2001-07-20 2004-12-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ エコー抑圧回路及びラウドスピーカ・ビームフォーマを有する音響補強システム
JP4195267B2 (ja) * 2002-03-14 2008-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、その音声認識方法及びプログラム
US8180067B2 (en) * 2006-04-28 2012-05-15 Harman International Industries, Incorporated System for selectively extracting components of an audio input signal
JP5123595B2 (ja) 2007-07-31 2013-01-23 独立行政法人情報通信研究機構 近傍場音源分離プログラム、及びこのプログラムを記録したコンピュータ読取可能な記録媒体、並びに近傍場音源分離方法
JP2009242602A (ja) 2008-03-31 2009-10-22 Panasonic Corp 粘着シート
JP2010112996A (ja) 2008-11-04 2010-05-20 Sony Corp 音声処理装置、音声処理方法およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101031162A (zh) * 1998-01-16 2007-09-05 索尼公司 扬声装置及内部安装了扬声装置的电子设备
JP2004226656A (ja) * 2003-01-22 2004-08-12 Fujitsu Ltd マイクロホンアレイを用いた話者距離検出装置及び方法並びに当該装置を用いた音声入出力装置
JP5207587B2 (ja) * 2005-02-18 2013-06-12 三洋電機株式会社 回路装置
JP2008312002A (ja) * 2007-06-15 2008-12-25 Yamaha Corp テレビ会議装置

Also Published As

Publication number Publication date
JP5519689B2 (ja) 2014-06-11
US20120189147A1 (en) 2012-07-26
CN102549661A (zh) 2012-07-04
WO2011048813A1 (ja) 2011-04-28
US8755546B2 (en) 2014-06-17
JPWO2011048813A1 (ja) 2013-03-07
EP2492912A1 (en) 2012-08-29
EP2492912A4 (en) 2016-10-19
EP2492912B1 (en) 2018-12-05

Similar Documents

Publication Publication Date Title
CN102549661B (zh) 音响处理装置、音响处理方法及助听器
CN102197422B (zh) 使用传感器阵列进行音频源接近度估计以用于减少噪音
CN101154382A (zh) 检测风噪声的方法及其系统
CN101010722B (zh) 用于检测语音信号中话音活动的设备和方法
CN102017402B (zh) 用于调节音频信号的感知响度的系统
McCowan et al. Microphone array post-filter for diffuse noise field
CN102257559B (zh) 基于掩蔽的增益控制
US8996367B2 (en) Sound processing apparatus, sound processing method and program
CN203242334U (zh) 用于电子系统的风抑制/替换部件
CN101460999B (zh) 盲信号提取
EP3203473B1 (en) A monaural speech intelligibility predictor unit, a hearing aid and a binaural hearing system
EP3364669B1 (en) Apparatus and method for generating an audio output signal having at least two output channels
WO2006116024A3 (en) Systems, methods, and apparatus for gain factor attenuation
CN103180900A (zh) 用于话音活动检测的系统、方法和设备
CN101779476A (zh) 全向性双麦克风阵列
CN106535076A (zh) 一种立体声音响系统的空间校准方法及其移动终端设备
CN109074707A (zh) 玻璃破损检测系统
CN105261363A (zh) 一种语音识别的方法、装置及终端
JP4080210B2 (ja) 拡声明瞭度改善装置および拡声明瞭度改善方法
CN105612767A (zh) 在上混器中生成自适应散射信号
WO2021236076A1 (en) System, apparatus, and method for multi-dimensional adaptive microphone-loudspeaker array sets for room correction and equalization
CN113945265B (zh) 一种多声音区域的音频隔离度检测方法、装置及系统
EP1575034B1 (en) Input sound processor
EP4037341A1 (en) System and method for providing three-dimensional immersive sound
CN114566149A (zh) 一种自适应增益的智能审讯笔录装置及录音方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MATSUSHITA ELECTRIC (AMERICA) INTELLECTUAL PROPERT

Free format text: FORMER OWNER: MATSUSHITA ELECTRIC INDUSTRIAL CO, LTD.

Effective date: 20140716

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20140716

Address after: California, USA

Patentee after: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

Address before: Osaka Japan

Patentee before: Matsushita Electric Industrial Co.,Ltd.