[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN112133320B - 语音处理装置及语音处理方法 - Google Patents

语音处理装置及语音处理方法 Download PDF

Info

Publication number
CN112133320B
CN112133320B CN202010493978.1A CN202010493978A CN112133320B CN 112133320 B CN112133320 B CN 112133320B CN 202010493978 A CN202010493978 A CN 202010493978A CN 112133320 B CN112133320 B CN 112133320B
Authority
CN
China
Prior art keywords
sound signal
gain
microphone
probability
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010493978.1A
Other languages
English (en)
Other versions
CN112133320A (zh
Inventor
川合窒登
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Publication of CN112133320A publication Critical patent/CN112133320A/zh
Application granted granted Critical
Publication of CN112133320B publication Critical patent/CN112133320B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • General Health & Medical Sciences (AREA)
  • Telephonic Communication Services (AREA)

Abstract

语音处理方法求出由第1传声器拾音到的声音信号所包含的近端侧的说话者的语音的概率,基于求出的所述概率而决定所述声音信号的增益,基于决定出的所述声音信号的增益对所述声音信号进行处理,将处理后的所述声音信号发送至远端侧。

Description

语音处理装置及语音处理方法
技术领域
本发明的一个实施方式涉及声音信号的信号处理。
背景技术
以往,存在一种语音调整装置,其对从传声器输入的声音信号的电平的强度进行测定,将声音信号的电平的强度和预先设定出的语音强度阈值进行比较,由此对声音信号是语音还是噪声进行判定(例如,参照专利文献1)。该语音调整装置将以大于规定的语音强度阈值的状态(有声状态)超过任意的一定时间(5~10秒)而继续的声音信号视作不是人类的语音的周围噪声。另外,该语音调整装置视为在以小于阈值的状态(无声状态)超过一定时间(20~30秒)而继续的声音信号中不包含周围的噪声。
专利文献1:日本特开2016-85420号公报
发明内容
但是,现有的语音调整装置没有考虑到下述情况,即,将正在使用该语音调整装置的近端侧的说话者的语音针对处于远离的位置(远端侧)的其他语音调整装置或具有扬声器的装置而以适当的电平发送至远端侧。
本发明的一个实施方式的目的在于,将近端侧的说话者的语音以适当的电平发送至远端侧。
本发明的一个实施方式所涉及的语音处理方法,求出由第1传声器拾音到的声音信号所包含的近端侧的说话者的语音的概率,基于求出的所述概率,决定所述声音信号的增益,基于决定出的所述声音信号的增益而对所述声音信号进行处理,将处理后的所述声音信号发送至远端侧。
发明的效果
根据本发明的一个实施方式,能够将近端侧的说话者的语音以适当的电平发送至远端侧。
附图说明
图1是表示实施方式1的语音处理系统的结构的图。
图2是表示实施方式1的语音处理装置的主要结构的框图。
图3是表示实施方式1的语音处理装置的功能结构的框图。
图4是实施方式1的倒谱的波形的一个例子,图4(A)是表示在声音信号中含有语音的波形的图,图4(B)是表示在声音信号中不包含语音的波形的图。
图5是表示实施方式1的语音处理装置的动作的一个例子的流程图。
图6是表示实施方式1的使用了倒谱进行的特征量的提取处理的一个例子的流程图。
图7是表示实施方式1的增益决定部的动作的一个例子的流程图。
图8是表示实施方式2的语音处理装置的功能结构的框图。
图9是表示实施方式3的语音处理装置的主要结构的框图。
图10是表示实施方式3的语音处理装置的功能结构的框图。
图11是表示音响装置的主要的硬件结构的框图。
标号的说明
1、1A、3…语音处理装置
11…通信部(发送部)
15…传声器
121…特征量提取部(语音推定部)
122…增益决定部
124…SN比计算部
125…相关性计算部
具体实施方式
(实施方式1)
图1是表示实施方式1所涉及的语音处理系统100的结构的图。语音处理系统100具有经由网络2彼此连接的多个(在图1中为2个)语音处理装置1及语音处理装置3。
语音处理装置1设置于第1地点。语音处理装置3设置于第2地点。即,语音处理装置1及语音处理装置3彼此设置在远程处。
语音处理装置1及语音处理装置3例如在远程的会议系统中使用。语音处理装置1例如将语音处理装置1的利用者的语音经由网络2而发送至语音处理装置3。另外,语音处理装置3的利用者的语音也同样地经由网络2而发送至语音处理装置1。
语音处理装置1及语音处理装置3具有相同的结构及功能。另外,在下面的说明中,将语音处理装置1的利用者称为近端侧的利用者或说话者。另外,在下面的说明中,将语音处理装置3的利用者称为远端侧的利用者或收听者。并且,在下面的说明中,通过将语音处理装置1的说话者的语音经由网络2而发送至语音处理装置3的例子进行说明。
此外,下面的实施方式的说明是一个例子,且本发明并不限定于下面的例子。
图2是表示语音处理装置1的主要结构的框图。语音处理装置1如图2所示,具有通信部11、CPU 12、RAM 13、存储器14、传声器15、扬声器16及用户接口(I/F)17。在本例中所说的通信部11相当于本发明的发送部。此外,语音处理装置3具有与语音处理装置1相同的结构及相同的功能,因此省略说明。
CPU 12从存储介质即存储器14读出程序,暂时存储于RAM 13,由此进行各种动作。
存储器14由闪存或硬盘驱动器(HDD)等构成。存储器14如上述所示存储有CPU 12的动作用程序。存储器14存储有特征量提取程序、增益决定程序及通信控制程序。特征量提取程序是用于构成后面记述的语音的特征量提取部121的程序。增益决定程序是用于构成后面记述的增益决定部122的程序。通信控制程序是用于对后面记述的通信部11进行控制的程序。
传声器15对包含说话者的语音及周围的噪声在内的声音信号进行拾音。传声器15对拾音到的声音信号(包含说话者的语音及周围的噪声在内的声音)进行数字变换。传声器15将数字变换后的声音信号输出至CPU 12。
CPU 12对从传声器15输入的声音信号实施信号处理。CPU 12将实施了信号处理的声音信号输出至通信部11。此外,语音处理装置1也可以具有信号处理的专用处理器(DSP:Digital Signal Processor)。在该情况下,按照CPU 12的指示,DSP进行信号处理。
CPU 12作为信号处理,根据由传声器15拾音到的声音信号而求出是说话者的语音的概率(是人声的可靠度)。CPU 12基于是语音的概率而对声音信号实施信号处理,以使得远端侧的收听者更容易听见近端侧的语音。此外,信号处理的详细内容在后面记述。此外,在本例中所说的、是语音的概率可以是0~100或0~1的值,也可以设置基准,通过与该基准相比较的程度而求出概率。
用户I/F 17接收来自利用者的操作。从利用者接收的操作例如是扬声器16的音量的调整等。
通信部11将由CPU 12进行信号处理后的声音信号经由网络2而发送至远端侧的语音处理装置3(参照图1)。另外,通信部11从语音处理装置3对远端侧的声音信号进行接收,输出至扬声器16。
扬声器16对由通信部11输出的远端侧的声音信号(利用者的语音)进行放音。另外,扬声器16可以构成为在输入的声音信号为数字信号的情况下,在进行D/A变换后对声音信号进行放音。
关于CPU 12的详细的功能及动作,参照图3进行说明。图3是表示语音处理装置1的功能结构的框图。CPU 12将由传声器15拾音到的语音调节为适当的电平,输出至通信部11。
CPU 12如图3所示,具有特征量提取部121、增益决定部122和电平调节部123。在本例中所说的特征量提取部121相当于本发明的语音推定部。
特征量提取部121从由传声器15拾音到的声音信号中,作为是语音的概率,对语音的特征量进行提取。更详细地说,特征量提取部121例如使用倒谱(Cepstrum)而对语音的特征量进行提取。
图4(A)是倒谱的波形的一个例子,是表示在声音信号中含有语音的例子的图。图4(B)是倒谱的波形的一个例子,是表示在声音信号中不包含语音的例子的图。图4(A)及图4(B)的纵轴表示电平(dB)。另外,图4(A)及图4(B)的横轴表示倒频率(ms)。此外,图4(A)及图4(B)是对低倒频率成分进行了放大的图。
特征量提取部121如图4(A)所示,例如使用提升器(Lifter)(在倒谱中使用的滤波器)等,分离为由单点划线包围的低阶的倒谱和由双点划线包围的高阶的倒谱。在这里,低阶的倒谱与频谱的包络成分相对应。另外,高阶的倒谱与频谱的微细成分相对应。
语音由基音和泛音构成。语音的基音表现为高阶的倒谱的峰值。即,特征量提取部121在高阶的倒谱中检测到峰值的情况下,推定为由传声器15拾音到的声音信号是语音的概率高。在本例中,特征量提取部121在高阶的倒谱中检测到峰值的情况下,将峰值电平变换(标准化)为0~1的值,作为特征量而输出至增益决定部122。
另一方面,特征量提取部121如图4(B)所示,在高阶的倒谱中没有检测到峰值的情况下,推定为是语音的概率低。特征量提取部121将在高阶的倒谱中没有峰值这样的内容(将特征量设为0这样的内容)输出至增益决定部122。
增益决定部122基于由特征量提取部121提取出的特征量(0~1的值),决定由传声器15拾音到的声音信号的增益。增益决定部122例如在特征量为0~1的情况下,将增益决定为大于0(最小值)的值。另外,增益决定部122在提取出的特征量为0的情况下,将增益决定为0(最小值)。
此外,增益决定部122也可以与接收到的特征量相应地将增益决定为0~1之间。另外,增益决定部122也可以预先决定阈值,将接收到的特征量和阈值进行比较而决定增益。在该情况下,例如如果特征量小于或等于阈值,则增益决定部122将增益决定为0。另外,在该情况下,例如如果特征量超过阈值,则将增益决定为0~1。
电平调节部123使用由增益决定部122决定出的增益,对由传声器15拾音到的声音信号的电平进行调节。
语音处理装置1如果由传声器15拾音到的声音信号是语音的概率(特征量)高,则将增益决定为1或与概率相应地决定为0~1之间。另外,如果由传声器15拾音到的声音信号是语音的概率低,则将增益决定为0。由此,语音处理装置1能够对近端侧的不需要的噪声进行抑制。因此,远端侧的收听者能够以适当的电平听见近端侧的说话者的语音。
关于语音处理装置1的动作,参照图5进行说明。图5是表示语音处理装置1的动作的一个例子的流程图。
特征量提取部121从由传声器15拾音到的声音信号,作为语音的概率而对语音的特征量进行提取(S1)。增益决定部122基于语音的特征量,决定由传声器15拾音到的声音信号的增益(S2)。电平调节部123使用决定出的增益而对声音信号的电平进行调节(S3)。发送部将处理后的信号发送至远端侧(S4)。
接下来,关于通过特征量提取部121进行的特征量的提取处理的一个例子,参照图6进行说明。图6是表示使用了倒谱进行的特征量的提取处理的一个例子的流程图。
首先,特征量提取部121对由传声器15拾音到的声音信号实施FFT(Fast FuriesTransform)(高速傅立叶变换处理),对实施了FFT的信号的绝对值进行计算。由此,特征量提取部121对声音信号的振幅频谱进行计算(S11)。接下来,特征量提取部121对振幅频谱进行对数计算(Log计算),将振幅频谱变换为分贝(dB)。由此,特征量提取部121计算对数频谱(S12)。并且,特征量提取部121对对数频谱实施DCT(Discrete Cosine Transform)(离散余弦变换处理)。由此特征量提取部121对倒谱(波形)进行计算(S13)。特征量提取部121根据计算出的倒谱的波形而对高阶的倒谱的峰值电平进行检测(S14)。特征量提取部121将对检测出的峰值电平进行标准化得到的特征量输出至增益决定部122(S15)。
此外,特征量提取部121在高阶倒谱中没有检测到峰值电平的情况下,将语音的特征量(是语音的概率)设为0而输出至增益决定部122。
接下来,关于增益决定部122的动作的一个例子,参照图7进行说明。图7是表示增益决定部122的动作的一个例子的流程图。此外,下面的说明为一个例子,并不受到限定。
增益决定部122从特征量提取部121接收特征量(S21)。增益决定部122与接收到的特征量相应地决定增益(S22)。如果接收到的特征量为0~1、或如果超过预先决定的阈值(S22:Yes),则增益决定部122将增益决定为大于0的值,输出至电平调节部123(S23)。
另一方面,如果特征量为0或特征量低于阈值(S22:No),则增益决定部122将增益决定为0,输出至电平调节部123(S23)。
实施方式1的语音处理装置1基于根据倒谱的波形的峰值电平求出的是语音的概率(语音的特征量),决定增益。语音处理装置1通过基于是语音的概率(语音的特征量)而决定出的增益,对由传声器15拾音到的声音信号的电平进行调节。由此,实施方式1的语音处理装置1能够将近端侧的说话者的语音以适当的电平发送至远端侧。
此外,增益决定部122例如也可以在接收到的特征量为1或超过阈值的情况下,瞬时地提高增益。在该情况下,语音处理装置1容易听见语音的起始部分(能够抑制语音的起始漏音)。另外,增益决定部122也可以在接收到的特征量为0或小于或等于阈值的情况下,伴随时间的经过而阶段性地降低增益。在该情况下,语音处理装置1由于音量不会急剧地降低,因此不会使利用者觉察到不适感。
(实施方式2)
关于实施方式2的语音处理装置1及语音处理装置3的CPU12A,参照图8进行说明。图8是表示实施方式2的CPU 12A的功能结构的框图。此外,对与上述的实施方式1的CPU 12相同的结构标注相同的标号,省略说明。另外,设为实施方式2的语音处理装置1及3具有相同的结构及相同的功能,在下面的说明中,以语音处理装置1的CPU 12A为代表而进行说明。
实施方式2的CPU 12A如图8所示,具有SN比计算部124,该SN比计算部124对周围的噪声相对于由传声器15拾音到的声音信号的SN(Signal to Noise)比率进行计算。即,CPU12A读出程序而执行SN比率的计算。
SN比计算部124对声音信号和噪声(例如,打字声、空调声、远离装置的位置处的声音等除了说话者的语音以外的声音)的SN比率进行计算。SN比率例如通过下面的算式1进行计算。
【式1】
在上述的算式1中,Ps是由传声器15拾音到的声音信号的功率。另外,PN是由传声器15拾音到的噪声的功率。在该情况下,SN比计算部124例如预先在没有由近端侧的说话者发出语音(没有说话)的状态下计算出噪声的功率。SN比计算部124使用预先计算出的噪声的功率和拾音到的声音信号的功率而对SN比率进行计算。在SN比率大的情况下,表示噪声相对于语音小。另外,在SN比率小的情况下,表示噪声相对于语音大。
增益决定部122例如与通过SN比计算部124计算出的SN比率和通过特征量提取部121提取出的特征量之积相应地决定增益。
此外,增益决定部122也可以将预先决定的阈值和上述积进行比较。在该情况下,如果上述积超过阈值,则增益决定部122将增益决定为0~1。另外,如果上述积小于或等于阈值,则增益决定部122将增益决定为0。
另外,增益决定部122并不限定于与通过特征量提取部121提取出的语音的特征量和通过SN比计算部124计算出的SN比率之积相应地决定增益的例子。增益决定部122例如也可以针对语音的特征量及计算出的SN比率使用逻辑式例如逻辑与、逻辑或、逻辑异或等或多个逻辑式的组合而决定增益。
实施方式2的语音处理装置1不仅基于近端侧的说话者的通过特征量提取部121得到的是语音的概率(语音的特征量),还基于噪声相对于声音信号的SN比率对声音信号的电平进行调节。由此,语音处理装置1能够将由传声器15拾音到的近端侧的说话者的语音以更适当的电平发送至远端侧。
此外,在实施方式2的语音处理装置1中,以CPU 12A读出SN比计算程序而执行的例子进行了说明,但SN比计算部也可以由SN比计算电路构成。
(实施方式3)
关于实施方式3的语音处理装置1A,参照图9进行说明。图9是表示实施方式3的语音处理装置1A的主要结构的框图。图10是表示实施方式3的语音处理装置1A的CPU 12B的功能结构的框图。此外,语音处理装置3具有与语音处理装置1A相同的结构及功能,因此在下面的说明中,以语音处理装置1A为代表而进行说明。另外,对与语音处理装置1相同的结构标注相同的标号,省略说明。
实施方式3的语音处理装置1A如图9所示,具有多个(在图9中为2个)传声器15A及传声器15B。语音处理装置1A从传声器15A及传声器15B分别对近端侧的声音信号进行拾音。
传声器15A及传声器15B各自将声音信号输出至CPU 12B。
CPU 12B如图10所示,具有相关性计算部125。相关性计算部125对由多个传声器15A及传声器15B拾音到的声音信号的相关性进行计算。相关性计算部125对白色化相互函数进行计算。
相关性计算部125求出从传声器15A生成的第1声音信号S1(t)的频谱及从传声器15B生成的第2声音信号S2(t)的频谱的相关性。
此外,在下面的说明中,作为一个例子,传声器15A为指向性传声器。传声器15B为在全方向具有均一的灵敏度的无指向性传声器。但是,传声器15A及传声器15B的指向性的方式并不限定于本例。例如,传声器15A及传声器15B也可以都为无指向性的传声器,也可以都为指向性的传声器。另外,传声器的数量也并不限定于2个,语音处理装置1A例如可以具有大于或等于3个传声器。
白色化相互函数例如通过下面的算式2~算式6进行计算。首先,相关性计算部125按照下面的算式2及算式3,对第1声音信号S1(t)及第2声音信号S2(t)分别实施FFT。而且,相关性计算部125将第1声音信号S1(t)及第2声音信号S2(t)变换为频率区域的信号S1(ω)及信号S2(ω)。
【式2】
【式3】
接下来,相关性计算部125对频率区域的信号S1(ω)及信号S2(ω)的互相关函数S1、2(ω)进行计算。
【式4】
上述的算式4中的*表示复共轭(关于多个复数,将虚部设为-1倍)。
并且,相关性计算部125根据通过算式4计算出的互相关函数S1、2(ω),例如实施IFFT(Inverse Fast Fourie Transfer(傅立叶逆变换))而对白色化相互函数系数CPS1,2(τ)进行计算。
【式5】
并且根据白色化相互函数系数CPS1,2(τ)对白色化相互函数系数成为最大的时间差TDOA1,2进行计算。
【式6】
TDOA1,2=argmax(CSP1,2(τ))
相关性计算部125通过使用上述的算式2~算式6,求出第1声音信号及第2声音信号S2(t)的波形的时间差(相位差)TDOA1,2。在时间差TDOA1,2大的情况下,相关性计算部125视为在装置的附近存在音源,判定为来自音源的语音是近端侧的说话者的语音。另一方面,相关性计算部125在时间差TDOA1,2小的情况下,判定为间接音多,是来自装置的远方的音源的噪声。
增益决定部122使用由特征量提取部121提取出的语音的特征量和由相关性计算部125判定出的判定结果之积而决定拾音到的声音信号的增益。
实施方式3的语音处理装置1A的相关性计算部125通过使用白色化相互函数而对来自音源的声音信号是语音还是远方的噪声进行判定。由此,实施方式3的语音处理装置1A不仅根据是近端侧的说话者的语音的概率(语音的特征量),还根据是否是来自远方的噪声而对声音信号的电平进行调节。因此,语音处理装置1A能够将由传声器15拾音到的近端侧的说话者的语音以更适当的电平发送至远端侧。
此外,增益决定部122并不限定于使用是语音的概率(语音的特征量)及通过相关性计算部125得到的判定结果之积而决定增益的例子。增益决定部122例如也可以针对是语音的概率(语音的特征量)及该判定结果使用逻辑式例如逻辑与、逻辑或、逻辑异或等或多个逻辑式的组合而决定增益。
另外,实施方式3的语音处理装置1A也可以与实施方式2的语音处理装置1组合使用。在该情况下,例如,增益决定部122通过是语音的概率+SN比率×该判定结果,决定由传声器15拾音到的声音信号的增益。由此,语音处理装置1A能够更高精度地将由传声器15拾音到的近端侧的说话者的语音以适当的电平发送至远端侧。此外,增益决定部122也可以针对是语音的概率(语音的特征量)、SN比率及该判定结果将多个逻辑式例如逻辑与、逻辑或、逻辑异或等组合而决定增益。
另外,在实施方式3的语音处理装置1A中,以CPU 12B读出相关性计算程序而执行的例子进行了说明,但相关性计算部125也可以由相关性计算电路构成。
(变形例1)
对变形例1的语音处理装置1的特征量提取部121进行说明。语音处理装置1通过机器学习,对声音信号是否是近端侧的说话者的语音进行判定。
语音处理装置1例如预先存储有多个语音样本。语音处理装置1对多个语音样本的特征量进行计算,将语音的特征量设为学习模型而模式化。语音处理装置1将由传声器15拾音到的声音信号与所存储的语音样本的特征量相比较。语音处理装置1通过由传声器15拾音到的语音的特征量和所存储的语音样本的特征量的模式匹配,求出是语音的概率。
例如,语音处理装置1对语音的特征量及噪声的特征量进行学习,作为各自的语音模型及噪声模型而模式化。语音处理装置1输入未知的(由传声器拾音到的)声音信号,基于表示似然性更高的值的模型,对该声音信号是否是语音进行判定。
变形例1的语音处理装置1通过机器学习,根据由传声器15拾音到的声音信号而求出语音的概率。由此,变形例1的语音处理装置1能够通过更简易的方法,将由传声器15拾音到的近端侧的说话者的语音以适当的电平发送至远端侧。
此外,变形例1的语音处理装置1也可以使用神经网络而求出是语音的概率。即,变形例1的语音处理装置1输入通过神经网络预先学习的未知的声音信号的特征量,基于输出结果对声音信号是否是语音进行判定。
(变形例2)
对变形例2的语音处理装置1的特征量提取部121进行说明。变形例2的语音处理装置1的特征量提取部121根据声音信号的基音和泛音的频率分布而对语音的特征量进行提取。
特征量提取部121例如对由传声器15拾音到的声音信号实施FFT。特征量提取部121如果从由传声器15拾音到的声音信号检测到基音和基音的整数倍的泛音,则推定为是说话者的语音。
变形例2的语音处理装置1能够通过更简易的方法求出是语音的概率(对语音的特征量进行提取)。
(其他变形例)
以下列举其他变形例。
其他变形例的语音处理装置1的特征量提取部121对频带中的功率(dB)进行计算。更详细地说,特征量提取部121对声音信号实施FFT,对功率进行计算。特征量提取部121与由传声器15拾音到的声音信号的功率相应地,求出声音信号是语音的概率。换言之,特征量提取部121与由传声器15拾音到的声音信号的功率相应地,对声音信号是否是语音进行判定。
另外,其他变形例的语音处理装置1的特征量提取部121通过频谱流量方法(Spectral flux method)对语音的特征量进行提取。频谱流量表示语音频谱的局部性的变化。即,如果频谱流量大,则表示声音的变动大。即,如果频谱流量大,则语音处理装置1的特征量提取部121判断为近端侧的说话者说了话。
另外,其他变形例的语音处理装置1的特征量提取部121通过非周期性指标对语音的特征量进行提取。非周期性指标表示语音的周期成分及非周期成分的比例。非周期性指标用于如嘶哑的辅音这样的表示周期性的成分和非周期性的成分混合存在的音。本变形例的特征量提取部121对非周期性指标进行计算。即,语音处理装置1的特征量提取部121如果检测到非周期性指标,则判定为近端侧的说话者正在说话。
另外,其他变形例的特征量提取部121作为是语音的概率(语音的特征量)而对声音信号的时间波形与零交叉的次数进行计算。特征量提取部121对在语音的时间区域中成为零交叉的点的出现频度进行计算。零交叉是与语音的基音即音高(pitch)相对应的。即,语音处理装置1的特征量提取部121如果检测到零交叉,则推定为近端侧的说话者的语音的概率高。
此外,本发明的结构也可以全部通过FGPA(Field-Programmable Gate Array)等硬件实现。例如,如图11所示,语音处理装置1或语音处理装置1A也可以是具有与特征量提取部121相对应的特征量提取电路121A、与增益决定部122相对应的增益决定电路122A。
另外,也可以是CPU 12、CPU 12A或CPU 12B读出并执行在存储器14中存储的通信控制程序而实现通信部11的硬件的功能。
另外,本发明的结构也可以适当将硬件及软件组合而实现。
应该认为上述的实施方式及变形例的说明在所有方面都是例示,且并不是限制性的内容。本发明的范围不是由上述的实施方式及变形例而是由权利要求书表示。并且,本发明的范围包含与权利要求书等同的含义以及范围内的全部变更。

Claims (18)

1.一种语音处理方法,
求出由第1传声器拾音到的声音信号所包含的近端侧的说话者的语音的概率,
根据由第1传声器和第2传声器拾音到的声音的所述声音信号的相关值,求出来自同一音源的波形的时间差,
在所述时间差大于规定值的情况下,判断为由所述第1传声器拾音到的所述声音信号为近端侧的说话者的语音,
在所述时间差小于或等于所述规定值的情况下,判断为由所述第1传声器拾音到的所述声音信号为噪声,
基于求出的所述概率以及所述时间差,决定由所述第1传声器拾音到的所述声音信号的增益,
基于决定出的所述声音信号的增益而对所述声音信号进行处理,
将处理后的所述声音信号发送至远端侧。
2.根据权利要求1所述的语音处理方法,其中,
对噪声相对于声音信号的SN比率进行推定,
基于求出的所述概率、所述时间差和推定出的所述SN比率,决定由所述第1传声器拾音到的所述声音信号的所述增益。
3.根据权利要求1所述的语音处理方法,其中,
将所述增益阶段性地降低,或将所述增益瞬时地提高。
4.根据权利要求1所述的语音处理方法,其中,
所述声音信号的增益在所述概率低于规定的值的情况下,将所述增益决定为最小值,在所述概率高于所述规定的值的情况下,将所述增益决定为比最小值大的值。
5.根据权利要求1所述的语音处理方法,其中,
使用倒谱而求出所述概率。
6.根据权利要求1所述的语音处理方法,其中,
使用机器学习方法而求出所述概率。
7.根据权利要求1所述的语音处理方法,其中,
使用由所述第1传声器拾音到的所述声音信号的基音及泛音的频率分布而求出所述概率。
8.一种语音处理装置,其具有:
第1传声器以及第2传声器;
存储器,其存储命令;以及
处理器,其为了执行多个任务而实施所述存储的命令,
所述处理器实施下述任务:
特征量提取任务,对由近端侧的所述第1传声器拾音到的声音所示的声音信号的特征量进行提取;
增益决定任务,基于提取出的所述声音信号的特征量,决定所述声音信号的增益;
信号处理任务,基于决定出的所述声音信号的增益,对声音信号进行处理;
发送任务,将处理后的信号发送至远端侧;以及
相关值计算任务,根据由所述第1传声器和所述第2传声器拾音到的声音所示的声音信号的相关值,求出来自同一音源的波形的时间差,
在所述增益决定任务中,使用所述特征量以及所述时间差,决定由所述第1传声器拾音到的所述声音信号的所述增益,
在所述相关值计算任务中,在所述时间差大于规定值的情况下,判断为由所述第1传声器拾音到的所述声音信号为近端侧的说话者的语音,在所述时间差小于或等于所述规定值的情况下,判断为由所述第1传声器拾音到的所述声音信号为噪声。
9.根据权利要求8所述的语音处理装置,其中,
所述多个任务具有:
语音推定任务,求出包含语音的所述声音信号的概率;以及
增益决定任务,基于推定出的所述概率,决定所述声音信号的增益。
10.根据权利要求9所述的语音处理装置,其中,
还具有SN比计算任务,对噪声相对于声音信号的SN比率进行推定,
基于推定出的所述概率、所述时间差和推定出的所述SN比率,决定由所述第1传声器拾音到的所述声音信号的所述增益。
11.根据权利要求8所述的语音处理装置,其中,
所述增益决定任务将所述增益阶段性地降低,或将所述增益瞬时地提高。
12.根据权利要求9所述的语音处理装置,其中,
所述增益决定任务关于所述声音信号的增益,
在所述概率低于规定的值的情况下,将所述增益决定为最小值,在所述概率高于所述规定的值的情况下,将所述增益决定为比最小值大的值。
13.根据权利要求9所述的语音处理装置,其中,
所述语音推定任务使用倒谱而推定所述概率。
14.根据权利要求9所述的语音处理装置,其中,
所述语音推定任务使用机器学习方法而推定所述概率。
15.根据权利要求9所述的语音处理装置,其中,
所述语音推定任务使用所述声音信号的基音及泛音的频率分布而求出所述概率。
16.一种语音处理方法,
对由近端侧的第1传声器拾音到的声音所示的声音信号的特征量进行提取;
根据由所述第1传声器和第2传声器拾音到的声音所示的声音信号的相关值,求出来自相同音源的波形的时间差;
在所述时间差大于规定值的情况下,判断为由所述第1传声器拾音到的所述声音信号为近端侧的说话者的语音;
在所述时间差小于或等于所述规定值的情况下,判断为由所述第1传声器拾音到的所述声音信号为噪声;
基于提取出的所述声音信号的特征量以及所述时间差,决定由所述第1传声器拾音到的所述声音信号的增益;
基于决定出的所述声音信号的增益,对声音信号进行处理;以及
将处理后的信号发送至远端侧。
17.根据权利要求16所述的语音处理方法,其中,
对推定出的声音信号所包含的语音的概率进行推定,
基于推定出的所述概率,决定所述声音信号的增益。
18.根据权利要求17所述的语音处理方法,其中,
对声音信号的SN比率进行推定,
基于推定出的概率、所述时间差和推定出的SN比率,决定由所述第1传声器拾音到的所述声音信号的增益。
CN202010493978.1A 2019-06-07 2020-06-03 语音处理装置及语音处理方法 Active CN112133320B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-106859 2019-06-07
JP2019106859A JP7404664B2 (ja) 2019-06-07 2019-06-07 音声処理装置及び音声処理方法

Publications (2)

Publication Number Publication Date
CN112133320A CN112133320A (zh) 2020-12-25
CN112133320B true CN112133320B (zh) 2024-02-20

Family

ID=70977388

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010493978.1A Active CN112133320B (zh) 2019-06-07 2020-06-03 语音处理装置及语音处理方法

Country Status (4)

Country Link
US (1) US11922933B2 (zh)
EP (1) EP3748636A1 (zh)
JP (1) JP7404664B2 (zh)
CN (1) CN112133320B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11425163B2 (en) * 2020-02-05 2022-08-23 King Fahd University Of Petroleum And Minerals Control of cyber physical systems subject to cyber and physical attacks

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6084967A (en) * 1997-10-29 2000-07-04 Motorola, Inc. Radio telecommunication device and method of authenticating a user with a voice authentication token
JP2004289762A (ja) * 2003-01-29 2004-10-14 Toshiba Corp 音声信号処理方法と装置及びプログラム
CN101192411A (zh) * 2007-12-27 2008-06-04 北京中星微电子有限公司 大距离麦克风阵列噪声消除的方法和噪声消除系统
EP2083417A2 (en) * 2008-01-25 2009-07-29 Yamaha Corporation Sound processing device and program
JP2009175473A (ja) * 2008-01-25 2009-08-06 Yamaha Corp 音処理装置およびプログラム
CN101790752A (zh) * 2007-09-28 2010-07-28 高通股份有限公司 多麦克风声音活动检测器
CN108028979A (zh) * 2015-09-18 2018-05-11 高通股份有限公司 协作音频处理

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0763813B1 (en) * 1990-05-28 2001-07-11 Matsushita Electric Industrial Co., Ltd. Speech signal processing apparatus for detecting a speech signal from a noisy speech signal
EP1569200A1 (en) * 2004-02-26 2005-08-31 Sony International (Europe) GmbH Identification of the presence of speech in digital audio data
JP4729927B2 (ja) 2005-01-11 2011-07-20 ソニー株式会社 音声検出装置、自動撮像装置、および音声検出方法
US7555432B1 (en) * 2005-02-10 2009-06-30 Purdue Research Foundation Audio steganography method and apparatus using cepstrum modification
JP4667082B2 (ja) * 2005-03-09 2011-04-06 キヤノン株式会社 音声認識方法
JP5081730B2 (ja) 2008-06-06 2012-11-28 株式会社レイトロン 音声区間検出装置および音声区間検出方法
CN102165792A (zh) * 2008-09-24 2011-08-24 雅马哈株式会社 环路增益推定装置以及啸叫防止装置
JP5197458B2 (ja) * 2009-03-25 2013-05-15 株式会社東芝 受音信号処理装置、方法およびプログラム
EP2441072B1 (en) * 2009-06-08 2019-02-20 Nokia Technologies Oy Audio processing
US9521263B2 (en) * 2012-09-17 2016-12-13 Dolby Laboratories Licensing Corporation Long term monitoring of transmission and voice activity patterns for regulating gain control
US9516442B1 (en) * 2012-09-28 2016-12-06 Apple Inc. Detecting the positions of earbuds and use of these positions for selecting the optimum microphones in a headset
US20140358552A1 (en) * 2013-05-31 2014-12-04 Cirrus Logic, Inc. Low-power voice gate for device wake-up
EP2876900A1 (en) * 2013-11-25 2015-05-27 Oticon A/S Spatial filter bank for hearing system
JP6361271B2 (ja) 2014-05-09 2018-07-25 富士通株式会社 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム
JP5863928B1 (ja) 2014-10-29 2016-02-17 シャープ株式会社 音声調整装置
JP6903884B2 (ja) * 2016-09-15 2021-07-14 沖電気工業株式会社 信号処理装置、プログラム及び方法、並びに、通話装置
EP3312838A1 (en) * 2016-10-18 2018-04-25 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for processing an audio signal
KR102535726B1 (ko) * 2016-11-30 2023-05-24 삼성전자주식회사 이어폰 오장착 검출 방법, 이를 위한 전자 장치 및 저장 매체
WO2018173267A1 (ja) * 2017-03-24 2018-09-27 ヤマハ株式会社 収音装置および収音方法
WO2018186656A1 (ko) * 2017-04-03 2018-10-11 가우디오디오랩 주식회사 오디오 신호 처리 방법 및 장치
US11128954B2 (en) * 2017-05-25 2021-09-21 Samsung Electronics Co., Ltd Method and electronic device for managing loudness of audio signal
US11609737B2 (en) * 2017-06-27 2023-03-21 Dolby International Ab Hybrid audio signal synchronization based on cross-correlation and attack analysis
WO2019142072A1 (en) * 2018-01-16 2019-07-25 Cochlear Limited Individualized own voice detection in a hearing prosthesis
US10957338B2 (en) * 2018-05-16 2021-03-23 Synaptics Incorporated 360-degree multi-source location detection, tracking and enhancement
EP3709115B1 (en) * 2019-03-13 2023-03-01 Oticon A/s A hearing device or system comprising a user identification unit
US11164592B1 (en) * 2019-05-09 2021-11-02 Amazon Technologies, Inc. Responsive automatic gain control

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6084967A (en) * 1997-10-29 2000-07-04 Motorola, Inc. Radio telecommunication device and method of authenticating a user with a voice authentication token
JP2004289762A (ja) * 2003-01-29 2004-10-14 Toshiba Corp 音声信号処理方法と装置及びプログラム
CN101790752A (zh) * 2007-09-28 2010-07-28 高通股份有限公司 多麦克风声音活动检测器
CN101192411A (zh) * 2007-12-27 2008-06-04 北京中星微电子有限公司 大距离麦克风阵列噪声消除的方法和噪声消除系统
EP2083417A2 (en) * 2008-01-25 2009-07-29 Yamaha Corporation Sound processing device and program
JP2009175473A (ja) * 2008-01-25 2009-08-06 Yamaha Corp 音処理装置およびプログラム
CN108028979A (zh) * 2015-09-18 2018-05-11 高通股份有限公司 协作音频处理

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Timo Gerkmann 等.SPEECH PRESENCE PROBABILITY ESTIMATION BASED ON TEMPORAL CEPSTRUM SMOOTHING.2010,4254-4257. *

Also Published As

Publication number Publication date
US11922933B2 (en) 2024-03-05
EP3748636A1 (en) 2020-12-09
JP7404664B2 (ja) 2023-12-26
JP2020201337A (ja) 2020-12-17
CN112133320A (zh) 2020-12-25
US20200388275A1 (en) 2020-12-10

Similar Documents

Publication Publication Date Title
US9812147B2 (en) System and method for generating an audio signal representing the speech of a user
JP6169849B2 (ja) 音響処理装置
CN106664473B (zh) 信息处理装置、信息处理方法和程序
TWI463817B (zh) 可適性智慧雜訊抑制系統及方法
US8369549B2 (en) Hearing aid system adapted to selectively amplify audio signals
JP5000647B2 (ja) 音声状態モデルを使用したマルチセンサ音声高品質化
US9437210B2 (en) Audio signal processing
CN108235181B (zh) 在音频处理装置中降噪的方法
CN111833896A (zh) 融合反馈信号的语音增强方法、系统、装置和存储介质
CN102549659A (zh) 抑制音频信号中的噪声
CA2869884C (en) A processing apparatus and method for estimating a noise amplitude spectrum of noise included in a sound signal
CN113593612B (zh) 语音信号处理方法、设备、介质及计算机程序产品
WO2022256577A1 (en) A method of speech enhancement and a mobile computing device implementing the method
WO2009123387A1 (en) Procedure for processing noisy speech signals, and apparatus and computer program therefor
CN113823301A (zh) 语音增强模型的训练方法和装置及语音增强方法和装置
CN112133320B (zh) 语音处理装置及语音处理方法
WO2022068440A1 (zh) 啸叫抑制方法、装置、计算机设备和存储介质
JP3933909B2 (ja) 音声/音楽混合比推定装置およびそれを用いたオーディオ装置
GB2490092A (en) Reducing howling by applying a noise attenuation factor to a frequency which has above average gain
EP2660814B1 (en) Adaptive equalization system
CN116980804B (zh) 音量调整方法、装置、设备及可读存储介质
CN112562717A (zh) 啸叫检测方法、装置、存储介质、计算机设备
US12118970B2 (en) Compensating noise removal artifacts
CN117998254B (zh) 破音修复方法、装置及存储介质
CN115713942A (zh) 音频处理方法、装置、计算设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant