[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP5678445B2 - 音声処理装置、音声処理方法およびプログラム - Google Patents

音声処理装置、音声処理方法およびプログラム Download PDF

Info

Publication number
JP5678445B2
JP5678445B2 JP2010059623A JP2010059623A JP5678445B2 JP 5678445 B2 JP5678445 B2 JP 5678445B2 JP 2010059623 A JP2010059623 A JP 2010059623A JP 2010059623 A JP2010059623 A JP 2010059623A JP 5678445 B2 JP5678445 B2 JP 5678445B2
Authority
JP
Japan
Prior art keywords
noise
gain
frequency component
target sound
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010059623A
Other languages
English (en)
Other versions
JP2011191669A (ja
Inventor
俊之 関矢
俊之 関矢
慶一 大迫
慶一 大迫
安部 素嗣
素嗣 安部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2010059623A priority Critical patent/JP5678445B2/ja
Priority to US13/041,638 priority patent/US8861746B2/en
Priority to CN2011100608719A priority patent/CN102194464A/zh
Publication of JP2011191669A publication Critical patent/JP2011191669A/ja
Application granted granted Critical
Publication of JP5678445B2 publication Critical patent/JP5678445B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、音声処理装置、音声処理方法およびプログラムに関する。
従来から、雑音が混入している入力音声に対して、雑音を抑圧して目的音声を強調することが行われている(例えば、特許文献1〜3)。上記特許文献では、目的音声を強調した音声周波数成分には目的音声と雑音が含まれており、目的音声を抑圧した雑音周波数成分には雑音のみが含まれていると推定して、音声周波数成分のパワースペクトルから雑音周波数成分のパワースペクトルを減算することにより、入力音声から雑音音声を除去している。
特許第3677143号公報 特許第4163294号公報 特許公開2009−49998号公報
しかし、上記特許文献では、処理後の音声信号にミュージカルノイズといわれる特有の歪みが生じたり、音声周波数成分に含まれる雑音と雑音周波数成分に含まれる雑音とが等しくない場合があったりするため、適切な雑音除去を行うことができないという問題があった。
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、所定のゲイン関数を利用して、ミュージカルノイズが低減された音声強調を行うことが可能な、新規かつ改良された音声処理装置、音声処理方法およびプログラムを提供することにある。
上記課題を解決するために、本発明のある観点によれば、目的音および雑音が混入している入力音声の前記目的音を強調して音声周波数成分を取得する目的音強調部と、前記入力音声の前記目的音を抑圧して雑音周波数成分を取得する目的音抑圧部と、前記音声周波数成分および前記雑音周波数成分に応じた所定のゲイン関数を用いて前記音声周波数成分に乗算するゲイン値を算出するゲイン算出部と、前記ゲイン算出部により算出されたゲイン値を前記音声周波数成分に乗算するゲイン乗算部と、を備え、前記ゲイン算出部は、前記音声周波数成分と前記雑音周波数成分とのエネルギー比が所定値以下の場合に前記ゲイン値および前記ゲイン関数の傾きが所定値より小さくなる前記ゲイン関数を用いて前記ゲイン値を算出する、音声処理装置が提供される。
また、前記音声周波数成分には目的音成分と雑音成分が含まれており、前記ゲイン乗算部は、前記音声周波数成分に前記ゲイン値を乗算して前記音声周波数成分に含まれている前記雑音成分を抑圧してもよい。
また、前記ゲイン算出部は、前記目的音抑圧部により取得された雑音周波数成分に雑音のみが含まれていると推定して、前記ゲイン値を算出してもよい。
また、前記ゲイン関数は、前記音声周波数成分と前記雑音周波数成分とのエネルギー比において、雑音の比率が集中している雑音集中範囲の前記ゲイン値および前記ゲイン関数の傾きが所定値より小さくなるゲインカーブを有する関数でもよい。
また、前記ゲイン関数は、前記雑音集中範囲以外で最も急斜である前記ゲイン関数の傾きよりも小さい傾きのゲインカーブを有する関数でもよい。
また、前記入力音声に含まれる前記目的音が存在する区間を検出する目的音区間検出部を備え、前記ゲイン算出部は、前記目的音区間検出部による検出結果に応じて、前記目的音強調部により取得された前記音声周波数成分のパワースペクトルおよび前記目的音抑圧部により取得された前記雑音周波数成分のパワースペクトルを平均化してもよい。
また、前記ゲイン算出部は、前記目的音区間検出部による検出の結果、目的音が存在する区間であることが検出された場合に第1の平滑化係数を選択し、前記目的音が存在する区間であることが検出された場合に第2の平滑化係数を選択して、前記音声周波数成分および前記雑音周波数成分のパワースペクトルを平均化してもよい。
また、前記ゲイン算出部は、平均化された前記音声周波数成分のパワースペクトルおよび前記雑音周波数成分のパワースペクトルを用いて算出されたゲイン値を平均化してもよい。
また、前記目的音抑圧部により取得された雑音周波数成分の大きさを、前記目的音強調部により取得された音声周波数成分に含まれる雑音成分の大きさに対応させるように前記雑音周波数成分を補正する雑音補正部を備え、前記ゲイン算出部は、前記雑音補正部により補正された前記雑音周波数成分に応じたゲイン値を算出してもよい。
また、前記雑音補正部は、ユーザ操作に応じて前記雑音周波数成分を補正してもよい。
また、前記雑音補正部は、検出された雑音の状態に応じて前記雑音周波数成分を補正してもよい。
また、上記課題を解決するために、本発明の別の観点によれば、目的音および雑音が混入している入力音声の前記目的音を強調して音声周波数成分を取得するステップと、前記入力音声の前記目的音を抑圧して雑音周波数成分を取得するステップと、前記音声周波数成分と前記雑音周波数成分とのエネルギー比が所定値以下の場合に前記ゲイン値および前記ゲイン関数の傾きが所定値より小さくなるゲイン関数を用いて前記音声周波数成分に乗算するゲイン値を算出するステップと、前記ゲイン算出部により算出されたゲイン値を前記音声周波数成分に乗算するステップと、を含む、音声処理方法が提供される。
また、上記課題を解決するために、本発明の別の観点によれば、コンピュータを、目的音および雑音が混入している入力音声の前記目的音を強調して音声周波数成分を取得する目的音強調部と、前記入力音声の前記目的音を抑圧して雑音周波数成分を取得する目的音抑圧部と、前記音声周波数成分および前記雑音周波数成分に応じた所定のゲイン関数を用いて前記音声周波数成分に乗算するゲイン値を算出するゲイン算出部と、前記ゲイン算出部により算出されたゲイン値を前記音声周波数成分に乗算するゲイン乗算部と、を備え、前記ゲイン算出部は、前記音声周波数成分と前記雑音周波数成分とのエネルギー比が所定値以下の場合に前記ゲイン値および前記ゲイン関数の傾きが所定値より小さくなる前記ゲイン関数を用いて前記ゲイン値を算出する、音声処理装置として機能させるためのプログラムが提供される。
以上説明したように本発明によれば、所定のゲイン関数を利用して、ミュージカルノイズが低減された音声強調を行うことができる。
本発明の実施形態の概要を説明する説明図である。 本発明の実施形態の概要を説明する説明図である。 本発明の第1の実施形態にかかる音声処理装置の機能構成を示すブロック図である。 同実施形態にかかるゲイン算出部の機能構成を示すブロック図である。 同実施形態にかかるゲイン算出部による平均化処理を示すフローチャートである。 同実施形態にかかる目的音区間検出部の機能構成を示すブロック図である。 同実施形態にかかる目的音の検出処理について説明する説明図である。 同実施形態にかかる目的音の検出処理について説明する説明図である。 同実施形態にかかる目的音区間の検出処理を示すフローチャートである。 同実施形態にかかる目的音の検出処理について説明する説明図である。 同実施形態にかかる白色化について説明する説明図である。 同実施形態にかかる雑音補正部の機能構成を示すブロック図である。 同実施形態にかかる雑音補正の処理を示すフローチャートである。 同実施形態にかかる雑音補正部の機能構成を示すブロック図である。 同実施形態にかかる雑音補正の処理を示すフローチャートである。 同実施形態にかかる音声処理装置の機能構成を示すブロック図である。 同実施形態にかかる定式化による出力信号の差を説明する説明図である。 本発明の第2の実施形態にかかる機能構成を示すブロック図である。 同実施形態にかかる目的音強調前後の雑音スペクトルを説明する説明図である。 同実施形態にかかる目的音強調前後の目的音スペクトルを説明する説明図である。 従来の技術を説明する説明図である。 従来の技術を説明する説明図である。
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
また、以下に示す順序に従って、当該「発明を実施するための形態」を説明する。
1.本実施形態の目的
2.第1実施形態
3.第2実施形態
<1.本実施形態の目的>
まず、本実施形態の目的について説明する。従来から、雑音が混入している入力音声に対して、雑音を抑圧して目的音声を強調することが行われている(例えば、上記特許文献1〜3)。特許文献1では、複数個のマイクを利用して、目的音声を強調した信号(以降、音声周波数成分と称する。)と、目的音声を抑圧した信号(以降、雑音周波数成分と称する。)が取得される。
そして、音声周波数成分には目的音声と雑音が含まれ、雑音周波数成分には雑音のみが含まれていると推定して、両者を利用してスペクトルサブトラクションが行われる。特許文献1におけるスペクトルサブトラクション処理においては、処理後の音声信号にミュージカルノイズといわれる特有の歪みが生じてしまうという問題があった。また、音声周波数成分に含まれる雑音と雑音周波数成分に含まれる雑音は等しいと仮定して処理しているが、実際には等しくない場合があるという問題があった。
ここで、一般的なスペクトルサブトラクションの処理について説明する。一般に、スペクトルサブトラクションでは、信号に含まれる雑音成分を推定し、パワースペクトル上で引き算が行われる。以下では、音声周波数成分Xに含まれる目的音成分をS、雑音成分をN、雑音周波数成分をN′とする。処理後周波数成分Yのパワースペクトルは以下の式により得られる。
Figure 0005678445
一般には、入力信号の位相を利用して復元するので、以下のように引き算であってもXにある値(以下、ゲイン値)を乗じることにより雑音成分を抑圧することができる。
Figure 0005678445
Ws(h)をXとN′の比hの関数とみなすと、その外形は図21に示した外形となる。h<1の範囲はフロアリングといわれ、一般には、Ws(h)=0.05など適当な小さい値に置き換えられる。図21に示したように、Ws(h)の外形は、hが小さいところで非常に大きな傾きを持っている。したがって、hが、hの小さい範囲(例えば1<h<2)で少し振動すると、その結果得られるゲイン値が大きく振動することとなる。これにより、周波数成分に対して、時間−周波数ごとに変号の大きな値が乗じられることになり、いわゆるミュージカルノイズが生じると考えられる。
hが小さい値をとる場合とは、音声周波数成分Xにおいて、Sが非常に小さい場合もしくは、S=0となる非音声区間であり、この区間での音質の劣化が著しくなる。また、N=N′と仮定しているが、この仮定が正しくない場合に、特に非音声区間でゲイン値が大きく振動し、音質劣化の要因となる。
また、上記した特許文献3では、音声周波数成分(X=S+N)と雑音周波数成分N′に対して、出力の適応において音声周波数成分に含まれる雑音成分Nと雑音周波数成分N′の大きさをそろえている。しかし、ポストフィルタリング手段でMAP最適化などを行っているものの、Wiener Filterに基づいた手法になっており、出力の適応の効果を十分に活かすことができない。
Wiener Filterは、目的音成分Sと雑音成分Nに対して、以下で与えられる値を音声周波数成分に乗じることにより雑音の抑圧をおこなう。
Figure 0005678445
実際にはSとNは観測できないため、観測可能な音声周波数成分Xと雑音周波数成分N′を利用し、以下のように求める。
Figure 0005678445
これを、前述のスペクトルサブストラクションと同様にhの関数と考えると、その外形は図22に示した外形となる。図21のスペクトルサブトラクションと同様に、hの値が小さい範囲において、W(h)の傾きが大きくなっている。出力の適応により、非音声区間では、h自体の散らばりは小さくなり(1の付近に集まる)、従来と比べると、乗じるゲイン値の変動を小さく抑えることが可能となっている。しかし、傾き自体が大きいところにhの値が集中するのは望ましくない。
そこで、上記のような事情を一着眼点として、本実施形態にかかる音声処理装置が創作されるに至った。本実施形態にかかる音声処理装置によれば、所定のゲイン関数を利用して、ミュージカルノイズが低減された音声強調を行うことが可能となる。
<2.第1実施形態>
次に、第1実施形態について説明する。図1および図2を参照して、第1実施形態の概要について説明する。第1実施形態では、雑音抑圧に利用するゲイン関数G(r)が以下の特徴を有する。
(1)rが小さい値の範囲R1(例えばr<2)では、なるべく小さな値かつ、小さな傾きを有する。
(2)rが中程度の範囲R2(例えば2<r6)では、大きな正の傾きを有する。
(3)rが十分大きい範囲R3(例えばr≧6)では、傾きは小さくなり、1に収束する。
(4)G(r)は変曲点に対して非対称。
図1のグラフ300は、上記(1)〜(4)の条件を満たす関数G(r)の外形を示している。図2は、実際に観測されたデータにおいて、雑音のみが存在する区間でのhの値の分布をグラフ化したものである。ヒストグラム301に示したように、実際に観測されたデータにおいて、雑音のみが存在する区間でのhの値のほとんど(80%)は、0〜2に集中している。したがって、上記(1)の条件におけるrが小さい範囲とは、雑音のみが存在する区間において、雑音の比率(h)のヒストグラムを算出したときに、80%のデータが含まれる範囲とすることができる。以下では、r<2の範囲R1において、なるべく小さな値かつ、小さな傾きを有するゲイン関数G(r)を用いて雑音抑圧をおこなっている。
また、本実施形態では、目的音区間か否かを検出して、時間方向のパワースペクトルの平均化を行う。例えば、目的音が存在しない区間で大きく平均化することにより、時間方向の分散を小さくする。これにより、上記したゲイン関数によりrが小さい範囲R1において変動が少ない値を出力し、かつ、時間方向にも変動の少ない値を得ることが可能となり、更に、ミュージカルノイズを低減することができる。
また、本実施形態では、音声周波数成分に含まれる雑音成分Nと、雑音周波数成分N′の比がG(r)のR1の範囲に収まるように、周波数特性の補正を行う。これにより、さらに、ゲイン値の算出において、hを小さくし、さらに分散を小さくすることが可能となり、大きな雑音抑圧および大幅なミュージカルノイズの低減を実現することができる。
次に、図3を参照して、音声処理装置100の機能構成について説明する。図3は、音声処理装置100の機能構成を示すブロック図である。音声処理装置100は、目的音強調部102と、目的音抑圧部104と、ゲイン算出部106と、ゲイン乗算部108と、目的音区間検出部110と、雑音補正部112などを備える。
目的音強調部102は、目的音および雑音が混入している入力音声の目的音を強調して、音声周波数成分Yempを取得する機能を有する。本実施形態では、複数本のマイクロホンから音声Xiが入力されるが、かかる例に限定されず、一本のマイクロホンから音声Xiが入力されてもよい。目的音強調部により取得された音声周波数成分Yempは、ゲイン算出部106、ゲイン乗算部108、目的音区間検出部110に提供される。
目的音抑圧部104は、目的音および雑音が混入している入力音声の目的音を抑圧して、雑音周波数成分Ysupを取得する機能を有する。目的音抑圧部104により目的音を抑圧して、雑音成分が推定される。目的音抑圧部104により取得された雑音周波数成分Ysupは、ゲイン算出部106、目的音区間検出部110、雑音補正部112に提供される。
ゲイン算出部106は、目的音強調部102により取得された音声周波数成分および目的音抑圧部104により取得された雑音周波数成分に応じた所定のゲイン関数を用いて音声周波数成分に乗算するゲイン値を算出する機能を有する。所定のゲイン関数とは、図1に示したように、音声周波数成分と雑音周波数成分とのエネルギー比が所定値以下の場合にゲイン値およびゲイン関数の傾きが所定値より小さくなるゲイン関数である。
ゲイン乗算部108は、ゲイン算出部106により算出されたゲイン値を目的音強調部102により取得された音声周波数成分に乗算する機能を有する。音声周波数成分に図1に示したゲイン関数を用いたゲイン値が乗算されることにより、ミュージカルノイズを低減して、雑音を抑圧することが可能となる。
目的音区間検出部110は、入力音声に含まれる目的音が存在する区間を検出する機能を有する。目的音区間検出部110は、目的音強調部102により提供される周波数スペクトルYempと、目的音抑圧部104から得られる周波数スペクトルYsupから振幅スペクトルを算出して、それぞれ入力音声Xiとの相関を求めることにより目的音の区間を検出する。目的音区間検出部110による目的音の検出処理については後で詳細に説明する。
ゲイン算出部106は、目的音区間検出部110による検出結果に応じて、目的音強調部102により取得された音声周波数成分のパワースペクトルおよび目的音抑圧部104により取得されたパワースペクトルを平均化する。ここで、図4を参照して、目的音区間検出部110による検出結果に応じたゲイン算出部106の機能について説明する。
図4に示したように、ゲイン算出部106は、演算手段122と、第1平均化手段124と、第1保持手段126と、ゲイン算出手段128と、第2平均化手段130、第2保持手段132などを有する。演算手段122は、目的音強調部102により取得された周波数スペクトルYempおよび目的音抑圧部104により取得された周波数スペクトルYsupに対して、パワースペクトルを算出する機能を有する。
そして、第1平均化手段124は、目的音区間検出部110により検出された目的音区間を示す制御信号に応じて、パワースペクトルの平均化を行う。第1平均化手段124では、例えば、一次の減衰を利用して、目的音区間検出部110の検出結果に応じて、パワースペクトルの平均化を行う。目的音が存在する区間では、以下の数式によりパワースペクトルの平均化を行う。
Figure 0005678445
また、目的音が存在しない区間では、以下の数式によりパワースペクトルの平均化を行う。
Figure 0005678445
上記では、r1<r2で、例えば、r1=0.3、r2=0.9などの値を利用する。また、r3は、例えば、r2と同程度の値を利用することが望ましい。また、目的音の存在に応じて、r1、r2を切り替えるのではなく、連続的に変化させてもよい。r1およびr2を連続的に変化させる方法については後で詳細に説明する。また、上記では1次の減衰を利用した平滑化を行っているが、かかる例に限定されない。例えば、Nフレームを平均して、そのNをr同様に制御してもよい。すなわち、目的音が存在するときは、過去3フレームの平均値を利用し、目的音が存在しないときは過去7フレームの平均値を利用するなどの制御を行う。
上記では、目的音が存在しない区間で、なるべく、PxおよびPnを大きく平均化することにより、時間方向の分散を小さくすることができる。本実施形態にかかるゲイン関数では、図1に示したように、rが小さい範囲(R1)において、変動が少ない値を出力することができる。つまり、ゲイン関数G(r)を利用することにより、rが小さい範囲においてミュージカルノイズを発生しにくくしているが、パワースペクトルの平均化により時間方向にも変動が少ない値を得ることが可能となる。これにより、ミュージカルノイズを更に低減することが可能となる。一方、目的音が存在する区間で大きな平均化を行うとエコー感の原因となるため、目的音の有無に応じて平滑化係数rの制御を行う。
ゲイン算出手段128は、h=Px/Pnに応じて、図1に示した外形を持つ値を算出する。このとき、あらかじめ保持したテーブルの値を利用してもよいし、図1の外形を持つ以下の関数を利用してもよい。
Figure 0005678445
例えば、b=0.8、c=0.4とする。
第2平均化手段130は、第1平均化手段124と同様の平均化処理をゲイン値に対して行う。平均化の係数は、r1、r2、r3と同じ値でもよいし、異なる値であってもよい。次に、図5を参照して、ゲイン算出部106による平均化処理について説明する。図5は、ゲイン算出部106による平均化処理を示すフローチャートである。
図5に示したように、まず、目的音強調部102および目的音抑圧部104から周波数スペクトル(Yemp、Ysup)を取得する(S102)。そして、パワースペクトル(Yemp、Ysup)を算出する(S104)。そして、第1保持手段126から、過去の平均化されたパワースペクトル(Px、Pn)を取得する(S106)。そして、目的音が存在する区間であるか否かを判定する(S108)。
ステップS108において、目的音が存在する区間であると判定された場合には、平滑化係数にr=r1を選択する(S110)。ステップS108において、目的音が存在しない区間であると判定された場合には、平滑化係数にr=r2を選択する。そして、以下の数式によりパワースペクトルの平均化を行う(S114)。
Figure 0005678445
そして、Px、Pnを利用して、ゲイン値gを算出する(S116)。そして、第2保持手段132から、過去のゲイン値Gを取得する(S118)。ステップS118において取得したゲイン値Gを以下の数式により平均化する。
Figure 0005678445
ステップS120において平均化されたゲイン値Gをゲイン乗算部108へ送る(S122)。そして、第1保持手段126にPxおよびPnを保持し(S124)、第2保持手段にゲイン値Gを保持する(S126)。上記処理は、すべての周波数域に対して実行される。また、上記処理では、パワースペクトルの平均化とゲインの平均化において、同じ平均化係数を用いているが、かかる例に限定されず、それぞれ異なる平均化係数を用いてもよい。
次に、図6を参照して、目的音区間検出部110による目的音の検出処理について説明する。図6に示したように、目的音区間検出部110は、演算手段132と、相関算出手段134と、比較手段136と、判定手段138などを有する。
演算手段132には、目的音強調部102から提供される周波数スペクトルYempと、目的音抑圧部104から提供される周波数スペクトルYsupと、入力信号のうち一つの周波数スペクトルXiが入力される。周波数スペクトルXiの選択については、どのマイクロホンを選択してもよいが、目的音が入力される位置が予めわかっている場合には、目的音に最も近い位置のマイクロホンを利用することが望ましい。これにより、最も大きな音で目的音を入力することができる。
演算手段132は、入力された各周波数スペクトルに対して、振幅スペクトルもしくは、パワースペクトルを算出する。そして、相関算出手段134は、YempとXiの振幅スペクトルの相関C1と、YsupとXiの振幅スペクトルの相関C2を求める。比較手段136は、相関算出手段134により算出された相関C1と相関C2とを比較する。判定手段138は、比較手段136による比較結果に応じて、目的音が存在するか否かを判定する。
判定手段138は、振幅スペクトルの相関から以下の手法により目的音が存在するか否かを判定する。まず、演算手段132に入力される信号に含まれる成分を以下に示す。
目的音強調部102から得られる周波数スペクトルYemp:目的音声+抑圧された雑音成分
目的音抑圧部104から得られる周波数スペクトルYsup:雑音成分
入力信号のうち一つの周波数スペクトルXi:目的音声+抑圧された雑音成分
振幅スペクトルの相関は、二つのスペクトルが似ているときに大きな値をとる。図7のグラフ310に示したように、目的音が存在する区間では、Xiの形状は、YsupよりもYempに似ているスペクトルとなることがわかる。また、図7のグラフ312に示したように、目的音が存在しない区間では、雑音のみとなる。このため、Xiの形状は、YsupとYempでは同程度となり、明確な差のないスペクトルとなることがわかる。
よって、XiとYempの相関値C1は、XiとYsupの相関値C2に比べて、目的音が存在する区間では大きくなる。また、目的音が存在しない区間では、C1とC2は同程度の値となる。図8のグラフ314に示したように、相関値C1から相関値C2を減算した値は、実際の目的音の存在区間と同程度の値となっていることがわかる。このように、振幅スペクトルの相関を比較することにより、目的音が存在する区間と目的音が存在しない区間とを区別することが可能となる。
次に、図9を参照して、目的音区間検出部110による目的音区間の検出処理について説明する。図9は、目的音区間検出部110による目的音区間の検出処理を示すフローチャートである。図9に示したように、まず、目的音強調部102から周波数スペクトルYemp、目的音抑圧部104から周波数スペクトルYsup、マイクロホンの入力から周波数スペクトルXiを取得する(S132)。
ステップS132において取得した周波数スペクトルから振幅スペクトルを算出する(S134)。そして、XiとYempの振幅スペクトルの相関C1、XiとYsupの振幅スペクトルの相関C2を算出する(S136)。そして、相関C1から相関C2を減算した値(C1−C2)がXiの閾値Thより大きいかを判定する(S138)。
ステップS138において、ThよりC1−C2が大きいと判定された場合には、目的音が存在すると判断する(S140)。ステップS138において、ThよりC1−C2が小さいと判定された場合には、目的音が存在しないと判断する(S142)。以上、目的音区間検出部110による目的音区間の検出処理について説明した。
次に、目的音区間検出部110が、数式により目的音区間を算出する場合について説明する。まず、各振幅スペクトルを以下のように定義する。
Figure 0005678445
Axiの平均値を用いて、以下の白色化を行う。
Figure 0005678445
そして、AWxiとの相関を取る。ここで、p(k)は周波数ごとの重みである。
Figure 0005678445
上記した重みp(k)は、例えば、図10の関数316で示される。音声は主として低域に強いエネルギーが集中し、雑音は広い帯域に渡ってエネルギーが存在する。このため、主として音声の強い帯域のみを利用することで精度を上げることが可能となる。例えば、N=512(FFTサイズ)に対して、No=40、L=3などを利用することができる。
ここで、図11を参照して、上記した白色化について説明する。図11のグラフ318に示したように、振幅スペクトルは正の値しかもたない。このため、相関値も正の値しかもたず、値のレンジが小さくなってしまう。実際には0.6〜1.0程度のレンジとなる。そこで、基準となる直流成分を減算することにより、正・負両方の値をとるようにする操作を行っている。この操作を本実施形態では白色化と呼んでいる。このように、白色化することにより、相関値についても、−1〜1のレンジの値をもつことが可能となる。これにより、目的音検出の精度を上げることが可能となる。
また、上記で平滑化係数r1およびr2は連続的に変化させてもよいとしたが、以下ではr1およびr2を連続的に切り替える場合について説明する。以下では、目的音区間検出部110により算出されるC1、C2および閾値Thを利用する。これらの値を利用して、以下の数式により1以下の値を算出する。例えば、β=1または2とする。minは二つのtの値のうち小さいほうを選択する関数である。
Figure 0005678445
上記数式において、vは目的音が存在するときに1に近い値をとる。このことを利用して、平滑化係数を連続的に以下のように求めることができる。目的音が存在するときには、r≒r1で、それ以外ではr≒r2と制御される。
Figure 0005678445
図3に戻り、音声処理装置100の機能構成の説明を続ける。雑音補正部112は、目的音抑圧部104により取得された雑音周波数成分の大きさを、目的音強調部102により取得された音声周波数成分に含まれる雑音成分の大きさに対応させるように雑音周波数成分を補正する機能を有する。これにより、ゲイン算出部106によるゲイン値の算出において、hを小さくし、さらに分散を小さくすることが可能となり、大きな雑音抑圧および大幅なミュージカルノイズの低減を実現することができる。
まず、雑音補正部112による雑音補正の考え方について説明する。以下の処理は各周波数成分に同様に施されるが、説明を容易にするため、周波数インデックスは省略して記載する。
目的となる音源のスペクトルをSとし、目的音源からマイクロホンまでの伝達特性をAとし、各マイクロホンに観測される雑音成分をNとする。このとき、マイクロホンに観測される信号Xは、以下のように記載することができる。Mはマイクロホン数である。
Figure 0005678445
目的音強調部102および目的音抑圧部104は、それぞれXに対してある重みをかけて足す処理をおこなっているため、各部の出力信号は以下のように与えられる。Xに対してかけられる重みの作り方により、目的音を小さくしたり大きくしたりすることができる。
Figure 0005678445
したがって、Wemp、Wsupが一致しない限り、目的音強調部102の出力に含まれる雑音成分と、目的音抑圧部104の出力は異なる。具体的には、パワースペクトル上で雑音抑圧をおこなうため、各周波数ごとに雑音の大きさのレベルが一致しないこととなる。そこで、Wemp、Wsupを補正することにより、ゲイン値算出におけるhの値を1に近づけることが可能となる。すなわち、ゲイン値において小さい値かつ傾きの小さいところに値を集中することができる。hは以下の数式により表される。
Figure 0005678445
例えば、
Figure 0005678445
の場合は、補正を行うことにより、hは1より大きい値から1に近づく。よって、雑音抑圧量を向上することができる。また、
Figure 0005678445
の場合は、補正を行うことにより、hは1より小さい値から1に近づく。よって、音声の劣化を低減することができる。
hが1付近の小さい値に集中すると、ゲイン関数の最小値を小さくすることができる。これにより、雑音抑圧量の向上に寄与することが可能となる。Wemp、Wsupは既知の値であるため、雑音スペクトルNの共分散Rnがわかれば、以下の数式により雑音補正を行うことができる。
Figure 0005678445
次に、図12を参照して、雑音補正部112による雑音補正処理について説明する。図12に示したように、雑音補正部112は、演算手段140と保持手段142などを有する。演算手段130には、目的音抑圧部104により取得された周波数スペクトルYsupが入力される。そして、保持手段142を参照し補正係数を算出して、入力された周波数スペクトルYsupに乗じて雑音スペクトルYcompを算出する。算出されたYcompは、ゲイン算出部106に提供される。保持手段142には、雑音の共分散、目的音強調部102および目的音抑圧部104で用いられる係数が保持されている。
次に、図13を参照して、雑音補正部112による雑音補正の処理について説明する。図13は、雑音補正部112による雑音補正の処理を示すフローチャートである。図13に示したように、まず、目的音抑圧部104から周波数スペクトルYsupを取得する(S142)。そして、保持手段142から共分散、目的音強調の係数、目的音抑圧の係数を取得する(S144)。そして、周波数毎に補正係数Gcompを算出する(S146)。
そして、周波数毎に周波数スペクトルにステップS146において算出された補正係数Gcompを乗じる(S148)。
Figure 0005678445
そして、ゲイン算出部106にステップS148における算出結果Ycompを送る(S150)。雑音補正部112による上記処理は、すべての周波数域に対して繰り返し実行される。
上記した雑音の共分散Rnは、例えば、以下の数式により算出することができる(参照:Measurement of
Correlation Coefficients in Reverberant Sound Fields, Richard K. Cook et al THE
JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA, VOLUME 26, NUMBER 6, NOVEMBER
1955)。
Figure 0005678445
直線状に並んだマイクに対して、拡散雑音場を仮定すると、
Figure 0005678445
直線状に並んだマイクに対して、全方位から互いに相関のない雑音が到来する場を仮定すると、
Figure 0005678445
また、雑音の共分散Rnは、数式により算出する以外にも、例えば、あらかじめ大量のデータを収録して、その平均値を求めることにより得ることができる。この場合、マイクロホンに観測されるのは雑音のみとなるため、以下の数式により雑音の共分散を得ることができる。
Figure 0005678445
また、目的音強調部102、上述した伝達特性A、共分散Rnを用いて以下のような係数を構築することができる。一般的に、最尤ビームフォーミングと呼ばれる(参照:アダプティブアンテナ技術 菊間信良著 オーム社)。
Figure 0005678445
また、最尤ビームフォーミング手法に限定されず、遅延和ビームフォーミングと呼ばれる手法を用いてもよい。この場合、上記において、Rnが単位行列であることと同義となる。また、目的音抑圧部104では、上記したAとA以外の伝達特性を利用して以下のような係数が構築される。以下は、目的音とは別の方向に対して1、目的音の方向の信号をゼロとするような係数となる。
Figure 0005678445
また、雑音補正部112は、制御部(図示せず)からの選択信号に基づいて、補正係数を変更するようにしてもよい。例えば、図14に示したように、雑音補正部112は、演算手段150と、選択手段152と、複数の保持手段(第1保持手段154、第2保持手段156、第3保持手段158)を有してもよい。複数の保持手段には、それぞれ異なる補正係数が保持されている。選択手段152は、制御部から提供される選択信号に基づいて、第1保持手段154、第2保持手段156、第3保持手段158に保持されている補正係数のいずれかの補正係数を取得する。
制御部は、例えば、ユーザ入力に応じて動作するか、雑音の状態に応じて動作して、雑音補正部の選択手段152に選択信号を提供する。そして、演算手段150は、選択手段152により選択された補正係数を用いて、入力された周波数スペクトルYsupに当該補正係数を乗じて雑音スペクトルYcompを算出する。
次に、図15を参照して、選択信号に基づいて補正係数を取得する場合の雑音補正処理について説明する。図15に示したように、まず、目的音抑圧部104から周波数スペクトルYsupを取得する(S152)。そして、制御部から選択信号を取得する(S154)。そして、取得した選択信号の値が現在の値と異なっているか否かを判定する(S156)。
ステップS156において、取得した値が現在の値と異なっていると判定された場合には、取得した選択信号の値を利用して、選択信号の値に対応する保持手段からデータを取得する(S158)。そして、周波数毎に補正係数Gcompを算出する(S160)。そして、以下の数式により、周波数毎に周波数スペクトルに補正係数を乗じる(S162)。
Figure 0005678445
ステップS156において、取得した値が現在の値と同じであると判定された場合には、ステップS162の処理を実行する。そして、ゲイン算出部106にステップS162における算出結果Ycompを送る(S164)。雑音補正部112による上記処理は、すべての周波数域に対して繰り返し実行される。
また、図16に示したように、音声処理装置200のように、雑音補正部202が目的音区間検出部110の検出結果を利用して雑音共分散の算出を行ってもよい。雑音補正部202は、目的音抑圧部104から出力された周波数スペクトルYsupだけでなく、目的音強調部102から出力された周波数スペクトルYempおよび目的音区間検出部110により検出された検出結果を利用して、雑音補正を行う。
以上、第1実施形態について説明した。第1実施形態によれば、図1の特徴を有するゲイン関数G(r)を利用して雑音を抑圧することができる。すなわち、音声の周波数成分と雑音の周波数成分のエネルギー比に応じたゲイン値を音声の周波数成分に乗算して適切に雑音を抑圧することができる。
また、目的音区間か否かを検出し、スペクトル時間方向の平均化制御を行うことにより、時間方向の分散を小さくして、時間方向に変動が少ない値を得ることが可能となり、ミュージカルノイズの発生を更に低減することが可能となる。また、音声周波数成分に含まれる雑音成分Nと、雑音周波数成分N′の比がG(r)のR1の範囲に収まるように、周波数特性の補正を行う。これにより、さらに、ゲイン値の算出において、hを小さくしさらに分散を小さくすることが可能となり、大きな雑音抑圧および大幅なミュージカルノイズの低減を実現することができる。
本実施形態にかかる音声処理装置100または200は、携帯電話やBluetoothのヘッドセットや、コールセンターやWeb会議に用いられるヘッドセット、ICレコーダやビデオ会議システム、ノートPCの本体に付加されたマイクを用いたWeb会議やボイスチャットに利用することができる。
<3.第2実施形態>
次に、第2実施形態について説明する。第1実施形態では、ゲイン関数を利用して、大きな雑音抑圧を実現しつつ、ミュージカルノイズを低減する方法について説明した。以下では、複数マイクロホンを利用することにより、スペクトルサブストラクション(以降、SSとも称する)を利用して、非常に簡易にミュージカルノイズを低減し、目的音声を強調する方法について説明する。SSベースの場合、以下の数式が成立する。
Figure 0005678445
SSの定式化として、フロアリングの行い方によって2通りの記述が可能である。
<定式化1>
Figure 0005678445
<定式化2>
Figure 0005678445
定式化1では、Gが負にならない限りはフロアリングが生じないが、定式化2では、Gthより小さい場合はGthという一定の利得を掛けることが差となる。定式化1では、Gは非常に小さい値までとることが可能となり、雑音自体の抑圧量が大きくなる。しかし、第1実施形態で説明したように、SSは、ゲインという観点から見ると、時間−周波数的に不連続な値をとる可能性が高いため、ミュージカルノイズを発生させる。
また、定式化2では、Gth(例えば0.1)より小さな値は乗じられないため、雑音自体の抑圧量は小さい。しかし、多くの時間−周波数において、一定のGthが乗じられることにより、ミュージカルノイズ自体の発生を抑えることが可能となる。例えば、雑音を小さくする方法として、音量を下げることが考えられる。上記現象は、例えば、ラジオに雑音が乗っているときに音量を下げると雑音は小さくなり、変な歪みを持った音が出てこないことからもわかる。すなわち、違和感の少ない音声を提供するためには、雑音抑圧を大きくするよりも、雑音の変形を一定にすることが有効であることがわかる。
ここで、図17を参照して、上記した定式化によるSSの出力信号の差について説明する。図17は、定式化によるSSの出力信号の差を説明する説明図である。図17のグラフ401は、マイクロホンから出力された音声周波数Xである。グラフ402は、定式化1により、Gが乗じられた場合である。この場合、レベル自体を下げることができるが、周波数の形が崩れてしまう。また、グラフ403は、定式化2により、Gが乗じられた場合である。この場合、周波数の形は保持されたまま、レベルが下がる。
以上から、音声の成分はなるべくGthより大きな値が乗算され、雑音の成分はすべてGthの値が乗算されるようにすればよいことがわかる。
Figure 0005678445
一般的には、αを2程度に設定し、大きめに雑音成分を減算することで上記処理を実現する。しかし、一般的に推定した雑音成分Nが正しくなければ意味をなさない。
また、本実施形態の第2のポイントは、複数マイクロホンを用いた処理を利用することである。上記処理に適した雑音成分を効率的に見つけ、一定の値Gthを乗算できるようにしたものである。図18を参照して、本実施形態にかかる音声処理装置300の機能構成について説明する。図18に示したように、音声処理装置300は、目的音強調部102、目的音抑圧部104、目的音区間検出部110、雑音補正部302、ゲイン算出部304などを備える。以下では、第1実施形態と異なる機能について特に詳細に説明し、第1実施形態と同様の機能については詳細な説明は省略する。
第1実施形態では、雑音補正部112によりYsupとYempのパワーが等しくなるように補正が行われていた。つまり、目的音強調後の雑音パワーを推定していた。しかし、本実施形態では、YsupとXiのパワーが等しくなるような補正を行う。すなわち、目的音強調前の雑音のパワーを推定する。
目的音強調前の雑音を推定するには、雑音補正部302で算出される値
Figure 0005678445
を以下の数式のように変形する。
Figure 0005678445
これにより、目的音強調前のマイクロホンiに含まれる雑音成分を推定することが可能となる。実際に、目的音強調後の雑音スペクトルと推定された目的音強調前の雑音スペクトルを比較すると、図19のグラフ410に示したようになる。グラフ410に示したように、目的音強調前の雑音は、目的音強調後の雑音より大きく、特に、低域で顕著に現れている。
また、実際に、目的音強調後の目的音スペクトルとマイクに入力された目的音スペクトルを比較すると、図20のグラフ412に示したようになる。グラフ412に示したように、目的音強調後の目的音スペクトルと、マイクに入力された目的音スペクトルとを比較すると、目的音強調後と目的音強調前とで目的音成分は大きく変化していないことがわかる。
以上から、SSにおける雑音成分Nとして、目的音強調前の推定雑音を利用すると、多くの時間−周波数において、Gは負の値となる(ここではα=1とした。)。なぜならば、推定雑音(N)の方が実際に含まれる雑音成分(X)より大きいからである。目的音強調とは、雑音を抑圧することであるので、目的音強調前の方が雑音自体の大きさは目的音強調後よりも大きくなっている。これは、複数マイクロホンを利用した処理によって得られるものである。
また、雑音成分には一定のゲインGthが乗算される。一方、目的音については、多少劣化があるものの、Gthに比べられ1に近い値が乗算される。よって、SSに基づくゲイン関数を利用したとしても、ミュージカルノイズの発生の少ない音声を得ることが可能となる。このように、マイクロホンアレイ処理の特徴を生かし、目的音強調前の雑音成分を推定し、この雑音成分を利用することによりスペクトルサブストラクションベースの手法であっても、簡易にミュージカルノイズを低減して音声強調を行うことができる。
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
例えば、本明細書の音声処理装置100、200、300の処理における各ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はない。すなわち、音声処理装置100、200、300の処理における各ステップは、異なる処理であっても並列的に実行されてもよい。
また、音声処理装置100、200、300に内蔵されるCPU、ROMおよびRAMなどのハードウェアを、上述した音声処理装置100、200、300の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供される。
100、200、300 音声処理装置
102 目的音強調部
104 目的音抑圧部
106 ゲイン算出部
108 ゲイン乗算部
110 目的音区間検出部
112 雑音補正部

Claims (11)

  1. 目的音および雑音が混入している入力音声の前記目的音を強調して音声周波数成分を取得する目的音強調部と、
    前記入力音声の前記目的音を抑圧して雑音周波数成分を取得する目的音抑圧部と、
    前記音声周波数成分および前記雑音周波数成分に応じた所定のゲイン関数を用いて前記音声周波数成分に乗算するゲイン値を算出するゲイン算出部と、
    前記ゲイン算出部により算出されたゲイン値を前記音声周波数成分に乗算するゲイン乗算部と、
    を備え、
    前記ゲイン算出部は、前記音声周波数成分と前記雑音周波数成分とのエネルギー比が第1の所定値以下の場合に前記ゲイン値が第2の所定値より小さくなるとともに前記ゲイン関数の接線の傾きが第3の所定値より小さくなる前記ゲイン関数を用いて前記ゲイン値を算出し、
    前記ゲイン関数は、単調増加する関数であり、前記音声周波数成分と前記雑音周波数成分とのエネルギー比において、前記エネルギー比が前記第1の所定値以下である、雑音の比率が集中している雑音集中範囲の前記ゲイン値が前記第2の所定値より小さくなるとともに前記ゲイン関数の接線の傾きが前記第3の所定値より小さくなる関数であって、前記エネルギー比が前記第1の所定値より大きく第4の所定値未満の範囲では接線の傾きが前記雑音集中範囲よりも大きい正の値であり、前記エネルギー比が前記第4の所定値以上の範囲では、前記エネルギー比が前記第1の所定値より大きく前記第4の所定値未満の範囲より接線の傾きが小さく、前記ゲイン値が1に収束する関数である、音声処理装置。
  2. 前記音声周波数成分には目的音成分と雑音成分が含まれており、前記ゲイン乗算部は、前記音声周波数成分に前記ゲイン値を乗算して前記音声周波数成分に含まれている前記雑音成分を抑圧する、請求項1に記載の音声処理装置。
  3. 前記ゲイン算出部は、前記目的音抑圧部により取得された雑音周波数成分に雑音のみが含まれていると推定して、前記ゲイン値を算出する、請求項1に記載の音声処理装置。
  4. 前記入力音声に含まれる前記目的音が存在する区間を検出する目的音区間検出部を備え、
    前記ゲイン算出部は、前記目的音区間検出部による検出結果に応じて、前記目的音強調部により取得された前記音声周波数成分のパワースペクトルおよび前記目的音抑圧部により取得された前記雑音周波数成分のパワースペクトルを平均化する式を変化させる、請求項1に記載の音声処理装置。
  5. 前記ゲイン算出部は、前記目的音区間検出部による検出の結果、目的音が存在する区間であることが検出された場合に第1の平滑化係数を選択し、前記目的音が存在する区間であることが検出されなかった場合に第2の平滑化係数を選択して、前記音声周波数成分および前記雑音周波数成分のパワースペクトルを平均化する、請求項4に記載の音声処理装置。
  6. 前記ゲイン算出部は、平均化された前記音声周波数成分のパワースペクトルおよび前記雑音周波数成分のパワースペクトルを用いて算出されたゲイン値を、平滑化係数を用いて平均化する、請求項4に記載の音声処理装置。
  7. 前記目的音抑圧部により取得された雑音周波数成分の大きさを、前記目的音強調部により取得された音声周波数成分に含まれる雑音成分の大きさに対応させるように前記雑音周波数成分を補正する雑音補正部を備え、
    前記ゲイン算出部は、前記雑音補正部により補正された前記雑音周波数成分に応じたゲイン値を算出する、請求項1に記載の音声処理装置。
  8. 前記雑音補正部は、ユーザ操作に応じて前記雑音周波数成分を補正する、請求項7に記載の音声処理装置。
  9. 前記雑音補正部は、検出された雑音の状態に応じて前記雑音周波数成分を補正する、請求項7に記載の音声処理装置。
  10. 目的音および雑音が混入している入力音声の前記目的音を強調して音声周波数成分を取得するステップと、
    前記入力音声の前記目的音を抑圧して雑音周波数成分を取得するステップと、
    前記音声周波数成分および前記雑音周波数成分に応じた所定のゲイン関数を用いて前記音声周波数成分に乗算するゲイン値を算出するステップと、
    前記ゲイン値を算出するステップで算出されたゲイン値を前記音声周波数成分に乗算するステップと、
    を含み、
    前記ゲイン値を算出するステップでは、前記音声周波数成分と前記雑音周波数成分とのエネルギー比が第1の所定値以下の場合に前記ゲイン値が第2の所定値より小さくなるとともに前記ゲイン関数の接線の傾きが第3の所定値より小さくなる前記ゲイン関数を用いて前記ゲイン値を算出し、
    前記ゲイン関数は、単調増加する関数であり、前記音声周波数成分と前記雑音周波数成分とのエネルギー比において、前記エネルギー比が前記第1の所定値以下である、雑音の比率が集中している雑音集中範囲の前記ゲイン値が前記第2の所定値より小さくなるとともに前記ゲイン関数の接線の傾きが前記第3の所定値より小さくなる関数であって、前記エネルギー比が前記第1の所定値より大きく第4の所定値未満の範囲では接線の傾きが前記雑音集中範囲よりも大きい正の値であり、前記エネルギー比が前記第4の所定値以上の範囲では前記エネルギー比が前記第1の所定値より大きく前記第4の所定値未満の範囲より接線の傾きが小さく、前記ゲイン値が1に収束する関数である、音声処理方法。
  11. コンピュータを、
    目的音および雑音が混入している入力音声の前記目的音を強調して音声周波数成分を取得する目的音強調部と、
    前記入力音声の前記目的音を抑圧して雑音周波数成分を取得する目的音抑圧部と、
    前記音声周波数成分および前記雑音周波数成分に応じた所定のゲイン関数を用いて前記音声周波数成分に乗算するゲイン値を算出するゲイン算出部と、
    前記ゲイン算出部により算出されたゲイン値を前記音声周波数成分に乗算するゲイン乗算部と、
    を備え、
    前記ゲイン算出部は、前記音声周波数成分と前記雑音周波数成分とのエネルギー比が第1の所定値以下の場合に前記ゲイン値が第2の所定値より小さくなるとともに前記ゲイン関数の接線の傾きが第3の所定値より小さくなる前記ゲイン関数を用いて前記ゲイン値を算出し、
    前記ゲイン関数は、単調増加する関数であり、前記音声周波数成分と前記雑音周波数成分とのエネルギー比において、前記エネルギー比が前記第1の所定値以下である、雑音の比率が集中している雑音集中範囲の前記ゲイン値が前記第2の所定値より小さくなるとともに前記ゲイン関数の接線の傾きが前記第3の所定値より小さくなる関数であって、前記エネルギー比が前記第1の所定値より大きく第4の所定値未満の範囲では接線の傾きが前記雑音集中範囲よりも大きい正の値であり、前記エネルギー比が前記第4の所定値以上の範囲では前記エネルギー比が前記第1の所定値より大きく前記第4の所定値未満の範囲より接線の傾きが小さく、前記ゲイン値が1に収束する関数である、音声処理装置として機能させるためのプログラム。
JP2010059623A 2010-03-16 2010-03-16 音声処理装置、音声処理方法およびプログラム Expired - Fee Related JP5678445B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2010059623A JP5678445B2 (ja) 2010-03-16 2010-03-16 音声処理装置、音声処理方法およびプログラム
US13/041,638 US8861746B2 (en) 2010-03-16 2011-03-07 Sound processing apparatus, sound processing method, and program
CN2011100608719A CN102194464A (zh) 2010-03-16 2011-03-09 声音处理设备、声音处理方法和程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010059623A JP5678445B2 (ja) 2010-03-16 2010-03-16 音声処理装置、音声処理方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2011191669A JP2011191669A (ja) 2011-09-29
JP5678445B2 true JP5678445B2 (ja) 2015-03-04

Family

ID=44602415

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010059623A Expired - Fee Related JP5678445B2 (ja) 2010-03-16 2010-03-16 音声処理装置、音声処理方法およびプログラム

Country Status (3)

Country Link
US (1) US8861746B2 (ja)
JP (1) JP5678445B2 (ja)
CN (1) CN102194464A (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007080764A1 (ja) * 2006-01-12 2007-07-19 Matsushita Electric Industrial Co., Ltd. 対象音分析装置、対象音分析方法および対象音分析プログラム
US8965756B2 (en) * 2011-03-14 2015-02-24 Adobe Systems Incorporated Automatic equalization of coloration in speech recordings
JP6064370B2 (ja) * 2012-05-29 2017-01-25 沖電気工業株式会社 雑音抑圧装置、方法及びプログラム
DK2701145T3 (en) * 2012-08-24 2017-01-16 Retune DSP ApS Noise cancellation for use with noise reduction and echo cancellation in personal communication
JP2014085609A (ja) * 2012-10-26 2014-05-12 Sony Corp 信号処理装置および方法、並びに、プログラム
US9516418B2 (en) 2013-01-29 2016-12-06 2236008 Ontario Inc. Sound field spatial stabilizer
US9106196B2 (en) * 2013-06-20 2015-08-11 2236008 Ontario Inc. Sound field spatial stabilizer with echo spectral coherence compensation
US9271100B2 (en) 2013-06-20 2016-02-23 2236008 Ontario Inc. Sound field spatial stabilizer with spectral coherence compensation
US9099973B2 (en) * 2013-06-20 2015-08-04 2236008 Ontario Inc. Sound field spatial stabilizer with structured noise compensation
US10043532B2 (en) 2014-03-17 2018-08-07 Nec Corporation Signal processing apparatus, signal processing method, and signal processing program
CN106165444B (zh) * 2014-04-16 2019-09-17 索尼公司 声场再现设备、方法和程序
JP2016042132A (ja) * 2014-08-18 2016-03-31 ソニー株式会社 音声処理装置、音声処理方法、並びにプログラム
CN104242850A (zh) * 2014-09-09 2014-12-24 联想(北京)有限公司 一种音频信号处理方法及电子设备
CN107997581A (zh) * 2016-12-23 2018-05-08 芜湖美的厨卫电器制造有限公司 饮水机及其出水控制装置和方法
US10360892B2 (en) * 2017-06-07 2019-07-23 Bose Corporation Spectral optimization of audio masking waveforms
CN108831493B (zh) * 2018-05-21 2020-11-06 北京捷通华声科技股份有限公司 一种音频处理方法和装置
CN111568215B (zh) * 2020-02-28 2022-05-13 佛山市云米电器科技有限公司 饮水机控制方法、饮水机及计算机可读存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3204892B2 (ja) * 1995-12-20 2001-09-04 沖電気工業株式会社 背景雑音消去装置
US20020138254A1 (en) * 1997-07-18 2002-09-26 Takehiko Isaka Method and apparatus for processing speech signals
JP3677143B2 (ja) 1997-07-31 2005-07-27 株式会社東芝 音声処理方法および装置
JP4163294B2 (ja) 1998-07-31 2008-10-08 株式会社東芝 雑音抑圧処理装置および雑音抑圧処理方法
US6549630B1 (en) * 2000-02-04 2003-04-15 Plantronics, Inc. Signal expander with discrimination between close and distant acoustic source
JP2005037650A (ja) * 2003-07-14 2005-02-10 Asahi Kasei Corp 雑音低減装置
JP4423300B2 (ja) * 2004-10-28 2010-03-03 富士通株式会社 雑音抑圧装置
JP4836720B2 (ja) * 2006-09-07 2011-12-14 株式会社東芝 ノイズサプレス装置
JP4928376B2 (ja) * 2007-07-18 2012-05-09 日本電信電話株式会社 収音装置、収音方法、その方法を用いた収音プログラム、および記録媒体
ATE448649T1 (de) * 2007-08-13 2009-11-15 Harman Becker Automotive Sys Rauschverringerung mittels kombination aus strahlformung und nachfilterung

Also Published As

Publication number Publication date
US8861746B2 (en) 2014-10-14
JP2011191669A (ja) 2011-09-29
US20110228951A1 (en) 2011-09-22
CN102194464A (zh) 2011-09-21

Similar Documents

Publication Publication Date Title
JP5678445B2 (ja) 音声処理装置、音声処理方法およびプログラム
US9113241B2 (en) Noise removing apparatus and noise removing method
US9264804B2 (en) Noise suppressing method and a noise suppressor for applying the noise suppressing method
US7464029B2 (en) Robust separation of speech signals in a noisy environment
US8954324B2 (en) Multiple microphone voice activity detector
JP5675848B2 (ja) レベルキューによる適応ノイズ抑制
CN103718241B (zh) 噪音抑制装置
US8396234B2 (en) Method for reducing noise in an input signal of a hearing device as well as a hearing device
US9854368B2 (en) Method of operating a hearing aid system and a hearing aid system
JP6361156B2 (ja) 雑音推定装置、方法及びプログラム
GB2577824A (en) Earbud speech estimation
EP2700161B1 (en) Processing audio signals
JP2010092054A (ja) ノイズ推定装置及び方法とそれを利用したノイズ減少装置
JP5785674B2 (ja) デュアルマイクに基づく音声残響低減方法及びその装置
EP2002691A1 (en) Hearing aid and method for controlling signal processing in a hearing aid
WO2018173267A1 (ja) 収音装置および収音方法
US7885810B1 (en) Acoustic signal enhancement method and apparatus
EP3641337A1 (en) Signal processing device, teleconferencing device, and signal processing method
US20190035382A1 (en) Adaptive post filtering
JP6638248B2 (ja) 音声判定装置、方法及びプログラム、並びに、音声信号処理装置
US10692514B2 (en) Single channel noise reduction
WO2024202349A1 (ja) 自動利得制御装置、エコー除去装置、自動利得制御方法及び自動利得制御プログラム
KR101394504B1 (ko) 적응적 잡음 처리 장치 및 방법
EP2816817B1 (en) Sound field spatial stabilizer with spectral coherence compensation
JP4479625B2 (ja) 騒音抑圧装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130214

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140210

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140304

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140603

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20140611

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140924

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141209

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141222

R151 Written notification of patent or utility model registration

Ref document number: 5678445

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees