[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP4313740B2 - 残響除去方法、プログラムおよび記録媒体 - Google Patents

残響除去方法、プログラムおよび記録媒体 Download PDF

Info

Publication number
JP4313740B2
JP4313740B2 JP2004245622A JP2004245622A JP4313740B2 JP 4313740 B2 JP4313740 B2 JP 4313740B2 JP 2004245622 A JP2004245622 A JP 2004245622A JP 2004245622 A JP2004245622 A JP 2004245622A JP 4313740 B2 JP4313740 B2 JP 4313740B2
Authority
JP
Japan
Prior art keywords
stage
fundamental frequency
signal
time
harmonic structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004245622A
Other languages
English (en)
Other versions
JP2006064866A (ja
Inventor
智広 中谷
慶介 木下
正人 三好
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004245622A priority Critical patent/JP4313740B2/ja
Publication of JP2006064866A publication Critical patent/JP2006064866A/ja
Application granted granted Critical
Publication of JP4313740B2 publication Critical patent/JP4313740B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

この発明は、残響除去方法、プログラムおよび記録媒体に関し、特に、残響を含んだ音声信号から残響を除去する残響除去における調波構造音抽出処理に用いることで、正確に調波構造音を得ることができ、全体として正確な残響除去処理を実施する残響除去方法、プログラムおよび記録媒体に関する。
図7を参照して残響除去方法の先行例を説明する(参考文献[1]参照)。
図7の残響除去装置による残響除去処理は、音声収集装置8より入力した残響を含んだ音声信号x(t)に対して、基本周波数推定部1による基本周波数推定処理と、調波構造音抽出部4による調波構造音抽出処理と、逆伝達関数推定部6による逆伝達関数推定処理と、逆伝達関数適用部7による逆伝達関数適用処理より成る。調波構造音抽出部4が抽出する調波構造音を、音声信号の直接音を近似する信号とみなし、この信号と観測された信号である音声信号x(t)とから逆伝達関数推定部6において逆伝達関数を推定する。この逆伝達関数を、逆伝達関数適用部7において残響を含んだ観測音声信号に畳み込むことで残響除去を行う。
音声信号は、一般に、残響のある環境で収音されると、本来の音声信号に残響が重畳された信号として観測される。このため、本来の音声信号の性質を抽出することが困難になると共に、音声自体の明瞭度が低下する。これに対して、残響除去処理は、重畳した残響を取り除くことで、音声本来の性質を抽出しやすくすると共に、音声の明瞭度を回復することができる。これは、他の様々な音声信号処理方法および装置の要素技術として用いることで、その全体の性能向上につながる技術である。残響除去処理を要素技術として使用して性能向上する音声信号処理技術としたは、以下の様なものを列挙することができる。
1.残響除去を前処理として用いる音声認識方法および装置。
2.残響除去により音声の明瞭度を向上させるTV会議方法および装置などの通信方法および装置。
3.講演の録音に含まれる残響を除去することで、録音された音声の明瞭度を向上させる再生方法および装置。
4.残響を除去することで聞き取りやすさを向上させる補聴器。
5.人が歌ったり、楽器で演奏したり、またはスピーカで演奏された音楽の残響を除去して、楽曲を検索したり、採譜したりする音楽情報処理方法および装置。
6.人が発した声に反応して機械にコマンドをわたす機械制御インターフェース、および機械と人間との間の対話装置。
上述した残響除去技術の先行例(参考文献[1] 参照)は、調波構造音抽出処理部4において調波構造音を抽出するに際して、短い時間区間で切り出された音声信号の基本周波数はその区間内で一定であると仮定して処理を行っていた。しかし、実際の音声信号は短い時間区間内においてもその基本周波数は一定ではない。従って、先行例においては、この仮定が原因で、調波構造音の抽出精度を或る程度以上に高くすることができなかった。このために、直接音の近似精度が低く、逆伝達関数を精密に推定することができなかった。その結果、残響除去方法の先行例には達成することができる残響除去性能に限界があった。この様に、残響除去の先行例は基本周波数に関する不正確な仮定に基づいていたところから、或る程度以上の高性能な残響除去を実現することはできなかった。
一方、調波構造音の抽出精度を向上させる仕方として、時間伸縮処理技術を使用することが従来検討されている。時間伸縮処理とは音声信号の振幅を変えずに時間軸のみを伸び縮みさせることで波形を変形させる処理である。この時間伸縮処理を用いれば、音声信号の基本周波数の増加減少に合わせて時間軸の伸縮を適切に制御することで、基本周波数が一定の音声信号を得ることができる。これを図8を参照して説明する。図8(a)は時間伸縮処理を施す前の音声信号波形を示し、図8(b)は時間伸縮処理を施された後の音声信号波形を示す。図8(c)は図8(a)の音声信号のスペクトログラムを示し、図8(d)は図8(b)の音声信号のスペクトログラムを示す。
図8(a)、(c)における時間伸縮処理を施す前の音声信号波形は、同じ波形の繰り返し間隔が時間の経過に伴って短くなって行く。これは、基本周波数が時間の経過に伴って高くなって行くことを示している。これに対して、図8(b)、(d)における時間伸縮処理を施された後の音声信号波形は、例えば、時間的に前半の信号の時間軸を縮めると共に、後半の信号の時間軸を伸ばすことで、近似的に基本周波数が一定の信号を得ることができる。
この発明は、この公知の時間伸縮処理技術を上述した先行例における調波構造音抽出処理に先だって適用し、近似的に基本周波数が一定の信号に調波構造音抽出処理を施すことに着目した。
即ち、この発明は、この公知の時間伸縮処理技術を、特に、残響を含んだ音声信号から残響を除去する残響除去における調波構造音抽出処理に用いることで、先行例と比較してより正確に調波構造音を得ることができ、その結果、全体としてより正確な残響除去処理を実施することができる、以上の問題を解消した残響除去方法、プログラムおよび記録媒体を提供するものである。
求項:入力された音声信号に対して基本周波数推定処理をする第一段階の基本周波数推定ステップと
第一段階の基本周波数推定ステップにより求められた基本周波数に基づいてその時間微分を推定する第一段階の基本周波数時間微分推定ステップと
前記音声信号、第一段階の基本周波数推定ステップにより求められた基本周波数、第一段階の基本周波数時間微分推定ステップにより求められた基本周波数の時間微分に基づいて前記音声信号の基本周波数を一定にする第一段階の信号波形時間伸縮ステップと
第一段階の信号波形時間伸縮ステップにより得られた時間伸縮信号に基づいてその調波構造音を抽出する第一段階の調波構造音抽出ステップと
第一段階の調波構造音抽出ステップにより得られた調波構造音に対して信号波形の時間伸縮復元処理を施して時間伸縮前と同じ基本周波数を持つ調波構造音を得る第一段階の信号波形時間伸縮復元ステップと
前記音声信号と第一段階の信号波形時間伸縮復元ステップにおいて得られた調波構造音を、調波構造音抽出処理とは異なる長さの時間フレームに分割して分析を進めて第一段階の逆伝達関数を推定する第一段階の逆伝達関数推定ステップと
第一段階の逆伝達関数推定ステップにより求めた第一段階の逆伝達関数を前記音声信号に適用して第一段階の残響除去後の信号を得る第一段階の逆伝達関数適用ステップと、
から構成される第一段階の残響除去処理ステップと、
第一段階の残響除去後の信号に対して基本周波数推定処理をする第二段階の基本周波数推定ステップと、
第二段階の基本周波数推定ステップにより求められた基本周波数に基づいてその時間微分を推定する第二段階の基本周波数時間微分推定ステップと、
前記音声信号、第二段階の基本周波数推定ステップにより求められた基本周波数、第二段階の基本周波数時間微分推定ステップにより求められた基本周波数の時間微分に基づいて前記音声信号の基本周波数を一定にする第二段階の信号波形時間伸縮ステップと、
第二段階の信号波形時間伸縮ステップにより得られた時間伸縮信号に基づいてその調波構造音を抽出する第二段階の調波構造音抽出ステップと、
第二段階の調波構造音抽出ステップにより得られた調波構造音に対して信号波形の時間伸縮復元処理を施して時間伸縮前と同じ基本周波数を持つ調波構造音を得る第二段階の信号波形時間伸縮復元ステップと、
前記音声信号と第二段階の信号波形時間伸縮復元ステップにおいて得られた調波構造音を、調波構造音抽出処理とは異なる長さの時間フレームに分割して分析を進めて第二段階の逆伝達関数を推定する第二段階の逆伝達関数推定ステップと、
第二段階の逆伝達関数推定ステップにより求めた第二段階の逆伝達関数を前記音声信号に適用して第二段階の残響除去後の信号を得る第二段階の逆伝達関数適用ステップと、
から構成される第二段階の残響除去処理ステップと、
第二段階の残響除去後の信号に対して基本周波数推定処理をする第三段階の基本周波数推定ステップと、
第三段階の基本周波数推定ステップにより求められた基本周波数に基づいてその時間微分を推定する第三段階の基本周波数時間微分推定ステップと、
第二段階の残響除去後の信号、第三段階の基本周波数推定ステップにより求められた基本周波数、第三段階の基本周波数時間微分推定ステップにより求められた基本周波数の時間微分に基づいて第二段階の残響除去後の信号の基本周波数を一定にする第三段階の信号波形時間伸縮ステップと、
第三段階の信号波形時間伸縮ステップにより得られた時間伸縮信号に基づいてその調波構造音を抽出する第三段階の調波構造音抽出ステップと、
第三段階の調波構造音抽出ステップにより得られた調波構造音に対して信号波形の時間伸縮復元処理を施して時間伸縮前と同じ基本周波数を持つ調波構造音を得る第三段階の信号波形時間伸縮復元ステップと、
第二段階の残響除去後の信号と第三段階の信号波形時間伸縮復元ステップにおいて得られた調波構造音を、調波構造音抽出処理とは異なる長さの時間フレームに分割して分析を進めて第三段階の逆伝達関数を推定する第三段階の逆伝達関数推定ステップと、
第三段階の逆伝達関数推定ステップにより求めた第三段階の逆伝達関数を第二段階の残響除去後の信号に適用して第三段階の残響除去後の信号を得る第三段階の逆伝達関数適用ステップと、
から構成される第三段階の残響除去処理ステップと、
を備える
そして、請求項請求項1記載の残響除去方法の各ステップをコンピュータに実行させるためのプログラムを構成した。
また、請求項:請求項記載プログラムを記録した記録媒体を構成した。
上述した通り、この発明は、調波構造音の抽出処理に音声信号の時間伸縮処理技術を導入している。時間伸縮処理を施された後の音声信号波形は、例えば、時間的に前半の信号の時間軸を縮めると共に、後半の信号の時間軸を伸ばすことで、近似的に基本周波数が一定の信号を得ることができる。この基本周波数が一定になった音声信号に調波構造音抽出処理を施すことにより、調波構造音を正確に抽出することができるに到る。但し、このとき抽出される調波構造音は基本周波数が一定の信号である。これを元の音声信号に含まれた調波構造音に戻すには、この音声信号に対して、最初に適用した時間伸縮処理とは逆の時間伸縮処理を施せばよい。これにより、元の音声信号と同じ基本周波数の変化をもった
調波構造音に変換される。
この発明は、調波構造音抽出処理に時間伸縮処理技術を用いることで、調波構造音を先行例と比較してより正確に得ることができ、その結果、全体としてより正確な残響除去処理を実施することができるに到る。
この発明は、調波構造音の抽出処理に音声信号の時間伸縮処理技術を導入している。この時間伸縮処理を用いて音声信号の基本周波数の増加減少に合わせて時間軸の伸縮を適切に制御することで、基本周波数が一定の音声信号を得ることができる。この発明は、公知の時間伸縮処理技術を、特に、残響を含んだ音声信号から残響を除去する残響除去における調波構造音抽出処理に用いることで、先行例と比較してより正確に調波構造音を得ることができ、その結果、全体としてより正確な残響除去処理を実施することができる、という効果を奏す。
そして、この発明は、時間伸縮処理の精度を改善するために、前処理として残響除去処理自体を用いる。即ち、一旦、残響除去処理を行った信号から基本周波数とその時間微分を求めることで、残響の影響を取り除くことができ、より正確にこれらの値を求めることができる。その結果、時間伸縮処理の精度を改善することができ、残響除去性能を更に改善させることができる。
発明を実施するための最良の形態を図1の実施例1を参照して説明する。
音声収集装置8より収集され、入力した残響を含むディジタルの信号である音声信号x(t)(t=0,1,・・・・・はディジタル信号の各標本のインデックス、標本化周波数fs Hz)が図1の残響除去装置に入力されると、先ず、基本周波数推定部1において基本周波数推定処理が行われる。この基本周波数推定処理は、音声信号x(t)を分析窓と呼ばれる短時間(例えば、40ミリ秒程度)の信号区間(フレーム)に分割すると共に、各フレームの基本周波数と調波構造が含まれているフレーム(調波構造区間)を推定する。この基本周波数の推定、および調波構造区間の推定には、ケプストラム法(参考文献[2]、[3] 参照)、従来例の特許[1]に記述されている雑音に頑健な推定法その他、多くの方法を用いることができる。以下、この分析に用いたフレームを番号l(l=0,1,2,・・・・)、フレーム中心時間の標本インデックスをtl で表し、各フレームの基本周波数をθ・l(Hz)と表すものとする。
次に、2は基本周波数時間微分推定部である。基本周波数時間微分推定部2における基本周波数時間微分推定処理は、求められた各フレームの基本周波数をもとにその時間微分θ・・lを計算する。残響下でも頑健にこの時間微分を求めるために、フレームlの前後のフレームにおける基本周波数の値の時系列θ・m(l−p<m<l+p)を二次関数などで近似し、その時刻tl における時間微分を求めることで近似的に計算する。この値は、具体的には例えば以下の様に計算することができる。
Figure 0004313740
ここで、△lはフレーム周期(秒)、pは近似計算のために考慮する局所的な時間フレームの範囲を決めるパラメータである。
次に、3は信号波形時間伸縮部である。ここで、図2は信号波形の時間伸縮のフローと信号波形の時間伸縮復元のフローを示す図である。信号波形時間伸縮部3における信号波形の時間伸縮処理は、求められた基本周波数をもとにして、各フレームの基本周波数を一定にするために各フレーム毎に時間軸の伸縮を行う。このために、先ず、時間伸縮関数を求める。或るフレームが調波構造区間であると判定されているとしたとき、そのフレームに対する時間伸縮関数τ=Wl(t)、およびその逆関数t=Wl -1(τ)は、例えば、以下の通りに決定することができる。
Figure 0004313740
ここで、τ、τl 、φ・lは、それぞれ時間伸縮後の信号の時間インデックス、フレームlの中心時間のインデックス、およびτl における基本周波数を表している。τl とφ・lは、任意の値に設定してよいパラメータであり、例えば、τl =0、φ・l=θ・lの値に設定することができる。この時間伸縮関数を用いて、音声信号x(t)と時間伸縮後の信号xwl(τ)の関係を表すと、以下の様になる。
Figure 0004313740
ここで、T0 は時間伸縮前の信号のフレーム長を表す。式(5)から、時間伸縮処理後の信号xwl(τ)の時系列を得ることができる。即ち、各時間インデックスτに対する信号xwl(τ)は、時間伸縮前の時間インデックスWl -1(τ)における信号の値であるx(Wl -1(τ))と同じ値を持つ。ただし、一般に、時間インデックスWl -1(τ)は整数値を取るとは限らず、離散的なディジタル信号のどの標本インデックスとも一致しない場合がある。このために、x(Wl -1(τ))の値は、近接する時刻の標本値を補完した値を取る必要がある。標本値の補完には、ディジタル信号処理で一般に知られた方法を適用すれば良い。例えば、アップサンプリングによる補完、スプライン関数を用いた補完、二次関数或いは三次関数を用いた補完を列挙することができる。
この様にして得られた信号xwl(τ)は、基本周波数がほぼ一定の値をとることが期待される。このために、調波構造音抽出部4においては、信号波形時間伸縮部3により得られた信号xwl(τ)を入力してその調波構造音を正確に抽出する調波構造音抽出処理をする。例えば、くし型フィルタを用いて以下の様に調波構造音x^wl(τ)を抽出することができる。
Figure 0004313740
ここで、gl(t)は時間分析窓を表し、Hanning窓その他の一般に信号処理で用いられる関数を用いることができる。また、“*”は畳み込み演算を表す。式(6)はフレームlに関する時間範囲、即ち、|Wl -1(τ)−tl |<T0 /2の近傍のみで意味を持つ値であり、それ以外の時間で値を計算する必要はない。
次に、5は信号波形時間伸縮復元部である。信号波形時間伸縮復元部5は、この様にして得られた調波構造音x^wl(τ)に対して、式(4)の関係を利用し、以下の様に信号波形の時間伸縮復元処理を施すことで、時間伸縮前と同じ基本周波数を持つ調波構造音x^l(t)を得る(図2b参照)。
Figure 0004313740
なお、上式を計算するには、式(5)と同様に、ディジタル信号の補完が必要である。
信号波形の時間伸縮復元処理においては、各フレーム毎に得られた信号x^l(t)を時間的に接続することで、音声信号x(t)から調波構造音だけを取り出した信号x^(t)を得ることができる。これには、例えば、以下の様に、overlap-add合成として知られた方法を用いることができる。
x^(t)=Σl2(t−tl)x^l(t) (8)
ここで、g2(t)は時間分析窓を表し、Hanning窓などの一般に信号処理で用いられる関数を用いることができる。
次に、6は逆伝達関数推定部である。逆伝達関数推定部6による逆伝達関数推定処理は、音声信号x(t)と信号波形時間伸縮復元部5において得られた調波構造音x^(t)を、調波構造音抽出処理とは異なる長さの時間フレームに分割して分析を進める。調波構造音抽出処理の場合と区別するために時間フレームのインデックスをL(=0,1,2,・・・・)と書く。各x(t)とx^(t)の各組から切り出された各時間フレーム毎に、逆伝達関数の初期推定値WL(ω)を以下の式により計算する。
Figure 0004313740
ここで、DFT(・)は、標本インデックスtL での短時間離散フーリエ変換を表す。Tlはフレーム長を表す。次に、こうして求められた逆伝達関数の初期推定値の異なる時間フレームに亘る平均を求めることで、残響除去のための逆伝達関数W(ω)を求める。
Figure 0004313740
なお、式(13)の計算において、単純に平均値を求めるかわりに、振幅スペクトル
|X^L(ω)|の重みを付けて計算することで、より精確な逆伝達関数の近似をすることができる。
Figure 0004313740
これにより、雑音成分の影響を抑制しつつ占有的な調波成分の影響を強調することができるからである。振幅スペクトルのかわりにパワースペクトル|X^L(ω)|2 などを重みに使っても同様の効果を得ることができる。
最後に、7は逆伝達関数適用部である。逆伝達関数適用部7による逆伝達関数適用処理は、こうして求めた逆伝達関数W(ω)に離散逆フーリエ変換(IDFT(・))を適用することで時間領域の逆フィルタw(t)に戻した後、音声信号x(t)に畳み込むことで、残響除去後の信号y(t)を得る。
w(t)=IDFT(Tl ,W(ω)) (15)
y(t)=w(t)*x(t) (16)
更に、残響除去は、図3に示される様に、上述の処理とほぼ同じ処理を三段階で適用することで、各段階毎に、次第に残響除去性能が改善する構成をとることもできる。各段階の処理のポイントは以下の通りにまとめられる。
1.第一段階:調波構造区間、基本周波数、その時間微分、および調波構造音はすべて音声信号x(t)から推定される。このために、各推定値には残響に起因する多くの誤差が含まれている可能性がある。
2.第二段階:調波構造区間、基本周波数とその時間微分は一つ前の段階で残響除去された信号から推定され、調波構造音のみ音声信号x(t)から推定される。調波構造区間、基本周波数とその時問微分の推定に対する残響の影響が低減されるため、その推定精度が向上する。更に、それらの推定値に基づいて推定される調波構造成分の推定精度も改善される。
3.第三段階:上記すべての値が一つ前の段階で残響除去された信号から推定される。調波構造音の推定精度も向上することからより効果的な残響除去が期待される。
この内の第二、第三段階については、それぞれの処理を一回ずつ適用するのではなく、更に繰り返して適用することでより残響除去性能を改善することもできる。
式(6)から(7)に示した時間伸縮処理を施した観測された音声信号から調波構造音を取り出すもう一つの方法として、正弦波合成法がある。この方法を用いると、時間伸縮処理を施した信号から時間伸縮前の信号に含まれる調波構造音を直接推定することができるので、調波構造抽出処理と時間伸縮復元処理を一緒に実施することができる。Xwl(ω)を
xwl(τ)の短時間離散フーリエ変換とすると、時間伸縮処理を適用した信号の第k番目の高調波成分の振幅Aklと位相pklは以下の様に抽出することができる。
Figure 0004313740
ここで、[・]は連続周波数を最も近い離散フーリエ変換の中心周波数に変換する手続きを意味する。これらの値から、時間伸縮前の信号に含まれる調波構造音は以下の様に抽出することができる。
x^l(t)=Σkk,lcos([2πkφ・l]Wl(t)+pk,l) (20)
式(2),(3)で示される時間伸縮関数について補足して説明する。先ず、時間伸縮前の観測された音声信号中の調波構造の基本周波数に相当する周波数成分(基本波成分)の位相をθ(t)と書き、時間伸縮後の信号の基本波成分の位相をφ(τ)と書くと、式(4)より、以下の関係式が成り立つ。
θ(t)=φ(Wl(t)) for |t−tl|<T/2 (21)
また、時問伸縮処理は、φ・(τ)を一定にする関数としてWl(t)を定めるため、以下の関係式が成立する。
Figure 0004313740
更に、時間伸縮処理の計算を簡単化するために、元の信号の基本周波数の時間微分は短時間フレーム中で一定であると仮定することは有効である。これは以下の様に表現される。
Figure 0004313740
ここで、θl¨は時間インデックスtl における基本周波数の時間微分を示す。式(21)、(22)および(23)を満たすWl(t)を求めることで、式(2),(3)を導くことができる。
次いで、残響除去方法の実施例2を、実施例1と同様に、図1を参照して説明する。実施例2は、逆伝達関数の推定値を求める計算方法のみが実施例1とは異なる。
実施例2においては、XL(ω)とX^L(ω)の誤差を最小にする関数として逆伝達関数W(ω)を決定する。例えば、誤差の評価基準として二条誤差最小基準を用いれば、W(ω)を以下の様に決定することができる。
Figure 0004313740
この式は解析的に解くことができ、W(ω)は以下の様に求められる。
W(ω)=E(X^L(ω)X^L *(ω))/E(XL(ω)X^L *(ω)) (26)
従って、実施例1において式(12)の計算を上式に置き換えることで、実施例2を構成することができる。
また、式(14)の様な重み付けによる平均の計算を実施例2に導入することもできる。こうするためには、式(26)のかわりに以下の計算式を用いればよい。
Figure 0004313740
以上の通りの実施例の効果を、図4ないし図6に示されるインパルス応答のエネルギー減衰曲線、残響除去後の音声波形とスペクトログラムにより説明する。評価実験に用いた課題は、残響を含む単語音声の残響除去である。ATR単語データベースから男女各一話者の5240単語音声を音源信号として用意した。残響のある部屋で測定した4種類の室内インパルス応答(残響時間:0.1、0.2、0.5、1.0秒)を用意した。残響を含んだ観測音声信号は、単語音声に室内インパルス応答を畳み込むことで合成した。残響除去のための逆フィルタはすべての男性の単語音声、またはすべての女性の単語音声を用いて推定した。
図4と図5は残響時間が異なる場合の室内インパルス応答および残響除去処理を施した後のインパルス応答のエネルギー減衰曲線を示す図である。図4は男声、図5は女声である。減衰曲線はシュレーダ法により計算した。
図4および図5より、すべての残響時間において、また、男女何れの音声に対しても、この発明は従来例よりも効果的に残響のエネルギーを低減することができていることが示されている。図6は、残響を含まない信号、残響を含んだ信号(残響時間:1.0秒)、およびこの発明により残響除去された信号の波形とスペクトログラムを示している。図6より、この発明は、残響を含まない信号の時間構造および周波数構造を効果的に復元することができていることがわかる。
参考文献
[1] 特願2003−060025:音響信号の残響除去方法、装置、及び音響信号の残響除去プログラム、そのプログラムを記録した記録媒体。
[2] 特願2002−062513:占有度抽出装置および基本周波数抽出装置、それらの方法、それらのプログラム並びにそれらのプログラムを記録した記録媒体
[3] 特顧2002−274525:調波構造区間推定方法及び装置、調波構造区間推定プログラム及びそのプログラムを記録した記録媒体、調波構造区間推定の閾値決定方法及び装置、調波構造区間推定の閾値決定プログラム及びそのプログラムを記録した記録媒体
実施例を説明するブロック図。 信号波形の時間伸縮のフローと信号波形の時間伸縮復元のフローを示す図。 他の実施例を説明するブロック図。 残響時間が異なる場合の室内インパルス応答および残響除去処理を施した後のインパルス応答のエネルギー減衰曲線(男声)を示す図。 残響時間が異なる場合の室内インパルス応答および残響除去処理を施した後のインパルス応答のエネルギー減衰曲線(女声)を示す図。 残響を含まない信号、残響を含んだ信号(残響時間:1.0秒)、および残響除去された信号の波形とスペクトログラムを示す図。 従来例を説明するブロック図。 時間伸縮処理を説明する図。
符号の説明
1 基本周波数推定部 2 基本周波数時間微分推定部
3 信号波形時間伸縮部 4 調波構造音抽出部
5 信号波形時間伸縮復元部 6 逆伝達関数推定部
7 逆伝達関数適用部 8 音声収音装置

Claims (3)

  1. 入力された音声信号に対して基本周波数推定処理をする第一段階の基本周波数推定ステップと
    前記第一段階の基本周波数推定ステップにより求められた基本周波数に基づいてその時間微分を推定する第一段階の基本周波数時間微分推定ステップと
    前記音声信号、前記第一段階の基本周波数推定ステップにより求められた基本周波数、前記第一段階の基本周波数時間微分推定ステップにより求められた基本周波数の時間微分に基づいて前記音声信号の基本周波数を一定にする第一段階の信号波形時間伸縮ステップと
    前記第一段階の信号波形時間伸縮ステップにより得られた時間伸縮信号に基づいてその調波構造音を抽出する第一段階の調波構造音抽出ステップと
    前記第一段階の調波構造音抽出ステップにより得られた調波構造音に対して信号波形の時間伸縮復元処理を施して時間伸縮前と同じ基本周波数を持つ調波構造音を得る第一段階の信号波形時間伸縮復元ステップと
    前記音声信号と前記第一段階の信号波形時間伸縮復元ステップにおいて得られた調波構造音を、調波構造音抽出処理とは異なる長さの時間フレームに分割して分析を進めて第一段階の逆伝達関数を推定する第一段階の逆伝達関数推定ステップと
    前記第一段階の逆伝達関数推定ステップにより求めた第一段階の逆伝達関数を前記音声信号に適用して第一段階の残響除去後の信号を得る第一段階の逆伝達関数適用ステップと、
    から構成される第一段階の残響除去処理ステップと、
    前記第一段階の残響除去後の信号に対して基本周波数推定処理をする第二段階の基本周波数推定ステップと、
    前記第二段階の基本周波数推定ステップにより求められた基本周波数に基づいてその時間微分を推定する第二段階の基本周波数時間微分推定ステップと、
    前記音声信号、前記第二段階の基本周波数推定ステップにより求められた基本周波数、前記第二段階の基本周波数時間微分推定ステップにより求められた基本周波数の時間微分に基づいて前記音声信号の基本周波数を一定にする第二段階の信号波形時間伸縮ステップと、
    前記第二段階の信号波形時間伸縮ステップにより得られた時間伸縮信号に基づいてその調波構造音を抽出する第二段階の調波構造音抽出ステップと、
    前記第二段階の調波構造音抽出ステップにより得られた調波構造音に対して信号波形の時間伸縮復元処理を施して時間伸縮前と同じ基本周波数を持つ調波構造音を得る第二段階の信号波形時間伸縮復元ステップと、
    前記音声信号と前記第二段階の信号波形時間伸縮復元ステップにおいて得られた調波構造音を、調波構造音抽出処理とは異なる長さの時間フレームに分割して分析を進めて第二段階の逆伝達関数を推定する第二段階の逆伝達関数推定ステップと、
    前記第二段階の逆伝達関数推定ステップにより求めた第二段階の逆伝達関数を前記音声信号に適用して第二段階の残響除去後の信号を得る第二段階の逆伝達関数適用ステップと、
    から構成される第二段階の残響除去処理ステップと、
    前記第二段階の残響除去後の信号に対して基本周波数推定処理をする第三段階の基本周波数推定ステップと、
    前記第三段階の基本周波数推定ステップにより求められた基本周波数に基づいてその時間微分を推定する第三段階の基本周波数時間微分推定ステップと、
    前記第二段階の残響除去後の信号、前記第三段階の基本周波数推定ステップにより求められた基本周波数、前記第三段階の基本周波数時間微分推定ステップにより求められた基本周波数の時間微分に基づいて前記第二段階の残響除去後の信号の基本周波数を一定にする第三段階の信号波形時間伸縮ステップと、
    前記第三段階の信号波形時間伸縮ステップにより得られた時間伸縮信号に基づいてその調波構造音を抽出する第三段階の調波構造音抽出ステップと、
    前記第三段階の調波構造音抽出ステップにより得られた調波構造音に対して信号波形の時間伸縮復元処理を施して時間伸縮前と同じ基本周波数を持つ調波構造音を得る第三段階の信号波形時間伸縮復元ステップと、
    前記第二段階の残響除去後の信号と前記第三段階の信号波形時間伸縮復元ステップにおいて得られた調波構造音を、調波構造音抽出処理とは異なる長さの時間フレームに分割して分析を進めて第三段階の逆伝達関数を推定する第三段階の逆伝達関数推定ステップと、
    前記第三段階の逆伝達関数推定ステップにより求めた第三段階の逆伝達関数を前記第二段階の残響除去後の信号に適用して第三段階の残響除去後の信号を得る第三段階の逆伝達関数適用ステップと、
    から構成される第三段階の残響除去処理ステップと、
    を備えたことを特徴とする残響除去方法
  2. 請求項1記載の残響除去方法の各ステップをコンピュータに実行させるためのプログラム。
  3. 請求項記載プログラムを記録した記録媒体。
JP2004245622A 2004-08-25 2004-08-25 残響除去方法、プログラムおよび記録媒体 Expired - Fee Related JP4313740B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004245622A JP4313740B2 (ja) 2004-08-25 2004-08-25 残響除去方法、プログラムおよび記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004245622A JP4313740B2 (ja) 2004-08-25 2004-08-25 残響除去方法、プログラムおよび記録媒体

Publications (2)

Publication Number Publication Date
JP2006064866A JP2006064866A (ja) 2006-03-09
JP4313740B2 true JP4313740B2 (ja) 2009-08-12

Family

ID=36111438

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004245622A Expired - Fee Related JP4313740B2 (ja) 2004-08-25 2004-08-25 残響除去方法、プログラムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP4313740B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5166460B2 (ja) * 2010-02-09 2013-03-21 日本電信電話株式会社 残響予測フィルタ算出装置、残響抑圧装置、残響予測フィルタ算出方法、残響抑圧方法、プログラム
CN118366488B (zh) * 2024-06-14 2024-09-13 宁波菊风系统软件有限公司 一种录音系统及计算机可读存储介质

Also Published As

Publication number Publication date
JP2006064866A (ja) 2006-03-09

Similar Documents

Publication Publication Date Title
JP4774100B2 (ja) 残響除去装置、残響除去方法、残響除去プログラム及び記録媒体
EP0822538B1 (en) Method of transforming periodic signal using smoothed spectrogram, method of transforming sound using phasing component and method of analyzing signal using optimum interpolation function
JP2763322B2 (ja) 音声処理方法
Shrawankar et al. Techniques for feature extraction in speech recognition system: A comparative study
JP5124014B2 (ja) 信号強調装置、その方法、プログラム及び記録媒体
US10614827B1 (en) System and method for speech enhancement using dynamic noise profile estimation
JP4516157B2 (ja) 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム
JP2013037174A (ja) 雑音/残響除去装置とその方法とプログラム
JP6748304B2 (ja) ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム
JP4348393B2 (ja) 信号歪み除去装置、方法、プログラム及びそのプログラムを記録した記録媒体
JP2798003B2 (ja) 音声帯域拡大装置および音声帯域拡大方法
JP4098647B2 (ja) 音響信号の残響除去方法、装置、及び音響信号の残響除去プログラム、そのプログラムを記録した記録媒体
JP5325130B2 (ja) Lpc分析装置、lpc分析方法、音声分析合成装置、音声分析合成方法及びプログラム
JP4313740B2 (ja) 残響除去方法、プログラムおよび記録媒体
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
JP3916834B2 (ja) 雑音が付加された周期波形の基本周期あるいは基本周波数の抽出方法
JP2010044150A (ja) 残響除去装置、残響除去方法、そのプログラムおよび記録媒体
JP4464797B2 (ja) 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
Hasan et al. An approach to voice conversion using feature statistical mapping
JP4166405B2 (ja) 駆動信号分析装置
JP3035939B2 (ja) 音声分析合成装置
Hirsch et al. A new HMM adaptation approach for the case of a hands-free speech input in reverberant rooms
JP2006234888A (ja) 残響除去装置、残響除去方法、残響除去プログラムおよび記録媒体
Rahali et al. Robust Features for Speech Recognition using Temporal Filtering Technique in the Presence of Impulsive Noise
JP2019090930A (ja) 音源強調装置、音源強調学習装置、音源強調方法、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060719

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060719

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090406

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090507

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090515

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120522

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130522

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140522

Year of fee payment: 5

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees