[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2005173055A - 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム - Google Patents

音響信号除去装置、音響信号除去方法及び音響信号除去プログラム Download PDF

Info

Publication number
JP2005173055A
JP2005173055A JP2003410959A JP2003410959A JP2005173055A JP 2005173055 A JP2005173055 A JP 2005173055A JP 2003410959 A JP2003410959 A JP 2003410959A JP 2003410959 A JP2003410959 A JP 2003410959A JP 2005173055 A JP2005173055 A JP 2005173055A
Authority
JP
Japan
Prior art keywords
acoustic signal
sound
mixed
acoustic
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003410959A
Other languages
English (en)
Other versions
JP4274419B2 (ja
Inventor
Masataka Goto
真孝 後藤
Yasumasa Nakada
安優 中田
Tomoyuki Okamura
智之 岡村
Hironobu Takahashi
裕信 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Fuji Television Network Inc
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Fuji Television Network Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST, Fuji Television Network Inc filed Critical National Institute of Advanced Industrial Science and Technology AIST
Priority to JP2003410959A priority Critical patent/JP4274419B2/ja
Priority to PCT/JP2004/013165 priority patent/WO2005057551A1/ja
Publication of JP2005173055A publication Critical patent/JP2005173055A/ja
Application granted granted Critical
Publication of JP4274419B2 publication Critical patent/JP4274419B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)

Abstract

【課題】混合音響中の除去処理に際して誤推定の原因となる定常音を排除して、除去しようとする音響の変化を自動的かつ高精度に予測し、適正に除去する。
【解決手段】 除去しようとする既知音響信号と他の音響信号とが混合してなる混合音響信号中の、定常音を検出する定常音検出部18と、音響信号から音響振幅スペクトルを抽出する音響振幅抽出部200と、抽出された混合音響振幅スペクトルのうち、定常音の周波数と一致しない周波数の混合音響振幅スペクトルを選択し、選択された周波数の混合音響振幅スペクトルから既知音響振幅スペクトルを除去する除去処理部104とを備える。
【選択図】 図1

Description

本発明は、既に放送された番組を再放送するなど、コンテンツを再利用する際に、コンテンツ中に混合されたBGMや音声等の音響を除去する音響信号除去装置、音響信号除去方法及び音響信号除去プログラムに関する。
近年の放送業界では、既に放送された番組を再放送するなど、コンテンツを再利用する場合がある。このコンテンツの再利用に際しては、既に放送された音声や音楽が混合している映像素材から、使用されている音楽だけを消去することで、新たな素材として活用することがある。このように、既存の混合音響から特定の音声を減算する技術としては、例えば特許文献1に開示された技術がある。
特開2000−312395号公報
しかしながら、放送番組の音声作成時には、製作意図にあわせて周波数特性や音量を調整する場合が多い。このため、音の位相が予測不能な変化をしているために、単に電子的な減算処理を行ったのみでは、適切に消去することはできない。
詳述すると、除去しようとする音響が、例えば番組のBGMのような既知の音楽であっても、番組作成時に、番組効果のためにBGMの低音や高音の強調や減衰を行ったり、録音・再生を繰り返したりする過程で、BGMの周波数特性が変化している場合もあり、単純に減算処理をすることはできない。
また、アナログテープレコーダーによるヒスや各種のビート音といった特定周波数の定常的な雑音(定常音)が映像データに含まれている場合があり、この定常音の周辺の周波数チャンネルで大きく推定を誤ってしまうという問題があった。すなわち、定常音は、既知音響側にはまったく含まれない音であることから、周波数特性の推定を誤る原因となる。
さらに、既知音響の除去処理は、既知音響が混合されている箇所のみ行うが、音声ファイル中の一部のみを消去した場合には、消去した部分とそれ以外の部分との間で音量の変化が生じるという問題がある。
本発明は、上記問題を解決すべくなされたものであり、混合音響中の除去処理に際して誤推定の原因となる定常音を排除して、除去しようとする音響の変化を自動的かつ高精度に予測し、適正に除去することのできる音響信号除去装置、音響信号除去方法及び音響信号除去プログラムを提供することを目的とする。
上記課題を解決するために、本発明は、除去しようとする既知音響信号と他の音響信号とが混合してなる混合音響信号中の、定常音を検出し、既知音響信号から既知音響振幅スペクトルを抽出するとともに、混合音響信号から周波数毎の混合音響振幅スペクトルを抽出し、抽出された混合音響振幅スペクトルのうち、定常音の周波数と一致しない周波数の混合音響振幅スペクトルを選択し、選択された周波数の混合音響振幅スペクトルから既知音響振幅スペクトルを除去する。
上記発明において、混合音響信号中における、最小の振幅となる周波数、或いは値の順にソートしたn番目の値となる周波数、n番目までの標準偏差から一定値を超えないnの最大値となる周波数を定常音として検出することが好ましい。
また、他の発明は、除去しようとする既知音響信号と他の音響信号とが混合してなる混合音響信号から既知音響信号を除去する際に、混合音響としての一定振幅の音響信号に対し、既知音響信号を0として疑似減算処理を行い、一定振幅の音響信号と前記疑似減算処理後の音響信号との音量の差を計測し、前記計測結果に基づいて、既知音響信号の時間毎の信号強度を設定し、既知音響信号から既知音響振幅スペクトルを抽出するとともに、前記混合音響信号から混合音響振幅スペクトルを抽出し、前記設定に基づいて、既知音響振幅スペクトルを変換し、混合音響振幅スペクトルから既知音響振幅スペクトルを除去する。なお、この疑似減算処理は、最終的に行われる除去処理と同様に、振幅スペクトルの減算とすることができる。
このような本発明によれば、音響信号において振幅スペクトルは、位相に依存しないため、位相が変化してもその影響を受けることなく、混合音響信号中の既知音響信号の周波数特性や音量変化を、適切に推定することができる。この結果、本発明によれば、例えば、音声と音楽が混じった番組の音声信号から、番組作成時に使用した音楽CD等の音のデータを使って、音楽だけを的確に消去することができる。なお、本発明は、音楽に限らず、番組作成時に混入した背景雑音等も、雑音のみが同時に録音された音のデータを使って消去することができる。
また、本発明によれば、アナログテープレコーダーによるヒスや各種のビート音といった特定周波数の定常的な雑音を検出し、この雑音が含まれる周波数チャンネルを無視して、除去処理を行うため、既知音響の周波数特性の推定をより適正に行うことができる。
さらに、他の発明によれば、一定振幅の単音(例えば、480Hz)を混合音として入力し、既知音響の引く量をゼロとして疑似減算処理を行い、出力される音量の違いを計測し、その値が一致するように設定するため、特定の音声ファイルの一部のみを消去した場合であっても、それぞれの音量を同一に維持することができる。
[既知音響除去システムの構成]
本発明の実施形態について図面を参照しながら説明する。図1は、本実施形態に係る既知音響除去システムの全体構成を示すブロック図である。
図1に示すように、本実施形態に係る既知音響除去システムは、混合音響や既知音響を入力する入力I/F1及びDVキャプチャー2を備えている。これら入力I/F1及びDVキャプチャー2から入力されたファイル(例えば、AVIファイルやWAVファイル)は、記憶装置5に蓄積される。入力I/F1は、CDプレーヤーやMDプレーヤー等の再生装置から音響信号を取り込むインターフェースである。また、DVキャプチャー2は、映像や音声が混合した混合音響信号である消去対象用のMIX音声を取り出すインターフェースである。
また、既知音響除去システムは、記憶装置5に蓄積された各種データに対して音声データ抽出処理や音声変換処理を行う音声変換部(PreWav/PostWav)3及び音声データ抽出部(DVReMix)4とを備えている。これら音声変換部(PreWav/PostWav)3及び音声データ抽出部(DVReMix)4は、指定されたファイル(AVIファイルやWAVファイル)を記憶装置5から読み出し、所定の処理を施した後、処理後のファイル(WAVファイル)を記憶装置5に蓄積する。
音声変換部(PreWav)3は、周波数変換、及びステレオからモノラルの分離を行う。すなわち、音響除去エンジンプログラム100のフォーマットに合うように、WAVファイルを左右2チャンネルに分離するとともに、サンプリングレートを48kHzに変換し、2つのWAVファイル(出力ファイル名:左チャンネルがMIX-L.WAV、右チャンネルがMIX-R.WAV)として生成し、記憶装置5に蓄積する。
音声データ抽出部(DVReMix)3は、映像データ及び音声データから構成されるコンテンツから音声データのみを抽出するモジュールであり、本実施形態では、AVIファイルから音声データをWAV形式で抽出する。ここでのWAVファイルは、ステレオ形式であり、そのサンプリングレートはDVの音声と同じ32kHz又は48kHzである。この抽出されたWAVファイルは、記憶装置5に蓄積される。
そして、既知音響除去システムは、混合音響信号から既知音響信号を除去する音響除去エンジンプログラム100を備えている。この音響除去エンジンプログラム100は、記憶装置5に蓄積された各音声ファイル(WAVファイル)を読み出し、除去したデータや除去処理に係る各種データを、一時メモリ7を介して、記憶装置5に蓄積したり、出力I/F8を通じて、モニタ10やスピーカー11から出力する。モニタ10は、ユーザーインターフェース6による操作や処理結果を表示するGUIであるエディタ400を表示し、スピーカー11は、ユーザーインターフェース6によるユーザー操作に基づいて、混合音響や既知音響、除去後音響を出力する。
また、音響除去エンジンプログラム100は、キーボード6aやマウス6b等の入力デバイスによるユーザー操作に基づく操作信号を、ユーザーインターフェース6を通じて取得し、この操作信号に基づいて、各種処理を行う。この音響除去エンジンプログラム100による既知音響除去処理については、後述する。
また、既知音響除去システムは、同期制御部9を備えており、これにより記憶装置5からのデータの読み出し、音響除去エンジンプログラム100による除去処理、メモリ7や出力I/F8によるデータの入出力を同期させる。これにより、エディタ400に表示される映像と、スピーカー11から出力される音声を、音響除去エンジンプログラム100による処理やユーザーインターフェース6におけるユーザー操作に同期させることができる。
さらに、音響除去エンジンプログラム100は、パラメータの設定に際し、そのデフォルト値をシミュレーションにより設定し、ユーザーの作業を支援するシミュレーション部14を備えている。
具体的に、シミュレーション部14は、一定振幅の単音(480Hz)を混合音として入力し、既知音響をゼロとして除去処理を行い、出力される音量と、処理前の混合音とを比較して差分量を計測し、その差分量が0となるように、ユーザーインターフェース6における除去強度のデフォルト値を設定する。
また、シミュレーション部14は、後述する「位相非依存減算関数」により、混合音響と既知音響の位相差が、0度から360度まで一様に確率分布しているとして、シミュレーションを行う。具体的にシミュレーション部14では、他の音響信号の振幅を所定値とし、これに対する既知音響信号の振幅の位相差を0〜360度の範囲で変化させて合成して得られた混合音響信号の振幅の平均値を算出し、この平均値に対する既知音響信号の振幅の割合から、平均値に対する他の音響信号の振幅の割合の近似値を算出し、この近似値に平均値を積算することによって得られた他の音響信号の振幅に基づいて、既知信号の除去強度を設定する。以下に、位相差非依存減算関数の導出について説明する。
先ず、本実施形態では、周波数チャンネル毎に演算を行い、その周波数をf(Hz)とすると、混合音響、既知音響、消去後の音声出力(他の音響)の信号の関係は、
「混合音響」=「消去後の音声出力」+「既知音響」
と表される。そして、上記の各音響は、それぞれ
Figure 2005173055
と表される。ここで、混合音響と、既知音響及び消去後の音声出力の関係から、
Figure 2005173055
となる。如何なる時刻tにおいても、上式(数2)は成立するため、Sin(ωt)とcos(ωt)の係数はそれぞれ等しくなる。したがって、
Figure 2005173055
が成立する。この関係から、以下のように、Mは、AとBと、既知音響と音声出力の位相差(θa・θb)で表すことができる。
Figure 2005173055
ここで、既知音響と音声出力の位相差(θa・θb)を、位相差θδで置き換えると、
Figure 2005173055
となる。
本実施形態では、この位相差θδが一様な確率で発生すると考え、実際に測定されるMの値の平均値を、次式のように、θδを0ラジアンから2πラジアンまで積分して算出する。
Figure 2005173055
例えば、A=1.0として、bが様々な値を取った場合をシミュレーションすることにより、以下のような表を得る。
Figure 2005173055
ここで、
Figure 2005173055
を正規化し、
Figure 2005173055
とする。上記数6からも明らかなように、A及びBに定数をかけると、Nも定数倍になるため、表1の値を全て
Figure 2005173055
で割っても(
Figure 2005173055
の逆数倍しても)、下表のように、上記関係は維持される。
Figure 2005173055
本実施形態の除去処理では、混合音響の振幅(M)と既知音響の振幅(B)が取得されるため、BをMで除した値であるRbを求めることができる。そこで、上記表2に相当するテーブルデータ、若しくはその近似式によって、Raを求めることができる。
次に、
Figure 2005173055
により、他の音響の振幅Aを求めることができる。
なお、実際の適用としては、上記Bを0から100まで0.01刻みで変化させ、表の値に対して以下のような近似式を生成し、Mの平均値
Figure 2005173055
からAを算出する。
Figure 2005173055
なお、理論上は、混合音の振幅を既知音響の振幅を上回ることはないが、実際には、推定ミスや消去強度を1より大きくする等により発生するため、このような場合(Rbが1より大きい場合)には、Raを0とする。
また、音響除去エンジンプログラム100は、定常音検出部18を備えている。このキャ定常音検出部18は、図6(b)に示すように、除去エンジンプログラム100における除去処理に係る混合音響信号中から定常音を検出し、この検出された定常音を除去エンジンプログラム100に通知するモジュールである。
そして、除去エンジンプログラム100では、この通知に基づいて、混合音響振幅スペクトルのうち、定常音の周波数と一致しない周波数の混合音響振幅スペクトルを選択選択された周波数の混合音響振幅スペクトルから既知音響振幅スペクトルを除去する。
かかる定常音の検出は、混合音響信号中における、周波数チャンネル毎の振幅をその時間と対応付けて検出し、これをソートして、その最小値や、代表値を算出する。この定常音の算出には、以下の3つの方法が挙げられる。
(1)最小値法
混合音に対してFFT処理により各周波数チャンネルごとの振幅データを時刻に対応付けて取り出す。ここでは、例えば15.7KHzのチャンネルで、
時刻 0.00秒 0.01秒 0.02秒……1456.345秒
振幅 1.5 2.5 1.5 4.5
の値が検出されたものとする。
この最小値法では、以上のようなデータから、全時刻の値について最小となる値を定常音とする。
(2)順位付け法
なお、上述した最小値法では、ノイズが「定常」ではない場合や、他の音声や合成された音楽の位相の関係で、振幅が小さくなることがあり、このために最小値が、本来の定常値より低くなる惧れがある。この順位付け法では、最小値ではなく次のような値を用いる。
上述した振幅値を、小さなものからソートする。
順位 1 2 3 4 5 … 345 346
振幅 0.34 0.035 0.36 0.40 0.40 …18.9 19.5
例えば3秒間なら10ミリ秒ごとなので300サンプルになります。これに、1番から300番までの数字を付与する。そして、ノイズ以外がない区間が少なくても10%あるとの予測に基づき、300の10%の値、すなわち30番目の値を定常音として採用する。
(3)順位付け改良法
順位付け法では、ノイズだけの区間が多すぎたり少なすぎたりすることや、10%という閾値を定める必要があるため、閾値の設定により算出結果が影響を受ける可能性がある。そこで、順位付け法の改良法として、上記の振幅値のうち小さい方からn番目までのノイズについて、統計をとって標準偏差 σ(n)を求め、このσ(n)が一定値を超えないnの最大値を求め、このnの時の振幅値を定常音とする。この一定値は、経験的に定めることが好ましい。
[既知音響除去システムの動作]
以上説明した構成を有する既知音響除去システムは、以下のように動作する。図2は、既知音響除去システムの動作を示すフロー図である。なお、本実施形態では、映像と音声がステレオで記録された映像ファイル(DV)を混合音響(MIX音声)とし、オリジナル曲が記録された音声ファイルを既知音響とし、映像ファイル中にBGMとして包含されている当該オリジナル曲を除去する場合を例に説明する。本実施形態おける処理は、(1)前処理、(2)音楽消去処理、(3)後処理に大別される。以下、各処理について詳述する。
(1)前処理
前処理では、DVから消去対象用のMIX音声を取り出すとともに、BGM用音声(オリジナル曲)を用意する。具体的には、DVキャプチャー2からDV用のビデオ編集ソフトを使用して動画をキャプチャーし(S101)、このキャプチャーしたファイルを、タイプ1のAVIファイル(出力ファイル名:MIX.AVI)として、記憶装置5に蓄積する。
次いで、音声データ抽出部(DVReMix)3により、AVIファイルから音声データをWAV形式(出力ファイル名:MIX.WAV)で抽出する(S102)。ここでのWAVファイルは、ステレオ形式であり、そのサンプリングレートはDVの音声と同じ32kHz又は48kHzである。この抽出されたWAVファイルは、記憶装置5に蓄積される。
その後、音声変換部(PreWav)4により、周波数変換及び、ステレオからモノラルの分離を行う(S103)。すなわち、音響除去エンジンプログラム100のフォーマットに合うように、WAVファイルを左右2チャンネルに分離するとともに、サンプリングレートを48kHzに変換し、2つのWAVファイル(出力ファイル名:左チャンネルがMIX-L.WAV、右チャンネルがMIX-R.WAV)として生成し、記憶装置5に蓄積する。また、このステップS103では、音声変換と同時にビデオの開始時間のオフセットを、設定ファイル(ファイル名:MIX.time)に出力し、記憶装置5に蓄積する。
これらステップS101〜S103と並行して、オリジナル曲の取り込みを行う(S104)。具体的には、オリジナル曲(BGM曲)をCDなどから取り込み、44.1kHzステレオのWAVファイル(出力ファイル名:BGM.WAV)として、記憶装置5に蓄積する。次いで、音声変換部(PreWav)3により、周波数変換、ステレオからモノラルの分離を行う(S105)。すなわち、音響除去エンジンプログラム100のフォーマットに合うように、ステップS104で取り込んだWAVファイルを、左右2チャンネルに分離し、サンプリングレートを48kHzに変換し2つのWAVファイル(出力ファイル名:左チャンネルがBGM-L.WAV、右チャンネルがBGM-R.WAV)として、記憶装置5に蓄積する。
(2)音楽消去処理
音楽消去処理では、除去エンジンプログラム(GEQ)100により、MIX音声からBGM音声を消去する(S106)。この消去後出力される音声ファイルは、左右チャンネルともにモノラル48kHzのWAVファイル(出力ファイル名:左チャンネルがERASE-L.WAV、右チャンネルがERASE-R.WAV)として、メモリ7又は記憶装置5に蓄積される。
(3)後処理
後処理では、除去エンジンプログラムで消去した音声を、DV用の音声に変換し、DV(AVIファイル)に復元する。先ず、音声変換部(PostWav)3により、周波数変換、及びモノラルからステレオへの変換を行う(S107)。すなわち、音響除去エンジンプログラム100から出力された左右2チャンネルのWAVファイルをステレオに合成し、必要ならば元のDVの音声と同じサンプリングレートに変換し、WAVファイル(ファイル名:ERASE.WAV)として、記憶装置5に蓄積する。次いで、音声データ抽出部(DVReMix)4において、キャプチャーしたAVIファイル(BGM.AVI)の音声を、消去後の音声(ERASE.WAV)と入れ替え、除去後音響ファイル(ファイル名:ERASE.AVI)として、記憶装置5に蓄積する。
なお、例えば、1回目の作業で、ステレオ放送の左音声(L)について作業した場合などには、この左音声に対する各種パラメータ設定データを記憶しておき、これを次回の右音声に対する除去処理の際に呼び出し、ユーザーインターフェース6におけるデフォルト値として設定する。
[音響除去処理の理論]
次いで、上述した音響除去エンジンプログラム100について詳述する。先ず、この音響除去エンジンプログラム100による音響除去処理の理論について説明する。
(基本概念)
所望の音声や物音等の音響信号s(t)(tは時間軸)に、BGM等の非定常音響信号b(t)が混合された、混合音響信号m(t)が観測されるものとする。
Figure 2005173055
ここでは、b(t)の元となる音源の音響信号b’(t)が既知という条件下で、m(t)が与えられたときに、未知のs(t)を求める。例えば、人間の声や物音と共にBGMが鳴っているテレビ番組等の音響信号m(t)を入力とし、そのBGMの楽曲が既知でその音響信号b’(t)が別途用意できるときに、そのBGMの音楽音響信号を用いて番組中のBGMを除去し、人間の声や物音だけの音響信号s(t)を得る処理を実現する。
ここで、b(t)とb’(t)は完全には一致しないため、
Figure 2005173055

の減算に相当する処理では、b’(t)からb(t)に相当する成分を推定して、s(t)を求める必要がある。具体的には、既知の音響信号b’(t)は、混合音m(t)中では、以下のような変形に対する補正を行うことでb(t)に相当する成分を推定する。
・時間的な位置のずれ
混合音m(t)中で既知の音響信号b’(t)が鳴っている位置は先頭からとは限らない。そこで、既知の音響信号b’(t)を時間軸方向にずらし、両者の相対位置を合わせて、混合音から既知音響信号を減算する。
・周波数特性の時間変化
混合音m(t)中で既知の音響信号b’(t)が鳴る際には、グラフィックイコライザ等の影響で周波数特性が変化することが多い。例えば、低域や高域が強調・減衰されることがある。そこで、b’(t)の周波数特性を同様に変化させて補正し、混合音から既知音響信号を減算する。
・音量の時間変化
混合音m(t)中で既知の音響信号b’(t)が鳴る際には、混合音作成時におけるミキサーのフェーダー等の操作で混合比率が変更され、音量が時間変化することが多い。そこで、b’(t)の音量を同様に時間変化させて補正し、混合音から既知音響信号を減算する。
本プログラムの処理の流れを図3に示す。本プログラムでは、時間領域での波形を減算処理をせずに、時間周波数領域での振幅スペクトル上で減算処理を行う。音響信号m(t),b’(t)に対する窓関数h(t)を用いた時刻tにおける短時間フーリエ変換(STFT)X(ω,t)、X(ω,t)が、
Figure 2005173055
で定義されるとき、それらの振幅スペクトルM(ω,t),B’(ω,t)は、
Figure 2005173055
で求まる。
本実施形態では、音響信号を標本化周波数48kHz、量子化ビット数16bitでA/D変換し、窓関数h(t)として窓幅8192点のハニング窓を用いたSTFTを、高速フーリエ変換(FFT)によって計算する。その際、FFTのフレームを480点ずつシフトするため、フレームシフト時間(1フレームシフト)は10msとなる。このフレームシフトを、処理の時間単位とする。なお、本プログラムは、他の標本化周波数(16kHz、44kHz等)や窓幅、フレームシフトにも容易に対応できるようになっている。
既知音響信号除去後の所望の音響信号s(t)の振幅スペクトルS(ω,t)は、振幅スペクトルM(ω,t),B’(ω,t)から以下のように求める。
Figure 2005173055
上記の式における各種パラメータ関数a(t),g(ω,t),r(t) ,c(ω,t)を順に説明する。
・a(t)は混合音の振幅スペクトルから既知音響信号の振幅スペクトルに相当する成分を減算する分量を最終的に調整するための任意の形状の関数であり、通常、a(t)≧1とする。これが大きいほど、減算量が大きくなる。
・g(ω,t)は、周波数特性の時間変化と音量の時間変化を補正するための関数であり、
Figure 2005173055
により求める。ここで、gω(ω,t)は、周波数特性の時間変化を表し、周波数特性の変化がないときはgω(ω,t)=1となる。一方、M(ω,t),B’(ω,t)は、音量の時間変化を表し、音量の変化がないときは定数となる。M(ω,t)とB’(ω,t)との音量差は、基本的にgt(t)で補正される。gr(t)は、主にg(ω,t)の値を全体的に持ち上げるための関数で、補正時の微調整に使用される。使用しない場合には、gr(t)=0とする。
・r(t)は、時間的な位置のずれを補正するための関数であり、通常は定数を設定することで、一定のずれ幅を補正する(本プログラムでは、定数にのみ対応している)。
・c(ω,t)は、振幅スペクトルに対するイコライジング処理及びフェーダー操作処理のための任意の形状の関数である。ω方向の形状により、グラフィックイコライザのように、既知音響信号除去後の周波数特性を調整することができる。また、t方向の形状により、ミキサーのボリュームフェーダー操作のように、既知音響信号除去後の音量変化を調整することができる。使用しない場合には、c(ω,t)=1とする。なお、本プログラムでは、c(ω,t)=1にのみ対応しているが、c(ω,t)の処理を追加してもよい。
こうして求めた振幅スペクトルS(ω,t)と、混合音m(t)の位相θm(ω,t) を用いてXs(ω,t)を求め、それを逆フーリエ変換(IFFT)することで、単位波形を得る。
Figure 2005173055
この単位波形を、Overlap Add法によって配置することにより、既知音響信号除去後の所望の音響信号s(t)を合成する。
(各種パラメータ関数の設定)
上記の処理を実行する際に、上記数5及び数6の各種パラメータ関数a(t),g(ω,t)(gω(ω,t),gt(t),gr(t)),r(t) ,c(ω,t)の形状は、ユーザーが手作業で設定してもよいし、可能なものは自動推定してもよい。あるいは、自動推定後にユーザーが修正してもよい。本プログラムでは式(11)、式(12)、式(13)の各種パラメータ関数g(ω,t)(gω(ω,t),gt(t)),r(t)の一部の形状の自動推定にのみ対応しているため、実装されている具体的な自動推定方法を以下に述べる。
・g(ω,t)の推定では、先ず、周波数特性の時間変化gω(ω,t)を推定し、次に、音量の時間変化gt(t)を推定する。ただし、g(ω,t)の推定に先立ち、r(t)は決定されている必要がある。ここでは便宜上、B’(ω,t+r(t))をB’(ω,t)と記述する。
周波数特性の時間変化gω(ω,t)の推定では、原則として、人間の声や物音だけの音響信号s(t)がほとんど含まれていない区間(以下、BGM区間と呼ぶ)を用いる。BGM区間は、複数用いてもよい。BGM区間では、混合音m(t)の振幅スペクトルM(ω,t)は、既知の音響信号b’(t)によるBGMに相当する振幅スペクトルB’(ω,t)に由来の成分がほとんどとなる。そこで、周波数特性が時間変化せずに定常、すなわち、gω(ω,t)=g’ω(ω)と仮定できるときには、g’ω(ω)を
Figure 2005173055
により推定する。ただし、ψは一つのBGM区間(時問軸上の領域)を表し、Ψは、ψの集合とする。一方、周波数特性が時間変化していくときには、gω(ω,t)の時刻tに近いBGM区間ψから
Figure 2005173055
を求め、補間(内挿あるいは外挿)することによりgω(ω,t)を推定する。最後に、gω(ω,t)を周波数軸方向に平滑化する。なお、平滑化幅は任意に設定でき、平滑化をしなくてもよい。
音量の時間変化gt(t)の推定では、M(ω,t)と、周波数特性補正後のgω(ω,t) B’(ω,t)の各時刻における振幅を比較する。しかし、M(ω,t)には、B’(ω,t)に由来の成分以外に、s(t)に由来の成分も含まれる。そこで、周波数軸ωを複数の周波数帯域Φに分割し、各帯域φ(φ∈Φ)毎に
Figure 2005173055
を求める(Φはφの集合を表す)。Φとして任意の分割が適用できるが、例えば、音楽で用いる平均律の1オクターブ毎に分割(対数周波数軸上で等間隔に分割)するとよい。そして、gt(t)は、min(g’t(φ,t))あるいは、数11により推定する。
Figure 2005173055


最後に、gt(t)を時間軸方向に平滑化する。なお、平滑化幅は任意に設定でき、平滑化をしなくてもよい。
・r(t)の推定では、原則として、BGM区間ψの集合Ψを用いて、それらの区間におけるM(ω,t)とB(ω,t)との対応関係の時間軸を合わせるように、r(t)を求める。本プログラムでは、r(t)の推定のためのBGM区間の集合Ψの要素は一つに限定され、r(t)は定数のみに対応している。
上記のg(ω,t)やr(t)等の推定では、BGM区間ψの集合Ψを用いていた。これは、ユーザーが手作業で指定してもよいし、以下のように自動推定してもよい。Ψの自動推定では、基本的に、どこか一箇所のBGM区間ψ1を手掛かりとして、残りのBGM区間の集合を求める。先ず、ψ1に基づいて、B(ω,t)の各種パラメータ関数を推定して仮に決定し、そのときのψ1の区間内におけるM(ω,t)とB(ω,t)との振幅スペクトル間の距離を求め、その最大値(本プログラムでは最大値を用いたが平均値を用いる実装も可能である)の定数倍をBGM区間判定用閾値とする。そして、全区間に対して、M(ω,t)とB(ω,t)との振幅スペクトル間の距離を求め、BGM区間判定用閾値以下の区間を検出し、新たにΨに加える。本プログラムではこの推定は繰り返さないが、この推定を繰り返してΨを求めてもよい。ここで、M(ω,t)とB(ω,t)との距離としては、例えば、二乗平均対数スペクトル距離
Figure 2005173055
が有効である。なお、最初のψ1は、ユーザーが手作業で指定する。
(既知音響の伸縮推定)
本実施形態では、上記数5及び6の枠組みを拡張することにより、以下の変形に対応することができる。
時間軸あるいは周波数軸方向の伸縮混合音m(t)中で既知の音響信号b’(t)が鳴る際には、レコード等の回転数の違いにより、時間軸あるいは周波数軸方向に伸縮されることがある。そこで、b’(t)を時間軸あるいは周波数軸方向に伸縮して補正し、混合音から既知音響信号を減算する必要がある。
これに対応するには、数5中の第2式を以下のように定義する。
Figure 2005173055
上記の式におけるパラメータ関数p(ω)、q(t) を説明する。
・p(ω)は、周波数軸方向の伸縮を補正するための関数であり、振幅スペクトルB’(ω,t)の周波数軸ωを変換することで、周波数軸方向の線形・非線型な伸縮を可能にする。なお、B’(ω,t)は本来のωの定義域外では0をとり、離散化して実装する際には適宜補間することとする。
・q(t) は、時間軸方向の伸縮を補正するための関数であり、振幅スペクトルB’(ω,t)の時間軸tを変換することで、時間軸方向の線形・非線型な伸縮を可能にする。なお、B’(ω,t)は本来のtの定義域外では0をとり、離散化して実装する際には適宜補間することとする。q(t)とr(t)を統合した一つの関数で表現することも可能だが、ここでは、q(t)は連続的な伸縮を表す目的で設定し、r(t)は不連続な位置のずれを表す目的で設定することとする。
・上記の数13で新たに導入されたパラメータ関数p(ω)、q(t)の形状を自動推定する方法を以下に述べる。
・p(ω)、q(t)の推定では、M(ω,t)とB(ω,t)との距離(例えば、対数スペクトル距離等)が最小となるように、p(ω)とq(t)を変更する。その際、B(ω,t)=a(t)g(ω,t) B’( p(ω),q(t)+r(t))の右辺のうち、a(t)=1とし、
1.(推定途中の) p(ω)とq(t)を仮に固定した上で、g(ω,t)とr(t)を推定
2.(推定途中の) g(ω,t)とr(t)を仮に固定した上で、p(ω)とq(t)を推定
の二つを反復的に繰り返して、適切なp(ω),q(t)を推定する。これは、音響信号の全区間に対して一度に実行せず、時間軸を分割して、区分的に行うとよい。初期値は前後の区間の連続性を考慮して定める。また、BGM区間ψの集合Ψを用いて、それらの複数の区間におけるM(ω,t)とB(ω,t)との対応関係の時間軸を合わせるように、p(ω),q(t)を推定するとよい。なお、既知の音響信号b’ (t)の一部区間が使われずに、飛び飛びで混ざっていたとき等には、その区間を飛ばすようにr(t)が不連続関数となるようにする。
ここで、BGM区間ψの集合Ψを自動推定する際に、本プログラムでは最初のψ1は、ユーザーが手作業で指定する必要があるが、音響信号の時間軸を細かく分割して、それらの短い分割区間同士の対応関係を調査して求める方法もある。
(複数の既知音響信号への対応等)
本プログラムでは、混合音響信号m(t)の中に、既知音響信号b’ (t)が一種類含まれている場合に対応している。b’ (t),b’ (t)…b’ (t)のように複数含まれている場合には、それらの振幅スペクトルB’(ω,t),B’(ω,t)…B’ (ω,t) から、上記数5第2式で求めたB(ω,t),B(ω,t)…B (ω,t)を用いて、
Figure 2005173055
のようにS(ω,t)を求める処理へ拡張できる。その際には、Bn (ω,t)の各種パラメータ関数を順に設定するか、全体のバランスを取りながら、複数のBn (ω,t)の各種パラメータ関数を平行して設定する。
また、本プログラムはモノラル信号を対象にしているが、ステレオ信号は、左右を混合してモノラル信号に変換して適用してもよいし、ステレオ信号の左右の各信号に対して適用してもよい。また、ステレオ信号中の音源方向を利用して適用するように拡張してもよい。
(実験結果)
このような本実施形態に係る音響除去エンジンプログラムの実験結果を以下に示す。ここでは、音声や物音等の音響信号s(t)にBGM等の音響信号b(t)が加えられている混合において、音響信号m(t)が観測されたときに、b(t)の元となる音源の音響信号b’(t)が既知という条件下で、未知のs(t)を求めた。m(t)とb’(t)が収録されたオーディオファイルを与えると、s(t)のオーディオファイルを得ることができる。
人間の音声にバックグラウンドミュージック(BGM)が加えられた混合音に対して実験した結果、そのBGMの原曲の音響信号を用いて、混合音中のBGMを除去し、人間の音声や物音が得られることを確認した。
実験結果の例として、二人の男女の対話のBGMにクラシック音楽が鳴っている混合音を実際に処理した結果を図4(a)〜(f)に示す。図4(a)及び(b)に示す混合音m(t)を入力として、図4(c)及び(d)に示す元音源の既知音響信号b’(t)を用いてBGM成分を除去した結果、図4(e)及び(f)に示す既知音響信号除去後の音響信号s(t)が得られた。
以上から、人間の声や物音の背景にBGMが鳴っているテレビ番組や映画等の音響信号を入力とすると、別途用意したBGMの音楽音響信号を用いて番組中のBGMを除去し、人間の声や物音だけの音響信号を得ることができる。なお、BGM除去後の音響信号に対して、別の音楽をBGMとして付与するようにしてもよい。
[音響除去エンジンの構成]
以上説明した理論に基づく音響除去エンジンプログラム100の構成について説明する。図5は、音響除去エンジンプログラム100の機能を示すブロック図である。
図5に示すように、音響除去エンジンプログラム100は、信号入力手段として、混合音響信号が入力される混合音響入力部101と、除去しようとする既知音響信号を入力する既知音響信号入力部102とを有し、除去処理が施された音響信号の出力手段として除去後音響信号出力部107を有している。
また、音響除去エンジンプログラム100は、入力された音響信号から振幅スペクトルを抽出する振幅スペクトル抽出部200を備えている。具体的に、この振幅スペクトル抽出部200は、データ分割部201と、窓関数処理部202と、フーリエ変換部203とを備えている。
データ分割部201は、混合音響信号を、特定の長さ(窓サイズ)の区間に分割する。一般の音声認識等では、一区間の長さを20ミリ秒程度とするが、音声に比べて、音楽では同じ音が長く継続することから、本実施形態では、これよりも10倍程度長い、2のべき乗である8192サンプル(8192÷48,000=0.170約170ミリ秒)としている。
窓関数処理部202は、データ分割部201により分割された窓サイズ区間(170m秒)の音声信号データに対し、ハニング関数を掛けて、データの最初と最後の部分において、なだらかにゼロに収束させる信号波形に変換する。
フーリエ変換部203は、混合音響信号及び既知音響信号それぞれのデータをフーリエ変換して、周波数チャンネル毎の位相及び振幅スペクトルを分離して出力する。なお、振幅スペクトルのみからなるデータは「時間周波数データ」として出力される。
詳述すると、このフーリエ変換部203は、ハニング関数処理された音声データに対して、高速フーリエ変換(FFT)を行う。なお、入力される音声データは実数のみで、虚数部が含まれ、このFFTでは入出力を複素数で計算することから、2回の窓の変換を入力データの実部と虚部にそれぞれ行い、高速フーリエ変換し、変換後に共役関係を使って分離して2倍の速度向上を実現している。なお、本システムではインテル社のPentium4(登録商標)プロセッサ等で利用できるSSE2命令を使用し、処理の高速化を図っている。
そして、振幅スペクトル抽出部200では、フーリエ変換する区間を480サンプル(480÷48,000=0.01:10ミリ秒)単位で移動させ、窓関数処理部202及びフーリエ変換部203によるハニング窓関数の掛け算とフーリエ変換の処理を繰り返す。このようにして10ミリセカンド毎に得られたデータから、周波数チャンネル毎に音声信号の「振幅のみ」を表すデータである「時間周波数データ」を取得する。このようにして得られた周波数チャンネルは、0Hz,5.86Hz,11,72Hz,17.57Hz….23,994.14Hzというように、0Hz(直流)から約5.86Hz毎に約24kHzまでの4096チャンネルとなる。
なお、振幅スペクトル抽出部200は、入力された信号が混合音響信号であるときには、混合音響信号から混合音響振幅スペクトルを抽出する混合音響振幅抽出部として機能し、入力された信号が除去しようとする既知音響信号であるときには、この除去し音響振幅スペクトルを抽出する既知音響振幅抽出部として機能する。
また、音響除去エンジンプログラム100は、振幅スペクトル抽出部200から抽出された既知音響の振幅スペクトルに基づいて、混合音響中の既知音響の変化を自動推定したり、自動推定結果をユーザー操作により修正するパラメータ推定部300を備えている。
このパラメータ推定部300は、振幅スペクトル抽出部200から抽出された「時間周波数データ」の周波数チャンネル毎のデータに基づいて、上述した数5及び数6のすべてのパラメータ関数a(t),g(ω,t)(gω(ω,t),gt(t),gr(t)),p(ω) ,q(ω) ,r(t) ,c(ω,t)の形状を自動で推定したり、若しくはユーザーの操作で設定したりする。なお、ユーザーは、最初から任意の関数形状を描いて指定してもよいし、最初に先ず自動推定をして、その結果を修正してもよい。
パラメータ推定部300は、混合音響及び既知音響のキャリブレーションを行うキャリブレーション部304を備えている。このキャリブレーション部304は、人間の声や物音だけの音響信号s(t)がほとんど含まれていない区間(BGM区間)を用いて、上記数5及び数6の各種パラメータ関数g(ω,t),(gω(ω,t),gt(t)),r(t)の一部の形状の自動推定する。
具体的には、ユーザーの手動操作により、混合音の中で、既知音響のみが出力されている1秒から数秒の区間を選択するとともに、既知音響に対してもほぼ同じ部分を選択する。そして、キャリブレーション部304は、この選択された区間内で周波数チャンネル毎の音量を合計して、混合音と除去音から得られる値を比較する。この区間では混合音には既知音響のみが含まれていることから、その比が周波数特性となる。
さらに、パラメータ推定部300は、周波数特性変化補正部301と、音量変化補正部302と、時間位置補正部303とを備え、これらにより(1)混合音響と既知音響の時間的な位置ずれ、(2)既知音響の周波数特性、及び(3)既知音響の音量の時間変化を推定する。
周波数特性変化補正部301は、周波数分布の推定を行うモジュールであり、この周波数分布の推定に際し、振幅スペクトルに対するイコライジング処理及びフェーダー操作処理のための任意の形状の関数であるc(ω,t)について、ω方向の形状を変化させることにより、グラフィックイコライザのように、既知音響信号除去後の周波数特性を調整する。
また、周波数特性変化補正部301は、音声チャンネルのうちBGMの音量が小さい部分ではノイズ等により得られる値が不安定となるため、周波数特性の平滑化を行う。
詳述すると、推定したい各周波数チャンネルに既知音響の音がなければ推定が不可能なことから、周波数分布の推定にあたっては既知音響に低音から高音まで含まれている、いわゆる「リッチ」な部分を用いることが望ましい。
しかしながら、4096チャンネルといった非常に細分化されている場合には、すべてのチャンネルに音が含まれていることはむしろ不可能に近いと考えられ、また、既知音響の音が小さく、対して混合音側にノイズがあった場合は、割り算の結果として非常識な推定値となることがある。
これに対して、本実施形態では、周波数分布の平滑化を行う。この平滑化は、前後のチャンネルの平均値をとってなめらかにすることによって実現される。本実施形態では、このチャンネル数がエディタ400のスライダ「SmoothingFreq.Weight」で、この値を大きくするほどなめらかにすることができる。
また、本実施形態では、別の平滑化の機構(Blur_freq_mode)が、エディタ400のボタン「BAFAM」により実装されている。音がない周波数チャンネルでは推定ができず、隣接する周波数チャンネルに比べて極端に落ち込んでいる場合があるため、隣接した周波数チャンネルと同じ値に持ち上げることにより、こうした予測不能の場合を回避することができる。
さらに、本実施形態では、全くゼロとなる周波数チャンネルが、推定処理に影響を及ぼすのを避けるために、エディタ400のスライダ「ShiftFreqWeight」で実装されている。
また、本実施形態に係る周波数特性変化補正部301は、アナログテープレコーダーによるヒスや各種のビート音といった特定周波数の定常的な雑音を無視して、処理を行う定常音処理機能を備えている。映像データに含まれる水平周波数(15.75kHz)などの定常音が混合音に含まれていると、この周辺の周波数チャンネルで大きく推定を誤ってしまうという問題があった。すなわち、定常音は、既知音響側には全く含まれない音であることから、周波数特性の推定を誤る原因となる。
音量変化補正部302は、音量の時間変化の推定と平滑化とを行う。この音量の時間変化の推定に際しては、c(ω,t)のt方向の形状を補正することにより、ミキサーのボリュームフェーダー操作のように、既知音響信号除去後の音量変化を調整することができる。
詳述すると、時間方向の音量推定において、時刻によって混合音側があらゆる周波数領域を含むような場合、実際より既知音響が大きいと推定をする傾向がある。この場合に単純に引いてしまうと、本来消すべきではない音まで引いてしまい、聴感上は「痩せた」音になる惧れがある。
本実施形態において音量変化補正部302は、混合音全時間域にわたって、既知音響の音量の時間変化を検出する。混合音には、既知音響以外に音声等の音が含まれているため、混合音と周波数特性で補正した既知音響の周波数チャンネルを1オクターブ毎(周波数で2倍毎)にまとめて合計する。同じ時刻毎に比較し、既知音響に対して混合音の大きさの比率が一番小さなものを選択する。これにより、オクターブ毎に比べた場合、どれか一つの区間では既知音響のみになっている可能性を反映させることができる。これをその時刻での既知音響と混合音の音量比とする。
なお、本実施形態では、グラフ表示により、ユーザーが、音量が明らかに大きくなることを識別し、手作業で補正して対処する。なお、この推定においては、ロバスト統計的手法など自動的に判断する方法を採用してもよい。
また、音量変化補正部302は、時間変化の推定でも平滑化を行い、時間前後の既知音響の音量の平均値をとってなめらかにする。この値がエディタ400中のスライダ「SmoothingTimeWeight」として実装されているで、この値を大きくすることによりなめらかにすることができる。
また、本実施形態では、別の平滑化の機構(Blur_time_mode)が、「BATAM」ボタンで実装している。音がない時間に推定ができず、隣接する時間に比べて極端に落ち込んでいる場合に、隣接した時刻と同じ値に持ち上げることで、こうした予測不能の場合を回避する。
なお、既知音響の音がない時刻には、音量をゼロと推定してしまうことから、これを防ぐためにエディタ400中のスライダ「ShiftTimeWeight」を実装している。
さらに、混合音と消去後の音の音量の調整について、特定の音声ファイルの一部のみを消去した場合には、それぞれの音量を同一に維持する必要がある。このため、本実施形態では、一定振幅の単音(480Hz)を合成して混合音として入力し、既知音響の引く量をゼロとして除去処理を行い、出力される音量の違いを計測し、その値が一致するように設定する。
時間位置補正部303は、混合音響の開始点と、既知音響の開始点の時間的な位置ずれを推定するものであり、上述した関数r(t)の定数を設定することで、一定のずれ幅を補正する。詳述すると、指定した混合音と既知音響が時間的に位置ずれしている場合に、既知音響を混合音に対して、1ミリ秒毎に前後に最大100ミリ秒ずらして、上記各補正部301及び302による処理を繰り返す。指定区間における混合音響と既知音響との音量の差を求めて、この差が最小となる時刻に最も一致していると判断し、この混合音と既知音響の時間的な位置ずれとする。
なお、本システムでは、上記手順を実行して自動推定することも、あらかじめ決めた時間のずれを、ユーザーが指定して、自動推定しないことを選択することができる。また、ユーザーの耳での混合音と既知音響とを左右別々のスピーカーから出力し、これらの音声を比較しながら聴き、ユーザーの聴覚により位置合わせをするようにしてもよい。
さらに、音響除去エンジンプログラム100は、振幅スペクトル抽出部200によって抽出された混合音響振幅スペクトルから既知音響振幅スペクトルを除去する除去処理部104と、逆フーリエ変換して、除去後の音響を復元する逆フーリエ変換部105及び配置処理部106を備えている。
除去処理部104は、既知音響をパラメータ推定部300で生成した推定データに応じて変換し、この変換した信号を混合音響の「時間周波数データ」から、消去する。なお、この消去にあたって本実施形態では、シミュレーション部14による「位相非依存減算アルゴリズム」も実装している。すなわち、本実施形態では、上述した「位相非依存減算関数」によって、0度から360度まで位相が一様に確率分布しているとして、シミュレーションを行い、このシミュレーション結果に一致させるように消去強度を自動設定する。
前記逆フーリエ変換部105は、差し引き計算によって得られた「時間周波数データ」と、混合音響信号中の位相データとから、既知音響を消した音声のみのデータを逆フーリエ変換により復元する。具体的に、逆フーリエ変換部105では、音響除去エンジンプログラム100で求めた振幅スペクトルS(ω,t)と、混合音m(t)の位相θm(ω,t) を用いてXs(ω,t)を求め、それを逆フーリエ変換(IFFT)することで、単位波形を得る。
なお、ここでは、各時刻での差し引き後の周波数チャンネルデータを逆フーリエ変換するが、このときの各チャンネルの音声の位相は、消去する前の既知音響又は混合音響の位相と同じ値を取るようにする。この操作によって、消去前の音声の位相が維持でき、また区間毎に「ブチブチ」というノイズが発生するのを防ぐことができる。なお、IFFTの高速化については時間周波数データを作成する場合と同じ手法を用いている。
配置処理部106は、ハニング窓の幅である170ミリセカンドの幅をもつ各時刻の音声について、同じ幅の窓の出力をOverlapAdd法で重ね合わせて、最終的に音楽が消去された音声を復元する。
[音響除去エンジンの動作]
上述した構成を有する音響除去エンジンプログラム100は、以下のように動作する。図6(a)は、かかる動作を示すフロー図である。
同図に示すように、既知音響(オリジナル曲)と混合音響のデータが入力されると(ステップS301)、先ず、データ分割部201により、混合音響信号を、特定の長さ(窓サイズ)の区間に分割する。ここでは、2のべき乗である8192サンプル(8192÷48,000=0.170約170ミリ秒)とする。
次いで、ステップS302により、時間周波数データの取得を行う。具体的には、窓関数処理部202により、窓サイズ区間(170m秒)の音声信号データに対し、ハニング関数を掛け(S302a)、フーリエ変換部203により、高速フーリエ変換(FFT)を行う(S302b)。そして、フーリエ変換する区間を480サンプル(480÷48,000=0.01:10ミリ秒)単位で移動し(S302c)、これらのステップS302a〜cをループ処理により繰り返す。
このようにして10ミリセカンド毎に得られた「時間周波数データ」に対して各種パラメータの推定を行う。具体的には、パラメータ推定部300において、ユーザー操作に基づいて、混合音の中で、音楽(BGM)のみが鳴っている1秒から数秒の区間(上述した「BGM区間」)を選択してキャリブレーション(S304)を行う。オリジナル曲に対してもほぼ同じ部分を選択する。
次に、この区間内で周波数チャンネル毎に合計して、混合音と除去音(オリジナル曲)から得られる値を比較し、その比から周波数特性を取得する(S305)とともに、平滑化を行う(S306)。
その後、混合音全時間域にわたって、BGMの音量の時間変化を検出し、周波数毎の混合音に対するBGMの音量比を取得し(S307)、これに基づいて、混合音中のBGMと、オリジナル曲が時間的に位置ずれしているかを判断する(S309)。
上記ステップS01で指定した混合音中のBGMとオリジナル曲が時間的に位置ずれしている場合は、オリジナル曲を混合音に対して、1ミリ秒毎に前後に最大100ミリ秒ずらして(S310)、ステップS305〜ステップS308までの処理を繰り返す。この区間での音量の差を求めて、この差が最小となる時刻に最も一致していると考えられるので、それが混合音中のBGMとオリジナル曲の時間的な位置ずれとなる。
位置ずれが補正された後、除去処理部104では、混合音響から推定した既知音響の差し引き演算を行い(S311)、フーリエ変換部203において、各時刻での差し引き後の周波数チャンネルデータを逆フーリエ変換する(S312)。このときの各チャンネルの音声の位相は、消去する前の混合音響中のBGMの位相と同じ値を取るようにする。そして、逆フーリエ変換された各窓サイズのデータを、配置処理部において、OverlapAdd法により重ね合わせて(S313)、最終的に音楽が消去された音声を復元し、データの出力を行う(S314)。
[エディタ]
(エディタの構成)
次いで、既知音響除去システムのGUIであるエディタ400について説明する。図7は、エディタ400の画面構成を示す説明図である。
同図に示すように、エディタ400は、MIXファイルの波形表示をするウインドウ401、BGMファイルの波形表示をするウインドウ402と、MIXファイルのスペクトル表示をするウインドウ403と、BGMファイルのスペクトル表示をするウインドウ404と、消去後音声と周波数-時間特性のスペクトル表示をするウインドウ405と、消去強度等を表示・操作するウインドウ406とを備えている。これらの各ウインドウは、除去処理の対象となる混合音響信号の範囲を設定する範囲設定部として、機能する。
ウインドウ401及びウインドウ402では、ミックスファイル及びBGMファイルの波形が表示され、マウスの右ボタンを押しながら上下に移動することにより、拡大・縮小(下・上)でき、右ボタンを押しながら左右に移動することにより左右にスクロールさせることができる。さらに、このウインドウ上で、左ボタンを押しながら左右に移動することにより区間を選択することができ、選択された区間は色が変わり、選択時間の最初と最後の時間が表示される。なお、これらの操作は、キーボードの方向キーによっても可能となっている。
また、右端の操作ボタン401a又は402aを操作することにより、時間軸方向のスクロール、選択区間の再生・再生停止、選択区間のスペクトル表示を実行することができる。
ウインドウ403及び404では、上記ウインドウ401又は402で選択された区間における、MIXファイルやBGMファイルのスペクトル表示がなされ、上記ウインドウ401と402とほぼ同様の操作を行うことができる。なお、ここでのスペクトル表示において、スペクトルは、その強さを16段階の色で表示され、横軸は時間、縦軸は周波数を示す。
特に、ウインドウ403では、キャリブレーション処理における周波数分布の推定の際、このウインドウ上で、BGMだけが聞こえる区間を選択し、「SR」ボタンを押すことにより、選択された区間の開始位置及び終了位置が、テキストボックス部407bのCalibrationStartTime(BGMのみ区間スタート位置)、CalibrationEndTime(BGMのみ区間終了位置)の欄に入力される。なお、このテキストボックス部407bへの入力としては、数値の直接入力がある。
ウインドウ405は、音響信号の時間毎の周波数分布(周波数特性や振幅)を線又は図形で表示するとともに、周波数の信号強度(音量)を、線又は図形を段階的に色分けすることによりサーモグラフ形式で表示する表示部であり、ラジオボタン部407eをチェックすることによって、図10に示すような、消去後のスペクトル表示と周波数-時間特性のスペクトル表示とを切り替える。図10(a)は、消去後のスペクトル表示であり、同図(b)は、時間-周波数特性を正規化したスペクトル表示である。このウインドウ405においても、上述したウインドウ401〜404と同様のマウスやキーボード操作を行うことができる。
ウインドウ406では、ラジオボタン部407dをチェックすることによって、図9に示すような、消去強度曲線(同図(a))、周波数特性曲線(同図(b))、時間特性曲線(同図(c))及び時間−周波数特性(同図(d))を切り替えて表示する。このウインドウ406は、曲線を変形させることにより、対応する時間において除去される既知音響振幅スペクトルの信号強度などを設定する設定部として機能し、左ボタンを押しながら右方向に移動することで、曲線を変形することができ、関数曲線を細かく且つ任意に調整することができる。なお、マウスを左方向に移動しても変更できないようになっている。
なお、これらの各ウインドウには、時間軸としてタイムコードが記述されており、このタイムコードでは、混合音響信号から検出された所定周波数(ここでは、カラーバーの1kHz)の音響信号終了時刻から15秒後を0となるように自動調整されている。
また、エディタ400は、その下部に、ファイルの表示をしたり、各種パラメータを設定したりする左右2つの操作パネル407及び408を備えている。
左側の操作パネル407は、MIXファイルを表示するウインドウ407aと、パラメータの設定をするテキストボックス部407bと、チェックボックス部407cと、ラジオボタン部407d,407eと、消去実行用のボタン407dとが設けられている。一方、右側の操作パネル408は、BGMファイルを表示するウインドウ408aと、パラメータの設定をするスライダ部408bとを備えている。
ウインドウ407a及び408aでは、MIXファイルやBGMファイルをここにドラッグすることによってウインドウ401や402に、MIXファイル又はBGMファイルの波形が表示され、ドラッグされたファイルが動画ファイルであればこのウインドウ内に映像が表示される。これらのウインドウ407a及び408aの下方には、スライドバーが配置され、これをスライドさせることによってMIXファイルの再生開始位置を変えることができる。本実施形態において波形表示される区間は再生開始位置から5分に設定されている。さらにこのスライドバーの下方には、再生ボタン、再生一時停止ボタン、再生停止ボタン、音量調整バー、再生開始位置を数値入力するテキストボックスが配置されている。
テキストボックス部407bは、図8(a)に示すように、消去するBGMの消去強度の入力欄である「EraseRatio」と、周波数分布の推定のためにMIXファイルのBGMのみ区間の開始位置及び終了位置を入力する欄である「Calibration Start Time」、「Calibration Start Time」と、MIXファイルとBGMファイルの選択区間の開始位置のずれを入力する欄である「Offset Between Target and BGM」とを備えている。「EraseRatio」では、基本の値は1であり、0.1〜5までを設定することができる。また、「Offset Between Target and BGM」では、−1を設定すると、自動位置合わせを計算するモードとなる。
チェックボックス部407cでは、図8(b)に示すように、周波数分布の推定精度を向上させるために、ユーザーが指定した区間に加えて、他のBGMだけの部分を探して自動的に探し出してデータに加える再推定モード「PEM」と、推定を誤って小さな値となった周波数チャンネルについて、隣接するチャンネルの値から推定して補正する周波数ぼかしモード「BAFAM」と、推定を誤って小さな値となった時刻について、前後の時刻の値から推定して補正する時間軸ぼかしモード「BATAM」とを選択できるようになっている。
ラジオボタン部407dでは、図8(c)に示すように、択一的にチェックを入れることにより、図9(a)〜(d)に示すような、ウインドウ406におけるEraseRatio(強度曲線)、FreqWeight(周波数特性曲線)、TimeWeight(時間特性曲線)、BGMWeight(時間-周波数特性曲線)の表示を切り替えることができる。なお、このラジオボタン部407dにおいて、「e」をチェックすると強度曲線が、「f」をチェックすると周波数特性曲線が、「t」をチェックすると時間特性曲線が、「BGM」をチェックすると時間-周波数特性曲線が、ウインドウ406に表示され、これらの各表示上において、パラメータの再設定することができる。
ラジオボタン部407eでは、図8(d)に示すように、択一的にチェックを入れることにより、図10(a)及び(b)に示すような、ウインドウ405における、消去後のスペクトルと時間-周波数特性のスペクトルとの表示を切り替えることができる。すなわち、このラジオボタン部407eにおいて、「Res」をチェックすると消去後のデータのスペクトルが、「BGM」をチェックすると時間-周波数特性のスペクトルが、ウインドウ405に表示される。
スライダ部408bでは、バーを左右にスライドさせることによって、「Shift Freq Weight」で周波数特性曲線のバイアス量を、「Shift Time Weight」で時間特性曲線のバイアス量を、「Shift Global Weight」で時間-周波数特性のバイアス量を、「Smoothing Time Weight」で周波数方向のスムージング幅を変更することができる。なお、本実施形態では、これらのでパラメータを変更するとTimeWeightの設定がリセットされる。
ボタン部407fでは、「DEL_Music」ボタンをクリックすることにより、音楽消去処理を実行し、「RDEL_Music」ボタンをクリックすることにより、音楽の消去後、再調整された特性での音楽消去処理処理を実行する。
(エディタの変更例)
上述したGUIであるエディタ400は、以下のような形態とすることができる。図11は、エディタ400の変更例を示す構成図である。
この変更例に係るエディタも、上述したエディタ400と同様に、音響除去エンジンプログラム100の一部機能を、ユーザーの操作によって呼び出して、上記数5及び数6のすべてのパラメータ関数a(t),g(ω,t)(gω(ω,t),gt(t),gr(t)),p(ω) ,q(ω) ,r(t) ,c(ω,t)の形状を、ユーザーが手作業で設定することができる。エディタのユーザーは、最初から任意の関数形状を描いて指定してもよいし、最初は先ず自動推定をして、その結果を修正してもよい。
本エディタは、大別して、混合音響信号m(t) 操作用のサブウインドウW1、既知音響信号b’(t)操作用のサブウインドウW2、既知音響信号除去後の所望の音響信号s(t)操作用のサブウインドウW3の三つで構成されている。既知音響信号b’(t)が複数ある場合には、切り替えスイッチW2Sにより、サブウインドウW2で操作する既知音響信号b’(t)を切り替えることができる。
先ず、全サブウインドウに共通の機能を述べる。操作範囲スライダP1は、音響信号中のどこを現在表示しているかを表す。カーソルP2は、現在の操作対象の時間軸上の位置を表すアイコン化(折り畳み)ボタンP3は、これを押すと一時的にそのボタンの属するサブウインドウが折り畳まれ、小さくなる現在操作対象以外の未使用のサブウインドウを隠して、狭い画面を有効活用できる。フロート化(拡大)ボタンP4は、これを押すと一時的にそのボタンの属するサブウインドウが、親ウインドウから切り離され(フロート化)、さらに拡大されて操作・編集が容易になる、フロート化(拡大)ボタンP4しか描かれていない場合には、このボタンを押すと、それに関連づけられたサブウインドウがフロート化されて出現する。再生制御パネルP5には、人間が聞いて確認するために、音響信号の再生、停止、早送り、早戻しが可能なボタン群が並んでいる。
サブウインドウW1、W2、W3には、混合音響信号m(t)のパワーのグラフE1とその振幅スペクトルM(ω,t)のグラフE2、既知音響信号b’(t)のパワーのグラフE3とその振幅スペクトルB’(ω,t)のグラフE4、既知音響信号除去後の音響信号s(t)のパワーのグラフE5とその振幅スペクトルS(ω,t)のグラフE6が表示されている。各振幅スペクトルでは、左側に濃淡で振幅が描かれ(横軸が時間軸、縦軸が周波数軸)、右側にカーソル位置での振幅が描かれている(横軸がパワー、縦軸が周波数軸)。
既知音響信号b’(t)操作用のサブウインドウW2が操作の中心となるウインドウであり、数5及び数6のすべてのパラメータ関数a(t),g(ω,t)(gω(ω,t),gt(t),gr(t)),p(ω) ,q(t) ,r(t)の形状を、自由に設定できる。以下、各操作パネルの説明を述べる。
1.周波数特性の時間変化の補正用操作パネルC1(E7の右側)
gω(ω,t)を表示・操作するためのパネルで、カーソル位置の時刻tでのgω(ω,t)が描かれている(横軸が大きさ、縦軸が周波数軸)。設定操作結果は、g(ω,t)の表示パネルE7に即座に反映される。E7には、濃淡でg(ω,t)の値の大きさが描かれている(横軸が時間軸、縦軸が周波数軸)。
2.音量の時間変化の補正用操作パネルC2(E7の下側)
gt(t)を表示・操作するためのパネルで、設定操作結果は、g(ω,t)の表示パネルE7に即座に反映される。
3.g(ω,t)の値を全体的に持ち上げるための操作パネルC3(E7の下側)
gr(t)を表示・操作するためのパネルで、設定操作結果は、g(ω,t)の表示パネルE7に即座に反映される。
4.混合音の振幅スペクトルから既知音響信号の振幅スペクトルに相当する成分を減算する分量を最終的に調整するための操作パネルC4
a(t)を表示・操作するためのパネルである。
5.周波数軸方向の伸縮を補正するための操作パネルC5
p(ω)を表示・操作するためのパネルである。
6.時間軸方向の伸縮を補正するための操作パネルC6
q(t)を表示・操作するためのパネルである。
7.時間的な位置のずれを補正するための操作パネルC7
r(t)を表示・操作するためのパネルである。
既知音響信号除去後の音響信号s(t)操作用のサブウインドウW3では、数5中のパラメータ関数c(ω,t)の形状を、自由に設定できる。以下、各操作パネルの説明を述べる。
1.グラフィックイコライザ(GEQ)操作パネルC8(E8の右側)
c(ω,t)のω方向の形状を表示操作するためのパネルで、カーソル位置の時刻tでのc(ω,t)が描かれている(横軸が大きさ、縦軸が周波数軸)。設定操作結果は、c(ω,t)の表示パネルE8に即座に反映される。E8には、濃淡でc(ω,t)の値の大きさが描かれている(横軸が時間軸、縦軸が周波数軸)。
2.ボリュームフェーダー操作パネルC9(E8の下側)
c(ω,t)のt方向の形状を表示・操作するためのパネルで、設定操作結果は、c(ω,t)の表示パネルE8に即座に反映される。
本エディタでは、オーディオファイルを入出力するだけでなく、各種パラメータ関数の形状もファイルに入出力できるようにする。これにより、除去作業の中断・再開を可能にする。また、ユーザーに対して高速なレスポンスを達成するために、マルチスレッドに基づいてGUIと信号処理、音響再生を異なるスレッドとして実装し、時間のかかる信号処理等の待ち時間を隠蔽するとよい。
[プログラムを記録したコンピュータ読み取り可能な記録媒体]
なお、上述した実施形態及びその変更例に係る既知音響除去プログラムでは、ユーザー端末やWebサーバ等のコンピュータやICチップにインストールすることにより、上述した各機能を有する装置やシステムを容易に構築することができる。このプログラムは、例えば、通信回線を通じて配布することが可能であり、またスタンドアローンの計算機上で動作するパッケージアプリケーションとして譲渡することができる。
そして、このようなプログラムは、図12に示すような、汎用コンピュータ120で読み取り可能な記録媒体116〜119に記録することができる。具体的には、同図に示すような、フレキシブルディスク116やカセットテープ119等の磁気記録媒体、若しくはCD−ROMやDVD−ROM117等の光ディスクの他、RAMカード118など、種々の記録媒体に記録することができる。
そして、このプログラムを記録したコンピュータ読み取り可能な記録媒体によれば、汎用のコンピュータや専用コンピュータを用いて、上述したコンテンツ表示システムや方法を実施することが可能となるとともに、プログラムの保存、運搬及びインストールを容易に行うことができる。
[実施形態における作用・効果]
以上説明した本実施形態によれば、振幅データは位相が変化してもかわらないので、位相に依存しない処理が可能となる。従って、例えば、音声と音楽が混じった番組の音声信号から、番組作成時に使用した音楽CD等の音のデータを使って、音楽だけを消去することができる。
特に、番組音声作成時において、製作意図にあわせて周波数特性や音量が調整され、音の位相が予測不能な変化をしている場合であっても、混合音響中における音楽の変化を自動的且つ高精度に予測し、位相に依存せず消去することができる。
本実施形態では、除去処理に係る音響中の範囲設定に際し、同期制御部9により、映像と音声とを同期させてモニタ10及びスピーカー11から出力するため、音楽消去前、音楽消去後のそれぞれの音声を映像と照らし合わせて視覚的に確認しながらの操作が可能となり、作業効率を向上させることができる。
本実施形態では、時間変化グラフを表示し、その上をユーザーがマウスでドローイングする直感的な操作で修正できるため、番組の各場面や再利用方法を考慮するなどユーザーの意図に基づいて、音楽消去の効果を調節することができる。
[変更例]
なお、上述した実施形態に係るシステムには、例えば、以下のような機能を追加することができる。
(変更例1)
民放の標準フォーマットでは、音声開始位置が決められているとともに、番組内での時刻と使用曲を記述したキューシート等の情報に基づいて、作業を進める必要があり、この情報とリンクするための機能が必要である。
そこで、本変更例では、図13(a)に示すように、上記システムに自動時刻調整機能12を設ける。この自動時刻調整機能12は、図13(b)に示すように、TVのオンエア用テープからの処理を行う場合に、エディタ400等の各ウインドウにより、除去処理の対象となる混合音響信号の範囲を設定する際、範囲の設定に係る混合音響データの所定周波数(ここでは、カラーバーの1kHz)を検出部により検出し、この所定周波数の音響信号終了時刻から15秒後を、タイマーで計測し、設定部により、タイムコード上の0とするモジュールである。これにより、Qシートに記載された消去対象の音楽の時刻を入力するだけで、対象部分の映像と音声を取り出すことができる。
このような、自動時刻調整機能12によれば、TVのオンエア用テープからの処理等においては、民放の標準フォーマットのカラーバー信号からタイムコードを調整することが可能となり、Qシートに記載された消去対象の音楽の時刻を入力するだけで、対象部分の映像と音声を取り出すことができる。
(変更例2)
上述した実施形態でも説明したように、放送番組では、左右の音声からなるステレオ方式のものがある。ところが、音声の除去処理は、モノラル的に左右それぞれに対して行わなければならないことから、ステレオ放送については、多数のパラメータの設定を要する除去処理の作業が2倍となるという問題がある。
そこで、本変更例では、図14(a)に示すように、上記システムに、パラメータ記憶部13を設ける。このパラメータ記憶部13は、図14(b)に示すように、例えば、1回目の作業で、ステレオ放送の左音声(L)について作業した場合などには、この左音声に対する各種パラメータ設定データを記憶する。すなわち、音声データ抽出部3で分離抽出された左音声について、ユーザーインターフェース6により、各種パラメータを設定した場合、この左音声に対する設定データをパラメータ記憶部13に記憶しておき、これを次回の右音声に対する除去処理の際に呼び出し、ユーザーインターフェース6におけるデフォルト値として設定する。
このパラメータ記憶部13によれば、左右の音声データを含むコンテンツデータに対する処理に際しては、左右一方の音声に対する設定を記憶保持しておき、他方の音声に対する作業を行うときに、記憶保持しておいた設定を利用することができるため、作業効率の向上を図ることができる。
(変更例3)
既知の音源と、混合音内におけるBGMの時間的な位置ずれがあり、混合音とBGMの時刻を正確にあわせることが困難である。
そこで、本変更例では、図15に示すように、上記システムに、範囲設定部15を設ける。この範囲設定部15は、混合音響中におけるBGMと、除去しようとする既知音響の、時間的位置のずれを設定するに際し、段階的に範囲を絞り込む処理を行う。この範囲設定部15は、ユーザーインターフェース6と連動しており、時間的位置ずれを自動推定する場合に動作する。これにより、範囲設定に際し、初め広めの範囲での位置合わせを行い、順次範囲をクローズアップしていくことにより、微調整が可能となる。
また、この範囲設定部15は、メロディーを検出機能を備えており、これにより、周波数の分布を推定することができる。すなわち、この範囲設定部15は、既知音響信号が音楽にかかる信号である場合に、音楽に含まれる旋律に応じた周波数分布を、混合音響信号から検出し、検出された信号開始位置に基づいて、相対時間位置を設定する。このような範囲設定部15によれば、除去する既知音響が音楽等であるときには、そのメロディーを検出することにより、相対位置決めをより容易なものとすることができる。
さらに、本変更例では、出力I/F8にヘッドホン16を接続する。このヘッドホン16は、左のスピーカー16aから既知音響であるBGM音源を出力し、左のスピーカー16bから混合音響であるMIX音源を出力する。これにより、ユーザーの耳で、これらの音声を比較しながら聴き、ユーザーの聴覚により位置あわせをする。
このようなヘッドホン16によれば、混合音響と既知音響を、例えばヘッドホンの左右のスピーカーから出力することによって、ユーザーが聴覚を用いて時間的なずれを判断することができ、作業の効率を向上させることができる。
(変更例4)
既知音響の消去においては、混合音響中における既知音響の特性を検出するキャリブレーションを行う必要があるが、混合音響中における既知音響は、番組作成時において強調されたり減衰されたりしており、刻々とその特性が変化している。そのため、前記キャリブレーションの際に、一箇所のみのサンプルを取得しても、適正に除去処理を行うことができないおそれがある。また、既知音響が音楽などである場合には、レコード等の回転数の違いにより、部分的に、時間軸あるいは周波数軸方向に伸縮されることがあり、この場合にも、一箇所のみのキャリブレーションでは、適正なサンプルが取得できない。
そこで、本変更例では、図16(a)に示すように、上記システムにキャリブレーション設定部17を設ける。このキャリブレーション設定部17は、図16(b)に示すように、上述した除去エンジンプログラム100におけるキャリブレーション用のサンプルを、ユーザーが任意に選択した複数の箇所から取得するためのモジュールである。このキャリブレーション設定部17により取得された複数のサンプルは、上述した既知音響の推定にも用いられ、このサンプルを用いて既知音響を時間軸あるいは周波数軸方向に伸縮して補正し、混合音から既知音響信号を減算する。
このようなキャリブレーション設定部17によれば、混合音響中の複数箇所からキャリブレーション用のサンプルを取得するため、取得した複数の箇所から得られるデータの中から、その平均、標準偏差、代表値等を算出することによりより精度の高い除去処理を行うことができる。
(変更例5)
放送番組の音声作成時には、製作意図にあわせて周波数特性や音量を調整する場合が多い。このため、音の位相が予測不能な変化を生じ、単に電子的な減算処理を行ったのみでは、適切に消去することはできない。
そこで、本変更例では、図17(a)に示すように、入力I/F1に集音マイク19が接続可能となっており、また、DVキャプチャー2には、ビデオカメラ20が接続可能となっている。集音マイク19は、指向性を有し、除去しようとする既知音響信号を取得する第1の集音装置であり、ビデオカメラ20は、混合音響信号を取得する第2の集音装置である。集音マイク19は、ビデオカメラ20とは切離して携帯できるようになっており、ビデオカメラ20の撮影中に、消去したいノイズの音源付近に設定し、そのノイズのみを録音する。
なお、上述した集音マイク19とビデオカメラ20は、同図(b)の21に示すように、一体構造としてもよい。この場合には、混合音響信号を取得する第2の集音装置21aを一体型マイク21の先端に配置し、既知音響信号を取得する第1の集音装置21bを、一体型マイク21の後方に配置する。集音装置21aと、21bは離隔して配置されており、集音装置21aは、通常撮影用として装置前方に指向性を有し、集音装置21bは、前方以外の指向性を有するように構成する。
このような本変更例によれば、例えば、集音装置21aで録音した音声と雑音が混じった音声信号から、集音装置21bで録音した雑音等の音のデータを使って、雑音だけを的確に消去することができる。
実施形態に係る既知音響除去システムの構成を示すブロック図である。 実施形態に係る既知音響除去システムの動作を示すフロー図である。 実施形態に係る既知音響除去方法の基本理論を示すフロー図である。 実施形態に係る既知音響除去方法による効果を示す説明図である。 実施形態に係る音響除去エンジンプログラムの機能ブロック図である。 実施形態に係る音響除去エンジンプログラムの動作を示すフロー図である。 実施形態に係るエディタの構成を示す説明図である。 実施形態に係るエディタの操作パネルを示す説明図である。 実施形態に係るエディタのウインドウを示す説明図である。 実施形態に係るエディタのウインドウを示す説明図である。 変更例に係るエディタの構成を示す説明図である。 実施形態に係るプログラムを記録したコンピュータ読み取り可能な記録媒体を示す斜視図である。 変更例1に係る既知音響除去システムの構成及び動作を示す説明図である。 変更例2に係る既知音響除去システムの構成及び動作を示す説明図である。 変更例3に係る既知音響除去システムの構成及び動作を示す説明図である。 変更例4に係る既知音響除去システムの構成及び動作を示す説明図である。 変更例5に係る既知音響除去システムの構成及び動作を示す説明図である。
符号の説明
1…入力I/F、2…DVキャプチャー、3…音声データ抽出部、4…音声変換部、5…記憶装置、6…ユーザーインターフェース、6a…キーボード、6b…マウス、7…メモリ、8…出力I/F、9…同期制御部、10…モニタ、11…スピーカー、12…時刻調整部、13…パラメータ記憶部、14…シミュレーション部、15…範囲設定部、16…ヘッドホン、17…キャリブレーション設定部、18…定常音検出部、19…集音マイク、20…ビデオカメラ、21…一体型マイク、100…音響除去エンジンプログラム、101…混合音響入力部、102…既知音響信号入力部、103…制御部、104…除去処理部、105…逆フーリエ変換部、106…配置処理部、107…除去後音響信号出力部、116〜119…記録媒体、120…汎用コンピュータ、200…振幅スペクトル抽出部、201…データ分割部、202…窓関数処理部、203…フーリエ変換部、300…パラメータ推定部、301…周波数特性変化補正部、302…音量変化補正部、303…時間位置補正部、304…キャリブレーション部、400…エディタ

Claims (15)

  1. 除去しようとする既知音響信号と他の音響信号とが混合してなる混合音響信号中の、定常音を検出する定常音検出部と、
    前記既知音響信号から既知音響振幅スペクトルを抽出する既知音響振幅抽出部と、
    前記混合音響信号から周波数毎の混合音響振幅スペクトルを抽出する混合音響振幅抽出部と、
    抽出された前記混合音響振幅スペクトルのうち、前記定常音の周波数と一致しない周波数の混合音響振幅スペクトルを選択する周波数選択部と、
    選択された周波数の混合音響振幅スペクトルから前記既知音響振幅スペクトルを除去する除去処理部と、
    を備えることを特徴とする音響信号除去装置。
  2. 前記定常音検出部は、前記混合音響信号中における、最小の振幅となる周波数を定常音として検出することを特徴とする請求項1に記載の音響信号除去装置。
  3. 前記定常音検出部は、前記混合音響信号中における、時間毎の振幅を取得し、その値順にソートし、n番目の値となる周波数を定常音として検出することを特徴とする請求項1に記載の音響信号除去装置。
  4. 前記定常音検出部は、前記混合音響信号中における、時間毎の振幅を取得し、その値順にソートし、n番目までの標準偏差から一定値を超えないnの最大値を求め、このn番目の値となる周波数を定常音として検出することを特徴とする請求項1に記載の音響信号除去装置。
  5. 除去しようとする既知音響信号と他の音響信号とが混合してなる混合音響信号から既知音響信号を除去する音響信号除去装置であって、
    前記混合音響としての一定振幅の音響信号に対し、前記既知音響信号を0として疑似減算処理を行い、前記一定振幅の音響信号と前記疑似減算処理後の音響信号との音量の差を計測するシミュレーション部と、
    前記シミュレーション部による計測結果に基づいて、前記既知音響信号の時間毎の信号強度を設定する除去強度設定部と、
    前記既知音響信号から既知音響振幅スペクトルを抽出する既知音響振幅抽出部と、
    前記混合音響信号から混合音響振幅スペクトルを抽出する混合音響振幅抽出部と、
    前記除去強度設定部による設定に基づいて、前記既知音響振幅スペクトルを変換し、前記混合音響振幅スペクトルから前記既知音響振幅スペクトルを除去する除去処理部と、
    を備えることを特徴とする音響信号除去装置。
  6. 除去しようとする既知音響信号と他の音響信号とが混合してなる混合音響信号中の、定常音を検出するステップと、
    前記既知音響信号から既知音響振幅スペクトルを抽出するとともに、前記混合音響信号から周波数毎の混合音響振幅スペクトルを抽出するステップと、
    抽出された前記混合音響振幅スペクトルのうち、前記定常音の周波数と一致しない周波数の混合音響振幅スペクトルを選択するステップと、
    選択された周波数の混合音響振幅スペクトルから前記既知音響振幅スペクトルを除去するステップと、
    を備えることを特徴とする音響信号除去方法。
  7. 前記混合音響信号中における、最小の振幅となる周波数を定常音として検出することを特徴とする請求項6に記載の音響信号除去方法。
  8. 前記混合音響信号中における、時間毎の振幅を取得し、その値順にソートし、n番目の値となる周波数を定常音として検出することを特徴とする請求項6に記載の音響信号除去方法。
  9. 前記混合音響信号中における、時間毎の振幅を取得し、その値順にソートし、n番目までの標準偏差から一定値を超えないnの最大値を求め、このn番目の値となる周波数を定常音として検出することを特徴とする請求項6に記載の音響信号除去方法。
  10. 除去しようとする既知音響信号と他の音響信号とが混合してなる混合音響信号から既知音響信号を除去する音響信号除去方法であって、
    前記混合音響としての一定振幅の音響信号に対し、前記既知音響信号を0として疑似減算処理を行い、前記一定振幅の音響信号と前記疑似減算処理後の音響信号との音量の差を計測するステップと、
    前記計測結果に基づいて、前記既知音響信号の時間毎の信号強度を設定するステップと、
    前記既知音響信号から既知音響振幅スペクトルを抽出するとともに、前記混合音響信号から混合音響振幅スペクトルを抽出するステップと、
    前記設定に基づいて、前記既知音響振幅スペクトルを変換し、前記混合音響振幅スペクトルから前記既知音響振幅スペクトルを除去するステップと、
    を備えることを特徴とする音響信号除去方法。
  11. コンピュータに、
    除去しようとする既知音響信号と他の音響信号とが混合してなる混合音響信号中の、定常音を検出するステップと、
    前記既知音響信号から既知音響振幅スペクトルを抽出するとともに、前記混合音響信号から周波数毎の混合音響振幅スペクトルを抽出するステップと、
    抽出された前記混合音響振幅スペクトルのうち、前記定常音の周波数と一致しない周波数の混合音響振幅スペクトルを選択するステップと、
    選択された周波数の混合音響振幅スペクトルから前記既知音響振幅スペクトルを除去するステップと、
    を有する処理を実行させることを特徴とする音響信号除去プログラム。
  12. 前記混合音響信号中における、最小の振幅となる周波数を定常音として検出することを特徴とする請求項11に記載の音響信号除去プログラム。
  13. 前記混合音響信号中における、時間毎の振幅を取得し、その値順にソートし、n番目の値となる周波数を定常音として検出することを特徴とする請求項11に記載の音響信号除去プログラム。
  14. 前記混合音響信号中における、時間毎の振幅を取得し、その値順にソートし、n番目までの標準偏差から一定値を超えないnの最大値を求め、このn番目の値となる周波数を定常音として検出することを特徴とする請求項11に記載の音響信号除去プログラム。
  15. 除去しようとする既知音響信号と他の音響信号とが混合してなる混合音響信号から既知音響信号を除去する音響信号除去プログラムであって、
    コンピュータに、
    前記混合音響としての一定振幅の音響信号に対し、前記既知音響信号を0として疑似減算処理を行い、前記一定振幅の音響信号と前記疑似減算処理後の音響信号との音量の差を計測するステップと、
    前記計測結果に基づいて、前記既知音響信号の時間毎の信号強度を設定するステップと、
    前記既知音響信号から既知音響振幅スペクトルを抽出するとともに、前記混合音響信号から混合音響振幅スペクトルを抽出するステップと、
    前記設定に基づいて、前記既知音響振幅スペクトルを変換し、前記混合音響振幅スペクトルから前記既知音響振幅スペクトルを除去するステップと、
    を備える処理を実行させることを特徴とする音響信号除去プログラム。
JP2003410959A 2003-12-09 2003-12-09 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム Expired - Lifetime JP4274419B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003410959A JP4274419B2 (ja) 2003-12-09 2003-12-09 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム
PCT/JP2004/013165 WO2005057551A1 (ja) 2003-12-09 2004-09-09 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003410959A JP4274419B2 (ja) 2003-12-09 2003-12-09 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム

Publications (2)

Publication Number Publication Date
JP2005173055A true JP2005173055A (ja) 2005-06-30
JP4274419B2 JP4274419B2 (ja) 2009-06-10

Family

ID=34674962

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003410959A Expired - Lifetime JP4274419B2 (ja) 2003-12-09 2003-12-09 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム

Country Status (2)

Country Link
JP (1) JP4274419B2 (ja)
WO (1) WO2005057551A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008018146A1 (en) * 2006-08-10 2008-02-14 Bicera Co., Ltd. Audibility adapting device and audibility adapting method
JP2009017334A (ja) * 2007-07-06 2009-01-22 Yamaha Corp 音響設定支援装置
JP2011097139A (ja) * 2009-10-27 2011-05-12 Nikon Corp 撮像装置
JP2011253126A (ja) * 2010-06-03 2011-12-15 Canon Inc 音声信号処理装置、及びその制御方法
JP2014068292A (ja) * 2012-09-27 2014-04-17 D & M Holdings Inc ミキシング装置
US8908881B2 (en) 2010-09-30 2014-12-09 Roland Corporation Sound signal processing device

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106601264B (zh) * 2016-11-30 2020-08-07 广州广哈通信股份有限公司 一种语音会议混音系统及方法
CN110503975B (zh) * 2019-08-02 2022-02-01 广州长嘉电子有限公司 基于多麦克风降噪的智能电视语音增强控制方法及系统
CN111883151B (zh) * 2020-07-30 2024-08-30 云知声智能科技股份有限公司 音频信号的处理方法、装置、设备和存储介质
JP2022075147A (ja) * 2020-11-06 2022-05-18 ヤマハ株式会社 音響処理システム、音響処理方法およびプログラム
CN116597829B (zh) * 2023-07-18 2023-09-08 西兴(青岛)技术服务有限公司 一种提高语音识别精度的降噪处理方法及系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57161800A (en) * 1981-03-30 1982-10-05 Toshiyuki Sakai Voice information filter
US4415767A (en) * 1981-10-19 1983-11-15 Votan Method and apparatus for speech recognition and reproduction
JPS59165098A (ja) * 1983-03-10 1984-09-18 三洋電機株式会社 音声スペクトルパラメ−タ抽出装置
JP3135937B2 (ja) * 1991-05-16 2001-02-19 株式会社リコー 雑音除去装置
JP3522954B2 (ja) * 1996-03-15 2004-04-26 株式会社東芝 マイクロホンアレイ入力型音声認識装置及び方法
JP3418855B2 (ja) * 1996-10-30 2003-06-23 京セラ株式会社 雑音除去装置
JP4026198B2 (ja) * 1997-06-25 2007-12-26 株式会社デンソー 音声認識装置
JPH1138997A (ja) * 1997-07-16 1999-02-12 Olympus Optical Co Ltd 雑音抑圧装置および音声の雑音除去の処理をするための処理プログラムを記録した記録媒体
JP4119112B2 (ja) * 2001-11-05 2008-07-16 本田技研工業株式会社 混合音の分離装置
JP2002314637A (ja) * 2001-04-09 2002-10-25 Denso Corp 雑音低減装置
JP3786038B2 (ja) * 2002-03-14 2006-06-14 日産自動車株式会社 入力信号処理方法および入力信号処理装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008018146A1 (en) * 2006-08-10 2008-02-14 Bicera Co., Ltd. Audibility adapting device and audibility adapting method
US8879765B2 (en) 2006-08-10 2014-11-04 Bicera Co., Ltd. Hearing optimization device and hearing optimization method
JP2009017334A (ja) * 2007-07-06 2009-01-22 Yamaha Corp 音響設定支援装置
JP2011097139A (ja) * 2009-10-27 2011-05-12 Nikon Corp 撮像装置
JP2011253126A (ja) * 2010-06-03 2011-12-15 Canon Inc 音声信号処理装置、及びその制御方法
US8908881B2 (en) 2010-09-30 2014-12-09 Roland Corporation Sound signal processing device
JP2014068292A (ja) * 2012-09-27 2014-04-17 D & M Holdings Inc ミキシング装置

Also Published As

Publication number Publication date
WO2005057551A1 (ja) 2005-06-23
JP4274419B2 (ja) 2009-06-10

Similar Documents

Publication Publication Date Title
US11363314B2 (en) Network-based processing and distribution of multimedia content of a live musical performance
US9530396B2 (en) Visually-assisted mixing of audio using a spectral analyzer
US6405163B1 (en) Process for removing voice from stereo recordings
KR20180050652A (ko) 음향 신호를 사운드 객체들로 분해하는 방법 및 시스템, 사운드 객체 및 그 사용
JP4274419B2 (ja) 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム
EP1741313B1 (en) A method and system for sound source separation
JP2018513424A (ja) ディジタルオーディオの補足
KR101008250B1 (ko) 기지 음향신호 제거방법 및 장치
US7340397B2 (en) Speech recognition optimization tool
US8660845B1 (en) Automatic separation of audio data
JP5690082B2 (ja) 音声信号処理装置、方法、プログラム、及び記録媒体
US9071215B2 (en) Audio signal processing device, method, program, and recording medium for processing audio signal to be reproduced by plurality of speakers
JP5736124B2 (ja) 音声信号処理装置、方法、プログラム、及び記録媒体
US20230186782A1 (en) Electronic device, method and computer program
CN112927713B (zh) 音频特征点的检测方法、装置和计算机存储介质
JP4274418B2 (ja) 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム
CN114631142A (zh) 电子设备、方法和计算机程序
JP2004325127A (ja) 音源検出方法、音源分離方法、およびこれらを実施する装置
US20230057082A1 (en) Electronic device, method and computer program
JP4272107B2 (ja) 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム
JP2009282536A (ja) 既知音響信号除去方法及び装置
JP2006148608A (ja) 音声信号判別装置、音質調整装置、放送受信機、プログラム、及び記録媒体
Terrell et al. Research Article Automatic Noise Gate Settings for Drum Recordings Containing Bleed from Secondary Sources

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050920

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20081127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090203

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090226

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4274419

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120313

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130313

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130313

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140313

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term