[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP7260101B2 - 情報処理装置、これを用いたミキシング装置、及びレイテンシ減少方法 - Google Patents

情報処理装置、これを用いたミキシング装置、及びレイテンシ減少方法 Download PDF

Info

Publication number
JP7260101B2
JP7260101B2 JP2020514119A JP2020514119A JP7260101B2 JP 7260101 B2 JP7260101 B2 JP 7260101B2 JP 2020514119 A JP2020514119 A JP 2020514119A JP 2020514119 A JP2020514119 A JP 2020514119A JP 7260101 B2 JP7260101 B2 JP 7260101B2
Authority
JP
Japan
Prior art keywords
time
frequency
latency
window function
input signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020514119A
Other languages
English (en)
Other versions
JPWO2019203127A1 (ja
Inventor
弘太 高橋
宰 宮本
良行 小野
洋司 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HIBINO CORPORATION
THE UNIVERSITY OF ELECTRO-COMUNICATINS
Original Assignee
HIBINO CORPORATION
THE UNIVERSITY OF ELECTRO-COMUNICATINS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HIBINO CORPORATION, THE UNIVERSITY OF ELECTRO-COMUNICATINS filed Critical HIBINO CORPORATION
Publication of JPWO2019203127A1 publication Critical patent/JPWO2019203127A1/ja
Application granted granted Critical
Publication of JP7260101B2 publication Critical patent/JP7260101B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2227/00Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
    • H04R2227/009Signal processing in [PA] systems to enhance the speech intelligibility

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、情報処理装置とこれを用いたミキシング装置、及びレイテンシ減少方法に関し、特に、周波数解析におけるレイテンシの低減技術に関する。
スマートミキサーは、入力信号を解析し、解析結果に基づいて入力信号に変更または調整を加えて、好ましいミキシング出力を得る。優先音と非優先音を時間周波数平面上で混合することにより、非優先音の音量感を保ったまま、優先音の明瞭度をあげることができる(たとえば特許文献1、及び特許文献2参照)。
図1は、従来のスマートミキサーの概略図である。優先音の入力信号x1[n]と、非優先音の入力信号x2[n]に、それぞれに窓関数をかけて短時間のFFT(Fast Fourier Transform:高速フーリエ変換)を行うことで、時間周波数平面上の信号X1[i,k]と、X2[i,k]に展開する。時間周波数平面の各点(i,k)で、優先音と非優先音のそれぞれのパワーを算出して、時間方向に平滑化する。優先音及び非優先音の平滑化パワーE1[i,k]とE2[i,k]に基づいて、時間周波数平面上に展開された優先音のゲインα1[i,k]と、非優先音のゲインα2[i,k]を導出する。この一連の解析で得られたゲインα1[i,k]とα2[i,k]を、時間周波数平面上の信号X1[i,k]とX2[i,k]にそれぞれ乗算し、乗算結果を加算して混合信号Y[i,k]を得る。混合信号Y[i,k]は、時間領域の信号に復元されて、出力される。
ゲインの導出には、「対数強度の和の原理」と、「穴埋めの原理」という2つの基本原理が用いられている。「対数強度の和の原理」とは、出力信号の対数強度を入力信号の対数強度の和を超えない範囲に制限するものである。「対数強度の和の原理」によって、優先音が強調されすぎて混合音に違和感が生じることを抑制する。「穴埋めの原理」とは、非優先音のパワーの減少を、優先音のパワー増加分を超えない範囲に制限するものである。「穴埋めの原理」によって、混合音において非優先音が抑制されすぎて違和感が生じることを抑制する。これらの原理に基づいて合理的にゲインを決定することで、より自然な混合音が出力される。
特許第5057535号 特開第2016-134706号公報
スマートミキサーで必要とされる解析を十分に行うと、ミキシング処理のレイテンシが20msを超える場合がある。これに対し、ミキシングの現場で要求されるレイテンシは20ms未満であり、5ms以下が望ましいと言われている。
例えば、コンサート会場でミュージシャンがPA(Public Address;音響拡声)装置のスピーカから音を聴き取ることを仮定する。このとき、電気音響系のシステムにおいてマイクからスピーカまでのレイテンシが大きいと、演奏に支障がでることが知られている。
このレイテンシを具体的に何ミリ秒以下に抑える必要があるかに関しては、音の知覚に関する個人差が大きく、明確な客観的基準は確立されていない。一般的に、レイテンシが20msを超えると多くの場合に違和感を感じること、15ms以下であれば違和感を感じない場合もあることが、おおよその共通の認識である。一方で、演奏者が装着するイヤモニタについては、数ms以下が求められるという説もある。
このような一般的な認識によると、スマートミキサーでの20msを超えるレイテンシは、コンサート会場やレコーディングスタジオでのミキシング基準からすると、大き過ぎる。
本発明は、周波数解析を含む情報処理系で、信号入力から出力までのレイテンシを低減することを目的とする。また、レイテンシ低減技術を適用したミキシング装置を提供することを目的とする。
本発明の第1の態様では、情報処理装置は、
入力信号に対して、第1の幅を有する窓関数を用いて時間周波数変換を行う第1の時間周波数変換部と、
前記入力信号に対して、前記第1の幅よりも狭い第2の幅を有する第2の窓関数を用いて時間周波数変換を行う第2の時間周波数変換部と、
前記第1の時間周波数変換部の出力に基づく周波数解析結果を用いて、前記第2の時間周波数変換部の出力に変更を加える変更処理部と、
を有する。
本発明の第2の態様では、情報処理装置は、
入力信号を時間周波数変換する時間周波数変換部と、
前記入力信号に変更を加えるデジタルフィルタと、
前記時間周波数変換部の出力に基づいて周波数解析を行う周波数解析部と、
前記周波数解析の結果を周波数時間変換して時間領域解析結果を出力する周波数時間変換部と、
前記時間領域解析結果を短縮化する短縮化部と、
を有し、
短縮化された前記時間領域解析結果を前記デジタルフィルタに適用して、前記入力信号を変更する。
上記の構成により、周波数解析を含む情報処理系で、レイテンシを低減することができる。レイテンシの低減により、情報解析またはミキシング処理をリアルタイムで行うことができる。
従来のスマートミキサーの概略図である。 第1実施形態のレイテンシ減少の手法と構成を示す図である。 解析用窓関数h[n]と、変更用窓関数g[n]と、入力波形の関係を示す。 変更用の窓関数として非対称な窓関数を用いる例を示す図である。 第2実施形態のレイテンシ減少の手法と構成を示す図である。 第3実施形態のレイテンシ減少の手法と構成を示す図である。 FIRフィルタ係数切り詰めによるレイテンシ減少の原理を説明する図である。 実施形態の情報処理装置の概略図である。 実施形態の情報処理装置の概略図である。
発明者らは、信号処理の各ブロックでレイテンシが発生し、最終的なレイテンシは各ブロックのレイテンシの総和になること、及び、スマートミキサーの場合は特定のブロックでのレイテンシが支配的になることを見いだした。
スマートミキサーは、優先音の入力信号x1[n]と非優先音の入力信号x2[n]に、窓関数をかけた短時間のFFTを行って、時間周波数平面上の信号Xj[i,k](j=1,2)に展開して解析する。この時間周波数平面への展開は、式(1)で表現される。
Figure 0007260101000001
時間周波数平面での解析結果に基づいて、Xj[i,k](j=1,2)を変更または調整することで、優先音の明瞭度を上げたミキシングが行われる。
式(1)におけるh[m]は窓関数である。h[m]は、|m|≧Nhにおいてゼロ(0)をとる関数であり、以下ではNhを窓関数の幅(より正確には半分の幅)と呼ぶ。なお、Ndはフレームのシフト数、NFはFFTの点数である。また、同一の処理を複数のNhで書きうる場合には、その最小値をもって窓関数の幅Nhとすることにする。
窓関数h[m]の乗算がXj[i,k]に与える影響を最小限にするために、多くの場合は、h[m]は、第一にh[0]で最大値をとり、第二にm=0を中心とした対称形(すなわちh[-m]=h[m])の関数が選ばれる。
以下では、短時間FFTを1サンプルシフト、すなわちNd=1で行うものとする。この場合、iをnで置き換えることができる。また、時間周波数平面の出力Y[i,k]を時間領域の出力に戻す際に、逆FFTの代わりに、式(2)の簡単な計算で変換することができる。
Figure 0007260101000002
スマートミキサーの処理のレイテンシについて検討する。図1のブロックのそれぞれがレイテンシを持つ。すわわち、スマートミキサーの処理では、
(a)窓関数をかけて短時間FFTを行うレイテンシ、
(b)パワー算出のレイテンシ、
(c)時間方向平滑化のレイテンシ、
(d)ゲイン算出のレイテンシ、
(e)ゲイン乗算のレイテンシ、
(f)加算のレイテンシ、及び
(g)時間領域信号に変換するときのレイテンシ、
の和が最終的なレイテンシとなる。
レイテンシの要素(a)は、式(1)の処理で生じるレイテンシである。式(1)は、xj[]の(Nh-1)サンプル未来の値を使っているため、実装上は、(Nh-1)/FS秒のレイテンシが発生する。ここで、FSはサンプリング周波数である。
レイテンシの大きさを具体的に計算してみる。音声の高調波成分を明確に分離するためには、FS=48kHzのとき、Nh(窓関数の幅)として1024程度が必要である。その結果、(Nh-1)/FS=1023/48=21.3msのレイテンシが発生する。
要素(b)~(f)のレイテンシについては、スマートミキサーをFPGA(Field Programmable Gate Array)などのロジックデバイスに実装した場合には、要素(a)のレイテンシに比べると、無視できるほどに小さい。また、要素(g)のレイテンシは、式(2)のレイテンシであり、これも要素(a)のレイテンシに比べると無視できるほど小さい。
以上から、要素(a)の窓関数をかけた短時間FFTのレイテンシが全体のレイテンシを支配しており、十分な性能を持ったスマートミキサーでは、レイテンシの大きさは21.3ms程度となる。
このように大きいレイテンシを持つスマートミキサーは、コンサートホールでのリアルタイムのミキシング処理には不向きである。そこで、レイテンシを小さくする技術が求められる。
上述のように、レイテンシは主として時間領域の信号を時間周波数領域の信号に変換する部分で生じており、レイテンシの大きさは窓関数の幅Nhが支配している。
レイテンシを下げるために窓関数の幅Nhを小さくすると、解析の周波数分解能が落ちてしまい、本来ならば周波数差があるために強調や抑制を行わなくてもよい時間周波数平面上の点(i,k)にも処理負荷がかかってしまう。
また、時間周波数平面での処理をより人間の聴覚に適合する処理とするために、線形周波数軸からBark軸に変換することが考えられるが、この場合にNhを小さくすると、Bark軸に変換したときに低い周波数部分のスペクトルを上手く表現できなくなる。Bark軸は、人間の聴覚の24の臨界帯域に対応する尺度を用いており、低い周波数帯で高い周波数分解能が求められるからである。
このような検討に基づくと、入力信号の周波数解析のためには、なるべく幅の広い(すなわちレイテンシが大きくなる)窓を使って、高い周波数分解能で解析を行うことが必要である。
一方で、時間周波数領域の入力データ(Xj[i,k])は、一連の解析処理に用いられるだけでなく、導出されたゲインマスクを乗算して出力データを構築するための材料としても用いられる。すなわち、データの変更のためにも使用される。
変更・調整を受ける時間周波数領域のデータに何が求められるのかを考える。スマートミキサーの場合、出力に人工的なノイズが乗っているように知覚されることを防止するため、最終的なゲインマスクは、周波数軸方向にも時間軸方向にも滑らかなものが作成される。周波数方向へのゲインの変化が滑らかであることから、データまたは入力信号の変更には高い周波数分解能は特に必要ではない。また、ゲインの変化は時間軸方向にも滑らかであることから、ゲインマスクを時間軸方向に若干ずらしても、ゲインマスクの効果自体にはそれほど影響しない。
ただし、システム全体のレイテンシはもっぱら、データ変更に先立つ時間周波数領域への変換で決定されており、この部分でできるだけレイテンシを小さくすることが求められる。
このように、入力信号の解析のための時間周波数変換と、データに変更を加えるための時間周波数変換とでは、求められる仕様が異なる。
この知見に基づき、本発明では、信号解析と信号変更で異なる処理を適用する。以下で具体的な手法を説明する。
<第1実施形態>
図2は、第1実施形態のレイテンシ減少の手法と構成を示す図である。図2のレイテンシの低減を含む信号処理の技術は、たとえば、優先音と非優先音を混合するミキシング装置1Aに適用することができる。
第1実施形態では、信号解析のための時間周波数変換部と、信号変更のための時間周波数変換部を別々に設け、それぞれに異なるレイテンシの窓関数を適用する。ある時刻に対応する信号解析の結果を、それより未来の信号変換に用いることで、高分解能の周波数解析と、低レイテンシの信号変換を両立させる。
図2において、優先音の入力信号x1[n]と非優先音の入力信号x2[n]のそれぞれに対して、解析用のウィンドウと変更用のウィンドウを別々に設け、異なるレイテンシを設定する。
優先音の入力信号x1[i,k]を時間周波数領域の信号に変換するために、変更用のFFT11aと、解析用のFFT12aを設ける。入力信号x1[n]は、変更用のFFT11aによって時間周波数平面上の信号入力信号Z1[i,k]に変換され、ゲイン乗算のために乗算器16aに入力される。入力信号x1[n]はまた、解析用のFFT12aによって時間周波数平面上の信号X1[i,k]に変換される。信号X1[i,k]は、パワー算出部13a、時間方向平滑化部14a、ゲイン導出部19の各ブロックで解析処理を受ける。
非優先音の入力信号x2[n]についても、時間周波数領域の信号に変換するために、変更用のFFT11bと、解析用のFFT12bを設ける。入力信号x2[n]は、変更用のFFT11bによって時間周波数平面上の信号入力信号Z2[i,k]に変換されて、ゲイン乗算のために乗算器16bに入力される。入力信号x2[n]はまた、解析用のFFT12bによって時間周波数平面上の信号X2[i,k]に変換される。信号X2[i,k]は、パワー算出部13b、時間方向平滑化部14b、ゲイン導出部19の各ブロックで処理を受ける。
ゲイン導出部19は、優先音の時間方向の平滑化パワーE1[i,k]と、非優先音の時間方向の平滑化パワーE2[i,k]に基づいて、信号X1[i,k]に乗算されるゲインα1[i,k]と、信号X2[i,k]に乗算されるゲインα2[i,k]を算出する。
乗算器16aで、信号X1[i,k]にゲインα1[i,k]が乗算され、乗算器16bで信号X2[i,k]にゲインα2[i,k]が乗算される。乗算結果は加算器17で合算され、時間領域変換部18で時間領域の信号に復元されて出力される。
優先音に対する処理と、非優先音に対する処理は同じであるため、以下の説明では、入力信号をxjとして記載する。また、変更用のFFT11aとFFT11bを適宜「FFT11」と総称し、解析用のFFT12aとFFT12bを、適宜「FFT12」と総称する。
入力信号xjは、FFT12において、解析用の窓関数h[]を使って、上記の式(1)でXj[n,k]に変換される。式(1)をサンプルシフトNd=1として書き直すと、式(3)のようになる。
Figure 0007260101000003
これと同時に、入力信号xjは、FFT11において、変更用の窓関数g[]を使って、式(4)によりZj[n,k]に変換される。
Figure 0007260101000004
ここで、g[m]は、m≦-NgL、及びm≧NgHにおいてゼロ(0)をとる窓関数である。
式(3)と式(4)は、同じ点数(NF)のFFTで処理される。一方、式(3)と式(4)は、窓幅が異なるので、レイテンシに差異がある。具体的には、式(3)はNh-1サンプル未来の信号を必要とするので、レイテンシは(Nh-1)/FSであり、式(4)は、NgH-1サンプル未来の信号を必要とするので、レイテンシは(NgH-1)/FSである。
FFT11から乗算器16までのパスでは、レイテンシを短くして時間を短縮し、FFT12から乗算器16までのパスでは、レイテンシを長くして周波数分解能を高く維持する。
図3は、解析用窓関数h[m]と、変更用窓関数g[m]と、入力波形の関係を示す。今、入力信号がA点まで観測されているとする。このとき、解析用の窓関数h[m]は、最新のデータを窓の右端(A点)に置く位置に配置される。この窓関数を使ったFFTは、中心、すなわち式(3)でm=0が適用される位置を、B点におくことになる。すなわち、このFFTによりB点での解析結果を生成したことになる。これにより、A点とB点の時間間隔に相当するレイテンシが生じる。
一方、変更用の窓関数g[]も、最新のデータを窓の右端に置く位置に配置されるので、この窓関数を使ったFFTは、中心をC点に置くことになる。この場合、A点とC点の時間間隔に相当するレイテンシが生じる。
図3の設定では、解析用の窓関数h[]のレイテンシは1023であり、変更用の窓関数g[]のレイテンシは255である。
この時点での解析結果は、B点のものまでが得られている。しかし、変更用の周波数領域のデータ自体は、C点のものまでが得られている。ある時刻で行う変更処理が同じ時刻の解析結果を用いなければならないのであれば、解析がC点に進むまで変更の処理操作を待てばよい。しかし、それではレイテンシが1023となってしまい、レイテンシの小さな変更用の窓関数g[]を用いた意味がなくなる。
そこで、あえて、時間的にズレのあるデータを用いる。すなわち、C点での変更処理にB点での解析結果を流用する。逆に言うと、入力信号に変更を加える処理を行う際に、それよりも前に得られている周波数解析結果を用いる。周波数解析で用いられる主要データは、入力信号のサークルIの部分であり、これを基にゲインマスクを生成し、そのゲインマスクを使って、サークルII付近のデータの変更を行うことになる。スマートミキサーの場合は、ゲインマスクは時間軸方向に緩やかに変化するので、時間的にズレたデータを流用しても出力に対する影響は軽微である。
図4は、変更用の窓関数として非対称な窓関数を用いる例を示す。変更用の窓関数として、非対称の窓関数を用いることができる。上段が解析用の窓関数h[]、中段が非対称の変更用の窓関数g[]、下段は、非対称の変更用の窓関数の別の例である。
非対称の変更用の窓関数g[]で、C点の位置(式(2)で復元される位置)をどこにするかは、窓関数のm=0の位置として決めることができる。これは、窓関数の値が0でない範囲であれば、窓関数内の任意の位置におくことができる。
変更用の窓関数g[]に非対称な窓関数を使うことで、レイテンシを保ったまま(たとえば窓関数の幅NgH=256)、窓関数の実効長を伸ばすことができるので、変更用の時間周波数変換の周波数分解能をある程度上げることができる。対称形の窓関数と比較して、過去のデータに重きをおいた周波数領域への変換になるが、レイテンシ自体は対称形の窓関数と同じである。
第1実施形態の手法と構成は、解析用と変更用で異なるレイテンシの窓関数を用いつつ同じ点数のFFTで処理する。ゲインマスクの周波数ビン数と、変更用に時間周波数変換されたデータの周波数ビン数は同一であり、乗算器16a、16bは、従来通りの処理をそのまま行えばよい。
第1実施形態の手法を発明者らが実施したところ、レイテンシを約5msに抑えることができた。また、レイテンシ減少処理を行ったときの出力の音質は、レイテンシを減少させていないスマートミキサーと聴感的にほぼ同一に維持できることが確認された。
<第2実施形態>
図5は、第2実施形態のレイテンシ減少の手法と構成を示す図である。図5のレイテンシの低減を含む信号処理の技術は、たとえば、優先音と非優先音を混合するミキシング装置1Bに適用することができる。
第1実施形態では、変更用のFFT11と解析用のFFT12で、同じ点数の処理を行っていた。しかし、NgL+NgH<2Nhの場合は、変更用の時間周波数変換は、より少ない点数のFFTで処理することができる。たとえば、図3の場合であれば、変更用のFFTは512点のFFTで十分である。
そこで、第2実施形態では、変更用のFFT11と解析用のFFT12で、異なるFFTを用いる。この場合、ゲインマスクの乗算器16で、ゲインマスクと、乗算されるデータZの間に、ビン数の齟齬が起こるため、ゲインマスクのビン数を、データのビン数に揃える処理が必要になる。
具体的には、ゲイン導出部19の後段に、周波数軸の変換部15aと15bを挿入し、ゲインαj[i,k]の変数k(周波数ビン番号)をkからk'に変換したゲインγj[i,k']を生成し、ゲインγj[i,k']をデータZj[i,k']に乗算する。
第2実施形態の構成では、レイテンシを低減し、かつ変更用のデータでFFTの負荷を低減しつつ、ゲイン乗算による優先音の強調と非優先音の抑制を実現することができる。
<第3実施形態>
図6は、第3実施形態のレイテンシ減少の手法と構成を示す図である。図6のレイテンシの低減を含む信号処理の技術は、たとえば、優先音と非優先音を混合するミキシング装置1Cに適用することができる。ミキシング装置1Cにおいて、第1実施形態及び第2実施形態と同じ構成要素には同じ符号を付けて、重複する説明を省略する。
スマートミキシングの本質は、入力信号にゲインα1[i,k]とα2[i,k]を乗算することにある。第1実施形態と第2実施形態では、ゲインの乗算処理を、時間周波数領域に変換した後にゲインマスクを乗算し、その後時間領域に復元していた。
第1実施形態及び第2実施形態と結果的に同等の処理を、別の方法で実現することができる。例えば、ゲインマスクの乗算と等価なFIR(Finite Impulse Response:有限インパルス応答)フィルタを構成し,このFIRフィルタで信号の変更を行うことができる。
ミキシング装置1Cにおいて、優先音と非優先音の入力信号に対してFFT21aとFFT21bで短時間FFTを実施してゲイン導出部19でゲインα1[i,k]とα2[i,k]を求めるまでの処理は同じである。
ゲインを乗算する乗算器に替えて、優先音の信号処理系に、逆FFT22a、窓関数乗算部23a、時間シフト部24a、及びFIRフィルタ31aが設けられる。同様に、非優先音の信号処理系に、逆FFT22b、窓関数乗算部23b、時間シフト部24b、及びFIRフィルタ31bが設けられる。
優先音の入力信号x1[n]は、FFT21aに入力されるとともに、FIRフィルタ31aにも入力される。非優先音の入力信号x2[n]は、FFT21bに入力されるとともに、FIRフィルタ31bにも入力される。FIRフィルタ31aと31bは、ゲインマスクの乗算と等価の処理を行って、入力信号を変更する。この処理を、以下で説明する。
まず、Nd=1を仮定しているので、iはサンプル番号と一致するため、以下ではゲインマスクをα1[n,k]、α2[n,k]と書く。
信号処理の理論によれば、伝達関数の逆フーリエ変換がインパルス応答である。これより、ゲインマスクαj[n,k]を逆変換したものが、時点n、遅延差(すなわちタップ番号)mに対するインパルス応答(すなわちFIRフィルタ係数)Wj[n,m]となる。インパルス応答Wj[n,m]は、式(5)で表される。
Figure 0007260101000005
式(5)により、-NF/2≦m<NF/2の範囲でWj[n,m]を算出する。このインパルス応答を係数としたFIRフィルタを、入力信号xj[n]に対して式(6)のように作用させることで、ゲインマスクを乗算したのと同じ効果を得ることができる。
Figure 0007260101000006
式(6)では、出力される混合音yj[n]を算出するのに、NF/2サンプル未来のxj[n]を使用している。したがって、式(6)を実行するFIRフィルタ31を実装した場合のレイテンシは、NF/2となる。NF=1024で、サンプリング周波数FSが48kHzのときは、NF/(2×FS)=21.3msとなり、このままではレイテンシの減少にはつながらない。
そこで、第1実施形態のように、入力データに対する変更処理系の周波数分解能を下げてレイテンシを減少させる。周波数分解能を下げるためには、たとえば、ゲインαj[n,k]を周波数方向に平滑化した後、周波数方向に間引いてビン数を下げればよい。しかし、この方法では平滑化の計算負荷が重くなる。
より良い手法は、図6に示すように、ゲインαj[i,k]を逆FFTでFIRフィルタ係数Wj[n,m]にした後に、窓関数で切り詰める(乗算する)方法である。FIRフィルタ係数を窓関数で乗算することは、窓関数の逆フーリエ変換として得られる関数でゲインを平滑化することになるので、実質的に平滑化と同等の処理が実現できる。また、平滑化に比べて乗算のほうが計算負荷が軽いため、より優れた方法である。
図7は、FIRフィルタ係数の切り詰めによるレイテンシの減少をより詳しく説明する図である。時刻n、周波数ビンkに対するαj[i,k]を逆FFTして、このゲインに対応する時刻n、タップ番号mのFIRフィルタ係数Wj[n,m]を作成する。
FIRフィルタ係数Wj[n,m]を、式(7)のように窓関数v[]で切り詰めて、Vj[n,m]を生成する。
Figure 0007260101000007
窓関数v[m]として、m≦-NvL、もしくはm≧NvHにおいて0をとる窓関数を選ぶ。さらに、図7の最下段に示すように、窓関数で切り取られたFIRフィルタ係数Vj[n,m]において、値0が並ぶ部分を時間シフト部24によりシフトさせて、詰めることができる。新しいFIRフィルタ係数Uj[n,m]は、式(8)で表される。
Figure 0007260101000008
出力は、式(6)の代わりに、式(9)を使って求めることができる。
Figure 0007260101000009
式(9)からわかるように、Uj[n,m]は、0≦n≦NvL+NvLの範囲で有効な(つまり非0の)値を持つので、入力信号xj[n]に関して未来のデータは必要ない。また、レイテンシは、式(8)で行った係数シフトに対応する時間となるので、NvL/FSである。このように、第3実施形態の手法と構成により、図7に示されるようにレイテンシを低減することができる。
図8Aと図8Bは、実施形態のレイテンシ減少方法を適用した情報処理装置の概略図である。図8Aの情報処理装置100Aは、第1実施形態と第2実施形態の手法に適している。情報処理装置100Aは、変更用のFFT11と、解析用のFFT12と、周波数解析処理部103と、変更処理部104と、逆フーリエ変換(IFFT)部105を有する。入力信号は、変更用のFFT11と解析用のFFT12に入力される。FFT11とFFT12は、入力信号に対してそれぞれ異なる幅の窓関数を使用して短時間のFFTを行い、時間周波数平面上の信号を取得する。FFT11とFFT12のFFT点数は同じであっても、異なっていてもよい。FFT11の窓関数の幅は、FFT12の窓関数の幅よりも狭い。変更処理部104による変更処理は、ある時刻の周波数解析の結果を用いてそれよりも未来の信号に対して変更を加える。
周波数解析のブロックでは高分解能の解析を行う一方、信号変更のブロックは低いレイテンシに抑える。これにより、信号処理全体としてレイテンシを低減することができる。
図8Bの情報処理装置100Bは、第3実施形態の手法に適している。情報処理装置は、解析用のFFT101と、FIRフィルタ102と、周波数解析処理部103と、IFFT106と、フィルタ係数切り詰め部107を有する。
入力信号は、FFT101とFIRフィルタ102に入力される。FFT101により得られた時間周波数平面上の信号は、周波数解析処理部103で解析される。解析結果はIFFT106により時間領域の信号に戻されたあと、フィルタ係数の切り詰め部107によるレイテンシ抑制処理を受ける。FIRフィルタ102に入力された信号は、短縮化されたフィルタ係数で変更処理を受けて、出力される。
この構成により、周波数解析を高分解能で行う一方、入力信号の変更処理は低いレイテンシで行うことができる。なお、時間領域での入力信号の変更は、RIRフィルタに限定されず、その他のデジタルフィルタを用いてもよい。
図8Aの情報処理装置100A、及び図8Bの情報処理装置は、たとえばプロセッサとメモリで実現することができる。あるいは、FPGA(Field Programmable Gate Array)、PLD(Programmable Logic Device)などのロジックデバイスで実現されてもよい。
以上述べたように、本発明は、信号の周波数解析結果に基づいて信号を変更を行うリアルタイムの信号処理系で、レイテンシを低減することができる。本発明をスマートミキサーに適用する場合は、信号解析に高い周波数分解能が要求され、他方、信号の変更(優先音の強調と非優先音の抑制)は緩やかな変更、すなわち小さなレイテンシが望ましく、本発明のレイテンシ減少方法によく適合している。
本発明のレイテンシ減少方法は、スマートミキサー以外の情報処理装置、例えばパルス性の音源の音分離を必要としない場合の信号分離システムなどに適用可能である。
この出願は、2018年4月19日に出願された日本国特許出願第2018-080670号に基づき、その優先権を主張するものであり、その全内容は本件出願中に含まれる。
1、1A~1C ミキシング装置
11、11a、11b 変更用のFFT
12、12a、12b 解析用のFFT
19 ゲイン導出部
31、31a、31b、106 FIRフィルタ(デジタルフィルタ)
100 情報処理装置
103 周波数解析処理部
104 変更処理部
105、106 IFFT
107 フィルタ係数切り詰め部(短縮化部)

Claims (7)

  1. 入力信号に対して、第1の幅を有する窓関数を用いて時間周波数変換を行う第1の時間周波数変換部と、
    前記入力信号に対して、前記第1の幅よりも狭い第2の幅を有する第2の窓関数を用いて時間周波数変換を行う第2の時間周波数変換部と、
    前記第1の時間周波数変換部の出力に基づく周波数解析結果を用いて、前記第2の時間周波数変換部の出力に変更を加える変更処理部と、
    を有することを特徴とする情報処理装置。
  2. 前記第1の時間周波数変換部の周波数ビン数と、前記第2の時間周波数変換部の周波数ビン数は同じであることを特徴とする請求項1に記載の情報処理装置。
  3. 前記第2の時間周波数変換部の周波数ビン数は、前記第1の時間周波数変換部の周波数ビン数よりも少ないことを特徴とする請求項1に記載の情報処理装置。
  4. 前記第2の窓関数は非対称の窓関数であることを特徴とする請求項1~3のいずれか1項に記載の情報処理装置。
  5. ある時刻における前記周波数解析結果は、前記ある時刻よりも後の時刻に得られる前記第2の時間周波数変換部の前記出力を変更することを特徴とする請求項1~4のいずれか1項に記載の情報処理装置。
  6. 請求項1~のいずれか1項の情報処理装置を用いたミキシング装置。
  7. 情報処理装置において、
    入力信号に、第1の幅を有する第1の窓関数を用いて第1の時間周波数変換を実施し、
    前記入力信号に対して、前記第1の幅よりも狭い第2の幅を有する第2の窓関数を用いて第2の時間周波数変換を実施し、
    前記第1の時間周波数変換に基づく周波数解析結果を用いて、前記第2の時間周波数変換を受けた変換後の入力信号を変更する、
    ことを特徴とするレイテンシ減少方法。
JP2020514119A 2018-04-19 2019-04-11 情報処理装置、これを用いたミキシング装置、及びレイテンシ減少方法 Active JP7260101B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018080670 2018-04-19
JP2018080670 2018-04-19
PCT/JP2019/015837 WO2019203127A1 (ja) 2018-04-19 2019-04-11 情報処理装置、これを用いたミキシング装置、及びレイテンシ減少方法

Publications (2)

Publication Number Publication Date
JPWO2019203127A1 JPWO2019203127A1 (ja) 2021-04-22
JP7260101B2 true JP7260101B2 (ja) 2023-04-18

Family

ID=68240003

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020514119A Active JP7260101B2 (ja) 2018-04-19 2019-04-11 情報処理装置、これを用いたミキシング装置、及びレイテンシ減少方法

Country Status (4)

Country Link
US (1) US11516581B2 (ja)
EP (1) EP3783911A4 (ja)
JP (1) JP7260101B2 (ja)
WO (1) WO2019203127A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111402917B (zh) * 2020-03-13 2023-08-04 北京小米松果电子有限公司 音频信号处理方法及装置、存储介质
WO2022201449A1 (ja) * 2021-03-25 2022-09-29 ヤマハ株式会社 スピーカの群遅延を制御する方法、システム、及び記憶媒体

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010081505A (ja) 2008-09-29 2010-04-08 Panasonic Corp 窓関数算出装置、方法及び窓関数算出プログラム
JP2013051589A (ja) 2011-08-31 2013-03-14 Univ Of Electro-Communications ミキシング装置、ミキシング信号処理装置、ミキシングプログラム及びミキシング方法
JP2015118361A (ja) 2013-11-15 2015-06-25 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
JP2016134706A (ja) 2015-01-19 2016-07-25 国立大学法人電気通信大学 ミキシング装置、信号ミキシング方法、及びミキシングプログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5228093A (en) 1991-10-24 1993-07-13 Agnello Anthony M Method for mixing source audio signals and an audio signal mixing system
US6587816B1 (en) 2000-07-14 2003-07-01 International Business Machines Corporation Fast frequency-domain pitch estimation
JP2008532353A (ja) 2005-02-14 2008-08-14 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 第1の音声データを第2の音声データと混合するためのシステム及び方法、プログラム要素並びにコンピュータ読取可能な媒体
JP4823030B2 (ja) 2006-11-27 2011-11-24 株式会社ソニー・コンピュータエンタテインメント 音声処理装置および音声処理方法
US8355908B2 (en) 2008-03-24 2013-01-15 JVC Kenwood Corporation Audio signal processing device for noise reduction and audio enhancement, and method for the same
JP5532518B2 (ja) 2010-06-25 2014-06-25 ヤマハ株式会社 周波数特性制御装置
US8874245B2 (en) 2010-11-23 2014-10-28 Inmusic Brands, Inc. Effects transitions in a music and audio playback system
JP2013164572A (ja) * 2012-01-10 2013-08-22 Toshiba Corp 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
US9143107B2 (en) 2013-10-08 2015-09-22 2236008 Ontario Inc. System and method for dynamically mixing audio signals
JP6312826B2 (ja) * 2013-11-28 2018-04-18 ヴェーデクス・アクティーセルスカプ 補聴器システムの動作方法および補聴器システム
DE102014214143B4 (de) 2014-03-14 2015-12-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines Signals im Frequenzbereich
US10057681B2 (en) 2016-08-01 2018-08-21 Bose Corporation Entertainment audio processing
JP6630262B2 (ja) 2016-11-18 2020-01-15 本田技研工業株式会社 インジェクタ

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010081505A (ja) 2008-09-29 2010-04-08 Panasonic Corp 窓関数算出装置、方法及び窓関数算出プログラム
JP2013051589A (ja) 2011-08-31 2013-03-14 Univ Of Electro-Communications ミキシング装置、ミキシング信号処理装置、ミキシングプログラム及びミキシング方法
JP2015118361A (ja) 2013-11-15 2015-06-25 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
JP2016134706A (ja) 2015-01-19 2016-07-25 国立大学法人電気通信大学 ミキシング装置、信号ミキシング方法、及びミキシングプログラム

Also Published As

Publication number Publication date
US20210152936A1 (en) 2021-05-20
EP3783911A4 (en) 2021-09-29
US11516581B2 (en) 2022-11-29
JPWO2019203127A1 (ja) 2021-04-22
WO2019203127A1 (ja) 2019-10-24
EP3783911A1 (en) 2021-02-24

Similar Documents

Publication Publication Date Title
US8971551B2 (en) Virtual bass synthesis using harmonic transposition
JP5460057B2 (ja) 低遅延処理方法及び方法
Kates Principles of digital dynamic-range compression
JP5341128B2 (ja) 補聴器における安定性の改善
RU2666316C2 (ru) Аппарат и способ улучшения аудиосигнала, система улучшения звука
TWI501661B (zh) 參數式立體聲轉換系統及方法
SG183966A1 (en) Improved magnitude response and temporal alignment in phase vocoder based bandwidth extension for audio signals
EP2249587A2 (en) Frequency translation by high-frequency spectral envelope warping in hearing assistance devices
EP2597639A2 (en) Sound processing device
CN101695148A (zh) 一种用于数字助听器的多通道宽动态范围压缩系统
EP2720477B1 (en) Virtual bass synthesis using harmonic transposition
JP7260101B2 (ja) 情報処理装置、これを用いたミキシング装置、及びレイテンシ減少方法
KR20220076518A (ko) 스펙트럼적 직교 오디오 성분 처리
EP2675191B1 (en) Frequency translation in hearing assistance devices using additive spectral synthesis
Löllmann et al. Efficient non-uniform filter-bank equalizer
KR100684029B1 (ko) 푸리에 변환을 이용한 배음 생성 방법 및 이를 위한 장치,다운 샘플링에 의한 배음 생성 방법 및 이를 위한 장치와소리 보정 방법 및 이를 위한 장치
Vashkevich et al. Petralex: A smartphone-based real-time digital hearing aid with combined noise reduction and acoustic feedback suppression
Shanmugaraj et al. Hearing aid speech signal enhancement via N-parallel FIR-multiplying polynomials for Tamil language dialect syllable ripple and transition variation
Swamy et al. Real-time Implementation of Delay Efficient DCT Based Hearing Aid Algorithm Using TMS320C5505 DSP Processor
TWI755901B (zh) 包括移頻功能之即時音訊處理系統以及包括移頻功能之即時音訊處理程序
JP7260100B2 (ja) ミキシング装置、ミキシング方法、及びミキシングプログラム
JP2997668B1 (ja) 雑音抑圧方法および雑音抑圧装置
Devi et al. Linguistic Effects Based Novel Filter for Hearing Aid to Deliver Natural Sound and Speech Clarity in Universal Environment
Devi et al. A Novel Frequency Range Reconfigurable Filter for Hearing Aid to Deliver Natural Sound and Speech Clarity in Universal Environment
Hansen et al. Psychoacoustically Motivated Filter Bank Design for Real Time Audio Systems

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230314

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230327

R150 Certificate of patent or registration of utility model

Ref document number: 7260101

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150