JP2012150237A - 音信号処理装置、および音信号処理方法、並びにプログラム - Google Patents
音信号処理装置、および音信号処理方法、並びにプログラム Download PDFInfo
- Publication number
- JP2012150237A JP2012150237A JP2011008208A JP2011008208A JP2012150237A JP 2012150237 A JP2012150237 A JP 2012150237A JP 2011008208 A JP2011008208 A JP 2011008208A JP 2011008208 A JP2011008208 A JP 2011008208A JP 2012150237 A JP2012150237 A JP 2012150237A
- Authority
- JP
- Japan
- Prior art keywords
- section
- blind spot
- sound source
- filter
- directivity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
- 238000012545 processing Methods 0.000 title claims abstract description 126
- 230000005236 sound signal Effects 0.000 title claims abstract description 91
- 238000003672 processing method Methods 0.000 title claims description 10
- 238000000034 method Methods 0.000 claims abstract description 163
- 230000008569 process Effects 0.000 claims abstract description 113
- 230000035945 sensitivity Effects 0.000 claims abstract description 20
- 238000001514 detection method Methods 0.000 claims description 124
- 239000011159 matrix material Substances 0.000 claims description 49
- 238000000354 decomposition reaction Methods 0.000 claims description 8
- 238000012790 confirmation Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 description 28
- 238000000605 extraction Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 9
- 238000012986 modification Methods 0.000 description 8
- 230000004048 modification Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 238000007796 conventional method Methods 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000017105 transposition Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 230000001174 ascending effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 230000005484 gravity Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000001816 cooling Methods 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- VBICKXHEKHSIBG-UHFFFAOYSA-N 1-monostearoylglycerol Chemical compound CCCCCCCCCCCCCCCCCC(=O)OCC(O)CO VBICKXHEKHSIBG-UHFFFAOYSA-N 0.000 description 1
- DCXXMTOCNZCJGO-UHFFFAOYSA-N Glycerol trioctadecanoate Natural products CCCCCCCCCCCCCCCCCC(=O)OCC(OC(=O)CCCCCCCCCCCCCCCCC)COC(=O)CCCCCCCCCCCCCCCCC DCXXMTOCNZCJGO-UHFFFAOYSA-N 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/802—Systems for determining direction or deviation from predetermined direction
- G01S3/808—Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
- G01S3/8083—Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems determining direction of source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
【解決手段】音信号の音源方向を示す方向点を所定時間単位で分割したブロック毎に検出する方向推定部と、方向点を複数ブロック間で接続して区間の検出を行う方向トラッキング部を有する。方向推定部は、音源方向に対する感度の低い空間フィルタである死角フィルタに対応する方向とゲインとの対応関係データである死角パターンと、音源方向に対する感度の高い空間フィルタに対応する方向とゲインとの対応関係データである指向性パターンを生成し、死角パターンの極小部と指向性パターンの極大部の組み合わせを有する方向を、音源方向を示す方向点として検出する。
【選択図】図11
Description
音声区間検出(SD:Speech Detection)とは、例えば音信号処理装置に備えられたマイクを介して入力する音信号の中から、人が発話している区間を切り出す処理のことである。音声区間検出(SD)は、VAD(Voice Activity Detection)とも呼ばれる。
本明細書では、音信号から人の発話区間を切り出す処理について、「音声区間検出」または単に「区間検出」として説明する。また、単に「区間」というと、音声に限らず、何らかの音源がアクティブであり続けている(鳴り続けている)区間を表わすものとする。
例えば多くの音声認識器では、区間検出によって切り出された区間に対してマッチング等の処理を行なうため、区間検出の精度が音声認識の精度に大きく影響する。すなわち、実際に発話した区間と、区間検出器が検出した区間とが異なっていると、それ自体が誤認識の原因となってしまう。
(1)単一のマイクロホンを用いる方式
入力信号から「音声らしさ」を表わす特徴量を抽出し、その値に基づいて区間検出を行なう方式である。
この処理については、例えば特許文献1(特許4182444号)などに記載がある。
(2)複数のマイクロホンを用いる方式
音源の方向を用いて区間検出を行なう方式である。
この処理については、例えば特許文献2(特許4282704号)、特許文献3(特開2010−121975号)などに記載されている。
同一の音源から発生している音は、マイクロホンから見て同一の方向から到来する。そのため、所定の時間間隔で音源到来方向(DOA:Direction Of Arrival)を推定し、ほぼ同一の方向から音が出力され続けている区間を求め、この区間を音源がアクティブである(その音源から音が鳴っている)区間と判定する。人間の発話に対してこの処理を行なえば、音声区間を検出したことになる。
なお、以下では、音源到来方向(DOA)を単に「音源方向」と呼ぶことがある。
図1(a)は、入力信号(または「観測信号」とも呼ぶ)のイメージであり、話者が二人いてそれぞれ、
"Hello"
"Good by"
と発話したことを表わしている。
図1(b)に示すブロック11は、分割されたブロックの1つ分を表わしている。ブロックの長さは、通常の発話の長さと比べて十分短い値とする。例えば1/10秒や1/8秒に設定する。
図1(c)はその結果であり、横軸が時間、縦軸が方向を表わしている。方向とは、例えば、音声入力を行うマイクに対する音源方向の角度(図2参照)である。
図1(c)に示す点は、方向点12である。方向点は各ブロック内で求まった音源方向を示している。
なお、以降では、音源方向に対応した点を「方向点」と呼ぶ。複数音源に対応した方向推定方式を用いれば、各ブロックは複数の方向点を持ち得る。
図1(d)はトラッキングの結果、すなわち接続された方向点を示している。
図1(d)に示すライン15,16は、各音源がアクティブである区間、すなわち音声発話の区間を表わしている。
例えば前述の特許文献2(特許4282704号)では「目的音源から到来する信号を抑圧するためのビームフォーマー」を用いた処理について開示している。
また、前述の特許文献3(特開2010−121975号)は、MUSIC法を用いた処理を開示している。
(S2)そのフィルタについて指向特性(方向とゲインとの関係)を調べ、死角が表れている方向を求める。
次に、この音源方向推定に基づく音声区間検出を開示した従来技術における問題点について説明する。
上述した音源方向推定に基づく区間検出においては、図1を参照して説明したブロック各々において各方向点で検出される方向点の個数が実際に鳴っている音源の個数と一致していることが望ましい。
もし、方向点の個数が音源数よりも少ないと、検出失敗(発話したのに検出されない)の原因となり得る。逆に方向点が音源数よりも多く検出されると、誤検出(発話していないのに検出される)の原因となり得る。
例えば、図3では、ゲイン値≒−0.13付近に閾値38を設定することで死角か否かを区別することができるが、その閾値が他のブロックでも有効である保証はない。
所定時間単位で分割したブロック毎に、音信号の音源方向を示す方向点を検出する方向推定部と、
前記方向点を複数ブロック間で接続して区間の検出を行う方向トラッキング部を有し、
前記方向推定部は、
音源方向に対する感度(ゲイン)の低い空間フィルタである死角フィルタと、音源方向に対する感度(ゲイン)の高い空間フィルタである指向性フィルタを生成する空間フィルタ生成部と、
前記死角フィルタに対応する方向とゲインとの対応関係データである死角パターンを生成する死角パターン生成部と、
前記指向性フィルタに対応する方向とゲインとの対応関係データである指向性パターンを生成する指向性パターン生成部と、
前記死角パターンの極小部と、前記指向性パターンの極大部の組み合わせを有する方向を、音源方向を示す方向点として検出する方向点検出部を有する音信号処理装置にある。
音信号処理装置において実行する音信号処理方法であり、
方向推定部が、音信号の音源方向を示す方向点を所定時間単位で分割したブロック毎に検出する方向推定ステップと、
方向トラッキング部が、前記方向点を複数ブロック間で接続して区間の検出を行う方向トラッキングステップを実行し、
前記方向推定ステップは、
音源方向に対する感度の低い空間フィルタである死角フィルタと、音源方向に対する感度の高い空間フィルタである指向性フィルタを生成する空間フィルタ生成ステップと、
前記死角フィルタに対応する方向とゲインとの対応関係データである死角パターンを生成する死角パターン生成部ステップ、
前記指向性フィルタに対応する方向とゲインとの対応関係データである指向性パターンを生成する指向性パターン生成ステップと、
前記死角パターンの極小部と、前記指向性パターンの極大部の組み合わせを有する方向を、音源方向を示す方向点として検出する方向点検出ステップを実行する音信号処理方法にある。
音信号処理装置において音信号処理を実行させるプログラムであり、
方向推定部に、音信号の音源方向を示す方向点を所定時間単位で分割したブロック毎に検出させる方向推定ステップと、
方向トラッキング部に、前記方向点を複数ブロック間で接続して区間の検出を行わせる方向トラッキングステップを実行させ、
前記方向推定ステップにおいては、
音源方向に対する感度の低い空間フィルタである死角フィルタと、音源方向に対する感度の高い空間フィルタである指向性フィルタを生成する空間フィルタ生成ステップと、
前記死角フィルタに対応する方向とゲインとの対応関係データである死角パターンを生成する死角パターン生成部ステップ、
前記指向性フィルタに対応する方向とゲインとの対応関係データである指向性パターンを生成する指向性パターン生成ステップと、
前記死角パターンの極小部と、前記指向性パターンの極大部の組み合わせを有する方向を、音源方向を示す方向点として検出する方向点検出ステップを実行させるプログラムにある。
説明は以下の項目に従って行う。
1.本開示における音信号処理の概要について
2.本開示における音信号処理の詳細について
2−1.死角パターンと指向性パターンとの併用構成
2−2.区間の状態に応じた方向点検出条件の変更構成
2−3.新規の死角フィルタと指向性フィルタ
3.音信号処理装置の構成と処理について
4.音信号処理装置の実行する処理シーケンスについて
5.その他の実施例(変形例)について
6.効果のまとめ
A_bは、Aに下付きの添え字bが設定された表記、
A^bは、Aに上付きの添え字bが設定された表記、
これらを意味する。
以下において説明する音信号処理は、音源方向推定に基づく音声区間検出を行うものであり、検出失敗(非検出や区間分断)や誤検出を抑制した高精度な音声区間検出を実現するものである。
以下、説明する構成では、死角パターンのみならず他の情報を併用した処理により音声区間の検出失敗(非検出や区間分断)や誤検出を回避する。また、トラッキングで得た区間情報を方向点の検出に反映させることで、区間検出の精度を向上させる。
(特徴1.死角パターンと指向性パターンとの併用)
音源方向に死角を向けた空間フィルタの他に音源方向に指向性を向けた空間フィルタも生成し、それぞれについて方向とゲインとについてのパターンを求める。それぞれ、を「死角パターン」と「指向性パターン」と呼ぶ。
方向点の検出は、両方のパターンを用いて行なう。
区間開始の判定と区間終了の判定とで、方向点の検出についての条件を変える。
なお、以降では、
音源方向に指向性を向けた空間フィルタを「指向性フィルタ」と呼ぶ。
また、「指向性フィルタ」によって得られた方向とゲインとについてのパターンを「指向性パターン」と呼ぶ。
すなわち、以下に説明する構成では、音源方向に対する指向性が低い「死角フィルタ」と、「死角フィルタ」によって得られた方向とゲインとについてのパターンである「死角パターン」だけでなく、これらと逆の特性を持つ「指向性フィルタ」と「指向性パターン」も用いるのが特徴の一つである。
さらに、死角フィルタと指向性フィルタの生成についても、以下の工夫を行なう。
死角フィルタと指向性フィルタとについて、観測信号の共分散行列から計算された固有ベクトルを直接用いる代わりに、後述のように加工したベクトルを用いる。
以下、本開示における音信号処理の詳細について、上記の各特徴順に、順次説明する。
(2−1.死角パターンと指向性パターンとの併用構成)
まず、死角パターンと指向性パターンとの併用構成について説明する。
図5は、あるブロックにおいて、死角パターンと指向性パターンとを重ねてプロットしたものである。それぞれのパターンの作成方法については後述する。
(a)音源方向に対する感度の高い空間フィルタである「指向性フィルタ」によって得られた方向とゲインとについてのパターンである指向性パターン101、
(b)音源方向に対する感度の低い空間フィルタ、すなわち音源方向に死角を設定した空間フィルタである「死角フィルタ」によって得られた方向とゲインとについてのパターンである死角パターン51、
これら2つのパターンの方向(横軸)とゲイン(縦軸)との関係をプロットしている。縦軸は対数としている。
例えば図5に示す例では、死角パターン51には極小部52〜57の6個の極小部が存在しているが、これらの極小部52〜57と同じ方向(θ)付近に指向性パターン101の極大が明らかに存在しているのは、極小部52と、極小部53の2つである。
死角パターン51の極小部52とほぼ同じ方向(方向:θ=p,111)に、指向性パターン101の極大部103が存在する。
また、死角パターン51の極小部53とほぼ同じ方向(方向:θ=q,112)に、指向性パターン101の極大部104が存在する。
すなわち、音信号処理装置は、各方向について、以下に示す(条件1)〜(条件5)を全て満たす方向であるか否かを判定し、(条件1)〜(条件5)を全て満たす方向である場合に、初めて方向点、すなわち音源の方向を示す方向点とみなす処理を実行する。
(条件1)死角パターンにおいて極小部に対応した方向である。
(条件2)極小部の値の小さい順の1位〜n−1位の範囲に含まれる。(マイク数=n)
(条件3)極小部の値の大きさは、予め規定した閾値より小さい。
(条件4)極小部に対応した方向の付近に、指向性パターンの極大部が存在する。
(条件5)直近のブロック群における死角パターンの最小値から動的に計算した閾値に基づく判定条件を満たす。(動的閾値に従った判定条件)
(条件1)死角パターンにおいて極小部に対応した方向である。
従来法と同様に本発明でも、死角パターンの極小部を最初に見つける。
さらに、上記(条件1)に従って検出した死角パターンにおける極小部について、極小値の小さい順に1位〜n−1位を残す。
例えば、図5に示す死角パターン51は、n=4、すなわち、4個のマイクロホンで収録された信号から生成しているため、極小部の値(ゲイン値)の小さい順に1位〜3位の極小部を残す。
この極小部選択処理の結果、選択される極小部は、極小部52,53,55の3個の極小部となる。
P_N(θ_i)は現在着目しているブロックにおける死角パターンである。
死角パターンの角度(方向)は離散的(例えば−180°から+180°まで5°間隔)でよく、それらの値をθ_1,θ_2,...,θ_i,...とする。
角度θ_iにおいてP_N(θ_i)が極小値であることは、両隣の角度であるθ_{i−1}およびθ_{i+1}と比較して式[1.1]が成立しているかで判定できる。
条件1,2に基づいて残った死角パターンの極小部に対して、予め規定した閾値による選別を行なう。
具体的には、予め規定した固定閾値:T_{static}を適用して、上記の式[1.3]に従って判別を行なう。閾値による選別という手段自体は従来法と同一だが、本発明では閾値の目的と設定方法が従来法と異なる。
閾値の例を図5の閾値120として示す。
次に、条件4について説明する。条件1〜3による選別によって残った極小部に対して、それぞれの付近に指向性パターン側の極大が存在しているかどうかを調べる。極大の位置と極小の位置とは必ずしも一致せず、少しずれることもあるため、この判定はマージンつきで行なう。
θ−β≦θ_{i'}≦θ+β
ただし、P_D(θ_i)は、同じブロックの指向性パターンを表わす。
なお、式[1.1]の場合と同様に、式[1.4]の代わりに式[1.5]を用いても良い。
すなわち、
死角パターン51における極小部52に対する指向性パターン101の極大部103、
死角パターン51における極小部53に対する指向性パターン101の極大部104、
死角パターン51における極小部55に対する指向性パターン101の極大部105、
これらの対応関係である。
これらの対応関係を持つ死角パターン51における極小部52,53,55を真の音源方向の候補として残す。
さらに方向点を絞り込むため、条件5も用いる。
これは、例えば騒がしい環境において方向点が誤検出されるのを防ぐための条件である。方向推定に基づく音声区間検出という方法は、騒がしい環境(背後に多数の音源が存在している環境)でも、マイクロホンの近くの音源に対してはある程度は動作する。ただし、条件1〜4だけでは背後の音源も方向点として検出されてしまうため、それを防ぐために閾値を動的に変化させる。その仕組みを、図6を用いて説明する。
図6では途中のブロックまで方向点が求まった状態を表わしている。
αは0.1や0.2といった、0と1との間の値を用いる。そして、式[1.8]によって判別を行なう。
死角パターンの生成方法は従来のMUSIC法とほぼ同様であり、観測信号の共分散行列に対応した固有ベクトルのうち、最小の固有値に対応したものの指向特性を調べることで行なう。一方、指向性パターンの生成方法は、固有ベクトルのうち、最大の固有値に対応したものの指向特性を調べることで行なう。
その過程について、以下に示す式[2.1]〜[2.8]を参照しながら説明する。
ただし、
ωは周波数ビンの番号(ω=1,2,…,M)、
tはフレームの番号である。
ただし、式[2.2]において、
<・>_{t−L'<τ≦t}は、
t−L'<τ≦tを満たすフレームの間でカッコ内の式の平均をとることを表わす。
tはブロックの末端のフレーム番号(例えば図6のブロックB151の末端156のフレーム番号)、L'はブロックの長さ(フレーム数)、
t−L'+1はブロックの始端のフレーム番号(例えば図6のブロックB151の始端155のフレーム番号)を表わす。
上記式[2.2]に従って算出される共分散行列を、R(ω)とする。
式[2.3]において、
D(ω)は固有値からなる対角行列であり(式[2.5])、
V(ω)は固有ベクトルV_1(ω)〜V_n(ω)からなる行列である。
また、上付きのHはエルミート転置(要素を共役複素数に変換してから転置)を表わす。
共分散行列R(ω)はR(ω)^H=R(ω)を満たすため、固有値d_1(ω)〜d_n(ω)は全て実数であり、これらは大きい順に並んでいるものとする(式[2.6])。
固有ベクトルV_1(ω)〜V_n(ω)の大きさは1であり、またお互いに直交しているとする。
すなわち、式[2.7]および式[2.8]を満たす。
この環境での音源数は2個なので、固有ベクトルは、
V_1(ω),V_2(ω)の組と、
V_3(ω),V_4(ω)の組に
二分される。
基準点262はマイクロホンの近くの任意の地点でよく、例えばマイクロホン間の重心と一致させた基準点の設定や、あるいはマイクロホンのどれかと一致させた基準点の設定とするなど、様々な設定としてよい。基準点252の位置ベクトル(すなわち座標)をmとする。
音源位置がマイクロホンとほぼ同じ高さであるなら、方向ベクトルq(θ)251はX−Y平面上(垂直方向をZ軸とする)のベクトルとして考えればよく、方向ベクトルq(θ)の成分は、上記の式[3.1]で表わせる。
ただし方向θは、X軸となす角である(図8(座標およびベクトル設定参考図)参照)。
jは、虚数単位、
Mは、周波数ビン数、
Fは、サンプリング周波数、
Cは、音速、
m_kは、マイクロホンkの位置ベクトル、
を表わし、
上付きのTは通常の転置を表わす。
すなわち、平面波を仮定すると、マイクロホンk,253は基準点m,252よりも図8に示す距離255の分だけ音源に近く、逆にマイクロホンi,254は図8に示す距離256の分だけ遠い。
q(θ)^T(m_k−m)、および、
q(θ)^T(m_i−m)
と表わせる。
距離差を位相差に変換すると、上記の式[3.2]で示す基準点m,252に対するマイクロホンk,253の位相差:S_k(ω,θ)の算出式が得られる。
|W_N(ω)S(ω,θ)|
である。
本発明では、死角パターン生成用の空間フィルタである死角フィルタW_N(ω)として、最小の固有値に対応した固有ベクトルV_n(ω)のエルミート転置を用い(式[3.4])、そこからゲインの対数P_N(ω,θ)を計算する(式[3.5])。
さらに、全周波数ビンで総和することで死角パターンP_N(θ)を生成している(式[3.6])。
次に、区間の状態に応じた方向点検出条件の変更について説明する。
音声区間検出においては、誤検出(発話していないのに検出される)は少ない方が望ましい。一方で、1つの発話が複数の区間に分断されるのは望ましくない。
しかし、方向点の検出条件が固定されている場合、この 2つはトレードオフになり得てしまう。そこでトレードオフを解消するため、本発明ではトラッキングの状態(発話区間内か否か)に応じて、方向点の検出条件を変更する。
(条件6)死角パターンの極小部の値の方が、対応する指向性パターンの極大部の値よりも小さい。
例えば図5において、
方向:θ=p,111と、方向:θ=q,112の各方向では、上記の(条件6)を満たしており、「強い方向点」である。
しかし、方向:θ=r,113の方向では、上記の(条件6)を満たしておらず、「弱い方向点」となる。
「強い方向点」は本当の音源方向に対応している可能性が高い。それに対し、
「弱い方向点」については以下のような様々な可能性があり得る。
(1)死角パターンの極小と指向性パターンの極大とがたまたま一致した。(音源ではない)
(2)音声発話の開始直後や終了直後に対応したブロック。(音源である)
(3)発話途中の短い無音区間。
(4)他の音源との兼ね合いによって死角が相対的に浅くなった。(音源である)
(5)冷却ファンの音のような、小さいながらも定常的に鳴り続けている音。(音源であるが、検出して欲しくない。)
(6)小さな音が一瞬だけ鳴った。(音源であるが、検出して欲しくない。)
この処理について図9を参照して説明する。
図9は、例えば先に説明した図1(d)と同様の図であり、各ブロックで検出された方向点と、方向点を接続して得られる区間を示している。ブロックの区切りは省略してある。
図9において、円は方向点を表わし、塗りつぶされた円で示す方向点275などは「強い方向点」を、斜線の円で示す方向点271〜274は「弱い方向点」を表わす。
そこで「弱い方向点」は、区間の内側にあれば採用し、外側にあれば棄却する。図9では、弱い方向点273,274は方向点として採用し、弱い方向点271,272は棄却する。このような「弱い方向点」に対する選択処理を実行することで、「強い方向点」が連続する途中で現れる弱い方向点273による分断を防ぐ一方で、「強い方向点」から離間した位置の弱い方向点271を方向点とみなしてしまう誤検出も防ぐ。
次に、新規の死角フィルタと指向性フィルタの詳細について説明する。
先に説明した(2−1.死角パターンと指向性パターンとの併用構成)の項目では、死角フィルタと指向性フィルタとして、それぞれ以下の設定のフィルタを用いていた。
死角フィルタW_N(ω)として、最小の固有値に対応した固有ベクトルV_n(ω)のエルミート転置(式[3.4])。
指向性フィルタW_D(ω)として、最大の固有値に対応した固有ベクトルV_1(ω)のエルミート転置(式[3.7])。
大きな固有値に対応した固有ベクトルは音源方向に指向性を向けているため、W_D(ω)も音源方向に指向性を向けた空間フィルタとなる。
このV'(ω)の各行のうちのどれかを、死角フィルタW_N(ω)として用いる。
なお、式[4.2]は、先に式[2.2]を参照して説明した共分散行列R(ω)の−1/2乗を求める式と等しいが、V'(ω)の各行を空間フィルタとして見なすと、ブロック内の全ての音源に死角を向けたものになっている。
次に、音信号処理装置の構成と処理について説明する。
音信号処理装置の構成と処理について、図10〜図14を参照して説明する。
図10は、音信号処理装置の全体構成を示す図であり、図11〜図14は各モジュールの詳細を示す図である。
まず、図10を参照して音信号処理装置の全体構成と処理について説明する。
音信号はマイクロホンアレイ301で収音され、得られた多チャンネルの音データはAD変換部302においてデジタル信号へ変換される。このデータを(時間領域の)観測信号と呼ぶ。
例えば、音声認識機などである。なお、音声認識機には音声区間検出機能を持つものもあるが、その機能は省略可能である。また、音声認識機は音声特徴量を抽出するためにSTFTを備えることが多いが、本発明と組み合わせる場合は、音声認識側のSTFTは省略可能である。
なお、図10に示す各モジュールは制御部309によって制御される。
次に、図10に示すモジュール中の方向推定部305の詳細について、図11を参照して説明する。
方向推定部305は、STFT部304から送られてきた時間周波数領域の観測信号321を入力して、方向点情報327を生成して出力する処理を実行する。
例えば先に説明した式[3.4]に示す死角フィルタW_N(ω)、式[3.7]に示す指向性フィルタW_D(ω)である。なお、このフィルタ生成に際しては、先に項目(2−3.新規の死角フィルタと指向性フィルタについて)において説明した式[4,1]、式[4.2]を用いたフィルタ生成を行ってもよい。
同様に、指向性パターン生成部335において、指向性フィルタ324にステアリングベクトルを作用させ、指向性パターン326を生成する。
死角パターンは、例えば先に説明した式[3.6]に示す死角パターンP_N(θ)であり、指向性パターンは、先に説明した式[3.9]に示す指向性パターンP_D(θ)である。
なお、n個のマイクロホンからは最大でn−1個の死角が形成できるため、1つのブロックから得られる方向点の個数は、最大でn−1個である。
方向推定部305の出力する方向点情報327には、音源と推定される方向を示す方向情報のみならず、各方向点が「強い方向点」か「弱い方向点」かを区別するために適用する情報が含まれる。具体的には、方向点か否かの判別で使用した値の一部データを含む情報である。
図12には、1つの方向点情報327の構成データの一例を表わしている。
方向点情報327には、図12に示すように、
(a)方向点の方向(θ)341、
(b)死角フィルタ側の極小部の値342、
(c)指向性フィルタ側の極大部の値343、
これらのデータが含まれる。
(条件6)死角パターンの極小値の方が、対応する指向性パターンの極大値よりも小さい。
この条件6の判定を行なうためのデータとして利用される。
次に、図10に示す音信号処理装置の方向トラッキング部306の構成と処理について図13を参照して説明する。
この方向点情報327は、方向トラッキング部306の制御部351に入力される。制御部351は、方向トラッキング部を制御するモジュールである。制御部351は、区間の新規作成や、終端等が確定していない作成中の区間の延長や、区間の確定などを行なう。生成中の区間は、作成中区間バッファ352に格納される。
方向トラッキング部306の生成する区間情報の構成データの一例について、図14を参照して説明する。
開始ブロック番号372は、区間の開始位置に対応するブロック(図1、図6を参照して説明したブロック)の番号である。なお、ブロック番号の代わりに、STFT のフレームの番号や、本当の時刻を保持しても良い。
終了ブロック番号373は、区間の終了に対応したブロックの番号である。これも開始ブロック番号と同様、フレーム番号や時刻でも良い。なお、生成途中の区間については、終端が確定していないため、ここには「未定義」を表わす値を格納しておく。
方向374は、区間に対応する音源方向である。生成途中の区間については、その時点で計算される方向を格納する。
例えば、図9に示す区間276の区間においては、有効ブロック数は10である(方向点281〜方向点274まで10個の方向点が検出されたブロックが存在する)。
次に、図15以下に示すフローチャートを参照して音信号処理装置の実行する処理シーケンスについて説明する。
まず、ステップS101において、初期設定として、
フレーム(STFTによって生成される)の番号を示す変数tを0、
ブロック(図1、図6等を参照して説明したブロック)の番号を示す変数Bを0とする変数の初期値設定処理を実行する。ブロックの長さは、通常の発話の長さと比べて十分短い値とする。例えば1/10秒や1/8秒に設定する。
これらの設定は、例えば図10に示す装置構成の制御部309において行われる。
これは、図10に示すAD変換部302、およびSTFT部303において実行される。
さらにSTFT部303は、短時間フーリエ変換(STFT)によって時間周波数領域の信号(スペクトル)へ変換する。
なお、音信号の入力は、図10に示すようなマイクロホンからの他、必要に応じてファイルやネットワークなどから行なってもよい。
STFT部303の実行する短時間フーリエ変換(STFT)処理の詳細については、後述する。
・チャンネルk、
・周波数ビンω
・フレームt、
における観測信号を、
Xk(ω,t)
と表わす(これは先に説明した式[2.1]などに対応する)。
M=l/2+1
上記式によって計算できる。
tを+1する更新処理を実行する。
ステップS106は、観測信号の共分散行列から方向点を求める処理である。この処理は、図10に示す方向推定部305の実行する処理である。すなわち、図11を参照して説明したように、STFT部の生成する時間周波数領域の観測信号に基づいて図12に示すデータからなる方向点情報を生成する処理として実行される。詳細は後述する。
ブロック番号Bを+1する更新処理を実行する。
最後に、ステップS109において、処理を継続するか否かの分岐を行ない、継続の場合はステップS102に戻る。継続しない場合は処理を終了する。
例えば、図10に示す装置中に音声入力部として構成されるn本のマイクからなるマイクロホンアレイ301中のk番目のマイクによって観測される観測信号の波形x_k(*)である。
スペクトルXk(t)は要素数Mのベクトルであり、ω番目の要素をXk(ω,t)として示される。
この処理は、先に図11を参照して説明した処理であり、STFT部の生成する時間周波数領域の観測信号に基づいて図12に示すデータからなる方向点情報を生成する処理として実行される。
ステップS201において、観測信号の共分散行列を求める。この処理は、図11における共分散行列計算部331の実行する処理である。STFT部の生成する時間周波数領域の観測信号に基づいて観測信号の共分散行列を求める。
共分散行列の計算には、先に説明した式[2.2]を用いる。
この処理は、図11に示す空間フィルタ生成部332の実行する処理であり、共分散行列を入力して、共分散行列から2種類の空間フィルタを生成する。1つは死角フィルタであり、もう1つは指向性フィルタである。
例えば先に説明した式[3.4]に示す死角フィルタW_N(ω)、式[3.7]に示す指向性フィルタW_D(ω)を生成する。なお、このフィルタ生成に際しては、先に項目(2−3.新規の死角フィルタと指向性フィルタについて)において説明した式[4,1]、式[4.2]を用いたフィルタ生成を行ってもよい。
それぞれから死角パターンと指向性パターンとを生成する。
図11に示す死角パターン生成部334において、死角フィルタにステアリングベクトルを作用させ、死角パターンを生成する。
同様に、指向性パターン生成部335において、指向性フィルタにステアリングベクトルを作用させ、指向性パターンを生成する。
先に、(2−1.死角パターンと指向性パターンとの併用構成)、および(2−3.新規の死角フィルタと指向性フィルタ)において詳細に説明した通りである。
例えば、死角パターンは、例えば先に説明した式[3.6]に示す死角パターンP_N(θ)であり、指向性パターンは、先に説明した式[3.9]に示す指向性パターンP_D(θ)である。
なお、ここでいう方向点は、「強い方向点」と「弱い方向点」との両方である。すなわち、先の説明項目(2−2.区間の状態に応じた方向点検出条件の変更構成)で説明した条件1〜条件6のうち、少なくとも条件1〜条件5を満たしている点である。
ステップS301の「区間の延長・確定」処理と、
ステップS302の「新規区間作成」処理、
これらの2つの処理から構成される。
ステップS301では、「強い方向点」と「弱い方向点」との両方を用いて「区間の延長・確定」処理を実行する。
一方、ステップS302では、「強い方向点」のみを用いて「新規区間作成」処理を実行する。
ステップS301の「区間の延長・確定」処理は、図13に示す作成中区間バッファ352に格納されている作成中区間データに対する処理である。そのため、図19に示すフローにおいて、ステップS401〜S408において作成中区間についてのループを回し、作成中区間の各々に対してステップS402〜S407の処理を行なう。
具体的には、方向トラッキング部306が生成し、作成中区間バッファ352に格納した作成中区間情報中の「方向」(図14に示す区間情報361内の「方向」374)と、新たに方向トラッキング部306が方向推定部305から入力した方向点情報中の「方向」(図12の方向点情報327中の「方向」341)とを比較し、両者の差が所定の規定閾値の範囲(例えば±10°以内)に収まっていれば、区間の付近に方向点が存在していると判定する。
ステップS403〜S404の処理は、区間の延長に関する処理である。具体的には、区間情報の更新処理を行う。
ステップS403において、区間情報中の有効ブロック数の更新を行う。すなわち、図14に示す区間情報361中の有効ブロック数376を+1すると共に、断絶ブロック数375に0を代入する。
方向データをA、
有効ブロック数(ステップS403において+1した更新後の値)をB、
新たに方向トラッキング部306が方向推定部305から入力した方向点情報中の「方向」(図12の方向点情報327中の「方向」341)をC、
として、以下の式で、方向Aを更新する。
A←{(B−1)A+C}/B
この場合、それまで生成中の区間情報において連続していた方向点が断絶したことを表わしており、一定時間以上断絶したら、区間の終端と判別する。
この処理のため、ステップS405では、図14に示す区間情報361に含まれる断絶ブロック数375を+1する更新処理を実行する。
ステップS406において、更新した断絶ブロック数375が所定値以上の場合は、ステップS406の判定がYesとなり、ステップS407に進む。
ステップS407では、区間の終端が確定したと見なし、「区間の出力・棄却」処理を行う。ここの詳細は後述する。
一方、ステップS406において、更新した断絶ブロック数375が所定値以上でないと判定した場合はステップS406の判定はNoとなり、ステップS407の処理をスキップしてステップS408に進む。
図20(a)は、図1(d)と同様の図であり、各ブロックにおいて検出された複数の方向点501〜503と方向点に基づいて設定される作成中の音声区間504,505を示している。なお、図1(c)、図6に示すブロック区切りは省略している。
このように、1回の発話に対して複数の区間が設定されてしまうことは検出誤りである可能性が高い。したがって、このような、区間の多重検出を防ぐ対策が必要となる。
例えば、図20(a)に示す方向点503は、音声区間504と音声区間505の2つの区間によって採用される多重採用型の方向点である。
このような、多重採用型の方向点503が発生したことを検出した場合、この時点で、その多重採用型の方向点503を採用対象とした複数の音声区間の長さを比較する。
ステップS501において、終了ブロック番号を計算し、計算した終了ブロック番号の値を、図4を参照して説明した区間情報、すなわち図13に示す作成中区間バッファ352に格納されている作成中区間に対応する区間情報中の出漁ブロック番号373として記録する。
図19のフローのステップS406における断絶ブロック数の判定閾値としての所定値をB_{discontinue}、
とすると、
終了ブロック番号は以下の式で計算される。
終了ブロック番号=B−B_{discontinue}
ステップS502〜S504のいずれかの条件を満たさないと判定した場合は、有効な区間ではないと判定して、ステップS506において棄却する処理を行う、すなわち、これまで、図13に示す作成中区間バッファ352に記録されていた作成中区間の区間情報を削除する処理を行う。
すなわち、予め規定した範囲にある場合のみ、その区間を有効と判定する。なお、この判定条件に適用する「範囲」は、音声の取得環境に応じて設定することが望ましい。
区間の開始ブロック番号(図14に示す区間情報中の開始ブロック番号372)をB_{begin}、
終了ブロック数(図14に示す区間情報中の終了ブロック数375)をB_{end}、
有効ブロック数(図14に示す区間情報中の有効ブロック数376)をB_{valid}
とすると、
有効ブロックの割合は以下の式で計算される。
有効ブロックの割合=B_{valid}/(B_{end}−B_{begin}+1)
なお、最初のブロックの解析中においては作成中区間が存在しないため、最初のブロックの「強い方向点」は必ず区間の始点となる。
開始ブロック番号372には、現在解析中のブロックの番号を代入する。
終了ブロック番号373に対しては、この時点では終端が検出されていないため、未定義を表わす値を代入しておく。
断絶ブロック数375には0を代入する。
有効ブロック数376には1を代入する。
上記の実施例では、基本的な1つの構成例について説明した。
以下、上述した基本的な実施例に対する変形例について説明する。
「強い方向点」と「弱い方向点」とを区別するための方向点判定条件として、上述の実施例では(条件6)を用いていた。すなわち、
「死角パターン側の極小値<指向性パターン側の極大値」
を満足する場合に「強い方向点」、満足しない場合に「弱い方向点」と判定する処理を実行していた。
例えば、先に説明した音源方向を示す方向点とみなすための(条件5)、すなわち、
(条件5)直近のブロック群における死角パターンの最小値から動的に計算した閾値に基づく判定条件を満たす。(動的閾値に従った判定条件)
上記条件において、動的閾値を求める際に、先に説明した式[1.7]に示すパラメータ:αを2通り用意し、それぞれ
α_{large},
α_{small}
とする。
ただし、0<α_{small}<α_{large}<1である。
これらを、それぞれ、
T_{tight},
T_{loose}
とする。これらを、以下の式[5.1]、[5.2]として示す。
P_{min}は負の値であるため、式[5.3]の方が厳しい条件である。そこで、条件1〜4および式[5.3]を満たす方向点を「強い方向点」、条件1〜4および式[5.4]を満たす方向点を「弱い方向点」とする。
このような「強い方向点」と「弱い方向点」との判定条件を適用してもよい。
次に、変形例2として、先に「背景技術」の欄で紹介した従来技術としての「単一のマイクロホンを用いる方式」(すなわち、「音声らしさ」に基づく方式)の音声区間検出を、上述した本発明の音声区間検出処理と組み合わせた構成について説明する。この組み合わせにより、発話区間を一層正確に検出することが可能となる。この構成例について図23を参照して説明する。
第1音声区間検出部(音源方向推定に基づく音声区間検出部)601は、の実施例で説明した方式を用いた音声区間検出を実行するモジュールである。ただし、第1音声区間検出部601は、後段の音源抽出部602において、さらに詳細な区間検出を行なうため、検出された区間の前後にマージンをつけた区間情報を出力する。すなわち第1音声区間検出部601を単独で用いる場合よりも長めの区間を出力する。
両方式の音声区間検出を組み合わせる利点は、以下の通りである。
1.区間の始端・終端の高精度化
2.音声以外の音源が棄却できる
指向性パターンの生成においては、式[3.8]の代わりに以下に示す式[6.1]を用いることも可能である。
上述したように、本開示の音信号処理装置では、音源方向推定に基づく音声区間検出において以下の工夫を行なっている。
1.死角パターンの他に指向性パターンも用いて方向点を検出する。
2.方向点のトラッキングにおいて、発話区間の始端の検出と区間の延長とで方向点の検出のための条件を変える。
例えばこれらの処理に基づいて音声区間検出の精度が向上する。
12 AD変換部
15,16 ライン(音声区間)
21 重心
22 マイクマロホン
25,26 音源
31 死角パターン
38 閾値
51 死角パターン
101 指向性パターン
151〜153 ブロック
154 ブロック群
201〜204 指向性パターン
251 方向ベクトル
252 基準点
253,254 マイクロホン
271〜275,281 方向点
276 区間
301 マイクロホンアレイ
302 AD変換部
303 STFT部
304 観測信号バッファ
305 方向推定部
306 方向トラッキング部
307 音源抽出部
308 後段の処理
309 制御部
321 時間周波数領域の観測信号
322 共分散行列
323 死角フィルタ
324 指向性フィルタ
325 死角パターン
326 指向性パターン
327 方向点情報
331 共分散行列計算部
332 空間フィルタ生成部
333 ステアリングベクトル
334 死角パターン生成部
335 指向性パターン生成部
336 方向点検出部
341 方向
342 死角パターンの極小部の値
343 指向性パターンの極大部の値
351 制御部
352 作成中区間バッファ
361 区間情報
371 区間ID
372 開始ブロック番号
373 終了ブロック番号
374 方向
375 断絶ブロック数
376 有効ブロック数
401〜403 フレーム
501〜503 方向点
504,505 作成中の区間
506 方向点
507,508 作成中の区間
601 第1音声区間検出部
602 音源抽出部
603 第2音声区間検出部
Claims (9)
- 音信号の音源方向を示す方向点を所定時間単位で分割したブロック毎に検出する方向推定部と、
前記方向点を複数ブロック間で接続して音が発生している区間の検出を行う方向トラッキング部を有し、
前記方向推定部は、
音源方向に対する感度の低い空間フィルタである死角フィルタと、音源方向に対する感度の高い空間フィルタである指向性フィルタを生成する空間フィルタ生成部と、
前記死角フィルタに対応する方向とゲインとの対応関係データである死角パターンを生成する死角パターン生成部と、
前記指向性フィルタに対応する方向とゲインとの対応関係データである指向性パターンを生成する指向性パターン生成部と、
前記死角パターンの極小部と、前記指向性パターンの極大部の組み合わせを有する方向を、音源方向を示す方向点として検出する方向点検出部を有する音信号処理装置。 - 前記空間フィルタ生成部は、
音信号から生成される時間周波数領域の観測信号から前記ブロック毎に計算される共分散行列に対する固有値分解処理により固有値と固有ベクトルを算出し、算出した最大の固有値に対応する固有ベクトルを用いて前記指向性フィルタを生成する請求項1に記載の音信号処理装置。 - 前記空間フィルタ生成部は、
音信号から生成される時間周波数領域の観測信号から前記ブロック毎に計算される共分散行列に対する固有値分解処理により固有値と固有ベクトルを算出し、算出した固有ベクトルに対して固有値を重みとした重みつき総和または重み付き平均により前記指向性フィルタを生成する請求項1に記載の音信号処理装置。 - 前記空間フィルタ生成部は、
音信号から生成される時間周波数領域の観測信号から前記ブロック毎に計算される共分散行列に対する固有値分解処理により固有値と固有ベクトルを算出し、固有ベクトルからなる行列V(ω)と、固有値からなる対角行列D(ω)を用いた演算処理らにより、変形済行列V'(ω)を算出し、算出した変形済行列V'(ω)の各行のいずれかを用いて死角フィルタを生成する請求項1に記載の音信号処理装置。 - 前記方向点検出部は、
新たな方向点検出処理対象とするブロックの近傍ブロック群における死角パターンの最小値に基づいて計算した動的閾値を適用して、死角パターンにおける極小部を方向点とするか否かの選択を実行する請求項1に記載の音信号処理装置。 - 前記方向点検出部は、
死角パターンの極小部の値が対応する指向性パターンの極大部の値よりも小さいという条件を満たす方向点を強い方向点とし、前記条件を満たさない方向点を弱い方向点として区別し、
作成中の区間の内側にある弱い方向点は音源方向を示す方向点として選択し、
作成中の区間の外側にある弱い方向点は音源方向を示す方向点として選択しない処理を行う請求項1に記載の音信号処理装置。 - 前記方向点検出部は、
死角パターンの極小部の値が対応する指向性パターンの極大部の値よりも小さいという条件を満たす方向点を強い方向点とし、前記条件を満たさない方向点を弱い方向点として区別し、
作成中の区間の延長と確定処理においては、強い方向点と弱い方向点の双方を、音源方向を示す方向点として選択し、
新規の区間の作成開始時には、強い方向点のみを音源方向を示す方向点として選択する処理を行う請求項1に記載の音信号処理装置。 - 音信号処理装置において実行する音信号処理方法であり、
方向推定部が、音信号の音源方向を示す方向点を所定時間単位で分割したブロック毎に検出する方向推定ステップと、
方向トラッキング部が、前記方向点を複数ブロック間で接続して区間の検出を行う方向トラッキングステップを実行し、
前記方向推定ステップは、
音源方向に対する感度の低い空間フィルタである死角フィルタと、音源方向に対する感度の高い空間フィルタである指向性フィルタを生成する空間フィルタ生成ステップと、
前記死角フィルタに対応する方向とゲインとの対応関係データである死角パターンを生成する死角パターン生成部ステップ、
前記指向性フィルタに対応する方向とゲインとの対応関係データである指向性パターンを生成する指向性パターン生成ステップと、
前記死角パターンの極小部と、前記指向性パターンの極大部の組み合わせを有する方向を、音源方向を示す方向点として検出する方向点検出ステップを実行する音信号処理方法。 - 音信号処理装置において音信号処理を実行させるプログラムであり、
方向推定部に、音信号の音源方向を示す方向点を所定時間単位で分割したブロック毎に検出させる方向推定ステップと、
方向トラッキング部に、前記方向点を複数ブロック間で接続して区間の検出を行わせる方向トラッキングステップを実行させ、
前記方向推定ステップにおいては、
音源方向に対する感度の低い空間フィルタである死角フィルタと、音源方向に対する感度の高い空間フィルタである指向性フィルタを生成する空間フィルタ生成ステップと、
前記死角フィルタに対応する方向とゲインとの対応関係データである死角パターンを生成する死角パターン生成部ステップ、
前記指向性フィルタに対応する方向とゲインとの対応関係データである指向性パターンを生成する指向性パターン生成ステップと、
前記死角パターンの極小部と、前記指向性パターンの極大部の組み合わせを有する方向を、音源方向を示す方向点として検出する方向点検出ステップを実行させるプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011008208A JP2012150237A (ja) | 2011-01-18 | 2011-01-18 | 音信号処理装置、および音信号処理方法、並びにプログラム |
US13/348,260 US9361907B2 (en) | 2011-01-18 | 2012-01-11 | Sound signal processing apparatus, sound signal processing method, and program |
CN2012100065810A CN102610227A (zh) | 2011-01-18 | 2012-01-11 | 声音信号处理设备、声音信号处理方法和程序 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011008208A JP2012150237A (ja) | 2011-01-18 | 2011-01-18 | 音信号処理装置、および音信号処理方法、並びにプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012150237A true JP2012150237A (ja) | 2012-08-09 |
Family
ID=46490784
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011008208A Ceased JP2012150237A (ja) | 2011-01-18 | 2011-01-18 | 音信号処理装置、および音信号処理方法、並びにプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US9361907B2 (ja) |
JP (1) | JP2012150237A (ja) |
CN (1) | CN102610227A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014125736A1 (ja) * | 2013-02-14 | 2014-08-21 | ソニー株式会社 | 音声認識装置、および音声認識方法、並びにプログラム |
WO2015125567A1 (ja) * | 2014-02-20 | 2015-08-27 | ソニー株式会社 | 音信号処理装置、および音信号処理方法、並びにプログラム |
US9357298B2 (en) | 2013-05-02 | 2016-05-31 | Sony Corporation | Sound signal processing apparatus, sound signal processing method, and program |
JPWO2019049276A1 (ja) * | 2017-09-07 | 2019-12-26 | 三菱電機株式会社 | 雑音除去装置および雑音除去方法 |
JPWO2021124537A1 (ja) * | 2019-12-20 | 2021-06-24 |
Families Citing this family (76)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2734323A1 (en) * | 2011-03-17 | 2012-09-17 | Lucas Majchrowicz | Coded vocal beatboxing expression and its use in a beatboxing game |
WO2013009949A1 (en) * | 2011-07-13 | 2013-01-17 | Dts Llc | Microphone array processing system |
US9291697B2 (en) * | 2012-04-13 | 2016-03-22 | Qualcomm Incorporated | Systems, methods, and apparatus for spatially directive filtering |
JP6604331B2 (ja) * | 2014-10-10 | 2019-11-13 | ソニー株式会社 | 音声処理装置および方法、並びにプログラム |
CN105590631B (zh) * | 2014-11-14 | 2020-04-07 | 中兴通讯股份有限公司 | 信号处理的方法及装置 |
WO2017029044A1 (en) * | 2015-08-19 | 2017-02-23 | Retune DSP ApS | Microphone array signal processing system |
US10509626B2 (en) | 2016-02-22 | 2019-12-17 | Sonos, Inc | Handling of loss of pairing between networked devices |
US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US10097919B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Music service selection |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10152969B2 (en) | 2016-07-15 | 2018-12-11 | Sonos, Inc. | Voice detection by multiple devices |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
US9743204B1 (en) | 2016-09-30 | 2017-08-22 | Sonos, Inc. | Multi-orientation playback device microphones |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
WO2018133056A1 (zh) * | 2017-01-22 | 2018-07-26 | 北京时代拓灵科技有限公司 | 一种声源定位的方法和装置 |
US11183181B2 (en) | 2017-03-27 | 2021-11-23 | Sonos, Inc. | Systems and methods of multiple voice services |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10051366B1 (en) | 2017-09-28 | 2018-08-14 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
CN107742522B (zh) | 2017-10-23 | 2022-01-14 | 科大讯飞股份有限公司 | 基于麦克风阵列的目标语音获取方法及装置 |
US10880650B2 (en) | 2017-12-10 | 2020-12-29 | Sonos, Inc. | Network microphone devices with automatic do not disturb actuation capabilities |
US10818290B2 (en) | 2017-12-11 | 2020-10-27 | Sonos, Inc. | Home graph |
US11343614B2 (en) | 2018-01-31 | 2022-05-24 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10957338B2 (en) * | 2018-05-16 | 2021-03-23 | Synaptics Incorporated | 360-degree multi-source location detection, tracking and enhancement |
US10847178B2 (en) | 2018-05-18 | 2020-11-24 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
JP6961545B2 (ja) * | 2018-07-02 | 2021-11-05 | 株式会社東芝 | 音信号処理装置、音信号処理方法、およびプログラム |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US10878811B2 (en) | 2018-09-14 | 2020-12-29 | Sonos, Inc. | Networked devices, systems, and methods for intelligently deactivating wake-word engines |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US10811015B2 (en) | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
EP3654249A1 (en) | 2018-11-15 | 2020-05-20 | Snips | Dilated convolutions and gating for efficient keyword spotting |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US11138969B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
US11727919B2 (en) | 2020-05-20 | 2023-08-15 | Sonos, Inc. | Memory allocation for keyword spotting engines |
US11308962B2 (en) | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
CN111862987B (zh) * | 2020-07-20 | 2021-12-28 | 北京百度网讯科技有限公司 | 语音识别方法和装置 |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
CN112201259B (zh) * | 2020-09-23 | 2022-11-25 | 北京百度网讯科技有限公司 | 声源定位方法、装置、设备和计算机存储介质 |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
US11551700B2 (en) | 2021-01-25 | 2023-01-10 | Sonos, Inc. | Systems and methods for power-efficient keyword detection |
US11889261B2 (en) * | 2021-10-06 | 2024-01-30 | Bose Corporation | Adaptive beamformer for enhanced far-field sound pickup |
US12096242B2 (en) * | 2022-01-19 | 2024-09-17 | Lg Electronics Inc. | Method and apparatus for reducing interference effects in wireless communication systems |
CN116502654B (zh) * | 2023-03-29 | 2024-11-01 | 苏州大学 | 一种非自回归机器翻译系统、方法和电子设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1041733A (ja) * | 1996-04-18 | 1998-02-13 | Shogen Sai | 配列アンテナ及びその設計方法と、配列アンテナでの信号処理方法と、それを利用した信号送受信装置及び方法 |
JP2001305202A (ja) * | 2000-04-24 | 2001-10-31 | Toyota Central Res & Dev Lab Inc | Musicスペクトラム計算方法、その装置及び媒体 |
US6449216B1 (en) * | 2000-08-11 | 2002-09-10 | Phonak Ag | Method for directional location and locating system |
JP2003258770A (ja) * | 2002-03-05 | 2003-09-12 | Nippon Telegr & Teleph Corp <Ntt> | 送信装置 |
JP2003529045A (ja) * | 2000-08-11 | 2003-09-30 | フォーナック アーゲー | 方位決定方法、方位決定装置及びこれらの補聴器への適用 |
JP2008175733A (ja) * | 2007-01-19 | 2008-07-31 | Fujitsu Ltd | 音声到来方向推定・ビームフォーミングシステム、移動装置及び音声到来方向推定・ビームフォーミング方法 |
JP2008249702A (ja) * | 2007-03-05 | 2008-10-16 | Univ Nihon | 音響測定装置及び音響測定方法 |
JP2010121975A (ja) * | 2008-11-17 | 2010-06-03 | Advanced Telecommunication Research Institute International | 音源定位装置 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04182444A (ja) | 1990-11-19 | 1992-06-30 | Ado Kemuko Kk | 3,5‐キシレノールの精製方法 |
JPH04282704A (ja) | 1991-03-12 | 1992-10-07 | Mitsubishi Electric Corp | シーケンスコントローラ |
US7613310B2 (en) * | 2003-08-27 | 2009-11-03 | Sony Computer Entertainment Inc. | Audio input system |
JP4819380B2 (ja) * | 2004-03-23 | 2011-11-24 | キヤノン株式会社 | 監視システム、撮像設定装置、制御方法、及びプログラム |
WO2007127182A2 (en) * | 2006-04-25 | 2007-11-08 | Incel Vision Inc. | Noise reduction system and method |
US20110014981A1 (en) * | 2006-05-08 | 2011-01-20 | Sony Computer Entertainment Inc. | Tracking device with sound emitter for use in obtaining information for controlling game program execution |
JP4182444B2 (ja) | 2006-06-09 | 2008-11-19 | ソニー株式会社 | 信号処理装置、信号処理方法、及びプログラム |
JP4282704B2 (ja) | 2006-09-27 | 2009-06-24 | 株式会社東芝 | 音声区間検出装置およびプログラム |
US8005238B2 (en) * | 2007-03-22 | 2011-08-23 | Microsoft Corporation | Robust adaptive beamforming with enhanced noise suppression |
CN101203063B (zh) * | 2007-12-19 | 2012-11-28 | 北京中星微电子有限公司 | 麦克风阵列的噪声消除方法及装置 |
JP4544348B2 (ja) * | 2008-07-14 | 2010-09-15 | ソニー株式会社 | リモートコントローラ、画像信号処理装置および画像信号処理方法 |
US8724829B2 (en) * | 2008-10-24 | 2014-05-13 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for coherence detection |
-
2011
- 2011-01-18 JP JP2011008208A patent/JP2012150237A/ja not_active Ceased
-
2012
- 2012-01-11 US US13/348,260 patent/US9361907B2/en not_active Expired - Fee Related
- 2012-01-11 CN CN2012100065810A patent/CN102610227A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1041733A (ja) * | 1996-04-18 | 1998-02-13 | Shogen Sai | 配列アンテナ及びその設計方法と、配列アンテナでの信号処理方法と、それを利用した信号送受信装置及び方法 |
US5999800A (en) * | 1996-04-18 | 1999-12-07 | Korea Telecom Freetel Co., Ltd. | Design technique of an array antenna, and telecommunication system and method utilizing the array antenna |
JP2001305202A (ja) * | 2000-04-24 | 2001-10-31 | Toyota Central Res & Dev Lab Inc | Musicスペクトラム計算方法、その装置及び媒体 |
US6449216B1 (en) * | 2000-08-11 | 2002-09-10 | Phonak Ag | Method for directional location and locating system |
JP2003529045A (ja) * | 2000-08-11 | 2003-09-30 | フォーナック アーゲー | 方位決定方法、方位決定装置及びこれらの補聴器への適用 |
JP2003258770A (ja) * | 2002-03-05 | 2003-09-12 | Nippon Telegr & Teleph Corp <Ntt> | 送信装置 |
JP2008175733A (ja) * | 2007-01-19 | 2008-07-31 | Fujitsu Ltd | 音声到来方向推定・ビームフォーミングシステム、移動装置及び音声到来方向推定・ビームフォーミング方法 |
JP2008249702A (ja) * | 2007-03-05 | 2008-10-16 | Univ Nihon | 音響測定装置及び音響測定方法 |
JP2010121975A (ja) * | 2008-11-17 | 2010-06-03 | Advanced Telecommunication Research Institute International | 音源定位装置 |
Non-Patent Citations (2)
Title |
---|
菊間信良: "部分空間追跡法を用いたDOA逐次推定とアダプティブビームフォーミング技術", 電子情報通信学会論文誌. B, 通信, vol. J87-B(9), JPN6014036800, 1 September 2004 (2004-09-01), JP, pages 1149 - 1161, ISSN: 0002992181 * |
高橋竜平,他2名: "雑音固有値を用いたスレッショルド設定による到来波数推定法", 電子情報通信学会技術研究報告. A・P, アンテナ・伝播, vol. 108, no. 304, JPN6014036799, 12 November 2008 (2008-11-12), JP, pages 127 - 132, ISSN: 0002992180 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014125736A1 (ja) * | 2013-02-14 | 2014-08-21 | ソニー株式会社 | 音声認識装置、および音声認識方法、並びにプログラム |
US10475440B2 (en) | 2013-02-14 | 2019-11-12 | Sony Corporation | Voice segment detection for extraction of sound source |
US9357298B2 (en) | 2013-05-02 | 2016-05-31 | Sony Corporation | Sound signal processing apparatus, sound signal processing method, and program |
WO2015125567A1 (ja) * | 2014-02-20 | 2015-08-27 | ソニー株式会社 | 音信号処理装置、および音信号処理方法、並びにプログラム |
EP3109855A4 (en) * | 2014-02-20 | 2017-08-02 | Sony Corporation | Sound signal processing device, sound signal processing method, and program |
US10013998B2 (en) | 2014-02-20 | 2018-07-03 | Sony Corporation | Sound signal processing device and sound signal processing method |
JPWO2019049276A1 (ja) * | 2017-09-07 | 2019-12-26 | 三菱電機株式会社 | 雑音除去装置および雑音除去方法 |
JPWO2021124537A1 (ja) * | 2019-12-20 | 2021-06-24 | ||
WO2021124537A1 (ja) * | 2019-12-20 | 2021-06-24 | 三菱電機株式会社 | 情報処理装置、算出方法、及び算出プログラム |
JP7004875B2 (ja) | 2019-12-20 | 2022-01-21 | 三菱電機株式会社 | 情報処理装置、算出方法、及び算出プログラム |
Also Published As
Publication number | Publication date |
---|---|
US9361907B2 (en) | 2016-06-07 |
US20120183149A1 (en) | 2012-07-19 |
CN102610227A (zh) | 2012-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2012150237A (ja) | 音信号処理装置、および音信号処理方法、並びにプログラム | |
CN110556103B (zh) | 音频信号处理方法、装置、系统、设备和存储介质 | |
CN107221325B (zh) | 有向性关键字验证方法以及使用该方法的电子装置 | |
US9354310B2 (en) | Systems, methods, apparatus, and computer-readable media for source localization using audible sound and ultrasound | |
WO2015125567A1 (ja) | 音信号処理装置、および音信号処理方法、並びにプログラム | |
JP6028502B2 (ja) | 音声信号処理装置、方法及びプログラム | |
JP2012234150A (ja) | 音信号処理装置、および音信号処理方法、並びにプログラム | |
CN106504763A (zh) | 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法 | |
JP2014219467A (ja) | 音信号処理装置、および音信号処理方法、並びにプログラム | |
WO2016027680A1 (ja) | 音声処理装置、音声処理方法、並びにプログラム | |
JP2019503107A (ja) | 音響信号を向上させるための音響信号処理装置および方法 | |
KR20140135349A (ko) | 복수의 마이크로폰을 이용한 비동기 음성인식 장치 및 방법 | |
JP2016127457A (ja) | 収音装置、プログラム及び方法 | |
JP2015070321A (ja) | 音声処理装置、音声処理方法、及び音声処理プログラム | |
JP7564117B2 (ja) | キューのクラスター化を使用した音声強化 | |
CN112485761A (zh) | 一种基于双麦克风的声源定位方法 | |
US20080120100A1 (en) | Method For Detecting Target Sound, Method For Detecting Delay Time In Signal Input, And Sound Signal Processor | |
JP2018132737A (ja) | 収音装置、プログラム及び方法、並びに、判定装置、プログラム及び方法 | |
US10229686B2 (en) | Methods and apparatus for speech segmentation using multiple metadata | |
JP5007400B2 (ja) | 点音源検出方法 | |
JP5772562B2 (ja) | 目的音抽出装置及び目的音抽出プログラム | |
Hu et al. | Wake-up-word detection for robots using spatial eigenspace consistency and resonant curve similarity | |
Lee et al. | Space-time voice activity detection | |
CN118398024B (zh) | 一种智能化语音交互方法、系统、介质 | |
US12148441B2 (en) | Source separation for automatic speech recognition (ASR) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20131216 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140825 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140902 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150127 |
|
A045 | Written measure of dismissal of application [lapsed due to lack of payment] |
Free format text: JAPANESE INTERMEDIATE CODE: A045 Effective date: 20150526 |