[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP7403778B2 - 音源方向特定装置 - Google Patents

音源方向特定装置 Download PDF

Info

Publication number
JP7403778B2
JP7403778B2 JP2022153296A JP2022153296A JP7403778B2 JP 7403778 B2 JP7403778 B2 JP 7403778B2 JP 2022153296 A JP2022153296 A JP 2022153296A JP 2022153296 A JP2022153296 A JP 2022153296A JP 7403778 B2 JP7403778 B2 JP 7403778B2
Authority
JP
Japan
Prior art keywords
sound source
microphones
microphone
sound
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022153296A
Other languages
English (en)
Other versions
JP2022180571A (ja
Inventor
昌浩 和田
慶介 高橋
Original Assignee
株式会社ユピテル
株式会社ユピテル鹿児島
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ユピテル, 株式会社ユピテル鹿児島 filed Critical 株式会社ユピテル
Priority to JP2022153296A priority Critical patent/JP7403778B2/ja
Publication of JP2022180571A publication Critical patent/JP2022180571A/ja
Application granted granted Critical
Publication of JP7403778B2 publication Critical patent/JP7403778B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Description

本発明は、音源方向特定装置等に関するものである。
特許文献1には、3つのマイクロフォンを備え、音源方向を推定する音源方向推定装置が記載されている。具体的には、音源方向の水平角を、3つの到達時間差を用いて算出する方法が開示されている。
特開2015-161659号公報
3つのマイクロフォンを用いて音源を特定する方法として、特許文献1の方法では、方向を精度良く特定できないおそれがあった。
本願は、例えば上記の課題等の様々な課題に鑑み提案されたものであって、従来技術とは異なる方法で、例えば3つのマイクロフォンを用いて音源方向を精度良く特定することができる音源方向特定装置等を提供すること等を目的とする。
本願の発明の目的はこれに限定されず、本明細書および図面等に開示される構成の部分から奏する効果を得ることを目的とする構成についても分割出願・補正等により権利取得する意思を有する。例えば本明細書において「~できる」と記載した箇所を「~が課題である」と読み替えた課題が本明細書には開示されている。課題はそれぞれ独立したものとして記載しているものであり、この課題を解決するための構成についても単独で分割出願・補正等により権利取得する意思を有する。課題が明細書の記載から黙示的に把握されるものであっても、本出願人は本明細書に記載の構成の一部を補正または分割出願にて特許請求の範囲とする意思を有する。
(1)本願の音源方向特定装置は、三角形の頂点に配置された3つのマイクロフォンと、音源から前記3つのマイクロフォンの各々までの音の到達時間の差に基づき、前記音源の位置を、前記三角形を含む平面に垂直な方向に沿って前記三角形を含む平面に投影した位置から前記平面の前記三角形で囲まれた領域の内側にある基準位置へ向かう音源方向を特定する特定部と、を備えることを特徴とする。このようにすれば、3つのマイクロフォンで音源方向を特定することができる。
例えば、2つのマイクロフォンを結ぶ線分の中点を基準位置とし、当該2つのマイクロフォンを含む平面を想定した場合、2つのマイクロフォンでは、音源方向の特定は制約を受けざるを得ない。
図1に示すように、間隔Dabを開けて配置されたマイクロフォンMIC(Ach)(以下、MICaと記載する。),MIC(Bch)(以下、MICbと記載する。)および音源を含む平面を想定する。図1では、音源の位置(以下、音源位置と称する)から基準位置へ向かう音源方向を矢印にて示している。また、音源方向を、マイクロフォンMICa,MICbを結ぶ線分の中点を通る、マイクロフォンMICa,MICbを結ぶ線分の垂線(図1では0°と表記する。)と音源方向とのなす角の角度(以下、音源角度と称する。)である角度θにて示すとする。以下の記載において、垂線を0°線と記載する場合がある。
音が平面波であるとみなすと、音源位置からマイクロフォンMICaまでの距離と音源位置からマイクロフォンMICbまでの距離との差である距離差Ddiffは、斜辺がマイクロフォンMICa,MICbを結ぶ線分、1辺が音源方向に直交する直角三角形のもう1辺の長さである。従って、距離差Ddiffは、次の(式1)で示される。音源位置からの距離は、マイクロフォンMICbに対し、マイクロフォンMICaの方が距離差Ddiffだけ長いということになる。
Ddiff=Dab×sinθ・・・(式1)
(式1)を変形すると、角度θは次の(式2)で示される。
θ=arcsin(Ddiff/Dab)・・・(式2)
また、音速Vsを用いて、距離差Ddiffと、マイクロフォンMICaにおける音の到達時間とマイクロフォンMICbにおける音の到達時間との差である到達時間差Tdiffとの関係は、次の(式3)で示される。
Tdiff=Ddiff/Vs・・・(式3)
(式3)を変形すると、距離差Ddiffは次の(式4)で示される。
Ddiff=Vs×Tdiff・・・(式4)
(式2)に(式4)を代入すると、次の(式5)となる。
θ=arcsin(Vs×Tdiff/Dab)・・・(式5)
(式5)において、間隔Dabおよび音速Vsが既知とすれば、到達時間差Tdiffを測定などにより求めることで、角度θを算出することができる。
しかしながら、図2に示すように、マイクロフォンMICa,MICbに対し、同じ到達時間差Tdiffとなる音源方向は、角度θで示される方向と角度θ´で示される方向との2つ存在する。ここで、角度θ´は180°から角度θを減じた角度である。従って、到達時間差Tdiffだけでは、音源角度が角度θと角度θ´との何れであるかを特定することができない。マイクロフォンMICa,MICbを通る線に対し、一方の方向を正面方向、他方の方向を背面方向と称する場合、正面方向に音源があった場合、実際には、正面方向が実像、背面方向が虚像であるが、到達時間差Tdiffだけでは、何れか実像であるか区別がつかない。
これに対して、本願の構成である同一直線上にない、三角形の頂点に配置される3つのマイクロフォンの間での到達時間の差によれば、音源方向を特定することができる。例えば、マイクロフォンMICa,MICbおよび音源を含む平面上の、マイクロフォンMICa,MICbに対して、音源方向が角度θである音1から遠い位置に、3つ目のマイクロフォンであるマイクロフォンMIC(Cch)(以下、MICcと記載する。)を配置したとする。この場合、マイクロフォンMICa,MICbよりもマイクロフォンMICcに音が早く到達した場合には音源方向は角度θ´である音2であり、マイクロフォンMICa,MICbよりもマイクロフォンMICcに音が遅く到達した場合には音源方向は角度θである音1であると特定することができる。
つまり、マイクロフォンMICaへの音の到達時間とマイクロフォンMICbへの音の到達時間との差である到達時間差Tcaを(式5)に代入して算出される、角度θおよび180°から角度θを減じた角度θ´のうち、マイクロフォンMICaへの音の到達時間とマイクロフォンMICcへの音の到達時間との差である到達時間差TcaもしくはマイクロフォンMICbへの音の到達時間とマイクロフォンMICcへの音の到達時間との差である到達時間差Tbcに基づいて、何れか一方を音源角度であると特定することができる。以下の説明において、マイクロフォンMICa~MICcの何れの組の到達時間差であるかを区別する場合には到達時間差Tab,Tbc,Tcaと記載し、総称する場合には到達時間差Tdiffと記載する。
尚、ここでは、到達時間差Tdiffは、2つのマイクロフォンにおいて、音が到達するのに要した時間の長い方の時間から、短い方の時間を減じて算出される時間であるものとする。無論、2つのマイクロフォンにおいて、音が到達するのに要した時間の長短によれば、2つのマイクロフォンのどちらが音源に対して遠方にあるかを特定することができる。
以下の説明において、図2にて示した、角度θ,θ´を区別するために、3つのマイクロフォンのうち、1組をなす2つのマイクロフォンにおいて、2つのマイクロフォンを通る線に対し、残り1つのマイクロフォンがない側を「表」、残り1つのマイクロフォンがある側を「裏」と称する。例えば、図2では、1組をなすマイクロフォンMICa、MICbにおいて、マイクロフォンMICcが図2の位置にある場合、音1がある側が「表」であり、音2がある側が「裏」である。以下の説明において、1組をなすマイクロフォンをマイク組として記載、例えば1組をなすマイクロフォンMICa、MICbをマイク組MICa⇔MICbと記載する場合がある。
さて、音源方向が、3つのマイクロフォンの位置を頂点とする三角形ABCの垂心を通り、三角形の各辺と平行な3本の線を境界線とする、6つの領域の何れに含まれるかを特定すれば、効率的に3組のマイクロフォンの各々における音源方向の表裏の区別をするこ
とができる。
図3に示すように、マイクロフォンMICa~MICcの位置を頂点とする三角形ABCの垂心を通り、三角形ABCの各辺と平行な3本の線である、平行線PLab,PLbc、PLcaを境界線とする6つの領域を領域1~6と称する。ここでは、三角形ABCの垂心を基準位置とする。音源位置から基準位置へ向かう方向が音源方向であり、図3において矢印にて音源方向の一例を示している。尚、音は平面波であるとみなしているため、音源方向は、マイクロフォンMICa~MICcを含む平面上にて、任意に移動して考えることができる。マイク組MICa⇔MICbの「表」に位置する領域は領域1~3であり、「裏」に位置する領域は領域4~6である。マイク組MICb⇔MICcの「表」に位置する領域は領域3~5であり、「裏」に位置する領域は領域1,2,6である。マイク組MICc⇔MICaの組の「表」に位置する領域は領域1、5,6であり、「裏」に位置する領域は領域2~4である。従って、例えば、音源方向が領域3にあると特定されれば、マイク組MICa⇔MICbの「表」、マイク組MICb⇔MICcの「表」、マイク組MICc⇔MICaの「表」であると、効率的に特定することができる。
ところで、図4に示す様に、三角形ABCの垂心Oを通る、三角形ABCの各辺と平行な平行線PLab,PLbc、PLcaに加え、頂点A~Cの各々から、各々の対辺に下された垂線PLa,PLb,PLcの、合計6本の線を境界線とする12の領域において、到達時間差Tdiffの大きい順は自ずと決まる。説明するに当たって、12の領域を次のように称する。垂心Oを基点として、垂心Oから頂点A側の垂線PLaから右回りに平行線PLcaまでの領域を領域R1aと称し、領域R1aから右回りに順に、領域R1b,R2a,R2b,R3a,R3b,R4a,R4b,R5a,R5b,R6a,R6bと称する。尚、垂線PLa,PLb,PLcの交点が垂心Oである。
尚、ここでは、簡単のため、三角形ABCが正三角形である場合を例に説明する。
例えば、音源位置が垂線PLa上にある場合には、マイク組MICa⇔MICbの到達時間差Tabとマイク組MICa⇔MICcの到達時間差Tcaとは同じになり、マイク組MICb⇔MICcの到達時間差Tbcは0となる。つまり、到達時間差Tab,Tcaが最大で、到達時間差Tbcが最小となる。音源位置が垂線PLb,PLc上にある場合、同様に、到達時間差Tdiffの大きい順は決まる。
また、例えば、音源位置が平行線PLab上にある場合には、到達時間差Tbcと到達時間差Tcaとは同じになり、到達時間差Tabは到達時間差Tbcおよび到達時間差Tcaの2倍となる。つまり、到達時間差Tabが最大となり、到達時間差Tbc,Tcaが最小となる。これは、音源位置からマイクロフォンMICaまでの距離と音源位置からマイクロフォンMICbまでの距離との差である距離差DDabは辺ABの長さであり、音源位置からマイクロフォンMICbまでの距離と音源位置からマイクロフォンMICcまでの距離との差である距離差DDbcは頂点Bから辺ABの中点までの距離であり、音源位置からマイクロフォンMICcまでの距離と音源位置からマイクロフォンMICaまでの距離との差である距離差DDcaは頂点Aから辺ABの中点までの距離であるからである。音源位置が平行線PLbc,PLca上にある場合、同様に、到達時間差Tdiffの大きい順は決まる。以下の説明において、マイクロフォンMICa~MICcの何れの組の距離差であるかを区別する場合には距離差DDab,DDbc,DDcaと記載し、総称する場合には距離差Ddiffと記載する。
次に、音源位置が線上にない場合について、音源位置が領域R2aにあり、音源方向と垂線PLcとのなす角が角度θである場合を例に、図5を用いて説明する。尚、音源位置は領域R2aにあるため、角度θは30°未満である。
図5は、各組における距離差Ddiffを算出するために、マイクロフォンMICa~MICcの位置を頂点とする三角形ABCに、図1と同様に、各辺を斜辺とする直角三角形を描いた図である。詳しくは、直角三角形ABDは、斜辺が辺ABであり、一辺が音源方向と直交
する辺BDである直角三角形である。また、直角三角形BCFは、斜辺が辺BCであり、一辺が音源方向と直交する辺FBである直角三角形である。また、直角三角形CAEは、辺CAが斜辺であり、一辺が音源方向と直交する辺AEである直角三角形である。
ここで、角DBAの角度はθ、角FBCの角度は(60°+θ)、角CAEの角度は(60°-θ)となる。距離差DDabは直角三角形ABDの辺ADの長さである。また、距離差DDbcは直角三角形BCFの辺CFの長さである。また、距離差DDcaは直角三角形CAEの辺ECの長さである。
マイクロフォンMICb,MICc間の間隔を間隔Dbc、マイクロフォンMICc,MICa間の間隔を間隔Dcaとすると、距離差DDabはDab×sinθ、距離差DDbcはDbc×sin(60+θ)、距離差DDcaはDca×sin(60-θ)である。ここで、θ<30°であるので、sinθ<sin(60-θ)<sin(60+θ)であり、Dab=Dbc=Dcaであるので、Dab×sinθ<Dca×sin(60-θ)<Dbc×sin(60+θ)である。つまり、DDab<DDca<DDbcとなる。
他の領域についても同様に、距離差Ddiffの大きい順は決まる。また、距離差Ddiffの大きい順とは、到達時間差Tdiffの大きい順と同じであるので、各々の領域における到達時間差Tdiffの大きい順は図6に示すようになる。図6では、各領域において、3つの到達時間差Tdiffを大きい順に記載している。尚、上記したように、音が到達するのに要した時間の長短によれば、2つのマイクロフォンのうち、どちらが音源に対して遠方にあるかを特定することができる。図6では、音源より遠方のマイクロフォンを括弧書きで示している。例えば、領域R1aにおいて、最大の到達時間差Tdiffとなるのは到達時間差Tcaであり、音源位置より遠方のマイクロフォンはマイクロフォンMICcであることを示している。
以上、三角形ABCが正三角形である場合を例に、各領域における距離差Ddiffの大きい順について説明したが、三角形ABCが正三角形ではなく、垂心が三角形ABCで囲まれた領域の内側にある、すべての角が90°以下である三角形である場合にも、同様に各領域における距離差Ddiffの大きい順は自ずと決まる。すべての角が90°以下である三角形とは、例えば、直角三角形、鋭角三角形などである。尚、すべての角が90°以下である三角形に該当しない三角形、鈍角三角形の場合には、距離差Ddiffの大きい順は図6に示す通りにはならない。
ところで、(式1)では、真横、つまり角度θが90°に近づくほど、角度θの変化量に対する距離差Ddiffの変化量は小さくなる。(式1)を微分した、次の(式6)から明らかである。
Ddiff´=(Dab×sinθ)´=cosθ・・・(式6)
従って、図7に示すように、例えば、音源角度が角度θの場合の距離差Ddiffと、角度(θ+Δθ)の場合の距離差Ddiffとの差は、角度θが90°に近づくほど微小となる。このため、角度θが90°に近づくほど、距離差Ddiffの測定誤差の影響を大きく受けた角度θが算出され易くなり、算出される角度θの精度は悪くなる。尚、図7は、図1と同様の図であり、音源方向をマイクロフォンMICa,MICbを結ぶ線分の中点を通る、マイクロフォンMICa,MICbを結ぶ線分の垂線(図7では0°と表記する。)と音源方向とのなす角の角度である角度θにて示した図である。ここで、角度θが90°に近づくとは、対象のマイク組MICa⇔MICbにおいて、距離差Ddiffおよび到達時間差Tdiffが最大に近づくということである。
以上を鑑み、3つのマイクロフォンのうちの2つのマイクロフォンを1組として各組から算出される3つの到達時間差Tdiffの各々に基づいて合計3つの角度θを算出することはできるが、3つの到達時間差Tdiffのうち最大の到達時間差Tdiffは角度θの算出から除外することで、音源方向を示す角度θの精度を上げることができることを発明者らは見出した。
さて、最大の到達時間差Tdiffとなる1組を除く、残り2組の到達時間差Tdiffを角度
θの算出に用いるのであれば、音源方向が12の領域(図6参照)の何れにあるかを特定する必要はなく、音源方向が最大の到達時間差Tdiffで特定される6領域の何れにあるかを特定すれば足りる。
最大の到達時間差Tdiffで特定される6領域とは、図8に示す、領域R1a、R1bを含む領域R1、領域R2a、R2bを含む領域R2、領域R3a、R3bを含む領域R3、領域R4a、R4bを含む領域R4、領域R5a、R5bを含む領域R5、領域R6a、R6bを含む領域R6の6領域である。図8に示すように、領域R1~R6の各々における最大の到達時間差Tdiffは、それぞれ、到達時間差Tca,Tbc,Tab,Tca,Tbc,Tabである。
例えば、到達時間差Tdiffが最大となる組のマイクロフォンがマイク組MICa⇔MICbであり、遠方のマイクロフォンがマイクロフォンMICaである場合、音源方向は領域R3にあると特定される。図8における領域R3は、図3における領域3,4を跨ぐ領域である。従って、音源方向が、領域R3であると特定されれば、マイク組MICa⇔MICbにおいては音源方向が表裏の何れかであるかを特定することができないが、マイク組MICb⇔MICcにおいては音源方向が「表」にあり、マイク組MICc⇔MICaにおいては音源方向が「裏」にあると特定することができる。因みに、到達時間差Tdiffが2番目あるいは3番目に大きい組がわかったとしても、この組を除いた残り2組の表裏の特定をすることはできない。
以上、音源がマイクロフォンMICa,MICb,MICcを含む平面にあると仮定して説明した。しかしながら、(1)の構成は、音源がマイクロフォンMICa,MICb,MICcを含む平面にある場合に限定されるものではない。図9は、音源がマイクロフォンMICa,MICb,MICcを含む平面にない場合を示している。ここでは、マイクロフォンMICa,MICb,MICcを含む平面をXY平面と称し、音源からXY平面までの距離を距離Dzと称し、音源の位置を、XY平面に垂直な方向に沿ってXY平面に投影した位置を投影位置と称し、投影位置から基準位置までの距離を距離Dxyと称し、音源から基準位置までの距離を距離Ddと称する。また、音源、基準位置、および投影位置を頂点とする三角形における、音源と基準位置とを結ぶ線分と基準位置と投影位置とを結ぶ線分とのなす角の角度を角度θzと称する。距離Dzに対し距離Dxyが十分長ければ、角度θzは小さくなるため、距離Dxyを距離Ddに近似することができる。同様に、投影位置から3つのマイクロフォンMICa,MICb,MICcの各々までの距離は、夫々、音源から3つのマイクロフォンMICa,MICb,MICcの各々までの距離に近似することができる。従って、例えば、投影位置からマイクロフォンMICaまでの距離と投影位置からマイクロフォンMICbまでの距離との差は、距離差DDabに近似することができる。そのため、音源から3つのマイクロフォンMICa,MICb,MICcの各々までの音の到達時間の差に基づいて、投影位置から3つのマイクロフォンMICa,MICb,MICcの各々までの距離の差を求めることができる。つまり、音源がXY平面にない場合においても、音源の位置をXY平面に対して垂直な方向に沿ってXY平面に投影した投影位置から基準位置へ向かう音源方向を、音源から3つのマイクロフォンMICa,MICb,MICcの各々までの音の到達時間の差に基づいて特定することができる。
以上を鑑み、発明者らは、3つのマイクロフォンを用いた音源方向の特定において、次の(2)の構成が良いことを見出した。
(2)本願の音源方向特定装置は、前記基準位置は前記三角形の垂心であり、前記特定部は、前記3つのマイクロフォンのうちの2つのマイクロフォンを1組として各組から算出される3つの前記到達時間の差のうち、最大の前記到達時間の差である1組に基づき、前記音源方向が、前記2つのマイクロフォンを通る線の各々に引かれた前記基準位置を通る3つの垂線により区画された前記基準位置を囲む6つの領域の何れに属するかを決定し、前記最大の到達時間の差である1組を除く残り2組の前記到達時間の差に基づき、前記6つの領域のうち決定した領域となる前記音源方向と前記3つの垂線のうちの1つの垂線
とのなす角度である音源角度を算出することを特徴とする。このようにすると、音源方向を精度良く特定することができる。
つまり、最大の到達時間差Tdiffである1組に基づき、音源方向が6つの領域の何れに属するかを決定し、最大の到達時間差Tdiffである1組を除く残り2組の到達時間差Tdiffから算出される音源角度の候補である角度θ,θ´のうち、6つの領域のうち決定した領域となる方の角度を音源角度の算出に用いる。最大の到達時間差Tdiffである1組によって、残り2組の音源方向の表裏、角度θ,θ´の何れであるかを特定することができる。また、最大の到達時間差Tdiffである1組を除くことで、音源角度の精度を良くすることができる。
(3)前記三角形は正三角形である構成とすると良い。このようにすると、角度θを導出するための演算を簡素にすることができる。演算の際に特定部にかかる負荷を軽減することができる。
(4)前記特定部は、前記3つのマイクロフォンの各々が出力する3つの電気信号のうちの2つの電気信号を1組として各組から算出される位相差に基づき、前記到達時間の差を算出する構成とすると良い。
電気信号は、マイクロフォンの周波数特性のバラツキ、環境などによる誤差を含む。このため、例えば、電気信号のレベルが閾値を超えた時刻に基づき、到達時間の差を算出した場合には、音源方向の精度が悪くなるおそれがある。位相差に基づき、到達時間の差を算出することで、音源方向を精度良く特定することができる。尚、音が人声である(5)のように、音に複数の周波数成分が含まれる場合、電気信号を周波数解析し、周波数成分毎に位相差を算出する構成とすると良い。
(5)前記音源の音は人声であり、前記3つのマイクロフォンの各マイクロフォン間の距離は、57mm以上170mm以下である構成とすると良い。このようにすると、音源である人の方向を精度良く特定することができる。
到達時間差Tdiffを位相差から算出する(4)の構成の場合、マイクロフォン間距離は、位相差の算出に使用する周波数成分の周波数に基づいて決定すると良い。例えば、マイクロフォン間距離を周波数の1波長分としてしまうと、一方のマイクロフォンに入る波に対し、他方のマイクロフォンには、1周期進んだ波から1周期遅れた波までの範囲の波が入る可能性が出てきてしまい、位相差を特定することができなくなってしまう。
例えば、一方のマイクロフォンに入る波に対して位相差が-1/2πである波が、他方のマイクロフォンに入る場合、実際に他方のマイクロフォンに入る波とは1/4周期遅れた波なのであるが、3/4周期早い波も入る可能性があるため、電気信号に基づき、位相差が-1/2πであるのか+3/2πであるのか特定することはできない。
そこで、マイクロフォン間距離を位相差の算出に使用する周波数の半波長分とすると、一方のマイクロフォンに入る波に対し、他方のマイクロフォンに入る波は、1/2周期進んだ波から1/2周期遅れた波までに限定される。上記した、一方のマイクロフォンに入る波に対して位相差が-1/2πである波が他方のマイクロフォンに入る場合、他方のマイクロフォンに入る波は1/4周期遅れた波であり、位相差は-1/2πであると特定することができるようになる。
具体的な数値を挙げると、例えば、音速を340m/s、マイクロフォン間距離を57mmとすれば、3kHz以下の周波数の波に対し、位相差を特定することができる。また、マイクロフォン間距離を170mmとすれば、1kHz以下の周波数の波に対し、位相差を特定することができる。
このように、マイクロフォン間距離が短い程、高い周波数においても位相差を特定することができるようになるため、位相差を特定できる周波数の範囲は広くなる。しかしながら、マイクロフォン間距離が短いと位相差は小さくなってしまうため、特に、低い周波数における位相差が小さくなり、位相差の誤差を招来するおそれがある。
ところで、人声の基本周波数の上限は200Hz程度であり、第1フォルマント周波数の上限は1kHz程度であり、第2フォルマント周波数の上限は3kHz程度であることが知られている。ここで、フォルマント周波数は、音圧レベルがピークとなる、母音を特徴付ける周波数である。例えば、「あ」などの短い人声の場合にも、マイクロフォンが出力する電気信号には、1kHz以下に、基本周波数および第1フォルマント周波数の2つの周波数成分が含まれる。また、3kHz以下に、基本周波数、第1フォルマント周波数、および第2フォルマント周波数の3つの周波数成分が含まれる。
発明者らは、音源方向を精度良く特定するのに、音源位置を特定するのに用いる周波数範囲を1kHz以下とすると良く、3kHz以下とすると特に良いことを見出した。上記のように、1kHz以下の周波数範囲とすれば、少なくとも基本周波数および第1フォルマント周波数の2つの周波数成分が含まれ、さらに範囲を広げ、3kHz以下の周波数範囲とすれば、基本周波数、第1フォルマント周波数、および第2フォルマント周波数の3つの周波数成分が含まれるからである。また、3kHzより高い周波数を使用しなくても、音源を精度良く特定することができるからである。
上記のように、1kHz以下の周波数の位相差を算出するには、マイクロフォン間距離を170mmとすれば良く、3kHz以下の周波数の位相差を算出するには、マイクロフォン間距離を57mmとすれば良い。マイクロフォン間距離を57mm以上170mm以下の範囲とすると、位相差を特定できる周波数の上限値が1kHz~3kHzとなる。従って、マイクロフォン間距離を57mm以上170mm以下の範囲とすると、少なくとも基本周波数、第1フォルマント周波数を位相差の算出に使用することができる。また、位相差の算出に使用する周波数の上限を第2フォルマント周波数程度とすることで、低い周波数における位相差の精度を良くすることができる。このように、人声に対し、音源方向を精度良く特定することができる。
(6)前記特定部は、所定期間において、前記3つのマイクロフォンの各々から出力される電気信号をデジタル値に変換するサンプリング処理と前記、サンプリング処理にて変換されたデジタル値に基づき方向を特定する特定処理と、を繰り返し実行する構成とすると良い。
このようにすると、音がいつ発せられるかわからない場合であっても、音の発生に応じて、音源方向の特定をすることができる。例えば、人声に応じて動作するコミュニケーションロボット、音の発生場所を記録する監視カメラなどの、音に応じて動作する装置において適用すると良い。音に応じて動作する装置に適用する場合、音源方向に向けた動きを行う制御をすると良い。また、人の発話した位置を特定する機能を備えると良い。また、音声認識機能を設けると良い。また、特定した人の発話方向に所定の部位を向ける機能を備えると良い。特に、コミュニケーションロボットとすると良い。また、サンプリング処理の開始時刻から次のサンプリング処理の開始時刻までの時間は200ms以下である構成とすると良い。このようにすると、例えばコミュニケーションロボットの場合、例えば「おい」などの短い呼びかけに対しても、音に応じて音源位置を特定し、確実に動作することができる。また、本願の構成によれば、特に(5)のように、マイクロフォン間の距離をコミュニケーションロボットとして好適なサイズとすることができる。
上述した(1)から(6)に示した発明は、任意に組み合わせることができる。例えば、(1)に示した発明の全てまたは一部の構成に、(2)以降の少なくとも1つの発明の少なくとも一部の構成を加える構成としてもよい。特に、(1)に示した発明に、(2)
以降の少なくとも1つの発明の少なくとも一部の構成を加えた発明とするとよい。また、(1)から(6)に示した発明から任意の構成を抽出し、抽出された構成を組み合わせてもよい。本願の出願人は、これらの構成を含む発明について権利を取得する意思を有する。
また、後述する(A)から(I)に示した発明は、任意に組み合わせるとよい。例えば、(A)に示した発明の全てまたは一部の構成に、(B)以降の少なくとも1つの発明の少なくとも一部の構成を加える構成としてもよい。特に、(A)に示した発明に、(B)以降の少なくとも1つの発明の少なくとも一部の構成を加えた発明とするとよい。また、上述した(1)から(6)に示した発明と後述する(A)から(I)に示した発明とは、任意に組み合わせることができる。また、(A)から(I)に示した発明から任意の構成を抽出し、抽出された構成を組み合わせてもよい。(1)から(6)に示した発明から任意の構成を抽出し、(A)から(I)に示した発明から任意の構成を抽出し、抽出された構成を組み合わせてもよい。本願の出願人は、これらの構成を含む発明について権利を取得する意思を有する。
(A)複数のマイクを備える装置であって、前記複数のマイクのうち2つのマイクに対する音の到達時間の前後関係及び前記2つのマイクに対する音の到達時間の差に基づき所定の基準方向と音源の方向とのなす角度を求める機能である角度算出機能と、前記2つのマイクとは別のマイクを用いて、これらのマイクの位置を含む平面に垂直な面であって前記2つのマイクの位置を含む面によって区分される2つの領域のうちのいずれの領域側に前記音源が存在するかを特定する機能である音源方向特定機能とを備えることを特徴とする装置とするとよい。
このようにすれば、3つのマイクの位置を含む平面に垂直な面であって前記2つのマイクの位置を含む面によって区分される2つの領域のうちのいずれの領域側に音源が存在するかを確定でき、所定の基準方向と音源の方向とのなす角度を求めることができる。
所定の基準方向は例えば3つのマイクの位置を含む平面内の所定の方向とするとよく、音源の方向は3つのマイクの位置を含む平面内の方向(例えば3次元ベクトルの当該平面内の成分)とするとよい。
前記音源方向特定機能で用いる前記別のマイクは1つのマイクとしてもよいが複数のマイクとしてもよい。
(B)前記「別のマイクを用いて」は、「前記2つのマイクとは配置位置が平行でない位置に配置された別の2個のマイク間の音の到達時間の前後関係を用いて」とするとよい。
このようにすれば、3つのマイクの位置を含む平面に垂直な面であって前記2つのマイクの位置を含む面によって区分される2つの領域のうちのいずれの領域側に音源が存在するかをより確実により精度よく確定できる。例えば正五角形ABCDEの頂点にマイクAからEを各々配置し、マイクAとマイクBとを角度算出機能で用いる前記2つのマイクとし、マイクCとマイクDとを音源方向特定機能で用いる別のマイクとするとよい。
(C)前記「別のマイクを用いて」は、「前記2つのマイクとは別の1つのマイクと、前記2つのマイクのうちいずれか1つのマイクとの、音の到達時間の前後関係を用いて」とするとよい。
このようにすればマイクを少なくとも1つ追加するだけで3つのマイクの位置を含む平面に垂直な面であって前記2つのマイクの位置を含む面によって区分される2つの領域のうちのいずれの領域側に音源が存在するかをより確実に精度よく確定できる。例えば正三角形XYZの頂点にマイクXからZを各々配置し、マイクXとマイクYとを角度算出機能で用いる前記2つのマイクとし、マイクZを「別の1つのマイク」とし、「前記2つのマイクのうちいずれか1つのマイク」をマイクXとするとよい。
(D)前記複数のマイクのうちから、前記角度算出機能で用いる前記2つのマイクとして機能させるマイクのペアと、前記音源方向特定機能で用いる前記別のマイクとして機能させるマイクとを、所定のルールに基づいて決定する機能を備えるとよい。
このようにすれば、音源の位置が変化しても、より確実に、より精度よく、3つのマイクの位置を含む平面に垂直な面であって前記2つのマイクの位置を含む面によって区分される2つの領域のうちのいずれの領域側に音源が存在するかを確定でき、所定の基準方向と音源の方向とのなす角度を求めることが可能となる。
特に所定のルールは、前記複数のマイク各々に検出される音に基づくルールとするとよく、前記複数のマイク各々に検出される音の比較結果のルールとするとよい。例えば前記複数のマイク各々に検出される音の位相のずれなど、到達時間の差に基づくルールとするとよい。
(E)前記所定のルールは、前記複数のマイクのうちから、最も音の到達時間差の大きいマイクのペアである基準ペアの2マイクを除く他のいずれかのマイクを前記角度算出機能で用いる2つのマイクのうちの少なくとも1つとするルールとするとよい。
このようにすれば、音源の位置がどのような位置になっても、角度算出機能による基準方向と音源の方向とのなす角度の算出精度が大幅に低くなってしまうことを防止できる。
(F)前記所定のルールは、前記複数のマイクのうちから、最も音の到達時間差の大きいマイクのペアである基準ペアの2マイクの少なくともいずれか一方を前記音源方向特定機能で用いる前記別のマイクとするルールとするとよい。
(G)前記音源方向特定機能は、前記複数のマイクを頂点とする多角形の頂点を結ぶ辺をなすマイクのペアのうち、最も音の到達時間差の大きいマイクのペアである基準ペアの2マイク以外がなす前記多角形の各辺に対して当該基準ペアの2マイクのなす辺が前記基準ペアの音の到達時間の前から後に向かう方向に交差する方向が、各辺について当該多角形の内側から外側であるか外側から内側であるかの性質に基づいて、当該各辺のうちの少なくとも1つの辺を形成する前記2つのマイクの位置を含む面によって区分される2つの領域のうちのいずれの領域側に前記音源が存在するかを特定するとよい。
このようにすれば、音源の位置がどのような位置になっても、より確実に2つの領域のうちのいずれの領域側に音源が存在するかを特定することができる。例えば三角形ABCの頂点位置に各々のマイクを設け、マイクBとマイクCの間が最も音の到達時間差の大きいマイクのペアとした場合、辺BCについてはA→Bと向かう辺ABについては三角形ABCの外側から内側へ向かう方向となる幾何学的な性質がある。
(H)前記複数のマイクとして、三角形の頂点位置に第一のマイクと第二のマイクと第三のマイクを備え、前記音源方向特定機能は、第一のマイクと第二のマイクからなるペアと、第二のマイクと第三のマイクからなるペアと、第三のマイクと第一のマイクからなるベアの、前記三角形の3辺を形成する3組のペアのうち、最も音の到達時間差の大きい2つのマイクのペアを基準ペアとして、前記基準ペアのうち先に音が到達したマイクと前記基準ペアとは別のマイク位置を含む前記面によって区分される前記2つの領域のうち前記三角形の外側の領域から音が到達したものとする、または、前記基準ペアのうち後に音が到達したマイクと前記基準ペアとは別のマイク位置を含む前記面によって区分される前記2つの領域のうち前記三角形の内側の領域から音が到達したものとする、の少なくともいずれか一方を行うとよい。
このようにすれば、3つのマイクで、音源がいずれの領域にあるかをより確実に特定することができる。
(I)前記三角形は正三角形とするとよい。
このようにすれば、三組のペアの精度が平等となり、方向による偏りが少ない条件で360°をカバーできる。したがって、装置の全周のいずれの方向から音声が到達したかを検
知する装置において極めて優れた効果を発揮する。
本願によれば、従来技術とは異なる方法で、例えば3つのマイクロフォンを用いて音源方向を精度良く特定することができる音源方向特定装置等を提供することができる。本願の発明の効果はこれに限定されず、本明細書および図面等に開示される構成の部分から奏する効果についても開示されており、当該効果を奏する構成についても分割出願・補正等により権利取得する意思を有する。例えば本明細書において「~できる」と記載した箇所などは奏する効果を明示する記載であり、また「~できる」と記載がなくとも効果を示す部分が存在する。またこのような記載がなくとも当該構成よって把握される効果が存在する。
2つのマイクロフォンの各々への音源からの距離の差と音源方向との関係を説明する図である。 2つのマイクロフォンの各々への音の到達時間の差が互いに同じになる音源位置が2つ存在することを説明する図である。 三角形ABCの垂心を囲む6つの領域と3つのマイクロフォンの各組における音源方向の表裏との関係を示す図である。 三角形ABCの垂心Oを囲む12の領域の境界線における到達時間差を示す図である。 音源位置が図4に示す領域R2aにある場合の音源から3つのマイクロフォンの各々までの距離の差を導出するための図である。 三角形ABCの垂心Oを囲む12の領域の各々における到達時間差の大きい順を示す図である。 音源が2つのマイクロフォンを通る直線に近づくほど距離差の測定誤差が大きくなることを説明する図である。 音の到達時間の差が最大である1組にて特定される三角形ABCの垂心Oを囲む6の領域を示す図である。 音源が3つのマイクロフォンを含む平面にない場合を示す図である。 実施形態に係るロボットの斜視図である。 固定部下筐体とともに示す音源方向特定装置の斜視図である。 音源方向特定装置の電気的構成図である。 1組のマイクロフォンにおける音源角度の極性を説明する図である。 距離差が最大の組とその組をなす2つのマイクロフォンのうち遠方であるマイクロフォンとにより特定される6つの場合の各々において各組の表裏の音源角度の何れを音源角度の算出に採用するかを示した表である。 各組における音源角度と全体における音源角度との関係を説明する図である。
図10に示すロボット1は、人声に反応して動作するコミュニケーションロボットである。ロボット1は、固定部2および固定部2に対して可動する可動部3を備える。以下の説明には、図10,11に示す方向を用いる。固定部2は固定部下筐体21、固定部上筐体22、および音源方向特定装置10などを有する。固定部下筐体21は、底面23を有するボウル状であり、内部に音源方向特定装置10などを収納している。尚、底面23と平行な面がXY平面である。固定部上筐体22は筒状であり、固定部下筐体21の上に位置し、可動部3の下部を覆う。固定部下筐体21と固定部上筐体22との間には、僅かな間隙が設けられており、間隙に音源方向特定装置10が備えるマイクロフォンMICa~MICc(図11参照)が配置されている。尚、固定部上筐体22の内部は部材がぎゅうぎゅうにつまっておらず、遮音する構造になっていない。このため、実際は固定部上筐体22内
部に音が抜け、マイクロフォンMICa~MICcは、それぞれ、子基板12a~12c(図11)の後ろからも音を拾うことができる。可動部3は可動部筐体31および表示装置32などを備える。表示装置32は、例えばタッチパネル、液晶ディスプレイなどで実現される。可動部筐体31は一部が平面状に切り欠かれた球状である。表示装置32は、可動部筐体31の平面状の部分に取り付けられている。可動部3は、モータ(不図示)を駆動源として、固定部下筐体21の底面23に垂直なZ軸回りに360°回転可能となっている。ロボット1は、音が発せられると、例えば人などの音を発した音源に表示装置32が対面するように可動部3を回転させる。音源方向特定装置10は、可動部3を回転させるための、音源の方向を特定する装置である。
図11に示すように、音源方向特定装置10は、円盤状の基板11およびマイクロフォンMICa~MICcなどを備える。基板11はマイクロフォンMICa~MICcが取り付けられる子基板12a~12cを有する。子基板12a~12cの各々は、一方の面にマイクロフォンMICa~MICcの各々が取り付けられ、他方の面は基板11と直交するように基板11に取り付けられている。マイクロフォンMICa~MICcは、無指向性のコンデンサマイクフォンであり、基板11に固定されている。基板11は、固定部下筐体21の底面23に対してほぼ平行であり、マイクロフォンMICa~MICc各々のZ方向の位置は、底面23に対してほぼ同等である。マイクロフォンMICa~MICcは、それぞれ、XY平面に描かれる正三角形ABC(図3参照)の頂点の位置に位置するように配置されている。これにより、例えばマイクロフォンMICa~MICcの各々間の距離は3組で共通であるため、例えば(式5)をなどの導出式などの導出方法を3組で共通とすることができ、音源角度θを導出するための演算を簡素にすることができる。正三角形ABCの一辺の長さ、即ち、マイクロフォンMICa~MICcの各々間の距離は例えば約100mmである。これにより、後述する(処理5)での位相差の算出には少なくとも基本周波数、第1フォルマント周波数が含まれることとなり、また、低い周波数における位相差の精度を良くすることができるため、マイコン41(後述)は人声に対し、音源角度θを精度良く特定することができる。
また、音源方向特定装置10は、基板11の下方に、図12に示す様にアンプAMPa~AMPc、サンプルホールド回路SHa~SHc、およびマイコン41などを備える。マイクロフォンMICa、アンプAMPa、およびサンプルホールド回路SHaはこの順に直列に接続されている。同様に、マイクロフォンMICb、アンプAMPb、およびサンプルホールド回路SHbは直列に接続されており、マイクロフォンMICc、アンプAMPc、およびサンプルホールド回路SHcは直列に接続されている。つまり、音源方向特定装置10には、マイクロフォンMICa~MICcの各々からサンプルホールド回路SHa~SHcの各々までの3つのチャンネルがある。3つのチャンネルのそれぞれをチャンネルAch~Cchと称する。アンプAMPa~AMPcは、電気的に接続されているマイクロフォンMICa~MICcから出力される電気信号を増幅して、電気的に接続されているサンプルアンドホールド回路SHa~SHcへ出力する。サンプルアンドホールド回路SHa~SHcは、マイコン41から出力されるサンプリングクロック信号に同期して、入力される電気信号をホールドし、ホールドした電気信号をマイコン41へ出力する。サンプリングクロック信号の周波数、つまりサンプリング周波数は、20~40kHz程度である。
マイコン41はロボット1の電源がオンされ、起動すると、後述する(処理1)を開始する。また、所定期間において、音源方向を特定するための、(処理1)~(処理8)を繰り返し実行する。これにより、音がいつ発せられるかわからない場合であっても、音の発生に応じて、音源方向の特定をすることができる。尚、(処理1)を実行する周期は、200ms以下である。これにより、例えば「おい」などの短い人声であっても、音の発生に応じて、音源方向の特定をすることができる。また、マイコン41はロボット1の電源がオフされると、実行している(処理1)~(処理8)の何れかを終了する。
(処理1)マイコン41はサンプルアンドホールド回路SHa~SHcの各々から出力された電気信号をAD変換し、各チャネル用の配列に格納する。詳しくは、マイコン41は、サンプルアンドホールド回路SHa~SHcの各々から出力された電気信号をAD変換したデータを順次、チャンネル毎に配列して内蔵するメモリに記憶する。
(処理2)一定量のデータを取得すると、マイコン41は、高速フーリエ変換(FFT)を3チャンネル分、行う。詳しくは、マイコン41は、サンプルアンドホールド回路SHa~SHcの各々から出力された電気信号をAD変換したデータの数が予め決められた数となる程度の所定時間が経過すると、メモリに記憶したデータを、チャネル毎に高速フーリエ変換する。所定時間は、50ms~100ms程度である。例えば200msより長くなると、声を掛けられてから動作するまでにタイムラグが生じ、不自然さが増す。一方、50msより短くすると、データ数が少なくなるため、方向の精度が落ちる。所定時間を上記の範囲とすることで、コミュニケーションを円滑にし、音源角度の精度を確保することができる。また、声にはいろいろな波長が混ざっているため、高速フーリエ変換により周波数解析を行う。尚、高速フーリエ変換のため、データの数は2の累乗が良く、例えば2^8、2^9、2^10程度が良い。マイコン41は、高速フーリエ変換により得られた各周波数成分の複素数データを、周波数成分の各々に付与される周波数インデックスに対応付けてメモリに記憶する。また、後述の(処理4)にて絶対位相を算出する際に1つの位相に特定することができるように、次からの処理では、半波長がマイクロフォンMICa~MICcの各々間の距離より長い周波数である1.7kHzより低い周波数を処理の対象とする。尚、ここでは、音速を340m/sとして算出している。
(処理3)次に、マイコン41は、1.7kHzより低い周波数成分を対象として、高速フーリエ変換により得られた周波数インデックスごとに、複素数データからパワーを算出する。パワーは実数値の2乗に虚数値の2乗を加算した値である。次に、マイコン41は、予め設定された閾値を超えた周波数インデックスをメモリに記憶する。以後、予め設定された閾値を超えた周波数インデックスを有音周波数インデックスと称する。ここで、予め設定された閾値を超えなかった周波数インデックスは、この周波数に音声成分が無いことを示す。そこで、マイコン41は、以降の処理において、有音周波数インデックスのみを処理の対象とする。
(処理4)次に、マイコン41は、有音周波数インデックスごとに、複素数データから絶対位相を算出する。絶対位相を算出する式を以下に示すように、4象限を対象とするものである。
絶対位相=ArcTan[虚数値,実数値]
尚、ここでの絶対位相は、サンプルアンドホールド回路SHa~SHcがサンプリングした実時間データの、サンプルアンドホールド回路SHa~SHcが最初にホールドした開始時間を基準としたものである。また、複素数データの範囲は複素数平面における4象限であるため、算出される絶対位相の範囲は-π~+πとなる。
(処理5)次に、マイコン41は、各有音周波数インデックスについて、3チャンネル分の絶対位相から、2チャンネルを1組とし、合計3組の位相差を求める。詳しくは、チャンネルAch対チャンネルBchの位相差、チャンネルBch対チャンネルCchの位相差、およびチャンネルCch対チャンネルAchの位相差を求める。ここでは、チャンネルAch対チャンネルBchの位相差を算出する際にはチャンネルBchの絶対位相からチャンネルAchの絶対位相を減じて算出し、チャンネルBch対チャンネルCchの位相差を算出する際にはチャンネルCchの絶対位相からチャンネルBchの絶対位相を減じて算出し、チャンネルCch対チャンネルAchの位相差を算出する際にはチャンネルAchの絶対位相からチャンネルCchの絶対位相を減じて算出するものとする。
また、1組のマイクロフォンMICにおける音源角度のプラス・マイナスの極性を図11に示すように定義する。尚、図11は、3組のうちマイクロフォンMICa,MICbの組を取り上げて説明する図である。音源角度および表裏などの定義は上記と同様である。即ち、マイクロフォンMICa,MICbを結ぶ線分の中点を通る、マイクロフォンMICa,MICbを結ぶ線分の垂線を0°線と称する。また、音源の位置を、三角形ABCを含む平面に垂直な方向に沿って三角形ABCを含む平面に投影した投影位置から、三角形ABCの垂心である基準位置へ向かう方向が音源方向である。音は平面波とみなし、音源の投影位置からマイクロフォンMICa,MICbを結ぶ線分の中点へ向かう方向と0°線とのなす角度が音源角度θである。マイクロフォンMICa,MICbを通る線に対し、マイクロフォンMICcがない側が表であり、マイクロフォンMICcがある側が裏である。
マイクロフォンMICa,MICbにおいて、0°線に対して、位相差を算出する際に、減じる方のチャンネルであるチャンネルAchのマイクロフォンMICaのない側をプラス、マイクロフォンMICaのある側をマイナスと定義する。つまり、位相差がプラスであればマイクロフォンMICaがマイクロフォンMICbよりも音源に対して遠方にあり、一方、位相差がマイナスであればマイクロフォンMICbがマイクロフォンMICaよりも音源に対して遠方にあることになる。
また、他の組についても同様に、定義する。即ち、マイクロフォンMICb,MICcにおいて、0°線に対して、位相差を算出する際に、減じる方のチャンネルであるチャンネルBchのマイクロフォンMICbのない側をプラス、マイクロフォンMICbのある側をマイナスと定義する。マイクロフォンMICc,MICaにおいて、0°線に対して、位相差を算出する際に、減じる方のチャンネルであるチャンネルCchのマイクロフォンMICcのない側をプラス、マイクロフォンMICcのある側をマイナスと定義する。以下の説明において、音源角度θを方向値と記載する場合がある。
(処理6)次に、マイコン41は、各有音周波数インデックスについて、位相差と該有音周波数インデックスの周波数から到達時間差Tdiffを算出する。このように、位相差から到達時間差Tdiffを求めることで、到達時間差Tdiffを精度良く求めることができる。例えば、2つの、高速フーリエ変換前の実時間波形の各々にて予め設定された音量の閾値を超えた時刻の時間差を遅延時間差とすることもできる。しかしながら、この実時間波形を用いた方式の場合、マイクロフォンの周波数特性、2つのマイクロフォン間の周波数特性の差の影響を受け易い。例えば、一方のマイクロフォンにおいて、ある帯域の周波数の感度が悪く、この帯域の周波数のレベルが落ちた場合には、実時間波形は他方のマイクロフォンとは異なるものとなってしまう。このため、遅延時間差が実際とは異なるものとなり、到達時間差Tdiffの精度は悪くなってしまう。また、この実時間波形を用いた方式の場合、閾値の設定が遅延時間差に大きく影響してしまう。上記のように、2つの実時間波形は互いに異なるものとなるため、音量の閾値によって遅延時間差は変動してしまう。また、この実時間波形を用いた方式の場合、周囲環境、例えば、壁などによる反射音の影響を受け易い。この点、本実施形態における位相差を用いた方式によれば、実時間波形を用いた方式と比較し、マイクロフォンの周波数特性および反射音の影響が到達時間差Tdiffに反映されにくいため、精度良く到達時間差Tdiffを求めることができる。後述するように、音声の周波数成分ごとに到達時間差Tdiffを求めて、求めた到達時間差Tdiffを用いて音源角度θを求めるので、周波数成分間における相関がなく、マイクフォンや環境の周波数特性の影響を受けにくい。
マイコン41は、各有音周波数インデックスの到達時間差Tdiffを算出した後、全ての有音周波数インデックスの到達時間差Tdiffの加重平均を算出する。ここで使用される重み(レベル)は、当該周波数インデックスの√(実数値^2+虚数値^2)である。マイコン41は、以降の処理では各有音周波数インデックスでの値は使用せず、加重平均により求まった1つの値を使用する。
各組で1つの到達時間差Tdiffを算出後、マイコン41は到達時間差Tdiff、音速、(
式4)から、距離差Ddiffを算出する。ここでは、音速を340m/sとして算出するものとする。尚、ここでは、位相差のプラス・マイナスの極性を到達時間差Tdiffおよび距離差Ddiffにも踏襲させるものとする。従って、例えば、マイクロフォンMICa,MICbにおいて、距離差DdiffがプラスであればマイクロフォンMICaが遠方にあり、距離差DdiffがマイナスであればマイクロフォンMICbが遠方にあることを示すこととなる。
(処理7-1)次に、マイコン41は、算出した3つの距離差Ddiffの絶対値が最大である距離差Ddiffおよび算出した3つの距離差Ddiffのプラス・マイナスの極性に基づき、図12に示す表51の6つの行のうち、適合する行を選出する。
図14に示す表51は、図8を表にまとめたものである。表51は、チェンネルAch~Cchの各組において、表裏のいずれの側を音源角度の算出に採用すべきかを示したものである。表51の行の各々は、図8に示す領域R1~R6の各々のいずれかに対応している。表51の列は、チャンネルAch~Cchの3組の各々における表・裏に対応している。表51において、音源角度の算出に採用すべき側には「〇」が記され、採用すべきでない側には「-」が記されている。
例えば、表51の1行目は、距離差Ddiffが最大のペアがチャンネルAch,Cchのペアであり、チャンネルAchのマイクロフォンMICaが音源に対して遠方である場合について示されている。この場合とは、図8における領域R4に音源方向が属する場合であり、音源方向はマイクロフォンMICb,MICcのペアの表、マイクロフォンMICa,MICbのペアの裏に位置するため、表51においても、「Bch-Cchの表」および「Cch-Achの裏」に「○」が記されている。また、この場合、上記したように、チャンネルAch,Cchのペアの距離差DDcaから算出される音源角度の精度は悪い為、マイコン41はチャンネルAch,Cchのペアの表・裏いずれの側も音源角度の算出には採用しない。このため、表51では、「Ach-Cchの表」、「Ach-Cchの裏」の何れにも「-」が記されている。
マイコン41は、最大である距離差Ddiffであるチャンネルの組および極性に基づき、表51を参照し、距離差Ddiffが最大であるチャンネルの組以外の、チャンネルの組について、「〇」が記されているのは表裏の何れであるかを選出する。例えば、最大である距離差Ddiffであるチャンネルの組がチャンネルAch,Cchであり、距離差Ddiffの極性がプラスであれば、表51の1行目が適合するため、マイコン41は、チャンネルBch,Cchの表、チャンネルAch,Bchの裏を選出し、メモリに記憶する。また、マイコン41は、各有音周波数インデックスについて、チャンネルの2組の各々について、(式5)を用いて、音源角度θを算出する。尚、ここでは、距離差Ddiffのプラス・マイナスの極性を音源角度θにも踏襲させるものとする。上述したように、(式5)を用いて算出される音源角度θは、マイクロフォンMICa~MICcを含むXY平面に対して垂直な方向に沿って音源の位置をXY平面に投影した投影位置から基準位置までの距離を、音源から基準位置までの距離に近似できると仮定した場合の、投影位置から基準位置へ向かう音源方向を示すものである。
(処理7-2)次に、マイコン41は、各々の組で算出した音源角度θを、基準方向を3組で統一させた、全体の音源角度に換算する。ここでは、図15に示すように、マイクロフォンMICa,MICcの表側の0°線を全体の基準方向として、マイクロフォンMICa,MICcを結ぶ線分の中点を支点として右回りに0°~360°の範囲で全体の音源角度を示すものとする。図15は、距離差Ddiffが最大のペアがチャンネルBch,Cchのペアであり、チャンネルCchのマイクロフォンMICcが音源に対してマイクロフォンMICbよりも遠方である場合について示されている。ここで、マイクロフォンMICa,MICcにおける音源角度を角度+θca、マイクロフォンMICa,MICbにおける音源角度を角度+θabであるとする。この場合、角度+θcaは裏、角度+θabは表に位置するため、全体
の音源角度は、それぞれ、180°-θca、120°+θabとなる。
(処理8)次に、マイコン41は、(処理7-2)で算出した全体の音源角度に基づき、最終的な音源方向を統計的に算出する。具体的には、マイコン41は、(処理7-2)で算出した全体の音源角度を平均し、1つの音源方向を算出する。
マイコン41は、算出した音源方向に表示装置32が対面するように、可動部3を回転させるモータを制御する。これにより、ロボット1の表示装置32が音源方向に対面する。
ここで、本実施形態による音源方向特定の他方式に対するメリットを説明する。
他方式として、指向性マイクフォロンを複数用い、その音量差、もしくは音量比から音源方向を求める方式がある。この他方式では、音源の位置検出の精度は、マイクロフォンの指向性の性能に依存されてしまう。この点、本実施形態では、無指向性マイクロフォンを使用し、指向性の性能に依存されない。また、この他方式では、例えば10個程度の指向性マイクフォロンが必要とされるが、本実施形態では、3個のマイクロフォンで、音源方向を特定することができる。また、この他方式では、周囲環境の影響を受け易い。例えば周りに壁などがあると、音が壁に反射するため、マイクロフォンは間接音を拾ってしまう。このため、複数のマイクロフォンが拾う音の互いのレベル差が小さくなってしまう。この点、本実施形態では、音量ではなく、位相で見ているので、求める音源角度を高い分解能、精度とすることができる。
ここで、音源方向特定装置10は音源方向特定装置の一例であり、マイコン41は特定部の一例であり、(処理1)はサンプリング処理の一例であり、(処理2)~(処理8)は特定処理の一例である。また、(処理7-2)にて算出する全体の音源角度は、「前記6つの領域のうち決定した領域となる前記音源方向と前記3つの垂線のうちの1つの垂線とのなす角度である音源角度」の一例である。
以上、説明した実施形態によれば、以下の効果を奏する。
音源方向特定装置10は、正三角形ABCの頂点に配置された3つのマイクロフォンMICa~MICcと、音源から3つのマイクロフォンの各々までの音の到達時間差Tdiffに基づき、音源の位置を、正三角形ABCを含む平面に垂直な方向に沿って正三角形ABCを含む平面に投影した位置から正三角形ABCを含む平面の正三角形ABCで囲まれた領域の内側にある基準位置へ向かう音源方向を特定するマイコン41とを備える。これにより、音源方向特定装置10は3つのマイクロフォンMICa~MICcで音源方向を特定することができる。また、3つのマイクロフォンMICa~MICcは正三角形ABCの頂点に配置されるため、音源角度θを導出するための演算を簡素にすることができる。
また、マイコン41は、(処理7-1)において、マイクロフォンMICa~MICcのうちの2つのマイクロフォンを1組として各組から算出される3つの到達時間差Tdiffのうち、最大の到達時間差Tdiffに基づき、音源方向がマイクロフォンMICa~MICcのうちの2つのマイクロフォンを通る線の各々に引かれた基準位置を通る3つの垂線PLa~PLc(図8)により区画された基準位置を囲む6つの領域である領域R1~R6(図8)に対応する表21の何れの行に適合するかを決定し、最大の到達時間差Tdiffである1組を除く残り2組の到達時間差Tdiffに基づき、領域R1~R6のうち決定した領域となる、表裏および極性の情報を付加した音源角度θを算出する。実施形態においては、音源角度θの範囲を0°以上90°以下の範囲とし、音源角度θにプラス・マイナスの極性および表裏の情報を付加することで、360°を示すこととしている。マイコン41は、(処理7-2)において、(処理7-1)にて算出した音源角度θを、基準方向を3組で統一させた、全体の音源角度に換算する。これにより、音源方向特定装置10は、音源角度θを精
度良く特定することができる。
また、マイコン41は、(処理6)において、位相差に基づき、到達時間差Tdiffを算出する。これにより、音源方向特定装置10は、音源角度θを精度良く特定することができる。
また、マイクロフォンMICa~MICcのマイクロフォン間の距離は約100mmである。これにより、音源方向特定装置10は、音源である人の方向を精度良く特定することができる。
また、マイコン41は、所定期間において、マイクロフォンMICa~MICcの各々から出力される電気信号をデジタル値に変換する(処理1)と、(処理1)にて変換されたデジタル値に基づき方向を特定する(処理2)~(処理8)と、を繰り返し実行する。これにより、音源方向特定装置10は、短い呼びかけに対しても、音に応じて音源位置を特定し、確実に動作することができる。
また、本発明は前記実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲内での種々の改良、変更が可能であることは言うまでもない。
例えば、上記では、マイクロフォンMICa~MICcは正三角形ABCの頂点の位置に配置されると説明したが、これに限定されない。正三角形ではなく、すべての角が90°以下である三角形であっても良い。
また、上記では、音源方向特定装置10は、サンプルホールド回路SHa~SHcを備えると説明したが、これに限定されない。例えば、マイコン41が、アンプのAMPa~AMPcからの出力信号を同時にサンプリング可能な構成を備えている場合には、サンプルホールド回路SHa~SHcを備えない構成としても良い。
また、上記では、(処理4)および(処理5)において、組をなす一方のチャンネルの絶対位相から他方のチャンネルを減じて位相差を算出すると説明した。これに限定されず、組をなす一方のチャンネルを基準に決め、基準としたチャンネルの絶対位相が0°となる様に他方のチャンネルを座標回転させて算出しても良い。座標回転させた後の他方のチャンネルの絶対位相が位相差となる。
また、上記では、(処理7-2)において、最終的な音源方向を統計的に算出すると説明したが、これに限定されない。ここで、複数の音源方向を相加平均するのではなく、角度が0°に近い程、重みを付けた重み付け平均とすると良い。
また、上記では、マイクロフォンMICa~MICcは無指向性マイクロフォンであると説明したが、これに限定されず、単一指向性マイクロフォンでも良い。コンデンサマイクロフォンは単一指向性といっても、指向性はするどくない。単一指向性のコンデンサマイクロフォンであっても、裏から、つまり集音側でない側で話をした場合に、音が取れないということはなく、全指向性と単一指向性との差はわずかであるからである。但し、本実施形態では、マイクロフォンMICa~MICcの各々は、マイクロフォンMICa~MICcを含む平面における360°方向のどの方向に音源が位置したとしても、同等に音を拾うことが好適であるため、マイクロフォンMICa~MICcは無指向性マイクロフォンであることが好ましい。
また、上記では、例えば、音源方向の表裏の定義、音源角度の極性の定義を説明したが、これに限定されない。これらは、算出される位相差に対して全体の音源方向が整合されるように、任意に定義することができる。
また、上記では、ロボット1の電源がオンされ、マイコン41が起動している期間、(処理1)~(処理8)を繰り返し実行すると説明したが、これに限定されない。例えば、音量レベルが閾値を超えたことをトリガとして、(処理1)を開始する構成としても良い。この構成によれば、音を確実に取り込み、音に反応して確実に動作することができる。
また、上記では、音源方向特定装置10はロボット1に備えられると説明したが、これに限定されない。例えば、音源方向特定装置10が可動式の監視カメラに備えられても良い。この構成によれば、音源方向特定装置10が特定した方向にカメラを向けることができる。また、音源方向特定装置10が判定した音源方向を記録する機能を備える構成、音源方向特定装置10が判定した音源方向を記録装置に出力する構成としても良い。また、マイクロフォンMICa~MICcが集音した音声を音源方向特定装置10が記録する機能を備える構成、マイクロフォンMICa~MICcが集音した音声を例えばPCなどの処理装置に出力する構成を音源方向特定装置10が備える構成としても良い。
また、上記では、(処理6)にて、各組にて、加重平均により1つの到達時間差Tdiffを求め、以降の処理を行うと説明した。これに限定されず、1つの到達時間差Tdiffを求めずに、各組において、各有音周波数インデックスについて、(処理7-1)以降の処理を行う構成としても良い。この構成の場合、(処理8)にて、マイコン41は、(処理7-2)で算出した、「有音インデックス数×2」個の全体の音源角度に基づき、最終的な音源方向を統計的に算出する。具体的には、マイコン41は、(処理7-2)で算出した、「有音インデックス数×2」個の全体の音源角度のうち、外れ値を除外して平均し、1つの音源方向を算出する。このように、周波数成分ごとに音源角度を求め、それらの統計から最終的な音源角度を求めるため、条件の悪い周波数成分による誤差の影響を受けにくい。例えばマイクロフォン、アンプなどの周波数特性にはバラツキがある。このため、算出する位相差の誤差が比較的大きい周波数成分と、誤差が比較的小さい周波数成分とが含まれることが考えられる。そこで、複数の周波数成分に基づき最終的な音源角度を求めることで、1つの周波数成分に基づき最終的な音源角度を求める場合よりも、音源角度θの精度を良くすることができる。
本発明の範囲は,明細書に明示的に説明された構成や限定されるものではなく,本明細書に開示される本発明の様々な側面の組み合わせをも,その範囲に含むものである。本発明のうち,特許を受けようとする構成を,添付の特許請求の範囲に特定したが,現在の処は特許請求の範囲に特定されていない構成であっても,本明細書に開示される構成を,将来的に特許請求の範囲とする意思を有する。
本願発明は上述した実施の形態に記載の構成に限定されない。上述した各実施の形態や変形例の構成要素は任意に選択して組み合わせて構成するとよい。また各実施の形態や変形例の任意の構成要素と,発明を解決するための手段に記載の任意の構成要素または発明を解決するための手段に記載の任意の構成要素を具体化した構成要素とは任意に組み合わせて構成するとよい。これらについても本願の補正または分割出願等において権利取得する意思を有する。
また,意匠出願への変更出願により,全体意匠または部分意匠について権利取得する意思を有する。図面は本装置の全体を実線で描画しているが,全体意匠のみならず当該装置の一部の部分に対して請求する部分意匠も包含した図面である。例えば当該装置の一部の部材を部分意匠とすることはもちろんのこと,部材と関係なく当該装置の一部の部分を部分意匠として包含した図面である。当該装置の一部の部分としては,装置の一部の部材としても良いし,その部材の部分としても良い。全体意匠はもちろんのこと,図面の実線部分のうち任意の部分を破線部分とした部分意匠を,権利化する意思を有する。
1 ロボット
10 音源方向特定装置
41 マイコン
MICa,MICb,MICc マイクロフォン

Claims (4)

  1. 複数のマイクロフォンが集音した音声を記録する機能と、
    前記複数のマイクロフォンが集音した音声に基づき音源方向を特定し、特定した音源方向を記録する機能を備え
    前記複数のマイクロフォンは3つのマイクロフォンであり、
    3つのマイクロフォンは三角形の頂点に配置され、
    音源から前記3つのマイクロフォンの各々までの音の到達時間の差に基づき前記音源方向を特定し、
    前記3つのマイクロフォンが収納された筐体の内部は音が抜ける構造であり、前記3つのマイクロフォンは、それぞれ、後ろからも音を拾う構成としたこと
    を特徴とするカメラ。
  2. 前記三角形の頂点に配置された3つのマイクロフォンはいずれも無指向性のマイクロフォンとしたこと
    を特徴とする請求項1に記載のカメラ。
  3. 前記3つのマイクロフォンの各々が出力する3つの電気信号のうちの2つの電気信号を1組として各組から算出される位相差に基づき、前記到達時間の差を算出する機能を備えたこと
    を特徴とする請求項1または2に記載のカメラ。
  4. 前記複数のマイクロフォンが集音した音声に基づき音源方向を特定し、特定した音源方向にカメラを向ける機能を備えること
    を特徴とする請求項1から3のいずれかに記載のカメラ。
JP2022153296A 2018-01-16 2022-09-27 音源方向特定装置 Active JP7403778B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022153296A JP7403778B2 (ja) 2018-01-16 2022-09-27 音源方向特定装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018004926A JP7154530B2 (ja) 2018-01-16 2018-01-16 音源方向特定装置
JP2022153296A JP7403778B2 (ja) 2018-01-16 2022-09-27 音源方向特定装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2018004926A Division JP7154530B2 (ja) 2018-01-16 2018-01-16 音源方向特定装置

Publications (2)

Publication Number Publication Date
JP2022180571A JP2022180571A (ja) 2022-12-06
JP7403778B2 true JP7403778B2 (ja) 2023-12-25

Family

ID=67397824

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2018004926A Active JP7154530B2 (ja) 2018-01-16 2018-01-16 音源方向特定装置
JP2022153296A Active JP7403778B2 (ja) 2018-01-16 2022-09-27 音源方向特定装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2018004926A Active JP7154530B2 (ja) 2018-01-16 2018-01-16 音源方向特定装置

Country Status (1)

Country Link
JP (2) JP7154530B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011232238A (ja) 2010-04-28 2011-11-17 Nidec Copal Corp 音源方向推定装置
JP2012129873A (ja) 2010-12-16 2012-07-05 Chubu Electric Power Co Inc 指定領域からの伝播音の再生方法とその装置
KR101526858B1 (ko) 2014-11-12 2015-06-17 주식회사 엘리소프트 감시 대상을 음원 인식방법으로 추적할 수 있는 방범용 cctv 시스템 및 그 방법

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59105575A (ja) * 1982-12-08 1984-06-18 Matsushita Electric Ind Co Ltd 音方向検出方式
US5095467A (en) 1990-09-14 1992-03-10 Alliant Techsystems Inc. Target tracking system for determining bearing of a target
JP3572849B2 (ja) * 1997-02-14 2004-10-06 富士ゼロックス株式会社 音源位置計測装置、及びカメラ撮影制御装置
JPH10253743A (ja) * 1997-03-07 1998-09-25 Oki Tec:Kk 話者位置推定方法
JP2000035474A (ja) 1998-07-17 2000-02-02 Fujitsu Ltd 音源位置検出装置
US6185152B1 (en) * 1998-12-23 2001-02-06 Intel Corporation Spatial sound steering system
JP2010175431A (ja) 2009-01-30 2010-08-12 Nippon Telegr & Teleph Corp <Ntt> 音源方向推定装置とその方法と、プログラム
JP6491863B2 (ja) 2014-11-28 2019-03-27 株式会社熊谷組 音源方向推定装置、及び、音源推定用画像作成装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011232238A (ja) 2010-04-28 2011-11-17 Nidec Copal Corp 音源方向推定装置
JP2012129873A (ja) 2010-12-16 2012-07-05 Chubu Electric Power Co Inc 指定領域からの伝播音の再生方法とその装置
KR101526858B1 (ko) 2014-11-12 2015-06-17 주식회사 엘리소프트 감시 대상을 음원 인식방법으로 추적할 수 있는 방범용 cctv 시스템 및 그 방법

Also Published As

Publication number Publication date
JP2019124570A (ja) 2019-07-25
JP2022180571A (ja) 2022-12-06
JP7154530B2 (ja) 2022-10-18

Similar Documents

Publication Publication Date Title
Ishi et al. Evaluation of a MUSIC-based real-time sound localization of multiple sound sources in real noisy environments
TWI556654B (zh) 用以推衍方向性資訊之裝置與方法和系統
Sasaki et al. Multiple sound source mapping for a mobile robot by self-motion triangulation
KR20130137020A (ko) 가청 사운드 및 초음파를 이용한 소스 정위를 위한 시스템들, 방법들, 장치, 및 컴퓨터 판독가능 매체들
Nakadai et al. Robust tracking of multiple sound sources by spatial integration of room and robot microphone arrays
Gala et al. Realtime active sound source localization for unmanned ground robots using a self-rotational bi-microphone array
Nguyen et al. Multilevel B-splines-based learning approach for sound source localization
JP6977448B2 (ja) 機器制御装置、機器制御プログラム、機器制御方法、対話装置、及びコミュニケーションシステム
US8416642B2 (en) Signal processing apparatus and method for removing reflected wave generated by robot platform
Martinson et al. Auditory evidence grids
Thakur et al. Sound source localization of harmonic sources in entire 3D space using just 5 acoustic signals
JP7403778B2 (ja) 音源方向特定装置
Bechler et al. Considering the second peak in the GCC function for multi-source TDOA estimation with a microphone array
JP2006194700A (ja) 音源方向推定システム、音源方向推定方法及び音源方向推定プログラム
Sewtz et al. Robust MUSIC-based sound source localization in reverberant and echoic environments
Novoa et al. Weighted delay-and-sum beamforming guided by visual tracking for human-robot interaction
KR20090128221A (ko) 음원 위치 추정 방법 및 그 방법에 따른 시스템
Martinson et al. Robotic discovery of the auditory scene
Liu et al. Azimuthal source localization using interaural coherence in a robotic dog: modeling and application
Su et al. Acoustic imaging using a 64-node microphone array and beamformer system
Cirillo et al. Sound mapping in reverberant rooms by a robust direct method
Sledevič et al. An evaluation of hardware-software design for sound source localization based on SoC
JP2006304124A (ja) 音源方向確定装置および音源方向確定方法
Brian Auditory occupancy grids with a mobile robot
Su et al. Real-time sound source localisation for target tracking applications using an asynchronous microphone array

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220929

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20221003

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230801

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230929

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231205

R150 Certificate of patent or registration of utility model

Ref document number: 7403778

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150