WO2005076661A1

WO2005076661A1 - 超指向性スピーカ搭載型移動体

Info

Publication number: WO2005076661A1
Application number: PCT/JP2005/002044
Authority: WO
Inventors: Masamitsu Ishii; Shinichi Sakai; Hiroshi Okuno; Kazuhiro Nakadai; Hiroshi Tsujino
Original assignee: Mitsubishi Denki Engineering Kabushiki Kaisha; Honda Motor Co., Ltd.
Priority date: 2004-02-10
Filing date: 2005-02-10
Publication date: 2005-08-18
Also published as: EP1715717B1; EP1715717A4; US20070183618A1; JPWO2005076661A1; EP1715717A1

Abstract

　可聴音信号源からの入力電気信号によって超音波のキャリア信号を変調する変調器３３と、変調器３３の出力信号を放射する放射器４４と前記放射器４４をリアルタイムで周辺空間をセンシングする対象物追跡システムを有した移動体１に搭載し、超音波の有限振幅音波の非線形性によるパラメトリック作用により特定の対象物にのみ音声を伝達することができる超指向性スピーカ搭載型移動体とする。

Description

明細書

超指向性スピーカ搭載型移動体

技術分野

[0001] この発明は、人物追跡機能を有した移動体に可聴音を指向性放射する超指向性スピー力を搭載した移動体搭載型音響装置に係るものである。

背景技術

[0002] 従来より、全方位に音を発することのできる全方位型スピーカと、非常に指向性の高い超指向性スピーカがあった。全方位型スピーカは従来力も広く用いられていた。超指向性スピーカは、強力な超音波が空気を伝播する過程で発生するひずみ成分を利用して可聴帯域の音を得るパラメトリックスピーカの原理を利用して、音を正面に集中して伝播させており、この結果として狭指向性を有して音を提供することが可能となっている。パラメトリックスピーカとして例えば特許文献 1のようなものが存在した。

[0003] また、視聴覚システムを搭載したロボットとして、特許文献 2のものがあった。この移動体聴視覚システムは、対象に対する視覚及び聴覚の追跡を行うためのリアルタイム処理を可能にし、さらに視覚、聴覚、モータ等のセンサー情報を統合して、何らかの情報が欠落したとしても、相互に補完することにより追跡を継続するものであった。

[0004] 特許文献 1：特開 2001— 346288号公報

特許文献 2：特開 2002-264058号公報

[0005] 従来の移動体は、目標物を追跡するものの搭載されているスピーカは全方位型スピー力であり、提供する音声は周囲の不特定多数物に聞こえてしまい、限られた人、エリアのみに音声を提供することができな、と、う課題があった。

[0006] また、パラメトリックスピーカは超指向性スピーカとして指向性が強、ことで、可聴ェリアを限定することは可能であつたが、特定の聴取者を認識し、その聴取者に限定して音声を発信することはできな力つた。

[0007] この発明は上記のような課題を解決するためになされたものであり、移動体に超指向性スピーカを搭載することにより、特定の聴取に特定の音声を伝えることができる移動体を提供することを目的とする。発明の開示

[0008] この発明に係る超指向性スピーカ搭載型移動体は、全方位型スピーカと、超指向性スピーカを有し、視覚モジュール、聴覚モジュール、モータ制御モジュール及びそれらを統合する統合モジュールを兼備えることにより、特定、不特定の対象物へ同時に音を発信できるものである。

[0009] このことによって、移動体からの音声を超指向性スピーカから出力することにより、特定の聴取に特定の音声を提供することができるという効果がある。

また、全方位型スピーカを組み合わせることで、状況に応じた音声を伝えることができる。つまりプライベート情報は超指向性スピーカ、一般情報は全方位型スピーカといったようにスピーカを選択することにより、情報伝達方法の幅が広がる。さらに複数の超指向性スピーカを使用することで混合 (クロストーク)することなぐ複数の人に対しそれぞれ個別の音で個別の情報を伝えることができる。

図面の簡単な説明

[0010] [図 1]この実施の形態 1の移動体の正面図である。

[図 2]この実施の形態 1の移動体の側面図である。

[図 3]この発明の実施の形態 1による超指向性スピーカと全方位型スピーカの音の伝わる範囲を示した図である。

[図 4]この発明の実施の形態 1の超指向性スピーカの構成図である。

[図 5]この実施の形態 1の全体システム図である。

[図 6]この実施の形態 1の聴覚モジュールの詳細を示す図である。

[図 7]この実施の形態 1の視覚モジュールの詳細を示す図である。

[図 8]この実施の形態 1のモータ制御モジュールの詳細を示す図である。

[図 9]この実施の形態 1の対話モジュールの詳細を示す図である。

[図 10]この実施の形態 1の統合モジュールの詳細を示す図である。

[図 11]この実施の形態 1のカメラが対象物を検知するエリアを示す図である。

[図 12]この発明の実施の形態 1の対象物追従システムを説明する図である。

[図 13]この発明の実施の形態 1の変形例を示す図である。

[図 14]この発明の実施の形態 1の他の変形例を示す図である。 [図 15]この発明の実施の形態 1の移動体が対象物までの距離を測定する時の図である。

発明を実施するための最良の形態

[0011] 以下、この発明をより詳細に説明するために、この発明を実施するための最良の形態について、添付の図面に従って説明する。

実施の形態 1.

図 1は、この実施の形態 1の移動体の正面図、図 2は、この実施の形態 1の移動体の側面図である。図 1において、人型の外観を備えたロボットである移動体 1は、脚部 2と、脚部 2上にて支持された胴体部 3と、胴体部 3上に可動に支持された頭部 4とを有している。

[0012] 脚部 2は下部に複数の車輪 21を備え、後述するモータを制御することにより移動可能となっている。また前記移動形態は車輪のみでなぐ複数の脚移動手段を備えてもよい。胴体部 3は、脚部 2に対して固定支持されている。頭部 4は胴体部 3と連結部材 5を介して連結されており、この連結部材 5は、矢印 Aに示すように胴体部 3に対し鉛直軸に対して回転可能に支持されている。また、頭部 4は連結部材 5に対して、矢印 Bに示すように上下方向に回動可能に支持されて、る。

[0013] ここで、頭部 4は、全体が防音性の外装 41により覆われていると共に、前側にロボット視覚を担当する視覚装置としてのカメラ 42を、また両側にロボット聴覚を担当する聴覚装置としての一対のマイク 43を備えて、る。

[0014] マイク 43は、それぞれ頭部 4の側面において、前方に向力つて指向性を有するように取り付けられている。

[0015] 全方位型スピーカ 31は、胴体部 3前面に設けられ、頭部 4には、ノラメトリックスピー力アレイの原理に基づいて高い指向性を有する超指向性スピーカの放射部である放射器 44が設けられている。

[0016] パラメトリックスピーカは、人には聞こえない超音波を利用し、強力な超音波が空気を伝播する過程でひずみ成分が発生し、そのひずみ成分を利用することによって可聴帯域の音を得る原理 (非線形性)を採用してヽる。可聴音を得るための変換効率は低いが、音放射方向の狭いエリアにビーム状に音が集中するという「超指向性」を呈することができる。全方位型スピーカは、いわば裸電球の光のように、背面を含む広いエリアに音場を形成するので、エリアをコントロールすることが出来な力つたが、ノラメトリックスピーカで使用するスピーカは、あた力もスポットライトのように聞こえるェリアを限定することが可能となって、る。

[0017] 全方位型スピーカと超指向性スピーカの音伝播の様子を図 3に示す。図 3の上段は空気中を伝播する音の音圧レベルのコンター図、下段は音圧レベルの計測値を示した図である。全方位型スピーカは図 3 (a)に示すように、拡がって周辺空間に聞こえることがわ力る。これに対し超指向性スピーカは、音は正面に集中して伝播していることがわかる。これは、強力な超音波が空気を伝播する過程で発生するひずみ成分を利用して可聴帯域の音を得るパラメトリックスピーカの原理を利用している。この結果、図 3 (b)に示す例では狭指向性を有して音を提供することが可能となっている。

[0018] 図 4に示すように、この超指向性スピーカシステムは、可聴音信号源からの音源 32 と、音源 32からの信号からの入力電気信号によって超音波のキャリア信号を変調する変調器 33と、変調器 33からの信号を増幅するパワーアンプ 34と、変調によって得られた信号を音波に変換する放射器 44から構成されている。

[0019] ここで、パラメトリックスピーカを駆動するためには、オーディオ信号を取り出して、その信号の大小に応じて、超音波を放射する変調器が必要なので、この変調のプロセスを信号が忠実に抽出できること、また細かな調整が容易に行えることから、デジタル処理する包絡変調器とすると更に好適となる。

[0020] 図 5は、移動体の制御システムの電気的構成を示している。図 5において、制御システムは、ネットワーク 100、 ¾覚モジユーノレ 300、視覚モジユーノレ 200、モータ制御モジュール 400、対話モジュール 500及び統合モジュール 600から構成されて!、る。以下、聴覚モジュール 300、視覚モジュール 200、モータ制御モジュール 400、対話モジュール 500及び統合モジュール 600につ!/、て、それぞれ説明する。

[0021] 図 6に聴覚モジュールの詳細図を示す。聴覚モジュール 300は、マイク 43と、ピーク検出部 301、音源定位部 302、聴覚イベント生成部 304から構成されている。

[0022] 聴覚モジュール 300は、マイク 43からの音響信号に基づいて、ピーク検出部 301 により左右のチャンネル毎に一連のピークを抽出して、左右のチャンネルで同じか類似のピークをペアとする。ここで、ピーク抽出は、パワーがしきい値以上で且つ極大値であって、例えば 90Hz乃至 3kHzの間の周波数であるという条件のデータのみを通過させる帯域フィルタを使用することにより行なわれる。このしきい値は、周囲の暗騒音を計測して、さらに感度パラメータ、例えば 10dBを加えた値として定義される。

[0023] そして聴覚モジュール 300は各ピークが調波構造を有していることを利用して、左右のチャンネル間でより正確なピークを見つけ、調波構造を有する音を抽出する。ピーク検出部 301は、マイク 43より入力された音を周波数分析し、得られたスペクトルよりピークを検出し、得られたピークのうち、調波構造を有するものを抽出する。音源定位部 302は抽出された各ピークについて、左右のチャンネルから同じピーク周波数の音響信号を選択して、両耳間位相差を求めることでロボット座標系での音源方向を定位する。聴覚イベント生成部 304は、音源定位部 302が定位した音源方向と、定位した時刻からなる聴覚イベント 305を生成し、ネットワーク 100に出力する。ピーク検出部 301で複数の調波構造が抽出された場合は、複数の聴覚イベント 305が出力される。

[0024] 図 7に視覚モジュールの詳細図を示す。視覚モジュール 200は、カメラ 42と、顔発見部 201、顔識別部 202、顔定位部 203と、視覚イベント生成部 206と、顔データべース 208から構成されて!、る。

[0025] 視覚モジュール 200は、カメラからの撮像画像に基づいて、顔発見部 201により例えば肌色抽出により各話者の顔画像領域を抽出し、顔識別部 202で顔データベース 208に前もって登録されている顔データを検索して、一致した顔があった場合、その顔 ID204を決定して当該顔として識別すると共に、顔定位部 203により抽出された顔画像領域の撮像画像上での位置と大きさよりロボット座標系での当該顔位置 205を決定する。視覚イベント生成部 206は、顔 ID204と顔位置 205、及びこれらを検出した時刻からなる視覚イベント 210を生成し、ネットワーク出力する。撮像画像から複数の顔が発見された場合は、複数の視覚イベント 210が出力される。顔認識部 202は、抽出した顔画像領域に対して、例えば特許文献 1に記載された公知の画像処理であるテンプレートマッチングを用いてデータベース検索を行う。顔データベース 208は、各個人の顔画像と名前を一対一で対応させ IDをふったデータベースである。

[0026] ここで、視覚モジュール 200は、顔発見部 201が画像信号から複数の顔を見つけた場合、各顔について前記処理、即ち識別及び定位を行なう。その際、顔発見部 20 1により検出された顔の大きさ、方向及び明るさがしばしば変化するので、顔発見部 2 01は、顔領域検出を行なって、肌色抽出と相関演算に基づくパターンマッチングの組合せによって複数の顔を正確に検出できるようになって!/、る。

[0027] 図 8にモータ制御モジュールの詳細図を示す。モータ制御モジュール 400は、モータ 401及びポテンショメータ 402と、 PWM制御回路 403、 AD変換回路 404及びモータ制御部 405と、モータイベント生成部 407と、モータ 401により駆動される、車輪 21、ロボット頭部 4、放射器 44、及び全方位型スピーカ 31とから構成されている。

[0028] モータ制御モジュール 400は後述する統合モジュール 600から得られる注意を向ける方向 608に基づいて、移動体 1の動作プランニングを行い、駆動モータ 401の動作の必要があれば、モータ制御部 405により PWM制御回路 403を介してモータ 40 1を駆動制御する。

[0029] 動作プランニングは例えば、注意を向ける方向の情報に基づいて対象物に向かうように、移動体 1の位置を移動するよう車輪を動力したり、移動体 1の位置を移動しなくても頭部 4を水平方向に回転することにより頭部 4が対象物に向力うようになる場合、頭部 4を水平方向に回転させるモータを制御し、対象物に向力ようにする。また、対象物が座っている場合、身長差が小さい若しくは大きい場合、段差のある場所に V、る場合など対象物の頭部の位置に放射器 44が向かな、場合、移動体の頭部 4を上下方向に回動させるモータを制御し、放射器 44の向力方向を制御する。

[0030] モータ制御モジュール 400は PWM制御回路 403を介してモータ 401を駆動制御すると共に、モータの回転方向をポテンショメータ 402で検出して、 AD変換回路 404 を介してモータ制御部 405により移動体方向 406を抽出し、モータイベント生成部 40 7によりモータ方向情報及び時刻力も成るモータイベント 409を生成し、ネットワーク 1 00に出力する。

[0031] 図 9に対話モジュールの詳細図を示す。対話モジュール 500は、スピーカと、音声合成回路 501、対話制御回路 502、対話シナリオ 503から構成されている。 [0032] 対話モジュール 500は、後述する統合モジュール 600により得られる顔 ID204と、対話シナリオ 503に基づいて対話制御回路 502を制御し、音声合成回路 501により全方位型スピーカ 31を駆動して、所定の音声を出力する。また音声合成回路 501は、指向性の高いパラメトリック作用による超指向性スピーカの音源として機能し、対象とする話者に対して所定の音声を出力する。前記対話シナリオ 503は、どのようなタイミングで誰に何を話すのかが記されており、対話制御回路 502は、顔 ID204に含まれる名前を対話シナリオ 503に組み込み、対話シナリオ 503に記されて、るタイミングに従って、対話シナリオ 503に記されている内容を、音声合成回路 501により合成し、超指向性スピーカあるいは全方位型スピーカ 31を駆動する。また全方位型スピ一力 31と放射器 44の切替え及び使い分けは、対話制御回路 502により制御される。

[0033] そして、放射器 44は対象物追跡手段に同期し特定聴取者、特定エリアに音を伝え、全方位型スピーカ 31は共有情報を不特定多数物へ伝えることができるように構成されている。

以上の構成のうち、聴覚モジュール、モータ制御モジュール、統合モジュール及びネットワークを用いて、対象物を追跡することができる（対象物追跡手段)。更に視覚モジュールをカ卩えることによって、追跡精度を向上させることができる。また、統合モジュール、モータ制御モジュール、対話モジュールおよびネットワークを用いて、放射器 44の方向を制御することができる（放射器方向制御手段)。

[0034] 図 10に統合モジュールの詳細図を示す。統合モジュール 600は、上述した聴覚モジュール 300、視覚モジュール 200、モータ制御モジュール 400を統合し、対話モジユール 500の入力を生成する。具体的には、統合モジュール 600は聴覚モジュール 300、視覚モジュール 200及びモータ制御モジュール 400から非同期イベント 601a 即ち聴覚イベント 305、視覚イベント 210及びモータイベント 409を同期させて同期ィベント 601bにする同期回路 602と、これらの同期イベント 601bを相互に関連付けて、聴覚ストリーム 605、視覚ストリーム 606、及び統合ストリーム 607を生成するストリーム生成部 603と、さらにアテンション制御モジュール 604を備えている。

[0035] 同期回路 602は聴覚モジュール 300からの聴覚イベント 305、視覚モジュール 200 力の視覚イベント 210及びモータ制御モジュール 400からのモータイベント 409を同期させて、同期聴覚イベント、同期視覚イベント及び同期モータイベントを生成する。その際、同期聴覚イベント及び同期視覚イベントは、同期モータイベントを用いて、絶対座標系に変換される。

[0036] 同期されたイベントはそれぞれ、時間方向に接続され、聴覚イベントからは聴覚ストリーム、視覚イベントからは視覚ストリームが形成される。この際、同時に複数の音、顔が存在すれば、複数の聴覚、及び視覚ストリームが形成される。また、相関の高い視覚ストリームと聴覚ストリームは一つに束ねられ (アソシエーション）、統合ストリーム t 、う高次のストリームを形成する。

[0037] アテンション制御モジュールは、形成された、聴覚、視覚、及び統合ストリームが有する音源方向情報を参照して、注意を向ける方向 608を決定する。ストリーム参照の優先順位は、統合ストリーム、聴覚ストリーム、そして視覚ストリームの順であり、統合ストリームがある場合は統合ストリームの音源方向を、統合ストリームがない場合は聴覚ストリームを、統合ストリームと聴覚ストリームがない場合は視覚ストリームの音源方向を、注意を向ける方向 608とする。

[0038] 以下、上述した移動体の使用例を説明する。移動体に予め使用する場所についての情報を入力し、部屋のどの位置でどちらの方向力音がしたらどう移動するか予め設定しておく。壁などの障害物などにより音源方向から人間が見つ力ない場合、移動体は人間が隠れていると判断して、顔を探す行動 (移動)をとるように対象物追跡手段に予め設定しておく。移動体 1のカメラ 42は、頭部 4の前方に設けられており、その映し出せる範囲 49は図 11に示すようにカメラ 42の前方の一部に限られて、る。例えば図 12のように部屋に障害物 Eがある場合、入場者を検出できないことがある。そこで移動体 1が Aの位置で音源方向が Bのとき、入場者 Cが発見できなければ移動体 1は Dの方向へ向力うようモータ制御モジュール 800により、制御するようにしておく。このようなアクティブな行動により障害物 Eなどによる視界の死角をなくすことができるように設定されている。また、反射を利用することで、移動体 1は Dの行動をとらなくても入場者 Cへ音声を伝えることも可能である。

[0039] このように設定しておくことにより対象物追跡手段は聴覚情報、視覚情報を統合し周囲の状況をロバストに知覚することが可能である。また視聴覚処理と動作を統合して周囲の状況をよりロバストに知覚して、情景分析向上を図ることもできる。

[0040] 部屋に待機している移動体 1は、部屋内に人間が入ってくると、音声の発生する方向に移動体のカメラが向くように車輪 21、及び頭部を動かす各モータを制御する。

[0041] 入場者の情報が予めわ力つている場合には、予め入場者の顔を顔データベース 2 08に登録しておき、視覚モジュールにて顔 ID204を識別できるようにする。対話モジユール 500は、統合モジュールより得られた顔 IDに基づいて名前を識別し、全方位型スピーカ 31若しくは超指向性スピーカの放射部である放射器 44から音声合成により「いらっしゃいませ、田中さん。」と入場者にあいさつをする。

[0042] 続、て、複数の入場者が、る場合にっ、て説明する。対話モジュール 500は対話制御回路を制御し、全方位型スピーカ 31から「みなさんいらっしゃいませ。」と全員に聞こえるように合成音声が発せられる。入場者が 1人の場合と同様に、視覚モジユール 200を用いそれぞれの人を判断する。

[0043] 超指向性スピーカである放射器 44を用いているから、他の人には聞こえないので、問いかけられた入場者だけが自分の名前を答えるので、確実に間違えることなく顔データベース 208に入場者を登録することができる。

[0044] 入場者が一人であれば、通常のスピーカを用いても、全方位型スピーカ 31若しくは超指向性スピーカの放射部である放射器 44を用いても変わりはないが、複数の入場者がある場合、超指向性スピーカを用いることにより、特定の入場者だけに情報を伝達することができる。

対象物を認識し追跡する対象物追跡システムから構成される対象物追跡手段と、対象物追跡手段により追跡している対象物に放射器が対向するように制御する対象物追跡システム力なる放射器方向制御手段とにより、特定の対象物にのみ音を発信することができるのである。

[0045] 上記実施の形態において、全方位型スピーカ 31の位置を胴体部 3に設けた例について説明したが、図 13に示すように全方位型スピーカ 31の位置を頭部 4の超指向性スピーカの放射部である放射器 44の周囲に設けてもよい。

[0046] 超指向性スピーカの放射部である放射器 44及びカメラ 42を頭部 4に設置した例について説明したが、頭部 4をモータにより回転、揺動可能とせずに、超指向性スピー力の放射部である放射器 44及びカメラ 42の向きを可変にすれば、放射部 44及び力メラ 42の設置場所は頭部 4に限らず、 V、ずれの場所でも良！、。

[0047] 放射器 44を 1つ設けた例について説明したが放射器 44を複数設け、放射器 44の向きをそれぞれ別個に制御できるようにしてもよい。複数の特定の人々だけにそれぞれ別個音声を伝えることができるようになる。

[0048] 上記実施の形態において、顔データベース 208を用いた例を示したが、個別に人を管理せずに、既存のセンサを組み合わせ、入場者の背丈を識別し、背丈情報から子供を識別し、子供だけに放射器 44から音声を伝達し、一般の聴取者に対しては全方位型スピーカ 31のみを用いるようにしてもよい。図 14に示すように大人 3人、子供 2人の入場者に対し、背丈力子供を認識し、子供だけに特定の音声を伝えるようにすることができる。

[0049] また、カメラ 42からの映像を画像処理し、たとえば眼鏡をかけて、る人など特徴のある集団に対し、放射器 44から個別の音声を伝えるようにしてもよい。また、集団の中に外国人がいる場合、その人の母国語にあわせて、同様のことを英語やフランス語と、つた言語で伝えるようにしてもょ、。

産業上の利用可能性

[0050] 以上のように、この発明に係る超指向性スピーカ搭載型移動体は、全方位型スピー力と、超指向性スピーカを有し、視覚モジュール、聴覚モジュール、モータ制御モジユールを統合する統合モジュールを兼備えることにより、特定、不特定の対象物へ同時に音を発信できるものであり、視聴覚システムを搭載したロボットなどに用いるのに適している。

Claims

請求の範囲

[1] 全方位型スピーカと、超指向性スピーカを有し、視覚モジュール、聴覚モジュール

、モータ制御モジュール及びそれらを統合する統合モジュールを兼備えることにより、特定、不特定の対象物へ同時に音を発信できることを特徴とする超指向性スピーカ搭載型移動体。

[2] 対象物を認識し追跡する対象物追跡手段と、前記対象物追跡手段により追跡している対象物に放射器が対向するように制御する放射器方向制御手段とにより、特定の対象物にのみ音を発信することを特徴とする請求項 1記載の超指向性スピーカ搭載型移動体。

[3] 全方位型スピーカで不特定物に、超指向性スピーカで特定物へ音声を発信し、不特定物と特定の対象物に異なる音声を伝達することを特徴とする請求項 2記載の超指向性スピーカ搭載型移動体。