JP2011199764A

JP2011199764A - 発言者音声抽出システム、発言者音声抽出装置及び発言者音声抽出プログラム

Info

Publication number: JP2011199764A
Application number: JP2010066732A
Authority: JP
Inventors: 孔司 ▲桜▼田; Koji Sakurada
Original assignee: Oki Networks Co Ltd
Current assignee: Oki Networks Co Ltd
Priority date: 2010-03-23
Filing date: 2010-03-23
Publication date: 2011-10-06

Abstract

【課題】会議参加者に負担をかけることなくスムーズに高品質な話者音声を伝達可能な会議システムを実現することができるようにする。
【解決手段】本発明の発言者音声抽出システムであり、複数の利用者の発言関連情報を識別情報毎に記憶する発言情報記憶手段と、発言情報記憶手段を参照して、所定の発言許可判定規則に従って、発言を要求する利用者に対して発言を許可するか否かを管理する発言許可管理手段と、各利用者の操作を受けて識別情報を含む信号波を発言要求信号として出力する発言要求手段と、発言許可管理手段により発言が許可されると、受信された発言要求信号に基づき、出力元の発言要求手段の存在領域を推定する発言者領域推定手段と、音声入力手段により入力された音声入力信号のうち、発言者領域推定手段により推定された存在領域の音声信号を抽出する音源分離手段とを備える。
【選択図】図１

Description

本発明は、発言者音声抽出システム、発言者音声抽出装置及び発言者音声抽出プログラムに関し、例えば、会議システム等の音声コミュニケーションシステムにおいて、話者の音声を他の参加者に伝達するために、発言者の音声を抽出する発言者音声抽出システム、発言者音声抽出装置及び発言者音声抽出プログラムに適用し得るものである。

例えば、複数の参加者の間で会議システムを用いて会議を行う場合、発言者の音声や映像を正しく捉えることが望まれる。

従来、複数の参加者による会議システムにおいては、参加者毎にマイクを設置し、または、収音指向性を制御できるマイクアレイを設置した上で、これらのマイクが音声信号を捕捉し、話者の音声を伝達する方法が知られている。

例えば、特許文献１には、複数の筐体からなる会議端末に関する技術が記載されている。各筐体は可動でき、会議端末の使用形態に合わせて種々な形に変形することができる。また、各筐体にはマイクアレイが設置されており、会議端末の使用態様に応じて設定された形により、マイクアレイの収音モード（収音指向性）を制御することができ、収音下音声を他の参加者に伝達するというものである。

この方法によれば、例えば、会議端末を複数の参加者が取り囲むように複数の筐体を配置する場合には、全周囲からの収音となるよう収音指向性を制御し、また、会議端末を単独の参加者にフォーカスするよう複数の筐体を配置する場合には、狭範囲エリアからの収音となるよう収音指向性を制御するなど、会議形態に合わせた収音指向性により話者の音声を伝達することができる。

特開２００９−１７１４８６号公報

しかしながら、特許文献１の記載技術による会議システムは、会議形態や会議参加者などの位置に応じて、会議端末の筐体の位置を調整することが必要となる。そのため、会議開始前に会議参加者に負担がかかってしまうという問題がある。

また、特許文献１に記載の会議端末は、筐体の配置に応じて収音モードが決定され、収音指向性が調整される。そのため、例えば話者が移動した場合には、正しく音声を収音することができないという問題がある。

さらに、例えば、拠点間の会議等のように相手の状況が把握できない場合、複数の会議参加者が同時に発言すると、複数の音声信号を重畳して伝達することになるため、伝達先の他の会議参加者は聞き取りにくいという問題がある。また、このような同時発言を回避するために、各参加者がお互いに発言のタイミングを図り、スムーズな会話を行うことができないという問題がある。

そこで、本発明は、以上の問題点を解決し、会議参加者に負担をかけることなくスムーズに高品質な話者音声を伝達可能な会議システムを実現することができる発言者音声抽出システム、発言者音声抽出装置及び発言者音声抽出プログラムを提供することにある。

かかる課題を解決するために、第１の本発明の発言者音声抽出システムは、複数の利用者のうち発言が許可された発言者の音声を抽出する発言者音声抽出システムにおいて、（１）複数の利用者の発言関連情報を識別情報毎に記憶する発言情報記憶手段と、（２）発言情報記憶手段を参照して、所定の発言許可判定規則に従って、発言を要求する利用者に対して発言を許可するか否かを管理する発言許可管理手段と、（３）各利用者の操作を受けて、少なくとも当該利用者又は要求元を識別する識別情報を含む信号波を発言要求信号として出力する発言要求手段と、（４）発言要求信号を受信する発言要求受信手段と、（５）発言許可管理手段により発言が許可されると、発言要求受信手段により受信された発言要求信号に基づき、出力元の発言要求手段の存在領域を推定する発言者領域推定手段と、（６）音声入力手段により入力された音声入力信号のうち、発言者領域推定手段により推定された存在領域の音声信号を抽出する音源分離手段とを備えることを特徴とする。

第２の本発明の発言者音声抽出装置は、複数の利用者のうち発言を要求する利用者に対して発言を許可する発言許可管理手段と、少なくとも識別情報を含む信号波を発言要求信号として出力する利用者毎の発言要求手段とを備える発言者音声抽出システムを構成する発言者音声抽出装置において、（１）発言要求信号を受信する発言要求受信手段と、（２）発言許可管理手段により発言が許可されると、発言要求受信手段により受信された発言要求信号に基づき、出力元の発言要求手段の存在領域を推定する発言者領域推定手段と、（３）音声入力手段により入力された音声入力信号のうち、発言者領域推定手段により推定された存在領域の音声信号を抽出する音源分離手段とを備えることを特徴とする。

第３の本発明の発言者音声抽出プログラムは、複数の利用者のうち発言を要求する利用者に対して発言を許可する発言許可管理手段と、少なくとも識別情報を含む信号波を発言要求信号として出力する利用者毎の発言要求手段とを備える発言者音声抽出システムを構成する発言者音声抽出装置を、（１）発言要求信号を受信する発言要求受信手段、（２）発言許可管理手段により発言が許可されると、発言要求受信手段により受信された発言要求信号に基づき、出力元の発言要求手段の存在領域を推定する発言者領域推定手段、（３）音声入力手段により入力された音声入力信号のうち、発言者領域推定手段により推定された存在領域の音声信号を抽出する音源分離手段として機能させることを特徴とする

本発明によれば、会議参加者に負担をかけることなくスムーズに高品質な話者音声を伝達可能な会議システムを実現することができる。

第１の実施形態の音声会議ステムの全体構成を示す全体構成図である。第１の実施形態の会議端末の内部構成を示す内部構成図である。第１の実施形態の会議システムにおける発言者の音声抽出及び伝達処理を示すシーケンス図である。第１の実施形態の発言要求信号の構成を示す構成図である。第１の実施形態のマイクアレイの構成を示す構成図である。第１の実施形態の携帯端末の存在方向を検出する方法を説明する説明図である。

（Ａ）第１の実施形態
以下では、本発明の発言者音声抽出システム、発言者音声抽出装置及び発言者音声抽出プログラムの第１の実施形態を、図面を参照しながら説明する。

第１の実施形態では、複数の拠点間で、少なくとも音声を相互に伝達しあう音声会議システムに本発明を適用した実施形態を例示する。

なお、第１の実施形態では、音声会議システムに適用する場合を一例として説明するが、例えば、テレビ会議システム、音声通信など音声をメディア情報として授受する音声コミュニケーションシステムに広く適用することができる。

（Ａ−１）第１の実施形態の構成
（Ａ−１−１）全体構成
図１は、第１の実施形態の音声会議システムの全体構成を示す構成図である。図１において、第１の実施形態の音声会議システム１０は、会議室Ａ、会議室Ｂ、会議サーバ３、議事録データベース４を少なくとも有して構成される。

また、会議室Ａ及び会議室Ｂは、それぞれ同じ構成を備えている。図１では、会議室Ａが備える構成を例示する。会議室Ａは、図１に示すように、会議端末１、複数の携帯端末２−１及び２−２を少なくとも有して構成される。

携帯端末２−１及び２−２（以下、携帯端末２と呼ぶ）は、会議参加者である利用者Ｕ１及び利用者Ｕ２が操作する携帯端末である。例えば、携帯端末２は、会議参加用の専用端末であってもよいし、マイク（例えばピンマイクを含む概念）等のように各利用者が所持するものに搭載されるものであってもよい。

また、携帯端末２は、通信部２１、発言許可要求部２２、信号波出力部２３を少なくとも有する。

通信部２１は、会議サーバ３との間で情報を授受するものであり、会議サーバ３と通信することができれば、有線通信又は無線通信のいずれを適用してもよい。また、通信プロトコルは、特に限定されるものではなく、広く適用することができる。

発言要求許可部２２は、利用者の操作を受けて、発言の許可を会議サーバ３に要求するための発言許可要求データを、通信部２１を通じて会議サーバ３に送信するものである。また、発言要求許可部２２は、会議サーバ３により発言が許可されると、通信部２１を通じて発言許可ＩＤデータを受け取り、これを保持するものである。

信号波出力部２３は、利用者の操作を受けて、利用者識別情報及び発言許可ＩＤデータを含む信号波（例えば光、音波、超音波、音声帯域以外の音波など）を発言要求信号として、会議端末１に向けて出力するものである。

ここで、利用者識別情報とは、会議参加者を識別する識別情報であり、利用者ＩＤデータともいう。例えば、会議開始時に携帯端末２に予め利用者識別情報を登録するようにしてもよいし、又は携帯端末２自体を識別する識別情報としてもよい。

会議端末１は、会議処理を行う装置である。会議端末１は、携帯端末２から出力された発言要求信号を受信すると、当該発言要求信号に含まれる利用者識別情報及び発言許可ＩＤデータを解析し、利用者識別情報及び発言許可ＩＤデータを組とする正当性確認データを会議サーバ３に与えるものである。また、発言要求してきた利用者が発言許可されたものとして正当である場合、会議端末１は、当該利用者の音声を収音するために収音制御を行い、収音した音声信号を用いて会議データを生成して会議サーバ３に与えるものである。

会議サーバ３は、複数の拠点間の会議を制御するものである。会議サーバ３は、一方の会議室の会議端末１から会議データを受信すると、他方の会議室の会議端末１に対して会議データを送信するものである。

また、会議サーバ３は、通信部３１、議事録管理部３２、発言許可管理部３３を少なくとも有するものである。

通信部３１は、携帯端末２との間で情報を授受するものであり、携帯端末２と通信することができれば、有線通信又は無線通信のいずれを適用してもよい。また、通信プロトコルは、特に限定されるものではなく、広く適用することができる。

議事録管理部３２は、各会議室の会議端末１から受信した会議データに基づいて議事録データを生成して議事録データベース４に保存するものである。議事録管理部３２は、会議データに基づいて種々の議事録データを生成するようにしてもよいが、例えば、会議データから発言している発言者の利用者識別情報を抽出し、また当該会議データストリームを受信している時間を計測する。これにより、発言者の発言回数、発言時間、発言内容等を利用者識別情報毎にデータベース化することができる。

発言許可管理部３３は、議事録データデース４を参照して、会議参加者の発言許可を管理するものである。発言許可管理部３３は、携帯端末２から発言許可要求データを受け取ると、議事録データベース４を参照し、所定の発言許可判定ルールに従って、発言を許可するか否かを判断する。発言許可管理部３３は、発言を許可する場合、発言許可ＩＤデータを要求元の携帯端末２に返信し、許可しない場合、発言許可ＩＤデータを返信しない、若しくは、ＮＧの旨を返信する。

また、発言許可管理部３３は、会議端末１から正当性確認データを受け取ると、正当性確認データに含まれる利用者識別情報及び発言許可ＩＤデータの組が正当であるか否かを判断し、その判断結果を会議端末１に返信するものである。

議事録データベース４は、発言許可を判定するための発言許可判定ルールと、会議サーバ３から議事録データを受け取り、参加者の発言に関する情報を保存するものである。

（Ａ−１−２）会議端末１の構成
図２は、会議端末１の内部構成を示す内部構成図である。図２において、会議端末１は、通信部１１、マイクアレイ１２、発言者特定部１３、音源分離部１４、会議ストリーム処理部１５を少なくとも有する。

通信部１１は、会議サーバ３との間で情報を授受するものであり、会議サーバ３と通信することができれば、有線通信又は無線通信のいずれを適用してもよい。また、通信プロトコルは、特に限定されるものではなく、広く適用することができる。

マイクアレイ１２は、複数の音波センサを配置してなるものである。マイクアレイ１２は、携帯端末２から出力された発言要求信号や発言者が発言した音響信号を収音して、音響データとして発言者特定部１３及び音源分離部１４に与えるものである。

発言者特定部１３は、マイクアレイ１２から発言要求信号の音響データに基づいて、当該発言要求信号を出力した出力元の存在領域を推定するものである。発言者特定部１３は、図２に示すように、発言許可確認部１３１、方向検出部１３２を少なくとも有する。

発言許可確認部１３１は、マイクアレイ１２から受け取った発言要求信号の音響データから利用者識別情報及び発言許可ＩＤデータを取得し、利用者識別情報及び発言許可ＩＤデータが正当であるか否かを会議サーバ３に確認するものである。

方向検出部１３２は、マイクアレイ１２からの音響データに基づいて、当該音響データの出力元である携帯端末２が存在する方向を検出するものである。また、会議サーバ３から発言許可が正当である場合に、方向検出部１３２は、当該音響データの方向を示す音源分離指示データを音源分離部１４に与えるものである。

音源分離部１４は、発言者特定部１３から受け取った音源分離指示データに基づき、マイクアレイ１２から受け取った音響データのうち、指示された方向の音源からの音響データを受け取り、これを音声データとして会議ストリーム処理部１５に与えるものである。

会議ストリーム処理１５は、会議データ生成部１５１、出力制御部１５２を有するものである。

会議データ生成部１５１は、発言者特定部１３により特定された音響データの利用者識別情報と、音源分離部１４により抽出された音声データとを受け取り、この音声データ及び利用者識別情報を用いて会議データを生成して、通信部１１を通じて会議サーバ３に与えるものである。

出力制御部１５２は、通信部１１を通じて会議サーバ３から受信した他の会議端末１の会議データを受け取り、この会議データに基づいて出力すべき音声データ等の出力信号を生成して出力制御するものである。

（Ａ−２）第１の実施形態の動作
次に、第１の実施形態の会議システム１０において、各拠点で発言者の音声を抽出して他の拠点に音声信号を伝達する処理の動作を、図面を参照しながら説明する。

以下では、ネットワーク上の会議サーバ３を介して会議室Ａ及び会議室Ｂの拠点間で会議を行う場合に、会議室Ａにおける動作を例示して説明する。

図３は、会議システム１０における発言者の音声抽出及び伝達処理を示すシーケンスである。

まず、会議参加者である利用者が発言を希望する場合、発言許可を得るために、利用者は携帯端末２に対して所定の操作を行う（ステップＳ１０１）。この操作方法は、特に限定されるものではなく、例えば、専用ボタンの押下など様々な操作方法を適用することができる。

利用者により操作を受けると、携帯端末２では、発言許可要求部２２が、利用者識別情報を含む発言許可要求データを生成し、利用者識別情報を含む発言許可要求データを通信部２１に与え、ネットワークを経由して会議サーバ３に送信する（ステップＳ１０２）。なお、利用者識別情報は、予め携帯端末２に登録されているものとする。

発言許可要求データが与えられると、会議サーバ３では、発言許可管理部３３が、受信した発言許可要求データに含まれる利用者識別情報に基づいて議事録データベース４を参照し、当該利用者の発言を許可するか又は保留するかを決定する（ステップＳ１０３）。

ここで、発言許可管理部３３による発言許可の判定方法は、種々の方法を適用することができる。例えば、予め発言許可判定ルールを用意しておき、発言許可管理部３３が、議事録データベース４から利用者識別情報に対応するデータを読み出して、発言許可判定ルールに規定されている条件を満たしているか否かにより発言の許可を決定する方法を適用することができる。

この発言許可判定ルールは、１又は複数の種々の内容を規定することができる。例えば、会議端末１から会議データが無音であり、かつ、他の利用者からの発言許可要求が保留されていない場合、当該利用者の発言を許可するというルールを規定することができる。

なお、会議データから発話（有音）であるときに１又は複数の発言許可要求があった場合、発言許可管理部３３は、発言許可要求データの到着順（要求順）に、発言権を利用者に予約するようにしてもよい。

また上記のルール以外にも、例えば、議事録データベース４に利用者の発言時間や発言回数等が利用者識別情報毎に保存されている場合に、利用者の発言積算時間や発言回数が所定値を超えている場合には、当該利用者の発言を許可しないようにし、それ以外の場合に保留するようにしてもよい。

さらに、例えば、発言の許可が保留されている利用者については、会議端末１からの会議データが無音である場合に、保留時間が長い利用者から優先的に発言を許可するようにしてもよい。これを実現するために、例えば、発言許可管理部３３が、保留した利用者識別情報を、保留時間と対応付けて議事録データベース４に保存しておくことで実現することができる。

会議サーバ３において、発言許可管理部３３が、利用者の発言を許可すると、発言を許可したことを示す発言許可ＩＤデータを生成し、これをネットワーク経由で、当該利用者が操作した携帯端末２に送信する（ステップＳ１０４）。

このとき、会議サーバ３の発言許可管理部３３は、生成した発言許可ＩＤデータを利用者識別情報に対応付けて、議事録データベース４に保存する。

携帯端末２が発言許可ＩＤデータを取得すると、携帯端末２の信号波出力部２３が、発言が許可されたことを示す信号波（例えば、光、音波、超音波等）を発言許可要求信号として出力する（ステップＳ１０６）。

例えば、携帯端末２が発言許可ＩＤデータを受信すると、携帯端末２は発言が許可されたことを、例えば表示やランプや音などで知らせる。これにより利用者が発言権が巨かれたと認識することができ、利用者は発言要求信号を送信するための操作を行うようにしてもよい。また例えば、利用者の操作を必要とせずに、携帯端末２の別の動作として、携帯端末２は、発言許可ＩＤデータを受信すると、発言が許可されたことを光や音で利用者に知らせると共に、利用者ＩＤデータと発言許可ＩＤデータを含む発言要求信号を自動的に発信するようにしてもよい。

図４は、発言要求信号の構成例を示す構成図である。図４（Ａ）に例示するように、発言要求信号は、同期データ、利用者ＩＤデータ（利用者識別情報）、発言許可ＩＤデータを有するものである。各データは、２進数データからなるものである。また、信号波出力部２３は、図４（Ｂ）に例示するように、例えば１ｋＨｚの周波数信号を図４（Ａ）に示す各データで振幅変調した信号波（音波）として出力する。ここで、同期データは、会議端末２が発言要求信号を検出できるよう、予め会議毎に一意に定めた特定のパタンデータである。

携帯端末２から出力された発言要求信号は、会議端末３のマイクアレイ１２により受信される。マイクアレイ１２は、受信した信号波を復調して、音響データとして発言者特定部１３に与える。

ここで、図５は、マイクアレイ１２の構成を示す構成図である。図５において、マイクアレイ１２は、ｘ軸、ｙ軸、ｚ軸の原点を中心として、ｚ＝０平面上に４個の音波センサ５１〜５４を２行２列（２×２）で配置されている。４個の音波センサ５１〜５４は、それぞれ携帯端末４が出力する信号波（発言要求信号）を受波するものであり、それぞれ音響データを発言者特定部１３に与える。

発言者特定部１３では、発言者許可確認部１３１が、音波センサ５１〜５４からの音響データのうち、いずれかの音響データから利用者識別情報及び発言許可ＩＤデータを抽出し、利用者識別情報及び発言許可ＩＤデータを組とする正当性確認データを会議サーバ３に与えて、発言要求信号の正当性（すなわち発言許可の正当性）を問い合わせる（ステップＳ１０７、Ｓ１０８）。

会議サーバ３において、発言許可管理部３３は、受信した正当性確認データに含まれる利用者識別情報及び発言許可ＩＤデータを組が、議事録データベース４に登録されているか否かを判断し、登録されている場合には正当である旨の正当性確認応答データを、会議端末１に返信する（ステップＳ１０９）。なお、登録されていない場合には、不当である旨を返信するようにする。

会議端末１において、正当である旨の正当性確認応答データが返信されると、発言者特定部１３の方向検出部１３２は、当該利用者識別情報を会議ストリーム処理部１５に与えると共に、マイクアレイ１２からの音響データに基づいて、当該発言要求信号の出力元の携帯端末２の方向を検出し、この方向を含む音源分離指示データを音源分離部１４に与える（ステップＳ１１０）。

ここで、方向検出部１３２による方向検出の方法は、種々の方法を適用することができるが、第１の実施形態では、以下のような方法を適用する。例えば、方向検出部１３２は、４個の音波センサ５１〜５４からの４個の音響データ間の遅延を検出し、この遅延量から携帯端末２の存在方向を計算する方法を用いる。

図６は、携帯端末２の存在方向を検出する方法を説明する説明図である。図６では、ｘ＝０の平面上に、２個の音波センサ５１及び音波センサ５２が距離Ｄだけ空けて配置されている場合を示す。

例えば、音波センサ５１及び５２間の距離Ｄに対して、携帯端末２と会議端末１との間の距離が十分に大きい場合を考える。この場合、図６に示すように、音波センサ５１及び音波センサ５２に到来する音波の入射角度θは同じであると考えることができる。

また、このとき、音波センサ５１及び音波センサ５２に到来する音波は、Δだけの遅延をもってそれぞれの音波センサ５１及び５２に入力される。従って、音波センサ５１及び音波センサ５２に到来する音波の遅延時間τは、各音波センサ５１及び５２への入射角度θとの間で、式（１）のような幾何学的関係がある。

θ＝ｓｉｎ^−１（Δ／Ｄ） …（１）
Δ＝ｖ・τ …（２）
ただし、Ｄは、音波センサ間の距離、ｖは音波伝播速度を示す。

なお、図６は、水平面上に配置した音波センサ間の音波の遅延関係を説明したが、垂直平面上に配置した場合にも式（１）の関係式は成立する。従って、４個の音波センサ５１〜５４について、発言要求信号の受信時刻差を計測することにより、３次元空間における携帯端末２の方向を求めることができる。

以上の原理に基づき、方向検出部１３２は、４個の音響データの受信時刻を計測し、その時刻差から携帯端末２の存在方向を計算することができる。

なお、発言者特定部１３は、発言要求信号の正当性が確認できなかった場合、会議ストリーム処理部１５に利用者識別情報を与えず、また音源分離部１４に音源分離指示データを与えない。

会議端末１において、発言者特定部１３から音源分離指示データを受け取った音源分離部１４は、マイクアレイ１２からの入力した音響入力信号の中から、音源分離指示データに含まれる方向の音声データを抽出し、これを会議ストリーム処理部１５に与える（Ｓ１１１）。

ここで、音源分離部１４による音源分離方法について説明する。音源分離部１４には、４個の音波センサのそれぞれからデジタル化された音響データが入力される。音源分離部１４は、４個の音響データのうち、音源分離指示データに含まれる方向の音響データを抽出し、これを音声データとする。

この４個の音響データから特定方向の音響データを取り出す方法としては、既知の音源分離技術を適用することができる。例えば、第１の実施形態では、マイクセンサ１２を構成する２×２の音波センサ５１〜５４のそれぞれの音響信号に遅延を与えて、合成した空間フィルタを複数種類用意し、これらを組み合わせて再合成することにより、特定方向の音響データを取り出す方法（参照文献：矢頭隆、森戸誠、「臨場感テレワークにおける音処理技術」、ＯＫＩテクニカルレビュー、第２１３号Ｖｏｌ．７５、Ｎｏ．２、ｐｐ．１６−２０、２００８年１０月）。

会議端末１の会議ストリーム処理部１５は、携帯端末２の存在方向にフォーカスされた音声データを符号化し、利用者識別情報を付加した会議データを生成し（ステップＳ１１２）、ネットワーク介して会議サーバ３に送信する（ステップＳ１１３）。これにより、利用者の発言にフォーカスされた音声が、その発言者のＩＤとともに、他の会議参加者に伝達される。

なお、他の会議室Ｂにおいて参加者が発言した会議データは、会議サーバ３を介して、当該会議室Ａの会議端末１の会議ストリーム処理部１５に与えられる。

このとき、会議ストリーム処理部１５は、受信した会議データを復号して、復号音声データを得て、該復号音声データを音響出力信号に変換して、例えばスピーカ（図示しない）等から出力する。これにより、利用者に対して発言者の音声を聞かせることができる。

なお、第１の実施形態では、音声をメディア情報とする音声会議システムを想定して説明したが、例えば、映像等の他のメディア情報を伝達する会議システムの場合には、会議ストリーム処理部１５は、会議データに含まれる利用者識別情報に基づいて、発言者の名前や仮想映像（例えばアバターなど）などをディスプレイに表示するようにしてもよい。これにより、会議参加者は発言者が誰であるかを簡単に知ることができる。これを実現する場合、会議端末１は、発言者の指名や仮想映像等を利用者識別情報に対応付けたデータベースを保持することが必要であり、会議ストリーム処理部１５は、受信した会議データに含まれる利用者識別情報に基づいて、名前や仮想映像を検索することが必要となる。

また、会議サーバ３は、会議データを入力すると、これを利用者識別情報と音声データとに分離することにより、送信時刻、利用者ＩＤデータ、音声データの組で議事録データを作成し、これを議事録データベース４に書き込む。議事録データベース４を他のシステムから読み出せるようにすれば、いつ誰が何を発言したかの記録を参照することが可能となる。

（Ａ−３）第１の実施形態の効果
以上のように、第１の実施形態によれば、携帯端末２が音波による発言要求信号を送信し、会議端末１が発言要求信号を受信して携帯端末２の存在範囲を特定し、マイクアレイ１２に入力された音響信号から該存在範囲に該当する音声を抽出して伝達するので、事前の音源調整は不要であり、たとえ発言者が移動しても、発言者の声を明瞭に伝えることができるという効果がある。

さらに、第１の実施形態によれば、発言者が発言する際には、携帯端末２が発言要求データを会議サーバ３に送り、会議サーバ３が発言権を調整して発言許可を行い、会談端末１が発言許可者にフォーカスして音声を収音するようにしたので、相手の状況が把握できない遠隔地間での会議などで、複数の会議参加者が同時に発言して音声信号が重畳され、他の参加者が聞き取りにくい、もしくはこれを避けるため、参加者が発言のタイミングを計るためにスムーズな会話ができない、といった問題点を解消できるという効果もある。

また、第１の実施形態によれば、この会議システム１０では、利用者識別情報に基づいて発言者を識別できるため、会議参加者毎の発言時間や発言内容を管理でき、さらに、これらの情報に基づいた高度な情報処理、例えば、会議中の発言権の調整、発言者に同期した関連資料の情報伝達など、が可能になるという効果もある。

（Ｂ）他の実施形態
（Ｂ−１）第１の実施形態では、携帯端末が利用者識別情報（利用者ＩＤデータ）に基づいて発言許可要求データおよび発言要求信号を生成する場合について説明したが、携帯端末の固有のＩＤに基づいて発言要求データおよびまたは発言要求信号を生成するよう構成しても、第１の実施形態と同様の効果を得る。

（Ｂ−２）第１の実施形態では、会議端末に２×２の音波センサからなるマイクアレイを設置する例について説明したが、音波センサの数と配置は会議の形態やセンサの感度特性などに合わせて変更しても第１の実施形態と同様の効果が得られる。例えば、水平方向に配置した２個以上の音波センサを会議端末に設置することにより、水平面上で携帯端末の存在範囲を特定できるので、会議参加者が平面状に配置される場合には、正しく会議参加者のいる方向を検出できる。

（Ｂ−３）第１の実施形態では、会議端末に設置されるマイクアレイが発言要求信号と音声入力信号の両方を受信する場合について説明したが、他の構成として、発言要求信号を受信するマイクアレイと音声入力信号を受信するマイクアレイを物理的に分離しても、第１の実施形態と同様の効果が得られる。さらに、発言要求信号を受信するマイクアレイを超音波の周波数帯に対応したものとし、携帯端末が超音波の周波数帯に含まれる発言要求信号を送信するよう構成すれば、発言要求信号が会議参加者の耳に検知されることなく、第１の実施形態と同様の効果が得られる。

（Ｂ−４）第１の実施形態では、会議サーバが発言要求を受けると、他の会議参加者の状況を踏まえた上で、適切なタイミングで発言許可ＩＤデータを携帯端末に送る場合について説明した。

会議サーバの他の構成例として、発言要求の有無に関わらず、会議参加者の発言頻度や会議進行者の要求に応じて、特定の会議参加者の携帯端末に発言許可ＩＤデータを送ることも可能であり、この場合にも第１の実施形態と同様の効果を得ることができる。

（Ｂ−５）第１の実施形態では、携帯端末と会議サーバの間で発言許可の手続きを行う場合について説明したが、他の構成として、携帯端末に代わり会議端末が会議サーバとの間で発言許可の手続きを行うことも可能である。この場合、利用者の操作により携帯端末が発言要求信号を送信すると、会議端末が発言要求信号を受信して、会議サーバとの間で発言許可の手続きを行う。その後、会議端末が会誌サーバより発言許可ＩＤデータを受信すると、先の発言要求信号の方向に合わせて音源分離を行うことによって、第１の実施形態と同様の効果を得る。

（Ｂ−６）第１の実施形態では、携帯端末が会議サーバの間で発言許可の手続きを行う場合について説明したが、携帯端末の他の構成として、上記発言許可の手続きを行なうことなく、利用者の操作をトリガとして即座に発言要求信号を送信するようにしてもよい。この場合には、会議サーバにて利用者の発言タイミングを調整することはできないが、第１の実施形態と同様に、話者の向きに最適化された高品質な音声を会議参加者に伝達することができる。

（Ｂ−７）第１の実施形態では、利用者が携帯端末を操作することをトリガとして、該利用者が発言した音声を高品質に他の会議参加者に伝達する場合につき説明したが、複数の利用者が同時に発言することを許容するために、会議端末の音振分離部に音源分離を行わないモードを設け、会議参加者が携帯端末から音源分離の可否を指示したり、音響入力信号のレベルが小さい場合には自動的に音源分離を行わない、などの処理を追加してもよい。

（Ｂ−８）図６に示す携帯端末の存在方向を検出する方法は一例である。この他の変形実施形態として、例えば、携帯端末が、信号波とは別に、赤外線などの電磁波と共に出力するものとする。また、マイクアレイは、ｘ，ｙ，ｚ軸の原点に赤外線センサを備え、赤外線センサの中心に２×２の音波センサを備える。これにより、第１の実施形態の処理に加えて赤外線も検知できるようにする。さらに、方向検出部は、赤外線の受波時期を基準として、各音波センサによる検知時刻差から各音響データの遅延量を求めるようにしてもよい。これは、赤外線が信号波（発言要求信号）よりも伝播速度が速いので、携帯端末での赤外線の発光と同時に検知できる。その一方、信号波は赤外線より伝搬速度が遅いので、遅延して受信される赤外線検知時刻を基準にして、音響データの遅延量を求めることができる。

（Ｂ−９）第１の実施形態において、携帯端末、会議端末、会議サーバにおける処理は、いわゆるソフトウェア処理により実現することができる。例えば、ハードウェア構成として、ＣＰＵ、ＲＯＭ、ＲＡＭ、ＥＥＰＲＯＭ等からなり、ＣＰＵが、ＲＯＭに格納された処理プログラムを読み出し、処理に必要なデータを用いて処理プログラムを実行することにより各機能を実現することができる。

１…会議端末、
１１…通信部、１２…マイクアレイ、１３…発言者特定部、１４…音源分離部、１５…会議ストリーム処理部、１３１…発言許可確認部、１３２…方向検出部、１５１…会議データ生成部、１５２…出力制御部、５１〜５４…音波センサ、
２−１及び２−２…携帯端末、
２１…通信部、２２…発言許可要求部、２３…信号波出力部、
３…会議サーバ、４…議事録データベース、
３１…通信部、３２…議事録管理部、３３…発言許可管理部、
１０…音声会議システム。

Claims

複数の利用者のうち発言が許可された発言者の音声を抽出する発言者音声抽出システムにおいて、
上記複数の利用者の発言関連情報を上記識別情報毎に記憶する発言情報記憶手段と、
上記発言情報記憶手段を参照して、所定の発言許可判定規則に従って、発言を要求する上記利用者に対して発言を許可するか否かを管理する発言許可管理手段と、
上記各利用者の操作を受けて、少なくとも当該利用者又は要求元を識別する識別情報を含む信号波を発言要求信号として出力する発言要求手段と、
上記発言要求信号を受信する発言要求受信手段と、
上記発言許可管理手段により発言が許可されると、上記発言要求受信手段により受信された上記発言要求信号に基づき、出力元の上記発言要求手段の存在領域を推定する発言者領域推定手段と、
音声入力手段により入力された音声入力信号のうち、上記発言者領域推定手段により推定された存在領域の音声信号を抽出する音源分離手段と
を備えることを特徴とする発言者音声抽出システム。
上記発言要求手段が、上記発言要求信号の出力前に、上記発言許可管理手段に対して発言許可を要求し、発言が許可されると、上記発言要求信号を送信するものであることを特徴とする請求項１に記載の発言者音声抽出システム。
上記発言要求受信手段により上記発言要求信号を受信されると、少なくとも、上記発言要求信号に含まれる上記識別情報を上記発言許可管理手段に与えて、上記発言許可管理手段に対して発言許可を要求し、発言が許可されるか否かを確認する発言許可確認手段を備えることを特徴とする請求項１に記載の発言者音声抽出システム。
上記発言要求受信手段が、上記発言要求信号を検知する複数の信号波センサであり、
上記発言者領域推定手段が、上記複数の信号波センサによる検知時刻の差分に基づいて、上記発言要求手段の存在領域を推定するものである
ことを特徴とする請求項１〜３のいずれかに記載の発言者音声抽出システム。
上記発言要求受信手段と上記音声入力手段とが共通デバイスであることを特徴とする請求項１〜４のいずれかに記載の発言者音声抽出システム。
上記音源分離手段による分離された音声信号を伝達情報として対向装置に伝達する情報伝達手段を備えることを特徴とする請求項１〜５のいずれかに記載の発言者音声抽出システム。
複数の利用者のうち発言を要求する利用者に対して発言を許可する発言許可管理手段と、少なくとも識別情報を含む信号波を発言要求信号として出力する上記利用者毎の発言要求手段とを備える発言者音声抽出システムを構成する発言者音声抽出装置において、
上記発言要求信号を受信する発言要求受信手段と、
上記発言許可管理手段により発言が許可されると、上記発言要求受信手段により受信された上記発言要求信号に基づき、出力元の上記発言要求手段の存在領域を推定する発言者領域推定手段と、
音声入力手段により入力された音声入力信号のうち、上記発言者領域推定手段により推定された存在領域の音声信号を抽出する音源分離手段と
を備えることを特徴とする発言者音声抽出装置。
複数の利用者のうち発言を要求する利用者に対して発言を許可する発言許可管理手段と、少なくとも識別情報を含む信号波を発言要求信号として出力する上記利用者毎の発言要求手段とを備える発言者音声抽出システムを構成する発言者音声抽出装置を、
上記発言要求信号を受信する発言要求受信手段、
上記発言許可管理手段により発言が許可されると、上記発言要求受信手段により受信された上記発言要求信号に基づき、出力元の上記発言要求手段の存在領域を推定する発言者領域推定手段、
音声入力手段により入力された音声入力信号のうち、上記発言者領域推定手段により推定された存在領域の音声信号を抽出する音源分離手段
として機能させることを特徴とする発言者音声抽出プログラム。