JP2011199764A - 発言者音声抽出システム、発言者音声抽出装置及び発言者音声抽出プログラム - Google Patents
発言者音声抽出システム、発言者音声抽出装置及び発言者音声抽出プログラム Download PDFInfo
- Publication number
- JP2011199764A JP2011199764A JP2010066732A JP2010066732A JP2011199764A JP 2011199764 A JP2011199764 A JP 2011199764A JP 2010066732 A JP2010066732 A JP 2010066732A JP 2010066732 A JP2010066732 A JP 2010066732A JP 2011199764 A JP2011199764 A JP 2011199764A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- speaker
- conference
- voice
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 31
- 238000000926 separation method Methods 0.000 claims description 32
- 238000001514 detection method Methods 0.000 claims description 13
- 238000012790 confirmation Methods 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 8
- 230000005540 biological transmission Effects 0.000 claims description 6
- 238000004891 communication Methods 0.000 description 30
- 238000000034 method Methods 0.000 description 22
- 238000012545 processing Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 8
- 230000005236 sound signal Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- NCGICGYLBXGBGN-UHFFFAOYSA-N 3-morpholin-4-yl-1-oxa-3-azonia-2-azanidacyclopent-3-en-5-imine;hydrochloride Chemical compound Cl.[N-]1OC(=N)C=[N+]1N1CCOCC1 NCGICGYLBXGBGN-UHFFFAOYSA-N 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
Abstract
【課題】会議参加者に負担をかけることなくスムーズに高品質な話者音声を伝達可能な会議システムを実現することができるようにする。
【解決手段】本発明の発言者音声抽出システムであり、複数の利用者の発言関連情報を識別情報毎に記憶する発言情報記憶手段と、発言情報記憶手段を参照して、所定の発言許可判定規則に従って、発言を要求する利用者に対して発言を許可するか否かを管理する発言許可管理手段と、各利用者の操作を受けて識別情報を含む信号波を発言要求信号として出力する発言要求手段と、発言許可管理手段により発言が許可されると、受信された発言要求信号に基づき、出力元の発言要求手段の存在領域を推定する発言者領域推定手段と、音声入力手段により入力された音声入力信号のうち、発言者領域推定手段により推定された存在領域の音声信号を抽出する音源分離手段とを備える。
【選択図】 図1
【解決手段】本発明の発言者音声抽出システムであり、複数の利用者の発言関連情報を識別情報毎に記憶する発言情報記憶手段と、発言情報記憶手段を参照して、所定の発言許可判定規則に従って、発言を要求する利用者に対して発言を許可するか否かを管理する発言許可管理手段と、各利用者の操作を受けて識別情報を含む信号波を発言要求信号として出力する発言要求手段と、発言許可管理手段により発言が許可されると、受信された発言要求信号に基づき、出力元の発言要求手段の存在領域を推定する発言者領域推定手段と、音声入力手段により入力された音声入力信号のうち、発言者領域推定手段により推定された存在領域の音声信号を抽出する音源分離手段とを備える。
【選択図】 図1
Description
本発明は、発言者音声抽出システム、発言者音声抽出装置及び発言者音声抽出プログラムに関し、例えば、会議システム等の音声コミュニケーションシステムにおいて、話者の音声を他の参加者に伝達するために、発言者の音声を抽出する発言者音声抽出システム、発言者音声抽出装置及び発言者音声抽出プログラムに適用し得るものである。
例えば、複数の参加者の間で会議システムを用いて会議を行う場合、発言者の音声や映像を正しく捉えることが望まれる。
従来、複数の参加者による会議システムにおいては、参加者毎にマイクを設置し、または、収音指向性を制御できるマイクアレイを設置した上で、これらのマイクが音声信号を捕捉し、話者の音声を伝達する方法が知られている。
例えば、特許文献1には、複数の筐体からなる会議端末に関する技術が記載されている。各筐体は可動でき、会議端末の使用形態に合わせて種々な形に変形することができる。また、各筐体にはマイクアレイが設置されており、会議端末の使用態様に応じて設定された形により、マイクアレイの収音モード(収音指向性)を制御することができ、収音下音声を他の参加者に伝達するというものである。
この方法によれば、例えば、会議端末を複数の参加者が取り囲むように複数の筐体を配置する場合には、全周囲からの収音となるよう収音指向性を制御し、また、会議端末を単独の参加者にフォーカスするよう複数の筐体を配置する場合には、狭範囲エリアからの収音となるよう収音指向性を制御するなど、会議形態に合わせた収音指向性により話者の音声を伝達することができる。
しかしながら、特許文献1の記載技術による会議システムは、会議形態や会議参加者などの位置に応じて、会議端末の筐体の位置を調整することが必要となる。そのため、会議開始前に会議参加者に負担がかかってしまうという問題がある。
また、特許文献1に記載の会議端末は、筐体の配置に応じて収音モードが決定され、収音指向性が調整される。そのため、例えば話者が移動した場合には、正しく音声を収音することができないという問題がある。
さらに、例えば、拠点間の会議等のように相手の状況が把握できない場合、複数の会議参加者が同時に発言すると、複数の音声信号を重畳して伝達することになるため、伝達先の他の会議参加者は聞き取りにくいという問題がある。また、このような同時発言を回避するために、各参加者がお互いに発言のタイミングを図り、スムーズな会話を行うことができないという問題がある。
そこで、本発明は、以上の問題点を解決し、会議参加者に負担をかけることなくスムーズに高品質な話者音声を伝達可能な会議システムを実現することができる発言者音声抽出システム、発言者音声抽出装置及び発言者音声抽出プログラムを提供することにある。
かかる課題を解決するために、第1の本発明の発言者音声抽出システムは、複数の利用者のうち発言が許可された発言者の音声を抽出する発言者音声抽出システムにおいて、(1)複数の利用者の発言関連情報を識別情報毎に記憶する発言情報記憶手段と、(2)発言情報記憶手段を参照して、所定の発言許可判定規則に従って、発言を要求する利用者に対して発言を許可するか否かを管理する発言許可管理手段と、(3)各利用者の操作を受けて、少なくとも当該利用者又は要求元を識別する識別情報を含む信号波を発言要求信号として出力する発言要求手段と、(4)発言要求信号を受信する発言要求受信手段と、(5)発言許可管理手段により発言が許可されると、発言要求受信手段により受信された発言要求信号に基づき、出力元の発言要求手段の存在領域を推定する発言者領域推定手段と、(6)音声入力手段により入力された音声入力信号のうち、発言者領域推定手段により推定された存在領域の音声信号を抽出する音源分離手段とを備えることを特徴とする。
第2の本発明の発言者音声抽出装置は、複数の利用者のうち発言を要求する利用者に対して発言を許可する発言許可管理手段と、少なくとも識別情報を含む信号波を発言要求信号として出力する利用者毎の発言要求手段とを備える発言者音声抽出システムを構成する発言者音声抽出装置において、(1)発言要求信号を受信する発言要求受信手段と、(2)発言許可管理手段により発言が許可されると、発言要求受信手段により受信された発言要求信号に基づき、出力元の発言要求手段の存在領域を推定する発言者領域推定手段と、(3)音声入力手段により入力された音声入力信号のうち、発言者領域推定手段により推定された存在領域の音声信号を抽出する音源分離手段とを備えることを特徴とする。
第3の本発明の発言者音声抽出プログラムは、複数の利用者のうち発言を要求する利用者に対して発言を許可する発言許可管理手段と、少なくとも識別情報を含む信号波を発言要求信号として出力する利用者毎の発言要求手段とを備える発言者音声抽出システムを構成する発言者音声抽出装置を、(1)発言要求信号を受信する発言要求受信手段、(2)発言許可管理手段により発言が許可されると、発言要求受信手段により受信された発言要求信号に基づき、出力元の発言要求手段の存在領域を推定する発言者領域推定手段、(3)音声入力手段により入力された音声入力信号のうち、発言者領域推定手段により推定された存在領域の音声信号を抽出する音源分離手段として機能させることを特徴とする
本発明によれば、会議参加者に負担をかけることなくスムーズに高品質な話者音声を伝達可能な会議システムを実現することができる。
(A)第1の実施形態
以下では、本発明の発言者音声抽出システム、発言者音声抽出装置及び発言者音声抽出プログラムの第1の実施形態を、図面を参照しながら説明する。
以下では、本発明の発言者音声抽出システム、発言者音声抽出装置及び発言者音声抽出プログラムの第1の実施形態を、図面を参照しながら説明する。
第1の実施形態では、複数の拠点間で、少なくとも音声を相互に伝達しあう音声会議システムに本発明を適用した実施形態を例示する。
なお、第1の実施形態では、音声会議システムに適用する場合を一例として説明するが、例えば、テレビ会議システム、音声通信など音声をメディア情報として授受する音声コミュニケーションシステムに広く適用することができる。
(A−1)第1の実施形態の構成
(A−1−1)全体構成
図1は、第1の実施形態の音声会議システムの全体構成を示す構成図である。図1において、第1の実施形態の音声会議システム10は、会議室A、会議室B、会議サーバ3、議事録データベース4を少なくとも有して構成される。
(A−1−1)全体構成
図1は、第1の実施形態の音声会議システムの全体構成を示す構成図である。図1において、第1の実施形態の音声会議システム10は、会議室A、会議室B、会議サーバ3、議事録データベース4を少なくとも有して構成される。
また、会議室A及び会議室Bは、それぞれ同じ構成を備えている。図1では、会議室Aが備える構成を例示する。会議室Aは、図1に示すように、会議端末1、複数の携帯端末2−1及び2−2を少なくとも有して構成される。
携帯端末2−1及び2−2(以下、携帯端末2と呼ぶ)は、会議参加者である利用者U1及び利用者U2が操作する携帯端末である。例えば、携帯端末2は、会議参加用の専用端末であってもよいし、マイク(例えばピンマイクを含む概念)等のように各利用者が所持するものに搭載されるものであってもよい。
また、携帯端末2は、通信部21、発言許可要求部22、信号波出力部23を少なくとも有する。
通信部21は、会議サーバ3との間で情報を授受するものであり、会議サーバ3と通信することができれば、有線通信又は無線通信のいずれを適用してもよい。また、通信プロトコルは、特に限定されるものではなく、広く適用することができる。
発言要求許可部22は、利用者の操作を受けて、発言の許可を会議サーバ3に要求するための発言許可要求データを、通信部21を通じて会議サーバ3に送信するものである。また、発言要求許可部22は、会議サーバ3により発言が許可されると、通信部21を通じて発言許可IDデータを受け取り、これを保持するものである。
信号波出力部23は、利用者の操作を受けて、利用者識別情報及び発言許可IDデータを含む信号波(例えば光、音波、超音波、音声帯域以外の音波など)を発言要求信号として、会議端末1に向けて出力するものである。
ここで、利用者識別情報とは、会議参加者を識別する識別情報であり、利用者IDデータともいう。例えば、会議開始時に携帯端末2に予め利用者識別情報を登録するようにしてもよいし、又は携帯端末2自体を識別する識別情報としてもよい。
会議端末1は、会議処理を行う装置である。会議端末1は、携帯端末2から出力された発言要求信号を受信すると、当該発言要求信号に含まれる利用者識別情報及び発言許可IDデータを解析し、利用者識別情報及び発言許可IDデータを組とする正当性確認データを会議サーバ3に与えるものである。また、発言要求してきた利用者が発言許可されたものとして正当である場合、会議端末1は、当該利用者の音声を収音するために収音制御を行い、収音した音声信号を用いて会議データを生成して会議サーバ3に与えるものである。
会議サーバ3は、複数の拠点間の会議を制御するものである。会議サーバ3は、一方の会議室の会議端末1から会議データを受信すると、他方の会議室の会議端末1に対して会議データを送信するものである。
また、会議サーバ3は、通信部31、議事録管理部32、発言許可管理部33を少なくとも有するものである。
通信部31は、携帯端末2との間で情報を授受するものであり、携帯端末2と通信することができれば、有線通信又は無線通信のいずれを適用してもよい。また、通信プロトコルは、特に限定されるものではなく、広く適用することができる。
議事録管理部32は、各会議室の会議端末1から受信した会議データに基づいて議事録データを生成して議事録データベース4に保存するものである。議事録管理部32は、会議データに基づいて種々の議事録データを生成するようにしてもよいが、例えば、会議データから発言している発言者の利用者識別情報を抽出し、また当該会議データストリームを受信している時間を計測する。これにより、発言者の発言回数、発言時間、発言内容等を利用者識別情報毎にデータベース化することができる。
発言許可管理部33は、議事録データデース4を参照して、会議参加者の発言許可を管理するものである。発言許可管理部33は、携帯端末2から発言許可要求データを受け取ると、議事録データベース4を参照し、所定の発言許可判定ルールに従って、発言を許可するか否かを判断する。発言許可管理部33は、発言を許可する場合、発言許可IDデータを要求元の携帯端末2に返信し、許可しない場合、発言許可IDデータを返信しない、若しくは、NGの旨を返信する。
また、発言許可管理部33は、会議端末1から正当性確認データを受け取ると、正当性確認データに含まれる利用者識別情報及び発言許可IDデータの組が正当であるか否かを判断し、その判断結果を会議端末1に返信するものである。
議事録データベース4は、発言許可を判定するための発言許可判定ルールと、会議サーバ3から議事録データを受け取り、参加者の発言に関する情報を保存するものである。
(A−1−2)会議端末1の構成
図2は、会議端末1の内部構成を示す内部構成図である。図2において、会議端末1は、通信部11、マイクアレイ12、発言者特定部13、音源分離部14、会議ストリーム処理部15を少なくとも有する。
図2は、会議端末1の内部構成を示す内部構成図である。図2において、会議端末1は、通信部11、マイクアレイ12、発言者特定部13、音源分離部14、会議ストリーム処理部15を少なくとも有する。
通信部11は、会議サーバ3との間で情報を授受するものであり、会議サーバ3と通信することができれば、有線通信又は無線通信のいずれを適用してもよい。また、通信プロトコルは、特に限定されるものではなく、広く適用することができる。
マイクアレイ12は、複数の音波センサを配置してなるものである。マイクアレイ12は、携帯端末2から出力された発言要求信号や発言者が発言した音響信号を収音して、音響データとして発言者特定部13及び音源分離部14に与えるものである。
発言者特定部13は、マイクアレイ12から発言要求信号の音響データに基づいて、当該発言要求信号を出力した出力元の存在領域を推定するものである。発言者特定部13は、図2に示すように、発言許可確認部131、方向検出部132を少なくとも有する。
発言許可確認部131は、マイクアレイ12から受け取った発言要求信号の音響データから利用者識別情報及び発言許可IDデータを取得し、利用者識別情報及び発言許可IDデータが正当であるか否かを会議サーバ3に確認するものである。
方向検出部132は、マイクアレイ12からの音響データに基づいて、当該音響データの出力元である携帯端末2が存在する方向を検出するものである。また、会議サーバ3から発言許可が正当である場合に、方向検出部132は、当該音響データの方向を示す音源分離指示データを音源分離部14に与えるものである。
音源分離部14は、発言者特定部13から受け取った音源分離指示データに基づき、マイクアレイ12から受け取った音響データのうち、指示された方向の音源からの音響データを受け取り、これを音声データとして会議ストリーム処理部15に与えるものである。
会議ストリーム処理15は、会議データ生成部151、出力制御部152を有するものである。
会議データ生成部151は、発言者特定部13により特定された音響データの利用者識別情報と、音源分離部14により抽出された音声データとを受け取り、この音声データ及び利用者識別情報を用いて会議データを生成して、通信部11を通じて会議サーバ3に与えるものである。
出力制御部152は、通信部11を通じて会議サーバ3から受信した他の会議端末1の会議データを受け取り、この会議データに基づいて出力すべき音声データ等の出力信号を生成して出力制御するものである。
(A−2)第1の実施形態の動作
次に、第1の実施形態の会議システム10において、各拠点で発言者の音声を抽出して他の拠点に音声信号を伝達する処理の動作を、図面を参照しながら説明する。
次に、第1の実施形態の会議システム10において、各拠点で発言者の音声を抽出して他の拠点に音声信号を伝達する処理の動作を、図面を参照しながら説明する。
以下では、ネットワーク上の会議サーバ3を介して会議室A及び会議室Bの拠点間で会議を行う場合に、会議室Aにおける動作を例示して説明する。
図3は、会議システム10における発言者の音声抽出及び伝達処理を示すシーケンスである。
まず、会議参加者である利用者が発言を希望する場合、発言許可を得るために、利用者は携帯端末2に対して所定の操作を行う(ステップS101)。この操作方法は、特に限定されるものではなく、例えば、専用ボタンの押下など様々な操作方法を適用することができる。
利用者により操作を受けると、携帯端末2では、発言許可要求部22が、利用者識別情報を含む発言許可要求データを生成し、利用者識別情報を含む発言許可要求データを通信部21に与え、ネットワークを経由して会議サーバ3に送信する(ステップS102)。なお、利用者識別情報は、予め携帯端末2に登録されているものとする。
発言許可要求データが与えられると、会議サーバ3では、発言許可管理部33が、受信した発言許可要求データに含まれる利用者識別情報に基づいて議事録データベース4を参照し、当該利用者の発言を許可するか又は保留するかを決定する(ステップS103)。
ここで、発言許可管理部33による発言許可の判定方法は、種々の方法を適用することができる。例えば、予め発言許可判定ルールを用意しておき、発言許可管理部33が、議事録データベース4から利用者識別情報に対応するデータを読み出して、発言許可判定ルールに規定されている条件を満たしているか否かにより発言の許可を決定する方法を適用することができる。
この発言許可判定ルールは、1又は複数の種々の内容を規定することができる。例えば、会議端末1から会議データが無音であり、かつ、他の利用者からの発言許可要求が保留されていない場合、当該利用者の発言を許可するというルールを規定することができる。
なお、会議データから発話(有音)であるときに1又は複数の発言許可要求があった場合、発言許可管理部33は、発言許可要求データの到着順(要求順)に、発言権を利用者に予約するようにしてもよい。
また上記のルール以外にも、例えば、議事録データベース4に利用者の発言時間や発言回数等が利用者識別情報毎に保存されている場合に、利用者の発言積算時間や発言回数が所定値を超えている場合には、当該利用者の発言を許可しないようにし、それ以外の場合に保留するようにしてもよい。
さらに、例えば、発言の許可が保留されている利用者については、会議端末1からの会議データが無音である場合に、保留時間が長い利用者から優先的に発言を許可するようにしてもよい。これを実現するために、例えば、発言許可管理部33が、保留した利用者識別情報を、保留時間と対応付けて議事録データベース4に保存しておくことで実現することができる。
会議サーバ3において、発言許可管理部33が、利用者の発言を許可すると、発言を許可したことを示す発言許可IDデータを生成し、これをネットワーク経由で、当該利用者が操作した携帯端末2に送信する(ステップS104)。
このとき、会議サーバ3の発言許可管理部33は、生成した発言許可IDデータを利用者識別情報に対応付けて、議事録データベース4に保存する。
携帯端末2が発言許可IDデータを取得すると、携帯端末2の信号波出力部23が、発言が許可されたことを示す信号波(例えば、光、音波、超音波等)を発言許可要求信号として出力する(ステップS106)。
例えば、携帯端末2が発言許可IDデータを受信すると、携帯端末2は発言が許可されたことを、例えば表示やランプや音などで知らせる。これにより利用者が発言権が巨かれたと認識することができ、利用者は発言要求信号を送信するための操作を行うようにしてもよい。また例えば、利用者の操作を必要とせずに、携帯端末2の別の動作として、携帯端末2は、発言許可IDデータを受信すると、発言が許可されたことを光や音で利用者に知らせると共に、利用者IDデータと発言許可IDデータを含む発言要求信号を自動的に発信するようにしてもよい。
図4は、発言要求信号の構成例を示す構成図である。図4(A)に例示するように、発言要求信号は、同期データ、利用者IDデータ(利用者識別情報)、発言許可IDデータを有するものである。各データは、2進数データからなるものである。また、信号波出力部23は、図4(B)に例示するように、例えば1kHzの周波数信号を図4(A)に示す各データで振幅変調した信号波(音波)として出力する。ここで、同期データは、会議端末2が発言要求信号を検出できるよう、予め会議毎に一意に定めた特定のパタンデータである。
携帯端末2から出力された発言要求信号は、会議端末3のマイクアレイ12により受信される。マイクアレイ12は、受信した信号波を復調して、音響データとして発言者特定部13に与える。
ここで、図5は、マイクアレイ12の構成を示す構成図である。図5において、マイクアレイ12は、x軸、y軸、z軸の原点を中心として、z=0平面上に4個の音波センサ51〜54を2行2列(2×2)で配置されている。4個の音波センサ51〜54は、それぞれ携帯端末4が出力する信号波(発言要求信号)を受波するものであり、それぞれ音響データを発言者特定部13に与える。
発言者特定部13では、発言者許可確認部131が、音波センサ51〜54からの音響データのうち、いずれかの音響データから利用者識別情報及び発言許可IDデータを抽出し、利用者識別情報及び発言許可IDデータを組とする正当性確認データを会議サーバ3に与えて、発言要求信号の正当性(すなわち発言許可の正当性)を問い合わせる(ステップS107、S108)。
会議サーバ3において、発言許可管理部33は、受信した正当性確認データに含まれる利用者識別情報及び発言許可IDデータを組が、議事録データベース4に登録されているか否かを判断し、登録されている場合には正当である旨の正当性確認応答データを、会議端末1に返信する(ステップS109)。なお、登録されていない場合には、不当である旨を返信するようにする。
会議端末1において、正当である旨の正当性確認応答データが返信されると、発言者特定部13の方向検出部132は、当該利用者識別情報を会議ストリーム処理部15に与えると共に、マイクアレイ12からの音響データに基づいて、当該発言要求信号の出力元の携帯端末2の方向を検出し、この方向を含む音源分離指示データを音源分離部14に与える(ステップS110)。
ここで、方向検出部132による方向検出の方法は、種々の方法を適用することができるが、第1の実施形態では、以下のような方法を適用する。例えば、方向検出部132は、4個の音波センサ51〜54からの4個の音響データ間の遅延を検出し、この遅延量から携帯端末2の存在方向を計算する方法を用いる。
図6は、携帯端末2の存在方向を検出する方法を説明する説明図である。図6では、x=0の平面上に、2個の音波センサ51及び音波センサ52が距離Dだけ空けて配置されている場合を示す。
例えば、音波センサ51及び52間の距離Dに対して、携帯端末2と会議端末1との間の距離が十分に大きい場合を考える。この場合、図6に示すように、音波センサ51及び音波センサ52に到来する音波の入射角度θは同じであると考えることができる。
また、このとき、音波センサ51及び音波センサ52に到来する音波は、Δだけの遅延をもってそれぞれの音波センサ51及び52に入力される。従って、音波センサ51及び音波センサ52に到来する音波の遅延時間τは、各音波センサ51及び52への入射角度θとの間で、式(1)のような幾何学的関係がある。
θ=sin−1(Δ/D) …(1)
Δ=v・τ …(2)
ただし、Dは、音波センサ間の距離、vは音波伝播速度を示す。
Δ=v・τ …(2)
ただし、Dは、音波センサ間の距離、vは音波伝播速度を示す。
なお、図6は、水平面上に配置した音波センサ間の音波の遅延関係を説明したが、垂直平面上に配置した場合にも式(1)の関係式は成立する。従って、4個の音波センサ51〜54について、発言要求信号の受信時刻差を計測することにより、3次元空間における携帯端末2の方向を求めることができる。
以上の原理に基づき、方向検出部132は、4個の音響データの受信時刻を計測し、その時刻差から携帯端末2の存在方向を計算することができる。
なお、発言者特定部13は、発言要求信号の正当性が確認できなかった場合、会議ストリーム処理部15に利用者識別情報を与えず、また音源分離部14に音源分離指示データを与えない。
会議端末1において、発言者特定部13から音源分離指示データを受け取った音源分離部14は、マイクアレイ12からの入力した音響入力信号の中から、音源分離指示データに含まれる方向の音声データを抽出し、これを会議ストリーム処理部15に与える(S111)。
ここで、音源分離部14による音源分離方法について説明する。音源分離部14には、4個の音波センサのそれぞれからデジタル化された音響データが入力される。音源分離部14は、4個の音響データのうち、音源分離指示データに含まれる方向の音響データを抽出し、これを音声データとする。
この4個の音響データから特定方向の音響データを取り出す方法としては、既知の音源分離技術を適用することができる。例えば、第1の実施形態では、マイクセンサ12を構成する2×2の音波センサ51〜54のそれぞれの音響信号に遅延を与えて、合成した空間フィルタを複数種類用意し、これらを組み合わせて再合成することにより、特定方向の音響データを取り出す方法(参照文献:矢頭隆、森戸誠、「臨場感テレワークにおける音処理技術」、OKIテクニカルレビュー、第213号Vol.75、No.2、pp.16−20、2008年10月)。
会議端末1の会議ストリーム処理部15は、携帯端末2の存在方向にフォーカスされた音声データを符号化し、利用者識別情報を付加した会議データを生成し(ステップS112)、ネットワーク介して会議サーバ3に送信する(ステップS113)。これにより、利用者の発言にフォーカスされた音声が、その発言者のIDとともに、他の会議参加者に伝達される。
なお、他の会議室Bにおいて参加者が発言した会議データは、会議サーバ3を介して、当該会議室Aの会議端末1の会議ストリーム処理部15に与えられる。
このとき、会議ストリーム処理部15は、受信した会議データを復号して、復号音声データを得て、該復号音声データを音響出力信号に変換して、例えばスピーカ(図示しない)等から出力する。これにより、利用者に対して発言者の音声を聞かせることができる。
なお、第1の実施形態では、音声をメディア情報とする音声会議システムを想定して説明したが、例えば、映像等の他のメディア情報を伝達する会議システムの場合には、会議ストリーム処理部15は、会議データに含まれる利用者識別情報に基づいて、発言者の名前や仮想映像(例えばアバターなど)などをディスプレイに表示するようにしてもよい。これにより、会議参加者は発言者が誰であるかを簡単に知ることができる。これを実現する場合、会議端末1は、発言者の指名や仮想映像等を利用者識別情報に対応付けたデータベースを保持することが必要であり、会議ストリーム処理部15は、受信した会議データに含まれる利用者識別情報に基づいて、名前や仮想映像を検索することが必要となる。
また、会議サーバ3は、会議データを入力すると、これを利用者識別情報と音声データとに分離することにより、送信時刻、利用者IDデータ、音声データの組で議事録データを作成し、これを議事録データベース4に書き込む。議事録データベース4を他のシステムから読み出せるようにすれば、いつ誰が何を発言したかの記録を参照することが可能となる。
(A−3)第1の実施形態の効果
以上のように、第1の実施形態によれば、携帯端末2が音波による発言要求信号を送信し、会議端末1が発言要求信号を受信して携帯端末2の存在範囲を特定し、マイクアレイ12に入力された音響信号から該存在範囲に該当する音声を抽出して伝達するので、事前の音源調整は不要であり、たとえ発言者が移動しても、発言者の声を明瞭に伝えることができるという効果がある。
以上のように、第1の実施形態によれば、携帯端末2が音波による発言要求信号を送信し、会議端末1が発言要求信号を受信して携帯端末2の存在範囲を特定し、マイクアレイ12に入力された音響信号から該存在範囲に該当する音声を抽出して伝達するので、事前の音源調整は不要であり、たとえ発言者が移動しても、発言者の声を明瞭に伝えることができるという効果がある。
さらに、第1の実施形態によれば、発言者が発言する際には、携帯端末2が発言要求データを会議サーバ3に送り、会議サーバ3が発言権を調整して発言許可を行い、会談端末1が発言許可者にフォーカスして音声を収音するようにしたので、相手の状況が把握できない遠隔地間での会議などで、複数の会議参加者が同時に発言して音声信号が重畳され、他の参加者が聞き取りにくい、もしくはこれを避けるため、参加者が発言のタイミングを計るためにスムーズな会話ができない、といった問題点を解消できるという効果もある。
また、第1の実施形態によれば、この会議システム10では、利用者識別情報に基づいて発言者を識別できるため、会議参加者毎の発言時間や発言内容を管理でき、さらに、これらの情報に基づいた高度な情報処理、例えば、会議中の発言権の調整、発言者に同期した関連資料の情報伝達など、が可能になるという効果もある。
(B)他の実施形態
(B−1)第1の実施形態では、携帯端末が利用者識別情報(利用者IDデータ)に基づいて発言許可要求データおよび発言要求信号を生成する場合について説明したが、携帯端末の固有のIDに基づいて発言要求データおよびまたは発言要求信号を生成するよう構成しても、第1の実施形態と同様の効果を得る。
(B−1)第1の実施形態では、携帯端末が利用者識別情報(利用者IDデータ)に基づいて発言許可要求データおよび発言要求信号を生成する場合について説明したが、携帯端末の固有のIDに基づいて発言要求データおよびまたは発言要求信号を生成するよう構成しても、第1の実施形態と同様の効果を得る。
(B−2)第1の実施形態では、会議端末に2×2の音波センサからなるマイクアレイを設置する例について説明したが、音波センサの数と配置は会議の形態やセンサの感度特性などに合わせて変更しても第1の実施形態と同様の効果が得られる。例えば、水平方向に配置した2個以上の音波センサを会議端末に設置することにより、水平面上で携帯端末の存在範囲を特定できるので、会議参加者が平面状に配置される場合には、正しく会議参加者のいる方向を検出できる。
(B−3)第1の実施形態では、会議端末に設置されるマイクアレイが発言要求信号と音声入力信号の両方を受信する場合について説明したが、他の構成として、発言要求信号を受信するマイクアレイと音声入力信号を受信するマイクアレイを物理的に分離しても、第1の実施形態と同様の効果が得られる。さらに、発言要求信号を受信するマイクアレイを超音波の周波数帯に対応したものとし、携帯端末が超音波の周波数帯に含まれる発言要求信号を送信するよう構成すれば、発言要求信号が会議参加者の耳に検知されることなく、第1の実施形態と同様の効果が得られる。
(B−4)第1の実施形態では、会議サーバが発言要求を受けると、他の会議参加者の状況を踏まえた上で、適切なタイミングで発言許可IDデータを携帯端末に送る場合について説明した。
会議サーバの他の構成例として、発言要求の有無に関わらず、会議参加者の発言頻度や会議進行者の要求に応じて、特定の会議参加者の携帯端末に発言許可IDデータを送ることも可能であり、この場合にも第1の実施形態と同様の効果を得ることができる。
(B−5)第1の実施形態では、携帯端末と会議サーバの間で発言許可の手続きを行う場合について説明したが、他の構成として、携帯端末に代わり会議端末が会議サーバとの間で発言許可の手続きを行うことも可能である。この場合、利用者の操作により携帯端末が発言要求信号を送信すると、会議端末が発言要求信号を受信して、会議サーバとの間で発言許可の手続きを行う。その後、会議端末が会誌サーバより発言許可IDデータを受信すると、先の発言要求信号の方向に合わせて音源分離を行うことによって、第1の実施形態と同様の効果を得る。
(B−6)第1の実施形態では、携帯端末が会議サーバの間で発言許可の手続きを行う場合について説明したが、携帯端末の他の構成として、上記発言許可の手続きを行なうことなく、利用者の操作をトリガとして即座に発言要求信号を送信するようにしてもよい。この場合には、会議サーバにて利用者の発言タイミングを調整することはできないが、第1の実施形態と同様に、話者の向きに最適化された高品質な音声を会議参加者に伝達することができる。
(B−7)第1の実施形態では、利用者が携帯端末を操作することをトリガとして、該利用者が発言した音声を高品質に他の会議参加者に伝達する場合につき説明したが、複数の利用者が同時に発言することを許容するために、会議端末の音振分離部に音源分離を行わないモードを設け、会議参加者が携帯端末から音源分離の可否を指示したり、音響入力信号のレベルが小さい場合には自動的に音源分離を行わない、などの処理を追加してもよい。
(B−8)図6に示す携帯端末の存在方向を検出する方法は一例である。この他の変形実施形態として、例えば、携帯端末が、信号波とは別に、赤外線などの電磁波と共に出力するものとする。また、マイクアレイは、x,y,z軸の原点に赤外線センサを備え、赤外線センサの中心に2×2の音波センサを備える。これにより、第1の実施形態の処理に加えて赤外線も検知できるようにする。さらに、方向検出部は、赤外線の受波時期を基準として、各音波センサによる検知時刻差から各音響データの遅延量を求めるようにしてもよい。これは、赤外線が信号波(発言要求信号)よりも伝播速度が速いので、携帯端末での赤外線の発光と同時に検知できる。その一方、信号波は赤外線より伝搬速度が遅いので、遅延して受信される赤外線検知時刻を基準にして、音響データの遅延量を求めることができる。
(B−9)第1の実施形態において、携帯端末、会議端末、会議サーバにおける処理は、いわゆるソフトウェア処理により実現することができる。例えば、ハードウェア構成として、CPU、ROM、RAM、EEPROM等からなり、CPUが、ROMに格納された処理プログラムを読み出し、処理に必要なデータを用いて処理プログラムを実行することにより各機能を実現することができる。
1…会議端末、
11…通信部、12…マイクアレイ、13…発言者特定部、14…音源分離部、15…会議ストリーム処理部、131…発言許可確認部、132…方向検出部、151…会議データ生成部、152…出力制御部、51〜54…音波センサ、
2−1及び2−2…携帯端末、
21…通信部、22…発言許可要求部、23…信号波出力部、
3…会議サーバ、4…議事録データベース、
31…通信部、32…議事録管理部、33…発言許可管理部、
10…音声会議システム。
11…通信部、12…マイクアレイ、13…発言者特定部、14…音源分離部、15…会議ストリーム処理部、131…発言許可確認部、132…方向検出部、151…会議データ生成部、152…出力制御部、51〜54…音波センサ、
2−1及び2−2…携帯端末、
21…通信部、22…発言許可要求部、23…信号波出力部、
3…会議サーバ、4…議事録データベース、
31…通信部、32…議事録管理部、33…発言許可管理部、
10…音声会議システム。
Claims (8)
- 複数の利用者のうち発言が許可された発言者の音声を抽出する発言者音声抽出システムにおいて、
上記複数の利用者の発言関連情報を上記識別情報毎に記憶する発言情報記憶手段と、
上記発言情報記憶手段を参照して、所定の発言許可判定規則に従って、発言を要求する上記利用者に対して発言を許可するか否かを管理する発言許可管理手段と、
上記各利用者の操作を受けて、少なくとも当該利用者又は要求元を識別する識別情報を含む信号波を発言要求信号として出力する発言要求手段と、
上記発言要求信号を受信する発言要求受信手段と、
上記発言許可管理手段により発言が許可されると、上記発言要求受信手段により受信された上記発言要求信号に基づき、出力元の上記発言要求手段の存在領域を推定する発言者領域推定手段と、
音声入力手段により入力された音声入力信号のうち、上記発言者領域推定手段により推定された存在領域の音声信号を抽出する音源分離手段と
を備えることを特徴とする発言者音声抽出システム。 - 上記発言要求手段が、上記発言要求信号の出力前に、上記発言許可管理手段に対して発言許可を要求し、発言が許可されると、上記発言要求信号を送信するものであることを特徴とする請求項1に記載の発言者音声抽出システム。
- 上記発言要求受信手段により上記発言要求信号を受信されると、少なくとも、上記発言要求信号に含まれる上記識別情報を上記発言許可管理手段に与えて、上記発言許可管理手段に対して発言許可を要求し、発言が許可されるか否かを確認する発言許可確認手段を備えることを特徴とする請求項1に記載の発言者音声抽出システム。
- 上記発言要求受信手段が、上記発言要求信号を検知する複数の信号波センサであり、
上記発言者領域推定手段が、上記複数の信号波センサによる検知時刻の差分に基づいて、上記発言要求手段の存在領域を推定するものである
ことを特徴とする請求項1〜3のいずれかに記載の発言者音声抽出システム。 - 上記発言要求受信手段と上記音声入力手段とが共通デバイスであることを特徴とする請求項1〜4のいずれかに記載の発言者音声抽出システム。
- 上記音源分離手段による分離された音声信号を伝達情報として対向装置に伝達する情報伝達手段を備えることを特徴とする請求項1〜5のいずれかに記載の発言者音声抽出システム。
- 複数の利用者のうち発言を要求する利用者に対して発言を許可する発言許可管理手段と、少なくとも識別情報を含む信号波を発言要求信号として出力する上記利用者毎の発言要求手段とを備える発言者音声抽出システムを構成する発言者音声抽出装置において、
上記発言要求信号を受信する発言要求受信手段と、
上記発言許可管理手段により発言が許可されると、上記発言要求受信手段により受信された上記発言要求信号に基づき、出力元の上記発言要求手段の存在領域を推定する発言者領域推定手段と、
音声入力手段により入力された音声入力信号のうち、上記発言者領域推定手段により推定された存在領域の音声信号を抽出する音源分離手段と
を備えることを特徴とする発言者音声抽出装置。 - 複数の利用者のうち発言を要求する利用者に対して発言を許可する発言許可管理手段と、少なくとも識別情報を含む信号波を発言要求信号として出力する上記利用者毎の発言要求手段とを備える発言者音声抽出システムを構成する発言者音声抽出装置を、
上記発言要求信号を受信する発言要求受信手段、
上記発言許可管理手段により発言が許可されると、上記発言要求受信手段により受信された上記発言要求信号に基づき、出力元の上記発言要求手段の存在領域を推定する発言者領域推定手段、
音声入力手段により入力された音声入力信号のうち、上記発言者領域推定手段により推定された存在領域の音声信号を抽出する音源分離手段
として機能させることを特徴とする発言者音声抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010066732A JP2011199764A (ja) | 2010-03-23 | 2010-03-23 | 発言者音声抽出システム、発言者音声抽出装置及び発言者音声抽出プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010066732A JP2011199764A (ja) | 2010-03-23 | 2010-03-23 | 発言者音声抽出システム、発言者音声抽出装置及び発言者音声抽出プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011199764A true JP2011199764A (ja) | 2011-10-06 |
Family
ID=44877361
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010066732A Pending JP2011199764A (ja) | 2010-03-23 | 2010-03-23 | 発言者音声抽出システム、発言者音声抽出装置及び発言者音声抽出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011199764A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115174534A (zh) * | 2022-07-19 | 2022-10-11 | 科大讯飞股份有限公司 | 语音交流中话语权分配方法、装置、设备及存储介质 |
JP2024023744A (ja) * | 2020-02-28 | 2024-02-21 | 綜合警備保障株式会社 | タグ携帯監視装置、タグ携帯監視システム及びタグ携帯監視方法 |
-
2010
- 2010-03-23 JP JP2010066732A patent/JP2011199764A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2024023744A (ja) * | 2020-02-28 | 2024-02-21 | 綜合警備保障株式会社 | タグ携帯監視装置、タグ携帯監視システム及びタグ携帯監視方法 |
JP7620076B2 (ja) | 2020-02-28 | 2025-01-22 | 綜合警備保障株式会社 | タグ携帯監視装置、タグ携帯監視システム及びタグ携帯監視方法 |
CN115174534A (zh) * | 2022-07-19 | 2022-10-11 | 科大讯飞股份有限公司 | 语音交流中话语权分配方法、装置、设备及存储介质 |
CN115174534B (zh) * | 2022-07-19 | 2024-02-13 | 科大讯飞股份有限公司 | 语音交流中话语权分配方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7536789B2 (ja) | 分散システムにおいてユーザの好みに最適化するためのカスタマイズされた出力 | |
US10694313B2 (en) | Audio communication system and method | |
US9554091B1 (en) | Identifying conference participants and active talkers at a video conference endpoint using user devices | |
CN113906503B (zh) | 处理来自分布式设备的重叠语音 | |
JP6102923B2 (ja) | 情報処理システムおよび記憶媒体 | |
US8189807B2 (en) | Satellite microphone array for video conferencing | |
CN114097027A (zh) | 讲话者归属的记录稿生成 | |
JP2007019907A (ja) | 音声伝達システム、および通信会議装置 | |
JP2014060647A (ja) | 情報処理システム及びプログラム | |
JP6596049B2 (ja) | ハンズフリー通話機器の通話品質を向上させる方法、装置及びハンズフリー通話機器 | |
CN104412619A (zh) | 信息处理系统和记录介质 | |
CN114531425B (zh) | 一种处理方法和处理装置 | |
US9843683B2 (en) | Configuration method for sound collection system for meeting using terminals and server apparatus | |
JP2023103287A (ja) | 音声処理装置、会議システム、及び音声処理方法 | |
CN106998517A (zh) | 电子装置以及音频重新聚焦的方法 | |
JP2011199764A (ja) | 発言者音声抽出システム、発言者音声抽出装置及び発言者音声抽出プログラム | |
CN114400013A (zh) | 说话者预测方法、说话者预测装置以及通信系统 | |
JP2008131193A (ja) | 音像位置制御装置 | |
JP2008116534A (ja) | 音声通信装置 | |
CN116057928A (zh) | 信息处理装置、信息处理终端、信息处理方法和程序 | |
CN117636928A (zh) | 一种拾音装置及相关音频增强方法 | |
CN103889048A (zh) | 一种设备定位方法与装置 | |
WO2019003357A1 (ja) | コンピュータシステム、Web会議音声補助方法及びプログラム | |
KR101892268B1 (ko) | 영상 회의 시 단말기를 제어하기 위한 방법, 장치 및 기록 매체 | |
JP7604866B2 (ja) | 収音制御装置、収音制御方法、及び収音制御プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20120813 |