JP4411959B2 - 音声集音・映像撮像装置 - Google Patents
音声集音・映像撮像装置 Download PDFInfo
- Publication number
- JP4411959B2 JP4411959B2 JP2003421437A JP2003421437A JP4411959B2 JP 4411959 B2 JP4411959 B2 JP 4411959B2 JP 2003421437 A JP2003421437 A JP 2003421437A JP 2003421437 A JP2003421437 A JP 2003421437A JP 4411959 B2 JP4411959 B2 JP 4411959B2
- Authority
- JP
- Japan
- Prior art keywords
- microphone
- imaging
- signal
- speaker
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
特に、本発明は、発言者が使用しているマイクロフォンを正確に選択し、複数の撮像手段のうち選択されたマイクロフォンを使用する話者を撮像するに適した1つの撮像手段を選択して、選択された話者を適切に撮像可能にした音声集音・映像撮像装置に関する。
本発明は、さらに声紋認証を行い、その結果に基づいて選択され、声紋認証されたマイクロフォン設置領域を選択された撮像手段で撮像可能にした、音声集音・映像撮像装置と方法に関する。
特開2003−87887号公報および特開2003−87890号公報に開示された音声入出力装置は、映像および音声を提供するテレビ会議システムを補完する手段として活用されている。
また1台のテレビジョンカメラを壁などに固定しておき、上記選択されたデータを基にそのテレビジョンカメラの向きを調整して、撮影方向を変え、話者の映像を取り込んでいた。しかしながら、そのような方法では、下記の問題に遭遇する。
(1)マイクロフォンの切り替えを忘れると、話者の映像が取り込まれない。
(2)カメラを動かすには時間がかかるため、話者が頻繁に変わる場合、話者の撮影が間に合わなくなる。
(3)複数の方向の映像を同時に伝送することができない。
すなわち、本発明によれば、複数のマイクロフォンの1つの使用が選択され、選択されたマイクロフォンの話者部分を撮像する撮像手段が選択され、その選択された撮像手段でマイクロフォンを使用している話者の撮像を効果的に行うことができる。本発明によれば、会議中に話者が変わっても、マイクロフォンの切替えの迅速さとともに、話者を映し出す撮像手段が迅速かつ適切に選択される。
また本発明においては、マイクロフォンの選択に応じて撮像手段も自動的に切り換えるため、従来のように手動でセッティングを変更する必要がなく、選択されたマイクロフォンを使用している話者の明瞭な映像を映し出し続けることができる。
図1(A)〜(C)は本発明の実施の形態の音声集音・映像撮像装置が適用される1例を示す構成図である。
図1(A)に図解したように、2つの会議室901、902にそれぞれに第1および第2の音声集音・映像撮像装置1A、1Bが設置されており、これらの音声集音・映像撮像装置1A、1Bが通信回線920、たとえば、電話回線で接続されている。
図2は本発明の実施の形態の音声集音・映像撮像装置1Aの平面配置図である。第1および第2の音声集音・映像撮像装置1A、1Bは同じ構成をしている。
第1の音声集音・映像撮像装置1Aを代表して述べると、第1の音声集音・映像撮像装置1Aは、本発明の音声集音手段に相当する第1の通話装置10Aと、本発明の撮像手段に相当する2台の第1のテレビジョンカメラ(テレビカメラ)装置40A1、40A2とを有する。通話装置は会議出席者の発言を検出し、発言者を決定して発言者の音声をその会議室内の他の会議出席者および相手方の会議室の会議出席者に通報する。さらに通話装置は、発言者の特定に基づいてテレビカメラ装置40A1、40A2の撮像条件を提供する。
テレビカメラ装置40A1、40A2は提供された撮像条件に基づき自動的に最適な画像を撮像する。
プロジェクタ装置60Aは、たとえば、変調手段として液晶を用いたプロジェクタ装置であり、会議に用いる各種資料をパーソナルコンピュータから提供された場合、スクリーンSに映像として投射して会議出席者A1〜A8に視認可能とする。
テレビジョン受像機50Aは、テレビカメラ装置40A1、40A2で撮像した映像、または、相手方会議室のテレビカメラ装置40B1、40B2で撮像した映像をスクリーンSに投射して会議出席者A1〜A8に表示する。なお、テレビジョン受像機50Aを削除して、テレビカメラ装置40A1、40A2で撮像した映像、または、相手方会議室のテレビカメラ装置40B1、40B2で撮像した映像を、パーソナルコンピュータからの提供された映像と切り換えて、プロジェクタ装置60Aを介してスクリーンSに投射して会議出席者A1〜A8に表示することもできる。以下、テレビジョン受像機50Aを用いず、プロジェクタ装置60Aでテレビカメラ装置40A1、40A2で撮像した画像を表示する場合について述べる。
図1(C)、図2に図解したように、通話装置10Aの周囲に複数(図1(C)では6名、図2においては8名)の会議出席者A1〜A6(A1〜A8)が位置している。
音声集音・映像撮像装置1Bに、第2のプロジェクタ装置60Bおよびテレビジョン受像機50Bを含めることもできる。
好ましくは、通話装置10Bとプロジェクタ装置60Bとは会議室902のテーブル912に載置されている。
第1通話装置10Aと第2の通話装置10Bとの間で、通信回線920を介して音声による応答を行う。
通常、通信回線920を介しての会話は、一人の話者と一人の話者同士、すなわち、1対1で通話を行うが、本発明の実施の形態の通話装置は1つの通信回線920を用いて、会議室901、902内の複数の会議出席者同士が通話できる。ただし、本実施の形態においては、音声の混雑を回避し、テレビカメラ装置での話者の撮像を可能にするため、同時刻(同じ時間帯)の話者は、相互に一人に限定する。
通話装置の詳細は後述する。
たとえば、第1の音声集音・映像撮像装置1Aにおけるテレビカメラ装置40A1、40A2は、第1通話装置10Aで特定した通話者を撮像する。そのため、テレビカメラ装置40A1、40A2は、パン、チルト、ズーム機能などを有する。
テレビカメラ装置40A1、40A2で撮像した映像は、通信回線920を介して相手側の会議室のプロジェクタ装置60B(またはテレビジョン受像機50B)に表示される。
必要に応じて、自分の側の会議室のプロジェクタ装置60A(またはテレビジョン受像機50A)にテレビカメラ装置40A1、40A2が撮像した映像を表示することもできる。
テレビカメラ装置40A1、40A2で撮像する撮像対象の特定方法は、第1通話装置10Aにおける話者の方向の特定、および、事前に登録してある話者の声紋認識結果を用いる。その詳細は撮像調整部36において行うが、後述する。
このように、音声集音・映像撮像装置1A、1Bは、通話装置10A、10Bにおいて、通話者を選択(特定)し、選択した通話者の音声を集音する。さらに、テレビカメラ装置40A1、40A2は、撮像調整部36の指令に基づいて、選択(特定)された通話者の映像を撮像する。
集音した音声と撮像した映像は相手側に会議室に転送され、相手側の音声集音・映像撮像装置における通話装置で音声を再生し、プロジェクタ装置(またはテレビジョン受像機)で映像を表示する。
図3〜図5を参照して本発明の実施の形態の音声集音・映像撮像装置における通話装置の構成について述べる。通話装置10Aも第2の通話装置10Bも同様である。
図3は本発明の1実施の形態としての通話装置の斜視図である。
図4は図3に図解した通話装置の断面図である。
図5は図3、図4に図解した通話装置のマイクロフォン・電子回路収容部の平面図であり、図4の線X−Xにおける平面図である。
図4に図解したように、スピーカ収容部14は、音反射面14aと、底面14bと、上部音出力開口部14cとを有する。音反射面14aと底面14bで包囲された空間である内腔14dに受話再生スピーカ16が収容されている。スピーカ収容部14の上部に音反射板12が位置し、スピーカ収容部14と音反射板12とが連結部材13によって連結されている。
音反射板12の音反射面12aの断面は図解したように、ゆるやかなラッパ型の弧を描いている。音反射面12aの断面は軸C−Cを中心として360度にわたり(全方位にわたり)、図解した断面形状をしている。
同様にスピーカ収容部14の音反射面14aの断面も図解したように、ゆるやかな凸面を描いている。音反射面14aの断面も軸C−Cを中心として360度にわたり(全方位)、図解した断面形状をしている。
受話再生スピーカ16から出力された音Sの拡散状態を矢印で図示した。
プリント基板21には、図5に平面を図解したように、マイクロフォン・電子回路収容部2のマイクロフォンMC1〜MC6、発光ダイオードLED1〜6、マイクロプロセッサ23、コーデック(CODEC)24、第1のディジタルシグナルプロセッサ(DSP1)DSP25、第2のディジタルシグナルプロセッサ(DSP2)DSP26、A/D変換器ブロック27、D/A変換器ブロック28、増幅器ブロック29などの各種電子回路が搭載されており、音反射板12はマイクロフォン・電子回路収容部2を支持する部材としても機能している。
図5に図解したように、プリント基板21の中心軸Cから等角度で放射状にかつ等間隔(本実施の形態では60度の等角度)で6本のマイクロフォンMC1〜MC6が位置している。各マイクロフォンは単一指向性を持つマイクロフォンである。その特性については後述する。
各マイクロフォンMC1〜MC6は、共に柔軟性または弾力性のある第1のマイク支持部材22aと第2のマイク支持部材22bとで、揺動自在に支持されており(図解を簡単にするため、マイクロフォンMC1の部分の第1のマイク支持部材22aと第2のマイク支持部材22bとについてのみ図解している)、上述した緩衝材を用いたダンパー18による受話再生スピーカ16からの振動の影響を受けない対策に加えて、柔軟性または弾力性のある第1のマイク支持部材22aと第2のマイク支持部材22bとで受話再生スピーカ16からの振動で振動するプリント基板21の振動を吸収して受話再生スピーカ16の振動の影響を受けないようにして、受話再生スピーカ16の騒音を回避している。
会議出席者A1〜A6は、通常、たとえば、図1(C)に例示したように、通話装置の周囲360度方向に、60度間隔で配設されているマイクロフォンMC1〜MC6の近傍にほぼ等間隔で位置している。なお、図2に図解した例示では、通話装置の周囲に8名の会議出席者が位置している。
発光ダイオードLED1〜6は上部カバー11を装着した状態でも、全ての会議出席者A1〜A6から視認可能に設けられている。したがって、上部カバー11は発光ダイオードLED1〜6の発光状態が視認可能なように透明窓が設けられている。もちろん、上部カバー11に発光ダイオードLED1〜6の部分に開口が設けられていてもよいが、マイクロフォン・電子回路収容部2への防塵の観点からは透光窓が好ましい。
本実施の形態においては、DSP25を各種電子回路27〜29とともにフィルタ処理、マイクロフォン選択処理などの処理を行う信号処理手段として用い、DSP26をエコーキャンセラーとして用いている。
マイクロプロセッサ23はマイクロフォン・電子回路収容部2の全体制御処理を行う。 コーデック24は相手方会議室に送信する音声を圧縮符号化する。
DSP25が下記に述べる各種の信号処理、たとえば、フィルタ処理、マイクロフォン選択処理などを行う。
DSP26はエコーキャンセラーとして機能する。
図6においては、A/D変換器ブロック27の1例として、4個のA/D変換器271〜274を例示し、D/A変換器ブロック28の1例として、2個のD/A変換器281〜282を例示し、増幅器ブロック29の1例として、2個の増幅器291〜292を例示している。
その他、マイクロフォン・電子回路収容部2としては電源回路など各種の回路がプリント基板21に搭載されている。
なお、A/D変換器271〜274は可変利得型増幅機能付きのA/D変換器271〜274として構成することもできる。
A/D変換器271〜273で変換したマイクロフォンMC1〜MC6の集音信号はDSP25に入力されて、後述する各種の信号処理が行われる。
DSP25の処理結果の1つとして、マイクロフォンMC1〜MC6のうちの1つを選択した結果が、マイクロフォン選択結果表示手段の1例である発光ダイオードLED1〜6に出力される。
DSP26の処理結果が、D/A変換器281〜282でアナログ信号に変換される。D/A変換器281からの出力が、必要に応じて、コーデック24で符号化されて、増幅器291を介して通信回線920(図1(A))のラインアウトに出力され、相手方会議室に設置された通話装置の受話再生スピーカ16を介して音として出力される。
相手方の会議室に設置された通話装置からの音声が通信回線920(図1(A))のラインインを介して入力され、A/D変換器274においてディジタル信号に変換されて、DSP26に入力されてエコーキャンセル処理に使用される。また、相手方の会議室に設置された通話装置からの音声は図示しない経路でスピーカ16に印加されて音として出力される。
D/A変換器282からの出力が増幅器292を介してこの通話装置の受話再生スピーカ16から音として出力される。すなわち、会議出席者A1〜A6は、上述した受話再生スピーカ16から相手会議室の選択された話者の音声に加えて、その会議室にいる発言者が発した音声をも受話再生スピーカ16を介して聞くことが出来る。
図7は各マイクロフォンMC1〜MC6の指向性を示すグラフである。
各単一指向特性マイクフォンは発言者からマイクロフォンへの音声の到達角度により図7に図解のように周波数特性、レベル特性が変化する。複数の曲線は、集音信号の周波数が、100Hz、150Hz、200Hz、300Hz、400Hz、500Hz、700Hz、1000Hz、1500Hz、2000Hz、3000Hz、4000Hz、5000Hz、7000Hzの時の指向性を示している。ただし、図解を簡単にするため、図7は代表的に、150Hz、500Hz、1500Hz、3000Hz、7000Hzについての指向性を図解している。
図7の指向性を持つマイクロフォンを用いた場合、マイクロフォンの正面に強い指向性を示す。本実施の形態においては、このような特性を活用して、DSP25においてマイクロフォンの選定処理を行う。
さらに、マイクロフォンの指向性を得る方法として、複数の無指向性マイクロフォンを使用したマイクロフォンアレイを用いることができるが、このような方法では、複数の信号の時間軸(位相)の一致のため複雑な処理を要するため、時間がかかり応答性が低いし、装置構成を複雑になる。すなわち、DSPの信号処理系にも複雑な信号処理を必要とする。本発明は図6に例示した指向性のあるマイクロフォンを用いてそのような問題を解決している。
また、マイクロフォンアレイ信号を合成して指向性収音(集音)マイクロフォンとして利用するためには外形形状が通過周波数特性によって規制され外形形状が大きくなるという不利益がある。本発明はこの問題も解決している。
(1)等角度で放射状かつ等間隔に配設された偶数個のマイクロフォンMC1〜MC6と受話再生スピーカ16との位置関係が一定であり、さらにその距離が非常に近いことで受話再生スピーカ16から出た音が会議室(部屋)環境を経てマイクロフォンMC1〜MC6に戻ってくるレベルより直接戻ってくるレベルが圧倒的に大きく支配的である。そのために、スピーカ16からマイクロフォンMC1〜MC6に音が到達する特性(信号レベル(強度)、周波数特性(f特、位相)がいつも同じである。つまり、本発明の実施の形態における通話装置においてはいつも伝達関数が同じという利点がある。
(2)それ故、話者が異なった時に相手方会議室に送出するマイクロフォンの出力を切り替えた時の伝達関数の変化がなく、マイクロフォンを切り替える都度、マイクロフォン系の利得を調整する必要がないという利点を有する。換言すれば、通話装置の製造時に一度調整をすると調整をやり直す必要がないという利点がある。
(3)上記と同じ理由で話者が異なった時にマイクロフォンを切り替えても、エコーキャンセラー(DSP26)が一つでよい。DSPは高価であり、種々の部材が搭載されて空きが少ないプリント基板21に複数のDSPを配置する必要がなく、プリント基板21におけるDSPを配置するスペースも少なくてよい。その結果、プリント基板21、ひいては、本発明の通話装置を小型にできる。
(4)上述したように、受話再生スピーカ16とマイクロフォンMC1〜MC6間の伝達関数が一定であるため、たとえば、±3dBもあるマイクロフォン自体の感度差調整を通話装置のマイクロフォンユニット単独で出来るという利点がある。感度差調整の詳細は後述する。
(5)通話装置が搭載されるテーブルは、通常、円いテーブル(円卓)または多角テーブルを用いることで、通話装置内の一つの受話再生スピーカ16で均等な品質の音声を軸Cを中心として360度全方位に均等に分散(拡散)するスピーカシステムが可能になった。
(6)受話再生スピーカ16から出た音は円卓のテーブル面を伝達して(バウンダリ効果)会議出席者まで有効に能率良く均等に上質な音が届き、会議室の天井方向に対しては対向側の音と位相がキャンセルされて小さな音になり、会議出席者に対して天井方向からの反射音が少なく、結果として参加者に明瞭な音が配給されるという利点がある。
(7)受話再生スピーカ16から出た音は等角度で放射状かつ等間隔に配設された全てのマイクロフォンMC1〜MC6に同時に同じ音量で届くので発言者の音声なのか受話音声なのかの判断が容易になる。その結果、マイクロフォン選択処理の誤判別が減る。その詳細は後述する。
(8)偶数個、たとえば、6本のマイクロフォンを等角度で放射状かつ等間隔で、対向する1対のマイクロフォンを一直線上に配置したことで方向検出の為のレベル比較が容易にできる。
(9)ダンパー18、マイクロフォン支持部材22などにより、受話再生スピーカ16の音による振動が、マイクロフォンMC1〜MC6の集音に与える影響を低減することができる。
(10)図4に図解したように、構造的に、受話再生スピーカ16の音が直接、マイクロフォンMC1〜MC6には伝搬しない。したがって、この通話装置においては受話再生スピーカ16からのノイズの影響が少ない。
図3〜図4を参照して述べた通話装置は、下部に受話再生スピーカ16を配置させ、上部にマイクロフォンMC1〜MC6(および関連する電子回路)を配置させたが、受話再生スピーカ16とマイクロフォンMC1〜MC6(および関連する電子回路)の位置を、図9に図解したように、上下逆にすることもできる。このような場合でも上述した効果を奏する。
以下、主として第1のディジタルシグナルプロセッサ(DSP)25で行う処理内容について述べる。
図10はDSP25が行う通話装置における処理の概要を図解した図である。以下、その概要を述べる。
初期動作として、好ましくは、通話装置10Aが設置される周囲のノイズを測定する。
通話装置は種々の環境(会議室)で使用されうる。マイクロフォンの選択の正確さを期し、通話装置の性能を高めるために、本発明においては、初期段階において、通話装置が設置される周囲環境のノイズを測定し、そのノイズの影響をマイクロフォンで集音した信号から排除することを可能とする。
もちろん、通話装置を同じ会議室で反復して使用するような場合、事前にノイズ測定が行われており、ノイズ状態が変化しないような場合にはこの処理は割愛できる。
なお、ノイズ測定は通常状態においても行うことができる。
たとえば、通話装置を双方向会議に使用する場合、それぞれの会議室における議事運営を取りまとめる議長がいることが有益である。したがって、本発明の1態様としては、通話装置を使用する初期段階において、通話装置の操作部15から議長を設定する。議長の設定方法としては、たとえば、操作部15の近傍に位置する第1マイクロフォンMC1を議長用マイクロフォンとする。もちろん、議長用マイクロフォンを任意のものにすることもできる。
なお、通話装置を反復して使用する議長が同じ場合はこの処理は割愛できる。あるいは、事前に議長が座る位置のマイクロフォンを決めておいてもよい。その場合はその都度、議長の選定動作は不要である。
もちろん、議長の選定は初期状態に限らず、任意のタイミングで行うことができる。
初期動作として、好ましくは、受話再生スピーカ16とマイクロフォンMC1〜MC6との音響結合が等しくなるように、マイクロフォンMC1〜MC6の信号を増幅する増幅部の利得または減衰部の減衰値を自動的に調整する。
(1)マイクロフォン選択、切り替え処理
1つの会議室において同時に複数の会議出席者が通話すると、音声が入り交じり相手側会議室内の会議出席者A1〜A6にとって聞きにくい。そこで、本発明においては、原則として、ある時間帯には1人ずつ通話させる。そのため、DSP25においてマイクロフォンの選択・切り替え処理を行う。
その結果、選択されたマイクロフォンからの通話のみが、通信回線920を介して相手方会議室の通話装置に伝送されてスピーカから出力される。もちろん、図6を参照して述べたように、選択された話者のマイクロフォンの近傍のLEDが点灯し、さらに、その部屋の通話装置のスピーカからも選択された話者の音声を聞くことができ、誰が許可された話者かを認識することができる。
この処理により、発言者に対向した単一指向性マイクの信号を選択し、送話信号として相手方にS/Nの良い信号を送ることを目的としている。
(2)選択したマイクロフォンの表示
話者のマイクロフォンが選択され、話すことが許可された会議出席者のマイクロフォンがどれであるかを、会議出席者A1〜A6全員が容易に認識できるように、マイクロフォン選択結果表示手段、たとえば、発光ダイオードLED1〜6の該当するものを点灯させる。
(3)撮像条件の決定(第3実施の形態)
第3実施の形態として述べる撮像調整部36において、通話装置による上述したマイクロフォンの選択(特定)結果を用いて、テレビカメラ装置40A1、40A2の撮像条件を決定することができる。
(4)上述したマイクロフォン選択処理の背景技術として、または、マイクロフォン選択処理を正確に遂行するため下記に例示する各種の信号処理を行う。
(a)マイクロフォンの集音信号の帯域分離と、レベル変換処理
(b)発言の開始、終了の判定処理
発言者方向に対向したマイク信号の選択判定開始トリガとして使用するた め。
(c)発言者方向マイクロフォンの検出処理
各マイクロフォンの集音信号を分析し、発言者の使用しているマイクロフ ォンを判定するため。
(d)発言者方向マイクロフォンの切り換えタイミング判定処理、および、検出 された発言者に対向したマイク信号の選択切り替え処理
上述した処理結果から選択したマイクロフォンへ切り換えの指示をする。 (e)通常動作時のフロアノイズの測定
この処理は通話装置の電源投入直後の初期処理と通常処理に分かれる。
なお、この処理は下記の例示的な前提条件の下に行う。
(1)条件:測定時間及び閾値暫定値:
1.テストトーン音圧 :マイク信号レベルで−40dB
2.ノイズ測定単位時間:10秒
3.通常状態でのノイズ測定:10秒間の測定結果で平均値計算し、さらにこれを10回繰り返して平均値を求めノイズレベルとする。
(2)フロアノイズと発言開始基準レベルとの差による有効距離の目安と閾値
1.26dB以上:3メートル以上
発言開始の検出レベル閾値:フロアノイズレベル+9dB
発言終了の検出レベル閾値:フロアノイズレベル+6dB
2.20〜26dB:3メートル以内
発言開始の検出レベル閾値:フロアノイズレベル+9dB
発言終了の検出レベル閾値:フロアノイズレベル+6dB
3.14〜20dB:1.5メートル以内
発言開始の検出レベル閾値:フロアノイズレベル+9dB
発言終了の検出レベル閾値:フロアノイズレベル+6dB
4.9〜14dB:1 メートル以内
発言開始の検出レベル閾値:
フロアノイズレベルと発言開始基準レベルとの差÷2+2dB
発言終了の検出レベル閾値:発言開始閾値−3dB
5.9dB以下:数10センチメートル
発言開始の検出レベル閾値:−3dB
6.フロアノイズレベルと発言開始基準レベルとの差÷2
発言終了の検出レベル閾値:−3dB
7.同じかマイナス:判定できず選択禁止
(3)通常処理のノイズ測定開始閾値は電源投入時のフロアノイズ+3dB以下のレベルになった時から開始する。
図11はマイクロフォンで集音した音信号を前処理として、DSP25で行うフィルタリング処理を示す構成図である。図11は1マイクロフォン(チャネル(1集音信号))分の処理について示す。
各マイクロフォンの集音信号は、たとえば、100Hzのカットオフ周波数を持つアナログ・ローカットフィルタ101で処理され、100Hz以下の周波数が除去されたフィルタ処理された音声信号がA/D変換器102に出力され、A/D変換器102でディジタル信号に変換された集音信号が、それぞれ7.5KHz、4KHz、1.5KHz、600Hz、250Hzのカットオフ周波数を持つ、ディジタル・ハイカットフィルタ103a〜103e(総称して103)で高周波成分が除去される(ハイカット処理)。ディジタル・ハイカットフィルタ103a〜103eの結果はさらに、減算器104a〜104d(総称して104)において隣接するディジタル・ハイカットフィルタ103a〜103eのフィルタ信号ごとの減算が行われる。
本発明の実施の形態において、ディジタル・ハイカットフィルタ103a〜103eおよび減算器104a〜104dは、実際はDSP25において処理している。A/D変換器102はA/D変換器ブロック27の1つとして実現できる。
マイクロフォン選択処理の開始のトリガの1つに発言の開始、終了の判定を行う。そのために使用する信号が、DSP25で行う図13に図解したバンドパス・フィルタ処理およびレベル変換処理によって得られる。図13はマイクロフォンMC1〜MC6で集音した6チャネル(CH)の入力信号処理中の1CHのみを示す。
DSP25内のバンドパス・フィルタ処理およびレベル変換処理部は、各チャネルのマイクロフォンの集音信号を、それぞれ100〜600Hz、200〜250Hz、250〜600Hz、600〜1500Hz、1500〜4000Hz、4000〜7500Hzの帯域通過特性を持つバンドパス・フィルタ201a〜201f(総称してバンドパス・フィルタ・ブロック201)と、元のマイクロフォン集音信号および上記帯域通過集音信号をレベル変換するレベル変換器202a〜202g(総称して、レベル変換ブロック202)を有する。
本実施の形態においては周波数特性がフラットな信号からハイカットフィルタを通した信号を引き算すれば残りはローカットフィルタを通した信号とほぼ同等になることを利用する。
周波数−レベル特性を合わせる為に、1バンド余分に全体帯域通過のバンドパス・フィルタが必要となるが、必要とするバンドパス・フィルタのバンド数+1のフィルタ段数とフィルタ係数により必要とされるバンドパスが得られる。今回必要とされるハンドパス・フィルタの帯域周波数はマイク信号1チャネル(CH)当りで下記表4に示す6バンドのバンドパス・フィルタとなる。
BP特性 バンドパスフィルタ
BPF1=[100Hz-250Hz] ・・201b
BPF2=[250Hz-600Hz] ・・201c
BPF3=[600Hz-1.5KHz] ・・201d
BPF4=[1.5KHz-4KHz] ・・201e
BPF5=[4KHz-7.5KHz] ・・201f
BPF6=[100Hz-600Hz] ・・201a
従来のバンドパス・フィルタの構成と対比する。バンドパス・フィルタの構成は2次IIRフィルタを使用するとして、本発明のように6本のマイク信号にそれぞれ6バンドのバンドパス・フィルタを用意すると、従来方法では、6×6×2=72回路のIIR・フィルタ処理が必要になる。この処理には、最新の優秀なDSPでもかなりのプログラム処理を要し他の処理への影響が出る。
本発明の実施の形態においては、100Hzのローカット・フィルタは入力段のアナログフィルタで処理する。用意する2次IIRハイカット・フィルタのカットオフ周波数は、250Hz,600Hz,1.5KHz,4KHz,7.5KHzの5種類である。このうちのカットオフ周波数7.5KHzのハイカット・フィルタは、実はサンプリング周波数が 16KHzなので必要が無いが、減算処理の過程で、IIRフィルタの位相回りの影響で、バンドパス・フィルタの出力レベルが減少する現象を軽減する為に意図的に被減数の位相を回す。
〔1〕全体帯域通過フィルタ用として、入力信号を7.5KHzのハイカットフィルタを通す。このフィルタ出力信号は入力のアナログのローカット合わせにより [100Hz-7.5KHz] のバンドパス・フィルタ出力となる。
〔1〕バンドパス・フィルタ(BPF5=[4KHz〜7.5KHz])は、フィルタ出力[1]-[2]([100Hz〜7.5KHz] - [100Hz〜4KHz])の処理を実行すると上記信号出力[4KHz〜7.5KHz]となる。
〔2〕バンドパス・フィルタ(BPF4=[1.5KHz〜4KHz])は、フィルタ出力[2]-[3]([100Hz〜4KHz] - [100Hz〜1.5KHz])の処理を実行すると、上記信号出力[1.5KHz〜4KHz]となる。
〔3〕バンドパス・フィルタ(BPF3=[600Hz〜1.5KHz])は、フィルタ出力[3]-[4]([100Hz〜1.5KHz] - [100Hz〜600Hz])の処理を実行すると、上記信号出力[600Hz〜1.5KHz]となる。
〔4〕バンドパス・フィルタ(BPF2=[250Hz〜600Hz])は、フィルタ出力[4]-[5]([100Hz〜600Hz] - [100Hz〜250Hz]) の処理を実行すると上記信号出力[250Hz〜600Hz]となる。 〔5〕バンドパス・フィルタ(BPF1=[100Hz〜250Hz])は上記[5]の信号をそのままで出力信号[5]とする。
〔6〕バンドパス・フィルタ(BPF6=[100Hz〜600Hz])は[4]の信号をそのままで上記[4]の出力信号とする。
DSP25における以上の処理で必要とされるバンドパス・フィルタ出力が得られる。
発言の開始、終了判定は、図13に図示した100Hz〜600Hzのバンドパス・フィルタ201aを通過し、レベル変換部202bで音圧レベル変換されたマイクロフォン集音信号を用いる。
第1のディジタルシグナルプロセッサ(DSP1)25は、音圧レベル検出部から出力される値を元に、図15に図解したように、マイクロフォン集音信号レベルがフロアノイズより上昇し、発言開始レベルの閾値を越した場合発言開始と判定し、その後開始レベルの閾値よりも高いレベルが継続した場合発言中、発言が終了し集音信号レベルが閾値より下がった場合をフロアノイズと判定し、発言終了判定時間、たとえば、フロアノイズが0.5秒間継続した場合発言終了と判定する。
発言の開始は、図13に図解したマイク信号変換処理部202bで音圧レベル変換された100Hz〜600Hzのバンドパス・フィルタを通過した音圧レベルデータ(マイク信号レベル(1))が図15に例示した閾値レベル以上になった時から発言開始と判定する。
DSP25は、頻繁なマイクロフォン切り替えに伴う動作不良を回避するため、発言開始を検出してから、発言終了判定時間を、たとえば、0.5秒間経過するまでは次の発言開始を検出しないようにしている。
DSP25は、相互通話システムにおける発言者方向検出および発言者に対向したマイク信号の自動選択を、いわゆる、「星取表方式」に基づいて行う。
図16は音声集音・映像撮像装置の通話装置の動作形態を図解したグラフである。
図17は通話装置の通常処理を示すフローチャートである。
以下、図17のフローチャートを参照して通話装置1におけるDSP25を主体として動作を述べる。なお、マイクロフォン・電子回路収容部2の全体制御はマイクロプロセッサ23によって行われるが、DSP25の処理を中心に述べる。
マイクロフォンMC1〜MC6で集音した信号はそれぞれ、図12〜図14、特に、図13を参照して述べた、バンドパス・フィルタ・ブロック201、レベル変換ブロック202において、7種類のレベルデータとして変換されているから、DSP25は各マイクロフォン集音信号についての7種類の信号を常時監視する。
その監視結果に基づいて、DSP25は、発言者方向検出処理、発言者方向検出処理、発言開始・終了判定処理のいずれかの処理に移行する。
DSP25は図15を参照して、さらに下記に詳述する方法に従って、発言の開始、終了の判定を行う。DSP25の処理が発言開始を検出した場合、ステップ4の発言者方向の判定処理へ発言開始検出を知らせる。
なお、ステップ2における発言の開始、終了の判定処理において、発言レベルが発言終了レベルより低くなった時、発言終了判定時間(たとえば、0.5秒)のタイマを起動し発言終了判定時間、発言レベルが発言終了レベルより小さい時、発言終了と判定する。
発言終了判定時間以内に発言終了レベルより大きくなったら再び発言終了レベルより小さくなるまで待ちの処理に入る。
DSP25における発言者方向の検出処理は、常時発言者方向をサーチし続けて行う。その後、ステップ4の発言者方向の判定処理へデータを供給する。
DSP25に発言者方向マイクの切り換え処理におけるタイミング判定処理はステップ2の処理とステップ3の処理の結果から、その時の発言者検出方向と今まで選択していた発言者方向が違う場合に、新たな発言者方向のマイク選択をステップ4のマイク信号切り換え処理へ指示する。
ただし、議長のマイクロフォンが操作部15から設定されていて、議長のマイクロフォンと他の会議出席者とが同時的に発言がある場合、議長の発言を優先する。
この時に、選択されたマイク情報をマイクロフォン選択結果表示手段、たとえば、発光ダイオードLED1〜6に表示する。
マイク信号切り換え処理は6本のマイク信号の中からステップ4処理により選択されたマイク信号のみを送話信号として、たとえば、第1の音声集音・映像撮像装置1Aの第1の通話装置10Aから通信回線920を介して相手側の第2の音声集音・映像撮像装置1Bの第2の通話装置10Bに伝送するため、図6に図解した通信回線920のラインアウトへ出力する。
以上の方法で、発言者が決定できると、複数のマイクロフォンの配置条件、および、会議出席者の位置から、テレビカメラ装置40A1、40A2による撮像条件も決定できる。
なお、好ましくは、第2実施の形態で述べる会議出席者の声紋認識結果を用いる。
この処理の詳細は第3実施の形態として詳述する。
処理1:電源を投入直後に各マイクロフォンそれぞれの所定時間、たとえば、1秒間分のフロアノイズを測定する。
DSP25は、音圧レベル検出部のピークホールドされたレベル値を一定時間間隔、本実施の形態では、たとえば、10mSec間隔で読み出し、所定時間、たとえば、1分間の値の平均値を算出しフロアノイズとする。
DSP25は測定されたフロアノイズレベルを元に発言開始の検出レベル(フロアノイズ +9dB)、発言終了の検出レベルの閾値(フロアノイズ+6dB)を決定する。DSP25は、以後も、音圧レベル検出器のピークホールドされたレベル値を一定時間間隔で読み出す。
発言終了と判定された時は、DSP25は、フロアノイズの測定として働き、発言開始の検出し、発言終了の検出レベルの閾値を更新する。
処理2は処理1ではフロアノイズが大きく自動で閾値レベルを更新されると、発言開始、終了検出がしにくい時の対策として下記を行う。
DSP25は、予測されるフロアノイズレベルを元に発言開始の検出レベル、発言終了の検出レベルの閾値を決定する。
DSP25は、発言開始閾値レベルは発言終了閾値レベルより大きく(たとえば、3dB以上の差)に設定する。
DSP25は、音圧レベル検出器でピークホールドされたレベル値を一定時間間隔で読み出す。
処理1、6個のマイクロフォンに対応した音圧レベル検出器の出力レベルと、発言開始レベルの閾値を比較し発言開始レベルの閾値を越した場合発言開始と判定する。
DSP25は、全てのマイクロフォンに対応した音圧レベル検出器の出力レベルが、発言開始レベルの閾値を越した場合は、受話再生スピーカ16からの信号であると判定し、発言開始とは判定しない。なぜなら、受話再生スピーカ16と全てのマイクロフォンMC1〜MC6との距離は同じであるから、受話再生スピーカ16からの音は全てのマイクロフォンMC1〜MC6にほぼ均等に到達するからである。
(マイク1の信号レベル−マイク4の信号レベル)の絶対値・・・[1]
(マイク2の信号レベル−マイク5の信号レベル)の絶対値・・・[2]
(マイク3の信号レベル−マイク6の信号レベル)の絶対値・・・[3]
この処理の場合、処理1のように全ての絶対値が発言開始レベルの閾値より大きくなることは無いので(受話再生スピーカ16からの音が全てのマイクロフォンに等しく到達するから)、受話再生スピーカ16からの音か話者からの音声かの判定は不要になる。
発言者方向の検出には図7に例示した単一指向性マイクロフォンの特性を利用する。単一指向特性マイクロフォンは発言者からマイクロフォンへの音声の到達角度により図7に例示したように、周波数特性、レベル特性が変化する。その結果を図8(A)〜(C)に例示した。図8(A)〜(C)は、通話装置10Aから所定距離、たとえば、1.5メートルの距離にスピーカーを置いて各マイクロフォンが集音した音声を一定時間間隔で高速フーリエ変換(FFT)した結果を示す。X軸が周波数を、Y軸が信号レベルを、Z軸が時間を表している。横線は、バンドパス・フィルタのカットオフ周波数を表し、この線にはさまれた周波数帯域のレベルが、図11〜図14を参照して述べたマイク信号レベル変換処理からの5バンドのバンドパス・フィルタを通した音圧レベルに変換されたデータとなる。
各帯域バンドパス・フィルタの出力レベルに対しそれぞれ適切な重み付け処理(1dBフルスパン(1dBFs)ステップなら0dBFsの時0、-3dBFsなら3というように、又はこの逆に)を行う。この重み付けのステップで処理の分解能が決まる。
1サンプルクロック毎に上記の重み付け処理を実行し、各マイクの重み付けされた得点を加算して一定サンプル数で平均値化して合計点の小さい(大きい)マイク信号を発言者に対向したマイクロフォンと判定する。この結果をイメージ化したものが下記表7である。
上述したように、DSP25は各マイクロフォン毎の周波数帯域のバンドパス・フィルタの出力レベルに重み付けを実行し、各帯域バンドパス・フィルタの出力の、得点の小さい(または大きい)マイク信号順に順位をつけ、1位の順位が3つの帯域以上に有るマイク信号を発言者に対向したマイクロフォンと判定する。そして、DSP25は第1マイクロフォンMC1の方向に音源が有る(話者がいる)として、下記表8のような成績表を作成する。
MIC1 Level = L1-1 + L1-2 + L1-3 + L1-4 + L1-5
MIC2 Level = L2-1 + L2-2 + L2-3 + L2-4 + L2-5
MIC3 Level = L3-1 + L3-2 + L3-3 + L3-4 + L3-5
MIC4 Level = L4-1 + L4-2 + L4-3 + L4-4 + L4-5
MIC5 Level = L5-1 + L5-2 + L5-3 + L5-4 + L5-5
MIC6 Level = L6-1 + L6-2 + L6-3 + L6-4 + L6-5
図17のステップ2の発言開始判定結果により起動し、ステップ3の発言者方向の検出処理結果と過去の選択情報から新しい発言者のマイクロフォンが検出された時、DSP25は、ステップ5のマイク信号の選択切り替え処理へマイク信号の切り換えコマンドを発効すると共に、マイクロフォン選択結果表示手段(発光ダイオードLED1〜6)へ発言者マイクが切り替わったことを通知し、発言者に自分の発言に対し音声集音・映像撮像装置の通話装置が応答したことを知らせる。
図17のステップ1のマイク信号レベル変換処理結果、および、ステップ3の発言者方向の検出処理結果から、本実施の形態においては、マイク選択切り替えタイミングは2通りを準備する。
選択されていたマイクロフォンの方向からの発言が終了し新たに別の方向から発言があった場合。
この場合は、DSP25は、全てのマイク信号レベル(1)とマイク信号レベル(2)が発言終了閾値レベル以下になってから発言終了判定時間(たとえば、0.5 秒)以上経過してから発言が開始され、どれかのマイク信号レベル(1)が発言開始閾値レベル以上になった時発言が開始されたと判断し、音源方向マイク番号の情報を元に発言者方向に対向したマイクロフォンを正当な集音マイクロフォンと決定し、ステップ5のマイク信号選択切り替え処理を開始する。
この場合はDSP25は発言開始(マイク信号レベル(1)が閾値レベル以上になった時)から発言終了判定時間(たとえば、0.5 秒)以上経過してから判定処理を開始する。
発言終了検出前に、3の処理からの音源方向マイク番号が変更になり、安定していると判定された場合、DSP25は音源方向マイク番号に相当するマイクロフォンに現在選択されている発言者よりも大声で発言している話者がいると判断し、その音源方向マイクロフォンを正当な集音マイクロフォンと決定し、ステップ5のマイク信号選択切り替え処理を起動する。
DSP25は図17のステップ4の発言者方向マイクの切り換えタイミング判定処理からのコマンドで選択判定されたコマンドにより起動する。
DSP25のマイク信号の選択切り替え処理は、図18に図解したように、6回路の乗算器と6入力の加算器で構成する。マイク信号を選択する為には、DSP25は選択したいマイク信号が接続されている乗算器のチャネルゲイン(チャネル利得:CH Gain)を〔1〕に、その他の乗算器のCH Gainを〔0〕とする事で、加算器には選択された(マイク信号×〔1])の信号と(マイク信号×〔0])の処理結果が加算されて希望のマイク選択信号が出力に得られる。
(1)複数の単一指向性を持つマイクロフォンと受話再生スピーカとの位置関係が一定であり、さらにその距離が非常に近いことで受話再生スピーカから出た音が会議室(部屋)環境を経て複数のマイクロフォンに戻ってくるレベルより直接戻ってくるレベルが圧倒的に大きく支配的である。そのために、受話再生スピーカから複数のマイクロフォンに音が到達する特性(信号レベル(強度))、周波数特性(f特、位相)がいつも同じである。つまり、通話装置においてはいつも伝達関数が同じという利点がある。
(a)複数の単一指向性マイクを等間隔で放射状に配置して音源方向を検知可能とし、マイク信号を切り換えてS/Nの良い音、クリアな音を集音(収音)して、相手方に送信することができる。
(b)周辺の発言者からの音声をS/N良く集音して、発言者に対向したマイクを自動選択できる。
(c)本発明においては、マイク選択処理の方法として通過音声周波数帯域を分割し、それぞれの分割された周波数帯域ごとのレベルを比較する事で、信号分析を簡略化している。
(d)本発明のマイク信号切り換え処理をDSPの信号処理として実現し、複数の信号をすべてにクロス・フェード処理する事で切り換え時のクリック音を出さないようにしている。
(e)マイク選択結果を、発光ダイオードなどのマイクロフォン選択結果表示手段、または、外部へ通知処理することができる。したがって、たとえば、図2に図解したテレビカメラ装置40A1、40A2を用いた会議システムへの発言者位置情報として活用することもできる。
図20〜図25を参照して本発明の音声集音・映像撮像装置の通話装置の第2実施の形態を述べる。
従来、会議や個人の音声を離れた相手に伝送するのに、電話、インターフォン、テレビ電話などがあった。しかしこの場合、周囲の人の声やテレビジョン装置からの音などがうるさいため話者の声が相手に良く伝わらないことが多い。そのためわざわざ話者がマイクロフォンの近くまで行ったり、大声を上げたり、テレビジョン装置の出力音をそのつど下げたりと面倒であった。
第1実施の形態の音声集音・映像撮像装置における通話装置を用いれば、通話装置の周囲の雑音を排除でき、話者の識別も正確にできるが、さらに改善することが希望されている。
本発明の第2実施の形態は、第1実施の形態の通話装置をさらに向上させるため、声紋識別を行って事前に声紋を登録した話者の音声のみを明瞭に選別し、その他のノイズとなる音はレベルを下げることにより、より良いコミュニケーションを可能にする。
図20に図解した通話装置は、図6に図解した通話装置と類似する構成をしており、図6に図解した通話装置における構成要素は同じ符号を付している。ただし、下記の部分が異なる。
第2実施の形態の通話装置においては、マイクロフォンMC1〜MC6とA/D変換器271〜273との間に利得可変型増幅器301〜306が配置され、声紋認証部32が追加され、増幅器利得調整部34が追加され、増幅器291からLINE OUT端子への出力に加えて増幅器291から声紋認証部32に出力信号が印加されている。なお、利得可変型増幅器301〜306は第1実施の形態においても述べたように、A/D変換器271〜273を利得調整付増幅機能型A/D変換器271〜273として構成することもでき、その場合は、利得可変型増幅器301〜306の機能をA/D変換器271〜273に含めることもできる。なお、本実施の形態においては、A/D変換器271〜273とは別個に利得可変型増幅器301〜306を設けた場合について述べる。
なお、第2実施の形態においては、第3の増幅器293が付加されて,録音出力端子REC OUTに、LINE INからの入力信号または増幅器293からの信号を出力可能に構成されている。
A/D変換器271〜273は第2実施の形態においても、2チャネル用A/D変換器であり、1個のA/D変換器で2入力信号(2チャネルの入力信号)が取り込める。
DSP25は第1実施の形態において述べた、図10に列挙した種々の処理、たとえば、マイクロフォン選択・切り替え処理などを行う。
第2のディジタルシグナルプロセッサ(DSP)26は第1実施の形態で述べたとおり、エコーキャンセル処理を行う。
DSP25で選択したマイクロフォンの信号がDSP26に印加され、DSP26においてエコーキャンセル処理されて、D/A変換器282に出力され、増幅器292で増幅されて受話再生スピーカ16から出力されるので、通話装置を使用している会議出席者は受話再生スピーカ16から選択されたマイクロフォンを使用した話者の音声を聞くことができる。
またDSP26からD/A変換器282に出力された選択音声信号S26は増幅器293を介してREC OUT端子に出力されるので、録音することもできる。
さらにDSP26からD/A変換器282に出力された選択音声信号S26は増幅器291を介して声紋認証部32に出力されるので、声紋認証部32において選択音声信号S26について声紋認証を行う。声紋認証の詳細は後述するが、声紋認証部32は選択音声信号S26を声紋認証した結果、声紋登録メモリM2に登録されたものであるとき、認証合格信号S32(認証合格のとき「1」、認証不合格のとき「0」)を増幅器利得調整部34に出力する。
DSP25で選択されたテレビジョン装置からの音信号がDSP26から選択音声信号S26として、増幅器291を経由して声紋認証部32に入力される。声紋認証部32の声紋登録メモリM2にはテレビジョン装置の音を登録していないから、その選択音声信号S26は認証不合格とされ、「0」の認証合格信号S32が増幅器利得調整部34に出力される。
増幅器利得調整部34にはすでに、第1マイクロフォンMC1が選択されたことを示すマイクロフォン選択信号S251が入力されているが、「0」の認証合格信号S32が入力されるので、増幅器利得調整部34は、マイクロフォン選択信号S251に示された第1マイクロフォンMC1の出力信号が接続されている利得可変型増幅器301の利得を低く設定して利得可変型増幅器301に出力し、利得可変型増幅器301の利得を下げる。その結果、第1マイクロフォンMC1の集音信号は、利得可変型増幅器301で低下されて、A/D変換器271に入力されるから、その後、マイクロフォン選択の対象から外れる可能性が高い。
増幅器利得調整部34は「1」の認証合格信号S32が入力されると、第3マイクロフォンMC3が選択されたことを示すマイクロフォン選択信号S251を参照して、第3マイクロフォンMC3の出力信号が接続されている利得可変型増幅器305の利得を高く設定して利得可変型増幅器305に出力し、利得可変型増幅器305の利得をある高い値に設定する。その結果、第3マイクロフォンMC3の集音信号は、利得可変型増幅器305で高められてA/D変換器273に入力され、高い音声出力がDSP26から選択音声信号S26として出力される。その選択音声信号S26はもちろん、D/A変換器282でアナログ信号に変換された後、増幅器292で増幅されて受話再生スピーカ16に出力され、増幅器291で増幅されてLINE OUTを経由して相手方の通話装置に送出され、再び声紋認証部32に入力されて声紋認証の対象となる。
たとえば、第1マイクロフォンMC1で集音したテレビジョン装置の音が第3マイクロフォンMC3からの音声より高いときは第1マイクロフォンMC1からのテレビジョン装置の音がDSP25において選択されDSP26から選択音声信号S26として出力されている場合は、上述したように、声紋認証部32においては認証されない。よって、上述したように、第1マイクロフォンMC1の出力信号が接続されている利得可変型増幅器301の利得が低くされる。その結果、DSP25における次のマイクロフォン選択処理においては第1マイクロフォンMC1の集音信号は選択されず、第3マイクロフォンMC3の集音信号が選択されることになる。第3マイクロフォンMC3の集音信号が選択音声信号S26としてDSP26から声紋認証部32に出力されると、声紋認証処理は合格となる。その結果、増幅器利得調整部34により、第3マイクロフォンMC3が接続された利得可変型増幅器305の利得が高い値に設定されて、第3マイクロフォンMC3の集音信号が高くなり、明瞭な音声として受話再生スピーカ16から出力され、LINE OUTから出力され、再び声紋認証部32に入力される。
したがって、第2実施の形態の通話装置を用いれば、図1に例示したように、離れたところにいる人との間で明瞭な音声の会話を容易に行うことができる。
また、周囲のノイズとしてのテレビジョン装置の音など騒音環境で通話装置を使用する場合でも、話者が話す位置を移動する必要もなく、あるいは、ことさら大きい声を出す必要も無い。
さらに、ノイズとしてのテレビジョン装置の音声レベルをその都度下げる煩わしさもなく相手と話をすることができる。特に、ノイズとしてのテレビジョン装置の音を低く抑えて送られるので相手は明瞭な会話音だけが聞こえ、会話が円滑に行われる。その意味では、第2実施の形態の通話装置は不要な雑音を除去する装置としての機能をも持つ。
もちろん、声紋認証部32の声紋登録メモリM2に声紋登録されてない人が通話装置の周囲で話していても、そのような音声は最終的には選択されず、声紋登録された話者の音声のみで、明瞭に選択出力される。
このとき、好ましくは、増幅器利得調整部34は、発言が終了したマイクロフォンに対応する利得可変型増幅器の利得を通常の利得に設定しなおす。もちろん、DSP25からマイクロプロセッサ23を経由して選択が終了したことを、マイクロフォン選択信号S251に含めて増幅器利得調整部34に通報することができる。
このように、選択が終了したマイクロフォンに対応する利得可変型増幅器の利得を他の利得可変型増幅器と同じ利得にすることにより、次のマイクロフォン選択が平等の条件となる。
本実施の形態においては、各会議出席者がマイクロフォンMC1〜MC6から順に音声を声紋登録装置32Aに入力し、声紋登録装置32Aからマイクロフォンの番号とともに、声紋認証部32に出力する。本例では、各会議出席者の音声は、図21に例示したように、たとえば、『Open File』,『Next』等の2〜3秒程度の音声によるコマンドを想定している。
声紋認証部32内の声紋認証処理プロセッサPは、声紋登録装置32Aから入力された音声信号をディジタル信号に変換した後、辞書メモリM1に記録された辞書を参照して音声認識処理を施し、文字列データに変換してマイクロフォン番号とともに声紋登録メモリM2に記録する。すなわち、声紋認証処理プロセッサPはあらかじめ入力する音声コマンドに対応する文字列データが格納されている辞書メモリM1の音声コマンドに対応する文字列データを照合し、合致するものを選択する。
図21(A)は、マイク切替え信号MC_SELのタイミングチャートであり、例えば#4と記載されている場合は、第4マイクロフォンMC4が現在選択されていることを示している。
図21(B)は、マイクロフォン出力信号のタイミングチャートである。マイクロフォン出力信号は、図21(A)のマイク切替え信号MC_SELで示すマイク番号に対応した音声信号であり、声紋認証処理プロセッサP内のA/D変換器でディジタルに変換されて入力される。この例では、マイクロフォン出力信号”OpenFile”,”Next”といったコマンドの音声信号である。
図21(C)は、図21(A)〜(B)で得られた情報をもとに声紋認証処理プロセッサPで行われる処理プロセスを示すタイミングチャートである。各音声データのバッファリングとバッファリング後の音声認識処理から構成される。
図21(D)は、図21(C)で示した音声認識処理の結果として順次出力される文字列データのタイミングチャートである。
音声認識処理では、マイク番号#4の音声データが音声認識処理され、辞書メモリM1に格納されている文字列データのコマンド群と照合され、合致するものが選択され、文字列データとしての”Open File”を、図21(D)のとおり出力される。
その後さらに、マイク番号が#1から#2へ変化しても同様である。
以上、概略説明した制御動作をフローチャートを参照してさらに説明する。
たとえば、2kHzのT1タイマがスタートし、50μs毎に図23に示すT1タイマ割込みに移行する。そして、一定レベル以上の音声入力があれば(ステップST11)、ステップST12に移行する。この一定レベルの閾値は、アプリケーションに応じて適宜設定することができることは言うまでもない。
声紋認証処理プロセッサPはマイク切替え信号MC_SELが供給されているので、ステップST11において一定レベル以上の音声入力があれば、その音声のマイク番号(1〜6)を把握している。従って、ステップST12では、その入力音声データのサンプリングを開始し、その音声のマイク番号(1〜6)に応じたバッファに音声データを保持する。
一定レベル以上の音声入力がなければ、ステップST12では何もしない。
図25のステップST40において、声紋認証処理プロセッサPは音声サンプリングを行っていた場合は、それ以上バッファには音声データを格納しない。
この場合は、現在行っているマイク番号4からの発話入力は終了したものとみなし、サンプリングを終了する(ステップST41)。
さらに、サンプリングが終了したマイク番号4の音声データは、声紋認証処理プロセッサPにおいて音声認識処理が行われる(ステップST42)。図21の例では、声紋認証処理プロセッサPにおいて、マイク番号4の音声データは”Open File”と認識され、その文字列データが通話装置1Aの外部に出力される。
音声サンプリングを行っていた場合は、声紋認証処理プロセッサPはさらに一定レベルの音声入力があるか否かチェックし(ステップST21)、一定レベルの音声入力がある場合には後述するT2タイマは停止する。T2タイマは発話がない状態を監視し、一定時間発話がない場合には自動的に次のフェーズである音声認識に移行するためのものである。
発話、すなわち、音声入力が一定レベル以上ある場合は、発話が継続していると考えられ、ステップST22において、T2タイマはリセットされる。
また、ステップST20で音声サンプリングを行っているが、一定レベル以上の音声入力がない場合には、現在の発話が終了した可能性があるため、発話がない状態の継続時間を監視するため、T2タイマをスタートさせる(ステップST23)。
ステップST21で一定レベル以上の音声入力がない場合でも、発話を再開する可能性があるため、音声サンプリングは継続する(ステップST24)。
ステップST25で一定レベル以上の音声入力がない場合には、声紋認証処理プロセッサPは何もせず次の有効な発話を待つことになる。
すなわち、その時行っていた音声のサンプリングを終了し(ステップST30)、音声認識処理に移行する(ステップST31)。
音声認識処理に移行した後、ステップST32において、次の発話の処理のため、T2タイマはリセットされる。
声紋認証部32の声紋認証処理プロセッサPは、引き渡された音声コマンド信号をバッファリングし、バッファリングした音声信号を音声認識処理し、辞書メモリM1に格納されるコマンド文字列データと照合し、合致する文字列データを選択して処理される。
また、声紋認証部32の声紋認証処理プロセッサPは、声紋登録装置32Aから選択されたマイク番号を逐次通知されている。したがって、その選択されたマイク番号が切り替わった場合には、バッファリングを中止し、それまでバッファリングしていた音声信号を音声認識処理し、更新されたマイク番号からの音声コマンド信号のバッファリングを開始するので、音声認識の精度が向上する。
図2、図26〜図31を参照して本発明の音声集音・映像撮像装置の第3実施の形態について述べる。
本発明の第3実施の形態は、上述した通話装置を用い、これらに、撮像手段を付加して、テレビジョン会議(TV会議)システムを構成した場合について述べる。
図2は音声集音・映像撮像装置のテレビカメラ装置40A1、40A2の初期状態を示し、図31は通話装置および撮像調整部36による撮像条件の決定に基づきテレビカメラ装置40A1、40A2が撮像する状態を示す図である。
また発言者の名前表示等については通常、マイクロフォンと発言者名が連動しており参加者が座る座席を途中変更すると、再設定が必要になり、手続きが複雑であった。
なお、単に音が出ている方向にカメラの向きを向けるという簡便なシステムも存在するが、カメラの向きが撮像に適しない人の方向に向いたり、周囲のノイズ、たとえば、会議に使用しているプロジェクタ装置のファンの音に感応してプロジェクタ装置の方向にカメラの撮像方向が向くという不具合が起こる。
すなわち、図5に図解した、全方位に複数のマイクロフォンMC1〜MC6を配置し、第1のディジタルシグナルプロセッサ(DSP)25により現在主に発話している方向のマイクロフォンの集音信号を選択する機能を持った図6に図解した通話装置を用いると、正確に発言者のマイクロフォンを選択できる。マイクロフォンは、たとえば、均等の角度で配置されているから、たとえば、DSP25においてマイクロフォンを選択できれば、DSP25においてマイクロフォンの配置方向が決定でき、さらにDSP25において話者の方向を特定できる。
さらに好ましくは、図20を参照して第2実施の形態として述べた、図6に図解した通話装置に声紋認証部32を付加した通話装置によって、声紋認証部32から出力される認証合格信号S32と、DSP25からマイクロプロセッサ23に出力されるマイクロフォン選択信号S251を用いると、正確に発言者を特定できる。
図1(B)、図2、図31に例示したように、発言者は対応するマイクロフォンの前に座っているから、事前にDSP25に各マイクロフォンの位置に対応する発言者の位置を登録しておく。さらに、DSP25には、各テレビカメラ装置40A1、40A2と発言者の位置および方向を登録しておく。
以上の話者の方向と位置を用いれば、各テレビカメラ装置40A1、40A2が撮像すべき発言者の撮像領域を決定できる。
図26、図27は本発明の第3実施の形態としての音声集音・映像撮像装置の構成図である。図27は、図20に図解した通話装置に、撮像調整部36とテレビカメラ装置40(テレビカメラ装置40A1、40A2)とを付加した音声集音・映像撮像装置の構成図であり、図26は、図27に図解した音声集音・映像撮像装置から利得可変型増幅器301〜306と増幅器利得調整部34とを削除した音声集音・映像撮像装置の構成図である。
(2)本発明の第3実施の形態の好ましい形態としては、図26に図解した構成において、図20を参照して述べた第2実施の形態のように、第1実施の形態として述べたDSP25によるマイクロフォン選択処理に加えて、声紋認証部32における声紋認証を行って、マイクロフォン選択処理結果と声紋認証との両者が一致した場合のみ、撮像調整部36によってテレビカメラ装置40(テレビカメラ装置40A1、40A2)の撮像条件を制御する。
(3)本発明の第3実施の形態のさらに好ましい形態としては、図27に図解した構成において、図20を参照して述べた第2実施の形態のように、第1実施の形態として述べたDSP25によるマイクロフォン選択処理に加えて、声紋認証部32における声紋認証を行って、マイクロフォン選択処理結果と声紋認証との両者が一致した場合のみ、撮像調整部36によってテレビカメラ装置40(テレビカメラ装置40A1、40A2)の撮像条件を制御するともに、第2実施の形態として述べた、増幅器利得調整部34による利得可変型増幅器301〜306の利得制御をも行う。
以下、図26および図27を参照して、第3実施の形態の基本事項について述べる。
なお、撮像調整部36には、事前に、各テレビカメラ装置40A1、40A2について、たとえば、第1マイクロフォンの方向および領域MIC1AREAを撮像するための第1の撮像条件情報、第2マイクロフォンの方向および領域MIC2AREAを撮像するための第2の撮像条件情報などがコンピュータのメモリ部分に設定されている。好ましくは、これら撮像条件情報には、会議出席者の氏名、職名または役職などを含めてもよい。
図2に図解した例示においては、撮像調整部36は、初期状態として、各テレビカメラ装置40A1、40A2が会議室内の通話装置10Aを中心として会議室の左右を分担し、かつ、合わせて出席者全員を撮像可能にしている。
増幅器利得調整部34および撮像調整部36は、DSP25で選択した集音信号がDSP26でエコーキャンセル処理されて出力された選択音声信号S26が、声紋認証部32において声紋認証されて事前に登録した声紋と一致したとき、「1」として出力される認証合格信号S32を入力する。
たとえば、マイクロフォン選択信号S251が第1マイクロフォンを示している場合、第1マイクロフォンの方向および領域MIC1 AREA(図26、たとえば、図2の左方向)を撮像するための第1の撮像条件情報に基づいて、第1マイクロフォンの方向および領域MIC1AREAを撮像するように、各テレビカメラ装置40A1、40A2の方向または向き(上下、左右)を制御する。第1の撮像条件情報がズーム情報を含んでいる場合は、撮像調整部36はさらにテレビカメラ装置40A1、40A2にズーム処理を指示する。
テレビカメラ装置40A1、40A2は撮像調整部36で指示された条件で撮像を行い、その結果を図示しない回線を用いて遠隔の相手方の音声集音・映像撮像装置のプロジェクタ装置に送出する。また、テレビカメラ装置40A1、40A2の撮像結果を、その音声集音・映像撮像装置のプロジェクタ装置に表示することもできる。
このように、遠隔の相手方の音声集音・映像撮像装置が設置されている室内のモニタ装置としてのプロジェクタ装置に、DSP25でマイクロフォンが選択され、さらに、声紋認証部32において声紋認証されたマイクロフォンを用いて発言した会議出席者の映像が選択表示される。
図28〜図29を参照して第3実施の形態の音声集音・映像撮像装置の動作形態を述べる。
1.初期状態として、撮像調整部36はテレビカメラ装置40A1、40A2を図2に図解したように、広角にしておく。
2.図28、ステップS51:会議が始まり発言者があると、通話装置は上述した方法で発言者の音声を検出する。
3.ステップS52〜53:好ましくは、通話装置の声紋認証部32において発言者の声紋を抽出して声紋認識処理を行う。声紋登録装置32Aに登録されていない声紋の場合、ステップS60の処理に移行する。
4.ステップS60〜64:新しい声紋の場合の処理を行う。この処理の詳細は後述する。
5.ステップS54:声紋認証部32は前回と同じ声紋か、または、音を検出したマイクロフォンが前回と同じか否かをチェックし、前回と同じ声紋または前回と同じマイクロフォンが選択されている場合は、ステップS51の処理に戻る。
前回と異なる声紋または前回と異なるマイクロフォンが選択されている場合は、ステップS55の処理に移行する。
6.ステップS55〜59:ステップS60〜64:
これらの処理を述べる前に、図29に示したサブルーチン1および図30に示したサブルーチン2の処理を述べる。
ステップS70:音声集音・映像撮像装置を設置したとき、通話装置の各マイクロフォン、テレビカメラ装置40A1、40A2の座標位置を、撮像調整部36に入力しておく。これらの情報は、通話装置において発言者の音の方向(マイクロフォン位置)を特定し、たとえば、さらに声紋認識で発言者を特定したとき、各テレビカメラ装置40A1、40A2からその発言者の方向および距離を算出する情報となる。
上述した実施の形態において、話者がどのマイクの近くにいるのかを検出し、そのマイク付近を撮影するのにふさわしいテレビカメラ装置40A1、40A2が選択される。
このような場合、マイクロフォンの数と会議出席者の数とが1対1に対応していないから、隣接する2つのマイクロフォンの間に位置する会議出席者がいることになる。このような場合、第1実施の形態のように1つのマイクロフォンのみを選択するのではなく、最大の音を検出した第1マイクロフォンと次に高い音を検出した第2マイクロフォンとを選択し、これら2つのマイクロフォンから音源方向を検出する。したがって、音源方向データは、2つの隣接するマイクロフォンの向き(配置、第1の配置条件)から規定できる。
これにより、通話装置10Aの中心から、発言者の位置が推定できる。
ステップS75、76:撮像調整部36は、算出した向き(方向)に各テレビカメラ装置40A1、40A2をパンさせる。その後、撮像調整部36の処理は、呼び出された図28のステップに次に戻る。
ステップS80、81:図28に図解したメインルーチンのサブルーチン2の結果(テレビカメラ装置40A1、40A2の撮像結果)を見る。その結果、出力がなければステップS80の処理に戻り、出力があればステップS82に移行する。
すなわち、テレビカメラ装置40A1、40A2の撮像結果から撮像調整部36が話者の発言している状態を画像認識し、話者の顔の輪郭が画枠の中心になるよう、テレビカメラ装置40A1、40A2の向きをパン、チルトにて変化させ、ズームを行う。また、同時に話者の声紋を登録する。
図29に示したサブルーチン1および図30に示したサブルーチン2の処理を参照して、これらの処理を述べる。
ステップS55〜56、60〜61:音源方向検出データをサブルーチン1に渡してテレビカメラ装置40A1、40A2のうち該当するものをパンさせる。
ステップS57〜58、62〜63:画像認識処理を行うサブルーチン2の処理を行う。
ステップS59、64:声紋認証部32による声紋データと、テレビカメラ装置40A1、40A2のパン、チルト、ズームのデータを1対として、たとえば、撮像調整部36のデータベースに保存し、次回の処理に用いる。
すなわち、話者の声紋と、その話者を明瞭に映し出すためのカメラのパン、チルト、ズームのデータを一対一で対応させ、データとして登録する。その結果、以後、話者が変わっても、話者の声紋を登録データと照合することにより、話者を明瞭に映し出すためのカメラのパン、チルト、ズーム動作が自動的に行われる。
第1マイクロフォンの方向および領域MIC1 AREAにいる会議出席者A1が第1マイクロフォンMC1を用いて発言したとする。第1マイクロフォンMC1の集音信号は、A/D変換器271でディジタル信号に変換されてDSP25に入力され、第1実施の形態において述べた方法により選択される。このとき、DSP25はマイクロプロセッサ23に第1マイクロフォンMC1を選択したことを示すマイクロフォン選択信号S251を出力する。マイクロフォン選択信号S251はマイクロプロセッサ23から撮像調整部36に出力される。
また、DSP25で選択された第1マイクロフォンの集音信号はDSP26に出力され、DSP26でエコーキャンセルされ、選択音声信号S26としてD/A変換器282、増幅器291を経由して声紋認証部32に入力される。
声紋認証部32は、選択音声信号S26が声紋認証部32内の声紋登録メモリM2に事前に登録されている声紋に一致するか否かを認証する。会議出席者A1の声紋が声紋認証部32の声紋登録メモリM2に事前に登録されていれば、声紋認証部32から合格を示す「1」の認証合格信号S32が増幅器利得調整部34と撮像調整部36に出力される。
他方、会議出席者A1の声紋が声紋認証部32の声紋登録メモリM2に事前に登録されていなければ、声紋認証部32から不合格を示す「0」の認証合格信号S32が撮像調整部36に出力される。
撮像調整部36は会議出席者A1が発言をしている間、第1撮像条件情報に基づいてテレビカメラ40で第1マイクロフォンの方向および領域MIC1 AREAを撮像を継続させる。
DSP25からは、第3のマイクロフォンMC3を示すマイクロフォン選択信号S251がマイクロプロセッサ23を経由して撮像調整部36に出力される。もちろん、第3のマイクロフォンMC3の集音信号はDSP26に入力されてエコーキャンセル処理され、DSP26として声紋認証部32に出力される。
会議出席者A3の声紋は声紋認証部32に登録されていないから、声紋認証部32からは、不合格を示す「0」の認証合格信号S32が撮像調整部36に出力される。
撮像調整部36は、「0」の認証合格信号S32に入力されたとき、デフォルトと判断する。デフォルトの場合の処理としては、撮像調整部36は、たとえば、テレビカメラ装置40A1、40A2の撮像条件を継続するか、初期状態として会議室の左右かつ会議出席者全体が撮像されるようにする。
また声紋登録、認証が遠隔の先方で使えない場合、先方の会議出席者の声紋登録や会議中の声紋認証を通話装置が設置されているこちら側で行い、先方の音声集音・映像撮像装置のテレビカメラ装置の撮像条件を制御することもできる。
この場合でも、撮像調整部36は事前に設定された撮像条件情報に基づいて、テレビカメラ装置40A1、40A2の撮像条件を制御する。
また、話者方向検出技術と画像認識技術を用いることで、話者を映し出すカメラのパン、チルト、ズーム動作が自動的に行われ、話者の明瞭な映像を映し出すことができる。特に、話者の声紋照合を行うことで、話者が変わる度に自動的にカメラのパン、チルト、ズーム動作が行われ、新しい話者を明瞭に撮影することが可能である。
また本発明の第3実施の形態によれば、マイクロフォンとテレビカメラ装置40A1、40A2の相対位置が厳密でなくても、上述した画像認識処理などにより実用的な画像及び音声が収録できる。
本発明の第4実施の形態は、上述した第3実施の形態を拡張した発明である。
(1)撮像手段の種類
第3実施の形態においては、撮像手段として2台のテレビジョンカメラ装置を用いた場合について述べたが、第4実施の形態においては、撮像手段として小型のカメラ、たとえば、CCDカメラを用いる。
図32および図33において、白丸で示したものがCCDカメラであり、黒丸で示したものがマイクロフォンである。
図32はマイクロフォンとCCDカメラとが完全に1対1に併設されている例を示し、図33はマイクロフォンとCCDカメラとが完全に1対1には併設されていない例を示す。
図32、図33に図解したように、複数のCCDカメラはそれぞれが撮像範囲が重複しない程度の間隔に配置しておく。各マイクロフォンの集音範囲と各撮像手段と撮像範囲とが完全に一致している必要はない。
すなわち、マイクロフォンの集音範囲とCCDカメラの撮影範囲が異なる場合もあるので、マイクロフォンとCCDカメラの位置と数量を合わせる必要はないが、マイクロフォンによって選ばれた方向を、あるCCDカメラで撮影できることが必要である。
しかしながら、第1実施の形態で述べたように、マイクロフォンが等間隔で配置されており、指向性を持つことは、処理および設計の観点で容易であり、有効である。
本実施の形態において、テレビジョンカメラ装置のような寸法の大きな撮像手段をマイクロフォンと併設することは現実的に困難なためであり、マイクロフォンと同様に小型のCCDカメラを用いた。
マイクロフォン選択処理部251は、第1〜第3実施の形態に述べたDSP25の処理のうち、マイクロフォンを選択処理する部分である。
カメラ選択処理部252は、本実施の形態において付加された処理をDSP25で行う部分である。
映像切替えスイッチ回路37は本実施の形態で付加した部分であり、複数のCCDカメラで撮像した映像信号のうちの1つを、カメラ選択処理部252の指令に応じて選択して出力するスイッチ回路である。
カメラ選択処理部252は、マイクロフォン選択処理部251の指令に応じてCCDカメラを選択する場合と、操作部15に設けられたカメラ選択指示ボタン(図示せず)に応じてCCDカメラを選択する場合とがある。カメラ選択指示ボタンの指示を用いるか、マイクロフォン選択処理部251の指令を用いるかについては適宜決定できる。たとえば、カメラ選択指示ボタンの指示をマイクロフォン選択処理部251の指令に優先させることもできるし、逆にすることもできる。あるいは、優先順序はつけず、選択指令が発せられたときに応じてその都度、CCDカメラを切り換えてもよい。
画像合成部38は、操作部15に設けられた画像合成指示ボタン(図示せず)に応じて複数のCCDカメラで撮像した画像を合成する部分である。画像合成部38はまた、画像を合成させるだけでなく、複数の映像信号を1まいの画面内に分割させる処理も行う。
図36はCCDカメラとマイクロフォンとが同じ位置に併設されていない場合もあることを想定したときのDSP25で行う処理を示すフローチャートである。
図35を参照して第1形態の動作を述べる。
ステップS91においてDSP25のマイクロフォン選択処理部251は上述した第1実施の形態の方法で、音声が発せられたマイクロフォンを検出した場合、ステップS92において新たに検出されたマイクロフォンが前回まで選択されていたマイクロフォンと同じか否かを判断する。同じであれば、前回選択されたマイクロフォンが継続して選択され、選択されたマイクロフォンにより、上述した第1〜第3実施の形態の方法に従って話者の方向が特定できる。
映像切替えスイッチ回路37はカメラ選択処理部252の指令に応じてCCDカメラの映像信号の出力の選択を切り換える。
本例では、画像合成指示ボタンから画像合成指示はない。したがって、映像切替えスイッチ回路37から出力された映像信号は画像合成部38を通過して、たとえば、図2に図解したテレビジョン受像機50Aに表示されるとともに、相手側の会議室に送出されて、相手側の会議室内のテレビジョン受像機に表示される。もちろん、選択された音声は上述した実施の形態と同じ方法で相手側会議室に送出されて、相手側会議室内の会議出席者が聞くことができる。
特に、第4実施の形態の第1形態においては、CCDカメラにズーム機能などを付加しないで、マイクロフォンの前にいる話者の撮像を可能にしており、第3実施の形態のようにズーム機能を働かせたり、輪郭を検出して話者の適切な映像を決定する動作が不要となり、音声の切替えと同時に映像の切替えも可能となる。
図36を参照して第2形態の動作を述べる。
ステップS91〜92の処理は、図35を参照して述べた処理とほぼ同じである。ただし、本例は、図33に図解したように、1つのマイクロフォンが選択されたとき、そのマイクロフォンの両側のCCDカメラの撮像結果を合成して出力することができる。そのため、下記の処理を行う。
カメラ選択処理部252内のメモリに、選択されたマイクロフォンに対して両側の2台のCCDカメラが指定されている場合、カメラ選択処理部252は、1台のCCDカメラからの撮像信号が映像切替えスイッチ回路37で選択されてそこを通過して画像合成部38で受信できる時間間隔で、上記2台のCCDカメラの映像信号が交互に選択されて画像合成部38に入力されるように、映像切替えスイッチ回路37に指示する。
画像合成部38において、2種の映像信号を1枚の画像に合成するか、1枚の画面に2分割して出力するかについては、カメラ選択処理部252から指定してもよいし、操作部15における画像合成指示ボタンを用いてユーザが指定してもよい。
このような画像合成方法についても、カメラ選択処理部252から指定してもよいし、操作部15における画像合成指示ボタンを用いてユーザが指定してもよい。
たとえば、4個のCCDカメラを選択した場合、4個のCCDカメラの撮像信号を1画面に4分割して表示することもできる。
上述した第4実施の形態においては、CCDカメラにズーム機能、パン機能などを付加しない場合について述べたが、本実施の形態のCCDカメラにズーム機能を付加することは、最近のカメラ付き携帯電話機などにおいても実現されているように、容易である。
したがって、本実施の形態のCCDカメラにズーム機能など付加してもよい。そのようなズーム機能は、たとえば、操作部15にズームボタンを付加して、ユーザがズームボタンを押した場合、押している期間、所定の速度でズームさせることができる。
すなわち、CCDカメラを用いた場合も、第3実施の形態において撮像手段としてテレビジョンカメラ装置を用いた場合と同様、テレビジョンカメラ装置の方向を変更させることを除いて、種々の処理を行うことができる。
そのような各種の撮像条件の変更処理は、第3実施の形態と同様に行う。
第4実施の形態においても、第3実施の形態と同様、第2実施の形態、すなわち、声紋認証部32を付加して、声紋認証された音声のみマイクロフォンの選択処理を行うことができる。それにより、より正確なマイクロフォンの選択と、それに伴うCCDカメラなと野撮像手段の選択が可能となる。
その結果、第4実施の形態の第1形態によれば、マイクロフォンからの音声の迅速な選択に加えて、対応する、あるいは関連する1以上の小型の撮像手段の迅速な選択が可能となり、選択されたマイクロフォンを使用している話者の音声と、話者、および/または、その話者と関連する映像とを迅速に切り換えて出力することができる。
なお、小型の撮像手段の選択方法によれば、話者とは無関係に特定の方向のみを映し出すことや、反対に特定の方向の映像を映し出さないようにすることも可能である。
さらに上述したように、単なる相槌など極めて短時間の発音に対しては、一定時間処理を行わない時間を設けることで、一々その方向を撮影可能とするカメラを選択しないようにすることができる。
また、会議の相手先からの指示により、こちら側のマイクロフォンと小型の撮像手段とを自動的に切り替えることが可能である。
なお、第1〜第4実施の形態について、相手側の会議室からの希望に応じてこちら側のマイクロフォンおよび撮像手段を切り替え、集音対象者や撮影対象者を変更することが可能である。同様に、こちら側から相手側のマイクロフォンおよび撮像手段を切り替え、集音対象者や撮影対象者を変更することが可能である。
これにより、双方向音声集音・映像撮像装置が効果的に活用できる。
10A、10B・・通話装置(音声集音手段)
11・・上部カバー、12・・音反射板、13・・連結部材
14・・スピーカ収容部、15・・操作部、16・・受話再生スピーカ
17・・拘束部材、18・・ダンパ
2・・マイクロフォン・電子回路収容部
MC1〜MC・・マイクロフォン
21・・プリント基板、22・・マイクロフォン支持部材
23・・マイクロプロセッサ、24・・コーデック
25・・第1のDSP
251・・マイクロフォン選択処理部
252・・カメラ選択処理部
26・・第2のDSP
27・・A/D変換器ブロック、271〜274・・A/D変換器
28・・D/A変換器ブロック、29・・増幅器ブロック
30・・マイクロフォン選択結果表示手段
301〜306・・可変利得型増幅器
32・・声紋認証部
34・・増幅器利得調整部
36・・撮像調整部
37・・映像切替えスイッチ回路
38・・画像合成部
40(40A、40B)・・テレビカメラ装置(撮像手段)
Claims (9)
- 円環状かつ各々放射状に配置された、複数のマイクロフォンと、
前記複数のマイクロフォンの各々と対応して設けられ、対応するマイクロフォンの集音範囲を撮像可能に、対応するマイクロフォンに近接して配設された、複数の第1の小型撮像手段と、
前記各マイクロフォンおよび前記対応する各第1の小型撮像手段との組の間の所定位置に、当該マイクロフォンの集音範囲を撮像可能に配設された、少なくとも1つの第2の小型撮像手段と、
前記各マイクロフォンと前記対応する各第1の小型撮像手段との第1の関係、および、当該マイクロフォンの近傍に位置する前記第2の小型撮像手段が位置する場合はその第2の小型撮像手段との第2の関係を記憶した記憶手段と、
前記複数のマイクロフォンの集音信号を検出し、該検出した集音信号のうち有効な集音信号を検出したマイクロフォンを選択するマイクロフォン選択手段と、
前記記憶手段に記憶されている前記第1の関係に基づいて、前記選択されたマイクロフォンに近接する第1の小型撮像手段を選択し、前記記憶手段に記憶されている前記第2の関係により該当する前記第2の小型撮像手段が存在するときはその第2の小型撮像手段を選択する、撮像手段選択手段と、
該撮像手段選択手段で選択した前記第1の小型撮像手段が撮像した第1の撮像信号と、該当する前記第2の小型撮像手段が存在するときはその第2の小型撮像手段が撮像した第2の撮像信号とを選択出力する撮像信号選択手段と、
前記撮像信号選択手段が選択された、前記第1の撮像信号と前記第2の撮像信号とを1つに合成する、または、1画面に分割する画像合成手段と
を有する、
音声集音・映像撮像装置。 - 前記撮像手段選択手段は、前記第1の小型撮像手段と前記第2の小型撮像手段とを選択したとき、
前記撮像信号選択手段は、前記第1の撮像信号と前記第2の撮像信号とを連続して切り換えて前記画像合成手段に入力し、
前記画像合成手段は、前記連続して入力される第1の撮像信号および前記第2の撮像信号を、事前に指定された条件に基づいて、1画面に合成して、または、1画面内に複数の撮像信号を分割する、
請求項1に記載の音声集音・映像撮像装置。 - 前記第1の小型の撮像手段は、CCDカメラであり、
前記第2の小型の撮像手段は、CCDカメラである、
請求項1または2に記載の音声集音・映像撮像装置。 - 前記第1の小型の撮像手段および/または第1の小型の撮像手段は、指示に応じてズーム処理を行うズーム機能を有する、
請求項3に記載の音声集音・映像撮像装置。 - 当該音声集音・映像撮像装置は、前記複数のマイクロフォンを使用する複数の話者の声紋を認証する声紋認証手段をさらに具備し、
前記マイクロフォン選択手段は、前記声紋認証手段で声紋認証されたとき、前記有効な集音のマイクロフォンを選択する、
請求項1に記載の音声集音・映像撮像装置。 - 前記マイクロフォン選択手段は、前記声紋認証手段で声紋認証されないとき、少なくとも前記第1の撮像手段をデフォルト状態にする、
請求項5に記載の音声集音・映像撮像装置。 - 前記マイクロフォン選択手段は、前記デフォルト状態として、少なくとも前記マイクロフォンの選択を変化させず、前記第1の撮像手段を変化させない、
請求項6に記載の音声集音・映像撮像装置。 - 前記マイクロフォン選択手段は、前記デフォルト状態として、少なくとも前記第1の撮像手段を初期撮像条件にする、
請求項7に記載の音声集音・映像撮像装置。 - 前記各マイクロフォンは所定の指向性を持つ、
請求項1に記載の音声集音・映像撮像装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003421437A JP4411959B2 (ja) | 2003-12-18 | 2003-12-18 | 音声集音・映像撮像装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003421437A JP4411959B2 (ja) | 2003-12-18 | 2003-12-18 | 音声集音・映像撮像装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005184386A JP2005184386A (ja) | 2005-07-07 |
JP4411959B2 true JP4411959B2 (ja) | 2010-02-10 |
Family
ID=34782667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003421437A Expired - Fee Related JP4411959B2 (ja) | 2003-12-18 | 2003-12-18 | 音声集音・映像撮像装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4411959B2 (ja) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4929703B2 (ja) * | 2005-12-19 | 2012-05-09 | ヤマハ株式会社 | 放収音装置 |
JP4929711B2 (ja) * | 2005-12-21 | 2012-05-09 | ヤマハ株式会社 | 放収音装置 |
JP4816221B2 (ja) * | 2006-04-21 | 2011-11-16 | ヤマハ株式会社 | 収音装置および音声会議装置 |
JP4660592B2 (ja) * | 2006-06-16 | 2011-03-30 | パイオニア株式会社 | カメラ制御装置、カメラ制御方法、カメラ制御プログラムおよび記録媒体 |
JP4867516B2 (ja) * | 2006-08-01 | 2012-02-01 | ヤマハ株式会社 | 音声会議システム |
JP4228010B2 (ja) | 2006-09-29 | 2009-02-25 | Necエンジニアリング株式会社 | テレビ会議装置 |
JP4930015B2 (ja) * | 2006-11-29 | 2012-05-09 | ヤマハ株式会社 | 音響装置 |
JP2009010808A (ja) * | 2007-06-29 | 2009-01-15 | Yamaha Corp | 拡声装置 |
US8249269B2 (en) | 2007-12-10 | 2012-08-21 | Panasonic Corporation | Sound collecting device, sound collecting method, and collecting program, and integrated circuit |
JP5369993B2 (ja) * | 2008-08-22 | 2013-12-18 | ヤマハ株式会社 | 録音再生装置 |
JP2012235264A (ja) | 2011-04-28 | 2012-11-29 | Ricoh Co Ltd | 会議装置 |
JP5333559B2 (ja) | 2011-10-07 | 2013-11-06 | 株式会社デンソー | 車両用装置 |
JP6645129B2 (ja) * | 2015-11-04 | 2020-02-12 | 株式会社リコー | 通信装置、制御方法及び制御プログラム |
JP6800809B2 (ja) * | 2017-06-01 | 2020-12-16 | 株式会社東芝 | 音声処理装置、音声処理方法およびプログラム |
BR112021013445A2 (pt) * | 2019-01-15 | 2021-10-19 | Nec Corporation | Dispositivo de processamento de informações, dispositivo usável, método de processamento de informações, e meio de armazenamento |
JP7035103B2 (ja) * | 2020-02-28 | 2022-03-14 | Necパーソナルコンピュータ株式会社 | 情報処理装置、及び情報処理方法 |
CN112860198B (zh) * | 2021-01-05 | 2024-02-09 | 中科创达软件股份有限公司 | 视频会议的画面切换方法、装置、计算机设备及存储介质 |
CN113938780A (zh) * | 2021-11-30 | 2022-01-14 | 联想(北京)有限公司 | 拾音装置、电子设备和控制方法 |
-
2003
- 2003-12-18 JP JP2003421437A patent/JP4411959B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005184386A (ja) | 2005-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7227566B2 (en) | Communication apparatus and TV conference apparatus | |
JP3972921B2 (ja) | 音声集音装置とエコーキャンセル処理方法 | |
JP4411959B2 (ja) | 音声集音・映像撮像装置 | |
JP3891153B2 (ja) | 通話装置 | |
US7519175B2 (en) | Integral microphone and speaker configuration type two-way communication apparatus | |
JP4192800B2 (ja) | 音声集音装置と方法 | |
JP5028944B2 (ja) | 音声会議装置及び音声会議システム | |
US5940118A (en) | System and method for steering directional microphones | |
JP5857674B2 (ja) | 画像処理装置、及び画像処理システム | |
JP4479227B2 (ja) | 音声集音・映像撮像装置および撮像条件決定方法 | |
JP4639639B2 (ja) | マイクロフォン信号生成方法および通話装置 | |
JP4281568B2 (ja) | 通話装置 | |
JP4269854B2 (ja) | 通話装置 | |
JP4225129B2 (ja) | マイクロフォン・スピーカ一体構成型・双方向通話装置 | |
JP4453294B2 (ja) | マイクロフォン・スピーカ一体構成型・通話装置 | |
JP4403370B2 (ja) | マイクロフォン・スピーカ一体構成型・通話装置 | |
JP2005151042A (ja) | 音源位置特定装置および撮像装置並びに撮像方法 | |
JP4470413B2 (ja) | マイクロフォン・スピーカ一体構成型・通話装置 | |
JP2005182140A (ja) | 飲食店の受注装置および受注方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060823 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081209 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090209 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090324 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090525 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091027 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091109 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121127 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |