JP5332798B2

JP5332798B2 - 通信制御装置、通信制御方法、及び通信制御プログラム

Info

Publication number: JP5332798B2
Application number: JP2009075766A
Authority: JP
Inventors: 裕章藤野
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2009-03-26
Filing date: 2009-03-26
Publication date: 2013-11-06
Anticipated expiration: 2029-03-26
Also published as: US8521525B2; US20100250249A1; JP2010232780A

Description

本発明は、通信制御装置、通信制御方法、及び通信制御プログラムに関するものであり、詳細には、音声データをテキストに変換して送信することができる通信制御装置、通信制御方法、及び通信制御プログラムに関するものである。

従来、ネットワークを介して複数の端末間で通信会議を行うことができる通信制御装置が知られている。また、音声とともに映像を送受信し、複数の端末間でテレビ会議を実施できるものも知られている。その中で、過去に発言された内容を視覚的に参照できるように音声に加えてテキストデータを送信するものが知られている（例えば、特許文献１参照）。

特許文献１に記載のコミュニケーション把握装置によれば、入力された音声データに基づいて文字列を作成し、時系列的に表示することができる。これにより、過去に発言された内容を視覚的に参照することが可能となり、コミュニケーションを一層密度の濃いものにすることができ、会議を円滑、且つ効率よく行うことができる。

特開２００２−３４４９１５号公報

しかしながら、話し手の声が小さいと、音声の送信先である相手側で音量を上げられる場合があった。最近は、テレビ会議専用会議室ではなく、オープンスペース等で会議を行うことも可能になってきており、この場合、例えば、話し手が相手側との間でのみ共有したい内容を意図的に小声で話しても、相手側で話し手の意図に反して音量が上げられてしまうことにより、相手側の周囲の人に聞こえてしまう可能性があった。かといって、特許文献１に記載の発明のコミュニケーション把握装置のように、常にテキストデータが送信されると通信効率が低下するという問題点があった。また、映像を送信する場合であれば、テキストデータが表示されることで相手の映像が見えにくくなるという問題点があった。

そこで、本発明は、上述した問題を解決するためになされたものであり、話し手の発話状態に応じて必要な場合にのみ音声データをテキストに変換して送信することができる通信制御装置、通信制御方法、及び通信制御プログラムを提供することを目的とする。

上記目的を達成するために、請求項１に係る発明の通信制御装置は、他の通信制御装置との間でネットワークを介して音声、及び映像の通信を制御する通信制御装置であって、音声入力部から入力された音声データの音量レベルを検出するレベル検出手段と、前記レベル検出手段にて検出された前記音量レベルが所定の基準である音量基準値より小さいか否かを判断する第１判断手段と、前記第１判断手段にて前記音量レベルが前記音量基準値より小さいと判断された場合、前記音声データを音声認識し、テキストデータを作成する音声認識手段と、前記レベル検出手段にて検出された前記音量レベルが前記音量基準値より小さい状態が所定時間経過したか否かを判断する第２判断手段と、前記第２判断手段にて前記音量レベルが前記音量基準値より小さい状態が前記所定時間経過したと判断された場合、前記音声認識手段にて作成された前記テキストデータを他の前記通信制御装置に対して送信する送信手段とを備えている。

また、請求項２に係る発明の通信制御装置は、他の通信制御装置との間でネットワークを介して音声、及び映像の通信を制御する通信制御装置であって、音声入力部から入力された音声データの音量レベルを検出するレベル検出手段と、前記レベル検出手段にて検出された前記音量レベルが所定の基準である音量基準値より小さいか否かを判断する第１判断手段と、前記第１判断手段にて前記音量レベルが前記音量基準値より小さいと判断された場合、前記音声データを音声認識し、テキストデータを作成する音声認識手段と、前記音声認識手段にて作成された前記テキストデータを他の前記通信制御装置に対して送信する送信手段と、通信を行う前記通信制御装置を識別する識別情報と、当該識別情報で特定される通信制御装置にて、実施されるテレビ会議に参加する参加者の顔の特徴である第１顔特徴とが対応づけられた参加者情報を記憶する参加者情報記憶手段から、前記参加者情報を取得する参加者情報取得手段と、通信を行う相手側の前記通信制御装置の画像入力部から入力された画像データを取得する画像取得手段と、前記画像取得手段にて取得された前記画像データに含まれる人物の顔の特徴である第２顔特徴を抽出する顔特徴抽出手段と、前記第２顔特徴と、前記画像データが取得された前記相手側の前記通信制御装置を識別する前記識別情報に対応した前記参加者情報の前記第１顔特徴とを照合し、前記第１顔特徴に前記第２顔特徴が全て存在するか否かを判断する第４判断手段とを備え、前記送信手段は、前記第４判断手段にて前記第１顔特徴に前記第２顔特徴が全て存在すると判断された場合、前記画像データを送信した前記相手側の前記通信制御装置に対して前記テキストデータを送信する。
また、請求項３に係る発明の通信制御装置は、請求項１又は２に記載の発明の構成に加え、前記第１判断手段にて前記音量レベルが前記音量基準値以上であると判断された場合にのみ、前記音声入力部から入力された前記音声データを他の前記通信制御装置に対して送信する音声データ送信手段を備えている。

また、請求項４に係る発明の通信制御装置は、請求項１乃至３のいずれかに記載の発明の構成に加え、前記第１判断手段にて前記音量レベルが前記音量基準値より小さいと判断された場合、前記音声認識手段による前記テキストデータの作成が可能か否かを判断する第３判断手段と、前記第３判断手段にて前記テキストデータの作成が不可能と判断された場合、前記音声入力部から入力された前記音声データに対する増幅度を増大させる増幅手段とを備え、前記音声認識手段は、前記増幅手段にて増幅度を増大させた前記音声データに基づいて前記テキストデータを作成することを特徴とする。

また、請求項５に係る発明の通信制御装置は、請求項１乃至４のいずれかに記載の発明の構成に加え、前記音声レベルを検出するために指示される指示手段により指定された指定時間内に前記音声入力部から入力された音声データの音量レベルの最大値を検出する最大値検出手段と、前記最大値検出手段にて検出された前記最大値を前記音量基準値として設定する基準値設定手段とを備えている。

また、請求項６に係る発明の通信制御方法は、他の通信制御装置との間でネットワークを介して音声、及び映像の通信を制御する通信制御装置によって処理される通信制御方法であって、音声入力部から入力された音声データの音量レベルを検出するレベル検出ステップと、前記レベル検出ステップにて検出された前記音量レベルが所定の基準である音量基準値より小さいか否かを判断する第１判断ステップと、前記第１判断ステップにて前記音量レベルが前記音量基準値より小さいと判断された場合、前記音声データを音声認識し、テキストデータを作成する音声認識ステップと、前記レベル検出ステップにて検出された前記音量レベルが前記音量基準値より小さい状態が所定時間経過したか否かを判断する第２判断ステップと、前記第２判断ステップにて前記音量レベルが前記音量基準値より小さい状態が前記所定時間経過したと判断された場合、前記音声認識ステップにて作成された前記テキストデータを他の前記通信制御装置に対して送信する送信ステップとを備えている。

また、請求項７に係る発明の通信制御プログラムは、請求項１乃至５のいずれかに記載の通信制御装置の各種処理手段としてコンピュータを機能させることを特徴とする。

請求項１及び２に係る通信制御装置では、音声入力部から入力された音声データの音量レベルが音量基準値より小さいか否かを判断する第１判断手段を備えている。そして、第１判断手段にて音声データの音量レベルが音量基準値より小さいと判断された場合、音声認識が行われることでテキストデータが作成され、他の通信制御装置に対して送信される。つまり、話し手の声が小さくて相手が聞き取りにくいと考えられる場合のみ、テキストデータが送信される。これにより、話し手の発話状態に応じて、必要な場合にのみテキストデータが送信される。例えば、話し手が意図的に小声で話している場合でも相手はテキストデータを見られるため、相手側で音量を上げられても秘密が保てなくなる可能性を低減できる。特に、話し手が発話中に声を小さくして、音量レベルが音量基準値未満になった場合、その時点からテキストデータが送信されるので、常にテキストデータが送信される場合に比べて話し手の意図を明確に相手に伝えられる。また、必要な場合のみテキストデータを送信するため、通信効率の低下も抑制できる。また、映像とともにテキストデータが表示される場合にも、相手の映像を見やすくできる。また、請求項１に係る通信制御装置は、音量レベルが音量基準値より小さい状態が所定時間経過したか否かを判断する第２判断手段を備えている。そして、第２判断手段にて音量レベルが音量基準値より小さい状態が所定時間経過したと判断された場合、音声認識手段にて作成されたテキストデータが他の通信制御装置に対して送信される。話し手が意図的に声を小さくする場合は所定時間以上その状態を維持するのが通常であるため、話し手が発言し始めて、話し手の声が一時的に小さくなった場合まで、テキストデータが送信されることを防ぐことができる。

請求項２に係る通信制御装置は、識別情報と、テレビ会議に参加する参加者の顔の特徴である第１顔特徴とが対応づけられた参加者情報を取得する参加者情報取得手段を備えている。そして、画像データを他の通信制御装置から取得し、取得した画像データに含まれる人物の第２顔特徴が抽出される。第１顔特徴に第２顔特徴が全て存在すると判断された場合、画像データを送信した相手側の通信制御装置に対してテキストデータが送信される。これにより、テキストデータを送信する相手側の通信制御装置で、テレビ会議に参加する予定のない人物がいる場合、テキストデータは送信されない。その結果、音量レベルが音声基準値より小さい場合にテキストデータが送信される条件が成立する場合であっても、相手側にテレビ会議参加予定者ではない人がそのテキストデータを見ることを防ぐことができる。
請求項３に係る通信制御装置では、請求項１又は２に記載の発明の効果に加え、第１判断手段にて入力された音声データの音量レベルが音量基準値以上である場合、音声データが他の通信制御装置に対して送信される。つまり、音声データの音量レベルが音量基準値より小さい場合は、音声データは他の通信制御装置に対して送信されない。これにより、話し手が声を小さくし、音量レベルが音量基準値より小さくなった場合、相手側の通信制御装置で話し手である話し手の音声が出力されない。その結果、相手側の通信制御装置で音量が上げられることによって、相手側の周囲の人に聞こえることを防ぐことができる。

請求項４に係る通信制御装置では、請求項１乃至３のいずれかに記載の発明の効果に加え、音量レベルが音量基準値より小さいと判断された場合、音声認識手段によるテキストデータの作成が可能か否かを判断し、テキストデータの作成が不可能と判断された場合、音声認識の目的のみのために、音声データに対する増幅度を増大させる増幅手段を備えている。そして、増幅度が増大された音声データに対して音声認識が行われ、テキストデータが作成される。音声認識の目的のみのためとしているのは、増幅度が増大された音声データに対して音声基準値の判断をしないとの意図である。これにより、話し手が声を小さくして発言した場合であっても、音声認識によるテキスト化が行われる可能性が高くなる。

請求項５に係る通信制御装置では、請求項１乃至４のいずれかに記載の発明の効果に加え、意図的に小さい声で話している、指示手段にて指定された指定時間内に音声入力部から入力された音声データの音量レベルの最大値を検出する最大値検出手段を備えている。そして、最大値検出手段にて検出された最大値を音量基準値として設定することができる。これにより、話し手の通常の声の大きさや、音声入力部の性能に応じた音量基準値を設定することができる。

請求項６に係る通信制御方法では、音声入力部から入力された音声データの音量レベルが音量基準値より小さいか否かを判断する第１判断ステップを備えている。そして、第１判断ステップにて音声データが音量基準値より小さいと判断された場合、音声認識が行われることでテキストデータが作成され、他の通信制御装置に対してテキストデータが送信される。つまり、話し手の声が小さくて相手が聞き取りにくいと考えられる場合のみ、テキストデータが送信される。これにより、話し手の発話状態に応じて、必要な場合にのみテキストデータが送信される。例えば、話し手が意図的に小声で話している場合でも相手はテキストデータを見られるため、相手側で音量を上げられても秘密が保てなくなる可能性を低減できる。特に、話し手が発話中に声を小さくして、音量レベルが音量基準値未満になった場合、その時点からテキストデータが送信されるので、常にテキストデータが送信される場合に比べて話し手の意図を明確に相手に伝えられる。また、必要な場合のみテキストデータを送信するため、通信効率の低下も抑制できる。また、映像とともにテキストデータが表示される場合にも、相手の映像を見やすくできる。また、話し手が意図的に声を小さくする場合は所定時間以上その状態を維持するのが通常であるため、話し手が発言し始めて、話し手の声が一時的に小さくなった場合まで、テキストデータが送信されることを防ぐことができる。

請求項７に係る通信制御プログラムでは、請求項１乃至５のいずれかに記載の通信制御装置の各種処理手段としてコンピュータを機能させる。従って、通信制御プログラムをコンピュータに実行させることにより、請求項１乃至５のいずれかに記載の発明の効果を奏することができる。

通信制御システム１の接続形態の一例を示す図である。通信制御装置１００の電気的構成を示すブロック図である。通信制御装置１００のＨＤＤ１０４の記憶エリアの構成を示す模式図である。モニタ１７０に表示されるテレビ会議画面１７１の一具体例を示す図である。通信制御装置１００で実行されるメイン処理のフローチャートである。モニタ１７０に表示されるテレビ会議画面１７１の一具体例を示す図である。第一変形例のメイン処理のフローチャートである。第二変形例のメイン処理のフローチャートである。第三変形例のメイン処理のフローチャートである。第四変形例の通信制御装置１００のＨＤＤ１０４の記憶エリアの構成を示す模式図である。顔特徴テーブル１４００の構成を示す模式図である。第四変形例のメイン処理のフローチャートである。第四変形例のメイン処理から実行される認識判断処理のサブルーチンのフローチャートである。第五変形例の閾値登録処理のサブルーチンのフローチャートである。

以下、本発明の一実施の形態である通信制御システム１について、図面を参照して説明をする。まず、図１を参照して通信制御システム１の概要について説明する。

図１に示すように、通信制御システム１はネットワーク２を介して接続された複数の通信制御装置１００で構成されている。この通信制御システム１では、ネットワーク２を介して通信制御装置１００間で画像データ、及び音声データが互いに送受信されることでテレビ会議が実施される。図１では、通信制御装置１００が２つ図示されているが、本発明では、ネットワーク２を介して２つ以上の通信制御装置１００でテレビ会議が実施できればよく、通信制御装置１００は２つ以上であればよい。通信制御装置１００は、例えば、ある企業の同一サイト内に複数存在してもよいし、異なる事業所内や、異なる地域や国に点在して存在していてもよい。なお、通信制御装置１００は、例えば、周知のパーソナルコンピュータであり、汎用型の装置である。

次に、図２のブロック図を参照して、通信制御装置１００の電気的構成について説明する。図２に示すように、通信制御装置１００は、通信制御装置１００の制御を司るＣＰＵ１０１を備えている。そして、このＣＰＵ１０１には、ＲＯＭ１０２、ＲＡＭ１０３、ハードディスクドライブ（ＨＤＤ）１０４、カウンタ１０５、計時装置１０６、入出力制御部１０７、及び通信制御部１０８が、バス１１１を介して接続されている。

ＲＯＭ１０２には、ＣＰＵ１０１が実行するＢＩＯＳを起動させるプログラムや設定値が記憶されている。ＲＡＭ１０３には、各種のデータが一時的に記憶される。ＨＤＤ１０４には、通信制御装置１００で実行される各種のプログラム等が記憶される。カウンタ１０５は、タイマとして機能し、時間を計測する。計時装置１０６は、内部時計として時間を計時する。

入出力制御部１０７には、ユーザが操作の入力を行うためのキーボード１２０、マウス１３０、ユーザの発話による音声を取得するマイク１４０、及びテレビ会議で使用するための画像を取得するカメラ１５０が接続されている。また、入出力制御部１０７には、テレビ会議が実施されている時に、他の通信制御装置１００から送信された音声データを出力するスピーカ１６０、及び他の通信制御装置１００から送信された画像データを表示するモニタ１７０が接続されている。通信制御部１０８は、ネットワーク２を介して他の通信制御装置１００との間でのデータの送受信を制御する。

次に、図３を参照して、ＨＤＤ１０４の各種記憶エリアについて説明する。記憶装置であるＨＤＤ１０４には、図３に示すように、複数の記憶エリアが設けられている。複数の記憶エリアには、例えば、音響モデル記憶エリア１４０１、言語モデル記憶エリア１４０２、単語辞書記憶エリア１４０３、プログラム記憶エリア１４０４、及びプログラム関係情報記憶エリア１４０５が含まれている。

音響モデル記憶エリア１４０１には、音声認識処理で使用される周知の音響モデルが記憶されている。なお、詳細な説明は省略するが、音響モデルは、音声の音響的特徴（例えば、メルケプストラム）を統計的にモデル化したもので、例えば、母音、子音のそれぞれについて、特徴量と対応する音素とで表現されている。

言語モデル記憶エリア１４０２には、音声認識処理で使用される言語モデルが記憶されている。言語モデルは、単語のつながり、すなわち単語間の結びつきに関する制約を定義するものである。代表的な言語モデルとして、例えば、単語間の結びつきを文法（グラマー）で記述する記述文法モデルと、単語間の結びつきを確率で定義する統計モデルがある。

統計モデルの代表的な例として、単語Ｎ−ｇｒａｍモデルがある。単語Ｎ−ｇｒａｍモデルとは、単語列Ｐ（ｗ_１ｗ_２・・・ｗ_ｎ）のｉ番目の単語ｗ_ｉの生起は、直前の（Ｎ−１）単語に依存するという仮説に基づくモデルである。単語Ｎ−ｇｒａｍモデルを例とする統計モデルを用いた音声認識処理では、認識結果である単語列と、その生起確率とが出力される。なお、本実施の形態では、言語モデルとして統計モデルを採用するものとするが、必ずしも統計モデルを使用する必要はなく、記述文法モデルを使用してもよい。

単語辞書記憶エリア１４０３には、音声認識処理に使用される単語辞書（図示外）が記憶されている。単語辞書は、複数の単語と、各単語の発音に関する情報（例えば、音素列）との対応を記述するものである。

プログラム記憶エリア１４０４には、例えば、後述する各種処理に使用されるプログラムを含む、通信制御装置１００の各種動作を制御するためのプログラムが複数記憶されている。なお、これらのプログラムは、例えばＣＤ−ＲＯＭに記憶されたものがＣＤ−ＲＯＭドライブ（図示外）を介してインストールされ、プログラム記憶エリア１４０４に記憶される。または、インターネット等に接続し、ネットワーク２を介してダウンロードされたプログラムが記憶されてもよい。図示はされていないが、ＨＤＤ１０４には、その他、各種処理で使用される設定値等も記憶されている。プログラム関係情報記憶エリア１４０５には、プログラムの実行に必要な設定や初期値、データ等の情報が記憶される。

次に、図４を参照して、通信制御装置１００のモニタ１７０に表示されるテレビ会議画面１７１について説明する。

テレビ会議が実施されると各通信制御装置１００のモニタ１７０には、図４に示すように、テレビ会議画面１７１が表示される。このテレビ会議画面１７１には、各通信制御装置１００のカメラ１５０で撮影された画像データ（以下、「カメラ画像」という）が表示される個別領域１７２が、通信制御装置１００毎に設けられている。例えば、図４に示すテレビ会議画面１７１では、「端末Ａ」で特定される通信制御装置１００に対応する個別領域１７２が画面左側に設けられている。また、「端末Ｂ」で特定される通信制御装置１００に対応する個別領域１７２が画面右側に設けられているものとする。

なお、通信制御装置１００は、通信制御システム１に接続されている他の通信制御装置１００からカメラ画像を受信する。そして、カメラ画像を送信した通信制御装置１００に対応した個別領域１７２に、受信したカメラ画像が合成されて表示される。また、自身のカメラ１５０で撮影されたカメラ画像が、他の通信制御装置１００に対して送信される。

次いで、図５を参照して、通信制御装置１００で実行されるメイン処理について説明する。ここで、図５のメイン処理は、通信制御装置１００においてテレビ会議を実行するプログラムが起動された際にＣＰＵ１０１により実行される処理である。なお、通信制御装置１００の電源がＯＦＦになった際には、メイン処理は自動的に終了するものとする。また、テレビ会議で行われる他の処理に関しては、他のプロセスで実行されているものとする。ここで、カメラ１５０から取得されたカメラ画像、マイク１４０から取得された音声は、それぞれが取得されたタイミングで他の通信制御装置１００に対して送信されるものとする。

メイン処理が実行されると、話し手の発話が検出されたか否かが判断される（Ｓ１１）。この判断処理は、マイク１４０から取得した音声データに話し手の発話による音声データが含まれているか否かで判断される。具体的には、取得された音声データの周波数が所定の周波数領域にあるか否かが判断される。ここで、一例として、所定の周波数領域は、日本語音声の周波数領域である８０Ｈｚ〜１５００Ｈｚとする。

話し手の発話が検出されていないと判断された場合（Ｓ１１：ＮＯ）、つまり、所定の周波数領域の音声データが検出されていない場合、処理がＳ１１へ移行する。そして、再度、話し手の発話が検出される処理が行われる。

話し手の発話が検出されたと判断された場合（Ｓ１１：ＹＥＳ）、つまり、所定の周波数領域の音声データが検出された場合、取得された音声データの音量レベルが検出される（Ｓ１２）。つまり、マイク１４０から取得した話し手の声の大きさが検出される。次いで、音量レベルが閾値より小さいか否かが判断される（Ｓ１３）。この閾値は、予めＨＤＤ１０４の閾値記憶エリア（図示外）に記憶された値である。ここで、一例として、閾値は、３０デシベル（ｄＢ）とする。

音量レベルが、閾値である３０ｄＢ以上である場合（Ｓ１３：ＮＯ）、処理がＳ１１へ移行する。そして、再度、話し手の発話が検出される処理が行われる。

また、音量レベルが、閾値である３０ｄＢより小さい場合（Ｓ１３：ＹＥＳ）、音声データに基づいて音声認識によるテキスト化が行われる（Ｓ１４）。

具体的には、まず、音声認識に使用される音響モデル、言語モデルおよび単語辞書が、ＨＤＤ１０４（図３参照）の音響モデル記憶エリア１４０１、言語モデル記憶エリア１４０２、および単語辞書記憶エリア１４０３からそれぞれ読み出される。

音響モデル、言語モデル、および単語辞書を用いて、音声認識が行われる（Ｓ１４）。音声認識の方法には周知のいかなる方法を採用してもよい。例えば、次のような方法を採用することができる。まず、単語辞書を参照して音響モデルが接続されることにより、単語の音響モデルが生成される。そして、言語モデルを参照して、複数の単語の音響モデルが接続される。接続された単語の音響モデルの特徴量に基づき、連続分布ＨＭＭ法によって、ステップＳ１１で取得された音声データの認識処理が行われる。その結果、接続された単語の音響モデルのうち、生起確率が最も高いものに対応する単語列が、認識結果として生起確率とともに出力される。ここで、生起確率が一定値未満であれば、音声認識が失敗したことを意味している。また、生起確率が一定値以上であれば、得られた認識結果は、ＲＡＭ１０３の所定の記憶エリアに記憶される。

音声認識による音声テキスト化が行われると（Ｓ１４）、音声テキスト化が成功したか否かが判断される（Ｓ１５）。つまり、音声テキスト化が行われ、認識結果が所定の記憶エリアに記憶されているか否かで判断される。

音声認識による音声テキスト化が成功していないと判断された場合（Ｓ１５：ＮＯ）、つまり、音声テキスト化が行われ、認識結果が所定の記憶エリアに記憶されていない場合、処理がＳ１１へ移行する。そして、再度、話し手の発話が検出される処理が行われる。

また、音声認識による音声テキスト化が成功したと判断された場合（Ｓ１５：ＹＥＳ）、つまり、音声テキスト化が行われ、認識結果が所定の記憶エリアに記憶されている場合、Ｓ１４でＲＡＭ１０３の所定の記憶エリアに記憶された認識結果であるテキストデータが他の通信制御装置１００に対して送信される（Ｓ１６）。そして、処理がＳ１１へ移行し、再度、話し手の発話が検出される処理が行われる。また、テキストデータが送信された他の通信制御装置１００においては、テキストデータが受信されると、テキストデータは図６に示すように送信元の通信制御装置１００に対応する個別領域１７２に表示テキスト１７３として表示される。なお、図６は、音声認識によるテキストデータが「端末Ａ」で特定される通信制御装置１００から「端末Ｂ」で特定される通信制御装置１００に対して送信され、「端末Ｂ」で特定される通信制御装置１００でテキストデータが表示テキスト１７３として表示された状態である。

以上、説明したように、本実施の形態では、テレビ会議において話し手からの発話の音量レベルが取得される。そして、音量レベルが閾値より小さい場合、通信制御装置１００により音声認識が行われ、テキストデータが他の通信制御装置１００に対して送信される。テキストデータを受信した通信制御装置１００では、送信元の通信制御装置１００に対応する個別領域１７２に、表示テキスト１７３が表示される。これにより、話し手の声が小さくて相手が聞き取りにくいと考えられる場合のみ、テキストデータが送信される。つまり、話し手の発話状態に応じて、必要な場合にのみテキストデータが送信される。例えば、話し手が意図的に小声で話している場合でも相手はテキストデータを見られるため、相手側で音量を上げられても秘密が保てなくなる可能性を低減できる。特に、話し手が発話中に声を小さくして、音量レベルが閾値未満になった場合、その時点からテキストデータが送信されるので、常にテキストデータが送信される場合に比べて話し手の意図を明確に相手に伝えられる。また、必要な場合のみテキストデータを送信するため、通信効率の低下も抑制できる。また、映像とともにテキストデータが表示される場合にも、相手の映像を見やすくできる。

なお、本実施の形態において、マイク１４０が「音声入力部」に相当し、閾値が「音量基準値」に相当する。図５のＳ１２を行うＣＰＵ１０１が「レベル検出手段」として機能し、図５のＳ１２を行うＣＰＵ１０１の処理が「レベル検出ステップ」に相当する。図５のＳ１３を行うＣＰＵ１０１が「第１判断手段」として機能し、図５のＳ１３を行うＣＰＵ１０１の処理が「第１判断ステップ」に相当する。図５のＳ１４を行うＣＰＵ１０１が「音声認識手段」として機能し、図５のＳ１４を行うＣＰＵ１０１の処理が「音声認識ステップ」に相当する。図５のＳ１６のＣＰＵ１０１が「送信手段」として機能し、図５のＳ１６のＣＰＵ１０１の処理が「送信ステップ」に相当する。

なお、本発明は、上述した実施の形態に限定されるものではなく、本発明の要旨を脱しない範囲内において種々の変更が可能であることは無論である。以下に、変形例について説明する。

上述した実施の形態では、テキストデータが送信された側の通信制御装置１００のテレビ会議画面１７１にしかテキストデータが表示されないが、これに限定しない。例えば、テキストデータを送信した側の通信制御装置１００のテレビ会議画面１７１にもテキストデータが表示されるようにしてもよい。これにより、テキストデータを送信した通信制御装置１００、テキストデータを送信された通信制御装置１００の双方で、テキストデータの確認が可能となる。

上述した実施の形態では、マイク１４０より取得した音声データは、メイン処理（図５参照）以外の他の処理により、常にテレビ会議で通信を行う他の通信制御装置１００に対して送信されるが、これに限定しない。例えば、テキストデータを他の通信制御装置１００に対して送信する場合、音声データを送信しないようにしてもよい。これについて、図７を参照して、第一変形例における通信制御装置１００のメイン処理について説明する。なお、第一変形例の通信制御装置１００の電気的構成については、上述した実施の形態の電気的構成と同様のため図示、及びその説明を省略する。なお、マイク１４０から取得された音声データは、図７のメイン処理以外からは送信されないものとする。また、図７のＳ２１、Ｓ２２、Ｓ２４、及びＳ２６は、上述した実施の形態のメイン処理（図６参照）のＳ１１、Ｓ１２、Ｓ１４、及びＳ１６と同様の処理のため、その説明を省略する。

図７に示す第一変形例のメイン処理が開始され、Ｓ２２の処理において音声データの音量レベルが検出されると、音量レベルが閾値より小さいか否かが判断される（Ｓ２３）。ここで、閾値は上述した実施の形態と同様の３０ｄＢとする。

音量レベルが、閾値である３０ｄＢ以上である場合（Ｓ２３：ＮＯ）、Ｓ２１で検出された音声データが他の通信制御装置１００に対して送信される（Ｓ２７）。そして、処理がＳ２１へ移行する。

また、音量レベルが、閾値である３０ｄＢより小さい場合（Ｓ２３：ＹＥＳ）、音声認識によるテキストが行われる（Ｓ２４）。そして、音声認識による音声テキスト化が成功したか否かが判断される（Ｓ２５）。音声認識による音声テキスト化が成功したと判断された場合（Ｓ２５：ＹＥＳ）、テキストデータが他の通信制御装置１００に対して送信される（Ｓ２６）。そして、処理がＳ２１へ移行する。

また、音声認識による音声テキスト化が成功していないと判断された場合（Ｓ２５：ＮＯ）、Ｓ２１で検出された音声データが他の通信制御装置１００に対して送信される（Ｓ２７）。そして、処理がＳ２１へ移行する。

以上、説明したように、第一変形例では、テキストデータが他の通信制御装置１００に対して送信されなかった場合のみ音声データが送信される。つまり、音声データの音量レベルが閾値より小さい場合は、音声データは他の通信制御装置１００に対して送信されない。これにより、話し手が声を小さくし、音量レベルが閾値より小さくなった場合、相手側の通信制御装置１００で話し手の音声が出力されない。その結果、相手側の通信制御装置１００で音量が上げられて相手側の周囲の人に聞こえることを防ぐことができる。

なお、第一変形例において、図７のＳ２７の処理を行うＣＰＵ１０１が「音声データ送信手段」として機能する。

また、上述した実施の形態では、音量レベルが閾値より小さいと判断された場合（Ｓ１３：ＹＥＳ）、音声データに基づいて音声認識によるテキスト化が行われるが（Ｓ１４）、これに限定しない。例えば、音量レベルが閾値より小さい状態が所定時間であるＴ１時間以上であれば、音声データに基づいて音声認識によるテキスト化を行うようにしてもよい。これについては、図８を参照して、第二変形例における通信制御装置１００の処理について説明する。なお、第二変形例の通信制御装置１００の電気的構成については、上述した実施の形態の電気的構成と同様のため図示、及びその説明を省略する。ここで、Ｔ１時間は、テレビ会議に参加する話し手の発話が、小声であると認識できる十分な時間であればよく、一例として、１秒とする。

図８に示す第二変形例のメイン処理が実行されると、話し手の発話が検出されたか否かが判断される（Ｓ５１）。このＳ５１の処理は上述した実施の形態のＳ１１と同様の判断処理であるため、その詳細についての説明は省略する。話し手の発話が検出されなければ（Ｓ５１：ＮＯ）、Ｓ５１の処理が繰り返し行われる。

話し手の発話が検出されたと判断された場合（Ｓ５１：ＹＥＳ）、取得した音声データの音量レベルが検出され（Ｓ５２）、音量レベルが閾値より小さいか否かが判断される（Ｓ５３）。このＳ５２、及びＳ５３の処理は上述した実施の形態のＳ１２、及びＳ１３と同様の判断処理であるため、その詳細についての説明は省略する。

音量レベルが閾値より小さい場合（Ｓ５３：ＹＥＳ）、音量レベルが閾値より小さい状態が検出されてからのカウントが開始される（Ｓ５４）。このカウント処理は、タイマカウンタである第１カウンタを用いて行われる。この第１カウンタはＣＰＵ１０１に接続された計時装置１０６からの信号に基づいてカウントアップされる。なお、第１カウンタが停止している時は、Ｓ５４の処理でカウンタによる計測が開始され、第１カウンタが計測中の場合は、計測が継続される。

そして、話し手による発話の音声データの音量レベルが閾値より小さい状態が、Ｔ１時間以上か否かが判断される（Ｓ５５）。つまり、第１カウンタの計測値であるカウント値がＴ１時間以上か否かが判断される。話し手による発話の音声データの音量レベルが閾値より小さい状態が、Ｔ１時間以上経過していない場合、つまり、第１カウンタのカウント値がＴ１時間以上、経過していないと判断された場合（Ｓ５５：ＮＯ）、処理がＳ５１へ移行する。

また、音量レベルが閾値以上である場合（Ｓ５３：ＮＯ）、第１カウンタが停止され、０に初期化される（Ｓ５６）。そして、処理がＳ５１へ移行する。

話し手による発話の音声データの音量レベルが閾値より小さい状態が、Ｔ１時間以上経過した場合（Ｓ５５：ＹＥＳ）、つまり、第１カウンタのカウント値がＴ１時間以上、経過したと判断された場合、第１カウンタが停止され、０に初期化される（Ｓ５７）。次いで、音声データに基づいて音声認識によるテキスト化が行われる（Ｓ５８）。ここでは、音声認識によるテキスト化が行われる音声データはＳ５４で第１カウンタの計測が開始されてから、音声データの音量レベルが閾値より小さい状態がＴ１時間以上経過するまでに取得された音声データである。ここで、Ｓ５８〜Ｓ６０の処理は上述した実施の形態のＳ１４〜Ｓ１６と同様の処理であるため、その詳細についての説明は省略する。また、音声テキスト化に成功したと判断されなかった場合（Ｓ５９：ＮＯ）、処理がＳ５１へ移行する。

音声テキスト化に成功したと判断された場合（Ｓ５９：ＹＥＳ）、テキストデータが他の通信制御装置１００に対して送信される（Ｓ６０）。そして、話し手の発話が検出されたか否かの判断が行われる（Ｓ６１）。このＳ６１の処理は、Ｓ５１の処理と同様のため詳細の説明は省略する。

話し手の発話が検出されていないと判断された場合（Ｓ６１：ＮＯ）、話し手の発話が検出されていない時間の計測が開始される（Ｓ６３）。この計測処理は、タイマカウンタである第２カウンタを用いて行われる。この第２カウンタはＣＰＵ１０１に接続された計時装置１０６からの信号に基づいてカウントアップされる。なお、第２カウンタが停止している時は、Ｓ６３の処理でカウンタによる計測が開始され、第２カウンタが計測中の場合は、計測が継続される。

次いで、無音時間がＴ２時間を経過したか否かが判断される（Ｓ６４）。ここで、無音時間とは、話し手からの発話による音声データが検出されていない時間であり、第２カウンタにより計測されている時間である。Ｔ２時間は、話し手の発話の終了を認識できる間隔の時間であればよく、一例として３秒とする。

Ｓ６３において第２カウンタによる無音時間の計測が開始された直後は、無音時間はＴ２時間以上になっていないため（Ｓ６４：ＮＯ）、処理がＳ６１へ移行し、再度、話し手の発話が検出されたか否かの判断が行われる。

また、話し手の発話が検出されずに無音時間がＴ２時間以上になったと判断された場合（Ｓ６４：ＹＥＳ）、つまり、第２カウンタの計測値がＴ２時間以上になった場合、第２カウンタが停止され、０に初期化される（Ｓ６５）。そして、処理がＳ５１へ移行する。

また、第２カウンタによる無音時間の計測中に、話し手からの発話が検出された場合（Ｓ６１：ＹＥＳ）、つまり、無音時間がＴ２時間を経過するまでに話し手の発話が検出された場合、第２カウンタが停止され、０に初期化される（Ｓ６２）。そして、処理がＳ５８へ移行し、音声のテキスト化が行われる。ここでは、Ｓ６３で第２カウンタの計測が開始されてから、第２カウンタの計測値がＴ２時間を経過するまでに検出された音声データのテキスト化が行われる。

以上、説明したように、第二変形例では、音量レベルが閾値より小さい状態がＴ１時間経過したか否かが判断される。そして、音量レベルが閾値より小さい状態がＴ１時間経過したと判断された場合、音声認識で作成されたテキストデータが他の通信制御装置１００に対して送信される。話し手が意図的に声を小さくする場合は一定時間以上その状態を維持するのが通常であり、話し手が発言し始めて、話し手の声が一時的に小さくなった場合までテキストデータが送信されることを防ぐことができる。

なお、第二変形例において、図８のＳ５５を行うＣＰＵ１０１が「第２判断手段」として機能し、図８のＳ５５を行うＣＰＵ１０１の処理が「第２判断ステップ」に相当する。図８のＳ６０を行うＣＰＵ１０１が「送信手段」として機能し、図８のＳ６０を行うＣＰＵ１０１の処理が「送信ステップ」に相当する。

また、上述した実施の形態では、音声テキスト化が成功していないと判断された場合（Ｓ１５：ＮＯ）、処理がＳ１１へ移行する。そして、再度、話し手の発話が検出される処理が行われるがこれに限定しない。例えば、音声テキスト化が失敗した場合、音声データの信号を増幅させて、再度、音声認識によるテキスト化が行われるようにしてもよい。これについては、図９を参照して、第三変形例における通信制御装置１００のメイン処理について説明する。なお、第三変形例の通信制御装置１００の電気的構成については、上述した実施の形態の電気的構成と同様のため図示、及びその説明を省略する。また、図９のメイン処理において、Ｓ７１〜Ｓ７４の処理は、図５のＳ１１〜Ｓ１４の処理と同様のため、その説明を省略する。

図９に示す第三変形例のメイン処理で、音声テキスト化が成功していないと判断された場合（Ｓ７５：ＮＯ）、つまり、音声テキスト化が行われ、得られた生起確率の値が一定値未満の場合、音声データの信号が増幅される（Ｓ７７）。つまり、マイク１４０から取得した音声データの信号が増幅される。そして、再度、信号が増幅された音声データに基づいて音声認識によるテキスト化が行われる（Ｓ７４）。そして、処理がＳ７５へ移行し、信号が増幅された音声データに対しての音声テキスト化が成功したか否かが判断される。つまり、Ｓ７５において、音声テキスト化に成功するまで、Ｓ７７、及びＳ７４の処理が行われる。

音声テキスト化に成功したと判断された場合（Ｓ７５：ＹＥＳ）、Ｓ７４でＲＡＭ１０３の所定の記憶エリアに記憶された認識結果であるテキストデータが他の通信制御装置１００に対して送信される（Ｓ７６）。そして、処理がＳ７１へ移行する。

以上、説明したように、第三変形例では、音量レベルが閾値より小さいと判断された場合、音声認識手段によるテキストデータの作成が可能か否かを判断し、テキストデータの作成が不可能と判断された場合、音声認識の目的のみのために、音声データの信号が増幅される。音声認識の目的のみのためとしているのは、増幅度が増大された音声データに対して閾値との判断をしないとの意図である。そして、音声レベルが上げられた音声データに対して音声認識が行われ、テキストデータが作成される。これにより、話し手が声を小さくして発言した場合であっても、音声認識によるテキスト化が行われる可能性が高くなる。

なお、第三変形例において、図９のＳ７５の処理を行うＣＰＵ１０１が「第３判断手段」として機能し、図９のＳ７７の処理を行うＣＰＵ１０１が「増幅手段」として機能する。

また、上述した第三変形例では、音声認識によるテキスト化が成功しなければ、Ｓ７７、及びＳ７４の処理が繰り返されるが、これに限定しない。例えば、所定回数、テキスト化が成功しなければ、処理がＳ７１へ移行し、再度、話し手の発話が検出される処理が行われるようにしてもよい。

また、上述した実施の形態では、音声テキスト化が成功したと判断された場合（Ｓ１５：ＹＥＳ）、取得したテキストデータが他の通信制御装置１００に対して必ず送信されるが、これに限定しない。例えば、通信制御装置１００毎に予めテレビ会議に参加するユーザを登録しておき、他の通信制御装置１００で登録されていない人物が、他の通信制御装置１００のカメラ１５０に映っていれば、音声認識によるテキストデータが他の通信制御装置１００に対して送信されないようにしてもよい。これについては、図１０〜図１３を参照して、第四変形例における通信制御装置１００の処理について説明する。なお、第四変形例の通信制御装置１００の電気的構成については、上述した実施の形態の電気的構成と同様のため図示、及びその説明を省略する。

まず、図１０を参照して、通信制御装置１００のＨＤＤ１０４の構成について説明する。記憶装置であるＨＤＤ１０４には、図１０に示すように、複数の記憶エリアが設けられている。第四変形例では、上述した実施の形態の複数の記憶エリアに加えて、顔特徴テーブル１４００（図１１参照）を記憶した顔特徴記憶エリア１４０６を含んでいる。

次に、図１１を参照して、顔特徴テーブル１４００について説明する。顔特徴テーブル１４００は、通信制御システム１において通信が行われる通信制御装置１００を特定する情報（以下、「端末ＩＤ」という）毎に、複数の人物の顔の特徴を示すデータである顔特徴データと、その人物に関する情報である関連情報とが対応付けて記憶されている。図１１に示すように、顔特徴テーブル１４００には、例えば、端末ＩＤ欄、ユーザＩＤ欄、顔特徴データ欄、及び氏名欄が設けられている。なお、この顔特徴テーブル１４００は、テレビ会議が実施される前に、予め、各通信制御装置１００に記憶されているものとする。

端末ＩＤ欄には、通信制御システム１において通信が行われる通信制御装置１００の端末ＩＤが記憶される。ユーザＩＤ欄にはテレビ会議に参加する参加者を識別する情報であるユーザＩＤが記憶されている。顔特徴データ欄には、顔特徴データとして、例えば、眉、目、鼻、口等の位置や形状を示す数値データが記憶されている。なお、第四変形例では、目、鼻、口に対応する特徴点のデータが、顔特徴データとして採用されているものとする。氏名欄には、顔特徴データの抽出元の人物（以下、「登録者」という）の氏名が記憶される。

次に、図１２を参照して、第四変形例における通信制御装置１００のメイン処理について説明する。図１２の通信制御装置１００のメイン処理は、通信制御装置１００においてテレビ会議を実行するプログラムが起動された際にＣＰＵ１０１により実行される処理である。なお、図９のメイン処理において、Ｓ８１〜Ｓ８５の処理は、図５のＳ１１〜Ｓ１５の処理と同様のため、その説明を省略する。

また、第四変形例では、他の通信制御装置１００のカメラ１５０により撮影されたカメラ画像が、所定時間毎に送信され、メイン処理以外の他の処理で受信する。そして、受信されたカメラ画像はＲＡＭ１０３のカメラ画像記憶エリア（図示外）に記憶される。そして、所定時間毎にカメラ画像は更新されるものとする。

図１２に示す第四変形例のメイン処理が実行され、音声認識によるテキスト化が成功されたと判断された場合（Ｓ８５：ＹＥＳ）、認識判断処理が行われる（Ｓ８６）。

次いで、図１３を参照して、認識判断処理について説明する。認識判断処理が実行されると、カメラ画像が取得される（Ｓ９１）。このカメラ画像はＲＡＭ１０３のカメラ画像記憶エリア（図示外）に記憶されている他の通信制御装置１００から送信された画像データである。なお、カメラ画像は、カメラ画像を送信した通信制御装置１００の端末ＩＤに対応づけられて記憶される。

そして、カメラ画像において、顔の特徴点が抽出可能か否かが判断される（Ｓ９２）。ここでは、目、鼻、口に対応する特徴点がすべて抽出可能な場合にのみ、顔の特徴点が抽出可能であると判断される（Ｓ９２：ＹＥＳ）。顔の特徴点を抽出する際、まず、カメラ画像に含まれる人物の顔領域が検出される。顔領域の検出には、例えば、予め記憶した顔のパターンとのマッチングを行う方法や、肌色領域を検出する方法を採用することができるが、他のいかなる公知の方法を採用してもよい。そして、顔領域から、顔の特徴点である目、鼻、口の特徴点が抽出され、これらの位置や形状を示す数値データが参加者の顔特徴データとして抽出される（Ｓ９３）。

そして、ＨＤＤ１０４の顔特徴記憶エリア１４０６に記憶された顔特徴テーブル１４００から登録者の顔特徴データが順に読み出され、カメラ画像に含まれている全ての人物の顔特徴データと照合される（Ｓ９４）。その際、カメラ画像記憶エリアに記憶されたカメラ画像に対応した端末ＩＤと同一である端末ＩＤに対応した顔特徴データが取得される。照合の結果、カメラ画像に含まれている全ての人物の顔特徴データの内で、登録者と一致しない人物が含まれていると判断された場合には（Ｓ９５：ＮＯ）、ＲＡＭ１０３の認識フラグ記憶エリアに記憶された認識フラグに０が設定される（Ｓ９７）。そして認識判断処理は終了して、図１２に示すメイン処理に戻る。

一方、照合の結果、カメラ画像に含まれている全ての人物の顔特徴データの内で、登録者と一致しない人物が含まれていない判断された場合には（Ｓ９５：ＹＥＳ）、ＲＡＭ１０３の認識フラグ記憶エリアに記憶された認識フラグに１が設定される（Ｓ９６）。そして認識判断処理は終了して、処理が図１２に示すメイン処理に戻る。

また、ステップＳ９２において、顔領域から目、鼻、口の特徴点のうち少なくとも１つが抽出できなかったと判断された場合には（Ｓ９２：ＮＯ）、処理がＳ９７へ移行し、認識フラグに０が設定される。そして認識判断処理は終了して、処理が図１２に示すメイン処理に戻る。

認識判断処理が終了すると、図１２に示すメイン処理に戻り、他の通信制御装置１００で撮影されたカメラ画像に含まれている全ての人物の内で、登録者と一致しない人物が映っているか否かが判断される（Ｓ８７）。この判断処理は、認識判定処理においてＲＡＭ１０３の認識フラグ記憶エリア（図示外）に記憶された認識フラグの値により判断される。

他の通信制御装置１００で撮影されたカメラ画像に含まれている全ての人物の内で、登録者と一致しない人物が映っていないと判断された場合（Ｓ８７：ＮＯ）、つまり、ＲＡＭ１０３に記憶された認識フラグの値が１の場合、テキストデータが他の通信制御装置１００に対して送信される（Ｓ８８）。そして、処理がＳ８１へ移行し、再度、話し手の発話が検出される処理が行われる。なお、このテキストデータは、Ｓ８４でＲＡＭ１０３の所定の記憶エリアに記憶された認識結果のデータである。

また、他の通信制御装置１００で撮影されたカメラ画像に含まれている全ての人物の内で、登録者と一致しない人物が映っていると判断された場合（Ｓ８７：ＹＥＳ）、つまり、ＲＡＭ１０３に記憶された認識フラグの値が０の場合、処理がＳ８１へ移行し、再度、話し手の発話が検出される処理が行われる。つまり、テキストデータが他の通信制御装置１００に対して送信されず、処理がＳ８１へ移行する。

以上、説明したように、第四変形例では、端末ＩＤと、テレビ会議に参加する参加者の顔の特徴である顔特徴データとが対応づけられた情報が、顔特徴記憶エリア１４０６に記憶されている顔特徴テーブル１４００から取得される。そして、カメラ画像を他の通信制御装置１００から取得し、取得されたカメラ画像に含まれる人物の顔特徴データが抽出される。顔特徴テーブル１４００に記憶された顔特徴データに、カメラ画像から抽出された顔特徴データが全て存在すると判断された場合、カメラ画像を送信した相手側の通信制御装置１００に対してテキストデータが送信される。これにより、テキストデータを送信する相手側の通信制御装置１００で、テレビ会議に参加する予定のない人物が映っている場合、テキストデータは送信されない。その結果、音量レベルが音声基準値より小さい場合にテキストデータが送信される条件が成立する場合であっても、相手側にいるテレビ会議の参加予定者ではない人がそのテキストデータを見ることを防ぐことができる。

なお、第四変形例において、ＨＤＤ１０４の顔特徴記憶エリア１４０６が「参加者情報記憶手段」に相当し、カメラ１５０が「画像入力部」に相当する。図１３のＳ９１を行うＣＰＵ１０１が「画像取得手段」として機能し、図１３のＳ９３を行うＣＰＵ１０１が「顔特徴抽出手段」として機能する。図１３のＳ９４を行うＣＰＵ１０１が「参加者情報取得手段」として機能し、図１３のＳ９５を行うＣＰＵ１０１が「第４判断手段」として機能する。図１２のＳ８８を行うＣＰＵ１０１が「送信手段」として機能する。

上述した実施の形態では、Ｓ１３のステップの判定に使用する閾値は、予め固定されている値を使用しているが、これに限定しない。たとえば、通信制御装置１００のユーザが登録できるようにしてもよい。これについては、図１４を参照して、第五変形例における通信制御装置１００の閾値登録処理について説明する。なお、図１４の閾値登録処理は、メイン処理（図５参照）とは別のプロセスで実行されている。他の処理については、上述した実施の形態と同様のため、その説明は省略する。

閾値登録処理が実行されると、判定ボタン（図示外）が押下されたか否かが判断される（Ｓ１０１）。この判定ボタンは、キーボード１２０に割り当てられたボタンである。判定ボタンが押下されていないと判断された場合（Ｓ１０１：ＮＯ）、処理がＳ１０１へ移行する。

判定ボタンが押下されたと判断された場合（Ｓ１０１：ＹＥＳ）、ユーザからマイク１４０を介して入力された音声データの音量レベルが計測される（Ｓ１０２）。この音量レベルは、ＲＡＭ１０３の音量レベル記憶エリア（図示外）に記憶される。次いで、判定ボタンの押下状態が停止されたか否かが判断される（Ｓ１０３）。つまり、ユーザが判定ボタンから指を離したか否かが判断される。

判定ボタンの押下状態が停止されていないと判断された場合（Ｓ１０３：ＮＯ）、処理がＳ１０２へ移行し、再度、音量レベルの計測が行われる。つまり、ユーザが判定ボタンを押し続けている状態であれば、常に音量レベルの計測が行われ、計測された音量レベルの値が順次、音量レベル記憶エリアに記憶される。

判定ボタンの押下状態が停止されたと判断された場合（Ｓ１０３：ＹＥＳ）、音量レベル記憶エリアに記憶された音量レベルの内で、最大値が検出される（Ｓ１０４）。次いで、Ｓ１０４で検出された音量レベルの最大値が閾値として、ＨＤＤ１０４の閾値記憶エリアに記憶される（Ｓ１０５）。そして、処理がＳ１０１へ移行する。

以上、説明したように、第五変形例では、判定ボタンが押されている間にマイク１４０から入力された音声データの音量レベルの最大値が検出される。そして、検出された最大値が閾値として設定される。これにより、ユーザは予め、自身の声の大きさに応じて閾値を設定することができる。これにより、ユーザの通常の声の大きさや、マイク１４０の性能に応じた閾値を設定することができる。

なお、第五変形例において、図１４のＳ１０４を行うＣＰＵ１０１が「最大値検出手段」として機能し、図１４のＳ１０５を行うＣＰＵ１０１が「基準値設定手段」として機能する。

１通信制御システム
２ネットワーク
１００通信制御装置
１０１ＣＰＵ
１０２ＲＯＭ
１０３ＲＡＭ
１０４ＨＤＤ
１０５カウンタ
１０６計時装置
１０９通信制御部
１４０マイク
１５０カメラ
１６０スピーカ
１７０モニタ
１７１テレビ会議画面
１７２個別領域
１７３表示テキスト
１４００顔特徴テーブル
１４０６顔特徴記憶エリア

Claims

他の通信制御装置との間でネットワークを介して音声、及び映像の通信を制御する通信制御装置であって、
音声入力部から入力された音声データの音量レベルを検出するレベル検出手段と、
前記レベル検出手段にて検出された前記音量レベルが所定の基準である音量基準値より小さいか否かを判断する第１判断手段と、
前記第１判断手段にて前記音量レベルが前記音量基準値より小さいと判断された場合、前記音声データを音声認識し、テキストデータを作成する音声認識手段と、
前記レベル検出手段にて検出された前記音量レベルが前記音量基準値より小さい状態が所定時間経過したか否かを判断する第２判断手段と、
前記第２判断手段にて前記音量レベルが前記音量基準値より小さい状態が前記所定時間経過したと判断された場合、前記音声認識手段にて作成された前記テキストデータを他の前記通信制御装置に対して送信する送信手段と
を備えたことを特徴とする通信制御装置。
他の通信制御装置との間でネットワークを介して音声、及び映像の通信を制御する通信制御装置であって、
音声入力部から入力された音声データの音量レベルを検出するレベル検出手段と、
前記レベル検出手段にて検出された前記音量レベルが所定の基準である音量基準値より小さいか否かを判断する第１判断手段と、
前記第１判断手段にて前記音量レベルが前記音量基準値より小さいと判断された場合、前記音声データを音声認識し、テキストデータを作成する音声認識手段と、
前記音声認識手段にて作成された前記テキストデータを他の前記通信制御装置に対して送信する送信手段と、
通信を行う前記通信制御装置を識別する識別情報と、当該識別情報で特定される通信制御装置にて、実施されるテレビ会議に参加する参加者の顔の特徴である第１顔特徴とが対応づけられた参加者情報を記憶する参加者情報記憶手段から、前記参加者情報を取得する参加者情報取得手段と、
通信を行う相手側の前記通信制御装置の画像入力部から入力された画像データを取得する画像取得手段と、
前記画像取得手段にて取得された前記画像データに含まれる人物の顔の特徴である第２顔特徴を抽出する顔特徴抽出手段と、
前記第２顔特徴と、前記画像データが取得された前記相手側の前記通信制御装置を識別する前記識別情報に対応した前記参加者情報の前記第１顔特徴とを照合し、前記第１顔特徴に前記第２顔特徴が全て存在するか否かを判断する第４判断手段と
を備え、
前記送信手段は、前記第４判断手段にて前記第１顔特徴に前記第２顔特徴が全て存在すると判断された場合、前記画像データを送信した前記相手側の前記通信制御装置に対して前記テキストデータを送信することを特徴とする通信制御装置。
前記第１判断手段にて前記音量レベルが前記音量基準値以上であると判断された場合にのみ、前記音声入力部から入力された前記音声データを他の前記通信制御装置に対して送信する音声データ送信手段を備えたことを特徴とする請求項１又は２に記載の通信制御装置。
前記第１判断手段にて前記音量レベルが前記音量基準値より小さいと判断された場合、前記音声認識手段による前記テキストデータの作成が可能か否かを判断する第３判断手段と、
前記第３判断手段にて前記テキストデータの作成が不可能と判断された場合、前記音声入力部から入力された前記音声データに対する増幅度を増大させる増幅手段とを備え、
前記音声認識手段は、前記増幅手段にて増幅度を増大させた前記音声データに基づいて前記テキストデータを作成することを特徴とする請求項１乃至３のいずれかに記載の通信制御装置。
前記音声レベルを検出するために指示される指示手段により指定された指定時間内に前記音声入力部から入力された音声データの音量レベルの最大値を検出する最大値検出手段と、
前記最大値検出手段にて検出された前記最大値を前記音量基準値として設定する基準値設定手段とを備えたことを特徴とする請求項１乃至４のいずれかに記載の通信制御装置。
他の通信制御装置との間でネットワークを介して音声、及び映像の通信を制御する通信制御装置によって処理される通信制御方法であって、
音声入力部から入力された音声データの音量レベルを検出するレベル検出ステップと、
前記レベル検出ステップにて検出された前記音量レベルが所定の基準である音量基準値より小さいか否かを判断する第１判断ステップと、
前記第１判断ステップにて前記音量レベルが前記音量基準値より小さいと判断された場合、前記音声データを音声認識し、テキストデータを作成する音声認識ステップと、
前記レベル検出ステップにて検出された前記音量レベルが前記音量基準値より小さい状態が所定時間経過したか否かを判断する第２判断ステップと、
前記第２判断ステップにて前記音量レベルが前記音量基準値より小さい状態が前記所定時間経過したと判断された場合、前記音声認識ステップにて作成された前記テキストデータを他の前記通信制御装置に対して送信する送信ステップとを備えたことを特徴とする通信制御方法。
請求項１乃至５のいずれかに記載の通信制御装置の各種処理手段としてコンピュータを機能させることを特徴とする通信制御プログラム。