[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP5332798B2 - 通信制御装置、通信制御方法、及び通信制御プログラム - Google Patents

通信制御装置、通信制御方法、及び通信制御プログラム Download PDF

Info

Publication number
JP5332798B2
JP5332798B2 JP2009075766A JP2009075766A JP5332798B2 JP 5332798 B2 JP5332798 B2 JP 5332798B2 JP 2009075766 A JP2009075766 A JP 2009075766A JP 2009075766 A JP2009075766 A JP 2009075766A JP 5332798 B2 JP5332798 B2 JP 5332798B2
Authority
JP
Japan
Prior art keywords
communication control
control device
voice
data
volume
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009075766A
Other languages
English (en)
Other versions
JP2010232780A (ja
Inventor
裕章 藤野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP2009075766A priority Critical patent/JP5332798B2/ja
Priority to US12/659,228 priority patent/US8521525B2/en
Publication of JP2010232780A publication Critical patent/JP2010232780A/ja
Application granted granted Critical
Publication of JP5332798B2 publication Critical patent/JP5332798B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、通信制御装置、通信制御方法、及び通信制御プログラムに関するものであり、詳細には、音声データをテキストに変換して送信することができる通信制御装置、通信制御方法、及び通信制御プログラムに関するものである。
従来、ネットワークを介して複数の端末間で通信会議を行うことができる通信制御装置が知られている。また、音声とともに映像を送受信し、複数の端末間でテレビ会議を実施できるものも知られている。その中で、過去に発言された内容を視覚的に参照できるように音声に加えてテキストデータを送信するものが知られている(例えば、特許文献1参照)。
特許文献1に記載のコミュニケーション把握装置によれば、入力された音声データに基づいて文字列を作成し、時系列的に表示することができる。これにより、過去に発言された内容を視覚的に参照することが可能となり、コミュニケーションを一層密度の濃いものにすることができ、会議を円滑、且つ効率よく行うことができる。
特開2002−344915号公報
しかしながら、話し手の声が小さいと、音声の送信先である相手側で音量を上げられる場合があった。最近は、テレビ会議専用会議室ではなく、オープンスペース等で会議を行うことも可能になってきており、この場合、例えば、話し手が相手側との間でのみ共有したい内容を意図的に小声で話しても、相手側で話し手の意図に反して音量が上げられてしまうことにより、相手側の周囲の人に聞こえてしまう可能性があった。かといって、特許文献1に記載の発明のコミュニケーション把握装置のように、常にテキストデータが送信されると通信効率が低下するという問題点があった。また、映像を送信する場合であれば、テキストデータが表示されることで相手の映像が見えにくくなるという問題点があった。
そこで、本発明は、上述した問題を解決するためになされたものであり、話し手の発話状態に応じて必要な場合にのみ音声データをテキストに変換して送信することができる通信制御装置、通信制御方法、及び通信制御プログラムを提供することを目的とする。
上記目的を達成するために、請求項1に係る発明の通信制御装置は、他の通信制御装置との間でネットワークを介して音声、及び映像の通信を制御する通信制御装置であって、音声入力部から入力された音声データの音量レベルを検出するレベル検出手段と、前記レベル検出手段にて検出された前記音量レベルが所定の基準である音量基準値より小さいか否かを判断する第1判断手段と、前記第1判断手段にて前記音量レベルが前記音量基準値より小さいと判断された場合、前記音声データを音声認識し、テキストデータを作成する音声認識手段と、前記レベル検出手段にて検出された前記音量レベルが前記音量基準値より小さい状態が所定時間経過したか否かを判断する第2判断手段と、前記第2判断手段にて前記音量レベルが前記音量基準値より小さい状態が前記所定時間経過したと判断された場合、前記音声認識手段にて作成された前記テキストデータを他の前記通信制御装置に対して送信する送信手段とを備えている。
また、請求項2に係る発明の通信制御装置は、他の通信制御装置との間でネットワークを介して音声、及び映像の通信を制御する通信制御装置であって、音声入力部から入力された音声データの音量レベルを検出するレベル検出手段と、前記レベル検出手段にて検出された前記音量レベルが所定の基準である音量基準値より小さいか否かを判断する第1判断手段と、前記第1判断手段にて前記音量レベルが前記音量基準値より小さいと判断された場合、前記音声データを音声認識し、テキストデータを作成する音声認識手段と、前記音声認識手段にて作成された前記テキストデータを他の前記通信制御装置に対して送信する送信手段と、通信を行う前記通信制御装置を識別する識別情報と、当該識別情報で特定される通信制御装置にて、実施されるテレビ会議に参加する参加者の顔の特徴である第1顔特徴とが対応づけられた参加者情報を記憶する参加者情報記憶手段から、前記参加者情報を取得する参加者情報取得手段と、通信を行う相手側の前記通信制御装置の画像入力部から入力された画像データを取得する画像取得手段と、前記画像取得手段にて取得された前記画像データに含まれる人物の顔の特徴である第2顔特徴を抽出する顔特徴抽出手段と、前記第2顔特徴と、前記画像データが取得された前記相手側の前記通信制御装置を識別する前記識別情報に対応した前記参加者情報の前記第1顔特徴とを照合し、前記第1顔特徴に前記第2顔特徴が全て存在するか否かを判断する第4判断手段とを備え、前記送信手段は、前記第4判断手段にて前記第1顔特徴に前記第2顔特徴が全て存在すると判断された場合、前記画像データを送信した前記相手側の前記通信制御装置に対して前記テキストデータを送信する。
また、請求項に係る発明の通信制御装置は、請求項1又は2に記載の発明の構成に加え、前記第1判断手段にて前記音量レベルが前記音量基準値以上であると判断された場合にのみ、前記音声入力部から入力された前記音声データを他の前記通信制御装置に対して送信する音声データ送信手段を備えている。
また、請求項4に係る発明の通信制御装置は、請求項1乃至3のいずれかに記載の発明の構成に加え、前記第1判断手段にて前記音量レベルが前記音量基準値より小さいと判断された場合、前記音声認識手段による前記テキストデータの作成が可能か否かを判断する第3判断手段と、前記第3判断手段にて前記テキストデータの作成が不可能と判断された場合、前記音声入力部から入力された前記音声データに対する増幅度を増大させる増幅手段とを備え、前記音声認識手段は、前記増幅手段にて増幅度を増大させた前記音声データに基づいて前記テキストデータを作成することを特徴とする。
また、請求項に係る発明の通信制御装置は、請求項1乃至のいずれかに記載の発明の構成に加え、前記音声レベルを検出するために指示される指示手段により指定された指定時間内に前記音声入力部から入力された音声データの音量レベルの最大値を検出する最大値検出手段と、前記最大値検出手段にて検出された前記最大値を前記音量基準値として設定する基準値設定手段とを備えている。
また、請求項に係る発明の通信制御方法は、他の通信制御装置との間でネットワークを介して音声、及び映像の通信を制御する通信制御装置によって処理される通信制御方法であって、音声入力部から入力された音声データの音量レベルを検出するレベル検出ステップと、前記レベル検出ステップにて検出された前記音量レベルが所定の基準である音量基準値より小さいか否かを判断する第1判断ステップと、前記第1判断ステップにて前記音量レベルが前記音量基準値より小さいと判断された場合、前記音声データを音声認識し、テキストデータを作成する音声認識ステップと、前記レベル検出ステップにて検出された前記音量レベルが前記音量基準値より小さい状態が所定時間経過したか否かを判断する第2判断ステップと、前記第2判断ステップにて前記音量レベルが前記音量基準値より小さい状態が前記所定時間経過したと判断された場合、前記音声認識ステップにて作成された前記テキストデータを他の前記通信制御装置に対して送信する送信ステップとを備えている。
また、請求項に係る発明の通信制御プログラムは、請求項1乃至のいずれかに記載の通信制御装置の各種処理手段としてコンピュータを機能させることを特徴とする。
請求項1及び2に係る通信制御装置では、音声入力部から入力された音声データの音量レベルが音量基準値より小さいか否かを判断する第1判断手段を備えている。そして、第1判断手段にて音声データの音量レベルが音量基準値より小さいと判断された場合、音声認識が行われることでテキストデータが作成され、他の通信制御装置に対して送信される。つまり、話し手の声が小さくて相手が聞き取りにくいと考えられる場合のみ、テキストデータが送信される。これにより、話し手の発話状態に応じて、必要な場合にのみテキストデータが送信される。例えば、話し手が意図的に小声で話している場合でも相手はテキストデータを見られるため、相手側で音量を上げられても秘密が保てなくなる可能性を低減できる。特に、話し手が発話中に声を小さくして、音量レベルが音量基準値未満になった場合、その時点からテキストデータが送信されるので、常にテキストデータが送信される場合に比べて話し手の意図を明確に相手に伝えられる。また、必要な場合のみテキストデータを送信するため、通信効率の低下も抑制できる。また、映像とともにテキストデータが表示される場合にも、相手の映像を見やすくできる。また、請求項1に係る通信制御装置は、音量レベルが音量基準値より小さい状態が所定時間経過したか否かを判断する第2判断手段を備えている。そして、第2判断手段にて音量レベルが音量基準値より小さい状態が所定時間経過したと判断された場合、音声認識手段にて作成されたテキストデータが他の通信制御装置に対して送信される。話し手が意図的に声を小さくする場合は所定時間以上その状態を維持するのが通常であるため、話し手が発言し始めて、話し手の声が一時的に小さくなった場合まで、テキストデータが送信されることを防ぐことができる。
請求項2に係る通信制御装置は、識別情報と、テレビ会議に参加する参加者の顔の特徴である第1顔特徴とが対応づけられた参加者情報を取得する参加者情報取得手段を備えている。そして、画像データを他の通信制御装置から取得し、取得した画像データに含まれる人物の第2顔特徴が抽出される。第1顔特徴に第2顔特徴が全て存在すると判断された場合、画像データを送信した相手側の通信制御装置に対してテキストデータが送信される。これにより、テキストデータを送信する相手側の通信制御装置で、テレビ会議に参加する予定のない人物がいる場合、テキストデータは送信されない。その結果、音量レベルが音声基準値より小さい場合にテキストデータが送信される条件が成立する場合であっても、相手側にテレビ会議参加予定者ではない人がそのテキストデータを見ることを防ぐことができる。
請求項に係る通信制御装置では、請求項1又は2に記載の発明の効果に加え、第1判断手段にて入力された音声データの音量レベルが音量基準値以上である場合、音声データが他の通信制御装置に対して送信される。つまり、音声データの音量レベルが音量基準値より小さい場合は、音声データは他の通信制御装置に対して送信されない。これにより、話し手が声を小さくし、音量レベルが音量基準値より小さくなった場合、相手側の通信制御装置で話し手である話し手の音声が出力されない。その結果、相手側の通信制御装置で音量が上げられることによって、相手側の周囲の人に聞こえることを防ぐことができる。
請求項4に係る通信制御装置では、請求項1乃至3のいずれかに記載の発明の効果に加え、音量レベルが音量基準値より小さいと判断された場合、音声認識手段によるテキストデータの作成が可能か否かを判断し、テキストデータの作成が不可能と判断された場合、音声認識の目的のみのために、音声データに対する増幅度を増大させる増幅手段を備えている。そして、増幅度が増大された音声データに対して音声認識が行われ、テキストデータが作成される。音声認識の目的のみのためとしているのは、増幅度が増大された音声データに対して音声基準値の判断をしないとの意図である。これにより、話し手が声を小さくして発言した場合であっても、音声認識によるテキスト化が行われる可能性が高くなる。
請求項に係る通信制御装置では、請求項1乃至のいずれかに記載の発明の効果に加え、意図的に小さい声で話している、指示手段にて指定された指定時間内に音声入力部から入力された音声データの音量レベルの最大値を検出する最大値検出手段を備えている。そして、最大値検出手段にて検出された最大値を音量基準値として設定することができる。これにより、話し手の通常の声の大きさや、音声入力部の性能に応じた音量基準値を設定することができる。
請求項に係る通信制御方法では、音声入力部から入力された音声データの音量レベルが音量基準値より小さいか否かを判断する第1判断ステップを備えている。そして、第1判断ステップにて音声データが音量基準値より小さいと判断された場合、音声認識が行われることでテキストデータが作成され、他の通信制御装置に対してテキストデータが送信される。つまり、話し手の声が小さくて相手が聞き取りにくいと考えられる場合のみ、テキストデータが送信される。これにより、話し手の発話状態に応じて、必要な場合にのみテキストデータが送信される。例えば、話し手が意図的に小声で話している場合でも相手はテキストデータを見られるため、相手側で音量を上げられても秘密が保てなくなる可能性を低減できる。特に、話し手が発話中に声を小さくして、音量レベルが音量基準値未満になった場合、その時点からテキストデータが送信されるので、常にテキストデータが送信される場合に比べて話し手の意図を明確に相手に伝えられる。また、必要な場合のみテキストデータを送信するため、通信効率の低下も抑制できる。また、映像とともにテキストデータが表示される場合にも、相手の映像を見やすくできる。また、話し手が意図的に声を小さくする場合は所定時間以上その状態を維持するのが通常であるため、話し手が発言し始めて、話し手の声が一時的に小さくなった場合まで、テキストデータが送信されることを防ぐことができる。
請求項に係る通信制御プログラムでは、請求項1乃至のいずれかに記載の通信制御装置の各種処理手段としてコンピュータを機能させる。従って、通信制御プログラムをコンピュータに実行させることにより、請求項1乃至のいずれかに記載の発明の効果を奏することができる。
通信制御システム1の接続形態の一例を示す図である。 通信制御装置100の電気的構成を示すブロック図である。 通信制御装置100のHDD104の記憶エリアの構成を示す模式図である。 モニタ170に表示されるテレビ会議画面171の一具体例を示す図である。 通信制御装置100で実行されるメイン処理のフローチャートである。 モニタ170に表示されるテレビ会議画面171の一具体例を示す図である。 第一変形例のメイン処理のフローチャートである。 第二変形例のメイン処理のフローチャートである。 第三変形例のメイン処理のフローチャートである。 第四変形例の通信制御装置100のHDD104の記憶エリアの構成を示す模式図である。 顔特徴テーブル1400の構成を示す模式図である。 第四変形例のメイン処理のフローチャートである。 第四変形例のメイン処理から実行される認識判断処理のサブルーチンのフローチャートである。 第五変形例の閾値登録処理のサブルーチンのフローチャートである。
以下、本発明の一実施の形態である通信制御システム1について、図面を参照して説明をする。まず、図1を参照して通信制御システム1の概要について説明する。
図1に示すように、通信制御システム1はネットワーク2を介して接続された複数の通信制御装置100で構成されている。この通信制御システム1では、ネットワーク2を介して通信制御装置100間で画像データ、及び音声データが互いに送受信されることでテレビ会議が実施される。図1では、通信制御装置100が2つ図示されているが、本発明では、ネットワーク2を介して2つ以上の通信制御装置100でテレビ会議が実施できればよく、通信制御装置100は2つ以上であればよい。通信制御装置100は、例えば、ある企業の同一サイト内に複数存在してもよいし、異なる事業所内や、異なる地域や国に点在して存在していてもよい。なお、通信制御装置100は、例えば、周知のパーソナルコンピュータであり、汎用型の装置である。
次に、図2のブロック図を参照して、通信制御装置100の電気的構成について説明する。図2に示すように、通信制御装置100は、通信制御装置100の制御を司るCPU101を備えている。そして、このCPU101には、ROM102、RAM103、ハードディスクドライブ(HDD)104、カウンタ105、計時装置106、入出力制御部107、及び通信制御部108が、バス111を介して接続されている。
ROM102には、CPU101が実行するBIOSを起動させるプログラムや設定値が記憶されている。RAM103には、各種のデータが一時的に記憶される。HDD104には、通信制御装置100で実行される各種のプログラム等が記憶される。カウンタ105は、タイマとして機能し、時間を計測する。計時装置106は、内部時計として時間を計時する。
入出力制御部107には、ユーザが操作の入力を行うためのキーボード120、マウス130、ユーザの発話による音声を取得するマイク140、及びテレビ会議で使用するための画像を取得するカメラ150が接続されている。また、入出力制御部107には、テレビ会議が実施されている時に、他の通信制御装置100から送信された音声データを出力するスピーカ160、及び他の通信制御装置100から送信された画像データを表示するモニタ170が接続されている。通信制御部108は、ネットワーク2を介して他の通信制御装置100との間でのデータの送受信を制御する。
次に、図3を参照して、HDD104の各種記憶エリアについて説明する。記憶装置であるHDD104には、図3に示すように、複数の記憶エリアが設けられている。複数の記憶エリアには、例えば、音響モデル記憶エリア1401、言語モデル記憶エリア1402、単語辞書記憶エリア1403、プログラム記憶エリア1404、及びプログラム関係情報記憶エリア1405が含まれている。
音響モデル記憶エリア1401には、音声認識処理で使用される周知の音響モデルが記憶されている。なお、詳細な説明は省略するが、音響モデルは、音声の音響的特徴(例えば、メルケプストラム)を統計的にモデル化したもので、例えば、母音、子音のそれぞれについて、特徴量と対応する音素とで表現されている。
言語モデル記憶エリア1402には、音声認識処理で使用される言語モデルが記憶されている。言語モデルは、単語のつながり、すなわち単語間の結びつきに関する制約を定義するものである。代表的な言語モデルとして、例えば、単語間の結びつきを文法(グラマー)で記述する記述文法モデルと、単語間の結びつきを確率で定義する統計モデルがある。
統計モデルの代表的な例として、単語N−gramモデルがある。単語N−gramモデルとは、単語列P(w・・・w)のi番目の単語wの生起は、直前の(N−1)単語に依存するという仮説に基づくモデルである。単語N−gramモデルを例とする統計モデルを用いた音声認識処理では、認識結果である単語列と、その生起確率とが出力される。なお、本実施の形態では、言語モデルとして統計モデルを採用するものとするが、必ずしも統計モデルを使用する必要はなく、記述文法モデルを使用してもよい。
単語辞書記憶エリア1403には、音声認識処理に使用される単語辞書(図示外)が記憶されている。単語辞書は、複数の単語と、各単語の発音に関する情報(例えば、音素列)との対応を記述するものである。
プログラム記憶エリア1404には、例えば、後述する各種処理に使用されるプログラムを含む、通信制御装置100の各種動作を制御するためのプログラムが複数記憶されている。なお、これらのプログラムは、例えばCD−ROMに記憶されたものがCD−ROMドライブ(図示外)を介してインストールされ、プログラム記憶エリア1404に記憶される。または、インターネット等に接続し、ネットワーク2を介してダウンロードされたプログラムが記憶されてもよい。図示はされていないが、HDD104には、その他、各種処理で使用される設定値等も記憶されている。プログラム関係情報記憶エリア1405には、プログラムの実行に必要な設定や初期値、データ等の情報が記憶される。
次に、図4を参照して、通信制御装置100のモニタ170に表示されるテレビ会議画面171について説明する。
テレビ会議が実施されると各通信制御装置100のモニタ170には、図4に示すように、テレビ会議画面171が表示される。このテレビ会議画面171には、各通信制御装置100のカメラ150で撮影された画像データ(以下、「カメラ画像」という)が表示される個別領域172が、通信制御装置100毎に設けられている。例えば、図4に示すテレビ会議画面171では、「端末A」で特定される通信制御装置100に対応する個別領域172が画面左側に設けられている。また、「端末B」で特定される通信制御装置100に対応する個別領域172が画面右側に設けられているものとする。
なお、通信制御装置100は、通信制御システム1に接続されている他の通信制御装置100からカメラ画像を受信する。そして、カメラ画像を送信した通信制御装置100に対応した個別領域172に、受信したカメラ画像が合成されて表示される。また、自身のカメラ150で撮影されたカメラ画像が、他の通信制御装置100に対して送信される。
次いで、図5を参照して、通信制御装置100で実行されるメイン処理について説明する。ここで、図5のメイン処理は、通信制御装置100においてテレビ会議を実行するプログラムが起動された際にCPU101により実行される処理である。なお、通信制御装置100の電源がOFFになった際には、メイン処理は自動的に終了するものとする。また、テレビ会議で行われる他の処理に関しては、他のプロセスで実行されているものとする。ここで、カメラ150から取得されたカメラ画像、マイク140から取得された音声は、それぞれが取得されたタイミングで他の通信制御装置100に対して送信されるものとする。
メイン処理が実行されると、話し手の発話が検出されたか否かが判断される(S11)。この判断処理は、マイク140から取得した音声データに話し手の発話による音声データが含まれているか否かで判断される。具体的には、取得された音声データの周波数が所定の周波数領域にあるか否かが判断される。ここで、一例として、所定の周波数領域は、日本語音声の周波数領域である80Hz〜1500Hzとする。
話し手の発話が検出されていないと判断された場合(S11:NO)、つまり、所定の周波数領域の音声データが検出されていない場合、処理がS11へ移行する。そして、再度、話し手の発話が検出される処理が行われる。
話し手の発話が検出されたと判断された場合(S11:YES)、つまり、所定の周波数領域の音声データが検出された場合、取得された音声データの音量レベルが検出される(S12)。つまり、マイク140から取得した話し手の声の大きさが検出される。次いで、音量レベルが閾値より小さいか否かが判断される(S13)。この閾値は、予めHDD104の閾値記憶エリア(図示外)に記憶された値である。ここで、一例として、閾値は、30デシベル(dB)とする。
音量レベルが、閾値である30dB以上である場合(S13:NO)、処理がS11へ移行する。そして、再度、話し手の発話が検出される処理が行われる。
また、音量レベルが、閾値である30dBより小さい場合(S13:YES)、音声データに基づいて音声認識によるテキスト化が行われる(S14)。
具体的には、まず、音声認識に使用される音響モデル、言語モデルおよび単語辞書が、HDD104(図3参照)の音響モデル記憶エリア1401、言語モデル記憶エリア1402、および単語辞書記憶エリア1403からそれぞれ読み出される。
音響モデル、言語モデル、および単語辞書を用いて、音声認識が行われる(S14)。音声認識の方法には周知のいかなる方法を採用してもよい。例えば、次のような方法を採用することができる。まず、単語辞書を参照して音響モデルが接続されることにより、単語の音響モデルが生成される。そして、言語モデルを参照して、複数の単語の音響モデルが接続される。接続された単語の音響モデルの特徴量に基づき、連続分布HMM法によって、ステップS11で取得された音声データの認識処理が行われる。その結果、接続された単語の音響モデルのうち、生起確率が最も高いものに対応する単語列が、認識結果として生起確率とともに出力される。ここで、生起確率が一定値未満であれば、音声認識が失敗したことを意味している。また、生起確率が一定値以上であれば、得られた認識結果は、RAM103の所定の記憶エリアに記憶される。
音声認識による音声テキスト化が行われると(S14)、音声テキスト化が成功したか否かが判断される(S15)。つまり、音声テキスト化が行われ、認識結果が所定の記憶エリアに記憶されているか否かで判断される。
音声認識による音声テキスト化が成功していないと判断された場合(S15:NO)、つまり、音声テキスト化が行われ、認識結果が所定の記憶エリアに記憶されていない場合、処理がS11へ移行する。そして、再度、話し手の発話が検出される処理が行われる。
また、音声認識による音声テキスト化が成功したと判断された場合(S15:YES)、つまり、音声テキスト化が行われ、認識結果が所定の記憶エリアに記憶されている場合、S14でRAM103の所定の記憶エリアに記憶された認識結果であるテキストデータが他の通信制御装置100に対して送信される(S16)。そして、処理がS11へ移行し、再度、話し手の発話が検出される処理が行われる。また、テキストデータが送信された他の通信制御装置100においては、テキストデータが受信されると、テキストデータは図6に示すように送信元の通信制御装置100に対応する個別領域172に表示テキスト173として表示される。なお、図6は、音声認識によるテキストデータが「端末A」で特定される通信制御装置100から「端末B」で特定される通信制御装置100に対して送信され、「端末B」で特定される通信制御装置100でテキストデータが表示テキスト173として表示された状態である。
以上、説明したように、本実施の形態では、テレビ会議において話し手からの発話の音量レベルが取得される。そして、音量レベルが閾値より小さい場合、通信制御装置100により音声認識が行われ、テキストデータが他の通信制御装置100に対して送信される。テキストデータを受信した通信制御装置100では、送信元の通信制御装置100に対応する個別領域172に、表示テキスト173が表示される。これにより、話し手の声が小さくて相手が聞き取りにくいと考えられる場合のみ、テキストデータが送信される。つまり、話し手の発話状態に応じて、必要な場合にのみテキストデータが送信される。例えば、話し手が意図的に小声で話している場合でも相手はテキストデータを見られるため、相手側で音量を上げられても秘密が保てなくなる可能性を低減できる。特に、話し手が発話中に声を小さくして、音量レベルが閾値未満になった場合、その時点からテキストデータが送信されるので、常にテキストデータが送信される場合に比べて話し手の意図を明確に相手に伝えられる。また、必要な場合のみテキストデータを送信するため、通信効率の低下も抑制できる。また、映像とともにテキストデータが表示される場合にも、相手の映像を見やすくできる。
なお、本実施の形態において、マイク140が「音声入力部」に相当し、閾値が「音量基準値」に相当する。図5のS12を行うCPU101が「レベル検出手段」として機能し、図5のS12を行うCPU101の処理が「レベル検出ステップ」に相当する。図5のS13を行うCPU101が「第1判断手段」として機能し、図5のS13を行うCPU101の処理が「第1判断ステップ」に相当する。図5のS14を行うCPU101が「音声認識手段」として機能し、図5のS14を行うCPU101の処理が「音声認識ステップ」に相当する。図5のS16のCPU101が「送信手段」として機能し、図5のS16のCPU101の処理が「送信ステップ」に相当する。
なお、本発明は、上述した実施の形態に限定されるものではなく、本発明の要旨を脱しない範囲内において種々の変更が可能であることは無論である。以下に、変形例について説明する。
上述した実施の形態では、テキストデータが送信された側の通信制御装置100のテレビ会議画面171にしかテキストデータが表示されないが、これに限定しない。例えば、テキストデータを送信した側の通信制御装置100のテレビ会議画面171にもテキストデータが表示されるようにしてもよい。これにより、テキストデータを送信した通信制御装置100、テキストデータを送信された通信制御装置100の双方で、テキストデータの確認が可能となる。
上述した実施の形態では、マイク140より取得した音声データは、メイン処理(図5参照)以外の他の処理により、常にテレビ会議で通信を行う他の通信制御装置100に対して送信されるが、これに限定しない。例えば、テキストデータを他の通信制御装置100に対して送信する場合、音声データを送信しないようにしてもよい。これについて、図7を参照して、第一変形例における通信制御装置100のメイン処理について説明する。なお、第一変形例の通信制御装置100の電気的構成については、上述した実施の形態の電気的構成と同様のため図示、及びその説明を省略する。なお、マイク140から取得された音声データは、図7のメイン処理以外からは送信されないものとする。また、図7のS21、S22、S24、及びS26は、上述した実施の形態のメイン処理(図6参照)のS11、S12、S14、及びS16と同様の処理のため、その説明を省略する。
図7に示す第一変形例のメイン処理が開始され、S22の処理において音声データの音量レベルが検出されると、音量レベルが閾値より小さいか否かが判断される(S23)。ここで、閾値は上述した実施の形態と同様の30dBとする。
音量レベルが、閾値である30dB以上である場合(S23:NO)、S21で検出された音声データが他の通信制御装置100に対して送信される(S27)。そして、処理がS21へ移行する。
また、音量レベルが、閾値である30dBより小さい場合(S23:YES)、音声認識によるテキストが行われる(S24)。そして、音声認識による音声テキスト化が成功したか否かが判断される(S25)。音声認識による音声テキスト化が成功したと判断された場合(S25:YES)、テキストデータが他の通信制御装置100に対して送信される(S26)。そして、処理がS21へ移行する。
また、音声認識による音声テキスト化が成功していないと判断された場合(S25:NO)、S21で検出された音声データが他の通信制御装置100に対して送信される(S27)。そして、処理がS21へ移行する。
以上、説明したように、第一変形例では、テキストデータが他の通信制御装置100に対して送信されなかった場合のみ音声データが送信される。つまり、音声データの音量レベルが閾値より小さい場合は、音声データは他の通信制御装置100に対して送信されない。これにより、話し手が声を小さくし、音量レベルが閾値より小さくなった場合、相手側の通信制御装置100で話し手の音声が出力されない。その結果、相手側の通信制御装置100で音量が上げられて相手側の周囲の人に聞こえることを防ぐことができる。
なお、第一変形例において、図7のS27の処理を行うCPU101が「音声データ送信手段」として機能する。
また、上述した実施の形態では、音量レベルが閾値より小さいと判断された場合(S13:YES)、音声データに基づいて音声認識によるテキスト化が行われるが(S14)、これに限定しない。例えば、音量レベルが閾値より小さい状態が所定時間であるT1時間以上であれば、音声データに基づいて音声認識によるテキスト化を行うようにしてもよい。これについては、図8を参照して、第二変形例における通信制御装置100の処理について説明する。なお、第二変形例の通信制御装置100の電気的構成については、上述した実施の形態の電気的構成と同様のため図示、及びその説明を省略する。ここで、T1時間は、テレビ会議に参加する話し手の発話が、小声であると認識できる十分な時間であればよく、一例として、1秒とする。
図8に示す第二変形例のメイン処理が実行されると、話し手の発話が検出されたか否かが判断される(S51)。このS51の処理は上述した実施の形態のS11と同様の判断処理であるため、その詳細についての説明は省略する。話し手の発話が検出されなければ(S51:NO)、S51の処理が繰り返し行われる。
話し手の発話が検出されたと判断された場合(S51:YES)、取得した音声データの音量レベルが検出され(S52)、音量レベルが閾値より小さいか否かが判断される(S53)。このS52、及びS53の処理は上述した実施の形態のS12、及びS13と同様の判断処理であるため、その詳細についての説明は省略する。
音量レベルが閾値より小さい場合(S53:YES)、音量レベルが閾値より小さい状態が検出されてからのカウントが開始される(S54)。このカウント処理は、タイマカウンタである第1カウンタを用いて行われる。この第1カウンタはCPU101に接続された計時装置106からの信号に基づいてカウントアップされる。なお、第1カウンタが停止している時は、S54の処理でカウンタによる計測が開始され、第1カウンタが計測中の場合は、計測が継続される。
そして、話し手による発話の音声データの音量レベルが閾値より小さい状態が、T1時間以上か否かが判断される(S55)。つまり、第1カウンタの計測値であるカウント値がT1時間以上か否かが判断される。話し手による発話の音声データの音量レベルが閾値より小さい状態が、T1時間以上経過していない場合、つまり、第1カウンタのカウント値がT1時間以上、経過していないと判断された場合(S55:NO)、処理がS51へ移行する。
また、音量レベルが閾値以上である場合(S53:NO)、第1カウンタが停止され、0に初期化される(S56)。そして、処理がS51へ移行する。
話し手による発話の音声データの音量レベルが閾値より小さい状態が、T1時間以上経過した場合(S55:YES)、つまり、第1カウンタのカウント値がT1時間以上、経過したと判断された場合、第1カウンタが停止され、0に初期化される(S57)。次いで、音声データに基づいて音声認識によるテキスト化が行われる(S58)。ここでは、音声認識によるテキスト化が行われる音声データはS54で第1カウンタの計測が開始されてから、音声データの音量レベルが閾値より小さい状態がT1時間以上経過するまでに取得された音声データである。ここで、S58〜S60の処理は上述した実施の形態のS14〜S16と同様の処理であるため、その詳細についての説明は省略する。また、音声テキスト化に成功したと判断されなかった場合(S59:NO)、処理がS51へ移行する。
音声テキスト化に成功したと判断された場合(S59:YES)、テキストデータが他の通信制御装置100に対して送信される(S60)。そして、話し手の発話が検出されたか否かの判断が行われる(S61)。このS61の処理は、S51の処理と同様のため詳細の説明は省略する。
話し手の発話が検出されていないと判断された場合(S61:NO)、話し手の発話が検出されていない時間の計測が開始される(S63)。この計測処理は、タイマカウンタである第2カウンタを用いて行われる。この第2カウンタはCPU101に接続された計時装置106からの信号に基づいてカウントアップされる。なお、第2カウンタが停止している時は、S63の処理でカウンタによる計測が開始され、第2カウンタが計測中の場合は、計測が継続される。
次いで、無音時間がT2時間を経過したか否かが判断される(S64)。ここで、無音時間とは、話し手からの発話による音声データが検出されていない時間であり、第2カウンタにより計測されている時間である。T2時間は、話し手の発話の終了を認識できる間隔の時間であればよく、一例として3秒とする。
S63において第2カウンタによる無音時間の計測が開始された直後は、無音時間はT2時間以上になっていないため(S64:NO)、処理がS61へ移行し、再度、話し手の発話が検出されたか否かの判断が行われる。
また、話し手の発話が検出されずに無音時間がT2時間以上になったと判断された場合(S64:YES)、つまり、第2カウンタの計測値がT2時間以上になった場合、第2カウンタが停止され、0に初期化される(S65)。そして、処理がS51へ移行する。
また、第2カウンタによる無音時間の計測中に、話し手からの発話が検出された場合(S61:YES)、つまり、無音時間がT2時間を経過するまでに話し手の発話が検出された場合、第2カウンタが停止され、0に初期化される(S62)。そして、処理がS58へ移行し、音声のテキスト化が行われる。ここでは、S63で第2カウンタの計測が開始されてから、第2カウンタの計測値がT2時間を経過するまでに検出された音声データのテキスト化が行われる。
以上、説明したように、第二変形例では、音量レベルが閾値より小さい状態がT1時間経過したか否かが判断される。そして、音量レベルが閾値より小さい状態がT1時間経過したと判断された場合、音声認識で作成されたテキストデータが他の通信制御装置100に対して送信される。話し手が意図的に声を小さくする場合は一定時間以上その状態を維持するのが通常であり、話し手が発言し始めて、話し手の声が一時的に小さくなった場合までテキストデータが送信されることを防ぐことができる。
なお、第二変形例において、図8のS55を行うCPU101が「第2判断手段」として機能し、図8のS55を行うCPU101の処理が「第2判断ステップ」に相当する。図8のS60を行うCPU101が「送信手段」として機能し、図8のS60を行うCPU101の処理が「送信ステップ」に相当する。

また、上述した実施の形態では、音声テキスト化が成功していないと判断された場合(S15:NO)、処理がS11へ移行する。そして、再度、話し手の発話が検出される処理が行われるがこれに限定しない。例えば、音声テキスト化が失敗した場合、音声データの信号を増幅させて、再度、音声認識によるテキスト化が行われるようにしてもよい。これについては、図9を参照して、第三変形例における通信制御装置100のメイン処理について説明する。なお、第三変形例の通信制御装置100の電気的構成については、上述した実施の形態の電気的構成と同様のため図示、及びその説明を省略する。また、図9のメイン処理において、S71〜S74の処理は、図5のS11〜S14の処理と同様のため、その説明を省略する。
図9に示す第三変形例のメイン処理で、音声テキスト化が成功していないと判断された場合(S75:NO)、つまり、音声テキスト化が行われ、得られた生起確率の値が一定値未満の場合、音声データの信号が増幅される(S77)。つまり、マイク140から取得した音声データの信号が増幅される。そして、再度、信号が増幅された音声データに基づいて音声認識によるテキスト化が行われる(S74)。そして、処理がS75へ移行し、信号が増幅された音声データに対しての音声テキスト化が成功したか否かが判断される。つまり、S75において、音声テキスト化に成功するまで、S77、及びS74の処理が行われる。
音声テキスト化に成功したと判断された場合(S75:YES)、S74でRAM103の所定の記憶エリアに記憶された認識結果であるテキストデータが他の通信制御装置100に対して送信される(S76)。そして、処理がS71へ移行する。
以上、説明したように、第三変形例では、音量レベルが閾値より小さいと判断された場合、音声認識手段によるテキストデータの作成が可能か否かを判断し、テキストデータの作成が不可能と判断された場合、音声認識の目的のみのために、音声データの信号が増幅される。音声認識の目的のみのためとしているのは、増幅度が増大された音声データに対して閾値との判断をしないとの意図である。そして、音声レベルが上げられた音声データに対して音声認識が行われ、テキストデータが作成される。これにより、話し手が声を小さくして発言した場合であっても、音声認識によるテキスト化が行われる可能性が高くなる。
なお、第三変形例において、図9のS75の処理を行うCPU101が「第3判断手段」として機能し、図9のS77の処理を行うCPU101が「増幅手段」として機能する。
また、上述した第三変形例では、音声認識によるテキスト化が成功しなければ、S77、及びS74の処理が繰り返されるが、これに限定しない。例えば、所定回数、テキスト化が成功しなければ、処理がS71へ移行し、再度、話し手の発話が検出される処理が行われるようにしてもよい。
また、上述した実施の形態では、音声テキスト化が成功したと判断された場合(S15:YES)、取得したテキストデータが他の通信制御装置100に対して必ず送信されるが、これに限定しない。例えば、通信制御装置100毎に予めテレビ会議に参加するユーザを登録しておき、他の通信制御装置100で登録されていない人物が、他の通信制御装置100のカメラ150に映っていれば、音声認識によるテキストデータが他の通信制御装置100に対して送信されないようにしてもよい。これについては、図10〜図13を参照して、第四変形例における通信制御装置100の処理について説明する。なお、第四変形例の通信制御装置100の電気的構成については、上述した実施の形態の電気的構成と同様のため図示、及びその説明を省略する。
まず、図10を参照して、通信制御装置100のHDD104の構成について説明する。記憶装置であるHDD104には、図10に示すように、複数の記憶エリアが設けられている。第四変形例では、上述した実施の形態の複数の記憶エリアに加えて、顔特徴テーブル1400(図11参照)を記憶した顔特徴記憶エリア1406を含んでいる。
次に、図11を参照して、顔特徴テーブル1400について説明する。顔特徴テーブル1400は、通信制御システム1において通信が行われる通信制御装置100を特定する情報(以下、「端末ID」という)毎に、複数の人物の顔の特徴を示すデータである顔特徴データと、その人物に関する情報である関連情報とが対応付けて記憶されている。図11に示すように、顔特徴テーブル1400には、例えば、端末ID欄、ユーザID欄、顔特徴データ欄、及び氏名欄が設けられている。なお、この顔特徴テーブル1400は、テレビ会議が実施される前に、予め、各通信制御装置100に記憶されているものとする。
端末ID欄には、通信制御システム1において通信が行われる通信制御装置100の端末IDが記憶される。ユーザID欄にはテレビ会議に参加する参加者を識別する情報であるユーザIDが記憶されている。顔特徴データ欄には、顔特徴データとして、例えば、眉、目、鼻、口等の位置や形状を示す数値データが記憶されている。なお、第四変形例では、目、鼻、口に対応する特徴点のデータが、顔特徴データとして採用されているものとする。氏名欄には、顔特徴データの抽出元の人物(以下、「登録者」という)の氏名が記憶される。
次に、図12を参照して、第四変形例における通信制御装置100のメイン処理について説明する。図12の通信制御装置100のメイン処理は、通信制御装置100においてテレビ会議を実行するプログラムが起動された際にCPU101により実行される処理である。なお、図9のメイン処理において、S81〜S85の処理は、図5のS11〜S15の処理と同様のため、その説明を省略する。
また、第四変形例では、他の通信制御装置100のカメラ150により撮影されたカメラ画像が、所定時間毎に送信され、メイン処理以外の他の処理で受信する。そして、受信されたカメラ画像はRAM103のカメラ画像記憶エリア(図示外)に記憶される。そして、所定時間毎にカメラ画像は更新されるものとする。
図12に示す第四変形例のメイン処理が実行され、音声認識によるテキスト化が成功されたと判断された場合(S85:YES)、認識判断処理が行われる(S86)。
次いで、図13を参照して、認識判断処理について説明する。認識判断処理が実行されると、カメラ画像が取得される(S91)。このカメラ画像はRAM103のカメラ画像記憶エリア(図示外)に記憶されている他の通信制御装置100から送信された画像データである。なお、カメラ画像は、カメラ画像を送信した通信制御装置100の端末IDに対応づけられて記憶される。
そして、カメラ画像において、顔の特徴点が抽出可能か否かが判断される(S92)。ここでは、目、鼻、口に対応する特徴点がすべて抽出可能な場合にのみ、顔の特徴点が抽出可能であると判断される(S92:YES)。顔の特徴点を抽出する際、まず、カメラ画像に含まれる人物の顔領域が検出される。顔領域の検出には、例えば、予め記憶した顔のパターンとのマッチングを行う方法や、肌色領域を検出する方法を採用することができるが、他のいかなる公知の方法を採用してもよい。そして、顔領域から、顔の特徴点である目、鼻、口の特徴点が抽出され、これらの位置や形状を示す数値データが参加者の顔特徴データとして抽出される(S93)。
そして、HDD104の顔特徴記憶エリア1406に記憶された顔特徴テーブル1400から登録者の顔特徴データが順に読み出され、カメラ画像に含まれている全ての人物の顔特徴データと照合される(S94)。その際、カメラ画像記憶エリアに記憶されたカメラ画像に対応した端末IDと同一である端末IDに対応した顔特徴データが取得される。照合の結果、カメラ画像に含まれている全ての人物の顔特徴データの内で、登録者と一致しない人物が含まれていると判断された場合には(S95:NO)、RAM103の認識フラグ記憶エリアに記憶された認識フラグに0が設定される(S97)。そして認識判断処理は終了して、図12に示すメイン処理に戻る。
一方、照合の結果、カメラ画像に含まれている全ての人物の顔特徴データの内で、登録者と一致しない人物が含まれていない判断された場合には(S95:YES)、RAM103の認識フラグ記憶エリアに記憶された認識フラグに1が設定される(S96)。そして認識判断処理は終了して、処理が図12に示すメイン処理に戻る。
また、ステップS92において、顔領域から目、鼻、口の特徴点のうち少なくとも1つが抽出できなかったと判断された場合には(S92:NO)、処理がS97へ移行し、認識フラグに0が設定される。そして認識判断処理は終了して、処理が図12に示すメイン処理に戻る。
認識判断処理が終了すると、図12に示すメイン処理に戻り、他の通信制御装置100で撮影されたカメラ画像に含まれている全ての人物の内で、登録者と一致しない人物が映っているか否かが判断される(S87)。この判断処理は、認識判定処理においてRAM103の認識フラグ記憶エリア(図示外)に記憶された認識フラグの値により判断される。
他の通信制御装置100で撮影されたカメラ画像に含まれている全ての人物の内で、登録者と一致しない人物が映っていないと判断された場合(S87:NO)、つまり、RAM103に記憶された認識フラグの値が1の場合、テキストデータが他の通信制御装置100に対して送信される(S88)。そして、処理がS81へ移行し、再度、話し手の発話が検出される処理が行われる。なお、このテキストデータは、S84でRAM103の所定の記憶エリアに記憶された認識結果のデータである。
また、他の通信制御装置100で撮影されたカメラ画像に含まれている全ての人物の内で、登録者と一致しない人物が映っていると判断された場合(S87:YES)、つまり、RAM103に記憶された認識フラグの値が0の場合、処理がS81へ移行し、再度、話し手の発話が検出される処理が行われる。つまり、テキストデータが他の通信制御装置100に対して送信されず、処理がS81へ移行する。
以上、説明したように、第四変形例では、端末IDと、テレビ会議に参加する参加者の顔の特徴である顔特徴データとが対応づけられた情報が、顔特徴記憶エリア1406に記憶されている顔特徴テーブル1400から取得される。そして、カメラ画像を他の通信制御装置100から取得し、取得されたカメラ画像に含まれる人物の顔特徴データが抽出される。顔特徴テーブル1400に記憶された顔特徴データに、カメラ画像から抽出された顔特徴データが全て存在すると判断された場合、カメラ画像を送信した相手側の通信制御装置100に対してテキストデータが送信される。これにより、テキストデータを送信する相手側の通信制御装置100で、テレビ会議に参加する予定のない人物が映っている場合、テキストデータは送信されない。その結果、音量レベルが音声基準値より小さい場合にテキストデータが送信される条件が成立する場合であっても、相手側にいるテレビ会議の参加予定者ではない人がそのテキストデータを見ることを防ぐことができる。
なお、第四変形例において、HDD104の顔特徴記憶エリア1406が「参加者情報記憶手段」に相当し、カメラ150が「画像入力部」に相当する。図13のS91を行うCPU101が「画像取得手段」として機能し、図13のS93を行うCPU101が「顔特徴抽出手段」として機能する。図13のS94を行うCPU101が「参加者情報取得手段」として機能し、図13のS95を行うCPU101が「第4判断手段」として機能する。図12のS88を行うCPU101が「送信手段」として機能する。
上述した実施の形態では、S13のステップの判定に使用する閾値は、予め固定されている値を使用しているが、これに限定しない。たとえば、通信制御装置100のユーザが登録できるようにしてもよい。これについては、図14を参照して、第五変形例における通信制御装置100の閾値登録処理について説明する。なお、図14の閾値登録処理は、メイン処理(図5参照)とは別のプロセスで実行されている。他の処理については、上述した実施の形態と同様のため、その説明は省略する。
閾値登録処理が実行されると、判定ボタン(図示外)が押下されたか否かが判断される(S101)。この判定ボタンは、キーボード120に割り当てられたボタンである。判定ボタンが押下されていないと判断された場合(S101:NO)、処理がS101へ移行する。
判定ボタンが押下されたと判断された場合(S101:YES)、ユーザからマイク140を介して入力された音声データの音量レベルが計測される(S102)。この音量レベルは、RAM103の音量レベル記憶エリア(図示外)に記憶される。次いで、判定ボタンの押下状態が停止されたか否かが判断される(S103)。つまり、ユーザが判定ボタンから指を離したか否かが判断される。
判定ボタンの押下状態が停止されていないと判断された場合(S103:NO)、処理がS102へ移行し、再度、音量レベルの計測が行われる。つまり、ユーザが判定ボタンを押し続けている状態であれば、常に音量レベルの計測が行われ、計測された音量レベルの値が順次、音量レベル記憶エリアに記憶される。
判定ボタンの押下状態が停止されたと判断された場合(S103:YES)、音量レベル記憶エリアに記憶された音量レベルの内で、最大値が検出される(S104)。次いで、S104で検出された音量レベルの最大値が閾値として、HDD104の閾値記憶エリアに記憶される(S105)。そして、処理がS101へ移行する。
以上、説明したように、第五変形例では、判定ボタンが押されている間にマイク140から入力された音声データの音量レベルの最大値が検出される。そして、検出された最大値が閾値として設定される。これにより、ユーザは予め、自身の声の大きさに応じて閾値を設定することができる。これにより、ユーザの通常の声の大きさや、マイク140の性能に応じた閾値を設定することができる。
なお、第五変形例において、図14のS104を行うCPU101が「最大値検出手段」として機能し、図14のS105を行うCPU101が「基準値設定手段」として機能する。
1 通信制御システム
2 ネットワーク
100 通信制御装置
101 CPU
102 ROM
103 RAM
104 HDD
105 カウンタ
106 計時装置
109 通信制御部
140 マイク
150 カメラ
160 スピーカ
170 モニタ
171 テレビ会議画面
172 個別領域
173 表示テキスト
1400 顔特徴テーブル
1406 顔特徴記憶エリア

Claims (7)

  1. 他の通信制御装置との間でネットワークを介して音声、及び映像の通信を制御する通信制御装置であって、
    音声入力部から入力された音声データの音量レベルを検出するレベル検出手段と、
    前記レベル検出手段にて検出された前記音量レベルが所定の基準である音量基準値より小さいか否かを判断する第1判断手段と、
    前記第1判断手段にて前記音量レベルが前記音量基準値より小さいと判断された場合、前記音声データを音声認識し、テキストデータを作成する音声認識手段と、
    前記レベル検出手段にて検出された前記音量レベルが前記音量基準値より小さい状態が所定時間経過したか否かを判断する第2判断手段と、
    前記第2判断手段にて前記音量レベルが前記音量基準値より小さい状態が前記所定時間経過したと判断された場合、前記音声認識手段にて作成された前記テキストデータを他の前記通信制御装置に対して送信する送信手段と
    を備えたことを特徴とする通信制御装置。
  2. 他の通信制御装置との間でネットワークを介して音声、及び映像の通信を制御する通信制御装置であって、
    音声入力部から入力された音声データの音量レベルを検出するレベル検出手段と、
    前記レベル検出手段にて検出された前記音量レベルが所定の基準である音量基準値より小さいか否かを判断する第1判断手段と、
    前記第1判断手段にて前記音量レベルが前記音量基準値より小さいと判断された場合、前記音声データを音声認識し、テキストデータを作成する音声認識手段と、
    前記音声認識手段にて作成された前記テキストデータを他の前記通信制御装置に対して送信する送信手段と、
    通信を行う前記通信制御装置を識別する識別情報と、当該識別情報で特定される通信制御装置にて、実施されるテレビ会議に参加する参加者の顔の特徴である第1顔特徴とが対応づけられた参加者情報を記憶する参加者情報記憶手段から、前記参加者情報を取得する参加者情報取得手段と、
    通信を行う相手側の前記通信制御装置の画像入力部から入力された画像データを取得する画像取得手段と、
    前記画像取得手段にて取得された前記画像データに含まれる人物の顔の特徴である第2顔特徴を抽出する顔特徴抽出手段と、
    前記第2顔特徴と、前記画像データが取得された前記相手側の前記通信制御装置を識別する前記識別情報に対応した前記参加者情報の前記第1顔特徴とを照合し、前記第1顔特徴に前記第2顔特徴が全て存在するか否かを判断する第4判断手段と
    を備え、
    前記送信手段は、前記第4判断手段にて前記第1顔特徴に前記第2顔特徴が全て存在すると判断された場合、前記画像データを送信した前記相手側の前記通信制御装置に対して前記テキストデータを送信することを特徴とする通信制御装置。
  3. 前記第1判断手段にて前記音量レベルが前記音量基準値以上であると判断された場合にのみ、前記音声入力部から入力された前記音声データを他の前記通信制御装置に対して送信する音声データ送信手段を備えたことを特徴とする請求項1又は2に記載の通信制御装置。
  4. 前記第1判断手段にて前記音量レベルが前記音量基準値より小さいと判断された場合、前記音声認識手段による前記テキストデータの作成が可能か否かを判断する第3判断手段と、
    前記第3判断手段にて前記テキストデータの作成が不可能と判断された場合、前記音声入力部から入力された前記音声データに対する増幅度を増大させる増幅手段とを備え、
    前記音声認識手段は、前記増幅手段にて増幅度を増大させた前記音声データに基づいて前記テキストデータを作成することを特徴とする請求項1乃至3のいずれかに記載の通信制御装置。
  5. 前記音声レベルを検出するために指示される指示手段により指定された指定時間内に前記音声入力部から入力された音声データの音量レベルの最大値を検出する最大値検出手段と、
    前記最大値検出手段にて検出された前記最大値を前記音量基準値として設定する基準値設定手段とを備えたことを特徴とする請求項1乃至のいずれかに記載の通信制御装置。
  6. 他の通信制御装置との間でネットワークを介して音声、及び映像の通信を制御する通信制御装置によって処理される通信制御方法であって、
    音声入力部から入力された音声データの音量レベルを検出するレベル検出ステップと、
    前記レベル検出ステップにて検出された前記音量レベルが所定の基準である音量基準値より小さいか否かを判断する第1判断ステップと、
    前記第1判断ステップにて前記音量レベルが前記音量基準値より小さいと判断された場合、前記音声データを音声認識し、テキストデータを作成する音声認識ステップと、
    前記レベル検出ステップにて検出された前記音量レベルが前記音量基準値より小さい状態が所定時間経過したか否かを判断する第2判断ステップと、
    前記第2判断ステップにて前記音量レベルが前記音量基準値より小さい状態が前記所定時間経過したと判断された場合、前記音声認識ステップにて作成された前記テキストデータを他の前記通信制御装置に対して送信する送信ステップとを備えたことを特徴とする通信制御方法。
  7. 請求項1乃至のいずれかに記載の通信制御装置の各種処理手段としてコンピュータを機能させることを特徴とする通信制御プログラム。
JP2009075766A 2009-03-26 2009-03-26 通信制御装置、通信制御方法、及び通信制御プログラム Expired - Fee Related JP5332798B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2009075766A JP5332798B2 (ja) 2009-03-26 2009-03-26 通信制御装置、通信制御方法、及び通信制御プログラム
US12/659,228 US8521525B2 (en) 2009-03-26 2010-03-01 Communication control apparatus, communication control method, and non-transitory computer-readable medium storing a communication control program for converting sound data into text data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009075766A JP5332798B2 (ja) 2009-03-26 2009-03-26 通信制御装置、通信制御方法、及び通信制御プログラム

Publications (2)

Publication Number Publication Date
JP2010232780A JP2010232780A (ja) 2010-10-14
JP5332798B2 true JP5332798B2 (ja) 2013-11-06

Family

ID=42785343

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009075766A Expired - Fee Related JP5332798B2 (ja) 2009-03-26 2009-03-26 通信制御装置、通信制御方法、及び通信制御プログラム

Country Status (2)

Country Link
US (1) US8521525B2 (ja)
JP (1) JP5332798B2 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5533503B2 (ja) * 2010-09-28 2014-06-25 ブラザー工業株式会社 通信装置、通信方法、および通信プログラム
JP5892021B2 (ja) * 2011-12-26 2016-03-23 キヤノンマーケティングジャパン株式会社 会議サーバ、会議システム、会議サーバの制御方法、プログラムおよび記録媒体
US9286889B2 (en) * 2013-01-29 2016-03-15 International Business Machines Corporation Improving voice communication over a network
US20150170651A1 (en) * 2013-12-12 2015-06-18 International Business Machines Corporation Remedying distortions in speech audios received by participants in conference calls using voice over internet (voip)
KR101623856B1 (ko) * 2014-10-17 2016-05-24 현대자동차주식회사 에이브이엔 장치, 차량, 및 에이브이엔 장치의 제어방법
US10423821B2 (en) * 2017-10-25 2019-09-24 Microsoft Technology Licensing, Llc Automated profile image generation based on scheduled video conferences
CN108363557B (zh) * 2018-02-02 2020-06-12 刘国华 人机交互方法、装置、计算机设备和存储介质
JP7037426B2 (ja) * 2018-04-25 2022-03-16 京セラ株式会社 電子機器及び処理システム
US10608929B2 (en) * 2018-05-31 2020-03-31 Motorola Solutions, Inc. Method for routing communications from a mobile device to a target device
US10971168B2 (en) * 2019-02-21 2021-04-06 International Business Machines Corporation Dynamic communication session filtering
JP7169921B2 (ja) * 2019-03-27 2022-11-11 本田技研工業株式会社 エージェント装置、エージェントシステム、エージェント装置の制御方法、およびプログラム
JP7590866B2 (ja) 2020-12-28 2024-11-27 シャープ株式会社 双方向通信支援システム、及び、コンピュータプログラム
JP7292765B1 (ja) 2022-07-07 2023-06-19 株式会社清和ビジネス コミュニケーション制御装置及びコンピュータープログラム
JP7404568B1 (ja) 2023-01-18 2023-12-25 Kddi株式会社 プログラム、情報処理装置、及び情報処理方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5949886A (en) * 1995-10-26 1999-09-07 Nevins; Ralph J. Setting a microphone volume level
JPH1013556A (ja) * 1996-06-21 1998-01-16 Oki Electric Ind Co Ltd テレビ会議システム
DE19939102C1 (de) * 1999-08-18 2000-10-26 Siemens Ag Verfahren und Anordnung zum Erkennen von Sprache
JP2002344915A (ja) 2001-05-14 2002-11-29 Nippon Telegr & Teleph Corp <Ntt> コミュニケーション把握装置、および、その方法
JP4212274B2 (ja) * 2001-12-20 2009-01-21 シャープ株式会社 発言者識別装置及び該発言者識別装置を備えたテレビ会議システム
US7236580B1 (en) * 2002-02-20 2007-06-26 Cisco Technology, Inc. Method and system for conducting a conference call
US7305078B2 (en) * 2003-12-18 2007-12-04 Electronic Data Systems Corporation Speaker identification during telephone conferencing
JP4458888B2 (ja) * 2004-03-22 2010-04-28 富士通株式会社 会議支援システム、議事録生成方法、およびコンピュータプログラム
JP4299768B2 (ja) * 2004-11-18 2009-07-22 埼玉日本電気株式会社 音声認識装置、方法及び音声認識方法を用いた携帯型情報端末装置
JP2008042386A (ja) * 2006-08-03 2008-02-21 Matsushita Electric Ind Co Ltd 通信端末装置

Also Published As

Publication number Publication date
US8521525B2 (en) 2013-08-27
US20100250249A1 (en) 2010-09-30
JP2010232780A (ja) 2010-10-14

Similar Documents

Publication Publication Date Title
JP5332798B2 (ja) 通信制御装置、通信制御方法、及び通信制御プログラム
JP6084654B2 (ja) 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法
US20150348538A1 (en) Speech summary and action item generation
CN110428806B (zh) 基于麦克风信号的语音交互唤醒电子设备、方法和介质
KR102628211B1 (ko) 전자 장치 및 그 제어 방법
JP2008309856A (ja) 音声認識装置及び会議システム
CN110223711B (zh) 基于麦克风信号的语音交互唤醒电子设备、方法和介质
CN108711429B (zh) 电子设备及设备控制方法
WO2020140840A1 (zh) 用于唤醒可穿戴设备的方法及装置
CN111105796A (zh) 无线耳机控制装置及控制方法、语音控制设置方法和系统
JP2009178783A (ja) コミュニケーションロボット及びその制御方法
US20180158462A1 (en) Speaker identification
JP2020095210A (ja) 議事録出力装置および議事録出力装置の制御プログラム
JP6718623B2 (ja) 猫型会話ロボット
JP7553645B2 (ja) 音声処理装置、会議システム、及び音声処理方法
JP4449380B2 (ja) 話者正規化方法及びそれを用いた音声認識装置
JP2009086207A (ja) 議事録情報生成システム、議事録情報生成方法、及び議事録情報生成プログラム
KR102000282B1 (ko) 청각 기능 보조용 대화 지원 장치
WO2019187543A1 (ja) 情報処理装置および情報処理方法
JP6918471B2 (ja) 対話補助システムの制御方法、対話補助システム、及び、プログラム
CN111179943A (zh) 一种对话辅助设备及获取信息的方法
KR20200095668A (ko) Ai 스피커를 이용한 노인 케어 시스템 및 방법
EP4443431A1 (en) Verification device and verification method
EP4443427A1 (en) Authentication device and authentication method
JP2010230994A (ja) 受付装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130115

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130314

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130715

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees