JP4945675B2 - 音響信号処理装置、テレビジョン装置及びプログラム - Google Patents
音響信号処理装置、テレビジョン装置及びプログラム Download PDFInfo
- Publication number
- JP4945675B2 JP4945675B2 JP2010253947A JP2010253947A JP4945675B2 JP 4945675 B2 JP4945675 B2 JP 4945675B2 JP 2010253947 A JP2010253947 A JP 2010253947A JP 2010253947 A JP2010253947 A JP 2010253947A JP 4945675 B2 JP4945675 B2 JP 4945675B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- person
- grouping
- directivity
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
- H04M3/567—Multimedia conference systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/02—Details
- H04L12/16—Arrangements for providing special services to substations
- H04L12/18—Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
- H04L12/1813—Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
- H04L12/1827—Network arrangements for conference optimisation or adaptation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
- H04M3/563—User guidance or feature selection
- H04M3/564—User guidance or feature selection whereby the feature is a sub-conference
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
- H04M3/568—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/41—Electronic components, circuits, software, systems or apparatus used in telephone systems using speaker recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
- H04M3/568—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
- H04M3/569—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants using the instant speaker's algorithm
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/142—Constructional details of the terminal equipment, e.g. arrangements of the camera and the display
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Circuit For Audible Band Transducer (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Description
本発明の実施形態は、音響信号処理装置、テレビジョン装置及びプログラムに関する。
従来より、マイクロホンアレーを用いて、目的とする方向からの音だけを強調する技術が知られている。
また、カメラを用いて人の位置を検出して、その検出した人の方向にマイクロホンアレーの指向性を向ける技術も提案されている。その提案に係る装置では、話者の位置を検出して、その検出された話者の位置関係に基づいて、話者毎に音声を抽出する方向と範囲が抽出され、音声抽出手段がその範囲内の音声を抽出する。
また、カメラを用いて人の位置を検出して、その検出した人の方向にマイクロホンアレーの指向性を向ける技術も提案されている。その提案に係る装置では、話者の位置を検出して、その検出された話者の位置関係に基づいて、話者毎に音声を抽出する方向と範囲が抽出され、音声抽出手段がその範囲内の音声を抽出する。
しかし、そのような装置は、各話者に向かうようにマイクロホンアレーの指向性を制御して音声処理を行うようにするため、話者の数が増えると、抽出された各方向についての指向性制御部における音声信号の音声処理をするための演算量が増えるという問題がある。すなわち、話者数に応じて、指向性制御部の演算量が増える。
よって、このような装置は、話者の増えた分だけ計算量が増えるため、特に、リアルタイムで応答が要求されるシステムに適用した場合、そのシステムのリアルタイム性が確保できなくなってしまうという問題がある。例えば、遠隔地の者同士がテレビ会議等を行うような場合、音声信号がリアルタイムで音声処理できなくなるため、音声の途切れ、雑音の混入等が発生してしまう。
また、所謂計算コストの面から、余裕を持った数の指向性制御部を予め想定してハードウエアの性能を高めることは現実的でない。
また、所謂計算コストの面から、余裕を持った数の指向性制御部を予め想定してハードウエアの性能を高めることは現実的でない。
そこで、本実施形態は、リアルタイム性を確保できる音響信号処理の可能な音響信号処理装置、テレビジョン装置及びプログラムを提供することを目的とする。
実施形態の音響信号処理装置は、所定空間内に存在する人物の位置を検出する人物位置検出部と、前記人物位置検出部により検出された2以上の人物の数が2以上の所定のグループ数を超えると、前記検出された2以上の人物を、前記所定のグループ数以下の数のグループに割り振るグループ分けを行うグループ分け部と、前記グループ分け部で前記グループ分けがされた各グループの指向性を、マイクロホンアレーの指向性を制御する複数の指向性制御部に設定する指向性設定部と、を有する。
以下、図面を参照して実施形態を説明する。
(第1の実施形態)
(構成)
図1は、第1の実施の形態に係る音響信号処理装置が適用されるテレビ電話システムの例を説明するための図である。
図1に示すように、テレビ電話システム1は、テレビジョン放送を受信するテレビジョン装置(以下、テレビという)を利用して、遠隔地の者同士が、テレビ画面に映し出された相手の画像を見ながら会話をすることができるシステムである。テレビ電話システム1は、互いに離れた場所に設置された2台のテレビ2A、2Bを含み、テレビ2A、2Bは、互いに通信回線としてのインターネット3を介して通信可能に接続されている。
(構成)
図1は、第1の実施の形態に係る音響信号処理装置が適用されるテレビ電話システムの例を説明するための図である。
図1に示すように、テレビ電話システム1は、テレビジョン放送を受信するテレビジョン装置(以下、テレビという)を利用して、遠隔地の者同士が、テレビ画面に映し出された相手の画像を見ながら会話をすることができるシステムである。テレビ電話システム1は、互いに離れた場所に設置された2台のテレビ2A、2Bを含み、テレビ2A、2Bは、互いに通信回線としてのインターネット3を介して通信可能に接続されている。
そして、各テレビ2A、2B(以下、2台のテレビの両方あるいは一方を指すとき、テレビ2ともいう)は、テレビジョン放送を受信可能であると共に、インターネット接続下で、インターネット3を介して互いに画像信号及び音声信号の通信が可能である。そのために、各テレビ2A、2Bには、それぞれカメラとマイクロホンアレーを内蔵するユニット4A、4B(以下、2つのユニットの両方あるいは一方を指すとき、ユニット4ともいう)が取り付けられている。
各テレビ2のテレビ画面2aには、テレビ2が放送受信モードのときは、テレビジョン放送のコンテンツが表示され、かつ後述するテレビ電話モードのときは、相手方の画像が表示される。
各テレビ2のテレビ画面2aには、テレビ2が放送受信モードのときは、テレビジョン放送のコンテンツが表示され、かつ後述するテレビ電話モードのときは、相手方の画像が表示される。
テレビ電話ユニットとしての各ユニット4は、対応するテレビ2の画面の前を撮像するカメラと、テレビ2の前の音声を取り込むマイクロホンアレーを有する(図2)。ユーザは、リモコン5A、5B(以下、2つのリモコンの両方あるいは一方を指すとき、リモコン5ともいう)を操作することによって、テレビジョン放送をテレビ画面上に表示させたり、ユニット4のテレビ電話機能を動作させたりすることができる。ユニット4は、音響信号処理装置を構成する。
図2は、各テレビ2と各ユニット4の構成を示すブロック図である。
ユニット4は、カメラ11、マイクロホンアレー12、中央処理装置(CPU)13、ROM14、RAM15、及びインターフェース(以下。I/Fと略す)16,17,18を含む。CPU13、ROM14及びRAM15は、バス19を介して互いに接続されている。テレビ2とユニット4は、インターネット3に接続するための通信ライン20に接続されている。
ユニット4は、カメラ11、マイクロホンアレー12、中央処理装置(CPU)13、ROM14、RAM15、及びインターフェース(以下。I/Fと略す)16,17,18を含む。CPU13、ROM14及びRAM15は、バス19を介して互いに接続されている。テレビ2とユニット4は、インターネット3に接続するための通信ライン20に接続されている。
カメラ11は、CCDなどの撮像素子を有して、デジタルの画像信号を出力する。マイクロホンアレー12は、複数の(ここでは、n個の)マイクロホンを有し、各マイクロホンの音響信号を出力する。テレビ2に載置されたユニット4内において、カメラ11は、テレビ2のテレビ画面を視るユーザ側を撮像するように配置され、マイクロホンアレー12は、テレビ画面を視るユーザの音声を取り込むように配置されている。
I/F16は、カメラ11とバス19を接続するインターフェースである。I/F17は、マイクロホンアレー12とバス19を接続するインターフェースである。I/F18は、インターネット3に接続された通信ライン20とバス19とを接続するためのインターフェースである。通信ライン20には、テレビ2も接続されているので、テレビ2とユニット4は、互いに通信可能となっている。ユニット4と合わせてテレビ2は、テレビ電話可能なテレビジョン装置を構成する。
CPU13は、ROM14に格納された、後述する各種ソフトウエアプログラム(以下、単にプログラムという)を実行する処理部である。ROM14は、後述する各種プログラムを格納する不揮発性の記憶部である。RAM15は、CPU13が各種プログラムを実行するときに作業領域として利用する記憶部である。
ROM14には、テレビ電話システム1が機能するときに、ユニット4が音響信号処理装置としての機能を実行するための各種プログラムが含まれる。
なお、図1と図2に示すテレビ電話システム1では、テレビ2とユニット4が別体のものであり、ユニット4がテレビ2に載置されるようになっているが、ユニット4がテレビ2の本体内に内蔵されるような構成でもよい。
なお、図1と図2に示すテレビ電話システム1では、テレビ2とユニット4が別体のものであり、ユニット4がテレビ2に載置されるようになっているが、ユニット4がテレビ2の本体内に内蔵されるような構成でもよい。
図3は、ユニット4のソフトウエア構成を示すブロック図である。ユニット4内の各ブロックは、プログラムにより構成される。ユニット4は、人物位置検出部31、グループ分け部32,指向性設定部33,複数の(ここでは2つの)指向性制御部34a、34b、及び合成部35を有して構成される。
カメラ11からのデジタルの画像信号が、人物位置検出部31に入力される。
人物位置検出部31は、入力された画像信号に基づいて、撮像された人物を判別し、各人物の位置を検出して、その位置情報をグループ分け部32に出力する。カメラ11は、テレビ2の前の所定空間を撮像するので、人物位置検出部31は、その所定空間内に存在する人物の位置を検出する処理部を構成する。人物位置検出部31は、画像の中から人の顔を認識する顔画像認識処理により、複数の人物のそれぞれの位置を検出する。検出された各顔の位置と、所定の基準位置との位置関係から、カメラ11が撮像した所定空間内における各人物の位置が算出される。すなわち、人物位置検出部31は、複数の顔が検出されれば、各顔の位置に対応する各人物の位置を算出する。
人物位置検出部31は、入力された画像信号に基づいて、撮像された人物を判別し、各人物の位置を検出して、その位置情報をグループ分け部32に出力する。カメラ11は、テレビ2の前の所定空間を撮像するので、人物位置検出部31は、その所定空間内に存在する人物の位置を検出する処理部を構成する。人物位置検出部31は、画像の中から人の顔を認識する顔画像認識処理により、複数の人物のそれぞれの位置を検出する。検出された各顔の位置と、所定の基準位置との位置関係から、カメラ11が撮像した所定空間内における各人物の位置が算出される。すなわち、人物位置検出部31は、複数の顔が検出されれば、各顔の位置に対応する各人物の位置を算出する。
グループ分け部32は、入力された位置情報に基づいて、検出された人物のグループ分けを行い、複数の人物が検出されれば、所定のグループ数のグループに纏められる。判別された1又は2以上の人物は、予め設定された上限のグループ数までグループ数にグループ分けされる。よって、グループ分け部32は、人物位置検出部31により検出された1又は2以上の人物を所定数以下の数のグループに割り振るグループ分けを行う処理部を構成する。
例えば、所定数としての上限が2の場合、検出された人物が一人であれば、グループ数は1であり、検出された人物が二人であれば、グループ数は2となる。さらに、上限が2の場合、判別された人物が三人以上であっても、グループ分けされたグループ数は2となる。
グループ数の上限は、CPU13の処理能力によって決定される。CPU13の処理能力に応じて、プログラムの処理時間は異なる。CPU13の処理能力が高ければ、CPU13における指向性制御部34における1つの指向性制御部の処理時間が短くなり、CPU13の処理能力が低ければ、1つの指向性制御部の処理時間が長くなる。
特に、指向性制御部34において、指定された方向にマイクロホンアレー12のビームを形成して音声処理するための計算量が、テレビ電話システム1に要求されるリアルタイム性が維持できない計算量にならないように、上限が決定される。
例えば、CPU13の音声処理のための処理能力が、100MIPS(百万命令毎秒)であるときに、1つの指向性制御部の処理時間が50MIPSであれば、2つの指向性制御部の処理がCPU13の処理能力の限界である。その場合、グループ数の上限は2となり、ユニット4は、指向性制御部を2つ有することができる。検出された人物についてのグループ分けの方法については、後述する。
グループ分け部32は、グループ分けされた人物の位置情報に基づいて、グループ毎の指向性の情報(すなわちビームの情報)を算出して決定し、指向性設定部33に出力する。ビームの情報は、指向性の設定方向dsと設定範囲θsの情報を含む。設定方向dsは、設定範囲θsの中心方向である。例えば、設定範囲θsは、設定方向dsを中心とする角度幅である。
なお、グループ分け部32は、所定のルールに従って検出された人物の位置情報に基づいてグループ分けを行うが、雑音抑圧能力すなわち性能が最も高くなるように、すなわち最適なグループ分けを行うようにしてもよい。最適なグループ分けの方法については後述する。
グループ分け部32は、グループ分けされたグループ毎のビームの情報を、指向性設定部33に供給する。
グループ分け部32は、グループ分けされたグループ毎のビームの情報を、指向性設定部33に供給する。
指向性設定部33は、グループ毎のビームの情報に基づいて、各グループの話者の音声を強調するように、各ビームを形成するための設定情報をグループ毎に生成して、対応する指向性制御部34a、34bに各設定情報を供給する。例えば、検出された人物が一人の場合、指向性制御部34aのみに設定情報が供給されて設定され、指向性制御部34aのみがその設定情報に基づくビームを形成する。検出された人物が二人以上の場合、指向性制御部34a、34bのそれぞれに設定情報が供給されて設定され、指向性制御部34a、34bは、それぞれ設定情報に基づくビームを形成する。
すなわち、グループ分け部32は、人物のグルーピングを行い、指向性設定部33は、指向性をグループ単位で形成するように、各指向性制御部34を制御する。よって、指向性設定部33は、グループ分け部32でグループ分けがされた各グループの指向性を、対応する指向性制御部34に設定する処理部を構成する。
すなわち、グループ分け部32は、人物のグルーピングを行い、指向性設定部33は、指向性をグループ単位で形成するように、各指向性制御部34を制御する。よって、指向性設定部33は、グループ分け部32でグループ分けがされた各グループの指向性を、対応する指向性制御部34に設定する処理部を構成する。
複数の指向性制御部34a、34bは、設定されたそれぞれの指向性に基づいてマイクロホンアレーの指向性を制御する処理部を構成する。すなわち、各指向性制御部34は、設定された方向から到来する音声を強調する。指向性制御部34a、34bにおいて音声強調処理されたデジタルの音声信号は、合成部35で加算されて合成信号として、インターネット3へ送信される。指向性制御部34は、それぞれに設定された指向性を実現すべくn個の音声入力信号に対してアレー処理を行う。アレー処理の例は、例えば、特許第3795610号公報、特開2007−10897号公報に開示されている。
なお、指向性制御部34a、34bにおいて音声強調処理されて得られたデジタルの複数の音声信号は、合成部35で合成しないで、それぞれ個別に、インターネット3へ送信するようにしてもよい。
なお、指向性制御部34a、34bにおいて音声強調処理されて得られたデジタルの複数の音声信号は、合成部35で合成しないで、それぞれ個別に、インターネット3へ送信するようにしてもよい。
上述したように、グループ分けにより生成された各グループの人物の音声を強調するのに適した指向性を形成するための設定が決定される。指向性制御部34がその設定に基づいて複数のマイクロホン12a〜12nからの音声信号に対して所定のフィルタ演算を行い、その演算結果を加算する処理を行うことによって、マイクロホンアレー12の指向性すなわちビームは形成される。ここでは、上限数である2つの指向性制御部34a、34bは、それぞれ、互いに異なる特性のフィルターセットを動作させるようにしてビームを形成する。
なお、本実施の形態及びこれに続く他の実施の形態においても、話者の位置は、水平方向における角度で特定する場合で説明するが、これに限られず、複数のマイクロホンを2次元配置等することによって、奥行き方向も含めた複数の話者のグループ化を行って、話者の存在する空間の奥行き方向の制御を行うようにしてもよい。
(グループ分けの方法)
ここで、グループ分け部32におけるグループ分けの方法について説明する。図4は、人物位置検出部31によって、マイクロホンアレー12あるいはテレビ画面2aに対して、所定の位置を基準として、3人の人物が検出されたときに、2グループにグループ分けされた一の状態を説明するための図である。
ここで、グループ分け部32におけるグループ分けの方法について説明する。図4は、人物位置検出部31によって、マイクロホンアレー12あるいはテレビ画面2aに対して、所定の位置を基準として、3人の人物が検出されたときに、2グループにグループ分けされた一の状態を説明するための図である。
図4は、3人の人物P1,P2,P3が、それぞれ、マイクロホンアレー12の所定の中心位置P0から、方向d1,d2,d3に存在することが検出された場合であって、人物P1とP2が第1のグループを構成し、人物P3が第2のグループを構成する例を示す。
例えば、検出された各人物の顔の中心の方向が、人物の方向として決定される。図4の場合、人物P1は、方向d1に存在する。同様に、人物P2とP3は、それぞれ方向d2とd3に存在する。
(ルール)
検出された人物に対するグループ化は、所定のルールで行われるが、所定のルールは、種々のルールが適用可能である。まず、検出された人物の数がグループ数の上限に達するまでは、検出された人毎にグループ分けが行われ、その人物の数が上限を超えると、所定のルールによるグループ化が行われる。所定のルールの中で簡単なルールは、例えば、マイクロホンアレー12の所定の基準方向(0度)から所定の方向(180度の方向)に向かって、検出された人物を、各グループが所定の人数になるようにグループ化する、というようなルールである。
検出された人物に対するグループ化は、所定のルールで行われるが、所定のルールは、種々のルールが適用可能である。まず、検出された人物の数がグループ数の上限に達するまでは、検出された人毎にグループ分けが行われ、その人物の数が上限を超えると、所定のルールによるグループ化が行われる。所定のルールの中で簡単なルールは、例えば、マイクロホンアレー12の所定の基準方向(0度)から所定の方向(180度の方向)に向かって、検出された人物を、各グループが所定の人数になるようにグループ化する、というようなルールである。
図4の場合、検出された三人の人物P1,P2,P3が、0度方向から180度方向に向かって、二人のグループと一人のグループにグループ分けされている。人物P1とP2が第1のグループとなり、人物P3がもう一つの第2のグループとなっている。第1のグループでは、方向d1とd2の真ん中の方向D1が、目的音源方向としての設定方向dsとなる。第2のグループでは、方向d3の方向D2が、目的音源方向としての設定方向dsとなる。さらに、第1のグループでは、目的音源方向D1の前後(θ1)/2の範囲θ1が、設定範囲θsとなる。第2のグループでは、目的音源方向D2の前後θp/2の範囲θpが、設定範囲θsとなる。
ここでは、図4の第2のグループのように、一つのグループに人物が一人だけいる場合、設定範囲θsは、所定の範囲θpを有するものとする。図4の第1のグループのように、一つのグループに人物が二人以上存在する場合、それぞれの所定の前後(θp)/2を加味した人物P1,P2間の角度θdを含むように、設定範囲θsは、角度θ1となる。
他にも、グループ分け部32は、各グループに割り振られる人物の数が平均化するというルールに基づいて、グループ分けを行うようにしてもよい。
以上のように、グループ分けは、所定のルールに従って行われる。その所定のルールは、グループ数の上限に達するまでは、検出された人毎にグループ分けが行われ、検出された人物の数がグループ数の上限を超えると、所定のルールで、グループ数が上限を超えないようにグループ分けするルールである。
以上のように、グループ分けは、所定のルールに従って行われる。その所定のルールは、グループ数の上限に達するまでは、検出された人毎にグループ分けが行われ、検出された人物の数がグループ数の上限を超えると、所定のルールで、グループ数が上限を超えないようにグループ分けするルールである。
(最適なグループ分け)
グループ分け部32は、マイクロホンアレー12の雑音抑圧性能の和が最大になるように最適なグループ分けを行うようにしてもよい。
図5は、マイクロホンアレー12の雑音抑圧性能の和が最大になるようにグループ分けを行う方法を説明するための図である。人物の配置は、図4と同じであるが、3人の人物P1,P2,P3は、図4とは異なるグループにグループ分けされている。
グループ分け部32は、マイクロホンアレー12の雑音抑圧性能の和が最大になるように最適なグループ分けを行うようにしてもよい。
図5は、マイクロホンアレー12の雑音抑圧性能の和が最大になるようにグループ分けを行う方法を説明するための図である。人物の配置は、図4と同じであるが、3人の人物P1,P2,P3は、図4とは異なるグループにグループ分けされている。
図5の場合、人物P1が第1のグループであり、人物P2,P3が第2のグループとなっている。第1のグループ(人物P1のグループ)は、図4の第2のグループ(人物P3のグループ)と同じ設定範囲θsを有する。第2のグループ(人物P2,P3のグループ)は、図4の第1のグループ(人物P1,P2のグループ)よりも、設定範囲θsが狭くなっている。
図5において、第2のグループの設定範囲θsは、角度θ3であり、図4の第1のグループの設定範囲θsであるθ1よりも狭い。
設定範囲θsが狭い方が、目的とする方向からの音だけを強調する性能が高い。図4の場合、人物P2とP3の間には隙間がなく、仮にこの隙間から雑音が到来しても、抑圧することはできない。これに対して、図5の場合は、人物P1とP2の間には隙間があり、この隙間から雑音が到来しても抑圧することができる。
設定範囲θsが狭い方が、目的とする方向からの音だけを強調する性能が高い。図4の場合、人物P2とP3の間には隙間がなく、仮にこの隙間から雑音が到来しても、抑圧することはできない。これに対して、図5の場合は、人物P1とP2の間には隙間があり、この隙間から雑音が到来しても抑圧することができる。
よって、図5に示すグループ分けは、図4のグループ分けよりも、よりよいグループ化ということが言える。これは、互いに異なる設定範囲θsを有する2つのグループ分けがあったときに、評価値EVとしての(1/θs)の和が大きいグループ分けの方が、他のグループ分けよりも、システム全体としての強調性能が高いので、図5の方が図4よりも、よりよいグループ分けということができるからである。
従って、最適なグループ分けの方法としては、検出された人物の数が、グループ数の上限を超えた場合、検出された全ての人物について取り得るグループ分けの組み合わせを仮定し、取り得る組み合わせの中で、各グループの評価値EV(=1/θs)の総和EVsが最も大きい組み合わせのグループ分けが、最適なグループ分けであるというルールを用いることができる。すなわち、グループ数の上限の範囲内で、全ての組み合わせについて所定の評価値の総和EVsを算出し、その総和EVsが最も大きな値のグループ分けを選択するというルールを、評価基準として、グループ分け部32が採用することができる。
例えば、図4において、第1のグループの設定範囲θs(=θ1)が65度、第2のグループの設定範囲θs(=θp)が20度とすると、上記の評価値の総和EVs1は、((1/θs)+(1/θp)=((1/65)+(1/20))である。これに対して、図5において、第1のグループの設定範囲θs(=θp)が20度、第2のグループの設定範囲θ3が38度とすると、上記の評価値の総和EVs2は、((1/θp)+(1/θ3)=((1/20)+(1/38))である。EVs2>EVs1となるので、図5の組み合わせの方が、図4の組み合わせよりも、評価値EVが高い。
よって、グループ分け部32は、このような評価値の総和EVsの比較を、全てのグループ分け可能な組み合わせ同士で行い、最も評価値の総和EVsが高い組み合わせのグループ分けを、最適なグループ分けとして決定する。
(処理)
図6は、ユニット4における指向性設定処理の流れの例を示すフローチャートである。図6の処理は、テレビ電話システム1におけるテレビ電話機能がオンになると、CPU13によって実行される。ユーザは、リモコン5を操作して、テレビ電話機能をオンにすることができる。
図6は、ユニット4における指向性設定処理の流れの例を示すフローチャートである。図6の処理は、テレビ電話システム1におけるテレビ電話機能がオンになると、CPU13によって実行される。ユーザは、リモコン5を操作して、テレビ電話機能をオンにすることができる。
まず、CPU13は、人物位置検出部31により人物位置の検出を行い(S1)、続いて、グループ分け部32による、上述したようなグループ分けを行う(S2)。CPU13は、指向性設定部33による、グループ分けの結果に基づいて各指向性制御部34に対する指向性の設定を行う(S3)。
指向性制御部34は、設定された指向性の情報に基づいて、ビームを制御して音声処理を行う。指向性制御部34で処理された音声信号は、合成部35で合成されて、通信回線であるインターネット3を介して、相手方のテレビ電話システムへ伝送される。
図6の処理が実行された後、において、人物位置検出部31により検出された人物の位置に変化がなければ、図6の処理は実行されないが、人物の位置に変化があると、図6のグループ分け及び指向性設定の処理が実行される。
その結果、遠隔に離れた者同士が、テレビ2を利用して、リアルタイムで音声が途切れたり等なく、テレビ電話を行うことができる。
なお、上述した例では、上限数まではグループ数が増えていくが、ユーザによって、予め設定された上限を変更できるようにしてもよい。
図7は、グループ数すなわちビーム数の変更を説明するための図である。ユーザは、自己が見ているテレビ2のリモコン5に対して所定の操作を行うと、図7に示すようなビーム数上限の設定変更画面21を表示させることができる。設定変更画面21は、テレビ2の画面2a上に、サブウインドウとして表示される。設定変更画面21を表示させるプログラムは、ROM14中に予め格納されている。
図7は、グループ数すなわちビーム数の変更を説明するための図である。ユーザは、自己が見ているテレビ2のリモコン5に対して所定の操作を行うと、図7に示すようなビーム数上限の設定変更画面21を表示させることができる。設定変更画面21は、テレビ2の画面2a上に、サブウインドウとして表示される。設定変更画面21を表示させるプログラムは、ROM14中に予め格納されている。
設定変更画面21は、変更可能なビーム数を表示する表示部21Aを含み、ユーザは、リモコン5を操作して、カーソル(図7では斜線で示されている)を所望のビーム数の表示部21Aに移動させて選択することができる。例えば、図7では、上限数の「2」よりも少ない「1」の表示部が選択されている。選択の確定は、ユーザが、リモコン5の確定ボタンなどを操作することによって行うことができる。
なお、上限が「3」であれば、上限より少ない「2」と「1」が選択可能となるように、設定画面変更画面21には、上限の数と、上限よりも少ない数の表示部21Aが、選択可能に表示される。
なお、上限が「3」であれば、上限より少ない「2」と「1」が選択可能となるように、設定画面変更画面21には、上限の数と、上限よりも少ない数の表示部21Aが、選択可能に表示される。
例えば、ユーザが上限「2」よりも少ないビーム数である「1」を選択すると、ビーム形成に必要な指向性制御部34の数が少なくなるので(1つの指向性制御部でよいことになるので)、上述したCPU13の演算量が少なくなる。その場合、CPU13の処理時間に余裕ができるので、より処理時間のかかる別の指向性制御部34A(図3では点線で示す)を利用して、例えば、より高音質な音声信号が得られる指向性制御を実行させるようにすることも可能である。
例えば、一人しかいないような状況では、ユーザは、設定変更画面21を用いて、ビーズ数の上限を1に設定して、より高性能な指向性制御部34Aによるビーム形成を行わせることができる。その結果、相手方には、より高音質で音声信号を送信することができる。
ROM14に格納された図7の画面に関する処理を実行するプログラムは、上述したビーム数言い換えるグループ数を変更するためのグループ数変更部36(図3で点線で示す)を構成する。
なお、上述した例では、グループ数変更部36は、グループ数を上限数よりも少ない数に変更できる例であるが、予め設定された上限を、より少ない数に変更するようにしてもよい。よって、グループ数変更部36は、グループ分けの結果のグループ数あるいは所定の上限を変更するための処理部を構成する。
なお、上述した例では、グループ数変更部36は、グループ数を上限数よりも少ない数に変更できる例であるが、予め設定された上限を、より少ない数に変更するようにしてもよい。よって、グループ数変更部36は、グループ分けの結果のグループ数あるいは所定の上限を変更するための処理部を構成する。
以上のように、上述した本実施の形態によれば、CPUの処理能力などに応じたグループ数の上限内でグループ化が行われるので、リアルタイム性を確保できる音響信号処理が可能なテレビ電話システムを提供することができる。
(第2の実施の形態)
第1の実施の形態では、顔検出された人物の位置を検出して、グループ分けを行っていたが、第2の実施の形態は、検出された人物の中で発話した人物のみを、グループ分けするようにした点が、第1の実施の形態と異なる。
以下、第2の実施の形態を説明するが、第1の実施の形態と同様の構成については、同じ符号を付し説明は省略し、異なる点を主として説明する。
第1の実施の形態では、顔検出された人物の位置を検出して、グループ分けを行っていたが、第2の実施の形態は、検出された人物の中で発話した人物のみを、グループ分けするようにした点が、第1の実施の形態と異なる。
以下、第2の実施の形態を説明するが、第1の実施の形態と同様の構成については、同じ符号を付し説明は省略し、異なる点を主として説明する。
図8は、第2の実施の形態に係るユニット4のソフトウエア構成を示すブロック図である。図8は、発話者検出部41を含む点で、図3と異なる。発話者検出部41は、人物位置検出部31により検出された人物の中から、発話者を検出する処理部である。
よって、本実施の形態は、発話者検出部41によって実際に発話したかどうかを検出し、発話が検出された人物の位置情報のみが、後段のグループ分け部32に出力される。グループ分け部32は、人物位置と検出された発話者との対応関係の情報を有している。
なお、発話者検出部41にマイクロホンアレー12からの音声信号を入力させ、口の動きと共に、音声信号が入力された場合に、発話者であるという判定をするようにしてもよい。図9は、本実施の形態に係るユニット4の変形例に係るソフトウエア構成を示すブロック図である。図9では、口の動きと音声信号による判定のために、マイクロホンアレー12の各マイクロホンからの音声信号が、発話者検出部41に入力されている。
図10は、本実施の形態に係るユニット4における指向性設定処理の流れの例を示すフローチャートである。図10の処理は、人物位置の検出の後に、発話者検出部41による発話者の検出処理を行い(S11)、発話者が検出されたか否かを判定し(S12)、発話者が検出された場合に(S12:YES)、グループ分けが行われるようになっている。そして、グループ分け部32は、人物位置検出部31により検出された1又は2以上の人物の中から、発話者だけを対象に、グループ分けを行う。
よって、存在はしているが、発話しない人物にマイクロホンアレー12のビームを向けておくような無駄をなくすことができ、さらに人物の誤検出による人でない対象に指向性が向けられるということがないようにすることができる。また、発話者が検出されると、グルーピングを再度行うので、常に最適なグループ分けの状態で、テレビ電話システム1は動作することができる。
また、発話者検出部41を追加することにより、人物位置検出部31の検出感度を、人物を検出し易いように高く設定できるので、人物位置検出部31において、誤検出はあっても、検出漏れのないようにして、検出漏れによる指向性の設定がされないという問題を回避することもできる。
(第3の実施の形態)
第2の実施の形態では、顔検出された人物の中から発話した人物のみを、グループ分けするようにしているが、第3の実施の形態は、人物の増減を監視し、増減に応じてグループ分けを行うようにした点が、第2の実施の形態と異なる。
第2の実施の形態では、顔検出された人物の中から発話した人物のみを、グループ分けするようにしているが、第3の実施の形態は、人物の増減を監視し、増減に応じてグループ分けを行うようにした点が、第2の実施の形態と異なる。
以下、第3の実施の形態を説明するが、第1及び第2の実施の形態と同様の構成については、同じ符号を付し説明は省略し、異なる点を主として説明する。
図11は、第3の実施の形態に係るユニット4のソフトウエア構成を示すブロック図である。図11は、人物増減検出部42を含む点で、図3と異なる。人物増減検出部42は、人物位置検出部31により検出された人物の増減を検出する処理部である。
図12は、本実施の形態に係るユニット4における指向性設定処理の流れの例を示すフローチャートである。図12の処理は、人物位置の検出の後に、人物増減検出部42による人物の増減の検出処理を行い(S21)、検出された人物の数に増減があったか否かを判定し(S22)、その増減があった場合に(S22:YES)、グループ分けが行われるようになっている。そして、グループ分け部32は、人物増減検出部42により検出された人物の増減に応じて、グループ分けを行う。
よって、存在はしているが、途中から新たな人物がテレビ電話に参加したり、逆にそれまで居た人物が途中で退席してテレビ電話に参加しなくなったような場合にも、適切な指向性の制御が可能となる。また、人物の増減が検出されると、グルーピングを再度行うので、常に最適なグループ分けの状態で、テレビ電話システムは動作することができる。
(第4の実施の形態)
第3の実施の形態では、人物の増減に応じてグループ分けするようにしているが、第4の実施の形態は、人物に増減はないが、途中から発話がなくなった人物がいる場合には、そのような人物の位置情報を一旦削除して、再度グループ分けを行うようにした点が、第1,第2及び第3の実施の形態と異なる。
第3の実施の形態では、人物の増減に応じてグループ分けするようにしているが、第4の実施の形態は、人物に増減はないが、途中から発話がなくなった人物がいる場合には、そのような人物の位置情報を一旦削除して、再度グループ分けを行うようにした点が、第1,第2及び第3の実施の形態と異なる。
以下、第4の実施の形態を説明するが、第1、第2及び第3の実施の形態と同様の構成については、同じ符号を付し説明は省略し、異なる点を主として説明する。
図13は、第4の実施の形態に係るユニット4のソフトウエア構成を示すブロック図である。ユニット4内の各ブロックは、プログラムにより構成される。図13は、不活性ビーム検出部43を含む点で、図3と異なる。不活性ビーム検出部43は各指向性制御部34の出力に基づいて、不活性ビームの検出を行う。
不活性ビーム検出部43は、そのビーム方向からの発話が所定の時間以上に亘って観測されなくなったか否かを検出する。不活性ビーム検出部43は、指向性設定部33によって指向性が設定された指向性制御部34の出力監視を行い、発話状態を監視する発話状態監視部を構成する。不活性ビーム検出部43は、発話が観測されなくなったビームを検出すると、そのビームに対応する位置の人物の位置情報を削除した人物位置情報をグループ分け部32に出力する。グループ分け部32は、その人物位置情報に基づいて、再度グループ分けする。
このような構成によれば、例えば途中で寝てしまった人物がいたような場合に、発話が所定の時間観測されなくなると、無駄なビームを削除することができる。
なお、上述した図13の構成では、1つのグループの中に複数人いる場合は、全員が発話を止めた場合にのみ、再度グループ分けされるが、不活性ビーム検出部51の構成を変更することによって、グループの中の一人でも発話を止めた場合に、再グループ分けを行うようにしてもよい。
図14は、図13のユニット4の変形例に係るソフトウエア構成を示すブロック図である。図14では、マイクロホンアレー12の各マイクロホンからの音声信号が、不活性ビーム検出部43aに入力されている。不活性ビーム検出部43aは、検出された人物の数kだけ、指向性制御部51-a〜51-k(以下、複数の指向性制御部51-a等を指すとき、あるいは一つの指向性制御部を指すとき、指向性制御部51という)を有している。
検出された人物毎に指向性制御部51が生成される。指向性制御部51は、人物位置検出部31からの人物位置の人物の発話が所定時間観測されなかったか否かを検出する。従って、不活性ビーム検出部43aは、人物位置検出部31により検出された人物の発話監視を行う発話状態監視部を構成する。
なお、指向性制御部51のプログラムは、テレビ電話によるリアルタイムな通話目的のものではないので、より高性能で処理時間のかかるプログラムであってもよい。
不活性ビーム検出部43aは、人物位置検出部31で検出された人物の発話が検出されなくなると、その人物の位置情報を削除した人物位置情報をグループ分け部32に出力する。グループ分け部32は、その人物位置情報に基づいて、再度グループ分けする。
図15は、本実施の形態に係るユニット4における指向性設定処理の流れの例を示すフローチャートである。図15の処理は、人物位置の検出の後に、不活性ビーム検出部43による不活性ビームの検出処理(あるいは図14の不活性ビーム検出部43aによる発話を止めた人物の検出処理)を行い(S31)、不活性ビーム(あるいは発話を止めた人物)が検出されたか否かを判定し(S32)、その不活性ビーム(あるいは図14の発話を止めた人物)があった場合に(S32:YES)、グループ分けが再度行われるようになっている。
よって、グループ分け部32は、発話状態監視部である不活性ビーム検出部43,43aにより、指向性が設定された指向性制御部34の出力あるいは検出された人物の発話が所定時間以上観測されなくなったときは、所定時間以上観測されなくなった指向性制御部あるいは人物を除いて、グループ分けを行う。
なお、上述した不活性ビームの検出などにより、グループ分けの対象から外された人物も、上述した第2の実施の形態の処理を利用することによって、グループ分けの対象人物として、再度加入することができる。
さらになお、発話をしなくなったグループあるいは人物を画像データからのみに基づいて検出する場合は、不活性ビーム検出部43,43aへの、図13及び図14に示すような、指向性制御部34及びマイクロホンアレー12からの入力は不要である。
よって、本実施の形態によれば、発話がなくなったビームあるいは人物を検出して、無駄なビームを削除することができる。また、発話の有無が検出されると、グルーピングを再度行うので、常に最適なグループ分けの状態で、テレビ電話システムは動作することができる。
(第5の実施の形態)
第5の実施の形態に係るユニット4は、上述した第2から第4の実施の形態において説明した発話者検出部41,41a、人物増減検出部42,及び不活性ビーム検出部43を含む検出統合部44を有する。
第5の実施の形態に係るユニット4は、上述した第2から第4の実施の形態において説明した発話者検出部41,41a、人物増減検出部42,及び不活性ビーム検出部43を含む検出統合部44を有する。
図16は、本実施の形態に係るユニット4のソフトウエア構成を示すブロック図である。図16に示すように、ユニット4は、発話者検出部41,41a、人物増減検出部42,及び不活性ビーム検出部43を含む検出統合部44を有する。なお、これらの3つの検出部41,42,43の全てを含まなくてもよい。なお、図16は、m個の指向性制御部34を有する例である。
その結果、ユニット4は、第2から第4の実施の形態で説明した利点を含むユニットとなるので、テレビ電話システム1は、ユーザにとって、より使いやすいものとなる。また、発話者の検出、人物の増減、あるいは発話の有無が検出されると、グルーピングを再度行うので、常に最適なグループ分けの状態で、テレビ電話システムは動作することができる。
以上のように、上述した第1から第5の実施の形態によれば、リアルタイム性を確保できる音響信号処理が可能な音響信号処理装置、テレビジョン装置、テレビ電話システムを提供することができる。特に、指向性がグループ単位で形成されるため、人物が多い場合、計算リソースが限られている場合等においても、少ない計算量で話者全員をカバーし、かつ雑音抑圧性能の高い音響信号処理装置、及びその応用装置を実現することができる。
なお、上述した各実施の形態では、カメラ11を用いて人物の位置を検出しているが、カメラを用いないで、人物を検出するようにしてもよい。
図17は、マイクロホンアレー12の各マイクロホンからの音響信号のみから、人物の位置を検出するユニットのソフトウエア構成を示すブロック図である。
人物位置検出部31Aは、複数のマイクロホンの音響信号から音の到来方向を推定する処理部である。推定方法としては、MUSIC法、ESPRIT法などを用いたDOA(Direction Of Arraival)推定が利用可能である。
DOA推定については、例えば、菊間信良著、「アレーアンテナによる適応信号処理」(科学技術出版、2004年)の第10章などを参照されたし。
DOA推定については、例えば、菊間信良著、「アレーアンテナによる適応信号処理」(科学技術出版、2004年)の第10章などを参照されたし。
図17の構成によれば、カメラが不要となるので、コストの低減を図ることができる。さらに、人物以外の音が少ない環境では、雑音方向に誤って人物を検出してしまう等の誤動作も発生しにくい。
なお、以上説明した動作を実行するプログラムは、コンピュータプログラム製品として、フレキシブルディスク、CD-ROM等の可搬媒体や、ハードディスク等の記憶媒体に、その全体あるいは一部を記録し、あるいは記憶するようにしてもよい。そのプログラムは、コンピュータにより読み取られて、動作の全部あるいは一部が実行される。あるいは、そのプログラムの全体あるいは一部を通信ネットワークを介して流通または提供することができる。利用者は、通信ネットワークを介してそのプログラムをダウンロードしてコンピュータにインストールしたり、あるいは記録媒体からコンピュータにインストールすることで、容易に上述した実施形態の音響信号処理装置、テレビジョン装置、テレビ電話システムを実現することができる。
本発明は、上述した実施の形態に限定されるものではなく、本発明の要旨を変えない範囲において、種々の変更、改変等が可能である。
1 テレビ電話システム、2、2A、2B テレビ、2a テレビ画面、3 インターネット、4、4A、4B ユニット、5、5A、5B リモコン、11 カメラ、12 マイクロホンアレー、13 CPU、14 ROM、15 RAM、16,17,18 I/F、19 バス、20 通信ライン、31 人物位置検出部、32 グループ分け部、33 指向性設定部、34 指向性制御部、35 合成部、36 グループ数変更部、41、41a 発話者検出部、42 人物増減検出部、43,43a 不活性ビーム検出部
Claims (10)
- 所定空間内に存在する人物の位置を検出する人物位置検出部と、
前記人物位置検出部により検出された2以上の人物の数が2以上の所定のグループ数を超えると、前記検出された2以上の人物を、前記所定のグループ数以下の数のグループに割り振るグループ分けを行うグループ分け部と、
前記グループ分け部で前記グループ分けがされた各グループの指向性を、マイクロホンアレーの指向性を制御する複数の指向性制御部に設定する指向性設定部と、
を有することを特徴とする音響信号処理装置。 - 前記グループ分け部は、前記マイクロホンアレーの雑音抑圧性能の和が最大になるように、前記グループ分けを行うことを特徴とする請求項1に記載の音響信号処理装置。
- 前記グループ分け部は、前記各グループに割り振られる人物の数が平均化するように、前記グループ分けを行うことを特徴とする請求項1に記載の音響信号処理装置。
- 前記グループ分けの結果のグループ数あるいは前記所定数を、変更するためのグループ数変更部を有することを特徴とする請求項1から3のいずれか1つに記載の音響信号処理装置。
- 発話者を検出する発話者検出部を有し、
前記グループ分け部は、前記2以上の人物の中から、前記発話者だけを対象に、前記グループ分けを行うことを特徴とする請求項1から4のいずれか1つに記載の音響信号処理装置。 - 前記人物位置検出部により検出された人物の増減を検出する人物増減検出部を有し、
前記グループ分け部は、前記人物増減検出部により検出された前記人物の増減に応じて、前記グループ分けを行うことを特徴とする請求項1から5のいずれか1つに記載の音響信号処理装置。 - 前記指向性設定部によって指向性が設定された指向性制御部の出力監視あるいは前記人物位置検出部により検出された人物の発話監視を行う発話状態監視部を有し、
前記グループ分け部は、前記発話状態監視部により、前記指向性が設定された指向性制御部の出力あるいは前記検出された人物の発話が所定時間以上観測されなくなったときは、前記所定時間以上観測されなくなった指向性制御部あるいは人物を除いて、前記グループ分けを行うことを特徴とする請求項1から6のいずれか1つに記載の音響信号処理装置。 - 前記人物位置検出部は、前記所定空間をカメラにより撮像して得られた画像により、あるいは前記所定空間からの音響信号により、前記人物の位置を検出することを特徴とする請求項1から7のいずれか1つに記載の音響信号処理装置。
- テレビジョン放送のコンテンツを表示する表示部と、
音響信号処理装置と、
通信回線を介して通信を行うための通信インターフェースと、
を有し、
前記音響信号処理装置は、
所定空間内に存在する人物の位置を検出する人物位置検出部と、
前記人物位置検出部により検出された2以上の人物の数が2以上の所定のグループ数を超えると、前記検出された2以上の人物を、前記所定のグループ数以下の数のグループに割り振るグループ分けを行うグループ分け部と、
前記グループ分け部で前記グループ分けがされた各グループの指向性を、マイクロホンアレーの指向性を制御する複数の指向性制御部に設定する指向性設定部と、
を有することを特徴とするテレビジョン装置。 - 音響信号を処理するプログラムであって、コンピュータに、
所定空間内に存在する人物の位置を検出する機能と、
検出された2以上の人物の数が2以上の所定のグループ数を超えると、前記検出された2以上の人物を、前記所定のグループ数以下の数のグループに割り振るグループ分けを行う機能と、
グループ分けがされた各グループの指向性を、マイクロホンアレーの指向性を制御する複数の指向性制御部に設定する機能と、
を実現させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010253947A JP4945675B2 (ja) | 2010-11-12 | 2010-11-12 | 音響信号処理装置、テレビジョン装置及びプログラム |
US13/172,643 US8522263B2 (en) | 2010-11-12 | 2011-06-29 | Audio signal processor, television set and computer readable medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010253947A JP4945675B2 (ja) | 2010-11-12 | 2010-11-12 | 音響信号処理装置、テレビジョン装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012105199A JP2012105199A (ja) | 2012-05-31 |
JP4945675B2 true JP4945675B2 (ja) | 2012-06-06 |
Family
ID=46049051
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010253947A Expired - Fee Related JP4945675B2 (ja) | 2010-11-12 | 2010-11-12 | 音響信号処理装置、テレビジョン装置及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US8522263B2 (ja) |
JP (1) | JP4945675B2 (ja) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8878773B1 (en) | 2010-05-24 | 2014-11-04 | Amazon Technologies, Inc. | Determining relative motion as input |
US8620113B2 (en) | 2011-04-25 | 2013-12-31 | Microsoft Corporation | Laser diode modes |
US8760395B2 (en) | 2011-05-31 | 2014-06-24 | Microsoft Corporation | Gesture recognition techniques |
US10088924B1 (en) | 2011-08-04 | 2018-10-02 | Amazon Technologies, Inc. | Overcoming motion effects in gesture recognition |
US8683054B1 (en) * | 2011-08-23 | 2014-03-25 | Amazon Technologies, Inc. | Collaboration of device resources |
US8635637B2 (en) | 2011-12-02 | 2014-01-21 | Microsoft Corporation | User interface presenting an animated avatar performing a media reaction |
US9100685B2 (en) * | 2011-12-09 | 2015-08-04 | Microsoft Technology Licensing, Llc | Determining audience state or interest using passive sensor data |
US9223415B1 (en) | 2012-01-17 | 2015-12-29 | Amazon Technologies, Inc. | Managing resource usage for task performance |
BR102012004645A2 (pt) * | 2012-03-01 | 2013-10-22 | Ibope Pesquisa De Midia E Participacoes Ltda | Aparelho, processo e sistema de medição de audiência |
US8898687B2 (en) | 2012-04-04 | 2014-11-25 | Microsoft Corporation | Controlling a media program based on a media reaction |
CA2775700C (en) | 2012-05-04 | 2013-07-23 | Microsoft Corporation | Determining a future portion of a currently presented media program |
US9678713B2 (en) | 2012-10-09 | 2017-06-13 | At&T Intellectual Property I, L.P. | Method and apparatus for processing commands directed to a media center |
US9137314B2 (en) | 2012-11-06 | 2015-09-15 | At&T Intellectual Property I, L.P. | Methods, systems, and products for personalized feedback |
JP5866505B2 (ja) * | 2012-12-27 | 2016-02-17 | パナソニックIpマネジメント株式会社 | 音声処理システム及び音声処理方法 |
JP2014143678A (ja) | 2012-12-27 | 2014-08-07 | Panasonic Corp | 音声処理システム及び音声処理方法 |
US9760966B2 (en) | 2013-01-08 | 2017-09-12 | Nvidia Corporation | Parallel processor with integrated correlation and convolution engine |
US20150022636A1 (en) * | 2013-07-19 | 2015-01-22 | Nvidia Corporation | Method and system for voice capture using face detection in noisy environments |
US9769550B2 (en) | 2013-11-06 | 2017-09-19 | Nvidia Corporation | Efficient digital microphone receiver process and system |
WO2015151130A1 (ja) * | 2014-03-31 | 2015-10-08 | パナソニックIpマネジメント株式会社 | 音声処理装置、音声処理システム、及び音声処理方法 |
US9338544B2 (en) | 2014-06-03 | 2016-05-10 | Cisco Technology, Inc. | Determination, display, and adjustment of best sound source placement region relative to microphone |
US10909384B2 (en) | 2015-07-14 | 2021-02-02 | Panasonic Intellectual Property Management Co., Ltd. | Monitoring system and monitoring method |
WO2017147325A1 (en) * | 2016-02-25 | 2017-08-31 | Dolby Laboratories Licensing Corporation | Multitalker optimised beamforming system and method |
JP6984596B2 (ja) | 2016-05-30 | 2021-12-22 | ソニーグループ株式会社 | 映像音響処理装置および方法、並びにプログラム |
JP6732564B2 (ja) * | 2016-06-29 | 2020-07-29 | キヤノン株式会社 | 信号処理装置および信号処理方法 |
JP6821390B2 (ja) * | 2016-10-25 | 2021-01-27 | キヤノン株式会社 | 音響処理装置、音響処理方法及びプログラム |
JP6742216B2 (ja) * | 2016-10-25 | 2020-08-19 | キヤノン株式会社 | 音響処理システム、音響処理方法、プログラム |
US10282911B2 (en) | 2017-05-03 | 2019-05-07 | International Business Machines Corporation | Augmented reality geolocation optimization |
TW202044236A (zh) | 2019-03-21 | 2020-12-01 | 美商舒爾獲得控股公司 | 具有抑制功能的波束形成麥克風瓣之自動對焦、區域內自動對焦、及自動配置 |
WO2021156945A1 (ja) * | 2020-02-04 | 2021-08-12 | 三菱電機株式会社 | 音声分離装置及び音声分離方法 |
JP7387167B2 (ja) * | 2020-05-01 | 2023-11-28 | tonari株式会社 | 仮想的空間接続装置、システム |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3795610B2 (ja) | 1997-01-22 | 2006-07-12 | 株式会社東芝 | 信号処理装置 |
JP3910898B2 (ja) | 2002-09-17 | 2007-04-25 | 株式会社東芝 | 指向性設定装置、指向性設定方法及び指向性設定プログラム |
JP4595364B2 (ja) | 2004-03-23 | 2010-12-08 | ソニー株式会社 | 情報処理装置および方法、プログラム、並びに記録媒体 |
JP4741261B2 (ja) * | 2005-03-11 | 2011-08-03 | 株式会社日立製作所 | ビデオ会議システム、プログラムおよび会議端末 |
JP2006287716A (ja) * | 2005-04-01 | 2006-10-19 | Tamura Seisakusho Co Ltd | 音声調整装置 |
JP4896449B2 (ja) | 2005-06-29 | 2012-03-14 | 株式会社東芝 | 音響信号処理方法、装置及びプログラム |
JP4674508B2 (ja) * | 2005-08-16 | 2011-04-20 | 富士ゼロックス株式会社 | 情報処理システムおよび情報処理プログラム |
JP2009156888A (ja) * | 2007-12-25 | 2009-07-16 | Sanyo Electric Co Ltd | 音声補正装置及びそれを備えた撮像装置並びに音声補正方法 |
JP5801026B2 (ja) * | 2009-05-28 | 2015-10-28 | 株式会社ザクティ | 画像音響処理装置及び撮像装置 |
JP2011066805A (ja) * | 2009-09-18 | 2011-03-31 | Oki Electric Industry Co Ltd | 収音装置および収音方法 |
US8248448B2 (en) * | 2010-05-18 | 2012-08-21 | Polycom, Inc. | Automatic camera framing for videoconferencing |
US9628755B2 (en) * | 2010-10-14 | 2017-04-18 | Microsoft Technology Licensing, Llc | Automatically tracking user movement in a video chat application |
-
2010
- 2010-11-12 JP JP2010253947A patent/JP4945675B2/ja not_active Expired - Fee Related
-
2011
- 2011-06-29 US US13/172,643 patent/US8522263B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US8522263B2 (en) | 2013-08-27 |
US20120124603A1 (en) | 2012-05-17 |
JP2012105199A (ja) | 2012-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4945675B2 (ja) | 音響信号処理装置、テレビジョン装置及びプログラム | |
KR102312124B1 (ko) | 향상된 오디오를 갖는 디바이스 | |
US9226070B2 (en) | Directional sound source filtering apparatus using microphone array and control method thereof | |
KR101826274B1 (ko) | 조정가능한 오디오 채널들을 갖는 음성 제어 오디오 레코딩 또는 전송 장치 | |
CN107534725B (zh) | 一种语音信号处理方法及装置 | |
US20100254543A1 (en) | Conference microphone system | |
US9521486B1 (en) | Frequency based beamforming | |
EP2536170A1 (en) | Hearing aid, signal processing method and program | |
US20120303363A1 (en) | Processing Audio Signals | |
JP2008288785A (ja) | テレビ会議装置 | |
JP5130298B2 (ja) | 補聴器の動作方法、および補聴器 | |
US10225670B2 (en) | Method for operating a hearing system as well as a hearing system | |
JP4892927B2 (ja) | 撮影装置、および通信会議システム | |
EP2394444A1 (en) | Conference microphone system | |
US10152985B2 (en) | Method for recording in video chat, and terminal | |
JP2017168903A (ja) | 情報処理装置、会議システムおよび情報処理装置の制御方法 | |
EP3528509B9 (en) | Audio data arrangement | |
JP2019537071A (ja) | 分散したマイクロホンからの音声の処理 | |
JP2006339869A (ja) | 映像信号と音響信号の統合装置 | |
JP2007104060A (ja) | 音声の指向性制御機能を有するテレビジョン受信機システム | |
JP2016219966A (ja) | 指向性制御システム及び音声出力制御方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120305 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150309 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |