WO2015151130A1

WO2015151130A1 - 音声処理装置、音声処理システム、及び音声処理方法

Info

Publication number: WO2015151130A1
Application number: PCT/JP2014/001898
Authority: WO
Inventors: 岸本　倫典; 泰章渡邊; 高桑　誠; 中村　学; 秀樹首藤; 田村　健二; 龍次山崎; 寛夫齊藤; 明寛秋山
Original assignee: パナソニックＩｐマネジメント株式会社
Priority date: 2014-03-31
Filing date: 2014-03-31
Publication date: 2015-10-08
Also published as: CN105474665A; JPWO2015151130A1

Abstract

　音声データおよび画像データの活用を促進し、利便性を向上できる音声処理装置を提供する。音声処理装置は、複数のマイクロホンを含む収音部により収音された音声データおよび、撮像部により撮像された画像データを取得するデータ取得部と、前記画像データに基づき表示される画像上の指定箇所に対応する、前記収音部を基準とした方向を、複数指定する指定部と、前記指定部により指定された複数の方向の、前記音声データにおける音声成分を強調する指向性処理部と、を備える。

Description

音声処理装置、音声処理システム、及び音声処理方法

　本発明は、音声処理装置、音声処理システム、及び音声処理方法に関する。

　従来、例えば、工場、店舗、公共の場所の状況を、特定の室内又は遠隔地において監視する場合に、監視システムが利用されている。監視システムは、例えば、画像を撮像するカメラ、音声を収音するマイクロホン、所定のデータ（例えば、撮像した画像、収音された音声）を記憶するレコーダ装置、を備える。監視システムを用いることで、例えば、事件又は事故が発生した場合、レコーダ装置が記録した過去のデータを再生し、記録された画像又は音声を過去の時点における状況把握に役立てることができる。

　従来の監視システムとして、全方位カメラ及びマイクロホンアレイのためのシステムが知られている。このシステムは、複数のマイクロホンにより形成されたアレイマイクを利用し、フィルタリングにより特定の方向からの音のみを抽出し、ビームを形成する（例えば、特許文献１参照）。

日本国特開２００４－３２７８２号公報

　アレイマイクを用いて収音された音声データには、様々な有益な情報が含まれている可能性がある。特許文献１の監視システムでは、音声データおよび画像データの活用が不十分であり、監視システムを利用する利用者の利便性を向上させることが期待される。

　本発明は、上記事情に鑑みてなされたものであり、音声データおよび画像データの活用を促進し、利便性を向上できる音声処理装置、音声処理システム、及び音声処理方法を提供する。

　本発明の一形態における音声処理装置は、複数のマイクロホンを含む収音部により収音された音声データおよび、撮像部により撮像された画像データを取得するデータ取得部と、前記画像データに基づき表示される画像上の指定箇所に対応する、前記収音部を基準とした方向を、複数指定する指定部と、前記指定部により指定された複数の方向の、前記音声データにおける音声成分を強調する指向性処理部と、を備える。

　また、本発明の他の形態における音声処理システムは、複数のマイクロホンを用いて収音する収音部を含む収音装置と、画像を撮像する撮像部を含む撮像装置と、前記収音部により収音された音声データを処理する音声処理装置と、を備え、前記音声処理装置は、前記収音部により収音された音声データおよび、前記撮像部により撮像された画像データを取得するデータ取得部と、前記画像データに基づき表示される画像上の指定箇所に対応する、前記収音部を基準とした方向を、複数指定する指定部と、前記指定部により指定された複数の方向の、前記音声データにおける音声成分を強調する指向性処理部と、を備える。

　また、本発明のさらに他の形態における音声処理方法は、複数のマイクロホンを含む収音部により収音された音声データおよび、撮像部により撮像された画像データを取得するステップと、前記画像データに基づき表示される画像上の指定箇所に対応する、前記収音部を基準とした方向を複数指定するステップと、前記指定された複数の方向の、前記音声データにおける音声成分を強調するステップと、を有する。

　本発明によれば、音声データおよび画像データの活用を促進し、利便性を向上できる。

第１の実施形態における監視システムの概要図第１の実施形態における監視システムの構成例を示すブロック図第１の実施形態におけるアレイマイク、カメラ及び各音源の配置状態の一例を示す平面図第１の実施形態における監視制御装置の動作例を示すフローチャート第１の実施形態における指向性処理の概要図第２の実施形態における監視システムの概要図第２の実施形態における監視システムの構成例を示すブロック図第２の実施形態における監視制御装置の動作例を示すフローチャート

　本発明の実施形態について、図面を用いて以下に説明する。

（第１の実施形態）
　図１は第１の実施形態における監視システム１００の概要図である。監視システム１００では、アレイマイク１０（Ａｒｒａｙ　ｍｉｃｒｏｐｈｏｎｅｓ）、カメラ２０、及び監視制御装置３０が、有線又は無線のネットワーク５０を介して接続される。

　アレイマイク１０は収音部、収音装置の一例である。カメラ２０は撮像部、撮像装置の一例である。監視制御装置３０は、音声処理装置の一例である。監視システム１００は、音声処理システムの一例である。

　アレイマイク１０は、複数のマイクロホン１１（１１Ａ，１１Ｂ，１１Ｃ，・・・）を含み、アレイマイク１０の周囲の音を収音し、音声データを得る。カメラ２０は、カメラ２０により撮像可能な所定のエリアを撮像し、画像データを得る。画像データは、例えば、動画又は静止画を含む。監視制御装置３０は、アレイマイク１０による収音結果、カメラ２０による撮像結果に応じて、監視に係る各種処理を行う。

　監視システム１００では、ユニット筐体９１に、１個のカメラ２０と、アレイマイク１０に含まれる１６個のマイクロホン１１（１１Ａ，１１Ｂ，１１Ｃ，・・・）と、が一体的に組み込まれ、収音ユニット９０を形成する。なお、アレイマイク１０におけるマイクロホンの数は、１５個以下でも、１７個以上でもよい。また、アレイマイク１０とカメラ２０とは収音ユニット９０を形成せず、別体に形成されてもよい。

　カメラ２０は、例えば、撮像方向の中心（光軸方向）を鉛直下向きにして、ユニット筐体９１の略中央部に配置される。アレイマイク１０において複数のマイクロホン１１は、ユニット筐体９１の設置面に沿ってカメラ２０の周囲を取り囲むように、１つの円周上に一定の間隔で配置される。複数のマイクロホン１１は、円周上でなく、例えば矩形上に配置されてもよい。なお、このようなカメラ２０及び複数のマイクロホン１１の配置関係、配置形状は一例であり、他の配置関係、配置形状でもよい。

　カメラ２０は、例えば、広範囲（例えば全方位）の被写体を同時に撮像可能に構成される。各マイクロホン１１は、例えば、広範囲（例えば全方位）から到来する音波を検出可能に構成される。

　図２は監視システム１００の構成例を示すブロック図である。

　監視システム１００は、アレイマイク１０、カメラ２０、及び監視制御装置３０を備える。アレイマイク１０、カメラ２０、及び監視制御装置３０は、ネットワーク５０を介して互いにデータ通信可能な状態で接続される。また、監視制御装置３０には、例えば、モニタ６１、タッチパネル６２、及びスピーカ６３が接続される。

　図２の構成は、例えば、画像及び音声をリアルタイムで監視する場合、画像データ及び音声データを監視制御装置３０が記録する場合が想定される。なお、画像データをカメラ２０が記録し、音声データをアレイマイク１０が記録し、記録後に画像データ及び音声データが参照可能にされてもよい。

　また、以下では、主に、アレイマイク１０に含まれる複数のマイクロホン１１のうち、３個のマイクロホン１１Ａ，１１Ｂ，１１Ｃを代表して説明する。３個のマイクロホン１１Ａ～１１Ｃ以外のマイクロホンについても、マイクロホン１１Ａ～１１Ｃと同様の構成及び機能を有する。

　アレイマイク１０は、複数のマイクロホン１１Ａ，１１Ｂ，１１Ｃが互いに近接した状態で規則的（例えば円周上）に配列され、形成される。マイクロホン１１Ａ～１１Ｃは、音声を電気信号（音声データ）に変換する変換器である。アレイマイク１０では、複数のマイクロホン１１Ａ，１１Ｂ，１１Ｃが規則的に配置されなくてもよい。この場合でも、例えば、各マイクロホン１１Ａ～１１Ｃの位置の情報が監視システム１００に保持され、指向性処理されてもよい。

　マイクロホン１１Ａ～１１Ｃの出力には、増幅器１２Ａ～１２Ｃ、Ａ／Ｄ変換器（ＡＤＣ：Ａｎａｌｏｇ　ｔｏ　Ｄｉｇｉｔａｌ　Ｃｏｎｖｅｒｔｅｒ）１３Ａ～１３Ｃ、及び音声エンコーダ１４Ａ～１４Ｃが接続される。また、音声エンコーダ１４Ａ～１４Ｃの出力には、ネットワーク処理部１５が接続される。

　マイクロホン１１Ａ～１１Ｃは、様々な方向から入力される音響の振動に応じた音声データを生成する。この音声データは、アナログ音声データである。増幅器１２Ａ～１２Ｃは、マイクロホン１１Ａ～１１Ｃが出力する音声データを増幅する。Ａ／Ｄ変換器（ＡＤＣ）１３Ａ～１３Ｃは、増幅器１２Ａ～１２Ｃが出力する音声データを周期的にサンプリングし、音声データをデジタルデータに変換する。音声エンコーダ１４Ａ～１４Ｃは、Ａ／Ｄ変換器１３Ａ～１３Ｃが出力する音声データ（音声データの波形の時系列変化）を符号化して、伝送に適した所定の形式の音声データを生成する。

　尚、本実施形態における「音声」は、人間の発声によって得られる音声の他に、例えば、機械的な振動によって発生する一般的な音響又はノイズの成分が含まれてもよい。また、「音声」には、例えば監視対象である音声以外の音声が含まれてもよい。つまり、マイクロホン１１Ａ～１１Ｃにより収音された音響の信号は、音響の種類を区別せずに「音声」と記載されることもある。

　ネットワーク処理部１５は、音声エンコーダ１４Ａ～１４Ｃが生成した音声データを取得し、音声データをネットワーク５０へ送出する。例えば、マイクロホン１１Ａ～１１Ｃが収集した音声に対して、音声エンコーダ１４Ａ～１４Ｃが独立した音声データを生成する。よって、ネットワーク処理部１５は、各マイクロホン１１Ａ～１１Ｃに対応する複数チャネルの音声データをネットワーク５０に送出する。

　カメラ２０は、レンズ２１、センサ２２、画像エンコーダ２３、及びネットワーク処理部２４を備える。

　レンズ２１は、例えば全方位レンズ、魚眼レンズである。センサ２２は、撮像デバイスであり、例えば、ＣＣＤ（Ｃｈａｒｇｅ　Ｃｏｕｐｌｅｄ　Ｄｅｖｉｃｅ）イメージセンサ、ＣＭＯＳ（Ｃｏｍｐｌｅｍｅｎｔａｒｙ　Ｍｅｔａｌ　Ｏｘｉｄｅ　Ｓｅｍｉｃｏｎｄｕｃｔｏｒ）イメージセンサ、を含む。センサ２２は、レンズ２１を介してセンサ２２の撮像面に入射される被写体の光像に応じて、画像データを生成する。

　画像エンコーダ２３は、センサ２２が出力する画像データを順次処理し、所定の規格に適合する画像データを生成する。ネットワーク処理部２４は、画像エンコーダ２３が生成した画像データを、ネットワーク５０へ送出する。

　監視制御装置３０は、例えば、ＰＣ（Ｐｅｒｓｏｎａｌ　Ｃｏｍｐｕｔｅｒ）である。監視制御装置３０は、例えば、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、又はＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）を含む。監視制御装置３０は、例えば、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、又はＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）を含む。

　監視制御装置３０は、例えば、ＣＰＵ又はＤＳＰにより、ＲＯＭ又はＲＡＭに記録された制御用のプログラム（例えば、アプリケーションプログラム、アクティブＸ形式のプログラム）を実行することにより、各種機能を実現する。また、ＲＯＭ又はＲＡＭは、図示しないメモリを形成する。

　監視制御装置３０は、ネットワーク処理部３１、画像デコーダ３２、画像出力部３３、画像認識部３４、収音座標指定部３５、音声デコーダ３６、及び指向性処理部３７を備える。また、監視制御装置３０は、収音角度演算部３８、検出部３９、音源推定部４０、音声合成部４１、音声出力部４２、及びデータ記録部４３を備える。

　ネットワーク処理部３１は、ネットワーク５０を経由して、アレイマイク１０及びカメラ２０との間においてデータ通信する。データ通信により、ネットワーク処理部３１は、アレイマイク１０から複数のチャネルの音声データを取得し、カメラ２０から画像データを取得する。ネットワーク処理部３１は、データ取得部の一例である。

　ネットワーク処理部３１は、アレイマイク１０が送出する音声データとカメラ２０が送出する画像データとを、アレイマイク１０及びカメラ２０から直接取得してもよい。ネットワーク処理部３１は、データ記録部４３に記録された音声データ又は画像データ（少なくとも音声データ）を、任意の時点においてデータ記録部４３から読み出して取得してもよい。ネットワーク処理部３１は、アレイマイク１０及びカメラ２０から直接取得した音声データ又は画像データを、任意の時点においてデータ記録部４３に記録させてもよい。

　画像デコーダ３２は、ネットワーク処理部３１からの画像データを復号し、再生可能な画像データを生成する。

　画像出力部３３は、画像デコーダ３２からの画像データを、モニタ６１が表示可能な形式の画像データに変換し、モニタ６１に送出する。また、画像出力部３３は、モニタ６１による表示を制御してもよい。また、画像出力部３３は、検出部３９からの検出情報に応じた画像データを、モニタ６１に送出してもよい。

　モニタ６１は、各種の画像データを表示する。モニタ６１は、例えば、画像出力部３３からの画像データに応じて、画像を表示する。例えば、カメラ２０が撮像した画像がモニタ６１に表示される。モニタ６１は、提示部の一例である。

　画像認識部３４は、画像出力部３３からの画像データに対して所定の画像処理を実行し、例えば、図示しないメモリに事前に登録された様々なパターンの画像と一致するか否かを認識してもよい。例えば、パターンマッチングの処理を実行し、画像に含まれる様々な物体の中から、所定の人物又は所定の人物の顔に類似するパターンを抽出する。人物以外の物体のパターンを抽出してもよい。

　また、画像認識部３４は、例えば、画像データに含まれる物体の種類（例えば、人物、男性、女性）を識別してもよい。また、画像認識部３４は、ＶＭＤ（Ｖｉｄｅｏ　Ｍｏｔｉｏｎ　Ｄｅｔｅｃｔｏｒ）機能を有し、画像データ内における動きの有無を検出してもよい。

　収音座標指定部３５は、例えば、タッチパネル６２又は画像認識部３４から入力を複数受け付け、入力位置又は入力範囲に対応する座標を複数導出する。例えば、モニタ６１の画面上に表示される画像において、操作者６０が注目すべき複数の位置（例えば図１の符号Ｐ１，Ｐ２）の座標を、複数の収音座標（ｘ，ｙ）として受け付ける。収音座標指定部３５は、画像データに基づき表示される画像上の指定箇所（例えば収音座標）に対応する、収音部（例えばアレイマイク１０）を基準とした方向を、複数指定する指定部の一例である。

　操作者６０は、例えば、モニタ６１を見ながらタッチパネル６２を操作する。操作者６０は、タッチパネル６２における移動操作（例えばドラッグ操作）に伴って画面上に表示されるポインタ（図示せず）の位置が移動するので、収音座標を画面上の表示範囲において変更できる。例えば、操作者６０によるタッチパネル６２のタッチ操作により、ポインタの座標が収音座標として収音座標指定部３５に与えられる。操作者６０は、監視システム１００を用いて監視する監視者の一例である。

　タッチパネル６２以外の入力手段を用いて収音座標を指定してもよい。例えば、監視制御装置にマウスが接続され、操作者６０が、マウスを用いて所望の画像範囲をタッチしてもよい。

　また、画像認識部３４は、事前に登録されたパターンが画像データに含まれると認識した場合、認識されたパターンが存在するモニタ６１における複数の位置（例えば、図１の符号Ｐ１，Ｐ２）の座標を、収音座標として収音座標指定部３５に与えてもよい。認識されたパターンは、例えば、人物の全体、人物の顔である。

　音声デコーダ３６は、ネットワーク処理部１５からの複数チャネルの音声データを入力し、復号する。また、音声デコーダ３６では、複数チャネルの音声データを処理する音声デコーダが各々独立して設けられてもよい。この場合、アレイマイク１０のマイクロホン１１Ａ～１１Ｃの各々が収集した複数チャネルの音声データを同時に処理できる。

　収音角度演算部３８は、収音座標指定部３５が決定した収音座標に基づいて、アレイマイク１０の指向性の方向を表す収音角度θを導出（例えば算出）する。収音角度演算部３８が導出した収音角度θが、指向性処理部３７のパラメータとして入力される。例えば、収音座標と収音角度θとは１対１で対応しており、この対応情報を含む変換テーブルが図示しないメモリに格納されてもよい。収音角度演算部３８は、この変換テーブルを参照し、収音角度θを導出してもよい。

　指向性処理部３７は、収音角度演算部３８から収音角度θの情報及び音声デコーダ３６から音声データを取得する。指向性処理部３７は、収音角度θに応じて、音声デコーダ３６から出力される複数チャネルの音声データを、所定のアルゴリズムに従って合成し、指向性を形成する（指向性処理）。

　例えば、指向性処理部３７は、監視対象の人物が存在する場所（注目点）の方向（指向性の方向）の音声成分の信号レベルを上げ、これ以外の方向の音声成分の信号レベルを下げる。なお、指向性の方向は、操作者６０が監視対象の位置を複数指定した場合には、複数存在する。指向性処理部３７は、指向性処理された複数の音声データを、検出部３９及び音声合成部４１へ出力する。

　指向性処理部３７は、音源推定部４０により推定された音源（例えば監視対象の人物、異常音）の位置に応じて、指向性処理してもよい。指向性処理部３７は、例えば、音源推定部４０から音源の推定位置の情報を複数回取得し、取得の度に指向性の方向を変更（例えば切り替え）してもよい。これにより、音源が移動する場合でも、音源の位置を追尾して監視できる。つまり、音源の位置の追尾では、推定された音源の位置に対して、指向性が向けられる。

　検出部３９は、指向性処理部３７により指向性処理された複数の音声データを取得する。この音声データは、例えば、第１の指向性の方向の音声成分が強調された第１の音声データと、第２の指向性の方向の音声成分が強調された第２の音声データと、を含む。検出部３９は、取得された複数の音声データの少なくとも１つから、監視対象音（所定の音の一例）を検出する。つまり、検出部３９は、音検出部としての機能を有する。なお、音声成分の強調とは、例えば、複数のマイクロホンにより形成されたアレイマイクを利用し、フィルタリングにより特定の方向からの音のみを抽出することである。

　また、検出部３９は、監視対象音が検出された場合、様々な処理を行う。検出部３９の詳細について、後述する。検出部３９は、監視対象音が検出された場合に所定の処理を行う処理部の一例である。

　音源推定部４０は、音声デコーダ３６からの音声データを取得し、検出部３９により検出された監視対象音を発する音源の位置を推定する。音源は、例えば、会話中の人物、物音を発している人物、特定の人物（男性、女性）、物体（例えば緊急車両）、異常音（例えば、非常ベル、サイレン）の発生源、特定の環境音の発生源、その他の音源を広く含む。音源推定部４０は、推定部の一例である。

　音源推定部４０は、例えば、公知の音源推定技術により、音源の位置を推定する。音源推定部４０による音源の位置の推定結果は、例えば、指向性処理部３７による異常音の追尾、指向性の切り替え、に用いられる。

　音源推定部４０は、音源の位置の推定結果を、例えば画像出力部３３又は音声出力部４２へ出力してもよい。画像出力部３３又は音声出力部４２が、音源の位置の推定結果を提示することで、操作者６０は、容易に音源の位置を把握できる。

　音声合成部４１は、指向性処理部３７から指向性処理された複数の音声データを取得し、複数の音声データを合成する。音声合成部４１は、例えば、取得された複数の音声データの信号レベルを単純に加算することで音声データを合成し、合成された音声データを音声出力部４２へ出力してもよい。音声合成部４１は、例えば、ボイススイッチを有し、音声データの信号レベルが所定レベル以上の音声データ又は信号レベルが最大の音声データを選択して通過させ、音声出力部４２へ出力してもよい。

　音声出力部４２は、例えば、音声合成部４１からの音声データをデジタル音声データからアナログ音声データに変換し、音声データを増幅し、スピーカ６３に与える。

　スピーカ６３は、音声出力部４２からの音声データに相当する音を出力する。従って、操作者６０は、アレイマイク１０により収音された音声データが処理された音を、スピーカ６３から聴くことができる。スピーカ６３は、提示部の一例である。

　データ記録部４３は、例えば、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）を含み、ネットワーク処理部３１が取得した複数チャネルの音声データ又は画像データを、順次記録してもよい。データ記録部４３は、音声データ及び画像データを記録する場合、音声データの生成時刻と画像データの生成時刻とを対応づけて記録する。また、上記生成時刻の情報を、音声データ又は画像データと共に記録してもよい。データ記録部４３は、監視制御装置３０の内部に設けてもよいし、あるいは、監視制御装置３０の外部に外部記録媒体として設けてもよい。

　また、データ記録部４３は、例えば、記録された音声データ又は画像データを検索するための検索用タグの情報を記録する。データ記録部４３に記録された検索用タグは、監視制御装置３０における他の構成部により、適宜参照される。

　次に、検出部３９の詳細について説明する。

　検出部３９は、例えば、指向性処理された音声データの信号レベルが第１の所定閾値以上又は第２の所定閾値以下である場合に、この音声データを監視対象音として検出する。音声データの信号レベルと比較される閾値の情報は、例えば図示しないメモリに保持される。音声データの信号レベルが第２の所定閾値以下となる場合には、例えば、機械の動作音が発生していたが、この機械が停止して動作音がなくなる場合を含む。

　検出部３９は、例えば、指向性処理された音声データに含まれる異常音を、監視対象音として検出する。例えば、異常音のパターンが図示しないメモリに記憶されており、検出部３９は、音声データに異常音のパターンが含まれる場合、異常音を検出する。

　検出部３９は、例えば、指向性処理された音声データに含まれる所定のキーワードを、監視対象音として検出する。例えば、キーワードの情報が図示しないメモリに記憶されており、検出部３９は、音声データにメモリに記録されたキーワードが含まれる場合、キーワードを検出する。なお、キーワードが検出される場合、例えば、公知の音声認識技術が用いられてもよい。この場合、検出部３９が、公知の音声認識機能を有する。

　なお、監視対象音は、予め設定されていてもよい。例えば、検出部３９は、信号レベルが第１の所定閾値以上又は第２の所定閾値以下の音、異常音、キーワードの少なくとも１つを監視対象音として設定しておいてもよい。この設定情報は、例えば図示しないメモリに記憶される。

　検出部３９は、上記の監視対象音を検出した場合、監視対象音を検出した旨の情報（検出情報）を、画像出力部３３及び音声出力部４２の少なくとも一方に送る。検出情報は、例えば、異常音、第１の所定閾値以上又は第２の所定閾値以下の信号レベルを有する音、所定のキーワードが検出された旨の警告情報（アラーム）を含む。

　また、検出部３９は、監視対象音を検出した場合、データ記録部４３に対して所定の情報を送る。検出部３９は、監視対象音を検出した場合、例えば、検索用タグの情報をデータ記録部４３へ送り、保持させてもよい。検索用タグは、監視対象音を含む音声データ又はこの音声データに対応する画像データを、データ記録部４３から検索するためのタグである。

　検索用タグは、例えば、リアルタイムで取得された音声データ又は画像データと同じタイミングで、データ記録部４３に記録されてもよい。また、検索用タグは、例えば、既にデータ記録部４３に記録されている音声データ又は画像データに対応づけて、データ記録部４３に記録されてもよい。

　例えば、タッチパネル６２を介して、操作者６０が検索用タグと一致する又は対応する情報を入力することで、画像デコーダ３２又は音声デコーダ３６は、データ記録部４３に記録された音声データ又は画像データのうち、検索用タグと一致する又は対応するデータを検索し、取得する。従って、例えば、音声データ又は画像データを長時間録音又は録画する場合でも、検索時間を短縮できる。

　また、操作者６０が、例えばタッチパネル６２を介して、複数の検索用タグが時系列に並べられたリストから特定の検索用タグを選択してもよい。この場合、操作者６０は、生成時刻が最古の又は最新の検索用タグから順に特定の検索用タグを選択してもよい。また、操作者６０は、例えばタッチパネル６２を介して、計時部（不図示）により計時された時刻に対応する時刻に生成された検索用タグを、特定の検索用タグとして選択してもよい。画像デコーダ３２又は音声デコーダ３６は、データ記録部４３に記録された音声データ又は画像データのうち、上記特定の検索用タグと一致する又は対応するデータを検索し、取得する。リストは、例えばデータ記録部４３に記録される。

　検索用タグは、例えば、検出部３９により監視対象音が検出された時刻の情報を含む。検索用タグは、例えば、監視対象音が発生した音源の方向（指向性の方向）の情報を含む。検索用タグは、例えば、監視対象音の種別（異常音、キーワードを含む音、所定閾値以上又は所定閾値以下の信号レベルの音）の情報を含む。音の種別は、例えば、検出部３９により、公知の音声認識技術を用いて判定される。

　検索用タグは、例えば、ＶＭＤ機能により検出された監視対象音の音源の動きの有無又は動きの方向の情報を含む。動きの有無等が検出される音源は、例えば、上記の監視対象音の発生時刻又は発生時間帯にカメラ２０により撮像された画像データに含まれる。ＶＭＤ機能により検出された情報は、例えば動きが検出される度に、画像認識部３４から検出部３９へ送られる。

　検索用タグは、例えば、画像認識部３４により画像認識された監視対象音の音源の種別の情報を含む。音源の種別が認識される画像データは、例えば、監視対象音の発生時刻又は発生時間帯にカメラ２０により撮像された画像データである。音源の種別の情報は、画像認識部３４から検出部３９へ送られる。

　検索用タグは、例えば、サムネイル画像（静止画）を含む。サムネイル画像は、例えば、監視対象音の発生時刻又は発生時間帯にカメラ２０により撮像された画像データの少なくとも一部である。サムネイル画像は、画像認識部３４から検出部３９へ送られる。

　検出部３９は、監視対象音を検出した場合、ネットワーク処理部３１により受信された音声データ又は画像データの録音又は録画を開始してもよい。例えば、ネットワーク処理部３１は、所定期間（例えば３０秒間）の音声データ又は画像データを一時的に蓄積し、検出部３９により監視対象音が検出されない場合に、一時的に蓄積された音声データ又は画像データを破棄する。検出部３９は、監視対象音を検出した場合、ネットワーク処理部３１へ指示し、一時的に蓄積中の音声データ又は画像データを含めて、音声データ又は画像データをデータ記録部４３へ記録するよう制御する（プレ録音、プレ録画）。また、データ記録部４３は、ネットワーク処理部３１からの音声データ又は画像データを記録する。プレ録音、プレ録画は、所定時間経過後に終了されてもよい。

　検出部３９は、監視対象音として所定のキーワードを検出した場合、当該キーワードを含む音声データをデータ記録部４３へ記録せず、消去してもよい。あるいは、検出部３９は、監視対象音として所定のキーワードを検出した場合、音声データから当該キーワードの部分を消去してもよいし、当該キーワード以外の音により置換してもよい。検出部３９は、キーワードの部分が消去又は置換された音声データを、データ記録部４３へ記録させてもよい。これにより、キーワードが秘匿されるべき情報である場合に、秘匿情報やプライバシーを保護できる。このようなキーワードの消去又は置換に関する処理を、「キーワード加工」とも称する。なお、キーワード加工は、データ記録部４３へ記録済みの音声データに対して行われてもよい。

　検出部３９は、監視対象音を検出した場合、指向性処理部３７に対して、指向性の方向を切り替えるよう指示してもよい。この場合、指向性処理部３７は、指向性の方向を所定の方向に切り替えてもよい。例えば、カメラ２０の撮像可能範囲に含まれる複数地点（地点Ａ、地点Ｂ）の情報を、予め図示しないメモリに登録しておく。地点Ａの方向において監視対象音が検出された場合、指向性処理部３７は、指向性の方向を地点Ａの方向から地点Ａ以外の地点（例えば地点Ｂ）の方向へ切り替えてもよい。

　検出部３９は、監視対象音として所定のキーワードを検出した場合、当該キーワードを含む音声データをデータ記録部４３へ記録させてもよい。この記録には、プレ録音、プレ録画を含んでもよい。これにより、操作者６０が監視すべきキーワードを予め登録しておくことで、キーワードをトリガに記録開始でき、監視精度を向上できる。

　次に、アレイマイク１０、カメラ２０及び各音源の配置状態について説明する。
　図３は、アレイマイク１０、カメラ２０及び各音源の配置状態の一例を示す模式図である。

　図３では、例えば、収音ユニット９０が屋内の天井面１０１に固定される。図３では、アレイマイク１０に含まれる複数のマイクロホン１１Ａ～１１Ｃは、天井面１０１（収音ユニット９０の設置面）に沿って配列される。符号ＰＡは、音源を示す。

　また、収音ユニット９０は、アレイマイク１０の基準方向とカメラ２０の基準方向（例えば光軸方向）とが一致するよう天井面１０１に取り付けられる。アレイマイク１０の基準方向に対する水平方向及び垂直方向と、カメラ２０の基準方向に対する水平方向及び垂直方向とは、一致する。この水平方向はｘ軸方向，ｙ軸方向であり、垂直方向はｚ軸方向である。

　アレイマイク１０の基準方向は、例えば、アレイマイク１０における各マイクロホン１１が配列された配列方向である。収音角度θは、アレイマイク１０の基準方向と指向性の方向とにより形成される角度である。アレイマイク１０の基準方向と指向性の方向とにより形成される収音角度θの水平方向成分は、水平角θｈである。アレイマイク１０の基準方向と指向性の垂直方向とにより形成される収音角度θの垂直方向成分は、垂直角θｖである。

　収音ユニット９０では、アレイマイク１０における各マイクロホン１１が円周上に一定の間隔で配列されるので、配列面（ｘ－ｙ面）に沿う水平方向に対しては、どの向きに対しても音声データの周波数特性が同様になる。従って、図３の例では、収音角度θは、実質的に垂直角θｖに依存する。そのため、以下の説明では主に、収音角度θとして水平角θｈを考慮しないで説明する。

　図３に示すように、収音ユニット９０におけるアレイマイク１０の収音角度θ（垂直角θｖ）は、マイクロホン１１Ａ～１１Ｃの配列面と平行な方向（ｘ軸，ｙ軸）と、指向性の感度が最大になる方向と、のなす角度である。

　マイクロホン１１Ａ～１１Ｃは、マイクロホン１１Ａ～１１Ｃに向かって到来する音声を収音する。また、カメラ２０は、直下（ｚ軸方向）の方向を基準方向（光軸方向）として、カメラ２０の周囲における例えば全方位を撮像する。

　なお、アレイマイク１０による収音対象又はカメラ２０による撮像対象は、全方位でなく、一部の方向に制限されてもよい。また、アレイマイク１０又は監視制御装置３０は、一部の方向に収音対象が制限された状態で収音された音声データを合成し、収音対象が全方位である場合と同様の音声データを生成してもよい。また、カメラ２０又は監視制御装置３０は、一部の方向に撮像対象が制限された状態で撮像された画像信号を合成し、撮像対象が全方位である場合と同様の画像信号を生成してもよい。

　なお、例えば、アレイマイク１０の基準方向とカメラ２０の基準方向とが不一致である場合、水平角θｈが考慮されてもよい。この場合、水平角θｈと垂直角θｖとを考慮し、例えば３次元（ｘ，ｙ，ｚ）の位置又は方向に応じて、指向性が形成されてもよい。

　次に、監視制御装置３０の動作例について説明する。
　図４は、監視制御装置３０の動作例を示すフローチャートである。

　図４は、リアルタイム動作例を示す。リアルタイム動作は、例えば、アレイマイク１０が収音した音声データ、及びカメラ２０が撮像した画像を、操作者６０が監視制御装置３０を用いてリアルタイムで監視する場合の動作である。

　図４では、まず、ネットワーク処理部３１は、カメラ２０が送出した画像データを、ネットワーク５０を経由して受信する。また、ネットワーク処理部３１は、アレイマイク１０が送出した複数チャネルの音声データを、ネットワーク５０を経由して受信する（Ｓ１１）。

　ネットワーク処理部３１が受信した画像データは、画像デコーダ３２により復号され、画像出力部３３へ送られる。画像出力部３３は、復号された画像データをモニタ６１に出力し、モニタ６１が画像を表示するよう制御する（Ｓ１２）。また、ネットワーク処理部３１は、画像データ及び音声データをデータ記録部４３へ記録させてもよい。

　続いて、収音座標指定部３５は、例えばタッチパネル６２からの座標入力を複数受け付ける（Ｓ１３）。例えば、操作者６０は、モニタ６１に表示される画像の表示位置を視認し、タッチパネル６２を操作して注目すべき画像範囲を指定する。

　収音座標指定部３５は、指定された画像範囲に対応する収音座標を導出する。操作者６０は、例えば、モニタ６１に表示された画像に含まれる特定の人物の位置（例えば図１の符号Ｐ１，Ｐ２）をタッチすることで、収音座標指定部３５は、複数の収音座標を取得する。上記画像範囲は、例えば、監視者が監視すべき監視領域の一例である。

　収音座標指定部３５は、操作者６０による画像範囲の指定の代わりに、画像認識部３４が画像から所定のパターンを複数認識し、所定のパターンが存在する座標を収音座標として複数取得してもよい。

　収音角度演算部３８は、収音座標指定部３５により取得された収音座標を基に、例えば変換テーブルを参照し、又は公知の演算処理をすることにより、収音角度θを導出する（Ｓ１４）。

　収音角度演算部３８により導出された複数の収音角度θは、指向性処理部３７に入力される。指向性処理部３７は、収音角度θに応じてアレイマイク１０の指向性処理のためのパラメータを導出する。そして、指向性処理部３７は、音声デコーダ３６からの音声データに対し、導出されたパラメータを用いて指向性処理する（Ｓ１５）。これにより、指向性処理部３７が出力する音声データでは、例えば、収音角度θの方向に対してアレイマイク１０の収音感度が最大になる。

　続いて、検出部３９は、指向性処理された音声データから、監視対象音（例えば、異常音、所定のキーワード、第１の所定閾値以上又は第２の所定閾値以下の信号レベルの音）を検出する（Ｓ１６）。監視対象音が検出されるまで、Ｓ１６において待機される。

　続いて、画像認識部３４は、例えば、検出された監視対象音の音源を含む画像データを画像認識し、監視対象音の音源の種別（例えば、人、男性、女性、物体、その他の音源）を識別してもよい（Ｓ１７）。これにより、操作者６０が音源の種別に応じて監視すべきか否かを容易に判断できるので、操作者６０の負担を軽減でき、監視精度を向上できる。

　画像認識部３４は、例えば、ＶＭＤ機能を用いて、監視対象音の音源の動きを検出してもよい（Ｓ１７）。これにより、操作者６０が音源の動きに容易に注目できるので、操作者６０の負担を軽減でき、監視精度を向上できる。

　画像認識部３４は、画像認識された結果（例えば、監視対象音の音源の種別の情報、監視対象音の音源の動きの情報）を、検出部３９へ送ってもよい。

　なお、Ｓ１７の処理は、省略されてもよい。例えば、Ｓ１７の処理を省略するか否かの情報を、ユーザがタッチパネル６２を介して設定しておいてもよいし、監視レベルに応じて図示しない制御部が設定してもよい。Ｓ１７の処理を省略するか否かの情報は、例えば、図示しないメモリに保持される。

　続いて、監視制御装置３０は、検出部３９による検出結果及び画像認識部３４による画像認識結果の少なくとも一方に応じて、所定の処理（アクション）を行う（Ｓ１８）。

　例えば、監視対象音が検出された場合、音源の種別が識別された場合、又は音源の動きが検出された場合、つまり監視トリガが発生した場合、検出部３９は、画像により警告情報を通知するよう画像出力部３３に指示してもよい。また、監視トリガが発生した場合、検出部３９は、音声により警告情報を通知するよう音声出力部４２に指示してもよい（Ｓ１８）。また、検出部３９は、監視トリガの種別に応じて、異なる警告音の鳴動、警告情報の表示を行わせてもよい。これにより、監視制御装置３０の操作者６０が、監視対象音の発生等を容易に認識でき、操作者６０の負担を軽減でき、監視精度を向上できる。

　例えば、検出部３９は、監視トリガが発生した場合、検索用タグの情報をデータ記録部４３へ記録させてもよい（Ｓ１８）。これにより、操作者６０が将来的に音声データ又は画像データを見直す場合でも、所望の音声データ又は画像データの特定の箇所を容易に検索でき、例えば検証時間を短縮できる。

　例えば、監視トリガが発生した場合、検出部３９は、プレ録音及びプレ録画の少なくとも一方を行うよう、ネットワーク処理部３１へ指示してもよい（Ｓ１８）。これにより、監視トリガが発生する前には、データ記録部４３への録音又は録画を行わないことで、データ記録部４３の活用効率を向上できる。また、監視トリガが発生した場合に、監視トリガ発生時点における音声データ又は画像データを確実に記録でき、例えば、将来的に検証材料として確認できる。

　例えば、監視対象音として所定のキーワードが検出された場合、検出部３９は、キーワード加工してもよい（Ｓ１８）。これにより、キーワードが秘匿情報である場合でも、秘匿情報を保護できる。また、キーワードを消去又は置換してキーワードを含む音声データを記録する場合には、秘匿情報を保護しながら、音声データを保存できる。

　例えば、監視トリガが発生した場合、検出部３９は、指向性処理部３７に対して、指向性の方向を切り替えるよう指示してもよい（Ｓ１８）。これにより、例えば、プリセットされた方向を向くように指向性の方向を変更することで、音源の動きが予想される場合には監視対象音を追尾できる可能性を向上できる。

　続いて、音源推定部４０は、監視対象音の音源の位置を推定する（Ｓ１９）。これにより、操作者６０による監視精度を向上できる。

　続いて、指向性処理部３７は、所定のタイミングにおいて（例えば所定時間毎に）、音源推定部４０から推定された監視対象音の音源の位置の情報を取得し、この音源の位置に指向性が向くように指向性の方向を切り替える（Ｓ２０）。これにより、監視対象音の音源を追尾でき、操作者６０は、音源の動向を容易に監視でき、監視精度を向上できる。

　なお、Ｓ１９，Ｓ２０は省略されてもよい。

　図４の動作例によれば、操作者６０は、モニタ６１及びスピーカ６３を介して、現在の監視領域における画像と音声とを同時に監視できる。特に、監視対象音の音声及び監視対象音の音源を含む画像を監視できる。また、画像を確認しながら、任意の監視領域を複数指定し、監視対象とすることができる。また、監視対象音の検出に応じて様々な処理を行うことで、音声データの活用性が増し、利便性を向上できる。

　次に、監視システム１００による指向性処理の詳細について説明する
　図５は、指向性処理に係る基本構成例を示す模式図である。図５では、指向性処理部３７には、複数の遅延器３７ｂＡ，３７ｂＢ，３７ｂＣと、加算器３７ｃとが含まれ、これらの処理により指向性が形成されてもよい。

　マイクロホン１１Ａ～１１Ｃが出力するアナログ音声データを、Ａ／Ｄ変換器１３Ａ，１３Ｂ，１３Ｃがデジタル音声データに変換し、変換されたデジタル音声データに対して、指向性処理部３７が指向性処理する。なお、アレイマイク１０に含まれるマイクロホンの数（ｎ）、Ａ／Ｄ変換器の数（ｎ）、及び指向性処理部３７に含まれる遅延器の数（ｎ）は、必要に応じて増減される。

　図５では、複数のマイクロホン１１Ａ～１１Ｃは、相互に所定距離離間された位置に配置されるので、１つの音源８０が発した音波が各々のマイクロホン１１Ａ～１１Ｃに到達するまでの時間には、相対的な時間差（到達時間差）が生じる。音源８０は、例えば監視対象音の音源である。

　上記到達時間差の影響があるため、複数のマイクロホン１１Ａ～１１Ｃがそれぞれ検出した音声データをそのまま加算すると、位相差のある複数の音声データの加算によって信号レベルが減衰することがある。そこで、複数の音声データのそれぞれに、遅延器３７ｂＡ～３７ｂＣにより時間遅延を与えて位相を調整し、位相が調整された音声データ同士を加算器３７ｃにより加算する。これにより、位相が一致する複数の音声データが加算され、信号レベルが増大する。

　図５では、上記到達時間差は、音源８０からアレイマイク１０の筐体入射面１２１に入射される音波の到来方向（収音角度θに相当）に応じて変化する。例えば、特定の方向（θ）から到来した音波を複数のマイクロホン１１Ａ～１１Ｃが検出した場合、加算器３７ｃに入力される複数の音声データの位相が一致し、加算器３７ｃが出力する音声データの信号レベルが増大する。一方、特定の方向（θ）以外から到来する音波では、加算器３７ｃに入力される複数の音声データに位相差が生じ、加算器３７ｃが出力する音声データの信号レベルが減衰する。よって、特定の方向（θ）から到来する音波に対して感度が上がるように、アレイマイク１０の指向性を形成できる。

　収音角度θの方向から監視対象音の音波が筐体入射面１２１に到来する場合、（式１）により表される各遅延時間Ｄ１，Ｄ２，Ｄ３が、各遅延器３７ｂＡ，３７ｂＢ，３７ｂＣの遅延時間として割り当てられる。

　Ｄ１＝Ｌ１／Ｖｓ＝ｄ（ｎ－１）ｃｏｓθ／Ｖｓ
　Ｄ２＝Ｌ２／Ｖｓ＝ｄ（ｎ－２）ｃｏｓθ／Ｖｓ　　　・・・（式１）
　Ｄ３＝Ｌ３／Ｖｓ＝ｄ（ｎ－３）ｃｏｓθ／Ｖｓ
但し、
　Ｌ１：１番目のマイクロホンとｎ番目のマイクロホンとの間の音波到達距離の差（既知の定数）
　Ｌ２：２番目のマイクロホンとｎ番目のマイクロホンとの間の音波到達距離の差（既知の定数）
　Ｌ３：３番目のマイクロホンとｎ番目のマイクロホンとの間の音波到達距離の差（既知の定数）
　Ｖｓ：音速（既知の定数）
　ｄ：マイクロホンの配置間隔（既知の定数）
　なお、一例として、図２に示したシステム構成の場合、ｎ＝３であり、図１に示した収音ユニット９０の場合、ｎ＝１６である。

　（式１）に示すように、特定の方向θからアレイマイク１０に到来する音波に指向性が合わせられる場合、筐体入射面１２１における各マイクロホン１１Ａ～１１Ｃに対する音波の到達時間差に対応して、各遅延器３７ｂＡ，３７ｂＢ，３７ｂＣに遅延時間Ｄ１～Ｄ３が割り当てられる。

　例えば、指向性処理部３７は、収音角度演算部３８からの収音角度θと（式１）とに基づき、各遅延時間Ｄ１～Ｄ３を取得し、遅延時間Ｄ１～Ｄ３を各遅延器３７ｂＡ～３７ｂＣに割り当てる。これにより、収音角度θの方向から筐体入射面１２１に到来する音波の音声データを強調し、アレイマイク１０の指向性を形成できる。

　なお、例えば、割り当てられた遅延時間Ｄ１～Ｄ３、（式１）における既知の定数は、監視制御装置３０内の図示しないメモリに記憶される。

　監視システム１００によれば、例えば、リアルタイムに受信された画像データにおいて、監視制御装置３０の操作者６０からの監視領域の指定を複数受け付け、監視領域に対応する方向に指向性を向けた状態で、異常の有無を監視できる。監視トリガが発生した場合には、監視制御装置３０が様々な処理を行うことで、アレイマイク１０により収音された音声データおよびカメラ２０により撮像された画像データの活用を促進し、操作者６０の利便性を向上できる。

（第２の実施形態）
　第２の実施形態では、監視システムが、音声データ又は画像データを記録するレコーダを、監視制御装置とは別体に備えることを想定する。

　図６は実施形態における監視システム１００Ｂの概要図である。図６と図１とを比較すると、監視システム１００Ｂが、レコーダ７０を備える点が異なる。レコーダ７０は、ネットワーク５０に接続される。レコーダ７０は記憶装置の一例である。レコーダ７０は、例えば、アレイマイク１０により収音された音声データ、カメラ２０により撮像された画像データ、を記憶する。

　図７は監視システム１００Ｂの構成例を示すブロック図である。図７の監視システム１００Ｂにおいて、図２に示した監視システム１００と同様の構成については、同一の符号を付し、説明を省略又は簡略化する。

　監視システム１００Ｂは、アレイマイク１０、カメラ２０、監視制御装置３０Ｂ、及びレコーダ７０を備える。

　監視制御装置３０Ｂは、図２に示した監視制御装置３０と比較すると、データ記録部４３を備えていない。監視制御装置３０Ｂは、データ記録部４３へデータを記録又はデータ記録部４３からデータを読み出す代わりに、レコーダ７０が備えるデータ記録部７２へアクセスしてデータを記録又はデータ記録部７２からデータを読み出す。監視制御装置３０Ｂとレコーダ７０との間でデータが通信される場合、データは、監視制御装置３０Ｂのネットワーク処理部３１、ネットワーク５０、及びレコーダ７０のネットワーク処理部７１を経由して通信される。

　レコーダ７０は、ネットワーク処理部７１及びデータ記録部７２を備える。レコーダ７０は、例えば、ＣＰＵ、ＤＳＰ、ＲＯＭ、又はＲＡＭを含み、ＣＰＵ又はＤＳＰにより、ＲＯＭ又はＲＡＭに記録された制御用のプログラムを実行することにより、各種機能を実現する。

　ネットワーク処理部７１は、例えば、アレイマイク１０から送出される複数チャネルの音声データ、又はカメラ２０から送出される画像データを、ネットワーク５０を経由して取得する。ネットワーク処理部７１は、例えば、データ記録部７２が記録した音声データ又は画像データを、ネットワーク５０に送出する。

　データ記録部７２は、図２に示した監視制御装置３０のデータ記録部４３と同様の構成及び機能を有する。また、データ記録部７２は、データ記録部４３が記録するデータと同様のデータ（例えば、音声データ、画像データ、検索用タグの情報）を記録する。

　例えば、ネットワーク処理部７１が、監視制御装置３０Ｂから音声データ、画像データ、検索用タグの情報が受信された場合、データ記録部７２が、受信されたデータを対応付けて記録してもよい。また、ネットワーク処理部７１が、監視制御装置３０Ｂから検索用タグの情報が受信され、データ記録部７２に既に音声データ又は画像データが記録されている場合、データ記録部７２は、検索用タグの情報を、音声データ又は画像データに対応付けて記録してもよい。

　また、データ記録部７２に記録された音声データ、画像データ、及び検索用タグの情報は、例えばＣＰＵにより所定の命令が実行されることで、データ記録部７２から読み出され、ネットワーク処理部７１及びネットワーク５０を経由して監視制御装置３０Ｂに送信される。

　例えば、ネットワーク５０を経由して監視制御装置３０Ｂから、所定の情報が受信された場合、データ記録部７２は、検索用タグとして記録されている情報と、受信された所定の情報とが一致又は対応するか否かを判定する。データ記録部７２は、両者が一致すると判定した場合、検索用タグに対応付けられた音声データ又は画像データを検索し、検索された音声データ又は画像データをネットワーク５０へ送出する。

　このように、レコーダ７０に記録された検索用タグを用いることで、過去に記録された音声データ又は画像データを容易に検索でき、検索時間を短縮でき、操作者６０の利便性を向上できる。

　次に、監視制御装置３０Ｂの動作例について説明する。
　図８は、監視制御装置３０Ｂの動作例を示すフローチャートである。

　図８は、レコーダ出力再生動作例を示す。レコーダ出力再生動作例は、例えば、レコーダ７０に記録された過去の音声データ及び画像信号を、操作者６０が監視制御装置３０Ｂを用いて分析する場合の動作である。なお、図８において、図４の処理と同様の処理を行うステップについては、同一のステップ番号を付し、説明を省略又は簡略化する。

　監視システム１００Ｂでは、過去にカメラ２０が撮像した画像データ及びアレイマイク１０が収音した複数チャネルの音声データがレコーダ７０に記録されている場合、記録された画像データ及び音声データをレコーダ７０から読み出すことができる。

　監視制御装置３０Ｂは、例えば、操作者６０からの入力操作に従い、レコーダ７０に記録された特定の画像データ及び音声データを読み出すよう、レコーダ７０に指示する。この場合、上記特定の画像データ及び音声データがレコーダ７０から読み出され、ネットワーク５０を経由してネットワーク処理部３１により受信される（Ｓ２１）。

　続いて、図８のＳ１２～Ｓ２０の処理を行う。なお、Ｓ１７，Ｓ１９，Ｓ２０の処理は省略されてもよい。

　図８の動作例によれば、操作者６０は、モニタ６１及びスピーカ６３を介して、過去の監視領域における画像と音声とを同時に監視できる。特に、監視対象音の音声及び監視対象音の音源を含む画像を監視できる。また、画像を確認しながら、任意の監視領域を複数指定し、監視対象とすることができる。また、監視対象音の検出に応じて様々な処理を行うことで、音声データの活用性が増し、利便性を向上できる。

　また、検索用タグが、記録された画像データ又は音声データに対応づけて記録されることで、例えば、後に監視対象音に係るデータを検索する場合に、素早く検索できる。このように、監視対象音の検出に応じて様々な処理を行うことで、音声データの活用性が増し、利便性を向上できる。

　なお、図８のレコーダ出力再生動作例は、第１の実施形態においてデータ記録部４３に記録されたデータを扱う場合の動作にも適用可能である。

　監視システム１００Ｂによれば、例えば、過去に記録された画像データにおいて、監視制御装置３０Ｂの操作者６０からの監視領域の指定を複数受け付け、監視領域に対応する方向に指向性を向けた状態で、異常の有無を監視できる。監視トリガが発生した場合には、監視制御装置３０Ｂが様々な処理を行うことで、アレイマイク１０により収音された音声データおよびカメラ２０により撮像された画像データの活用を促進し、操作者６０の利便性を向上できる。

　なお、本発明は、上記実施形態の構成に限られるものではなく、特許請求の範囲で示した機能、または本実施形態の構成が持つ機能が達成できる構成であればどのようなものであっても適用可能である。

　例えば、上記実施形態では、監視制御装置３０，３０Ｂが備える音声処理に係る一部の構成部を、アレイマイク１０又はカメラ２０が備えてもよい。アレイマイク１０は、例えば、画像認識部３４、収音座標指定部３５、収音角度演算部３８、指向性処理部３７、検出部３９、音源推定部４０、音声合成部４１、の一部又は全部を有してもよい。これにより、監視制御装置３０，３０Ｂの処理負荷を低減できる。なお、アレイマイク１０が音声処理に係る一部の構成部を有する場合には、監視制御装置３０，３０Ｂとアレイマイク１０との間において、ネットワーク５０を介して適宜必要なデータが通信される。

　例えば、上記実施形態では、複数のマイクロホン１１が１つの円周上に一定の間隔で配置されたアレイマイク１０を例示したが、各マイクロホン１１の配列は異なる配列でもよい。例えば、単方向（例えばｘ軸方向）に沿って一列に一定の間隔で配列されてもよい。また、２方向（例えばｘ軸方向，ｙ軸方向）に沿って十字型に一定の間隔で配列されてもよい。また、径の異なる２つの円周上に一定の間隔で配列されてもよい。

　例えば、上記実施形態では、監視制御装置３０，３０Ｂが、カメラ２０を用いずに、実際の空間的な監視範囲とアレイマイク１０の収音角度θとを対応づけ、プリセットしてもよい。つまり、監視制御装置３０，３０Ｂの図示しないメモリが、上記監視範囲と収音角度θとの対応情報を保持してもよい。この場合、例えば、ユーザがタッチパネル６２等を介して所定の監視範囲を複数指定すると、収音角度演算部３８が、メモリに保持された対応情報を参照して、収音角度θを複数導出してもよい。また、例えば、ユーザがタッチパネル６２等を介して収音角度を直接指定し、指定されたデータを収音角度演算部３８により導出されたデータとして扱ってもよい。これにより、カメラ２０を用いずに、複数の指向性の方向を決定できる。

　例えば、上記実施形態では、監視システム１００，１００Ｂは、画像を用いずに音声を用いて監視するシステムでもよい。この場合、監視システム１００，１００Ｂでは、例えば、カメラ２０又は表示に関連する機能を実現するための構成部が省略されてもよい。

　例えば、上記実施形態では、収音ユニット９０が屋内の天井面１０１に固定されることを例示したが、収音ユニット９０が他の位置（例えば、屋内の壁面）に固定されてもよい。また、監視システム１００，１００Ｂにおいて、カメラ２０が複数設けられてもよい。また、モニタ６１、タッチパネル６２、及びスピーカ６３が、監視制御装置３０，３０Ｂに含まれてもよい。

　例えば、上記実施形態では、モニタ６１にボリューム調整を行うためのソフトウェアキーボード（スクリーンキーボード）を表示してもよい。タッチパネル６２によりソフトウェアキーボードを操作することで、例えば、指向性処理がされた音声データの音量を調整できる。

　例えば、上記実施形態では、監視制御装置３０，３０Ｂは、図示しない制御部が、収音ユニット９０が設置された環境に応じて発生する音声データの歪みを補正してもよい。また、図示しない制御部が、カメラ２０（例えば魚眼レンズを有するカメラ）により撮像された画像データに発生する歪を補正してもよい。

　例えば、上記実施形態では、例えば、収音座標指定部３５は、タッチパネル６２により監視領域がタッチされ、指向性が当該監視領域に向けられた後、タッチパネル６２により監視領域が再度タッチされた場合、当該監視領域を監視対象から除外してもよい。つまり、収音座標指定部３５は、モニタ６１により表示された画像データにおける同一の位置又は領域が複数回タッチされた場合、収音座標の導出を終了し、指向性処理部３７による指向性処理を終了させてもよい。収音座標指定部３５は、複数の監視領域を同時に監視対象から除外してもよい。

　上記実施形態では、例えば、収音座標指定部３５は、タッチパネル６２により監視領域がタッチされた状態で、ドラッグ操作を受け付けた場合、監視領域を移動させてもよい。収音座標指定部３５は、監視領域の移動を複数同時に受け付けてもよい。

　上記実施形態では、監視システム１００，１００Ｂが、収音ユニット９０を複数備えてもよい。この場合、各収音ユニット９０が連携して画像データを形成し、音声データを形成してもよい。また、各収音ユニット９０のカメラ２０により撮像された画像が、モニタ６１の分割画面に同時に表示されてもよい。監視制御装置３０，３０Ｂは、各分割画面において、タッチパネル６２により複数の分割画面に跨いでドラッグ操作を受け付けた場合でも、各収音ユニット９０により収音された音声データを用いて、指向性処理を行ってもよい。このドラッグ操作は、例えば、モニタ６１における異なる複数の領域において同時に受け付けてもよい。

（本発明の一態様の概要）
　本発明の一態様の音声処理装置は、複数のマイクロホンを含む収音部により収音された音声データおよび、撮像部により撮像された画像データを取得するデータ取得部と、前記画像データに基づき表示される画像上の指定箇所に対応する、前記収音部を基準とした方向を、複数指定する指定部と、前記指定部により指定された複数の方向の、前記音声データにおける音声成分を強調する指向性処理部と、を備える。

　この構成によれば、音声処理装置を扱う監視者は、監視領域が複数指定され、監視領域に対応する方向に指向性が形成された状態で、異常の有無を監視できる。これにより、収音された音声データおよび撮像された画像データの活用を促進し、監視者の利便性を向上できる。

　また、本発明の一態様の音声処理装置は、前記指定部が、前記データ取得部によって取得した前記画像データにおける複数の画像範囲を指定し、前記指向性処理部が、前記音声データにおける前記指定部により指定された複数の画像範囲の方向から到来する複数の音声成分を強調するよう構成してもよい。

　この構成によれば、画像データを用いるので、監視者が直感的に監視領域を複数指定できる。よって、監視者は、所定の音の聴取を基に、容易に同時に複数の監視領域を監視できる。また、音声データとともに画像データを監視する場合には、監視精度を向上できる。

　また、本発明の一態様の音声処理装置は、更に前記指向性処理部により強調された前記複数の方向の音声成分の少なくとも１つから、所定の音を検出する音検出部と、前記音検出部によって前記所定の音が検出された場合、所定の処理を行う処理部と、を備える構成としてもよい。

　この構成によれば、音声処理装置が、所定の音の検出に伴って様々なアクションを実施するので、収音された音声データおよび撮像された画像データの活用を促進し、監視者の利便性を向上できる。

　また、本発明の一態様の音声処理装置は、前記処理部が、前記所定の音が検出された場合、前記音声データ及び前記画像データを記録する記録部から、前記所定の音を含む音声データ又は前記所定の音の音源を含む画像データを検索するための検索用タグを、前記記録部に記録させるよう構成してもよい。

　この構成によれば、監視者が、将来的に音声データ又は画像データを見直す場合でも、所望の音声データ若しくは画像データ又は音声データ若しくは画像データの特定の箇所を容易に検索でき、例えば検証時間を短縮できる。

　また、本発明の一態様の音声処理装置は、前記処理部が、前記記録部に記録された検索用タグに含まれる所定の検索用タグと対応した、前記記録部に記録された音声データ又は画像データを取得するよう構成してもよい。

　この構成によれば、例えば、タッチパネルを介してユーザに指定された検索用タグを用いて、同様の事象が発生した過去の音声データ又は画像データを検索できる。従って、音声データ又は画像データの活用を促進し、監視者の利便性を向上でき、監視精度も向上できる。

　また、本発明の一態様の音声処理装置は、前記検索用タグが、前記所定の音の種別、前記収音部を基準とした前記所定の音の音源の方向、及び前記音検出部により前記所定の音が検出された時刻、のうち、少なくとも１つの情報を含むよう構成してもよい。

　この構成によれば、様々な情報を音声データに対応する検索用タグとして記録し、必要時に所望の音声データを迅速に検索できる。

　また、本発明の一態様の音声処理装置は、前記処理部が、前記所定の音が検出された場合、前記所定の音が検出された旨を含む警告情報を、提示部に提示させるよう構成してもよい。

　この構成によれば、例えば、異常に伴う音が発生したことを監視者へ通知し、監視を強化する等の注意を促すことができる。

　また、本発明の一態様の音声処理装置は、前記処理部が、前記所定の音が検出された場合、前記所定の音を含む音声データを記録部に記録させるよう構成してもよい。

　この構成によれば、所定の音が検出されない時点では音声データを記録しないことで、記録部の活用効率を向上できる。また、所定の音が検出された場合に、所定の音の発生時点の音声データを確実に記録でき、例えば、将来的に検証材料として確認できる。また、同様に画像データも記録する場合には、より監視精度を向上できる。

　また、本発明の一態様の音声処理装置は、前記処理部が、前記所定の音が検出された場合、前記指向性処理部により音声成分が強調される方向を変更するよう構成してもよい。

　この構成によれば、例えば、所定の音の音源が移動し、その動きが予想される場合には、プリセットされた方向を向くように指向性の方向を変更することで、所定の音を追尾できる可能性を向上できる。

　また、本発明の一態様の音声処理装置は、前記所定の音を発する音源の位置を推定し、推定された位置の情報を提示部に提示させる推定部を備えるよう構成してもよい。

　この構成によれば、監視者は、推定された音源の位置を容易に確認できるので、監視者の負担を軽減でき、監視精度を向上できる。

　また、本発明の一態様の音声処理装置は、前記所定の音を発する音源の位置を推定する推定部を備え、前記指向性処理部が、前記推定部により推定された前記音源の位置の方向から到来する音声成分を強調するよう構成してもよい。

　この構成によれば、監視者が、所定の音の音源を音声データを頼りに追尾できるので、音源の動向を容易に監視でき、監視精度を向上できる。

　また、本発明の一態様の音声処理装置は、前記音検出部が、前記指向性処理部により強調された音声成分の信号レベルが第１の所定の信号レベル以上又は第２の所定の信号レベル以下である場合、前記所定の音として検出するよう構成してもよい。

　この構成によれば、例えば通常予想される生活音よりも大きな音を検出可能に閾値が設定されることで、異常音を検出する可能性を高くできる。

　また、本発明の一態様の音声処理装置は、前記音検出部が、前記指向性処理部により強調された音声成分の少なくとも１つから、所定のキーワードを所定の音として検出するよう構成してもよい。

　この構成によれば、例えば、指向性の方向の音声成分において秘匿性の高いキーワードを検出でき、キーワードに対して様々な処理を実施できるので、ユーザの利便性を向上できる。

　また、本発明の一態様の音声処理装置は、前記処理部が、前記検出された所定のキーワードを含む音声データにおける前記所定のキーワードの部分を加工するよう構成してもよい。

　この構成によれば、キーワードが秘匿情報である場合でも、秘匿情報を保護できる。また、例えば、キーワードを消去又は置換してキーワードを含む音声データを記録する場合、秘匿情報を保護しながら、音声データを保存できる。

　また、本発明の一態様の音声処理装置は、前記処理部が、前記検出された所定のキーワードを含む音声データを記録部に記録させるよう構成してもよい。

　この構成によれば、監視領域において発せられたキーワードをトリガとして、音声データの記録を開始できる。よって、キーワードが検出されない時点では音声データを記録しないことで、記録部の活用効率を向上できる。また、キーワードが検出された場合に、キーワードを含む音声データも記録でき、例えば、将来的に検証材料として確認できる。

　また、本発明の一態様の音声処理装置は、前記音検出部が、前記指向性処理部により強調された音声成分の少なくとも１つに含まれる所定の異常音を、前記所定の音として検出するよう構成してもよい。

　この構成によれば、例えば、指向性の方向の音声成分において異常を示す異常音を検出でき、異常音を用いて様々な処理を実施できるので、ユーザの利便性を向上できる。

　また、本発明の一態様の音声処理装置は、前記画像データに対して画像認識する画像認識部を備え、前記処理部が、前記画像認識部による画像認識結果に応じて、前記所定の処理を行うよう構成してもよい。

　この構成によれば、所定の音の検出とともに、画像認識結果も考慮することで、例えば、監視領域における異常検出精度を向上できる。従って、監視者は適切に対応することができ、監視精度を向上できる。

　また、本発明の一態様の音声処理装置は、前記画像認識部が、前記画像データにおいて前記所定の音の音源の種別を認識するよう構成してもよい。

　この構成によれば、監視者が、音源の種別に応じて監視すべきか否かを容易に判断できるので、監視者の負担を軽減でき、監視精度を向上できる。また、音源の種別を示す検索用タグを付加する場合には、将来的に音声データを見直す場合でも、音源の種別に応じて容易に検索でき、例えば検証時間を短縮できる。

　また、本発明の一態様の音声処理装置は、前記画像認識部が、前記画像データにおいて前記所定の音の音源の動きの有無を認識するよう構成してもよい。

　この構成によれば、監視者が、音源の動きに容易に注目できるので、監視者の負担を軽減でき、監視精度を向上できる。また、音源の動きの有無を示す検索用タグを付加する場合には、将来的に音声データを見直す場合でも、音源の動きの有無に応じて容易に検索でき、例えば検証時間を短縮できる。

　また、本発明の一態様の音声処理装置は、前記処理部が、前記画像認識部により前記画像データに対して画像認識された場合、前記音声データ及び前記画像データを記録する記録部から、前記所定の音を含む音声データ又は前記所定の音の音源を含む画像データを検索するための検索用タグを、前記記録部に記録させるよう構成してもよい。

　この構成によれば、監視者が、将来的に画像データを見直す場合でも、所望の画像データ又は画像データの特定の箇所を容易に検索でき、例えば検証時間を短縮できる。

　また、本発明の一態様の音声処理装置は、前記処理部は、前記記録部に記録された検索用タグに含まれる所定の検索用タグを用いて、前記所定の検索用タグと対応し、前記記録部に記録された前記音声データ又は画像データを取得するよう構成してもよい。

　この構成によれば、例えば、タッチパネルを介してユーザに指定された検索用タグを用いて、同様の事象が発生した過去の画像データを検索できる。従って、音声データに対応する画像データの活用を促進し、監視者の利便性を向上でき、監視精度も向上できる。

　また、本発明の一態様の音声処理装置は、前記検索用タグが、前記音源の種別、前記音源の動きの有無、及び前記音源を含むサムネイル画像、のうち、少なくとも１つを含むよう構成してもよい。

　この構成によれば、様々な情報を画像データに対応する検索用タグとして記録し、必要時に所望の画像データを迅速に検索できる。

　また、本発明の一態様の音声処理装置は、前記処理部が、前記所定の音が検出された場合、前記画像認識部による画像認識結果に応じて、前記所定の音が検出された旨を含む警告情報を、提示部に提示させるよう構成してもよい。

　この構成によれば、画像認識結果を利用して、例えば、異常に伴う音が発生したことを監視者へ通知し、監視を強化する等の注意を促すことができる。

　また、本発明の一態様の音声処理装置は、前記処理部が、前記所定の音が検出された場合、前記画像認識部による画像認識結果に応じて、前記所定の音を含む音声データを記録部に記録させるよう構成してもよい。

　この構成によれば、所定の音が検出されない時点では音声データを記録しないことで、記録部の活用効率を向上できる。また、所定の音が検出された場合に、画像認識結果を利用して、所定の音の発生時点の音声データを確実に記録でき、例えば、将来的に検証材料として確認できる。また、同様に画像データも記録する場合には、より監視精度を向上できる。

　また、本発明の一態様の音声処理装置は、前記処理部が、前記所定の音が検出された場合、前記画像認識部による画像認識結果に応じて、前記指向性処理部により音声成分が強調される方向を変更するよう構成してもよい。

　この構成によれば、例えば、所定の音の音源が移動し、その動きが予想される場合には、画像認識結果を利用して、プリセットされた方向を向くように指向性の方向を変更することで、所定の音を追尾できる可能性を向上できる。

　また、本発明の一態様の音声処理システムは、複数のマイクロホンを用いて収音する収音部を含む収音装置と、画像を撮像する撮像部を含む撮像装置と、前記収音部により収音された音声データを処理する音声処理装置と、を備え、前記音声処理装置は、前記収音部により収音された音声データおよび、前記撮像部により撮像された画像データを取得するデータ取得部と、前記画像データに基づき表示される画像上の指定箇所に対応する、前記収音部を基準とした方向を、複数指定する指定部と、前記指定部により指定された複数の方向の、前記音声データにおける音声成分を強調する指向性処理部と、を備える。

　この構成によれば、監視者は、監視領域が複数指定され、監視領域に対応する方向に指向性が形成された状態で、異常の有無を監視できる。これにより、収音された音声データの活用を促進し、監視者の利便性を向上できる。

　また、本発明の一態様の音声処理システムは、前記指定部が、前記データ取得部によって取得した前記画像データにおける複数の画像範囲を指定し、前記指向性処理部は、前記音声データにおける前記指定部により指定された複数の画像範囲の方向から到来する複数の音声成分を強調するよう構成してもよい。

　また、本発明の一態様の音声処理システムは、前記音声処理装置が、前記指向性処理部により強調された前記複数の方向の音声成分の少なくとも１つから、所定の音を検出する音検出部と、前記音検出部によって前記所定の音が検出された場合、所定の処理を行う処理部と、を更に備えるよう構成してもよい。

　また、本発明の一態様の音声処理システムは、前記データ取得部が、前記収音装置から前記音声データを取得し、前記撮像装置から前記画像データを取得し、前記音声処理装置は、前記音声データ、前記画像データ、及び前記所定の音を含む音声データを検索するための検索用タグを記録する記録部を備えるよう構成してもよい。

　この構成によれば、例えば、リアルタイムの音声データ又は画像データから、監視領域における音声を明瞭に聴取できる。従って、リアルタイムでの監視精度を向上できる。また、例えば、リアルタイムの音声データ又は画像データを、検索用タグとともに記録することで、将来的に、所望の音声データ又は画像データを容易に検索でき、検証時間を短縮できる。

　また、本発明の一態様の音声処理システムは、データを記録する記録装置を備え、前記記録装置は、前記収音部により収音された音声データと前記撮像部により撮像された画像データとを対応づけて記録し、前記所定の音を含む音声データを検索するための検索用タグを記録する記録部を備え、前記データ取得部は、前記記録部から前記音声データ、前記画像データ、及び前記検索用タグを取得するよう構成してもよい。

　この構成によれば、過去の画像の監視領域における音声を明瞭に聴取できる。従って、例えば、過去の画像を用いた監視領域での音声解析の精度を向上できる。また、記録された音声データ又は画像データに対して検索用タグを付加することで、将来的に、所望の音声データ又は画像データの検索を容易化できる。また、既に検索用タグが記録されている場合、検索用タグを用いて、所望の音声データ又は画像データを容易に検索できる。

　また、本発明の一態様の音声処理方法は、複数のマイクロホンを含む収音部により収音された音声データおよび、撮像部により撮像された画像データを取得するステップと、前記画像データに基づき表示される画像上の指定箇所に対応する、前記収音部を基準とした方向を複数指定するステップと、前記指定された複数の方向の、前記音声データにおける音声成分を強調するステップと、を有する。

　この方法によれば、監視者は、監視領域が複数指定され、監視領域に対応する方向に指向性が形成された状態で、異常の有無を監視できる。これにより、収音された音声データ及び撮像された画像データの活用を促進し、監視者の利便性を向上できる。

　本発明は、音声データおよび画像データの活用を促進し、利便性を向上できる音声処理装置、音声処理システム、及び音声処理方法等に有用である。

　１０　アレイマイク
　１１Ａ，１１Ｂ，１１Ｃ　マイクロホン
　１２Ａ，１２Ｂ，１２Ｃ　増幅器
　１３Ａ，１３Ｂ，１３Ｃ　Ａ／Ｄ変換器
　１４Ａ，１４Ｂ，１４Ｃ　音声エンコーダ
　１５　ネットワーク処理部
　２０　カメラ
　２１　レンズ
　２２　センサ
　２３　画像エンコーダ
　２４　ネットワーク処理部
　３０，３０Ｂ　監視制御装置
　３１　ネットワーク処理部
　３２　画像デコーダ
　３３　画像出力部
　３４　画像認識部
　３５　収音座標指定部
　３６　音声デコーダ
　３７　指向性処理部
　３８　収音角度演算部
　３９　検出部
　４０　音源推定部
　４１　音声合成部
　４２　音声出力部
　４３　データ記録部
　５０　ネットワーク
　６０　操作者
　６１　モニタ
　６２　タッチパネル
　６３　スピーカ
　７０　レコーダ
　７１　ネットワーク処理部
　７２　データ記録部
　８０　音源
　９０　収音ユニット
　９１　ユニット筐体
　１００，１００Ｂ　監視システム
　１０１　天井面
　１０２　床面
　１２１　筐体入射面
　ＰＡ　音源

Claims

　複数のマイクロホンを含む収音部により収音された音声データおよび、撮像部により撮像された画像データを取得するデータ取得部と、
　前記画像データに基づき表示される画像上の指定箇所に対応する、前記収音部を基準とした方向を、複数指定する指定部と、
　前記指定部により指定された複数の方向の、前記音声データにおける音声成分を強調する指向性処理部と、
　を備える音声処理装置。
　請求項１に記載の音声処理装置であって、
　前記指定部は、前記データ取得部によって取得した前記画像データにおける複数の画像範囲を指定し、
　前記指向性処理部は、前記音声データにおける前記指定部により指定された複数の画像範囲の方向から到来する複数の音声成分を強調する音声処理装置。
　請求項１または２に記載の音声処理装置であって、更に
　前記指向性処理部により強調された前記複数の方向の音声成分の少なくとも１つから、所定の音を検出する音検出部と、
　前記音検出部によって前記所定の音が検出された場合、所定の処理を行う処理部と、
　を備える音声処理装置。
　請求項３に記載の音声処理装置であって、
　前記処理部は、前記所定の音が検出された場合、前記音声データ及び前記画像データを記録する記録部から、前記所定の音を含む音声データ又は前記所定の音の音源を含む画像データを検索するための検索用タグを、前記記録部に記録させる音声処理装置。
　請求項４に記載の音声処理装置であって、
　前記処理部は、前記記録部に記録された検索用タグに含まれる所定の検索用タグと対応した、前記記録部に記録された音声データ又は画像データを取得する音声処理装置。
　請求項４または５に記載の音声処理装置であって、
　前記検索用タグは、前記所定の音の種別、前記収音部を基準とした前記所定の音の音源の方向、及び前記音検出部により前記所定の音が検出された時刻、のうち、少なくとも１つの情報を含む、音声処理装置。
　請求項３から６のいずれか１項に記載の音声処理装置であって、
　前記処理部は、前記所定の音が検出された場合、前記所定の音が検出された旨を含む警告情報を、提示部に提示させる音声処理装置。
　請求項３から７のいずれか１項に記載の音声処理装置であって、
　前記処理部は、前記所定の音が検出された場合、前記所定の音を含む音声データを記録部に記録させる音声処理装置。
　請求項３から８のいずれか１項に記載の音声処理装置であって、
　前記処理部は、前記所定の音が検出された場合、前記指向性処理部により音声成分が強調される方向を変更する音声処理装置。
　請求項３から９のいずれか１項に記載の音声処理装置であって、更に、
　前記所定の音を発する音源の位置を推定し、推定された位置の情報を提示部に提示させる推定部と、
　を備える音声処理装置。
　請求項３から１０のいずれか１項に記載の音声処理装置であって、更に、
　前記所定の音を発する音源の位置を推定する推定部を備え、
　前記指向性処理部は、前記推定部により推定された前記音源の位置の方向から到来する音声成分を強調する音声処理装置。
　請求項３から１１のいずれか１項に記載の音声処理装置であって、
　前記音検出部は、前記指向性処理部により強調された音声成分の信号レベルが第１の所定の信号レベル以上又は第２の所定の信号レベル以下である場合、前記所定の音として検出する音声処理装置。
　請求項３から１２のいずれか１項に記載の音声処理装置であって、
　前記音検出部は、前記指向性処理部により強調された音声成分の少なくとも１つから、所定のキーワードを前記所定の音として検出する音声処理装置。
　請求項１３に記載の音声処理装置であって、
　前記処理部は、前記検出された所定のキーワードを含む音声データにおける前記所定のキーワードの部分を加工する音声処理装置。
　請求項１３に記載の音声処理装置であって、
　前記処理部は、前記検出された所定のキーワードを含む音声データを記録部に記録させる音声処理装置。
　請求項３から１１のいずれか１項に記載の音声処理装置であって、
　前記音検出部は、前記指向性処理部により強調された音声成分の少なくとも１つに含まれる所定の異常音を、前記所定の音として検出する音声処理装置。
　請求項３から６のいずれか１項に記載の音声処理装置であって、
　前記画像データに対して画像認識する画像認識部を備え、
　前記処理部は、前記画像認識部による画像認識結果に応じて、前記所定の処理を行う音声処理装置。
　請求項１７に記載の音声処理装置であって、
　前記画像認識部は、前記画像データにおいて前記所定の音の音源の種別を認識する音声処理装置。
　請求項１７または１８に記載の音声処理装置であって、
　前記画像認識部は、前記画像データにおいて前記所定の音の音源の動きの有無を認識する音声処理装置。
　請求項１７から１９のいずれか１項に記載の音声処理装置であって、
　前記処理部は、前記画像認識部により前記画像データに対して画像認識された場合、前記音声データ及び前記画像データを記録する記録部から、前記所定の音を含む音声データ又は前記所定の音の音源を含む画像データを検索するための検索用タグを、前記記録部に記録させる音声処理装置。
　請求項２０に記載の音声処理装置であって、
　前記処理部は、前記記録部に記録された検索用タグに含まれる所定の検索用タグを用いて、前記所定の検索用タグと対応し、前記記録部に記録された音声データ又は画像データを取得する音声処理装置。
　請求項２０または２１に記載の音声処理装置であって、
　前記検索用タグは、前記音源の種別、前記音源の動きの有無、及び前記音源を含むサムネイル画像、のうち、少なくとも１つを含む、音声処理装置。
　請求項１７から２２のいずれか１項に記載の音声処理装置であって、
　前記処理部は、前記所定の音が検出された場合、前記画像認識部による画像認識結果に応じて、前記所定の音が検出された旨を含む警告情報を、提示部に提示させる音声処理装置。
　請求項１７から２３のいずれか１項に記載の音声処理装置であって、
　前記処理部は、前記所定の音が検出された場合、前記画像認識部による画像認識結果に応じて、前記所定の音を含む音声データを記録部に記録させる音声処理装置。
　請求項１７から２４のいずれか１項に記載の音声処理装置であって、
　前記処理部は、前記所定の音が検出された場合、前記画像認識部による画像認識結果に応じて、前記指向性処理部により音声成分が強調される方向を変更する音声処理装置。
　複数のマイクロホンを用いて収音する収音部を含む収音装置と、
　画像を撮像する撮像部を含む撮像装置と、
　前記収音部により収音された音声データを処理する音声処理装置と、
　を備え、
　前記音声処理装置は、
　前記収音部により収音された音声データおよび、前記撮像部により撮像された画像データを取得するデータ取得部と、
　前記画像データに基づき表示される画像上の指定箇所に対応する、前記収音部を基準とした方向を、複数指定する指定部と、
　前記指定部により指定された複数の方向の、前記音声データにおける音声成分を強調する指向性処理部と、
　を備える音声処理システム。
　請求項２６に記載の音声処理システムであって、
　前記音声処理装置は、
　前記指定部は、前記データ取得部によって取得した前記画像データにおける複数の画像範囲を指定し、
　前記指向性処理部は、前記音声データにおける前記指定部により指定された複数の画像範囲の方向から到来する複数の音声成分を強調する音声処理システム。
　請求項２６または２７に記載の音声処理システムであって、
　前記音声処理装置は、更に
　前記指向性処理部により強調された前記複数の方向の音声成分の少なくとも１つから、所定の音を検出する音検出部と、
　前記音検出部によって前記所定の音が検出された場合、所定の処理を行う処理部と、
　を備える音声処理システム。
　請求項２８に記載の音声処理システムであって、
　前記データ取得部は、前記収音装置から前記音声データを取得し、前記撮像装置から前記画像データを取得し、
　前記音声処理装置は、
　前記音声データ、前記画像データ、及び前記所定の音を含む音声データを検索するための検索用タグを記録する記録部を備える音声処理システム。
　請求項２８に記載の音声処理システムであって、更に、
　データを記録する記録装置を備え、
　前記記録装置は、前記収音部により収音された音声データと前記撮像部により撮像された画像データとを対応づけて記録し、前記所定の音を含む音声データを検索するための検索用タグを記録する記録部を備え、
　前記データ取得部は、前記記録部から前記音声データ、前記画像データ、及び前記検索用タグを取得する、音声処理システム。
　音声処理装置における音声処理方法であって、
　複数のマイクロホンを含む収音部により収音された音声データおよび、撮像部により撮像された画像データを取得するステップと、
　前記画像データに基づき表示される画像上の指定箇所に対応する、前記収音部を基準とした方向を複数指定するステップと、
　前記指定された複数の方向の、前記音声データにおける音声成分を強調するステップと、
　を有する音声処理方法。