JP2017102085A

JP2017102085A - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP2017102085A
Application number: JP2015237756A
Authority: JP
Inventors: 岳央梅澤; Takeo Umezawa
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2015-12-04
Filing date: 2015-12-04
Publication date: 2017-06-08
Also published as: EP3177040A2; KR20170066258A; EP3177040A3; CN106851087A; US20170162195A1

Abstract

【課題】ユーザによる音声の検出処理を行うための設定作業を支援することを目的とする。【解決手段】撮影手段により撮影された撮影画像を取得する取得手段と、収音手段により得られた音声データから、検出対象の対象音を検出する検出手段と、収音手段の指向性に基づいて、撮影画像に示される領域において、対象音を検出可能な検出可能領域を推定する領域推定手段と、検出可能領域を示す領域画像を生成する生成手段とを有する。【選択図】図２

Description

本発明は、情報処理装置、情報処理方法及びプログラムに関する。

従来、音声の検知や認識の技術は様々な分野で応用され、使用されてきている。例えば携帯電話、ＰＣ、カーナビ等の制御インターフェスとしてのアプリケーションが知られている。特許文献１には、対象物の画像と収音した音圧信号から分布を計算し、音圧マップを画像に重畳し、異常領域を診断する異常診断装置が開示されている。

特開２０１４−１３７３２３号公報

しかしながら、音声認識等の技術においては、音声を収音するマイクの音量ゲイン等の設定が適切になされている必要があり、ユーザがマイクの設定を調整しなければならなかった。例えば、ある領域において、音声の認識を行いたい場合は、ユーザがその領域の代表点を抽出し、その代表点にて試験音を発生し、音量ゲイン等の調整を行わなければならなかった。また、このような調整を行っても、ユーザが音声認識を希望する領域と、実際に適切な音声認識が可能な領域にずれが生じ、その結果ユーザが期待する音声認識精度等が得られない場合がある。

本発明はこのような問題点に鑑みなされたもので、ユーザによる音声の検出処理を行うための設定作業を支援することを目的とする。

そこで、本発明は、情報処理装置であって、撮影手段により撮影された撮影画像を取得する取得手段と、収音手段により得られた音声データから、検出対象の対象音を検出する検出手段と、前記収音手段の指向性に基づいて、前記撮影画像に示される領域において、前記対象音を検出可能な検出可能領域を推定する領域推定手段と、前記検出可能領域を示す領域画像を生成する生成手段とを有することを特徴とする。

本発明によれば、ユーザによる音声の検出処理を行うための設定作業を支援することができる。

監視システムのハードウェア構成を示す図である。情報処理装置のソフトウェア構成を示す図である。座標系の説明図である。特性情報及び設置情報の説明図である。異常音検知のための設定処理を示すフローチャートである。表示画面の一例を示す図である。変更例に係る監視システムを示す図である。第２の実施形態に係る情報処理装置のソフトウェア構成を示す図である。レベル比推定値勾配推定処理を示すフローチャートである。第３の実施形態に係る情報処理装置のソフトウェア構成を示す図である。領域画像の一例を示す図である。

以下、本発明の実施形態について図面に基づいて説明する。

（第１の実施形態）
図１は、第１の実施形態に係る監視システム１００のハードウェア構成を示す図である。監視システム１００は、異常音を検出する監視するシステムである。監視システム１００は、監視領域において悲鳴や罵声が発生した場合に、これを異常音として検出し、監視者等のユーザに通知する。監視システム１００は、撮影装置の一例としてのカメラ１１０と、情報処理装置１２０とを有している。

カメラ１１０は、監視領域の映像を撮影し、これを情報処理装置１２０に送信する。カメラ１１０はまた、音声を収音し、音声データを情報処理装置１２０に送信する。情報処理装置１２０は、受信した映像を表示する。また、情報処理装置１２０は、音声データから異常音の有無を判定し、異常音が発生した場合に、異常が発生したことをユーザに通知するための処理を行う。情報処理装置１２０はさらに、異常音の検出が可能な領域を推定し、推定された検出可能領域を映像に重畳して表示する。

カメラ１１０は、撮影部１１１と、画像処理部１１２と、マイク１１３と、ＣＰＵ１１４と、ＲＯＭ１１５と、ＲＡＭ１１６と、通信部１１７とを有している。撮影部１１１は、光学像を電気信号に変換するＣＣＤやＣＭＯＳ素子等で構成される撮像素子、レンズ群、シャッター等を有し、監視領域の映像を撮影する。画像処理部１１２は、画素補間処理や色変換処理等の画像処理を行う。マイク１１３は、増幅回路及び制御部を有し、周囲の音声を収音する。

ＣＰＵ１１４は、ＲＯＭ１１５に記憶された制御プログラムを読み出して各種処理を実行する。ＲＡＭ１１６は、ＣＰＵ１１４の主メモリ、ワークエリア等の一時記憶領域として用いられる。なお、後述するカメラ１１０の機能や処理は、ＣＰＵ１１４がＲＯＭ１１５に格納されているプログラムを読み出し、このプログラムを実行することにより実現されるものである。通信部１１７は、ネットワークを介して情報処理装置１２０等の外部装置との通信を行う。

情報処理装置１２０は、ＣＰＵ１２１と、ＲＯＭ１２２と、ＲＡＭ１２３と、ＨＤＤ１２４と、表示部１２５と、入力部１２６と、通信部１２７とを有している。ＣＰＵ１２１、ＲＯＭ１２２、ＲＡＭ１２３及び通信部１２７は、それぞれ、ＣＰＵ１１４、ＲＯＭ１１５、ＲＡＭ１１６及び通信部１１７と同様である。ＨＤＤ１２４は、画像データや各種プログラム等各種情報を記憶する。表示部１２５は、各種情報を表示する。入力部１２６は、キーボードやマウスを有し、ユーザによる各種操作を受け付ける。

図２は、情報処理装置１２０のソフトウェア構成を示す図である。通信処理部２００は、外部装置との通信を制御する。通信処理部２００は、例えばカメラ１１０から音声データ、映像データ及び撮影情報を受信する。撮影情報は、パン角度、チルト角度及び画角を含んでいる。特徴量抽出部２０１は、カメラ１１０から入力された音声データに基づいて、音声の特徴量を抽出する。ここで、特徴量は、音声の基本周波数、フォルマント周波数、スペクトラム、ケプストラムから得られるメル周波数ケプストラム係数（ＭＦＣＣ）、ゼロクロス、サブバンドエナジー等が挙げられる。特徴量データベース（ＤＢ）２０２には、各音響モデルに対する各特徴量の確率分布が登録されている。ここで、音響モデルとは、対象音である悲鳴、罵声、その他の背景音、例えば店舗の環境音等を学習してモデル化したものである。

尤度算出部２０３は、特徴量ＤＢ２０２に登録されている各音響モデルの各特徴量ベクトルに対する、入力された音声データの特徴量ベクトルの尤度を計算する。そして、尤度算出部２０３は、検出結果のモデル候補と、その尤度計算のスコアとを含むＮ-Ｂｅｓｔの結果を異常音判定部２０４に送る。異常音判定部２０４は、尤度算出部２０３において得られた候補のトップを検知結果として選択する。そして、異常音判定部２０４は、選択した候補が異常音として登録された音声であり、スコアが規定の閾値を超えている場合に、異常が発生したと判定し、異常が発生したことを示すイベントを表示処理部２０５に送る。表示処理部２０５は、各種情報を表示する。表示処理部２０５は、例えば、イベントを受け取ると、ユーザに異常が発生したことを示す情報を表示部１２５に表示する。

また、マイクＤＢ２０６は、カメラ１１０のマイク１１３の感度の指向性を示す特性情報と、マイク１１３の設置位置に係る設置情報と、を記憶している。特性情報は、原点をマイク１１３の中心に置いた、三次元球座標系における垂直軸に対する偏角θと水平面内の偏角φに対して最も高い感度を1とした場合の、１度単位の各位置の相対感度値を示す情報である。一般的にデカルト座標系と三次元極座標系のスケール因子の関係は、（式１）で表される。
（ｘ，ｙ，ｚ）
＝（ｒｓｉｎθｃｏｓφ，ｒｓｉｎθｓｉｎφ，ｒｃｏｓθ） …（式１）

図３（ａ）は、三次元デカルト座標系と三次元極座標系の関係を示す図である。特性情報のθ，φは、図３（ｂ）に示すように、感度特性が最も良い面をｘｙ平面として、その平面内にて最も感度特性が良い方向をｘ軸とする座標系のものである。この座標系を以後、マイク相対座標系と称することとする。ここで、図３（ｂ）の右側の図において破線円Ｄ１＿１は相対感度値が最大値である１の円であり、閉曲線Ｄ１＿２は偏角θ＝θ₀で切り取られた平面上の相対マイク感度値である。図４に示すように、マイクＤＢ２０６には、図３（ｂ）を参照しつつ説明した相対マイク感度値がマイクの特性情報として登録されている。

一方で、撮影部１１１の中心を原点に置き、カメラ１１０の光軸をｘ軸とし、撮影面に平行な面内においてｘ軸と直交する軸をｙ軸とし、上記ｘ軸、ｙ軸と直交する軸をｚ軸としたデカルト座標系を定義する。以下、この座標系をカメラ絶対座標系と称することとする。マイク１１３の設置情報は、カメラ絶対座標系からみた、マイク相対座標系の原点の位置と相対マイク相対座標系におけるｘ軸、ｙ軸、ｚ軸方向の単位ベクトルを含んでいる。したがって、設置情報を用いることにより、マイク相対座標系からカメラ絶対座標系への変換が可能となる。

なお、本実施形態においては、マイク１１３は、カメラ１１０に内蔵されており、マイク１１３の設置情報及び特性情報がマイクＤＢ２０６に予め登録されているものとする。但し、異常音の検出にマイク１１３に替えて、外部マイクを使用してもよい。そして、この場合には、入力部１２６は、この外部マイクの設置情報及び特性情報のユーザ入力を受け付け、ＣＰＵ１２１が外部マイクの設置情報及び特性情報をマイクＤＢ２０６に登録することとする。

図２に戻り、検出確率ＤＢ２０７は、音圧と検出確率とを対応付けた対応テーブルを記憶している。ここで、音圧は、所定の音源において発生した音の音圧である。本実施形態においては、音圧は、マイク１１３から１０ｍ離れた位置の音源からの音の音圧とする。検出確率は、対応する音圧の音の検出を試みた回数に対する、検出に成功した回数の割合である。なお、音圧が大きくなる程、検出確率は大きくなるので、より大きい音圧には、より大きい検出確率が対応付けられている。

音圧推定部２０８は、通信処理部２００を介してカメラ１１０から映像データ（撮影画像）を取得する。音圧推定部２０８はさらに、通信処理部２００を介してカメラ１１０から撮影情報を取得し、また、マイクＤＢ２０６からマイク１１３の特性情報及び設定情報を取得する。音圧推定部２０８は、これらの情報に基づいて、撮影画像中の各点の音圧推定値を算出する。以下、各点の音圧推定値の集合を音圧推定値勾配と称することとする。音圧推定部２０８の処理については、後に詳述する。

変換部２０９は、検出確率ＤＢ２０７を参照し、音圧推定部２０８により得られた各点の音圧推定値を検出確率に変換する。領域推定部２１０は、検出確率が閾値以上となった領域を、異常音の検出可能領域として推定する。領域画像生成部２１１は、検出可能領域を示す領域画像を生成する。なお、領域画像は、表示処理部２０５により映像データ上に重畳され、表示部１２５に表示される。受付部２１２は、入力部１２６を介してユーザからの指示入力を受け付ける。

図５は、情報処理装置１２０による、異常音検知のための設定処理を示すフローチャートである。Ｓ５０１において、音圧推定部２０８は、通信処理部２００を介して撮影画像を取得する（取得処理）。次に、Ｓ５０２において、音圧推定部２０８は、音圧推定値勾配を算出する。ここで、音圧推定値勾配とは、撮影画像中の各点の音圧推定値の集合である。音圧推定部２０８は、撮影画角、カメラ絶対座標における光軸の向きを撮影情報として取得する。そして、音圧推定部２０８は、カメラ絶対座標における光軸の向き、撮影画角及びマイク１１３の設置情報に基づいて、撮影画角を、カメラ絶対座標系の座標値（ｘ，ｙ）に変換する。音圧推定部２０８は、具体的には（式２）により、座標変換を行う。なお、ｌは、焦点距離である。

さらに、音圧推定部２０８は、マイク１１３の設置情報に基づいて、カメラ絶対座標系の座標値を、マイク相対座標系の座標値に変換する。そして、音圧推定部２０８は、マイク１１３の特性情報を参照し、マイク１１３から所定の方向に１０ｍ離れた位置において音圧８５ｄＢ［ＳＰＬ］の音を発生させた場合の、撮影画像中の各点の音圧推定値を算出する。ここで、撮影画像中の各点は、マイク１１３から１０ｍ離れた複数の位置である。本処理は、撮影画像中の、マイク１１３から所定の距離の領域内の複数の位置の音圧を推定する音圧推定処理の一例である。音圧推定部２０８は、さらに各点の座標と音圧推定値とを対応付けてＨＤＤ１２４等に記録する。なお、マイク１１３の位置及び音圧は、実施形態に限定されるものではない。

次に、Ｓ５０３において、変換部２０９は、検出確率ＤＢ２０７を参照し、Ｓ５０２において得られた各音圧推定値を検出確率に変換する（変換処理）。次に、Ｓ５０４において、領域推定部２１０は、検出可能領域を推定する（領域推定処理）。具体的には、領域推定部２１０は、検出確率が閾値以上となる領域を検出可能領域として推定する。本実施形態においては、閾値を９０％とするが、閾値は、特に限定されるものではない。

次に、Ｓ５０５において、領域画像生成部２１１は、検出可能領域を示す領域画像を生成する（生成処理）。領域画像生成部２１１は、例えば、検出可能領域を黄色に塗った画像を領域画像として生成する。次に、Ｓ５０６において、表示処理部２０５は、領域画像を映像データに重畳し、これを表示部１２５に表示させる（表示制御処理）。表示処理部２０５は、例えば、領域画像をα＝０．３にてαブレンドした重畳画像を生成し、これを表示部１２５に表示させる。

図６（ａ）は、Ｓ５０６において表示部１２５に表示される表示画面６００の一例を示している。表示画面６００には、重畳画像６１０と、操作バー６２１，６２２とが表示されている。重畳画像６１０には、検出可能領域を示す境界線６１１が表示され、境界線６１１の外側には、映像データ（撮影画像）６１２が表示され、境界線６１１の内側には、映像データ６１２上に領域画像６１３が重畳されている。すなわち、境界線６１１の内側に示される領域は、マイク１１３から１０ｍの距離において８５ｄＢ［ＳＰＬ］の異常音が発生した際に、９０％の確率で異常音を検出可能な領域である。ユーザは、重畳画像６１０を目視確認することにより、異常音の検出対象となる領域が検出可能な領域内に含まれているか否かを確認することができる。

また、操作バー６２１は、マイク１１３からの距離（射影距離）を入力するためのユーザインタフェースであり、操作バー６２２は、検出可能領域を推定する際に利用される検出確率の閾値を入力するためのユーザインタフェースである。ユーザは、操作バー６２１，６２２のボタンを調整することにより、射影距離及び検出確率の閾値の変更指示を情報処理装置１２０に入力することができる。

図５に戻り、Ｓ５０６の処理の後、ＣＰＵ１２１は、処理をＳ５０７へ進める。Ｓ５０７において、音圧推定部２０８は、撮影情報が変更されたか否かを確認する。音圧推定部２０８は、撮影情報が変更された場合には（Ｓ５０７でＹｅｓ）、処理をＳ５０１へ進める。音圧推定部２０８は、撮影情報が変更されていない場合には（Ｓ５０７でＮｏ）、処理をＳ５０８へ進める。Ｓ５０８において、受付部２１２は、射影距離の変更指示を受け付けたか否かを確認する（受付処理）。受付部２１２は、射影距離の変更指示を受け付けた場合には（Ｓ５０８でＹｅｓ）、処理をＳ５０９へ進める。受付部２１２は、射影距離の変更指示を受け付けなかった場合には（Ｓ５０８でＮｏ）、処理をＳ５１１へ進める。

Ｓ５０９において、領域推定部２１０は、変更指示に係る射影距離に基づいて、検出可能領域を変更する。本実施形態においては、受付部２１２は、（式３）により、検出可能領域の境界線の座標（ｘ，ｙ）を座標（ｘ'，ｙ'）に変換する。すなわち、座標（ｘ'，ｙ'）は変換後の座標である。また、ｚは、変更後の距離である。

次に、Ｓ５１０において、領域画像生成部２１１は、変更後の検出可能領域を示す領域画像を生成する。本処理は、Ｓ５０５の処理と同様である。ＣＰＵ１２１は、その後処理をＳ５０６へ進める。

また、Ｓ５１１において、受付部２１２は、検出確率の閾値の変更指示を受け付けたか否かを確認する（受付処理）。受付部２１２は、閾値の変更指示を受け付けた場合には（Ｓ５１１でＹｅｓ）、処理をＳ５１２へ進める。受付部２１２は、閾値の変更指示を受け付けなかった場合には（Ｓ５１１でＮｏ）、処理をＳ５１４へ進める。Ｓ５１２において、領域画像生成部２１１は、変更指示に係る閾値に基づいて、検出可能領域を変更する。次に、Ｓ５１３において、領域推定部２１０は、変更後の検出可能領域を示す領域画像を生成する。本処理は、Ｓ５０５の処理と同様である。ＣＰＵ１２１は、その後処理をＳ５０６へ進める。Ｓ５１４において、受付部２１２は、ユーザ入力に応じた終了指示を受け付けたか否かを確認する。受付部２１２は、終了指示を受け付けた場合には（Ｓ５１４でＹｅｓ）、処理を終了する。受付部２１２は、終了指示を受け付けなかった場合には（Ｓ５１４でＮｏ）、処理をＳ５０７へ進める。

図６（ｂ）は、射影距離が１０ｍからより長い距離に変更された場合の重畳画像６１０を示す図である。図６（ｂ）の例では、検出可能領域が小さくなっている。また、図６（ｃ）は、検出確率の閾値がより小さい値に変更された場合の重畳画像６１０を示す図である。図６（ｃ）の例では、検出可能領域６１３が大きくなっている。このように、本実施形態の情報処理装置１２０は、検出確率の閾値及び射影距離に応じた検出可能領域を表示することができる。

以上のように、本実施形態においては、監視システム１００は、検出可能領域を表示するので、ユーザによる設定作業を簡略化し、設定ミスを低減することができる。さらに、ユーザが適切な設定を行った上で異常音検出を行うこととなるため、異常音検出の検出精度を向上させることができる。

第１の実施形態の第１の変更例としては、情報処理装置１２０による検出対象となる対象音は、異常音に限定されるものではない。対象音は、所定の周波数の音であってもよい。また、対象音は、特定の単語やフレーズが音声認識されるような音声であってもよい。すなわち、この場合には、情報処理装置１２０は、所定の単語やフレーズを音声認識により検出すればよい。

第２の変更例としては、領域推定部２１０は、例えば、検出確率９０％、検出確率８０％、検出確率６０％というように、複数の検出確率を閾値とし、各閾値に対応する複数の検出可能領域を推定してもよい。そして、領域画像生成部２１１は、複数の検出可能領域を示す領域画像を生成してもよい。

第３の変更例としては、検出可能領域を示す領域画像は、実施形態に限定されるものではない。例えば、領域画像は、検出可能領域を３次元的に示す画像であってもよい。

第４の変更例としては、情報処理装置１２０の処理は、複数の装置により実現されてもよい。例えば、情報処理装置１２０の処理は、図７に示す管理装置７００及びクライアント装置７１０により実現されてもよい。なお、図７に示す管理装置７００及びクライアント装置７１０のハードウェア構成は、図１を参照しつつ説明した情報処理装置１２０のハードウェア構成と同様である。但し、管理装置７００は、表示部１２５は有さなくともよい。

管理装置７００は、通信処理部２００と、特徴量抽出部２０１と、特徴量ＤＢ２０２と、尤度算出部２０３と、異常音判定部２０４と、マイクＤＢ２０６と、検出確率ＤＢ２０７と、音圧推定部２０８と、変換部２０９と、領域推定部２１０と、を有している。これら各部の機能は、第１の実施形態において説明した各部の機能と同様である。管理装置７００は、さらにメタデータ生成部７０１を有している。本実施形態においては、異常音判定部２０４が生成したイベントは、通信処理部２００に送られる。そして、通信処理部２００は、イベントをクライアント装置７１０に送信する。

メタデータ生成部７０１は、領域推定部２１０により推定された検出可能領域を示すメタデータを生成する。メタデータ生成部７０１は、具体的には、検出確率が閾値以上となった座標群をメタデータとして生成する。そして、通信処理部２００は、メタデータをクライアント装置７１０に送信する。

クライアント装置７１０は、通信処理部７１１と、表示処理部７１２と、領域画像生成部７１３と、受付部７１４と、を有している。通信処理部７１１は、外部装置との通信を制御する。通信処理部７１１は、例えば、管理装置７００から、映像データや、前述のメタデータ、イベント等を受信する。領域画像生成部７１３は、メタデータに基づいて、領域画像を生成する。ここで生成される領域画像は、第１の実施形態において領域画像生成部２１１により生成される領域画像と同じ画像である。

表示処理部７１２は、領域画像生成部７１３により生成された領域画像を、通信処理部７１１を介して管理装置７００から受信した映像データ（撮影画像）上に重畳して表示するよう制御する。表示処理部７１２はまた、通信処理部７１１がイベントを受信した場合には、イベントに基づいて、異常音が生じたことを示す情報を表示するよう制御する。

受付部７１４は、第１の実施形態に係る受付部２１２と同様に、射影距離の変更指示や検出確率の変更指示を受け付ける。これらの指示は、通信処理部７１１を介して管理装置７００に送信される。そして、領域推定部２１０は、変更指示に従い、検出可能領域を変更する。そして、メタデータ生成部７０１は、変更後の検出可能領域を示すメタデータを生成する。生成されたメタデータは、クライアント装置７１０に送信され、領域画像生成部７１３により、変更指示に係る検出可能領域を示す領域画像が生成され、表示処理部７１２により変更後の領域画像を含む重畳画像が表示される。

（第２の実施形態）
次に、第２の実施形態に係る監視システムについて説明する。第２の実施形態に係る監視システムにおいては、情報処理装置は、マイク１１３により収音された音声データに基づいて、領域画像を生成する。以下、第２の実施形態に係る監視システムについて、第１の実施形態に係る監視システム１００と異なる点について説明する。図８は、第２の実施形態に係る情報処理装置１３０のソフトウェア構成を示す図である。情報処理装置１３０は、通信処理部２００と、特徴量抽出部２０１と、特徴量ＤＢ２０２と、尤度算出部２０３と、異常音判定部２０４と、マイクＤＢ２０６と、を有している。情報処理装置１３０はまた、領域推定部２１０と、領域画像生成部２１１と、受付部２１２と、を有している。ここれら各部の機能は、第１の実施形態において説明した各部の機能と同様である。

情報処理装置１３０はさらに、レベル算出部８００と、平均レベル算出部８０１と、距離推定部８０２と、レベル比推定部８０３と、検出確率ＤＢ８０４と、変換部８０５と、を有している。本実施形態においては、異常音判定部２０４は、異常音が発生したと判定した場合には、表示処理部２０５だけでなく、平均レベル算出部８０１及び距離推定部８０２にイベントを送る。レベル算出部８００は、音声データを入力とし、音声データの振幅データの二乗和を音圧レベルとして算出する。

平均レベル算出部８０１は、レベル算出部８００により算出された音圧レベルをフィルタに通し、平均レベルを得る。そして、平均レベル算出部８０１は、平均レベルを格納する。具体的には、平均レベル算出部８０１は、異常音判定部２０４からイベント通知を受けている場合には、対象音平均化フィルタ（一時のＩＩＲ）を通す。一方、平均レベル算出部８０１は、異常音判定部２０４からイベント通知を受けていない場合には、背景音平均化フィルタ（一次のＩＩＲ）を通す。ここで、例えば、対象音平均化フィルタの係数を０．９６、背景音平均化フィルタの係数を０．９６とする。

距離推定部８０２は、映像データ（撮影画像）を取得し、例えばＨＤＤ１２４等に予め記憶されている音源画像と比較することにより、音源の設置場所を特定する。距離推定部８０２は、音源の特定には、テンプレートマッチングを使用する。距離推定部８０２は、さらにカメラ１１０を制御し、特定した場所にピントが合わされた撮影画像を撮影するようカメラ１１０を制御し、このときの撮影条件から、特定した場所とカメラ１１０の間の距離を推定する。

レベル比推定部８０３は、通信処理部２００を介してカメラ１１０から映像データ（撮影画像）を取得する。音圧推定部２０８はさらに、通信処理部２００を介してカメラ１１０から撮影情報を取得し、また、マイクＤＢ２０６からマイク１１３の特性情報及び設定情報を取得する。音圧推定部２０８は、これらの情報に基づいて、撮影画像中の各点の背景音及び対象音の平均レベルの比の推定値（レベル比推定値）を算出する。以下、各点のレベル比推定値の集合をレベル比推定値勾配と称することとする。音圧推定部２０８の処理については、後に詳述する。検出確率ＤＢ８０４は、音圧のレベル比と検出確率とを対応付けた対応テーブルを記憶している。変換部８０５は、検出確率ＤＢ８０４を参照し、レベル比推定部８０３により得られた各点のレベル比推定値を検出確率に変換する。

また、本実施形態に係る情報処理装置１３０は、第１の実施形態において説明した音圧推定値勾配推定処理（Ｓ５０２）に替えて、レベル比推定値勾配推定処理を行う。図９は、レベル比推定値勾配推定処理を示すフローチャートである。Ｓ９０１において、レベル算出部８００は、音声データの振幅データの二乗和を音圧レベルとして算出する本処理は、音圧レベルを特定する特定処理の一例である。次に、Ｓ９０２において、平均レベル算出部８０１は、異常音が発生したか否かを確認する。平均レベル算出部８０１は、異常音が発生している場合には（Ｓ９０２でＹｅｓ）、処理をＳ９０３へ進める。平均レベル算出部８０１は、異常音が発生していない場合には（Ｓ９０２でＮｏ）、処理をＳ９０６へ進める。Ｓ９０３において、距離推定部８０２は、対象音源を特定し、特定した音源とカメラ１１０の間の距離を推定する。次に、Ｓ９０４において、平均レベル算出部８０１は、対象音平均化フィルタを用いて、異常音（対象音）と判定された音声データの音圧レベルを平均化する。

次に、Ｓ９０５において、レベル比推定部８０３は、Ｓ９０４において算出された対象音の平均音圧レベルと、マイク１１３の特性情報と、を用いて、撮影画像中の各点の対象音の音圧レベル推定値を算出する。以下、対象音の音圧レベル推定値を対象音レベル推定値と称することとする。また、各点の対象音レベル推定値の集合を対象音レベル推定値勾配と称することとする。レベル比推定部８０３は、対象音レベル推定値勾配をＲＡＭ１２３等の記憶部に記録する。具体的には、レベル比推定部８０３は、撮影画像の各点の座標をカメラ絶対座標系の座標に変換し、さらに、マイク１１３の設置情報に基づいて、マイク相対座標系の座標に変換し、画像内での音圧レベル勾配を推定する。そして、音圧レベル勾配に基づいて、対象音の平均音圧レベルから、撮影画像内の各点における、対象音レベル推定値を算出する。この際、レベル比推定部８０３は、音源座標を（ｘ，ｙ）＝（０，０）、音源距離をＺとして三次元空間上にてＺ一定面を切り取ったとして、画面内のすべての領域の音源領域との距離を求める。

さらに、レベル比推定部８０３は、音源領域からの距離から、その場所にて対象音が発生した場合の音圧レベルを例えば（式４）により推定する。

ここで、Ｌは、対象音レベル推定値、Ｌ₀は対象音の平均音圧レベル、Ｚは音源までの距離、（ｘ，ｙは）、音源座標を原点（０，０）とした場合の画面内座標である。さらに、レベル比推定部８０３は、対象音レベル推定値に、に例えば、Ｚ²／１００を乗じることにより、距離１０ｍでの音圧レベルに換算する。レベル比推定部８０３は、上記推定された音圧レベルに画像内での音圧レベル勾配を乗じて、対象音推定値を算出する。

一方、Ｓ９０６において、平均レベル算出部８０１は、背景音平均化フィルタを用いて、背景音と判定された音声データの音圧レベルを平均化する。次に、Ｓ９０７において、レベル比推定部８０３は、Ｓ１００６において算出された背景音の平均音圧レベルと、マイク１１３の特性情報と、を用いて、撮影画像中の各点の背景音の音圧レベル推定値を算出する。以下、背景音の音圧レベル推定値を背景音レベル推定値と称することとする。ここでは、レベル比推定部８０３は、平均化された音圧レベルを撮影画像内の最も感度が高い領域で受信したものとして、背景音レベル推定値を算出する。なお、レベル比推定部８０３は、背景音については距離に依存せず一定と仮定し、距離依存の計算を行わず、マイク１１３の特性情報を用いた音圧レベル勾配を乗じて背景音レベル推定値を算出する。以下、各点の背景音レベル推定値の集合を背景音レベル推定値勾配と称することとする。平均レベル算出部８０１は、背景音レベル推定値勾配を例えばＲＡＭ１２３等の記憶部に記録する。

次に、Ｓ９０８において、レベル比推定部８０３は、対象音レベル推定値勾配及び背景音レベル推定値勾配が得られているか否かを確認する。レベル比推定部８０３は、対象音レベル推定値勾配及び背景音レベル推定値勾配が得られている場合には（Ｓ９０８でＹｅｓ）、処理をＳ９０９へ進める。レベル比推定部８０３は、対象音レベル推定値勾配及び背景音レベル推定値勾配のうち少なくとも１つのレベル推定値勾配が得られていない場合には（Ｓ９０８でＮｏ）、処理をＳ９０１へ進める。すなわち、Ｓ９０８において、レベル比推定部８０３は、対象音レベル推定値勾配及び背景音レベル推定値勾配が得られるまで待機する。なお、Ｓ９０１〜Ｓ９０７を繰り返す場合においては、情報処理装置１３０は、処理時点において得られていないレベル推定値勾配の推定のみを行えばよい。また、他の例としては、情報処理装置１３０は、再度レベル推定値勾配の推定を行い、新たに得られたレベル推定値勾配で上書きしてもよい。

Ｓ９０９において、レベル比推定部８０３は、各点において、背景音レベル推定値に対する対象音レベル推定値の比を算出する。以下、背景音レベル推定値に対する対象音レベル推定値の比を、レベル比推定値と称することとする。また、各点のレベル比推定値の集合をレベル比推定値勾配と称することとする。ＣＰＵ１２１は、Ｓ９０９の処理の後、処理をＳ５０３へ進める。なお、本実施形態においては、Ｓ５０３において、変換部８０５は、検出確率ＤＢ８０４を参照し、各点のレベル比推定値を検出確率に変換する（変換処理）。以上で、レベル比推定値勾配算出処理が終了する。なお、第２の実施形態に係る情報処理装置１３０のこれ以外の構成及び処理は、第１の実施形態に係る監視システム１００の構成及び処理と同様である。

以上のように、第２の実施形態に係る監視システム１００においても、ユーザは、重畳画像６１０を目視確認することにより、異常音の検出対象となる領域が検出可能な領域内に含まれているか否かを確認することができる。これにより、ユーザによる設定作業を簡略化し、設定ミスを低減することができる。さらに、ユーザが適切な設定を行った上で異常音検出を行うこととなるため、異常音検出の検出精度を向上させることができる。

第２の実施形態の変更例について説明する。情報処理装置１３０は、レベル比推定値に基づいて異常音を推定するのに替えて、第１の実施形態において説明したのと同様に、異常音の音圧に基づいて、検出確率を推定してもよい。

（第３の実施形態）
次に、第３の実施形態に係る監視システムについて説明する。第３の実施形態に係る監視システムにおいては、情報処理装置は、検出可能領域を床面に射影した領域画像を生成する。以下、第３の実施形態に係る監視システムについて、第２の実施形態に係る監視システム１００と異なる点について説明する。図１０は、第３の実施形態に係る情報処理装置１４０のソフトウェア構成を示す図である。領域推定部１０００は、検出確率の複数の閾値に基づいて、複数の検出可能領域を推定する。本実施形態においては、領域推定部１０００は、４つの検出可能領域を推定する。具体的には、領域推定部１０００は、対象音源において発生する基準音声に対する検出確率を用いて、検出可能領域を推定する。以下、基準音声に対する検出確率を基準検出確率と称する。領域推定部１０００はまた、基準検出確率に比べて、１０％、２０％低い検出確率と、基準検出確率に比べて１０％高い検出確率それぞれを用いて、検出可能領域を推定する。

情報処理装置１４０は、さらに水平面検出部１００１を有している。水平面検出部１００１は、撮影画像のカラー情報やエッジ情報に基づいて、床面を検出し、撮影画像から床面領域を抽出する（抽出処理）。なお、床面検出の処理には、従来技術を用いればよく、処理方法は実施形態に限定されるものではない。

また、マイクＤＢ２０６には、マイク１１３の設置情報として、マイク１１３の高さ情報が記憶されているものとする。また、他の例としては、マイク１１３の高さは、ユーザにより入力されてもよい。領域画像生成部１００２は、マイク１１３の設置情報に示される、マイク１１３から音源までの距離情報と、マイク１１３の高さ情報と、に基づいて、マイク１１３から各検知可能領域の境界までの水平距離を特定する。

領域画像生成部１００２はまた、音源の位置情報に基づいて、音源の位置の床面への垂直射影位置（点Ｐ）を特定する。さらに、領域画像生成部１００２は、検出可能領域を床面領域に射影した領域の境界線として、マイク１１３からの水平距離がマイク１１３から点Ｐまでの水平距離と等しくなる等距離線を床面上において特定し、これを等距離線Ｌ０とする。領域画像生成部１００２は、さらに、検出確率が１０％低下する水平距離、２０％低下する水平距離、及び１０％上がる水平距離を特定し、それぞれ等距離線Ｌ１，Ｌ２，Ｌ３とする。本処理は、検出可能領域を床面領域に射影する射影処理の一例である。

領域画像生成部１００２は、さらに、等距離線Ｌ３よりマイク１１３に近い床面領域を、例えばＲ＝１６、Ｇ＝１６、Ｂ＝１６の色で着色する。領域画像生成部１００２はまた、等距離線Ｌ０と等距離線Ｌ３に挟まれている床面領域を、例えばＲ＝３２、Ｇ＝３２、Ｂ＝３２の色で着色する。領域画像生成部１００２はまた、等距離線Ｌ１と等距離線Ｌ０に挟まれている床面領域を、例えばＲ＝６４、Ｇ＝６４、Ｂ＝６４の色で着色する。領域画像生成部１００２はまた、等距離線Ｌ２と等距離線Ｌ１に挟まれている床面領域を、例えばＲ＝１２８、Ｇ＝１２８、Ｂ＝１２８の色で着色する。領域画像生成部１００２はまた、等距離線Ｌ２より遠い領域をＲ＝２５５、Ｇ＝２５５、Ｂ＝２５５の色で着色する。以上の処理により、領域画像生成部１００２は、床面着色画像（領域画像）を生成する。図１１は、領域画像の一例を示す図である。

表示処理部２０５は、床面着色画像を映像データに重畳する。表示処理部２０５は、例えば、α＝０．３にてαブレンドした重畳画像を生成し、これを表示部１２５に表示させる。なお、第３の実施形態に係る情報処理装置１４０のこれ以外の構成及び処理は、第２の実施形態に係る情報処理装置１３０の構成及び処理と同様である。

以上のように、本実施形態の情報処理装置１４０は、検出確率に応じた領域を床面に射影して表示することができる。したがって、ユーザは、検出確率と距離の関係を理解し易くなる。これにより、ユーザによる設定作業を簡略化し、設定ミスを低減することができる。さらに、ユーザが適切な設定を行った上で異常音検出を行うこととなるため、異常音検出の検出精度を向上させることができる。

以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１００監視システム
１１０カメラ
１２０情報処理装置

Claims

撮影手段により撮影された撮影画像を取得する取得手段と、
収音手段により得られた音声データから、検出対象の対象音を検出する検出手段と、
前記収音手段の指向性に基づいて、前記撮影画像に示される領域において、前記対象音を検出可能な検出可能領域を推定する領域推定手段と、
前記検出可能領域を示す領域画像を生成する生成手段と
を有することを特徴とする情報処理装置。
前記領域画像が重畳された前記撮影画像を表示手段に表示させる表示制御手段をさらに有することを特徴とする請求項１に記載の情報処理装置。
前記領域画像が重畳された前記撮影画像を外部装置に送信する送信手段をさらに有することを特徴とする請求項１又は２に記載の情報処理装置。
前記指向性に基づいて、前記撮影画像の領域内の複数の位置の音圧を推定する音圧推定手段をさらに有し、
前記領域推定手段は、前記音圧推定手段により推定された音圧推定値に基づいて、前記検出可能領域を推定することを特徴とする請求項１乃至３何れか１項に記載の情報処理装置。
音圧と、前記音圧に対する音声の検出確率と、を対応付けて記憶する対応テーブルを記憶する記憶手段と、
前記対応テーブルを参照して、前記音圧推定値を前記検出確率に変換する変換手段と
をさらに有し、
前記領域推定手段は、前記検出確率に基づいて、前記検出可能領域を推定することを特徴とする請求項４に記載の情報処理装置。
前記領域推定手段は、前記検出確率が閾値以上の領域を前記検出可能領域として推定することを特徴とする請求項５に記載の情報処理装置。
前記閾値の変更指示を受け付ける受付手段をさらに有し、
前記領域推定手段は、前記変更指示に係る閾値に基づいて、前記検出可能領域を変更することを特徴とする請求項６に記載の情報処理装置。
前記領域推定手段は、前記撮影画像に示される、前記収音手段から所定の距離の領域において、前記検出可能領域を推定することを特徴とする請求項１乃至７何れか１項に記載の情報処理装置。
前記収音手段からの距離の変更指示を受け付ける受付手段をさらに有し、
前記領域推定手段は、前記変更指示に係る距離に基づいて、前記検出可能領域を変更することを特徴とする請求項８に記載の情報処理装置。
撮影手段により撮影された撮影画像を取得する取得手段と、
収音手段により得られた音声データから、検出対象の対象音を検出する検出手段と、
前記対象音を発生する対象音源の位置からの距離に基づいて、前記撮影画像に示される領域において、対象音を検出可能な検出可能領域を推定する領域推定手段と、
前記検出可能領域を示す領域画像を生成する生成手段と
を有することを特徴とする情報処理装置。
前記対象音の音圧レベルと、背景音の音圧レベルと、を特定する特定手段をさらに有し、
前記領域推定手段は、前記対象音の音圧レベルと、前記背景音の音圧レベルと、前記対象音源の位置からの距離と、に基づいて、前記検出可能領域を推定することを特徴とする請求項１０に記載の情報処理装置。
前記対象音の音圧レベルと、前記背景音の音圧レベルと、前記対象音源の位置からの距離と、に基づいて、前記対象音の音圧レベルと前記背景音の音圧レベルのレベル比を推定するレベル比推定手段をさらに有し、
前記領域推定手段は、前記レベル比推定手段により推定されたレベル比推定値に基づいて、前記検出可能領域を推定することを特徴とする請求項１１に記載の情報処理装置。
レベル比と、前記レベル比に対する音声の検出確率と、を対応付けて記憶する対応テーブルを記憶する記憶手段と、
前記対応テーブルを参照して、前記レベル比推定値を前記検出確率に変換する変換手段と
をさらに有し、
前記領域推定手段は、前記検出確率に基づいて、前記検出可能領域を推定することを特徴とする請求項１２に記載の情報処理装置。
前記撮影画像から床面領域を抽出する抽出手段と、
前記検出可能領域を床面領域に射影する射影手段と
をさらに有し、
前記生成手段は、前記床面領域に射影された前記検出可能領域を示す領域画像を生成することを特徴とする請求項１０乃至１３何れか１項に記載の情報処理装置。
情報処理装置が実行する情報処理方法であって、
撮影手段により撮影された撮影画像を取得する取得ステップと、
収音手段により得られた音声データから、検出対象の対象音を検出する検出ステップと、
前記収音手段の指向性に基づいて、前記撮影画像に示される領域において、前記対象音を検出可能な検出可能領域を推定する領域推定ステップと、
前記検出可能領域を示す領域画像を生成する生成ステップと
を含むことを特徴とする情報処理方法。
情報処理装置が実行する情報処理方法であって、
撮影手段により撮影された撮影画像を取得する取得ステップと、
収音手段により得られた音声データから、検出対象の対象音を検出する検出ステップと、
前記対象音を発生する対象音源の位置からの距離に基づいて、前記撮影画像に示される領域において、対象音を検出可能な検出可能領域を推定する領域推定ステップと、
前記検出可能領域を示す領域画像を生成する生成ステップと
を含むことを特徴とする情報処理方法。
コンピュータを、
撮影手段により撮影された撮影画像を取得する取得手段と、
収音手段により得られた音声データから、検出対象の対象音を検出する検出手段と、
前記収音手段の指向性に基づいて、前記撮影画像に示される領域において、前記対象音を検出可能な検出可能領域を推定する領域推定手段と、
前記検出可能領域を示す領域画像を生成する生成手段と
して機能させるためのプログラム。
コンピュータを、
撮影手段により撮影された撮影画像を取得する取得手段と、
収音手段により得られた音声データから、検出対象の対象音を検出する検出手段と、
前記対象音を発生する対象音源の位置からの距離に基づいて、前記撮影画像に示される領域において、対象音を検出可能な検出可能領域を推定する領域推定手段と、
前記検出可能領域を示す領域画像を生成する生成手段と
して機能させるためのプログラム。