JP2017102085A - 情報処理装置、情報処理方法及びプログラム - Google Patents
情報処理装置、情報処理方法及びプログラム Download PDFInfo
- Publication number
- JP2017102085A JP2017102085A JP2015237756A JP2015237756A JP2017102085A JP 2017102085 A JP2017102085 A JP 2017102085A JP 2015237756 A JP2015237756 A JP 2015237756A JP 2015237756 A JP2015237756 A JP 2015237756A JP 2017102085 A JP2017102085 A JP 2017102085A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- area
- region
- information processing
- detectable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 60
- 238000003672 processing method Methods 0.000 title claims description 5
- 238000001514 detection method Methods 0.000 claims abstract description 79
- 238000012545 processing Methods 0.000 claims abstract description 58
- 230000008859 change Effects 0.000 claims description 22
- 238000006243 chemical reaction Methods 0.000 claims description 14
- 238000003860 storage Methods 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 claims 1
- 238000000034 method Methods 0.000 description 41
- 230000002159 abnormal effect Effects 0.000 description 40
- 230000008569 process Effects 0.000 description 40
- 238000004891 communication Methods 0.000 description 25
- 238000004364 calculation method Methods 0.000 description 22
- 238000012544 monitoring process Methods 0.000 description 22
- 238000009434 installation Methods 0.000 description 14
- 239000003086 colorant Substances 0.000 description 10
- 230000035945 sensitivity Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000012935 Averaging Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 230000005856 abnormality Effects 0.000 description 5
- 238000003384 imaging method Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 206010013952 Dysphonia Diseases 0.000 description 1
- 208000010473 Hoarseness Diseases 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/62—Control of parameters via user interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/63—Control of cameras or camera modules by using electronic viewfinders
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01H—MEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
- G01H3/00—Measuring characteristics of vibrations by using a detector in a fluid
- G01H3/10—Amplitude; Power
- G01H3/12—Amplitude; Power by electric means
- G01H3/125—Amplitude; Power by electric means for representing acoustic field distribution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/80—Camera processing pipelines; Components thereof
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/326—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R29/00—Monitoring arrangements; Testing arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R29/00—Monitoring arrangements; Testing arrangements
- H04R29/008—Visual indication of individual signal levels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/40—Visual indication of stereophonic sound image
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Otolaryngology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Probability & Statistics with Applications (AREA)
- Theoretical Computer Science (AREA)
- Studio Devices (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
【課題】ユーザによる音声の検出処理を行うための設定作業を支援することを目的とする。【解決手段】撮影手段により撮影された撮影画像を取得する取得手段と、収音手段により得られた音声データから、検出対象の対象音を検出する検出手段と、収音手段の指向性に基づいて、撮影画像に示される領域において、対象音を検出可能な検出可能領域を推定する領域推定手段と、検出可能領域を示す領域画像を生成する生成手段とを有する。【選択図】図2
Description
本発明は、情報処理装置、情報処理方法及びプログラムに関する。
従来、音声の検知や認識の技術は様々な分野で応用され、使用されてきている。例えば携帯電話、PC、カーナビ等の制御インターフェスとしてのアプリケーションが知られている。特許文献1には、対象物の画像と収音した音圧信号から分布を計算し、音圧マップを画像に重畳し、異常領域を診断する異常診断装置が開示されている。
しかしながら、音声認識等の技術においては、音声を収音するマイクの音量ゲイン等の設定が適切になされている必要があり、ユーザがマイクの設定を調整しなければならなかった。例えば、ある領域において、音声の認識を行いたい場合は、ユーザがその領域の代表点を抽出し、その代表点にて試験音を発生し、音量ゲイン等の調整を行わなければならなかった。また、このような調整を行っても、ユーザが音声認識を希望する領域と、実際に適切な音声認識が可能な領域にずれが生じ、その結果ユーザが期待する音声認識精度等が得られない場合がある。
本発明はこのような問題点に鑑みなされたもので、ユーザによる音声の検出処理を行うための設定作業を支援することを目的とする。
そこで、本発明は、情報処理装置であって、撮影手段により撮影された撮影画像を取得する取得手段と、収音手段により得られた音声データから、検出対象の対象音を検出する検出手段と、前記収音手段の指向性に基づいて、前記撮影画像に示される領域において、前記対象音を検出可能な検出可能領域を推定する領域推定手段と、前記検出可能領域を示す領域画像を生成する生成手段とを有することを特徴とする。
本発明によれば、ユーザによる音声の検出処理を行うための設定作業を支援することができる。
以下、本発明の実施形態について図面に基づいて説明する。
(第1の実施形態)
図1は、第1の実施形態に係る監視システム100のハードウェア構成を示す図である。監視システム100は、異常音を検出する監視するシステムである。監視システム100は、監視領域において悲鳴や罵声が発生した場合に、これを異常音として検出し、監視者等のユーザに通知する。監視システム100は、撮影装置の一例としてのカメラ110と、情報処理装置120とを有している。
図1は、第1の実施形態に係る監視システム100のハードウェア構成を示す図である。監視システム100は、異常音を検出する監視するシステムである。監視システム100は、監視領域において悲鳴や罵声が発生した場合に、これを異常音として検出し、監視者等のユーザに通知する。監視システム100は、撮影装置の一例としてのカメラ110と、情報処理装置120とを有している。
カメラ110は、監視領域の映像を撮影し、これを情報処理装置120に送信する。カメラ110はまた、音声を収音し、音声データを情報処理装置120に送信する。情報処理装置120は、受信した映像を表示する。また、情報処理装置120は、音声データから異常音の有無を判定し、異常音が発生した場合に、異常が発生したことをユーザに通知するための処理を行う。情報処理装置120はさらに、異常音の検出が可能な領域を推定し、推定された検出可能領域を映像に重畳して表示する。
カメラ110は、撮影部111と、画像処理部112と、マイク113と、CPU114と、ROM115と、RAM116と、通信部117とを有している。撮影部111は、光学像を電気信号に変換するCCDやCMOS素子等で構成される撮像素子、レンズ群、シャッター等を有し、監視領域の映像を撮影する。画像処理部112は、画素補間処理や色変換処理等の画像処理を行う。マイク113は、増幅回路及び制御部を有し、周囲の音声を収音する。
CPU114は、ROM115に記憶された制御プログラムを読み出して各種処理を実行する。RAM116は、CPU114の主メモリ、ワークエリア等の一時記憶領域として用いられる。なお、後述するカメラ110の機能や処理は、CPU114がROM115に格納されているプログラムを読み出し、このプログラムを実行することにより実現されるものである。通信部117は、ネットワークを介して情報処理装置120等の外部装置との通信を行う。
情報処理装置120は、CPU121と、ROM122と、RAM123と、HDD124と、表示部125と、入力部126と、通信部127とを有している。CPU121、ROM122、RAM123及び通信部127は、それぞれ、CPU114、ROM115、RAM116及び通信部117と同様である。HDD124は、画像データや各種プログラム等各種情報を記憶する。表示部125は、各種情報を表示する。入力部126は、キーボードやマウスを有し、ユーザによる各種操作を受け付ける。
図2は、情報処理装置120のソフトウェア構成を示す図である。通信処理部200は、外部装置との通信を制御する。通信処理部200は、例えばカメラ110から音声データ、映像データ及び撮影情報を受信する。撮影情報は、パン角度、チルト角度及び画角を含んでいる。特徴量抽出部201は、カメラ110から入力された音声データに基づいて、音声の特徴量を抽出する。ここで、特徴量は、音声の基本周波数、フォルマント周波数、スペクトラム、ケプストラムから得られるメル周波数ケプストラム係数(MFCC)、ゼロクロス、サブバンドエナジー等が挙げられる。特徴量データベース(DB)202には、各音響モデルに対する各特徴量の確率分布が登録されている。ここで、音響モデルとは、対象音である悲鳴、罵声、その他の背景音、例えば店舗の環境音等を学習してモデル化したものである。
尤度算出部203は、特徴量DB202に登録されている各音響モデルの各特徴量ベクトルに対する、入力された音声データの特徴量ベクトルの尤度を計算する。そして、尤度算出部203は、検出結果のモデル候補と、その尤度計算のスコアとを含むN-Bestの結果を異常音判定部204に送る。異常音判定部204は、尤度算出部203において得られた候補のトップを検知結果として選択する。そして、異常音判定部204は、選択した候補が異常音として登録された音声であり、スコアが規定の閾値を超えている場合に、異常が発生したと判定し、異常が発生したことを示すイベントを表示処理部205に送る。表示処理部205は、各種情報を表示する。表示処理部205は、例えば、イベントを受け取ると、ユーザに異常が発生したことを示す情報を表示部125に表示する。
また、マイクDB206は、カメラ110のマイク113の感度の指向性を示す特性情報と、マイク113の設置位置に係る設置情報と、を記憶している。特性情報は、原点をマイク113の中心に置いた、三次元球座標系における垂直軸に対する偏角θと水平面内の偏角φに対して最も高い感度を1とした場合の、1度単位の各位置の相対感度値を示す情報である。一般的にデカルト座標系と三次元極座標系のスケール因子の関係は、(式1)で表される。
(x,y,z)
=(rsinθcosφ,rsinθsinφ,rcosθ) …(式1)
(x,y,z)
=(rsinθcosφ,rsinθsinφ,rcosθ) …(式1)
図3(a)は、三次元デカルト座標系と三次元極座標系の関係を示す図である。特性情報のθ,φは、図3(b)に示すように、感度特性が最も良い面をxy平面として、その平面内にて最も感度特性が良い方向をx軸とする座標系のものである。この座標系を以後、マイク相対座標系と称することとする。ここで、図3(b)の右側の図において破線円D1_1は相対感度値が最大値である1の円であり、閉曲線D1_2は偏角θ=θ0で切り取られた平面上の相対マイク感度値である。図4に示すように、マイクDB206には、図3(b)を参照しつつ説明した相対マイク感度値がマイクの特性情報として登録されている。
一方で、撮影部111の中心を原点に置き、カメラ110の光軸をx軸とし、撮影面に平行な面内においてx軸と直交する軸をy軸とし、上記x軸、y軸と直交する軸をz軸としたデカルト座標系を定義する。以下、この座標系をカメラ絶対座標系と称することとする。マイク113の設置情報は、カメラ絶対座標系からみた、マイク相対座標系の原点の位置と相対マイク相対座標系におけるx軸、y軸、z軸方向の単位ベクトルを含んでいる。したがって、設置情報を用いることにより、マイク相対座標系からカメラ絶対座標系への変換が可能となる。
なお、本実施形態においては、マイク113は、カメラ110に内蔵されており、マイク113の設置情報及び特性情報がマイクDB206に予め登録されているものとする。但し、異常音の検出にマイク113に替えて、外部マイクを使用してもよい。そして、この場合には、入力部126は、この外部マイクの設置情報及び特性情報のユーザ入力を受け付け、CPU121が外部マイクの設置情報及び特性情報をマイクDB206に登録することとする。
図2に戻り、検出確率DB207は、音圧と検出確率とを対応付けた対応テーブルを記憶している。ここで、音圧は、所定の音源において発生した音の音圧である。本実施形態においては、音圧は、マイク113から10m離れた位置の音源からの音の音圧とする。検出確率は、対応する音圧の音の検出を試みた回数に対する、検出に成功した回数の割合である。なお、音圧が大きくなる程、検出確率は大きくなるので、より大きい音圧には、より大きい検出確率が対応付けられている。
音圧推定部208は、通信処理部200を介してカメラ110から映像データ(撮影画像)を取得する。音圧推定部208はさらに、通信処理部200を介してカメラ110から撮影情報を取得し、また、マイクDB206からマイク113の特性情報及び設定情報を取得する。音圧推定部208は、これらの情報に基づいて、撮影画像中の各点の音圧推定値を算出する。以下、各点の音圧推定値の集合を音圧推定値勾配と称することとする。音圧推定部208の処理については、後に詳述する。
変換部209は、検出確率DB207を参照し、音圧推定部208により得られた各点の音圧推定値を検出確率に変換する。領域推定部210は、検出確率が閾値以上となった領域を、異常音の検出可能領域として推定する。領域画像生成部211は、検出可能領域を示す領域画像を生成する。なお、領域画像は、表示処理部205により映像データ上に重畳され、表示部125に表示される。受付部212は、入力部126を介してユーザからの指示入力を受け付ける。
図5は、情報処理装置120による、異常音検知のための設定処理を示すフローチャートである。S501において、音圧推定部208は、通信処理部200を介して撮影画像を取得する(取得処理)。次に、S502において、音圧推定部208は、音圧推定値勾配を算出する。ここで、音圧推定値勾配とは、撮影画像中の各点の音圧推定値の集合である。音圧推定部208は、撮影画角、カメラ絶対座標における光軸の向きを撮影情報として取得する。そして、音圧推定部208は、カメラ絶対座標における光軸の向き、撮影画角及びマイク113の設置情報に基づいて、撮影画角を、カメラ絶対座標系の座標値(x,y)に変換する。音圧推定部208は、具体的には(式2)により、座標変換を行う。なお、lは、焦点距離である。
さらに、音圧推定部208は、マイク113の設置情報に基づいて、カメラ絶対座標系の座標値を、マイク相対座標系の座標値に変換する。そして、音圧推定部208は、マイク113の特性情報を参照し、マイク113から所定の方向に10m離れた位置において音圧85dB[SPL]の音を発生させた場合の、撮影画像中の各点の音圧推定値を算出する。ここで、撮影画像中の各点は、マイク113から10m離れた複数の位置である。本処理は、撮影画像中の、マイク113から所定の距離の領域内の複数の位置の音圧を推定する音圧推定処理の一例である。音圧推定部208は、さらに各点の座標と音圧推定値とを対応付けてHDD124等に記録する。なお、マイク113の位置及び音圧は、実施形態に限定されるものではない。
次に、S503において、変換部209は、検出確率DB207を参照し、S502において得られた各音圧推定値を検出確率に変換する(変換処理)。次に、S504において、領域推定部210は、検出可能領域を推定する(領域推定処理)。具体的には、領域推定部210は、検出確率が閾値以上となる領域を検出可能領域として推定する。本実施形態においては、閾値を90%とするが、閾値は、特に限定されるものではない。
次に、S505において、領域画像生成部211は、検出可能領域を示す領域画像を生成する(生成処理)。領域画像生成部211は、例えば、検出可能領域を黄色に塗った画像を領域画像として生成する。次に、S506において、表示処理部205は、領域画像を映像データに重畳し、これを表示部125に表示させる(表示制御処理)。表示処理部205は、例えば、領域画像をα=0.3にてαブレンドした重畳画像を生成し、これを表示部125に表示させる。
図6(a)は、S506において表示部125に表示される表示画面600の一例を示している。表示画面600には、重畳画像610と、操作バー621,622とが表示されている。重畳画像610には、検出可能領域を示す境界線611が表示され、境界線611の外側には、映像データ(撮影画像)612が表示され、境界線611の内側には、映像データ612上に領域画像613が重畳されている。すなわち、境界線611の内側に示される領域は、マイク113から10mの距離において85dB[SPL]の異常音が発生した際に、90%の確率で異常音を検出可能な領域である。ユーザは、重畳画像610を目視確認することにより、異常音の検出対象となる領域が検出可能な領域内に含まれているか否かを確認することができる。
また、操作バー621は、マイク113からの距離(射影距離)を入力するためのユーザインタフェースであり、操作バー622は、検出可能領域を推定する際に利用される検出確率の閾値を入力するためのユーザインタフェースである。ユーザは、操作バー621,622のボタンを調整することにより、射影距離及び検出確率の閾値の変更指示を情報処理装置120に入力することができる。
図5に戻り、S506の処理の後、CPU121は、処理をS507へ進める。S507において、音圧推定部208は、撮影情報が変更されたか否かを確認する。音圧推定部208は、撮影情報が変更された場合には(S507でYes)、処理をS501へ進める。音圧推定部208は、撮影情報が変更されていない場合には(S507でNo)、処理をS508へ進める。S508において、受付部212は、射影距離の変更指示を受け付けたか否かを確認する(受付処理)。受付部212は、射影距離の変更指示を受け付けた場合には(S508でYes)、処理をS509へ進める。受付部212は、射影距離の変更指示を受け付けなかった場合には(S508でNo)、処理をS511へ進める。
S509において、領域推定部210は、変更指示に係る射影距離に基づいて、検出可能領域を変更する。本実施形態においては、受付部212は、(式3)により、検出可能領域の境界線の座標(x,y)を座標(x',y')に変換する。すなわち、座標(x',y')は変換後の座標である。また、zは、変更後の距離である。
次に、S510において、領域画像生成部211は、変更後の検出可能領域を示す領域画像を生成する。本処理は、S505の処理と同様である。CPU121は、その後処理をS506へ進める。
また、S511において、受付部212は、検出確率の閾値の変更指示を受け付けたか否かを確認する(受付処理)。受付部212は、閾値の変更指示を受け付けた場合には(S511でYes)、処理をS512へ進める。受付部212は、閾値の変更指示を受け付けなかった場合には(S511でNo)、処理をS514へ進める。S512において、領域画像生成部211は、変更指示に係る閾値に基づいて、検出可能領域を変更する。次に、S513において、領域推定部210は、変更後の検出可能領域を示す領域画像を生成する。本処理は、S505の処理と同様である。CPU121は、その後処理をS506へ進める。S514において、受付部212は、ユーザ入力に応じた終了指示を受け付けたか否かを確認する。受付部212は、終了指示を受け付けた場合には(S514でYes)、処理を終了する。受付部212は、終了指示を受け付けなかった場合には(S514でNo)、処理をS507へ進める。
図6(b)は、射影距離が10mからより長い距離に変更された場合の重畳画像610を示す図である。図6(b)の例では、検出可能領域が小さくなっている。また、図6(c)は、検出確率の閾値がより小さい値に変更された場合の重畳画像610を示す図である。図6(c)の例では、検出可能領域613が大きくなっている。このように、本実施形態の情報処理装置120は、検出確率の閾値及び射影距離に応じた検出可能領域を表示することができる。
以上のように、本実施形態においては、監視システム100は、検出可能領域を表示するので、ユーザによる設定作業を簡略化し、設定ミスを低減することができる。さらに、ユーザが適切な設定を行った上で異常音検出を行うこととなるため、異常音検出の検出精度を向上させることができる。
第1の実施形態の第1の変更例としては、情報処理装置120による検出対象となる対象音は、異常音に限定されるものではない。対象音は、所定の周波数の音であってもよい。また、対象音は、特定の単語やフレーズが音声認識されるような音声であってもよい。すなわち、この場合には、情報処理装置120は、所定の単語やフレーズを音声認識により検出すればよい。
第2の変更例としては、領域推定部210は、例えば、検出確率90%、検出確率80%、検出確率60%というように、複数の検出確率を閾値とし、各閾値に対応する複数の検出可能領域を推定してもよい。そして、領域画像生成部211は、複数の検出可能領域を示す領域画像を生成してもよい。
第3の変更例としては、検出可能領域を示す領域画像は、実施形態に限定されるものではない。例えば、領域画像は、検出可能領域を3次元的に示す画像であってもよい。
第4の変更例としては、情報処理装置120の処理は、複数の装置により実現されてもよい。例えば、情報処理装置120の処理は、図7に示す管理装置700及びクライアント装置710により実現されてもよい。なお、図7に示す管理装置700及びクライアント装置710のハードウェア構成は、図1を参照しつつ説明した情報処理装置120のハードウェア構成と同様である。但し、管理装置700は、表示部125は有さなくともよい。
管理装置700は、通信処理部200と、特徴量抽出部201と、特徴量DB202と、尤度算出部203と、異常音判定部204と、マイクDB206と、検出確率DB207と、音圧推定部208と、変換部209と、領域推定部210と、を有している。これら各部の機能は、第1の実施形態において説明した各部の機能と同様である。管理装置700は、さらにメタデータ生成部701を有している。本実施形態においては、異常音判定部204が生成したイベントは、通信処理部200に送られる。そして、通信処理部200は、イベントをクライアント装置710に送信する。
メタデータ生成部701は、領域推定部210により推定された検出可能領域を示すメタデータを生成する。メタデータ生成部701は、具体的には、検出確率が閾値以上となった座標群をメタデータとして生成する。そして、通信処理部200は、メタデータをクライアント装置710に送信する。
クライアント装置710は、通信処理部711と、表示処理部712と、領域画像生成部713と、受付部714と、を有している。通信処理部711は、外部装置との通信を制御する。通信処理部711は、例えば、管理装置700から、映像データや、前述のメタデータ、イベント等を受信する。領域画像生成部713は、メタデータに基づいて、領域画像を生成する。ここで生成される領域画像は、第1の実施形態において領域画像生成部211により生成される領域画像と同じ画像である。
表示処理部712は、領域画像生成部713により生成された領域画像を、通信処理部711を介して管理装置700から受信した映像データ(撮影画像)上に重畳して表示するよう制御する。表示処理部712はまた、通信処理部711がイベントを受信した場合には、イベントに基づいて、異常音が生じたことを示す情報を表示するよう制御する。
受付部714は、第1の実施形態に係る受付部212と同様に、射影距離の変更指示や検出確率の変更指示を受け付ける。これらの指示は、通信処理部711を介して管理装置700に送信される。そして、領域推定部210は、変更指示に従い、検出可能領域を変更する。そして、メタデータ生成部701は、変更後の検出可能領域を示すメタデータを生成する。生成されたメタデータは、クライアント装置710に送信され、領域画像生成部713により、変更指示に係る検出可能領域を示す領域画像が生成され、表示処理部712により変更後の領域画像を含む重畳画像が表示される。
(第2の実施形態)
次に、第2の実施形態に係る監視システムについて説明する。第2の実施形態に係る監視システムにおいては、情報処理装置は、マイク113により収音された音声データに基づいて、領域画像を生成する。以下、第2の実施形態に係る監視システムについて、第1の実施形態に係る監視システム100と異なる点について説明する。図8は、第2の実施形態に係る情報処理装置130のソフトウェア構成を示す図である。情報処理装置130は、通信処理部200と、特徴量抽出部201と、特徴量DB202と、尤度算出部203と、異常音判定部204と、マイクDB206と、を有している。情報処理装置130はまた、領域推定部210と、領域画像生成部211と、受付部212と、を有している。ここれら各部の機能は、第1の実施形態において説明した各部の機能と同様である。
次に、第2の実施形態に係る監視システムについて説明する。第2の実施形態に係る監視システムにおいては、情報処理装置は、マイク113により収音された音声データに基づいて、領域画像を生成する。以下、第2の実施形態に係る監視システムについて、第1の実施形態に係る監視システム100と異なる点について説明する。図8は、第2の実施形態に係る情報処理装置130のソフトウェア構成を示す図である。情報処理装置130は、通信処理部200と、特徴量抽出部201と、特徴量DB202と、尤度算出部203と、異常音判定部204と、マイクDB206と、を有している。情報処理装置130はまた、領域推定部210と、領域画像生成部211と、受付部212と、を有している。ここれら各部の機能は、第1の実施形態において説明した各部の機能と同様である。
情報処理装置130はさらに、レベル算出部800と、平均レベル算出部801と、距離推定部802と、レベル比推定部803と、検出確率DB804と、変換部805と、を有している。本実施形態においては、異常音判定部204は、異常音が発生したと判定した場合には、表示処理部205だけでなく、平均レベル算出部801及び距離推定部802にイベントを送る。レベル算出部800は、音声データを入力とし、音声データの振幅データの二乗和を音圧レベルとして算出する。
平均レベル算出部801は、レベル算出部800により算出された音圧レベルをフィルタに通し、平均レベルを得る。そして、平均レベル算出部801は、平均レベルを格納する。具体的には、平均レベル算出部801は、異常音判定部204からイベント通知を受けている場合には、対象音平均化フィルタ(一時のIIR)を通す。一方、平均レベル算出部801は、異常音判定部204からイベント通知を受けていない場合には、背景音平均化フィルタ(一次のIIR)を通す。ここで、例えば、対象音平均化フィルタの係数を0.96、背景音平均化フィルタの係数を0.96とする。
距離推定部802は、映像データ(撮影画像)を取得し、例えばHDD124等に予め記憶されている音源画像と比較することにより、音源の設置場所を特定する。距離推定部802は、音源の特定には、テンプレートマッチングを使用する。距離推定部802は、さらにカメラ110を制御し、特定した場所にピントが合わされた撮影画像を撮影するようカメラ110を制御し、このときの撮影条件から、特定した場所とカメラ110の間の距離を推定する。
レベル比推定部803は、通信処理部200を介してカメラ110から映像データ(撮影画像)を取得する。音圧推定部208はさらに、通信処理部200を介してカメラ110から撮影情報を取得し、また、マイクDB206からマイク113の特性情報及び設定情報を取得する。音圧推定部208は、これらの情報に基づいて、撮影画像中の各点の背景音及び対象音の平均レベルの比の推定値(レベル比推定値)を算出する。以下、各点のレベル比推定値の集合をレベル比推定値勾配と称することとする。音圧推定部208の処理については、後に詳述する。検出確率DB804は、音圧のレベル比と検出確率とを対応付けた対応テーブルを記憶している。変換部805は、検出確率DB804を参照し、レベル比推定部803により得られた各点のレベル比推定値を検出確率に変換する。
また、本実施形態に係る情報処理装置130は、第1の実施形態において説明した音圧推定値勾配推定処理(S502)に替えて、レベル比推定値勾配推定処理を行う。図9は、レベル比推定値勾配推定処理を示すフローチャートである。S901において、レベル算出部800は、音声データの振幅データの二乗和を音圧レベルとして算出する本処理は、音圧レベルを特定する特定処理の一例である。次に、S902において、平均レベル算出部801は、異常音が発生したか否かを確認する。平均レベル算出部801は、異常音が発生している場合には(S902でYes)、処理をS903へ進める。平均レベル算出部801は、異常音が発生していない場合には(S902でNo)、処理をS906へ進める。S903において、距離推定部802は、対象音源を特定し、特定した音源とカメラ110の間の距離を推定する。次に、S904において、平均レベル算出部801は、対象音平均化フィルタを用いて、異常音(対象音)と判定された音声データの音圧レベルを平均化する。
次に、S905において、レベル比推定部803は、S904において算出された対象音の平均音圧レベルと、マイク113の特性情報と、を用いて、撮影画像中の各点の対象音の音圧レベル推定値を算出する。以下、対象音の音圧レベル推定値を対象音レベル推定値と称することとする。また、各点の対象音レベル推定値の集合を対象音レベル推定値勾配と称することとする。レベル比推定部803は、対象音レベル推定値勾配をRAM123等の記憶部に記録する。具体的には、レベル比推定部803は、撮影画像の各点の座標をカメラ絶対座標系の座標に変換し、さらに、マイク113の設置情報に基づいて、マイク相対座標系の座標に変換し、画像内での音圧レベル勾配を推定する。そして、音圧レベル勾配に基づいて、対象音の平均音圧レベルから、撮影画像内の各点における、対象音レベル推定値を算出する。この際、レベル比推定部803は、音源座標を(x,y)=(0,0)、音源距離をZとして三次元空間上にてZ一定面を切り取ったとして、画面内のすべての領域の音源領域との距離を求める。
さらに、レベル比推定部803は、音源領域からの距離から、その場所にて対象音が発生した場合の音圧レベルを例えば(式4)により推定する。
ここで、Lは、対象音レベル推定値、L0は対象音の平均音圧レベル、Zは音源までの距離、(x,yは)、音源座標を原点(0,0)とした場合の画面内座標である。さらに、レベル比推定部803は、対象音レベル推定値に、に例えば、Z2/100を乗じることにより、距離10mでの音圧レベルに換算する。レベル比推定部803は、上記推定された音圧レベルに画像内での音圧レベル勾配を乗じて、対象音推定値を算出する。
一方、S906において、平均レベル算出部801は、背景音平均化フィルタを用いて、背景音と判定された音声データの音圧レベルを平均化する。次に、S907において、レベル比推定部803は、S1006において算出された背景音の平均音圧レベルと、マイク113の特性情報と、を用いて、撮影画像中の各点の背景音の音圧レベル推定値を算出する。以下、背景音の音圧レベル推定値を背景音レベル推定値と称することとする。ここでは、レベル比推定部803は、平均化された音圧レベルを撮影画像内の最も感度が高い領域で受信したものとして、背景音レベル推定値を算出する。なお、レベル比推定部803は、背景音については距離に依存せず一定と仮定し、距離依存の計算を行わず、マイク113の特性情報を用いた音圧レベル勾配を乗じて背景音レベル推定値を算出する。以下、各点の背景音レベル推定値の集合を背景音レベル推定値勾配と称することとする。平均レベル算出部801は、背景音レベル推定値勾配を例えばRAM123等の記憶部に記録する。
次に、S908において、レベル比推定部803は、対象音レベル推定値勾配及び背景音レベル推定値勾配が得られているか否かを確認する。レベル比推定部803は、対象音レベル推定値勾配及び背景音レベル推定値勾配が得られている場合には(S908でYes)、処理をS909へ進める。レベル比推定部803は、対象音レベル推定値勾配及び背景音レベル推定値勾配のうち少なくとも1つのレベル推定値勾配が得られていない場合には(S908でNo)、処理をS901へ進める。すなわち、S908において、レベル比推定部803は、対象音レベル推定値勾配及び背景音レベル推定値勾配が得られるまで待機する。なお、S901〜S907を繰り返す場合においては、情報処理装置130は、処理時点において得られていないレベル推定値勾配の推定のみを行えばよい。また、他の例としては、情報処理装置130は、再度レベル推定値勾配の推定を行い、新たに得られたレベル推定値勾配で上書きしてもよい。
S909において、レベル比推定部803は、各点において、背景音レベル推定値に対する対象音レベル推定値の比を算出する。以下、背景音レベル推定値に対する対象音レベル推定値の比を、レベル比推定値と称することとする。また、各点のレベル比推定値の集合をレベル比推定値勾配と称することとする。CPU121は、S909の処理の後、処理をS503へ進める。なお、本実施形態においては、S503において、変換部805は、検出確率DB804を参照し、各点のレベル比推定値を検出確率に変換する(変換処理)。以上で、レベル比推定値勾配算出処理が終了する。なお、第2の実施形態に係る情報処理装置130のこれ以外の構成及び処理は、第1の実施形態に係る監視システム100の構成及び処理と同様である。
以上のように、第2の実施形態に係る監視システム100においても、ユーザは、重畳画像610を目視確認することにより、異常音の検出対象となる領域が検出可能な領域内に含まれているか否かを確認することができる。これにより、ユーザによる設定作業を簡略化し、設定ミスを低減することができる。さらに、ユーザが適切な設定を行った上で異常音検出を行うこととなるため、異常音検出の検出精度を向上させることができる。
第2の実施形態の変更例について説明する。情報処理装置130は、レベル比推定値に基づいて異常音を推定するのに替えて、第1の実施形態において説明したのと同様に、異常音の音圧に基づいて、検出確率を推定してもよい。
(第3の実施形態)
次に、第3の実施形態に係る監視システムについて説明する。第3の実施形態に係る監視システムにおいては、情報処理装置は、検出可能領域を床面に射影した領域画像を生成する。以下、第3の実施形態に係る監視システムについて、第2の実施形態に係る監視システム100と異なる点について説明する。図10は、第3の実施形態に係る情報処理装置140のソフトウェア構成を示す図である。領域推定部1000は、検出確率の複数の閾値に基づいて、複数の検出可能領域を推定する。本実施形態においては、領域推定部1000は、4つの検出可能領域を推定する。具体的には、領域推定部1000は、対象音源において発生する基準音声に対する検出確率を用いて、検出可能領域を推定する。以下、基準音声に対する検出確率を基準検出確率と称する。領域推定部1000はまた、基準検出確率に比べて、10%、20%低い検出確率と、基準検出確率に比べて10%高い検出確率それぞれを用いて、検出可能領域を推定する。
次に、第3の実施形態に係る監視システムについて説明する。第3の実施形態に係る監視システムにおいては、情報処理装置は、検出可能領域を床面に射影した領域画像を生成する。以下、第3の実施形態に係る監視システムについて、第2の実施形態に係る監視システム100と異なる点について説明する。図10は、第3の実施形態に係る情報処理装置140のソフトウェア構成を示す図である。領域推定部1000は、検出確率の複数の閾値に基づいて、複数の検出可能領域を推定する。本実施形態においては、領域推定部1000は、4つの検出可能領域を推定する。具体的には、領域推定部1000は、対象音源において発生する基準音声に対する検出確率を用いて、検出可能領域を推定する。以下、基準音声に対する検出確率を基準検出確率と称する。領域推定部1000はまた、基準検出確率に比べて、10%、20%低い検出確率と、基準検出確率に比べて10%高い検出確率それぞれを用いて、検出可能領域を推定する。
情報処理装置140は、さらに水平面検出部1001を有している。水平面検出部1001は、撮影画像のカラー情報やエッジ情報に基づいて、床面を検出し、撮影画像から床面領域を抽出する(抽出処理)。なお、床面検出の処理には、従来技術を用いればよく、処理方法は実施形態に限定されるものではない。
また、マイクDB206には、マイク113の設置情報として、マイク113の高さ情報が記憶されているものとする。また、他の例としては、マイク113の高さは、ユーザにより入力されてもよい。領域画像生成部1002は、マイク113の設置情報に示される、マイク113から音源までの距離情報と、マイク113の高さ情報と、に基づいて、マイク113から各検知可能領域の境界までの水平距離を特定する。
領域画像生成部1002はまた、音源の位置情報に基づいて、音源の位置の床面への垂直射影位置(点P)を特定する。さらに、領域画像生成部1002は、検出可能領域を床面領域に射影した領域の境界線として、マイク113からの水平距離がマイク113から点Pまでの水平距離と等しくなる等距離線を床面上において特定し、これを等距離線L0とする。領域画像生成部1002は、さらに、検出確率が10%低下する水平距離、20%低下する水平距離、及び10%上がる水平距離を特定し、それぞれ等距離線L1,L2,L3とする。本処理は、検出可能領域を床面領域に射影する射影処理の一例である。
領域画像生成部1002は、さらに、等距離線L3よりマイク113に近い床面領域を、例えばR=16、G=16、B=16の色で着色する。領域画像生成部1002はまた、等距離線L0と等距離線L3に挟まれている床面領域を、例えばR=32、G=32、B=32の色で着色する。領域画像生成部1002はまた、等距離線L1と等距離線L0に挟まれている床面領域を、例えばR=64、G=64、B=64の色で着色する。領域画像生成部1002はまた、等距離線L2と等距離線L1に挟まれている床面領域を、例えばR=128、G=128、B=128の色で着色する。領域画像生成部1002はまた、等距離線L2より遠い領域をR=255、G=255、B=255の色で着色する。以上の処理により、領域画像生成部1002は、床面着色画像(領域画像)を生成する。図11は、領域画像の一例を示す図である。
表示処理部205は、床面着色画像を映像データに重畳する。表示処理部205は、例えば、α=0.3にてαブレンドした重畳画像を生成し、これを表示部125に表示させる。なお、第3の実施形態に係る情報処理装置140のこれ以外の構成及び処理は、第2の実施形態に係る情報処理装置130の構成及び処理と同様である。
以上のように、本実施形態の情報処理装置140は、検出確率に応じた領域を床面に射影して表示することができる。したがって、ユーザは、検出確率と距離の関係を理解し易くなる。これにより、ユーザによる設定作業を簡略化し、設定ミスを低減することができる。さらに、ユーザが適切な設定を行った上で異常音検出を行うこととなるため、異常音検出の検出精度を向上させることができる。
以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
100 監視システム
110 カメラ
120 情報処理装置
110 カメラ
120 情報処理装置
Claims (18)
- 撮影手段により撮影された撮影画像を取得する取得手段と、
収音手段により得られた音声データから、検出対象の対象音を検出する検出手段と、
前記収音手段の指向性に基づいて、前記撮影画像に示される領域において、前記対象音を検出可能な検出可能領域を推定する領域推定手段と、
前記検出可能領域を示す領域画像を生成する生成手段と
を有することを特徴とする情報処理装置。 - 前記領域画像が重畳された前記撮影画像を表示手段に表示させる表示制御手段をさらに有することを特徴とする請求項1に記載の情報処理装置。
- 前記領域画像が重畳された前記撮影画像を外部装置に送信する送信手段をさらに有することを特徴とする請求項1又は2に記載の情報処理装置。
- 前記指向性に基づいて、前記撮影画像の領域内の複数の位置の音圧を推定する音圧推定手段をさらに有し、
前記領域推定手段は、前記音圧推定手段により推定された音圧推定値に基づいて、前記検出可能領域を推定することを特徴とする請求項1乃至3何れか1項に記載の情報処理装置。 - 音圧と、前記音圧に対する音声の検出確率と、を対応付けて記憶する対応テーブルを記憶する記憶手段と、
前記対応テーブルを参照して、前記音圧推定値を前記検出確率に変換する変換手段と
をさらに有し、
前記領域推定手段は、前記検出確率に基づいて、前記検出可能領域を推定することを特徴とする請求項4に記載の情報処理装置。 - 前記領域推定手段は、前記検出確率が閾値以上の領域を前記検出可能領域として推定することを特徴とする請求項5に記載の情報処理装置。
- 前記閾値の変更指示を受け付ける受付手段をさらに有し、
前記領域推定手段は、前記変更指示に係る閾値に基づいて、前記検出可能領域を変更することを特徴とする請求項6に記載の情報処理装置。 - 前記領域推定手段は、前記撮影画像に示される、前記収音手段から所定の距離の領域において、前記検出可能領域を推定することを特徴とする請求項1乃至7何れか1項に記載の情報処理装置。
- 前記収音手段からの距離の変更指示を受け付ける受付手段をさらに有し、
前記領域推定手段は、前記変更指示に係る距離に基づいて、前記検出可能領域を変更することを特徴とする請求項8に記載の情報処理装置。 - 撮影手段により撮影された撮影画像を取得する取得手段と、
収音手段により得られた音声データから、検出対象の対象音を検出する検出手段と、
前記対象音を発生する対象音源の位置からの距離に基づいて、前記撮影画像に示される領域において、対象音を検出可能な検出可能領域を推定する領域推定手段と、
前記検出可能領域を示す領域画像を生成する生成手段と
を有することを特徴とする情報処理装置。 - 前記対象音の音圧レベルと、背景音の音圧レベルと、を特定する特定手段をさらに有し、
前記領域推定手段は、前記対象音の音圧レベルと、前記背景音の音圧レベルと、前記対象音源の位置からの距離と、に基づいて、前記検出可能領域を推定することを特徴とする請求項10に記載の情報処理装置。 - 前記対象音の音圧レベルと、前記背景音の音圧レベルと、前記対象音源の位置からの距離と、に基づいて、前記対象音の音圧レベルと前記背景音の音圧レベルのレベル比を推定するレベル比推定手段をさらに有し、
前記領域推定手段は、前記レベル比推定手段により推定されたレベル比推定値に基づいて、前記検出可能領域を推定することを特徴とする請求項11に記載の情報処理装置。 - レベル比と、前記レベル比に対する音声の検出確率と、を対応付けて記憶する対応テーブルを記憶する記憶手段と、
前記対応テーブルを参照して、前記レベル比推定値を前記検出確率に変換する変換手段と
をさらに有し、
前記領域推定手段は、前記検出確率に基づいて、前記検出可能領域を推定することを特徴とする請求項12に記載の情報処理装置。 - 前記撮影画像から床面領域を抽出する抽出手段と、
前記検出可能領域を床面領域に射影する射影手段と
をさらに有し、
前記生成手段は、前記床面領域に射影された前記検出可能領域を示す領域画像を生成することを特徴とする請求項10乃至13何れか1項に記載の情報処理装置。 - 情報処理装置が実行する情報処理方法であって、
撮影手段により撮影された撮影画像を取得する取得ステップと、
収音手段により得られた音声データから、検出対象の対象音を検出する検出ステップと、
前記収音手段の指向性に基づいて、前記撮影画像に示される領域において、前記対象音を検出可能な検出可能領域を推定する領域推定ステップと、
前記検出可能領域を示す領域画像を生成する生成ステップと
を含むことを特徴とする情報処理方法。 - 情報処理装置が実行する情報処理方法であって、
撮影手段により撮影された撮影画像を取得する取得ステップと、
収音手段により得られた音声データから、検出対象の対象音を検出する検出ステップと、
前記対象音を発生する対象音源の位置からの距離に基づいて、前記撮影画像に示される領域において、対象音を検出可能な検出可能領域を推定する領域推定ステップと、
前記検出可能領域を示す領域画像を生成する生成ステップと
を含むことを特徴とする情報処理方法。 - コンピュータを、
撮影手段により撮影された撮影画像を取得する取得手段と、
収音手段により得られた音声データから、検出対象の対象音を検出する検出手段と、
前記収音手段の指向性に基づいて、前記撮影画像に示される領域において、前記対象音を検出可能な検出可能領域を推定する領域推定手段と、
前記検出可能領域を示す領域画像を生成する生成手段と
して機能させるためのプログラム。 - コンピュータを、
撮影手段により撮影された撮影画像を取得する取得手段と、
収音手段により得られた音声データから、検出対象の対象音を検出する検出手段と、
前記対象音を発生する対象音源の位置からの距離に基づいて、前記撮影画像に示される領域において、対象音を検出可能な検出可能領域を推定する領域推定手段と、
前記検出可能領域を示す領域画像を生成する生成手段と
して機能させるためのプログラム。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015237756A JP2017102085A (ja) | 2015-12-04 | 2015-12-04 | 情報処理装置、情報処理方法及びプログラム |
US15/354,873 US20170162195A1 (en) | 2015-12-04 | 2016-11-17 | Information processing apparatus, information processing method, and recording medium |
CN201611087113.5A CN106851087A (zh) | 2015-12-04 | 2016-12-01 | 信息处理装置和信息处理方法 |
KR1020160162577A KR20170066258A (ko) | 2015-12-04 | 2016-12-01 | 정보 처리 장치, 정보 처리 방법 및 기록 매체 |
EP16201993.9A EP3177040A3 (en) | 2015-12-04 | 2016-12-02 | Information processing apparatus, information processing method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015237756A JP2017102085A (ja) | 2015-12-04 | 2015-12-04 | 情報処理装置、情報処理方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017102085A true JP2017102085A (ja) | 2017-06-08 |
Family
ID=57482266
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015237756A Pending JP2017102085A (ja) | 2015-12-04 | 2015-12-04 | 情報処理装置、情報処理方法及びプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US20170162195A1 (ja) |
EP (1) | EP3177040A3 (ja) |
JP (1) | JP2017102085A (ja) |
KR (1) | KR20170066258A (ja) |
CN (1) | CN106851087A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107918771A (zh) * | 2017-12-07 | 2018-04-17 | 河北工业大学 | 人物识别方法和佩戴式人物识别系统 |
JP2021144577A (ja) * | 2020-03-13 | 2021-09-24 | 株式会社リコー | 情報処理装置、情報処理方法およびプログラム |
WO2021241421A1 (ja) * | 2020-05-25 | 2021-12-02 | ヤマハ株式会社 | 音処理方法、音処理装置、および、音処理プログラム |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2565315B (en) * | 2017-08-09 | 2022-05-04 | Emotech Ltd | Robots, methods, computer programs, computer-readable media, arrays of microphones and controllers |
CN109474881B (zh) * | 2018-01-22 | 2020-10-16 | 国网浙江桐乡市供电有限公司 | 一种三维实景配现场音的方法及系统 |
JP7338627B2 (ja) * | 2018-07-24 | 2023-09-05 | ソニーグループ株式会社 | 情報処理装置および方法、並びにプログラム |
JP7147671B2 (ja) * | 2019-04-11 | 2022-10-05 | トヨタ自動車株式会社 | 情報処理システム及び情報処理プログラム |
US11736671B2 (en) * | 2020-06-02 | 2023-08-22 | Mikhail Dichenko | Determining a toning coefficient for video, image and audio files |
CN111916061B (zh) * | 2020-07-22 | 2024-05-07 | 北京地平线机器人技术研发有限公司 | 语音端点检测方法、装置、可读存储介质及电子设备 |
CN112153538B (zh) * | 2020-09-24 | 2022-02-22 | 京东方科技集团股份有限公司 | 显示装置及其全景声实现方法、非易失性存储介质 |
CN115468646A (zh) * | 2022-09-14 | 2022-12-13 | 深圳北芯医疗科技有限公司 | 冲击波声压测量方法、设备、系统和计算机可读存储介质 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2003261759A1 (en) * | 2002-08-30 | 2004-03-19 | Nittobo Acoustic Engineering Co., Ltd. | Sound source search system |
JP4225430B2 (ja) * | 2005-08-11 | 2009-02-18 | 旭化成株式会社 | 音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム |
KR101449433B1 (ko) * | 2007-11-30 | 2014-10-13 | 삼성전자주식회사 | 마이크로폰을 통해 입력된 사운드 신호로부터 잡음을제거하는 방법 및 장치 |
JP4926091B2 (ja) * | 2008-02-19 | 2012-05-09 | 株式会社日立製作所 | 音響ポインティングデバイス、音源位置のポインティング方法及びコンピュータシステム |
JP5136326B2 (ja) * | 2008-09-25 | 2013-02-06 | カシオ計算機株式会社 | 撮像装置及びそのプログラム、並びに電子機器 |
JP5801026B2 (ja) * | 2009-05-28 | 2015-10-28 | 株式会社ザクティ | 画像音響処理装置及び撮像装置 |
IT1395894B1 (it) * | 2009-09-18 | 2012-10-26 | Rai Radiotelevisione Italiana | Metodo per acquisire segnali audio e relativo sistema di acquisizione audio |
JP5526727B2 (ja) * | 2009-11-20 | 2014-06-18 | ソニー株式会社 | 画像処理装置、画像処理方法およびプログラム |
US8861756B2 (en) * | 2010-09-24 | 2014-10-14 | LI Creative Technologies, Inc. | Microphone array system |
WO2012086834A1 (ja) * | 2010-12-21 | 2012-06-28 | 日本電信電話株式会社 | 音声強調方法、装置、プログラム、記録媒体 |
JP2012234150A (ja) * | 2011-04-18 | 2012-11-29 | Sony Corp | 音信号処理装置、および音信号処理方法、並びにプログラム |
JP5642027B2 (ja) * | 2011-07-06 | 2014-12-17 | 株式会社日立パワーソリューションズ | 異音診断装置および異音診断方法 |
JPWO2013179464A1 (ja) * | 2012-05-31 | 2016-01-14 | トヨタ自動車株式会社 | 音源検出装置、ノイズモデル生成装置、ノイズ抑圧装置、音源方位推定装置、接近車両検出装置及びノイズ抑圧方法 |
EP2680615B1 (en) * | 2012-06-25 | 2018-08-08 | LG Electronics Inc. | Mobile terminal and audio zooming method thereof |
US20150331095A1 (en) * | 2012-12-26 | 2015-11-19 | Toyota Jidosha Kabushiki Kaisha | Sound detection device and sound detection method |
JP6061693B2 (ja) | 2013-01-18 | 2017-01-18 | 株式会社日立パワーソリューションズ | 異常診断装置およびこれを用いた異常診断方法 |
JP6325663B2 (ja) * | 2013-06-21 | 2018-05-16 | ブリュール アンド ケーア サウンド アンド バイブレーション メジャーメント アクティーゼルスカブ | 原動機駆動移動体のノイズ源のノイズ音寄与度を決定する方法 |
CN103770736B (zh) * | 2014-01-29 | 2016-12-07 | 大连理工大学 | 一种基于声场探测的车辆周边环境预警系统 |
JP6446913B2 (ja) * | 2014-08-27 | 2019-01-09 | 富士通株式会社 | 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム |
CN105049807B (zh) * | 2015-07-31 | 2018-05-18 | 小米科技有限责任公司 | 监控画面声音采集方法及装置 |
-
2015
- 2015-12-04 JP JP2015237756A patent/JP2017102085A/ja active Pending
-
2016
- 2016-11-17 US US15/354,873 patent/US20170162195A1/en not_active Abandoned
- 2016-12-01 CN CN201611087113.5A patent/CN106851087A/zh active Pending
- 2016-12-01 KR KR1020160162577A patent/KR20170066258A/ko not_active Withdrawn
- 2016-12-02 EP EP16201993.9A patent/EP3177040A3/en not_active Withdrawn
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107918771A (zh) * | 2017-12-07 | 2018-04-17 | 河北工业大学 | 人物识别方法和佩戴式人物识别系统 |
CN107918771B (zh) * | 2017-12-07 | 2023-11-24 | 河北工业大学 | 人物识别方法和佩戴式人物识别系统 |
JP2021144577A (ja) * | 2020-03-13 | 2021-09-24 | 株式会社リコー | 情報処理装置、情報処理方法およびプログラム |
JP7131578B2 (ja) | 2020-03-13 | 2022-09-06 | 株式会社リコー | 情報処理装置、情報処理方法およびプログラム |
WO2021241421A1 (ja) * | 2020-05-25 | 2021-12-02 | ヤマハ株式会社 | 音処理方法、音処理装置、および、音処理プログラム |
JP2021185654A (ja) * | 2020-05-25 | 2021-12-09 | ヤマハ株式会社 | 音処理方法、および、音処理装置 |
JP7604785B2 (ja) | 2020-05-25 | 2024-12-24 | ヤマハ株式会社 | 音処理方法、および、音処理装置 |
Also Published As
Publication number | Publication date |
---|---|
EP3177040A2 (en) | 2017-06-07 |
KR20170066258A (ko) | 2017-06-14 |
EP3177040A3 (en) | 2017-10-25 |
CN106851087A (zh) | 2017-06-13 |
US20170162195A1 (en) | 2017-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2017102085A (ja) | 情報処理装置、情報処理方法及びプログラム | |
US11398235B2 (en) | Methods, apparatuses, systems, devices, and computer-readable storage media for processing speech signals based on horizontal and pitch angles and distance of a sound source relative to a microphone array | |
JP6588413B2 (ja) | 監視装置および監視方法 | |
CN110278383A (zh) | 聚焦方法、装置以及电子设备、存储介质 | |
CN105611167B (zh) | 一种对焦平面调整方法及电子设备 | |
JP2018163096A (ja) | 情報処理方法および情報処理装置 | |
CN109032039A (zh) | 一种语音控制的方法及装置 | |
JP5067477B2 (ja) | 撮像パラメータ取得装置、撮像パラメータ取得方法、及び、プログラム | |
CN112423191B (zh) | 一种视频通话设备和音频增益方法 | |
CN103685906A (zh) | 一种控制方法、控制装置及控制设备 | |
CN106612417B (zh) | 网络相机、监视服务器和控制监视系统的方法 | |
WO2016103621A1 (ja) | 3次元情報復元装置、3次元情報復元システム、及び3次元情報復元方法 | |
JP2015002547A (ja) | 画像処理装置、プログラム、および画像処理方法 | |
CN111612842A (zh) | 生成位姿估计模型的方法和装置 | |
JP6524706B2 (ja) | 表示制御方法、表示制御プログラム、及び情報処理装置 | |
JP2020092358A (ja) | 信号処理装置及び信号処理方法 | |
WO2016208173A1 (ja) | 信号検知装置、信号検知方法および記録媒体 | |
CN114726978A (zh) | 信息处理装置、信息处理方法以及程序 | |
JP5369873B2 (ja) | 判定プログラムおよびキャリブレーション装置 | |
JP6541070B2 (ja) | 3次元情報復元装置及び3次元情報復元方法 | |
JP7001150B2 (ja) | 識別システム、モデル再学習方法およびプログラム | |
CN113432620B (zh) | 误差估计方法、装置、车载终端及存储介质 | |
JP2020086034A (ja) | 情報処理装置、情報処理装置およびプログラム | |
US12223639B2 (en) | Photographing guide device | |
JP6881267B2 (ja) | 制御装置、変換装置、制御方法、変換方法、およびプログラム |