JP2020092381A - Sound acquisition device, sound acquisition method, and sound acquisition program - Google Patents
Sound acquisition device, sound acquisition method, and sound acquisition program Download PDFInfo
- Publication number
- JP2020092381A JP2020092381A JP2018230153A JP2018230153A JP2020092381A JP 2020092381 A JP2020092381 A JP 2020092381A JP 2018230153 A JP2018230153 A JP 2018230153A JP 2018230153 A JP2018230153 A JP 2018230153A JP 2020092381 A JP2020092381 A JP 2020092381A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- voice
- distance
- unit
- microphone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Studio Devices (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本発明は、 第1及び第2のマイクロホンを利用して音声を取得する音声取得装置、音声取得方法及び音声取得プログラムに関する。 The present invention relates to a voice acquisition device, a voice acquisition method, and a voice acquisition program for acquiring voice by using first and second microphones.
従来、デジタルカメラやスマートフォン等の携帯機器においては、録音機能及び録画機能を有するものが多い。この種の携帯機器は、被写体を撮像する撮像部と周囲の音声を収音する内蔵マイクロホンを備えており、動画撮影に際して、映像及び音声を含むAVデータを記録可能なものもある。 Conventionally, many mobile devices such as digital cameras and smartphones have a recording function and a recording function. This type of mobile device includes an image pickup unit for picking up an image of a subject and a built-in microphone for picking up surrounding sounds, and there are some that can record AV data including video and sound when shooting a moving image.
更に、携帯機器においては、外部マイクロホンが収音した録音データを、ケーブルや無線通信により取得可能なものもあり、外部マイクロホンによって取得された音声と内蔵された撮像部による画像とを記録可能な装置も商品化されている。例えば、被写体を撮像する携帯機器から離間した位置に外部マイクロホンを配置可能な場合には、外部マイクロホンをその収音対象である被写体の近傍に配置しておくことで、S/Nの良好な音声を外部マイクロホンから取得することも可能である。 Furthermore, some portable devices can acquire recording data picked up by an external microphone through a cable or wireless communication, and can record the sound acquired by the external microphone and the image captured by the built-in image pickup unit. Is also commercialized. For example, when an external microphone can be placed at a position away from a mobile device that images a subject, by placing the external microphone in the vicinity of the subject that is the sound collection target, a sound with good S/N can be obtained. Can also be obtained from an external microphone.
しかしながら、例えば、野鳥の鳴き声を収音する場合等においては、収音対象である野鳥の極近傍にマイクロホンを設置することができるとは限らず、収音対象から比較的離れた位置にマイクロホンを設置する必要がある場合がある。そうすると、マイクロホンには、収音対象からの音声だけでなく、マイクロホンの近くの音や、収音対象以外から発せられる音が雑音として収音されてしまう。 However, for example, when collecting the bark of a wild bird, it is not always possible to install a microphone in the immediate vicinity of the wild bird that is the target of sound collection, and the microphone is located relatively far from the target of sound collection. May need to be installed. Then, not only the sound from the sound pickup target but also the sound near the microphone and the sound emitted from other than the sound pickup target are picked up as noise in the microphone.
なお、特許文献1においては、複数のマイクやカメラを用いたTV会議システムにおいて、発言者の選択を正確に行うものが知られている。しかしながら、このシステムは、声紋登録された会議参加者を認証する声紋認証部や話者を最適に撮影するようにテレビカメラ装置を制御する撮像調整部等を有しており、装置規模が大きく、また、任意の収音対象の音声を選択して録音できるものでもない。
In addition, in
本発明は、第1及び第2のマイクロホンを利用することで、所定距離に位置する収音対象が発した音声を強調することができる音声取得装置、音声取得方法及び音声取得プログラムを提供することを目的とする。 The present invention provides a voice acquisition device, a voice acquisition method, and a voice acquisition program capable of emphasizing a voice emitted by a sound collection target located at a predetermined distance by using the first and second microphones. With the goal.
本発明の一態様による音声取得装置は、収音対象から第1の距離だけ離れて配置され上記収音対象から発せられた音声を収音して第1音声を取得する第1のマイクロホンと、上記収音対象から上記第1の距離と異なる第2の距離だけ離れて配置され上記収音対象から発せられた音声を収音して第2音声を取得する第2のマイクロホンと、上記第1及び第2音声のうち上記第1の距離と第2の距離との距離差に基づく成分を強調する強調処理を行う音声強調部とを具備する。 A voice acquisition device according to an aspect of the present invention includes a first microphone that is arranged at a first distance from a sound collection target and that collects a sound emitted from the sound collection target to acquire a first sound. A second microphone disposed apart from the sound collecting target by a second distance different from the first distance to collect a sound emitted from the sound collecting target to obtain a second sound; and the first microphone. And a voice enhancement unit that performs enhancement processing for enhancing the component based on the distance difference between the first distance and the second distance in the second voice.
本発明の一態様による音声取得方法は、収音対象から第1の距離だけ離れて配置された第1のマイクロホンによって上記収音対象から発せられた音声を収音して第1音声を取得し、上記収音対象から上記第1の距離と異なる第2の距離だけ離れて配置された第2のマイクロホンによって上記収音対象から発せられた音声を収音して第2音声を取得し、上記第1及び第2音声のうち上記第1の距離と第2の距離との距離差に基づく成分を強調する強調処理を行う。 A sound acquisition method according to an aspect of the present invention acquires a first sound by collecting a sound emitted from the sound collection target by a first microphone arranged at a first distance from the sound collection target. , A second microphone arranged apart from the sound collecting target by a second distance different from the first distance collects a sound emitted from the sound collecting target to obtain a second sound, and An emphasis process for emphasizing a component based on the distance difference between the first distance and the second distance of the first and second voices is performed.
本発明の一態様による音声取得プログラムは、コンピュータに、収音対象から第1の距離だけ離れて配置された第1のマイクロホンによって上記収音対象から発せられた音声を収音して第1音声を取得し、上記収音対象から上記第1の距離と異なる第2の距離だけ離れて配置された第2のマイクロホンによって上記収音対象から発せられた音声を収音して第2音声を取得し、上記第1及び第2音声のうち上記第1の距離と第2の距離との距離差に基づく成分を強調する強調処理を行う手順を実行させる。 A sound acquisition program according to an aspect of the present invention collects a sound emitted from the sound collection target by a first microphone arranged in a computer at a first distance from the sound collection target to generate a first sound. Is acquired, and a second microphone arranged apart from the sound collecting target by a second distance different from the first distance collects a sound emitted from the sound collecting target to obtain a second sound. Then, the procedure of performing the emphasis process for emphasizing the component based on the distance difference between the first distance and the second distance of the first and second voices is executed.
本発明によれば、第1及び第2のマイクロホンを利用することで、所定距離に位置する収音対象が発した音声を強調することができる音声取得装置、音声取得方法、音声取得プログラム及び音声取得システムを提供することを目的とする。 According to the present invention, a voice acquisition device, a voice acquisition method, a voice acquisition program, and a voice that can emphasize a voice emitted by a sound collection target located at a predetermined distance by using the first and second microphones. The purpose is to provide an acquisition system.
以下、図面を参照して本発明の実施の形態について詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
(第1の実施の形態)
図1は本発明の第1の実施の形態に係る音声取得装置を示すブロック図である。本実施の形態は、収音対象からの収音の対象となる音声(以下、対象音声という)を収音する第1及び第2のマイクロホンを採用し、収音対象から第1のマイクロホンまでの距離と第2のマイクロホンまでの距離との距離差に基づいて、収音音声を遅延させることにより、第1及び第2のマイクロホンからそれぞれ所定の距離に位置する収音対象の音声を強調する強調処理を実現するものである。また、第1のマイクロホンから所定距離に位置する収音対象から発せられた対象音声を、他の位置から発生する雑音と分離して抽出し、選択的に収音することを可能にする。
(First embodiment)
FIG. 1 is a block diagram showing a voice acquisition device according to a first embodiment of the present invention. The present embodiment employs first and second microphones that collect a sound (hereinafter, referred to as a target sound) that is a target of sound collection from the sound collection target, and the sound from the sound collection target to the first microphone is used. Emphasizing the sound to be collected, which is located at a predetermined distance from the first and second microphones, by delaying the collected sound based on the distance difference between the distance and the distance to the second microphone. It realizes the processing. Further, it is possible to separate and extract the target sound emitted from the sound collection target located at a predetermined distance from the first microphone, separately from the noise generated from other positions, and selectively collect the sound.
図1の例は、第1及び第2のマイクロホンの一方を収音機能を有する撮像装置としてのカメラに構成し、他方をレコーダに構成する例について説明する。第1及び第2のマイクロホンは、どのような構成の装置であってもよい。なお、本実施の形態における音声取得装置は、カメラ内に構成してもよく、レコーダ内に構成してもよく、カメラ及びレコーダに分散して構成してもよく、更に、これらの装置とは独立した装置として構成してもよい。なお、図1では、音声取得装置をカメラ、レコーダ及び再生装置に分散して構成する例を示している。 In the example of FIG. 1, one of the first and second microphones is configured as a camera as an imaging device having a sound collection function, and the other is configured as a recorder. The first and second microphones may be devices having any configuration. The audio acquisition device according to the present embodiment may be configured in the camera, in the recorder, or distributed in the camera and the recorder. It may be configured as an independent device. It should be noted that FIG. 1 shows an example in which the audio acquisition device is distributed and configured into a camera, a recorder, and a playback device.
先ず、図2、図3A、図3B及び図4を参照して第1の実施の形態における収音の仕方について説明する。図2は収音の様子を示す説明図であり、図3A及び図3Bは、横軸に時間をとり縦軸に振幅を取って、収音された音声の時間ずれを説明するための説明図である。また、図4は対象音声の選択方法の一例を説明するための説明図である。 First, a sound collecting method according to the first embodiment will be described with reference to FIGS. 2, 3A, 3B, and 4. FIG. 2 is an explanatory diagram showing a state of picked up sound, and FIGS. 3A and 3B are explanatory diagrams for explaining a time lag of picked up sound with time on the horizontal axis and amplitude on the vertical axis. Is. Further, FIG. 4 is an explanatory diagram for explaining an example of a method of selecting a target voice.
図2に示すカメラ1は図1の各回路が収納された筐体1aを有する。筐体1aの上面には、後述する操作部15を構成するシャッタボタン15aが設けられている。また、図2に示すレコーダ2は、図1の各回路が収納された筐体2aを有している。
The
図2の例では、鳥41は樹木43aの枝に留まっている。例えば、野鳥の撮影及び収音を行う場合には、野鳥が留まりやすいであろう樹木の近くに、事前にレコーダ2を設置しておくことが考えられる。一方、カメラ1を携帯するユーザは、野鳥が逃げ出さないように、また、障害物を避けるために、野鳥から比較的離れた位置で撮影を行う。
In the example of FIG. 2, the
映像については、望遠レンズ等を採用することで被写体から比較的離れた位置からも十分に高画質の画像を取得することができるが、音声については、被写体からの距離が大きくなるとノイズが増加し、対象音声の収音品質が劣化してしまう。この理由から、レコーダ2については、収音対象により近い位置に設置される。
For video, it is possible to obtain a sufficiently high-quality image from a position relatively far from the subject by adopting a telephoto lens, but for audio, noise increases as the distance from the subject increases. , The sound collection quality of the target voice is deteriorated. For this reason, the
図2の例では、カメラ1を保持するユーザは、樹木43aと樹木43bとの隙間を利用し、被写体である鳥41から比較的離れた位置に位置して鳥41の撮影及び収音を試みる。一方、レコーダ2は、樹木43aに比較的近い位置に設置された三脚上に配置され、鳥41に比較的近い位置にて鳥41の鳴き声を対象音声として収音する。なお、図2中の鳥41を囲った枠はカメラ1の撮影範囲を示しており、カメラ1の後述する表示部16の表示画面16a上には、撮影された鳥41の画像41aが表示されている。
In the example of FIG. 2, the user holding the
カメラ1と鳥41との間の地面には草42が生えている。従って、カメラ1の後述するST収音部12には、対象音声である鳥41の鳴き声以外に、草42が風でなびくザワザワという音やその他の音(以下、対象音声以外の音を雑音という)が収音される。レコーダ2においても、対象音声である鳥41の鳴き声だけでなくその他の周囲の雑音も収音される。なお、以下、説明を簡略化するために、カメラ1及びレコーダ2において収音可能な範囲において、音は対象音声と草42による雑音のみが発生しているものとする。
鳥41から発せられた対象音声はカメラ1及びレコーダ2において収音される。対象音声のうち主にカメラ1に到達する直接音である対象音声A1及びレコーダ2に到達する直接音である対象音声A2について考慮すると、これらの対象音声A1,A2は、振幅は異なるが相互に同一周波数であって略同一の周波数特性を有するものと考えられる。即ち、対象音声A1,A2は、振幅を無視すると、伝搬される距離の相違による到達時間のずれのみを相違点とするものと考えられる。
The target sound emitted from the
図3A及び図3Bはそれぞれ対象音声である鳥41の鳴き声と草42のなびく音等の雑音とが分離されているとして、これらの音がカメラ1及びレコーダ2に到達する時点での波形を説明するものである。図3Aは対象音声について示すものであり、レコーダ2の位置における対象音声に対してカメラ1の位置における対象音声は、距離の相違に基づく到達時間遅れ及び振幅の減少のみを有する。図3Aの例では到達時間差はTaであり、レコーダ2及びカメラ1に到達する対象音声は、到達時間差Taに相当する分だけ位相がずれている。
FIGS. 3A and 3B describe the waveforms at the time when these sounds reach the
また、図3Bは草42による雑音について示すものである。レコーダ2の位置における雑音とカメラ1の位置における雑音とは、距離の相違に基づく到達時間遅れ及び振幅の変化を有する。図3Bの例では到達時間差はTbであり、レコーダ2及びカメラ1に到達する雑音は、到達時間差Tbに相当する分だけ波形がずれている。
Further, FIG. 3B shows the noise caused by the
そこで、本実施の形態においては、レコーダ2が収音して得た音声を到達時間差Ta分だけ遅延させてカメラ1が収音して得た音声と加算する。これにより、カメラ1及びレコーダ2が収音した音声に含まれる成分のうち到達時間差Taの対象音声については、位相が一致した状態で加算されて強めあう(振幅が大きくなる)ことになる。なお、カメラ1及びレコーダ2において収音された音声を記録する場合には、記録された音声の再生タイミングを到達時間差Taだけずらして再生することで、対象音声については位相を一致させた再生が可能である。以下の説明では、カメラ1により収音された音声とレコーダ2により収音させた音声との少なくとも一方を遅延させて到達時間差を相殺し、対象音声の位相を一致させる処理を、音声を時間軸上でシフトさせる処理(時間軸シフト処理)というものとする。
Therefore, in the present embodiment, the sound acquired by the
図4はこの処理を説明するものであり、レコーダ2によって収音された音声の波形とこの音声から到達時間差Taでカメラ1において収音された音声の波形を示すと共に、これらの波形を到達時間差Taだけ時間軸上でシフトさせて加算して得られる波形を示している。カメラ1及びレコーダ2において、到達時間差Taで収音された対象音声については、時間軸上でシフトして合成(加算)することにより、合成音は比較的大きなピーク値が得られる。
FIG. 4 illustrates this process, showing the waveform of the voice picked up by the
到達時間差は距離と音速とに基づいて算出可能である。例えば、収音対象、レコーダ2及びカメラ1が一直線上に位置するものとすると、カメラ1とレコーダ2との間の距離を求めることで、求めた距離と音速とから到達時間差を算出することができる。カメラ1をデジタルカメラ等によって構成した場合には、カメラ1は測距が可能である場合が多く、カメラ1によってレコーダ2までの距離を求めることで、到達時間差を算出することができる。図2の例では、こうして求めたカメラ1とレコーダ2との間の距離が8mであることを示している。
The arrival time difference can be calculated based on the distance and the speed of sound. For example, assuming that the sound collection target, the
なお、例えば、レコーダ2を収音対象近傍の数mの位置に配置し、カメラ1が例えば100mくらい収音対象から離れている場合には、収音対象、レコーダ2及びカメラ1が略一直線上に位置していれば、到達時間差の算出誤差は比較的小さいものと考えられる。
Note that, for example, when the
本実施の形態においては、カメラ1及びレコーダ2により収音した音声の少なくとも一方を時間軸上でシフトさせて到達時間差を相殺する時間軸シフト処理を行った後加算する処理(以下、時間軸シフト加算処理という)を行うことにより、対象音声の振幅を増大させる処理(強調処理)を行って出力するようになっていてもよい。
In the present embodiment, a process of shifting at least one of the sounds picked up by the
更に、本実施の形態においては、このような時間軸シフト加算処理によって強めあう成分のみを抽出することで、時間軸シフト加算処理によって得た合成音から対象音声の成分を抽出して対象音声の強調処理を行うようになっていてもよい。 Furthermore, in the present embodiment, by extracting only the components that strengthen each other by such time-axis shift addition processing, the components of the target speech are extracted from the synthesized speech obtained by the time-axis shift addition processing, The emphasis processing may be performed.
例えば、所定の短い期間において対象音声の周波数に変化がないものとすると、この期間において時間軸シフト加算処理により所定周期で強めあう周波数成分は対象音声の成分であると考えてもよく、当該周波数成分を抽出することで、収音した音声から対象音声のみの合成音を抽出することが可能である。 For example, if it is assumed that the frequency of the target voice does not change in a predetermined short period, it may be considered that the frequency components that strengthen each other in a predetermined cycle by the time-axis shift addition process in this period are the components of the target voice. By extracting the component, it is possible to extract the synthesized sound of only the target sound from the collected sound.
また、例えば、対象音声がチュンチュンと不連続に発する鳥の鳴き声である場合には、時間軸シフト加算処理により強めあう成分のピーク期間を含む所定期間のみを取り出すことで、主に対象音声が含まれる合成音の抽出を行う強調処理を行うようになっていてもよい。例えば、図4の合成した波形のピーク位置を含む所定期間を対象音声の抽出結果として出力するのである。 Also, for example, when the target voice is a song of a bird that is discontinuous with Chun-Chun, the target voice is mainly included by extracting only a predetermined period including the peak period of the components that strengthen each other by the time axis shift addition process. It is also possible to perform emphasis processing for extracting a synthesized sound to be generated. For example, the predetermined period including the peak position of the synthesized waveform of FIG. 4 is output as the extraction result of the target voice.
図1において、撮像装置を構成するカメラ1には制御部10が設けられている。制御部10は、CPUやFPGA等を用いたプロセッサによって構成されていてもよく、図示しないメモリに記憶されたプログラムに従って動作して各部を制御するものであってもよいし、ハードウェアの電子回路で機能の一部又は全部を実現するものであってもよい。
In FIG. 1, a
カメラ1は、撮像部11及びST収音部12を備えている。画像取得部としての撮像部11は、光学系11a及び図示しない撮像素子を有している。光学系11aは、ズームやフォーカシングのための図示しないレンズや絞り等を備えている。光学系11aは、これらのレンズを駆動する図示しないズーム(変倍)機構、ピント及び絞り機構を備えている。撮像素子は、CCDやCMOSセンサ等によって構成されており、光学系11aによって被写体光学像が撮像素子の撮像面に導かれるようになっている。撮像素子は、被写体光学像を光電変換して被写体の撮像画像(撮像信号)を取得する。
The
制御部10に構成された撮影制御部10aは、光学系11aのズーム機構、ピント機構及び絞り機構を駆動制御して、ズーム、絞り及びピントを調節することができるようになっている。ピント及び画角情報部10cは、光学系11aからズーム、絞り及びピントに関する情報を取得して撮影制御部10aに出力するようになっている。このフィードバックによって、撮影制御部10aはズーム、絞り及びピントを所望の設定値に設定することができるようになっている。撮像部11は、撮影制御部10aに制御されて撮像を行い、撮像画像(動画像及び静止画像)の撮像信号を制御部10に出力する。
The imaging control unit 10a configured in the
制御部10には収音制御及び処理部10dが構成されており、収音制御及び処理部10dは、ST収音部12を制御する。ST収音部12は、ステレオマイクロホン等により構成されており、収音制御及び処理部10dに制御されて、カメラ1の周囲の音声を収音して音声信号を取得し、取得した音声(以下、第1音声ともいう)を入力部としても機能する収音制御及び処理部10dに出力することができるようになっている。ST収音部12は、カメラ1の撮影方向、即ち、光学系11aの光軸方向に感度のピークを有していた方がよい。なお、ST収音部12に代えて、モノラルマイクロホンを採用してもよい。
The
カメラ1には操作部15が設けられている。操作部15は、レリーズボタン、ファンクションボタン、撮影モード設定、パラメータ操作等の各種スイッチ、ダイヤル、リング部材等(図示省略)を含み、ユーザ操作に基づく操作信号を制御部10に出力する。制御部10は、操作部15からの操作信号に基づいて、各部を制御するようになっている。
The
制御部10は、撮像部11からの撮像画像(動画像及び静止画像)を取込む。制御部10の画像処理部10bは、取込んだ撮像画像に対して、所定の信号処理、例えば、色調整処理、マトリックス変換処理、ノイズ除去処理、その他各種の信号処理を行う。また、収音制御及び処理部10dは、ST収音部12からの音声を取り込み、取り込んだ音声に対して所定の信号処理を施すことができる。
The
カメラ1には表示部16が設けられており、表示部16は、例えば、LCD(液晶表示装置)等により構成された表示画面を有している。この表示画面は例えばカメラ1の筐体背面等に設けられる。制御部10は、画像処理部10bによって信号処理された撮像画像を表示部16に表示させるようになっている。また、制御部10は、カメラ1の各種メニュー表示や警告表示等を表示部16に表示させることもできるようになっている。
A
カメラ1には通信部18a,18bが設けられている。通信部18a,18bは、所定の通信規格に対応した通信デバイスであり、制御部10に制御されて、レコーダ2との間で情報を送受することができるようになっている。通信部18aは、例えば、ブルートゥース(登録商標)等の近距離無線による通信が可能であり、通信部18bは、例えば、Wi−Fi(登録商標)等の無線LANによる通信が可能である。なお、通信部18a,18bは、ブルートゥースやWi−Fiに限らず、各種通信方式での通信を採用することが可能である。制御部10は、通信部18a又は18bを介して、記録部14に記録されている情報を再生装置3に送信することができる。
The
カメラ1には、記録部14が設けられている。記録部14は、ハードディスクやメモリ媒体等の所定の記録媒体によって構成されて、制御部10から与えられた情報を記録すると共に、記録されている情報を制御部10に出力することができる。記録部14としては、例えばカードインターフェースを採用することができ、記録部14はメモリカード等の記録媒体に画像データを記録可能である。
The
制御部10は、信号処理後の撮像画像を圧縮処理し、圧縮後の画像を記録部14に与えて記録させることができる。また、制御部10は、収音制御及び処理部10dによる信号処理後の音声を圧縮処理し、圧縮後の音声又は未圧縮の音声を記録部14に与えて記録させることができる。カメラ1には時計部19が設けられており、制御部10は、時計部19からの時間情報を用いて、ST収音部12によって取得した音声に時間情報を付加すると共に、時間情報を付した画像に関連付けて記録部14に記録することができる。
The
また、カメラ1には画像特徴抽出部13が設けられている。画像特徴抽出部13は、CPU等を用いたプロセッサにより構成されていてもよく、撮像部11によって撮像された被写体の撮像画像に対する画像解析を行って、その画像特徴を抽出して抽出結果を制御部10に出力するようになっている。また、カメラ1には、位置及び方位センサ部17が設けられている。位置及び方位センサ部17は、位置センサ、ジャイロセンサ、磁気センサ等により構成されており、カメラ1の位置及び方位を検出して検出結果を制御部10に出力するようになっている。
The
本実施の形態においては、記録部14は、連携情報部14aを有している。連携情報部14aには、レコーダ2及び再生装置3との間の通信に関する情報が記録されており、制御部10は、連携情報部14aから読み出した情報に基づいて通信部18a,18bを制御することで、レコーダ2及び再生装置3との間で通信により情報の授受が可能である。制御部10は、ST収音部12が収音して得た第1音声及び撮像部11により撮像して得た画像を再生装置3に送信することができるようになっている。
In the present embodiment, the
本実施の形態においては、制御部10には距離及び到達時間差判定部10eが構成されている。距離及び到達時間差判定部10eは、各種測距方法を採用して、カメラ1からレコーダ2までの距離を求め、求めた距離と音速との演算によって、到達時間差を判定する。なお、制御部10は、例えば、レコーダ2を撮像することで像面位相差法による測距を実行してもよく、撮像画像からコントラストを判定する山登り方式のフォーカス処理を利用した測距を行ってもよい。また、制御部10は、位置及び方位センサ部17の検出結果を用いてレコーダ2までの距離を求めてもよい。
In the present embodiment, the
制御部10は、収音対象を、ピント及び画角情報部10cによって合焦状態の被写体に設定してもよく、また、撮像画像の中央に位置する被写体に設定してもよく、また、ユーザ操作によって指定された被写体に設定してもよい。収音対象、レコーダ2及びカメラ1が略直線上に位置しない場合には、制御部10は、カメラ1の位置とレコーダ2及び収音対象までの距離とその方向とを求めて、収音対象からカメラ1までの距離、収音対象からレコーダ2までの距離及びカメラ1からレコーダ2までの距離を求めてもよい。
The
制御部10は、ST収音部12からの音声に、距離及び到達時間差判定部10eが求めた到達時間差の情報(到達時間差情報)を関連付けて記録部14に記録するようになっている。
The
また、制御部10には、発生タイミング推測部10fが設けられている。発生タイミング推測部10fは、撮像部11からの撮像画像及び画像特徴抽出部13から画像特徴の情報が与えられ、画像解析によって、収音対象が発する音の発生タイミングを推測する。例えば、収音対象が鳥であり鳥の鳴き声を対象音声として収音する場合には、発生タイミング推測部10fは、鳥のくちばしが開閉するタイミング及び開閉の度合いに応じて鳥が鳴き声を発するタイミングを推測して推測結果を出力する。
Further, the
制御部10は、ST収音部12からの音声に、発生タイミング推測部10fが求めた音の発生タイミングの推測結果の情報(発生タイミングの時間情報)を関連付けて記録部14に記録するようになっている。
The
レコーダ2には、制御部20が設けられている。制御部20は、CPU等を用いたプロセッサによって構成されていてもよく、図示しないメモリに記憶されたプログラムに従って動作して各部を制御するものであってもよいし、ハードウェアの電子回路で機能の一部又は全部を実現するものであってもよい。レコーダ2は、通信部21a,21bを有している。通信部21a,21bは、所定の通信規格に対応した通信デバイスであり、制御部20に制御されて、カメラ1及び再生装置3との間で情報を送受することができるようになっている。通信部21aは、例えば、ブルートゥース(登録商標)等の近距離無線による通信が可能であり、通信部21bは、例えば、Wi−Fi(登録商標)等の無線LANによる通信が可能である。なお、通信部21a,21bは、ブルートゥースやWi−Fiに限らず、各種通信方式での通信を採用することが可能である。
The
レコーダ2にはST収音部22が設けられており、ST収音部22は、例えば図示しないステレオマイクロホンにより構成することができる。なお、ST収音部22に代えて、モノラルマイクロホンを採用してもよい。ST収音部22は、ステレオマイクロホンによって音声(以下、第2音声ともいう)を取得するようになっている。制御部20には、収音制御部20aが構成されており、収音制御部20aは、ST収音部22の収音を制御する。入力部として機能する収音制御部20aは、ST収音部22からの第2音声を取り込むようになっている。
The
レコーダ2には操作部23が設けられている。操作部23は、録音モード設定、パラメータ操作等のための図示しない各種スイッチ、ダイヤル、リング部材等を含み、ユーザ操作に基づく操作信号を制御部20に出力する。制御部20は、操作部23からの操作信号に基づいて、各部を制御するようになっている。また、制御部20は、通信部21a,21bを介してカメラ1の制御部10から制御情報が与えられた場合には、この制御情報に基づいて各部を制御するようになっていてもよい。この場合には、カメラ1の制御部10によって、レコーダ2における録音制御が可能である。
The
レコーダ2には、記録部25が設けられている。記録部25は、ハードディスクやメモリ媒体等の所定の記録媒体によって構成されて、制御部20から与えられた情報を記録すると共に、記録されている情報を制御部20に出力することができる。記録部25としては、例えばカードインターフェースを採用することができ、記録部25はメモリカード等の記録媒体に音声データを記録可能である。制御部20は、信号処理後の第2音声を音声記録部25に与えて記録させることができる。レコーダ2には時計部24が設けられており、制御部20は、時計部24からの時間情報を用いて、ST収音部22によって取得した第2音声に時間情報を付加して記録部25に記録することができる。
The
また、記録部25は、連携情報部25aを有している。連携情報部25aには、カメラ1及び再生装置3との間の通信に関する情報が記録されており、制御部20は、連携情報部25aから読み出した情報に基づいて通信部21a,21bを制御することで、カメラ1及び再生装置3との間で通信により情報の授受が可能である。制御部20は、ST収音部22が収音して得た第2音声を再生装置3に送信することができるようになっている。
The
再生装置3は、コンピュータや、スマートフォンやタブレット端末等によって構成されていてもよい。再生装置3には、制御部30が構成されている。音声強調部として機能する制御部30は、CPUやFPGA等を用いたプロセッサによって構成されていてもよく、図示しないメモリに記憶されたプログラムに従って動作して各部を制御するものであってもよいし、ハードウェアの電子回路で機能の一部又は全部を実現するものであってもよい。
The
再生装置3には、操作部32が設けられている。操作部32は、再生モード設定、パラメータ操作等のための図示しない各種スイッチ、ダイヤル、リング部材等を含み、ユーザ操作に基づく操作信号を制御部30に出力する。制御部30は、操作部32からの操作信号に基づいて、各部を制御するようになっている。通信部31は、所定の通信規格に対応した通信デバイスであり、制御部30に制御されて、カメラ1及びレコーダ2との間で通信を行って情報を授受することができるようになっている。再生装置3には、記録部34が設けられている。記録部34は、ハードディスクやメモリ媒体等の所定の記録媒体により構成されており、制御部30から与えられた情報を記録するようになっている。
The
制御部30は、通信部31を介して、カメラ1からの画像及び第1音声を受信すると共に、レコーダ2からの第2音声を受信する。なお、上述したように、画像、第1音声及び第2音声には時間情報が付加されている。また、第1音声に対応付けられた到達時間差情報及び音の発生タイミングの推測結果の情報も通信部31によって受信されるようになっている。第1及び第2音声に付加されたこれらの情報を連携情報というものとする。制御部30は、カメラ1及びレコーダ2から受信した情報を記録部34に与えて記録するようになっている。
The
制御部30には、時間軸シフト加算処理部30aが設けられている。時間軸シフト加算処理部30aは、記録部34に記録された情報を読み出し、受信された第1音声及び第2音声の少なくとも一方に対して時間軸シフト処理を施すことで、対象音声が収音対象からレコーダ2に到達する時間とカメラ1に到達するまでの到達時間差を相殺し、対象音声については位相を一致させるようになっている。時間軸シフト加算処理部30aは時間軸シフト処理後の第1及び第2音声を合成して合成音を得る時間軸シフト加算処理を行う。
The
時間軸シフト加算処理部30aは、時間軸シフト処理における音声の遅延時間を、画像に基づく音の発生タイミングの推測結果に応じて調整してもよい。カメラ1によって取得された画像と音声は同期して記録されており、画像に基づく音の発生タイミングの推測結果と、第1音声の波形の立ち上がりタイミングとは一致していると考えられる。従って、時間軸シフト加算処理部30aは、音の発生タイミングの推測結果に応じて、音声の遅延時間を調整することで、到達時間差を確実に相殺した時間軸シフト処理が可能となる。
The time axis shift
制御部30には、対象音声抽出部30bが設けられている。対象音声抽出部30bは、時間軸シフト加算処理により得られた合成音の周波数成分のうち所定周期で強めあう周波数成分(対象音声の成分)を検出して、当該周波数成分を抽出するフィルタ処理を行う。対象音声抽出部30bは、フィルタ処理後の音声(合成音)を再生部33及び記録部34に出力する。
The
また、対象音声抽出部30bは、時間軸シフト加算処理により所定周期で強めあう成分のピーク期間を含む所定期間のみの合成音を抽出するフィルタ処理を行って、このフィルタ処理後の音声(合成音)を再生部33及び記録部34に出力するようになっていてもよい。
Further, the target
記録部34は、対象音声抽出部30bからの音声が与えられて、記録するようになっている。再生部33は、図示しないスピーカを備えており、制御部30に制御されて、対象音声抽出部30bからの音声を再生出力するようになっている。
The
なお、再生装置3は、対象音声抽出部30bを省略し、時間軸シフト加算処理部30aによる時間軸シフト加算処理後の合成音を再生部33及び記録部34に出力するようになっていてもよい。
It should be noted that the
次に、このように構成された実施の形態の動作について図5から図9を参照して説明する。図5はカメラ1の動作を説明するためのフローチャートであり、図6はレコーダ2の動作を説明するためのフローチャートであり、図7は再生装置3の動作を説明するためのフローチャートである。また、図8はカメラ1の撮影時の状態を説明するための説明図であり、図9は再生装置3の再生時の状態を示す説明図である。
Next, the operation of the embodiment configured as described above will be described with reference to FIGS. 5 is a flow chart for explaining the operation of the
(録音)
先ず、収音及び録音の動作を説明する。図2の例に示すように、鳥41が樹木43aの枝に留まっており、樹木43aの比較的近くにレコーダ2が設置されているものとする。また、樹木43aから比較的離れた位置において、ユーザがカメラ1を携帯して、鳥41の撮影を行う。カメラ1のST収音部12及びレコーダ2のST収音部22のいずれにも、収音の対象である鳥41の鳴き声(対象音声)とそれ以外の周囲の雑音(草42から発する音)とが収音される。
(recording)
First, the operation of collecting and recording sound will be described. As shown in the example of FIG. 2, it is assumed that the
カメラ1の筐体1aの背面には、表示部16の表示画面16aが設けられている。ユーザは、例えば、筐体1aを手で把持して、表示画面16aを見ながら被写体である鳥41を視野範囲に捉えた状態で、シャッタボタン15aを押下操作することで撮影を行う。
A
カメラ1の制御部10は、電源が投入されると、図5のステップS1において、撮像モードが指示されたか否かを判定する。撮像モードが指示されていない場合には、制御部10は、指定されたモード、例えば、レコーダ2との連携のための設定や送受信を行う連携モードや記録画像の再生を行う再生モードに移行する。
When the power is turned on, the
例えば、連携モードでは、制御部10は、カメラ1とレコーダ2との間の距離の測定を行う。これにより、制御部10は、収音対象である鳥41とレコーダ2との間の距離と鳥41とカメラ1との間の距離との距離差を求める。例えば、カメラ1により鳥41だけでなくレコーダ2も撮影可能な場合には、制御部10は撮影時のピント合わせ操作において、測距が可能であり距離差を求めることができる。また、制御部10は、位置及び方位センサ部17からの位置及び撮影方位の情報を用いることで、距離差を求めることが可能である。また、レコーダ2が測位機能を有している場合には、制御部30はレコーダ2から位置情報を取得することで、距離差を算出してもよい。
For example, in the cooperation mode, the
制御部10は、表示部16に距離差の情報を表示するようにしてもよい。例えば、制御部10は、鳥41とレコーダ2とカメラ1とが略直線状に配置されているものとして、カメラ1からレコーダ2までの距離を、第1音声と第2音声との伝達距離の距離差として表示してもよい。図8はカメラ1からレコーダ2までの距離が8mであることを示す表示41bが表示画面16a上に表示されていることを示している。
The
撮像モードが指示されると、制御部10は、次のステップS2において動画記録を開始し、ステップS3においてST収音部12による収音を開始する。なお、動画及び音声の取得時においては、時計部19は計時を開始し、制御部10は時計部19からの時間情報も同時に記録する。
When the imaging mode is instructed, the
制御部10は、次のステップS4において、レコーダ2との連携が指定されているか否かを判定する。制御部10は、連携が指定されていない場合には、処理をステップS8に移行して、記録終了操作が行われたか否かを判定する。また、制御部10は、連携が指定されている場合には、ステップS5において、レコーダ2と連携して収音するために、レコーダ2に連携を依頼する情報を送信して、ステップS6に進む。
In the next step S4, the
レコーダ2の制御部20は、電源が投入されると、図6のステップS21において、録音モードが指定されているか否かを判定する。録音モードが指定されていない場合には、制御部20は、指定されたモード、例えば、レコーダ1との連携のための設定や送受信を行う連携モードや記録音声の再生を行う再生モードに移行する。なお、制御部20は、カメラ1から記録開始を示す情報が送信されることで、録音が指示されたものと判定するようになっていてもよい。
When the power is turned on, the
録音モードが指定されると、制御部20は、次のステップS22において、音声の記録を開始する。即ち、制御部20は、ST収音部22に収音を開始させ、収音された音声を第2音声として記録部25に与えて記録を開始する。なお、制御部20は、音声の取得時には、時計部24に計時を開始させ、時計部24からの時間情報も同時に記録する。
When the recording mode is designated, the
制御部20は、次のステップS23において、カメラ1との連携が指定されている否かを判定する。連携が指定されていない場合には、制御部20は、処理をステップS27に移行して録音の終了が指定された否かを判定する。
In the next step S23, the
連携が指定されると、制御部20は、ステップS24において連携情報を第2音声に付加して記録部25に記録する。また、制御部20は、収音制御部20aを制御して、カメラ1の制御部10から指定された感度設定に従った録音を行わせる。これにより、収音制御部20aは、例えば、録音レベルが適切となるようにマイク感度を自動設定したり、収音対象からレコーダ2までの距離が長い程感度を高くする等の感度設定を行う。
When the cooperation is designated, the
次に、制御部20は、カメラ1の制御部10に対して連携応答の送信を行う。カメラ1の制御部10は、ステップS6において、レコーダ2の制御部20から連携応答を受信し、連携情報を第1音声に付加して記録部14に記録する。なお、ステップS6,S26においては、カメラ1の制御部10とレコーダ2の制御部20との間で互いに連携応答の送信及び受信が行われて、記録する音声の同期を確立させる。例えば、カメラ1の時間情報とレコーダ2の時間情報とを所定の時間基準に一致させる処理を行う。これにより、時間軸シフト処理によって到達時間差を確実に相殺することが可能となる。
Next, the
なお、図5から図7の例は、カメラ1及びレコーダ2において相互に独立して録音を行い、記録された音声データを再生装置3に送信して再生を行う例を示しているが、例えば、レコーダ2において収音した第2音声をそのままカメラ1に送信する場合等においては、通信による遅延を無視すると、第1音声と第2音声との同期は確立しているので、カメラ1の時間情報とレコーダ2の時間情報とを所定の時間基準に一致させる処理は省略可能である。また、再生装置3において、第1音声と第2音声との波形の形状を利用した時間軸シフト処理を行うことで、カメラ1の時間情報とレコーダ2の時間情報とに多少の誤差があったとしても、到達時間差を確実に相殺することが可能である。
Note that the examples of FIGS. 5 to 7 show an example in which the
制御部10の距離及び到達時間差判定部10eは、ステップS6の次のステップS7において、収音対象までの距離及びマイク距離等の情報に基づいて、到達時間差を判定する。制御部10は、到達時間差の情報を記録部14に与えて第1音声に関連付けて記録する。これにより、カメラ1を移動させながら撮影を行ってカメラ1とレコーダ2との間の距離が変化する場合でも逐次到達時間差が求められるので、時間軸シフト処理によって到達時間差を確実に相殺することが可能となる。また、ステップS7においては、発生タイミング推測部10fによって対象音声の発生タイミングの推測が行われ、推測結果が第1音声に関連付けて記録される。
The distance and arrival time
制御部10は、ステップS8において、録画、録音の終了操作が行われたか否かを判定する。終了操作が行われていない場合には、制御部10は、処理をステップS1に戻し、終了操作が行われると、次のステップS9においてレコーダ連携の有無を判定する。制御部10は、レコーダ2との連携が行われている場合には、ステップS9からステップS10に移行して、レコーダ2に対して連携終了を示す送信を行った後処理をステップS11に移行する。
In step S8, the
レコーダ2の制御部20は、ステップS26の次のステップS27において、録音終了が指示されたか否かを判定する。制御部20は、制御部10から連携終了が通知された場合、又はユーザの操作によって録音の終了が指示された場合には、録音の終了が指示されたものと判定して、次のステップS28に移行して第2音声のファイル化を行う。なお、第2音声には時間情報がメタデータとして付加されるか又は独立したファイルとして第2音声に関連付けられてファイル化される。なお、制御部20は、録音の終了が指示されていないものと判定した場合には、処理をステップS21に戻す。
The
カメラ1の制御部10は、ステップS9において、レコーダ2との連携が行われていないと判定した場合又はステップS9の終了後にステップS11に移行して、記録されている画像及び第1音声をファイル化し、処理をステップS1に戻す。なお、この場合には、時間情報、到達時間差の情報及び発生タイミングの推測結果の情報も第1音声に関連付けられ、第1音声のメタデータとしてあるいは独立したファイルとしてファイル化される。
When the
(再生)
次に、カメラ1及びレコーダ2によって収音した第1音声及び第2音声を再生するものとする。例えば、再生装置3によってカメラ1により取得された動画像の再生を行うものとする。再生装置3の制御部30は、ステップS31において、連携動画再生モードが指定されているか否かを判定する。連携動画再生モードは、動画の再生に際して、当該動画に対応する第1音声の再生時に第2音声を利用して、第1音声及び第2音声により連携して音声を再生するモードである。
(Playback)
Next, it is assumed that the first voice and the second voice picked up by the
制御部30は、連携動画再生モードが指定されていない場合には、通常の再生モード等の指定されたモードに移行する。連携動画再生モードが指定されている場合には、再生装置3の制御部30は通信部31を介してカメラ1からの画像及び第1音声を受信すると共に、レコーダ2からの第2音声を受信する。なお、画像、第1音声及び第2音声には時間情報が付加され、第1音声には到達時間差情報及び音の発生タイミングの推測結果の情報も付加されて、制御部30にはこれらの連携情報も受信される(ステップS31)。制御部30は、受信した情報を記録部34に与えて記録する。
When the linked moving image playback mode is not designated, the
制御部30の時間軸シフト加算処理部30aは、記録部34に記録された情報を読み出す。時間軸シフト加算処理部30aは、記録部34に記録されている情報に基づいて、到達時間差(時間軸シフト量)を算出する(ステップS33)。時間軸シフト加算処理部30aは、算出した時間軸シフト量を用いて、受信された第1音声及び第2音声の少なくとも一方に対して時間軸シフト処理を施すことで、対象音声が収音対象からレコーダ2に到達する時間とカメラ1に到達するまでの到達時間差を相殺し、対象音声については位相を一致させる。更に、時間軸シフト加算処理部30aは時間軸シフト処理後の第1及び第2音声を合成して合成音を得る(ステップS34)。この合成音は、対象音声については第1音声と第2音声同士で位相が一致しており、相互に強めあう(合成音の振幅が大きくなる)ものとなる。時間軸シフト加算処理部30aは、時間情報を用いて合成音と動画像とを同期させる。
The time-axis shift
制御部30は、時間軸シフト加算処理部30aにより合成された動画像を再生部33に与えて再生してもよい。この場合には、対象音声が強調されて再生されることになり、ユーザは、再生音から鳥41の鳴き声を明瞭に聞き取ることができる。
The
なお、時間軸シフト加算処理部30aは、画像に基づく音の発生タイミングの推測結果に応じて時間軸シフト処理において音声を遅延させる時間を調整してもよい。カメラ1によって取得された画像と音声は同期して記録されており、音の発生タイミングの推測結果に応じて、音声の遅延時間を調整することで、到達時間差を確実に相殺した時間軸シフト処理が可能となる。
The time-axis shift
図9は表示画面16a上に表示された撮像画像を示している。図9の例は再生装置3をタブレット端末3aによって構成した例を示しており、再生部33を構成する表示画面33a上には、カメラ1によって撮像された撮像画像を表示する領域35が設けられており、領域35には鳥41の画像35aが表示されている。また、表示画面33a上には、マイク距離表示36によってマイクまでの距離が8mであること、収音対象距離表示37によって、収音対象である鳥41までの距離が10mであることが示されている。
FIG. 9 shows a captured image displayed on the
制御部30は、時間軸シフト加算処理部30aからの合成音を再生部33のスピーカに与えて、表示画面33a上の画像に同期させて音声を再生出力してもよい。
The
更に、制御部30は、ステップS34において、対象音声抽出部30bにより、時間軸シフト加算処理部30aからの合成音から対象音声を抽出した後、撮像画像と同期させて再生部33に出力してもよい。対象音声抽出部30bは、例えば、時間軸シフト加算処理により得られた合成音の周波数成分のうち所定周期で強めあう周波数成分を検出して、当該周波数成分を抽出するフィルタ処理を行う。このフィルタ処理によって、対象音声のみが抽出されることになり、対象音声は更に一層強調される。これにより、ユーザは、再生部33のスピーカから音響として出力される再生音により、鳥41の鳴き声を極めて明瞭に聞き取ることが可能となる。
Further, in step S34, the
制御部30は、時間軸シフト加算処理部30aからの合成音及び画像を関連付けて記録部34に記録する。また、制御部30は、対象音声抽出部30bからの合成音及び画像を関連付けて記録部34に記録してもよい。
The
このように本実施の形態においては、収音対象から第1の距離だけ離れて配置され上記収音対象から発せられた音声を収音して第1音声を取得する第1のマイクロホンから上記第1音声を取り込み、上記収音対象から上記第1の距離と異なる第2の距離だけ離れて配置され上記収音対象から発せられた音声を収音して第2音声を取得する第2のマイクロホンから上記第2音声を取り込む入力部と、上記第1及び第2音声のうち上記第1の距離と第2の距離との距離差に基づく成分を強調する強調処理を行う音声強調部とを具備したことを特徴とする音声取得装置を得ることができる。 As described above, in the present embodiment, the first microphone is arranged apart from the sound collection target by the first distance and the sound emitted from the sound collection target is collected to acquire the first sound from the first microphone. A second microphone that captures one voice, is arranged at a second distance different from the first distance from the sound collection target, and collects the sound emitted from the sound collection target to obtain the second sound. And an audio enhancement unit that performs enhancement processing for enhancing the component based on the distance difference between the first distance and the second distance of the first and second voices. It is possible to obtain a voice acquisition device characterized by the above.
即ち、本実施の形態においては、対象音声を第1及び第2のマイクロホンにより収音すると共に、収音対象から第1のマイクロホンまでの距離と第2のマイクロホンまでの距離との距離差に基づいて到達時間差を求め、この到達時間差に応じたシフト量で収音した第1音声及び第2音声の少なくとも一方を時間軸シフトさせて合成することにより、対象音声を強調することを可能にしている。これにより、収音対象以外の位置から発せられる雑音に対して対象音声を強調することができ、収音対象を明瞭に高音質で聞き取ることが可能となる。更に、時間軸シフト加算処理後の合成音の周波数成分のうち所定周期で強めあう周波数成分を検出して、当該周波数成分を抽出するフィルタ処理を行うことで、対象音声のみを抽出することができ、対象音声を更に一層強調することも可能である。また、収音対象、第1及び第2のマイクロホンが略直線上に配置されている場合には、到達時間差は、第1のマイクロホンと第2のマイクロホンとの間の距離から算出しており、測距等を簡単にすることができる。 That is, in the present embodiment, the target sound is picked up by the first and second microphones, and based on the distance difference between the distance from the sound pickup target to the first microphone and the distance to the second microphone. It is possible to emphasize the target voice by deriving the arrival time difference and shifting and synthesizing at least one of the first voice and the second voice picked up by the shift amount according to the arrival time difference by time-axis shifting. .. As a result, the target voice can be emphasized with respect to noise generated from a position other than the sound pickup target, and the sound pickup target can be clearly heard with high sound quality. Furthermore, only the target voice can be extracted by detecting the frequency components that reinforce each other in a predetermined cycle among the frequency components of the synthesized voice after the time-axis shift addition processing and performing the filter processing to extract the frequency components. It is also possible to further emphasize the target voice. Further, when the sound pickup target and the first and second microphones are arranged on a substantially straight line, the arrival time difference is calculated from the distance between the first microphone and the second microphone, Distance measurement etc. can be simplified.
(第2の実施の形態)
図10は本発明の第2の実施の形態を示すブロック図である。図10において図1と同一の構成要素には同一符号を付して説明を省略する。本実施の形態は再生装置における強調処理が第1の実施の形態と異なる。
(Second embodiment)
FIG. 10 is a block diagram showing the second embodiment of the present invention. 10, the same components as those in FIG. 1 are designated by the same reference numerals and the description thereof will be omitted. This embodiment differs from the first embodiment in the emphasis processing in the reproducing apparatus.
なお、図10においても音声取得装置を撮像装置としてのカメラ、レコーダび再生装置に分散して構成する例を示しているが、本実施の形態においても、音声取得装置は、カメラ内に構成してもよく、レコーダに構成してもよく、カメラ及びレコーダに分散して構成してもよく、更に、これらの装置とは独立した装置として構成してもよい。 Note that FIG. 10 also shows an example in which the voice acquisition device is configured by being distributed to a camera as an imaging device, a recorder, and a playback device, but in the present embodiment also, the voice acquisition device is configured in the camera. Alternatively, it may be configured as a recorder, may be configured as distributed in the camera and the recorder, and may be configured as a device independent of these devices.
第1の実施の形態においては、説明を簡略化するために、カメラ1及びレコーダ2において収音可能な範囲において、音は対象音声と草42による雑音のみが発生しているものと仮定した。しかし、第1の実施の形態においては、収音対象からカメラ1までの距離とレコーダ2までの距離との距離差に基づく到達時間差を求めて時間軸シフト加算処理を実行しており、カメラ1とレコーダ2の連携により収音可能な音声としては、到達時間差だけずれて到達する全ての音が対象となる。例えば、カメラ1とレコーダ2を結ぶ直線上の全ての位置から発せられた音が対象音声として強調されるだけでなく、音が到達時間差だけずれて収音される全ての位置からの音が対象音声として強調されることになる。
In the first embodiment, in order to simplify the description, it is assumed that only the target voice and the noise due to the
そこで、本実施の形態においては、カメラ1と収音対象とを結ぶ直線上の所定の1箇所の位置から発せられる音のみを対象音声として取得することを可能にしたものである。更に、本実施の形態においては、レコーダ2の位置を規定することで、カメラ1と収音対象とを結ぶ直線上の既知の1箇所から発せられる音のみを対象音声として取得することも可能である。
Therefore, in the present embodiment, it is possible to acquire, as the target voice, only the sound emitted from a predetermined one position on the straight line connecting the
なお、第1の実施の形態においては、カメラ1のST収音部12としては、モノラルマイクロホンを採用可能であったが、本実施の形態においては、ST収音部12はステレオマイクロホンである必要がある。
In the first embodiment, a monaural microphone can be adopted as the ST
先ず、図11から図13を参照して第2の実施の形態における収音の仕方について説明する。図11は鳥41、草42、レコーダ2及びカメラ1の位置関係をXY座標上で示す説明図である。図12及び図13は、横軸に時間をとり縦軸に振幅を取って、収音された音声の時間ずれを説明するための説明図である。
First, a sound collecting method in the second embodiment will be described with reference to FIGS. 11 to 13. FIG. 11 is an explanatory diagram showing the positional relationship among the
図11の例は、鳥41とレコーダ2とカメラ1とは、一直線上に配置されていない。ST収音部12は右マイクロホン12Rと左マイクロホン12Lとを有するステレオマイクロホンである。一般的なデジタルカメラ等に採用されるステレオマイクロホンと同様に、ST収音部12のマイクロホン12R,12Lは、撮像部11の光軸VCに沿って相互に同一の指向特性を有し、感度も共通である。従って、マイクロホン12R,12Lによってそれぞれ収音されて得られた右第1音声及び左第1音声のうち、撮像部11の光軸VC上の位置から発せられる音声の成分同士は相互に同一となる。
In the example of FIG. 11, the
従って、カメラ1の撮像時に、鳥41が光軸VC上に位置するように、即ち、鳥41を画面中央に捉えた状態においては、鳥41からの対象音声については、マイクロホン12R,12Lにより取得される成分A1R,A1Lは同一波形となる。例えば、所定の短い期間において対象音声の周波数に変化がないものとすると、この期間において波形同一(同一位相)となる周波数成分は対象音声の成分であると考えてもよく、当該周波数成分を抽出する処理(以下、同一位相成分抽出処理という)を行うことで、収音した左右の第1音声(左第1音声及び右第1音声)から対象音声のみを抽出することが可能である。なお、撮像部11の光軸VC上の全ての位置から発せられる音については、右第1音声と左第1音声が同一位相となる。換言すると、同一位相成分抽出処理によって得られる音(以下、第3音声という)は、撮像部11の光軸VC上から発せられた音と考えることができる。
Therefore, the target sound from the
図12及び図13はそれぞれ対象音声である鳥41の鳴き声と草42のなびく音等の雑音とが分離されているとして、カメラ1が収音した音声に基づく第3音声とレコーダ2が収音する音声の波形を説明するものである。図12は対象音声について示すものであり、レコーダ2の位置における対象音声A2に対してカメラ1の位置における第3音声の対象音声の成分A1R,A1Lは、距離の相違に基づく到達時間遅れ及び振幅の減少のみを有する。図12の例では到達時間差はToであり、レコーダ2に到達する対象音声と第3音声中の対象音声成分とは、到達時間差Toに相当する分だけ位相がずれている。
12 and 13 show that the sound of the
また、図13は草42による雑音について示すものである。レコーダ2の位置における雑音AN2とカメラ1が収音した音声に基づく第3音声中の雑音成分ANL,ANRは、距離の相違に基づく到達時間遅れ及び振幅の変化を有する。図13の例では到達時間差はTbであり、レコーダ2に到達する雑音AN2と第3音声中の雑音ANL,ANRとは、到達時間差Tbに相当する分だけ位相がずれている。
Further, FIG. 13 shows the noise caused by the
そこで、本実施の形態においても、レコーダ2が収音して得た音声を到達時間差To分だけ遅延させてカメラ1が収音して得た音声と加算する。これにより、カメラ1及びレコーダ2が収音した音声に含まれる成分のうち到達時間差Toの対象音声については、位相が一致した状態で加算されて強めあう(振幅が大きくなる)ことになる。
Therefore, also in the present embodiment, the sound obtained by the
ところで、レコーダ2は、任意の位置に配置される。本実施の形態では、レコーダ2は、光軸VC上に配置されていてもいなくてもよい。収音対象である鳥41とレコーダ2との間の距離をLAとし、鳥41とカメラ1との間の距離をLCとすると、距離差(LC−LA)から対象音声の到達時間差を算出することができる。レコーダ2が所定の位置に固定されているものとすると、レコーダ2からの距離がLAで、カメラ1から離間する方向の光軸VC上の位置は、鳥41の位置に一義的に決定される。
By the way, the
従って、カメラ1とレコーダ2における対象音声の到達時間差に対応した遅延時間で、レコーダ2が収音した第2音声とカメラ1によって得られる第3音声の少なくとも一方を遅延させて加算する時間軸シフト加算処理を行うことで、鳥41の位置から発せられた音、即ち、収音対象から発せられた対象音声を強調することが可能である。
Therefore, a time axis shift for delaying and adding at least one of the second sound picked up by the
また、レコーダ2を設置する位置を指定することで、カメラ1に対してある距離の位置から発せられた音のみを対象音声として強調することも可能である。
Further, by designating the position where the
図10の音声取得装置は、再生装置3に代えて再生装置50を採用する。再生装置50は、制御部30に代えて、制御部30に同一位相成分抽出処理部30cを付加した制御部51を採用する。なお、制御部51は、CPUやFPGA等を用いたプロセッサによって構成されていてもよく、図示しないメモリに記憶されたプログラムに従って動作して各部を制御するものであってもよいし、ハードウェアの電子回路で機能の一部又は全部を実現するものであってもよい。
The audio acquisition device in FIG. 10 employs a reproduction device 50 instead of the
上述したように、カメラ1は、収音対象を画面中央に捉えた状態で撮像を行うと共に収音を行う。こうして取得されたカメラ1からの撮像画像、第1音声及び第1音声に付加される時間情報、到達時間差情報及び音の発生タイミングの推測結果の情報は再生装置50に与えられて記録部34に記録される。また、レコーダ2からの第2音声及び第2音声に付加される時間情報も再生装置50に与えられて記録部34に記録される。
As described above, the
再生時には、制御部51の同一位相成分抽出処理部30cは、記録部34から第1音声に含まれる左音声及び右音声に対して同一位相成分抽出処理を行って第3音声を取得する。同一位相成分抽出処理部30cは、第3音声を時間軸シフト加算処理部30aに与える。時間軸シフト加算処理部30aは、第1音声に代えて第3音声を用いて時間軸シフト加算処理を行うようになっている。
During reproduction, the in-phase component
次に、このように構成された実施の形態の動作について図14を参照して説明する。図14は再生装置の制御を示すフローチャートである。図14において図7と同一の手順には同一符号を付して説明を省略する。 Next, the operation of the embodiment thus configured will be described with reference to FIG. FIG. 14 is a flowchart showing the control of the playback device. 14, the same steps as those in FIG. 7 are designated by the same reference numerals and the description thereof will be omitted.
カメラ1及びレコーダ2の作用は、図5及び図6と同様である。本実施の形態においては、ユーザは、レコーダ連携時に撮像を行う場合には、収音対象を画面中央に捉えた状態で撮像を行う。これにより、ST収音部12のマイクロホン12R,12Lによって収音される音声のうち、撮像部11の光軸上の位置から発せられた音声の成分については、左音声及び右音声の波形は同一となる。
The operations of the
再生装置50は、図14のステップS41において、記録部34に記録された左右の第1音声に対する同一位相成分抽出処理によって、第3音声を取得する。この第3音声は、撮像部11の光軸上の位置から発せられた音に対応する。
In step S41 of FIG. 14, the reproducing device 50 acquires the third audio by the same phase component extraction process for the left and right first audio recorded in the
時間軸シフト加算処理部30aは、第3音声及び第2音声の少なくとも一方を到達時間差に基づくシフト量で時間軸シフト処理を行って加算することで、対象音声を強調する。更に、対象音声抽出部30bは、強調された対象音声を抽出する処理を行う。
The time-axis shift
時間軸シフト加算処理部30a又は対象音声抽出部30bからの合成音が再生部33に与えられて音響として出力される。
The synthetic sound from the time-axis shift
他の作用は第1の実施の形態と同様である。 Other actions are similar to those of the first embodiment.
このように本実施の形態においては、対象音声をステレオのマイクロホンにより収音して第1音声を得る。そして、左右の第1音声のうち同一位相となる周波数成分を抽出して第3音声を取得する。第3音声は、直線上の位置から発せられた音に対応する。そして、収音対象からステレオのマイクロホンまでの距離と第2のマイクロホンまでの距離との距離差に基づいて到達時間差を求め、この到達時間差に応じたシフト量で取得した第3音声及び第2音声の少なくとも一方を時間軸シフトさせて合成することにより、対象音声を強調する。これにより、ステレオのマイクロホンから所定の距離に位置する収音対象以外の位置から発せられる雑音に対して対象音声を確実に強調することができ、収音対象を明瞭に高音質で聞き取ることが可能となる。 As described above, in the present embodiment, the target voice is picked up by the stereo microphone to obtain the first voice. Then, frequency components having the same phase are extracted from the left and right first voices to obtain the third voice. The third voice corresponds to the sound emitted from the position on the straight line. Then, the arrival time difference is obtained based on the distance difference between the distance from the sound pickup target to the stereo microphone and the distance to the second microphone, and the third voice and the second voice acquired with the shift amount according to the arrival time difference. The target voice is emphasized by shifting at least one of the above and synthesizing it. As a result, the target voice can be reliably emphasized against noise generated from a position other than the sound pickup target located at a predetermined distance from the stereo microphone, and the sound pickup target can be clearly heard with high sound quality. Becomes
なお、上記実施の形態においては、収音対象を画面中央に捉えた状態で収音を行うものと説明した。しかし、例えば、収音対象の画面上の位置や、位置及び方位センサ部17によって取得した収音対象の位置に基づいて左右の第1音声の到達時間差を算出することも可能である。この場合には、収音対象を画面中央に捉えた状態で収音を行わない場合でも、この到達時間差に応じて左右の第1音声の少なくとも一方を遅延させたのち同一位相成分抽出処理を行うことで、撮像部11の光軸上の所定位置から発せられた音に基づく第3音声を取得可能である。また、逆に、左右の第1音声の少なくとも一方を所定の到達時間差だけ遅延させて同一位相成分抽出処理を行うことで、撮像部11の光軸に対して所定の角度方向から発せられた音に基づく第3音声を取得可能である。
In addition, in the above-mentioned embodiment, it has been described that the sound is collected in a state where the sound collection target is captured in the center of the screen. However, for example, the arrival time difference between the left and right first voices can be calculated based on the position of the sound collection target on the screen or the position of the sound collection target acquired by the position and
(第3の実施の形態)
図15は本発明の第3の実施の形態に係る音声取得装置を示すブロック図である。図15において図1と同一の構成要素には同一符号を付して説明を省略する。
(Third Embodiment)
FIG. 15 is a block diagram showing a voice acquisition device according to the third embodiment of the present invention. 15, the same components as those in FIG. 1 are designated by the same reference numerals and the description thereof will be omitted.
上記各実施の形態においては、カメラ1及びレコーダ2において第1及び第2音声を取得すると共に連携情報を取得し、再生装置3において、取得された情報を用いて自動的に対象音声を強調処理するものであった。しかし、この場合には、連携情報として到達時間差の情報が必要であり、カメラ1とレコーダ2との間の距離を求める必要があったり、収音対象、カメラ1及びレコーダ2の位置関係によっては、収音対象の位置についても取得する必要があった。このため、上記各実施の形態においては、カメラ1によりレコーダ2までの距離や収音対象までの距離及び方位を求めたり、レコーダ2の測位機能を利用したりすることで、収音対象、カメラ1及びレコーダ2の位置関係を求めた。
In each of the above-described embodiments, the
これに対し、本実施の形態は、到達時間差の算出を省略可能にしたものである。本実施の形態は強調処理のための時間軸シフト処理におけるシフト量を人間の聴覚を利用して取得するものである。なお、図15は第1の実施の形態に適用する例を示しているが、本実施の形態は図10の第2の実施の形態にも同様に適用可能である。 On the other hand, in the present embodiment, the calculation of the arrival time difference can be omitted. In the present embodiment, the shift amount in the time axis shift process for the enhancement process is acquired by utilizing human hearing. Note that FIG. 15 shows an example applied to the first embodiment, but this embodiment is also applicable to the second embodiment of FIG.
本実施の形態はカメラ1に代えてカメラ60を採用すると共に再生装置3を省略したものであり、カメラ60は再生装置3の機能を内蔵するものである。カメラ60は、制御部61を備える。制御部61は、CPUやFPGA等を用いたプロセッサによって構成されていてもよく、図示しないメモリに記憶されたプログラムに従って動作して各部を制御するものであってもよいし、ハードウェアの電子回路で機能の一部又は全部を実現するものであってもよい。
In the present embodiment, a
制御部61は、図1の制御部10から距離及び到達時間差判定部10eと発生タイミング推測部10fとを省略すると共に、図1の制御部30の時間軸シフト加算処理部30a及び対象音声抽出部30bの構成を追加したものである。更に、制御部61は、シフト量調整部61aを備える。なお、カメラ60は、図1のカメラ1から画像特徴抽出部13と位置及び方位センサ部17とを省略すると共に、表示部16に代えて再生部33を採用し、記録部14に代えて記録部62を採用している。
The
記録部62は、ハードディスクやメモリ媒体等の図示しない記録媒体により構成されており、制御部61から与えられた情報を記録すると共に、記録された情報を読み出して制御部61に出力する。記録部62にはレコーダ2との通信に関する情報が記録される連携情報部14aの他に、第2音声情報部14bを有している。第2音声情報部14bは、レコーダ2から与えられた第2音声が記録されるようになっている。
The
制御部61のシフト量調整部61aは、操作部15のユーザ操作に基づく操作信号が与えられる。シフト量調整部61aは、操作信号に応じて、時間軸シフト加算処理部30aにおける時間軸シフト処理のシフト量を変化させるようになっている。
The shift
次に、このように構成された実施の形態の動作について図16から図18を参照して説明する。図16は収音及び録音時の様子を示す説明図である。また、図17はカメラの制御を示すフローチャートであり、図18はレコーダの制御を示すフローチャートである。なお、図17及び図18においてそれぞれ図5又は図6と同一の手順には同一符号を付して説明を省略する。 Next, the operation of the embodiment configured as described above will be described with reference to FIGS. 16 to 18. FIG. 16 is an explanatory diagram showing a state during sound pickup and recording. 17 is a flowchart showing the control of the camera, and FIG. 18 is a flowchart showing the control of the recorder. 17 and 18, the same steps as those in FIG. 5 or 6 are designated by the same reference numerals and the description thereof will be omitted.
本実施の形態においては、カメラ60は、レコーダ2と連携して収音する場合には、レコーダ2が収音した音声をカメラ60に転送させるようになっている。即ち、カメラ60の制御部61は、図17のステップS4においてレコーダ連携が指定されていると判定した場合には、ステップS5において連携依頼通信を行う。レコーダ2の制御部20は、図18のステップS23においてカメラ連携が指定されると、ステップS61に処理を移行して音声信号の送信を行う。即ち、収音制御部20aに制御されてST収音部22により収音された第2音声は、通信部21a又は21bを介してカメラ60に送信される。なお、この第2音声は、記録部25に供給されて記録されるようになっていてもよい。カメラ60の制御部61は、ステップS5の次のステップS51において、レコーダ2からの第2音声を通信部18a又は18bを介して受信する。
In this embodiment, when the
本実施の形態においては、制御部61は、受信した第2音声を記録部62の第2音声情報部14bに与えて記録させると共に、記録部62に記録中の第1音声と、第2音声情報部14bに記録中の第2音声とを時間軸シフト加算処理部30aに与えて時間軸シフト加算処理を実行させる。例えば、初期状態では時間軸シフト処理のシフト量は0であるものとしてもよい。この場合には、記録時の遅延及び第2音声の伝送遅延を無視するものとすると、収音中の第1音声と第2音声とが時間軸シフト加算処理部30aにおいて時間軸シフト処理されることなくそのまま合成されることになる。時間軸シフト加算処理部30aからの合成音はそのまま再生部33に供給されるか又は対象音声抽出部30bを介して再生部33に供給される。なお、時間軸シフト加算処理部30a又は対象音声抽出部30bからの合成音は記録部14に供給されて記録される。
In the present embodiment, the
図16はこの収音及び録音時における様子を示している。カメラ60の筐体60aの背面には、再生部33を構成する表示部33bが設けられている。ユーザは、例えば、筐体30aを手で把持して、表示部33b上の表示を見ながら被写体である鳥41を視野範囲に捉えた状態で、シャッタボタン15aを押下操作することで撮影を行う。図16では表示部33b上に鳥41の画像41aが表示されていることを示している。また、筐体60aの上面には、操作部15を構成するモード切り替え用のボタン15c及びシフト量調整用のボタン15bが配設されている。
FIG. 16 shows how the sound is collected and recorded. On the back surface of the
本実施の形態においては、再生部33は合成音を音響として出力するヘッドホン33cを有している。なお、再生部33は、ヘッドホン33cに限らず筐体60aに内蔵された図示しないスピーカを有して、このスピーカから合成音を音響として出力するようになっていてもよい。ユーザはヘッドホン33cからの合成音を聞きながらボタン15bを操作する。ボタン15bの操作に基づく操作信号はシフト量調整部61aに供給される。
In the present embodiment, the
シフト量調整部61aは、ユーザのボタン15bの操作に応じて時間軸シフト処理のシフト量を変化させる指示を時間軸シフト加算処理部30aに出力する(ステップS52)。時間軸シフト加算処理部30aは、シフト量調整部61aの指示に従ったシフト量だけ、記録部14から読み出した第1音声及び第2音声のうちの少なくとも一方に対して時間軸シフト処理を行った後、第1音声及び第2音声を加算する。
The shift
ユーザのボタン15bの操作量に応じて、時間軸シフト処理のシフト量が変化する。ユーザは、ヘッドホン33cから聞こえる音声が対象音声と考えられる音声として最もよく聞こえるように、ボタン15bを操作する。ユーザがヘッドホン33cから対象音声が最もよく聞こえる、即ち、対象音声が最も適切に強調処理されたと判断すると、ボタン15bの操作を停止する。このボタン15bの操作に対応するシフト量は、対象音声がレコーダ2に到達する時間とカメラ60に到達する時間との到達時間差に相当する。即ち、本実施の形態においては、ユーザの聴覚を利用することで、測距等を行うことなく、到達時間差の情報を取得することができることになる。
The shift amount of the time axis shift process changes according to the operation amount of the user's
カメラ60は、第1及び第2音声だけでなく、合成音についても記録部62に与えて記録する(ステップS53)。なお、この場合には、カメラ60は、到達時間差に関する情報についても合成音に関連付けて記録するようになっていてもよい。
The
他の作用は第1及び第2の実施の形態と同様である。 Other functions are similar to those of the first and second embodiments.
このように本実施の形態においては、第1及び第2の実施の形態と同様の効果が得られると共に、対象音声の強調処理のための時間軸シフト処理におけるシフト量を、人間の聴覚を利用して取得するようになっており、到達時間差の算出及びこの算出に必要な測距等の処理を省略することが可能である。 As described above, in the present embodiment, the same effect as in the first and second embodiments can be obtained, and the shift amount in the time axis shift process for enhancing the target voice can be used as the human hearing. It is possible to omit the calculation of the arrival time difference and the processing such as distance measurement necessary for this calculation.
なお、上記実施の形態においては、収音中の第2音声について伝送遅延を無視してカメラの記録部に記録されるものとして説明したが、ユーザの聴覚に従って、時間軸シフト処理のシフト量を調整するものであるので、伝送遅延があったとしても、特に問題はない。 It should be noted that in the above-described embodiment, the description has been made assuming that the transmission delay of the second sound during the sound collection is ignored and the sound is recorded in the recording unit of the camera. Since the adjustment is performed, there is no particular problem even if there is a transmission delay.
また、カメラによって収音した第1音声とレコーダによって収音した第2音声との同期がある程度とれるならば、カメラの記録部に記録された第1及び第2音声を、あるいはカメラの記録部に記録された第1音声とレコーダの記録部に記録された第2音声とを記録後に読み出し、再生時にユーザの聴覚を利用して時間軸シフト処理のシフト量を調整することにより、適切に強調された対象音声を聞くことも可能である。 If the first sound picked up by the camera and the second sound picked up by the recorder can be synchronized to some extent, the first and second sounds recorded in the recording section of the camera or the recording section of the camera can be recorded. The recorded first sound and the second sound recorded in the recording unit of the recorder are read out after recording, and are appropriately emphasized by adjusting the shift amount of the time-axis shift process by utilizing the hearing of the user during reproduction. It is also possible to hear the target voice.
上記実施の形態においては、撮像のための機器として、デジタルカメラを用いて説明したが、カメラとしては、デジタル一眼レフカメラでもコンパクトデジタルカメラでもよく、ビデオカメラ、ムービーカメラでもよく、さらに、携帯電話やスマートフォンなど携帯情報端末(PDA:Personal Digital Assist)等に内蔵されるカメラでも勿論構わない。 In the above embodiment, a digital camera is used as an image capturing device, but the camera may be a digital single lens reflex camera, a compact digital camera, a video camera, a movie camera, or a mobile phone. Of course, a camera built in a personal digital assistant (PDA) such as a smartphone or a smart phone may be used.
本発明は、上記各実施形態にそのまま限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記各実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素の幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。 The present invention is not limited to the above embodiments as they are, and can be embodied by modifying the constituent elements within a range not departing from the gist of the invention in an implementation stage. Further, various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in each of the above embodiments. For example, some of all the constituent elements shown in the embodiment may be deleted. Furthermore, the constituent elements of different embodiments may be combined appropriately.
なお、特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順で実施することが必須であることを意味するものではない。また、これらの動作フローを構成する各ステップは、発明の本質に影響しない部分については、適宜省略も可能であることは言うまでもない。 It should be noted that even if the description of the claims, the description, and the operation flow in the drawings is made by using “first,” “next,” and the like for convenience, it is essential that they are performed in this order. It does not mean. Further, it goes without saying that the steps constituting these operation flows can be appropriately omitted as long as they do not affect the essence of the invention.
なお、ここで説明した技術のうち、主にフローチャートで説明した制御に関しては、プログラムで設定可能であることが多く、記録媒体や記録部に収められる場合もある。この記録媒体、記録部への記録の仕方は、製品出荷時に記録してもよく、配布された記録媒体を利用してもよく、インターネットを介してダウンロードしたものでもよい。 Of the techniques described here, the control mainly described in the flowchart is often settable by a program and may be stored in a recording medium or a recording unit. The recording medium and the recording unit may be recorded at the time of product shipment, may be distributed recording medium, or may be downloaded via the Internet.
なお、実施例中で、「部」(セクションやユニット)として記載した部分は、専用の回路や、複数の汎用の回路を組み合わせて構成してもよく、必要に応じて、予めプログラムされたソフトウェアに従って動作を行うマイコン、CPUなどのプロセッサ、あるいはFPGAなどシーケンサを組み合わせて構成されてもよい。また、その制御の一部または全部を外部の装置が引き受けるような設計も可能で、この場合、有線や無線の通信回路が介在する。通信は、ブルートゥースやWiFi、電話回線などで行えばよく、USBなどで行っても良い。専用の回路、汎用の回路や制御部を一体としてASICとして構成してもよい。 It should be noted that, in the embodiments, a portion described as a "section" (section or unit) may be configured by a dedicated circuit or a combination of a plurality of general-purpose circuits, and if necessary, preprogrammed software may be used. It may be configured by combining a microcomputer that operates according to the above, a processor such as a CPU, or a sequencer such as an FPGA. It is also possible to design such that a part or all of the control is taken over by an external device, and in this case, a wired or wireless communication circuit intervenes. The communication may be performed using Bluetooth, WiFi, a telephone line, or the like, and may be performed using USB or the like. A dedicated circuit, a general-purpose circuit, and a control unit may be integrated into an ASIC.
1…カメラ、10…制御部、10a…撮影制御部、10b…画像処理部、10c…画角情報部、10d…収音制御及び処理部、10e…距離及び到達時間差判定部、10f…発生タイミング推測部、11…撮像部、11a…光学系、12…ST収音部、13…画像特徴抽出部、14…記録部、14a…連携情報部、16…表示部、17…位置及び方位センサ部、18…通信部、2…レコーダ、20…制御部、20a…収音制御部、22…ST収音部、25…記録部、25a…連携情報部、3…再生装置、30…制御部、30a…時間軸シフト加算処理部、30b…対象音声抽出部、30c…同一位相成分抽出処理部。
DESCRIPTION OF
Claims (17)
上記収音対象から上記第1の距離と異なる第2の距離だけ離れて配置され上記収音対象から発せられた音声を収音して第2音声を取得する第2のマイクロホンと、
上記第1及び第2音声のうち上記第1の距離と第2の距離との距離差に基づく成分を強調する強調処理を行う音声強調部と
を具備したことを特徴とする音声取得装置。 A first microphone that is arranged at a first distance from the sound collection target and that collects the sound emitted from the sound collection target to obtain the first sound;
A second microphone arranged apart from the sound collecting target by a second distance different from the first distance to collect a sound emitted from the sound collecting target and obtain a second sound;
A voice acquisition device, comprising: a voice enhancement unit that performs enhancement processing for enhancing a component based on a distance difference between the first distance and the second distance of the first and second voices.
取得された上記画像の画像解析により、上記収音対象から発せられた音の発生タイミングを推測する発生タイミング推測部と、を具備し、
上記音声強調部は、上記音の発生タイミングの推測結果に基づいて上記強調処理を調整する
ことを特徴とする請求項1に記載の音声取得装置。 An image acquisition unit that acquires the image of the sound collection target,
By the image analysis of the acquired image, a generation timing estimation unit that estimates the generation timing of the sound emitted from the sound collection target,
The voice acquisition device according to claim 1, wherein the voice enhancement unit adjusts the enhancement processing based on a result of estimation of a timing at which the sound is generated.
ことを特徴とする請求項1に記載の音声取得装置。 The voice enhancement unit obtains a time difference in which the voice emitted from the sound collection target reaches the first microphone and the second microphone according to the distance difference between the first distance and the second distance. The voice acquisition according to claim 1, wherein the enhancement processing is performed by delaying and adding at least one of the first voice and the second voice with a delay time based on the obtained arrival time difference. apparatus.
ことを特徴とする請求項3に記載の音声取得装置。 The voice acquisition device according to claim 3, wherein the voice enhancement unit obtains the arrival time difference based on a distance between the first microphone and the second microphone.
を更に具備したことを特徴とする請求項3に記載の音声取得装置。 The voice acquisition device according to claim 3, further comprising a distance and arrival time difference determination unit that obtains the arrival time difference by obtaining the distance difference between the first distance and the second distance.
を更に具備したことを特徴とする請求項3に記載の音声取得装置。 The voice emphasizing unit delays at least one of the first voice and the second voice with a delay time based on the arrival time difference, and adds the first and the second voices from a synthesized voice obtained by a time-axis shift addition process. The voice acquisition apparatus according to claim 3, further comprising a target voice extraction unit that extracts components to be emphasized by the time-axis shift addition processing for the second voice.
上記第1のマイクロホンが収音した左右の第1音声の位相が同一となる成分を第3音声として抽出する同一位相成分抽出処理部を更に具備し、
上記音声強調部は、上記第1音声に代えて上記第3音声と第2音声のうち上記第1の距離と第2の距離との距離差に基づく成分を強調する強調処理を行う
ことを特徴とする請求項1に記載の音声取得装置。 The first microphone is a stereo microphone that picks up a left first sound and a right first sound,
It further comprises an in-phase component extraction processing unit for extracting, as a third voice, a component in which the left and right first voices picked up by the first microphone have the same phase.
The voice emphasizing unit performs an emphasizing process for emphasizing a component based on a distance difference between the first distance and the second distance in the third sound and the second sound instead of the first sound. The voice acquisition device according to claim 1.
上記同一位相成分抽出処理部は、上記画像取得部が上記収音対象を上記撮像画像の中央に位置させた状態で上記第3音声を抽出する
ことを特徴とする請求項7に記載の音声取得装置。 An image acquisition unit for acquiring the captured image of the sound collection target,
The voice acquisition according to claim 7, wherein the same-phase component extraction processing unit extracts the third voice in a state in which the image acquisition unit positions the sound collection target at the center of the captured image. apparatus.
上記合成音を再生する再生部と、
ユーザ操作に基づく操作信号により上記遅延時間を調整するシフト量調整部と
を具備したことを特徴とする請求項1に記載の音声取得装置。 The voice emphasizing unit is based on a time difference in which a voice emitted from the sound collection target reaches the first microphone and the second microphone according to a distance difference between the first distance and the second distance. A time axis shift addition processing unit that delays and adds at least one of the first voice and the second voice with a delay time to obtain a synthesized voice;
A playback unit for playing back the above synthetic sound,
The voice acquisition device according to claim 1, further comprising a shift amount adjustment unit that adjusts the delay time according to an operation signal based on a user operation.
上記収音対象から上記第1の距離と異なる第2の距離だけ離れて配置された第2のマイクロホンによって上記収音対象から発せられた音声を収音して第2音声を取得し、
上記第1及び第2音声のうち上記第1の距離と第2の距離との距離差に基づく成分を強調する強調処理を行う
ことを特徴とする音声取得方法。 A first microphone arranged at a first distance from the sound collecting target collects a sound emitted from the sound collecting target to obtain a first sound,
A second microphone arranged apart from the sound collecting target by a second distance different from the first distance collects a sound emitted from the sound collecting target to obtain a second sound,
A voice acquisition method characterized by performing an emphasis process for emphasizing a component based on a distance difference between the first distance and the second distance among the first and second voices.
ことを特徴とする請求項10に記載の音声取得方法。 The time difference in which the sound emitted from the sound pickup target reaches the first microphone and the second microphone is calculated according to the distance difference between the first distance and the second distance, and the calculated arrival time difference is obtained. 11. The voice acquisition method according to claim 10, wherein the enhancement processing is performed by delaying and adding at least one of the first voice and the second voice with a delay time based on the delay time.
上記第1のマイクロホンが収音した左右の第1音声の位相が同一となる成分を第3音声として抽出し、
上記第1音声に代えて上記第3音声と第2音声のうち上記第1の距離と第2の距離との距離差に基づく成分を強調する強調処理を行う
ことを特徴とする請求項10に記載の音声取得方法。 The first microphone picks up a left first sound and a right first sound,
A component in which the phases of the left and right first sounds picked up by the first microphone are the same is extracted as the third sound,
11. The emphasizing process for emphasizing a component based on a distance difference between the first distance and the second distance of the third voice and the second voice instead of the first voice is performed. The voice acquisition method described.
上記合成音を再生し、
ユーザ操作に基づく操作信号により上記遅延時間を調整する
ことを特徴とする請求項10に記載の音声取得方法。 The delay time based on the time difference between the sound emitted from the sound collection target and the first microphone and the second microphone according to the distance difference between the first distance and the second distance. At least one of the voice and the second voice is delayed and added to obtain a synthetic sound,
Play the above synthetic sound,
The voice acquisition method according to claim 10, wherein the delay time is adjusted by an operation signal based on a user operation.
収音対象から第1の距離だけ離れて配置された第1のマイクロホンによって上記収音対象から発せられた音声を収音して第1音声を取得し、
上記収音対象から上記第1の距離と異なる第2の距離だけ離れて配置された第2のマイクロホンによって上記収音対象から発せられた音声を収音して第2音声を取得し、
上記第1及び第2音声のうち上記第1の距離と第2の距離との距離差に基づく成分を強調する強調処理を行う
手順を実行させるための音声取得プログラム。 On the computer,
A first microphone arranged at a first distance from the sound collecting target collects a sound emitted from the sound collecting target to obtain a first sound,
A second microphone arranged apart from the sound collecting target by a second distance different from the first distance collects a sound emitted from the sound collecting target to obtain a second sound,
A voice acquisition program for executing a procedure of performing an emphasis process for emphasizing a component based on a distance difference between the first distance and the second distance among the first and second voices.
手順を実行させるための請求項14に記載の音声取得プログラム。 The time difference in which the sound emitted from the sound pickup target reaches the first microphone and the second microphone is calculated according to the distance difference between the first distance and the second distance, and the calculated arrival time difference is calculated. 15. The voice acquisition program according to claim 14, which executes a procedure of performing the emphasizing process by delaying and adding at least one of the first voice and the second voice with a delay time based on the delay time.
上記第1のマイクロホンが収音した左右の第1音声の位相が同一となる成分を第3音声として抽出し、
上記第1音声に代えて上記第3音声と第2音声のうち上記第1の距離と第2の距離との距離差に基づく成分を強調する強調処理を行う
手順を実行させるための請求項14に記載の音声取得プログラム。 The first microphone picks up a left first sound and a right first sound,
A component in which the phases of the left and right first sounds picked up by the first microphone are the same is extracted as the third sound,
15. A procedure for executing an emphasizing process for emphasizing a component based on a distance difference between the first distance and the second distance of the third sound and the second sound instead of the first sound. The voice acquisition program described in.
上記合成音を再生し、
ユーザ操作に基づく操作信号により上記遅延時間を調整する
手順を実行させるための請求項14に記載の音声取得プログラム。 The delay time based on the time difference between the sound emitted from the sound collection target and the first microphone and the second microphone according to the distance difference between the first distance and the second distance. At least one of the voice and the second voice is delayed and added to obtain a synthetic sound,
Play the above synthetic sound,
15. The voice acquisition program according to claim 14, which executes a procedure of adjusting the delay time by an operation signal based on a user operation.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018230153A JP2020092381A (en) | 2018-12-07 | 2018-12-07 | Sound acquisition device, sound acquisition method, and sound acquisition program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018230153A JP2020092381A (en) | 2018-12-07 | 2018-12-07 | Sound acquisition device, sound acquisition method, and sound acquisition program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020092381A true JP2020092381A (en) | 2020-06-11 |
Family
ID=71013185
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018230153A Pending JP2020092381A (en) | 2018-12-07 | 2018-12-07 | Sound acquisition device, sound acquisition method, and sound acquisition program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020092381A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IT202100005591A1 (en) * | 2021-03-10 | 2022-09-10 | Smartleaf S R L | SOUND ACQUISITION EQUIPMENT |
-
2018
- 2018-12-07 JP JP2018230153A patent/JP2020092381A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IT202100005591A1 (en) * | 2021-03-10 | 2022-09-10 | Smartleaf S R L | SOUND ACQUISITION EQUIPMENT |
EP4057641A1 (en) * | 2021-03-10 | 2022-09-14 | Smartleaf S.r.l. | Sound acquisition apparatus |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7428763B2 (en) | Information acquisition system | |
RU2665304C2 (en) | Method and apparatus for setting photographing parameter | |
JP2008193196A (en) | Imaging device and specified voice output method | |
US9826134B2 (en) | Imaging apparatus having a microphone and directivity control | |
JP4934968B2 (en) | Camera device, camera control program, and recorded voice control method | |
JP2012100216A (en) | Camera and moving image capturing program | |
JP5299034B2 (en) | Imaging device | |
KR101737086B1 (en) | Digital photographing apparatus and control method thereof | |
CN103888684A (en) | Image processing apparatus that combines a plurality of images | |
JP2013017160A (en) | Camera and interchangeable lens mountable on camera | |
JP5998483B2 (en) | Audio signal processing apparatus, audio signal processing method, program, and recording medium | |
JP2003264900A (en) | Acoustic providing system, acoustic acquisition apparatus, acoustic reproducing apparatus, method therefor, computer-readable recording medium, and acoustic providing program | |
JP2020092381A (en) | Sound acquisition device, sound acquisition method, and sound acquisition program | |
WO2011108377A1 (en) | Coordinated operation apparatus, coordinated operation method, coordinated operation control program and apparatus coordination system | |
US8760552B2 (en) | Shooting apparatus | |
CN111800581B (en) | Image generation method, image generation device, storage medium, and electronic apparatus | |
KR102653751B1 (en) | Electronic apparatus, system, storage control method, and storage medium | |
JP2014122978A (en) | Imaging device, voice recognition method, and program | |
WO2010061791A1 (en) | Video control device, and image capturing apparatus and display apparatus which are provided with same | |
JP2013223105A (en) | Sound recording device and imaging apparatus | |
US20100118155A1 (en) | Digital image processing apparatus | |
JP5638897B2 (en) | Imaging device | |
JP2010171626A (en) | Motion picture generation device, and motion picture generation method | |
JP6736289B2 (en) | Information terminal device, imaging device, image information processing system, and image information processing method | |
JP2021057764A (en) | Imaging apparatus, audio processing method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20210205 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210819 |