JP2010171626A

JP2010171626A - 動画生成装置および動画生成方法

Info

Publication number: JP2010171626A
Application number: JP2009011152A
Authority: JP
Inventors: Hitoshi Tsuchiya; 仁司土屋
Original assignee: Olympus Corp
Current assignee: Olympus Corp
Priority date: 2009-01-21
Filing date: 2009-01-21
Publication date: 2010-08-05

Abstract

【課題】映像と音声がずれることなく記録することができる動画生成装置および動画生成方法を提供する。
【解決手段】映像データと第１の録音条件で録音された第１の音声データとを記憶する記憶手段と、第１の録音条件と異なる第２の録音条件で録音された第２の音声データの中から第１の音声データの予め定められたデータ範囲に対応するデータ範囲を検出する検出手段と、検出手段が検出した検出結果に基づいて、映像データと第２の音声データとを同期して関連付けた動画データを生成する動画生成手段と、を備える。
【選択図】図１

Description

本発明は、別の録音装置によって録音した音声データを用いて動画を生成する動画生成装置および動画生成方法に関する。

近年、動画を撮影することができるデジタルカメラが市場に投入されており、高画質の画像を撮影することができる一眼レフレックス方式のデジタルカメラ（以下、「一眼レフレックスカメラ」という）においても動画撮影機能を備えたものがある。
このような一眼レフレックスカメラにおいては、非常に高画質な映像を撮影することができ、映像と共に音声の録音を行うことによって臨場感を増した動画の撮影をすることができる。

しかしながら、一眼レフレックスカメラに搭載されているマイクによる音声は、一眼レフレックスカメラの撮影する画質につり合った高音質の音声ということができず、例えば、一眼レフレックスカメラに接続されたレンズ内のフォーカスレンズを駆動するときのモータ駆動音や、この一眼レフレックスカメラの操作者がズーム操作を行うときの操作音など、多くの雑音が音声と同時に記録されてしまっている。また、一眼レフレックスカメラでズーム倍率を高くして撮影した場合などでは、被写体との距離が離れているため、被写体の音声を確実に録音することができないという問題がある。

このような問題を解決する方法として、特許文献１では、被写体付近に設置した複数の無線マイクが捉えた音声信号を近距離無線データ通信を用いて送信し、カメラが撮影した被写体の画像と複数の無線マイクから送信されてきた音声信号とを記録することによって、所望の被写体の映像と音声を記録するビデオカメラ装置が開示されている。

特開２００６−５４５６７号公報

しかしながら、特許文献１のビデオカメラ装置では、無線マイクが捉えた音声を所望の被写体の映像と共に記録することができるが、近距離無線データ通信による通信は、撮影している環境の電波の通信状況や、音声信号を送信する無線マイクの数、近距離無線データ通信のネットワーク利用状況などによって大きく変化する通信状態の影響が大きく、音飛びや雑音が発生してしまうという問題がある。

また、近距離無線データ通信は、その通信速度にも限界があるため、記録できる音質にも限界がある。すなわち、最大のデータ転送速度で送信された音声データの量が記録できる最大の音質となってしまうという問題がある。

本発明は、上記の課題認識に基づいてなされたものであり、被写体の動画像を撮影する撮像装置が撮影した動画データに、別体で設けられた被写体の音声を録音する録音装置が記録した音声信号を合成して記録する動画生成装置において、映像と音声がずれることなく記録することができる動画生成装置および動画生成方法を提供することを目的としている。

上記の課題を解決するため、本発明の動画生成装置は、映像データと第１の録音条件で録音された第１の音声データとを記憶する記憶手段と、前記第１の録音条件と異なる第２の録音条件で録音された第２の音声データの中から前記第１の音声データの予め定められたデータ範囲に対応するデータ範囲を検出する検出手段と、前記検出手段が検出した検出結果に基づいて、前記映像データと前記第２の音声データとを同期して関連付けた動画データを生成する動画生成手段と、を備えることを特徴とする。
このことにより、第１の音声データの予め定められたデータ範囲に対応する第２の音声データのデータ範囲を検出し、データ範囲の検出結果に基づいて、映像データと第２の音声データとを同期して関連付けた動画データを生成する。これにより、映像データと音声データのずれがなく、また、被写体の音声を確実に録音した動画データを生成することができるという効果が得られる。

また、本発明の動画生成装置は、前記映像データと前記第１の音声データとを含む第２の動画データから前記映像データと前記第１の音声データとを分離する音声分離手段、を更に備えることを特徴とする。
このことにより、動画データから映像データと第１の音声データとに分離することができ、第１の音声データの予め定められたデータ範囲に対応する第２の音声データのデータ範囲を検出することができるという効果が得られる。

また、本発明の前記検出手段は、前記第１の音声データと前記第２の音声データとの相関を検出し、該相関を検出した結果に基づいて、前記第２の音声データの中から前記第１の音声データの予め定められたデータ範囲に対応するデータ範囲を検出する、ことを特徴とする。
このことにより、第１の音声データと第２の音声データとの相関を検出することによって、一致するデータ範囲を検出することができるという効果が得られる。

また、本発明の動画生成装置は、前記第１の録音条件と異なる前記第２の録音条件で録音された複数の前記第２の音声データから、いずれかの前記第２の音声データを選択する音声選択手段、を更に備え、前記検出手段は、前記音声選択手段によって選択された前記第２の音声データの中から前記第１の音声データの予め定められたデータ範囲に対応するデータ範囲を検出する、ことを特徴とする。
このことにより、所望の音声データを選択して、映像データと選択した音声データを合成することができるという効果が得られる。

また、本発明の前記音声選択手段は、前記映像データまたは前記第１の音声データに含まれる記録開始時間を示す情報と、記録している時間の長さを示す情報とから第１の時間情報を算出し、前記複数の音声データのそれぞれに含まれる音声の記録開始時間を示す情報と、記録している時間の長さを示す情報とから第２の時間情報を算出し、算出された前記第１の時間情報と前記第２の時間情報とに基づいて、いずれかの前記第２の音声データを選択する、ことを特徴とする。
このことにより、それぞれの音声データの時間情報を確認することによって、複数の音声データから映像データの記録開始時間と長さに合致した音声データを選択することができるという効果が得られる。

また、本発明の前記検出手段は、前記第１の音声データおよび前記第２の音声データから予め定められた周波数成分のデータを抽出し、前記第１の音声データから抽出した周波数成分のデータと、前記第２の音声データから抽出した周波数成分のデータとの比較を行い、該比較を行った結果に基づいて、前記第２の音声データの中から前記第１の音声データの予め定められたデータ範囲に対応するデータ範囲を検出する、ことを特徴とする。
このことにより、第１の音声データおよび第２の音声データの予め定められた特定の周波数成分を抽出することによって、予め判明している雑音を含む周波数成分を除いた雑音のない周波数成分を用いて対応するデータ範囲を検出することができるので、検出結果の信頼性を向上することができるという効果が得られる。

また、本発明の前記検出手段は、前記動画生成手段が前記動画データを生成する際の前記動画データの開始位置を基準とする予め定められた期間内の前記第１の音声データのデータ範囲と、前記第２の音声データのデータ範囲との相関を検出する、ことを特徴とする。
このことにより、第１の音声データの全ての期間の相関を検出することなく、相関検出に用いるデータ量を少なくすることができるので、相関検出に係わる処理速度を向上することができるという効果が得られる。

また、本発明の動画生成装置は、被写体を撮影して前記映像データを生成する撮像手段と、前記第１の音声データを生成する録音手段と、外部装置から前記第２の音声データを取得するインタフェース手段と、を更に備え、前記記憶手段は、前記撮像手段によって生成された前記映像データと、前記録音手段によって生成された前記第１の音声データとを記憶し、前記動画生成手段は、前記撮像手段によって生成された前記映像データと、前記外部装置から取得した前記第２の音声データとを同期して関連付けた動画データを生成する、ことを特徴とする。
このことにより、インタフェース手段を介して取得した外部装置からの音声データを、生成する動画データの音声データとして、映像データと同期して関連付けた動画データを生成することができるという効果が得られる。

また、本発明の動画生成方法は、映像データと第１の録音条件で録音された第１の音声データとを記憶する記憶手順と、前記第１の録音条件と異なる第２の録音条件で録音された第２の音声データの中から前記第１の音声データの予め定められたデータ範囲に対応するデータ範囲を検出する検出手順と、前記検出手順が検出した検出結果に基づいて、前記映像データと前記第２の音声データとを同期して関連付けた動画データを生成する動画生成手順と、を含むことを特徴とする。
このことにより、第１の音声データの予め定められたデータ範囲に対応する第２の音声データのデータ範囲を検出し、データ範囲の検出結果に基づいて、映像データと第２の音声データとを同期して関連付けた動画データを生成する。これにより、被写体の音声を確実に録音した動画データを生成することができるという効果が得られる。

本発明によれば、被写体の動画像を撮影する撮像装置が撮影した動画データに、別体で設けられた被写体の音声を録音する録音装置が記録した音声信号を合成して記録する動画生成装置において、録音装置が記録した音声信号の内の音声データから動画データに記録されている音声と同じ範囲の音声データを検出し、その検出した音声データを動画データ内の映像データと共に記録することによって、映像と音声がずれることなく記録することができるという効果が得られる。

本発明の実施形態による動画生成システムの概略構成の例を示した図である。本実施形態の動画生成システムにおいて合成される音声データを記録する録音端末の概略構成を示したブロック図である。本実施形態の動画生成システムにおける撮像装置の概略構成を示したブロック図である。本実施形態の動画生成システムにおいて音声データの相関を検出する動作の概要を示した図である。本実施形態の撮像装置の処理手順を示したフローチャートである。本実施形態の動画生成システムの使用例を示した図である。本発明の第２の実施形態による動画生成システムにおける動画処理の処理手順を示したフローチャートである。

＜第１実施形態＞
以下、本発明の第１の実施の形態について、図面を参照して説明する。図１は、本実施形態による動画生成システムの概略構成の例を示した図である。図１において、動画生成システムは、録音端末１００、撮像装置２００から構成される。また、録音端末１００は、マイク１０１を備えている。また、撮像装置２００は、マイク２０１、レリーズ釦２０２を備えている。また、録音端末１００は、通信ケーブル３００を介して撮像装置２００にデータを転送することができる。

録音端末１００は、この録音端末１００が設置された環境において、マイク１０１によって集音された音声を内部に記録するボイスレコーダである。また、録音端末１００は、記録した音声データを、通信ケーブル３００を介して他の機器、すなわち、撮像装置２００に転送する。なお、録音端末１００は、この録音端末１００単体で動作することができ、マイク１０１以外の構成として単体で動作するために必要な設定スイッチや表示パネルなどを備えているが、この録音端末１００単体での動作のみに必要な構成は、本発明に関係しないため説明を省略する。

撮像装置２００は、本実施形態の動画生成システムによって動画を撮影する撮影者によって操作され、撮影者がレリーズ釦２０２を押下することによって、被写体の撮影を開始、または停止するデジタル一眼レフレックスカメラである。撮像装置２００は、被写体の撮影を開始すると同時にマイク２０１で集音した音声の記録も開始する。
なお、撮像装置２００は、マイク２０１、レリーズ釦２０２以外の構成として被写体の撮影に必要な交換レンズや表示パネルなどを備え、また、単体で動作するために必要な設定スイッチなどを備えているが、本発明に関係しないため説明を省略する。

また、撮像装置２００は、自撮像装置２００が撮影した被写体の映像データと、通信ケーブル３００を介して取得した録音端末１００が記録した音声データとを関連付けた動画データを生成して記録する。
なお、撮像装置２００は、取得した録音端末１００が記録した音声データを関連付けた動画データを生成して記録する場合は、自撮像装置２００が被写体の撮影を開始すると同時にマイク２０１で集音した音声の音声データは動画データの生成には用いずに、破棄する。

通信ケーブル３００は、例えば、録音端末１００と撮像装置２００とが通信することができるユニバーサル・シリアル・バス（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ：以下「ＵＳＢ」という）規格のケーブルである。

次に、本実施形態の録音端末１００について説明する。図２は、本実施形態による動画生成システムにおいて合成される音声データを記録する録音端末１００の概略構成を示したブロック図である。図２において、録音端末１００は、マイク１０１、ＡＤ変換部１１０、記録部１２０、通信インタフェース部１３０、制御部１４０から構成される。なお、録音端末１００全体の動作は、制御部１４０によって制御される。

ＡＤ変換部１１０は、マイク１０１が集音した音声の電気信号（音声信号）をアナログ・デジタル変換し、デジタルデータに変換された音声データを記録部１２０に出力する。
記録部１２０は、ＡＤ変換部１１０から入力された音声データを記録し、記録している音声データを、制御部１４０からの制御に従って、通信インタフェース部１３０に出力する。
通信インタフェース部１３０は、記録部１２０から入力された音声データを、通信規格（例えば、ＵＳＢ規格）に従って処理し、処理後の音声データを接続している他の機器、すなわち、撮像装置２００に転送する。

次に、本実施形態の撮像装置２００について説明する。図３は、本実施形態による動画生成システムにおける撮像装置２００の概略構成を示したブロック図である。図３において、撮像装置２００は、撮影部２１０、マイク２０１、ＡＤ変換部２２０、メモリ２３０、相関検出部２４０、動画生成部２５０、メモリカードインタフェース部２６０、通信インタフェース部２７０、制御部２８０から構成される。

撮影部２１０は、撮影者によってレリーズ釦１３０が押下されることによって撮影が開始されると、撮影部２１０内の図示しないレンズを介して入射された被写体の光束を同じく撮影部２１０内の図示しない光電変換素子などによって光電変換し、撮影した被写体の映像データとしてメモリ２３０に出力する。
ＡＤ変換部２２０は、撮影の開始と同時にマイク２０１が集音した音声の電気信号（音声信号）をアナログ・デジタル変換し、デジタルデータに変換された音声データをメモリ２３０に出力する。
このことによって、メモリ２３０には、撮像装置２００が撮影した被写体の映像データと音声データとが記憶される。

通信インタフェース部２７０は、通信ケーブル３００を介して取得した接続している他の機器、すなわち、録音端末１００から転送された音声データを、通信規格（例えば、ＵＳＢ規格）に従って処理し、処理後の音声データをメモリ２３０に出力する。

なお、通信インタフェース部２７０に通信ケーブル３００を介して転送されるデータは、音声データのみに限定されるものではなく、例えが、映像データと音声データとを含んだ動画データや、画像データであってもよい。また、通信インタフェース部２７０が通信ケーブル３００を介して取得するデータは、１つのデータのみに限定されるものではなく、複数のデータを取得してもよい。

メモリ２３０は、撮像装置２００が撮影した被写体の映像データと音声データとを記憶する。また、メモリ２３０は、録音端末１００が記録し、通信ケーブル３００を介して通信インタフェース部２７０が取得した音声データを記憶する。

相関検出部２４０は、メモリ２３０に記憶されている撮像装置２００が記憶した音声データと、通信ケーブル３００を介して通信インタフェース部２７０が取得した音声データ、すなわち、録音端末１００が記録した音声データとの相関検出によって、それぞれの音声データが一致する部分を検出する。
また、相関検出部２４０は、相関検出によって得られた結果を、動画生成部２５０に出力する。この動画生成部２５０に出力される相関検出の結果は、例えば、撮像装置２００が記憶した音声データと、取得した録音端末１００が記録した音声データとに相関があるか否かを示す信号や、取得した録音端末１００が記録した音声データ内で相関が検出された場所または時刻を示すデータなどが考え得られるが、本発明においては、相関検出の結果に含まれる詳細な内容に関しての規定はしない。

また、撮像装置２００が撮影した被写体のデータ、または通信ケーブル３００を介して通信インタフェース部２７０が取得したデータが、例えが、映像データと音声データとを含んだ動画データである場合、相関検出部２４０は、制御部２８０からの指示によって、動画データを映像データと音声データとに分離し、分離した音声データを用いて相関検出を行う。

また、通信ケーブル３００を介して通信インタフェース部２７０が複数のデータを取得した場合、相関検出部２４０は、撮像装置２００が記憶した音声データと、取得したそれぞれの音声データとの相関検出を行う。なお、複数の音声データを取得した場合は、例えば、取得した複数の音声データの中から制御部２８０が予め定め選択した１つの音声データとの相関検出を行うこともできる。

動画生成部２５０は、メモリ２３０に記憶されている撮像装置２００が記憶した映像データと、通信ケーブル３００を介して通信インタフェース部２７０が取得した音声データ、すなわち、録音端末１００が記録した音声データとを関連付けた動画データを生成し、生成した動画データをメモリカードインタフェース部２６０に出力する。
なお、動画生成部２５０によって生成される動画データ内の映像データの開始位置における音声データのスタート位置は、相関検出部２４０から入力された相関検出の結果に基づいて決定される。
なお、本発明においては、動画生成部２５０による動画データの生成方法に関しては規定しない。

なお、通信ケーブル３００を介して通信インタフェース部２７０が複数のデータを取得した場合、相関検出部２４０によって相関検出された音声データの中から制御部２８０によって選択された１つの音声データと撮像装置２００が記憶した映像データとを関連付けた動画データを生成する。

メモリカードインタフェース部２６０は、動画生成部２５０から入力された動画データを、メモリカードに記録するために必要な処理を行って、図示しないメモリカードに記録する。
なお、本発明においては、メモリカードへの動画データの記録方法に関しては規定しない。
また、メモリカードインタフェース部２６０は、撮像装置２００が撮影し、図示しないメモリカードに記録されている被写体の映像データと音声データとをメモリ２３０に出力する。

制御部２８０は、撮像装置２００全体を制御する制御部である。また、制御部２８０は、撮像装置２００における撮影動作、他の機器、すなわち、録音端末１００との通信動作の他にも、動画データを生成する際の相関検出部２４０による相関検出や、動画生成部２５０による動画生成の制御を行う。

制御部２８０は、相関検出部２４０に相関検出の処理を行わせる前に、通信ケーブル３００を介して通信インタフェース部２７０が取得した音声データが、撮像装置２００が記憶した映像データに関連付けて記録することが可能な音声データであるか否かを確認し、関連付けて記録することが可能な音声データである場合は、相関検出部２４０に相関検出の処理を行わせる。制御部２８０によって行われる記録することが可能な音声データであるか否かの確認は、例えば、まず、取得した音声データから、該音声データの情報として記録されている音声の記録開始時刻の情報や、記録した音声の長さを示す記録時間の情報（以下、記録開始時刻の情報や、記録時間の情報を含む音声データの情報を「タイムスタンプ」という）を取得する。続いて、取得したタイムスタンプが、撮像装置２００が記憶した映像データの記録開始時刻や、記録時間が含まれるか否かを判断する。
なお、本発明においては、相関検出部２４０に相関検出の処理を行わせる前に行う制御部２８０によって行われる記録することが可能な音声データであるか否かの判断処理の内容に関しては規定しない。

また、制御部２８０は、撮像装置２００が撮影した被写体のデータ、または通信ケーブル３００を介して通信インタフェース部２７０が取得したデータが、例えば、映像データと音声データとを含んだ動画データである場合、相関検出部２４０によって相関検出を開始する前に、相関検出部２４０に動画データを映像データと音声データとに分離する処理を行わせる。
なお、本発明においては、相関検出部２４０が相関検出の処理を行う前に行う動画データを映像データと音声データとに分離する処理の内容に関しては規定しない。

また、制御部２８０は、通信ケーブル３００を介して通信インタフェース部２７０が複数のデータを取得した場合、相関検出部２４０に相関検出の処理を行わせる前または動画生成部２５０に動画生成の処理を行わせる前に、取得した複数の音声データの中から撮像装置２００が記憶した映像データと関連付けて動画データを生成する１つの音声データを選択する。
例えば、相関検出部２４０に相関検出の処理を行わせる前に複数の音声データから１つの音声データを選択する場合は、例えば、上述のタイムスタンプの確認によって選択する方法が考えられる。また、例えば、動画生成部２５０に動画生成の処理を行わせる前に複数の音声データから１つの音声データを選択する場合は、相関検出部２４０による相関検出の結果に基づいて、最も相関度の高い音声データを選択する方法や、相関が検出された音声データの内、記録されている音声のレベルが最も高い音声データを選択する方法が考えられるが、本発明においては、制御部２８０による音声データを選択する処理の内容に関しては規定しない。

次に、本実施形態における相関検出について説明する。図４は、本実施形態の動画生成システムにおいて音声データの相関を検出する動作の概要を示した図である。図４において、上段のグラフａは、撮像装置２００が被写体の撮影開始と同時にマイク２０１が集音し、メモリ２３０に記憶されている音声データ内で、予め定められた１つの周波数の音声データを示し、下段のグラフｂは、通信ケーブル３００を介して通信インタフェース部２７０が取得した音声データ、すなわち、録音端末１００が記録した音声データ内で、予め定められた上段の音声データと同じ周波数の音声データを示す。

また、図４の横軸は、動画データの記録時間を示し、横軸に記載した目盛りは、記憶している動画データのフレームの区切り位置を示している。例えば、動画データのフレームレートが３０フレーム／秒の動画データである場合は、１秒間に３０回のフレームの区切りがあるため、図４における横軸の目盛りの間隔は、約３３ｍｓとなる。また、例えば、音声データのサンプリングが３２ｋ／秒である場合、動画データの１フレーム区間、すなわち、１目盛りの間隔には、約１０００個のサンプリングされた音声データが存在する。

次に、相関検出部２４０による音声データの相関検出の例について説明する。なお、図４においては、映像データの開始位置から予め定められた２５００個のサンプリングデータを比較して、音声データのスタート位置を検出する場合について説明する。

まず、相関検出部２４０は、撮像装置２００が記憶した映像データの開始時（タイミングｔ１）のグラフａの音声データと、グラフｂの音声データとの差を算出し、引き続きタイミングｔ１からサンプリングタイミングを１つ後ろにずらしたタイミングｔ１＋１のグラフａの音声データと、グラフｂの音声データとの差を算出する。以降、同様に、サンプリングタイミングを１つ後ろにずらしてタイミングｔ１〜タイミングｔ１＋２５００までのグラフａの音声データと、タイミングｔ１〜タイミングｔ１＋２５００までのグラフｂの音声データとの差を算出する。その後、算出したそれぞれのサンプリングタイミングにおける音声データの差、すなわち、２５００個の音声データの差を合計し、その合計値（合計値ｔ１）を記憶する。

続いて、タイミングｔ１のグラフａの音声データと、タイミングｔ１＋１のグラフｂの音声データとの差を算出し、引き続きタイミングｔ１＋１のグラフａの音声データと、タイミングｔ１＋２のグラフｂの音声データとの差を算出する。以降、同様に、サンプリングタイミングを１つ後ろにずらしてタイミングｔ１〜タイミングｔ１＋２５００までのグラフａの音声データと、タイミングｔ１＋１〜タイミングｔ１＋２５００＋１までのグラフｂの音声データとの差を算出する。その後、算出したそれぞれのサンプリングタイミングにおける音声データの差を合計し、その合計値（合計値ｔ１＋１）を記憶する。

続いて、タイミングｔ１のグラフａの音声データと、タイミングｔ１＋２のグラフｂの音声データとの差を算出し、引き続きタイミングｔ１＋１のグラフａの音声データと、タイミングｔ１＋３のグラフｂの音声データとの差を算出する。以降、同様に、サンプリングタイミングを１つ後ろにずらしてタイミングｔ１〜タイミングｔ１＋２５００までのグラフａの音声データと、タイミングｔ１＋２〜タイミングｔ１＋２５００＋２までのグラフｂの音声データとの差を算出する。その後、算出したそれぞれのサンプリングタイミングにおける音声データの差を合計し、その合計値（合計値ｔ１＋２）を記憶する。

以降、同様にグラフａの音声データと、グラフｂの音声データとの差の算出、算出したそれぞれのサンプリングタイミングにおける音声データの差の合計値の記憶を行う。

続いて、予め定められた２５００個の音声データの差の合計値（合計値ｔ１〜合計値ｔ１＋２５００）の記憶が完了した後に、記憶した音声データの差の合計値ｔ１〜合計値ｔ１＋２５００の中から、その値が最小となる値を検出する。

続いて、音声データの差の合計値が最小であるサンプリングタイミング、すなわち、タイミングｔ１のグラフａの音声データに対して、グラフｂの音声データのサンプリングタイミングを幾つずらしたときの音声データの差の合計値が最小であったかを示すサンプリングタイミングのずらし量（図４における遅延時間ｃ）を、相関検出部２４０による相関検出の結果として動画生成部２５０に出力する。

動画生成部２５０は、相関検出部２４０からの相関検出の結果に基づいて、撮像装置２００が記憶した映像データの開始位置に対して、通信ケーブル３００を介して通信インタフェース部２７０が取得した録音端末１００が記録した音声データのスタート位置をずらした動画データを生成する。すなわち、映像データは、図４におけるタイミングｔ１から記録され、音声データは、図４における遅延時間ｃをずらしたタイミングｔ２以降の音声データが記録される。
このことによって、動画生成部２５０が生成した動画データを再生する際には、タイミングｔ１からの映像データと、タイミングｔ２からの音声データが同時に再生されることとなる。

なお、本説明の音声データの相関検出例においては、予め定められた特定の周波数の音声データを用いて相関検出を行っているが、複数の周波数帯を用いて相関検出を行うとより効果的である。すなわち、複数の周波数帯を用いて相関検出を行うことによって、例えば、記憶した音声データに電子音などの単調な繰り返しパターンがある場合の誤検出を回避することができる。
また、撮像装置２００における雑音、例えば、レンズの駆動音などの予め判明している周波数帯の音声データを使用しないことで、より正確に相関検出を行うこともできる。

また、本説明の音声データの相関検出例においては、映像データの開始位置から予め定められたサンプリングデータ（２５００個）を比較して、全ての音声データの差の合計値を算出した後に音声データのスタート位置を検出する場合について説明したが、本発明においては、この方法に限定しない。例えば、音声データの差の合計値を算出する毎に前回の音声データの差の合計値と今回の音声データの差の合計値とを比較して、音声データの差の合計値の最小値が検出されたときに音声データの差の合計値の算出を終了（音声データの差の合計値の最小値が検出された後に、予め定められた回数の音声データの差の合計値の算出を行ってから判断する場合も含む）することもできる。このことによって、映像データの開始位置から音声データの相関が検出されるまでの処理時間を短縮することができる。

なお、本発明においては、音声データの相関が検出される方法であれば良く、音声データの相関検出方法に関しての規定はしない。

また、グラフａの音声データと、グラフｂの音声データとのそれぞれの音声データの最大値と最小値との差が大きい場合は、それぞれの音声データにゲインをかけて、最大値と最小値の範囲を同様にした後にグラフａの音声データと、グラフｂの音声データとの相関を検出することによって、より容易に相関検出を行うこともできる。

また、グラフａの音声データと、グラフｂの音声データとは、音声データが圧縮されていない状態であることが望ましいが、受信した音声データが圧縮されている場合は、相関検出の条件を変更することで圧縮されている音声データに対しても相関を検出することができる。例えば、変更される相関検出の条件は、相関判定条件の緩和や、サンプリングタイミングの変更などが考えられる。

次に、本実施形態の撮像装置２００の処理手順について説明する。図５は、本実施形態の撮像装置２００の処理手順を示したフローチャートである。

まず、動画データの生成を開始すると、制御部２８０は、ステップＳ１０１において、録音端末１００が通信ケーブル３００を介して接続されているか否かを確認し、録音端末１００が接続されている場合は、ステップＳ１０２に進む。また、録音端末１００が接続されていない場合は、ステップＳ１０１を繰り返して、録音端末１００が接続されるのを待つ。

ステップＳ１０１において、録音端末１００が接続されている場合、制御部２８０は、ステップＳ１０２において、メモリカードインタフェース部２６０を経由して図示しないメモリカード内に撮像装置２００が撮影した被写体の動画ファイルが記憶されているか否かを確認し、図示しないメモリカード内に動画ファイルが記憶されている場合は、ステップＳ１０３において、図示しないメモリカードに記憶されている動画ファイルを選択する。その後、選択した動画ファイルをメモリカードインタフェース部２６０を介して読み出し、読み出した動画ファイルをメモリ２３０内に記憶する。ステップＳ１０２において、図示しないメモリカード内に動画ファイルが記憶されていない場合、または全ての動画ファイルに対する動画データの生成が完了した場合は、動画データの生成処理を終了する。
なお、ステップＳ１０３において行われる動画ファイルの選択は、図示しないメモリカード内に記憶されている動画ファイルのタイムスタンプの情報に基づいて、最も古いタイムスタンプであり、かつ動画データの生成処理が行われていない動画ファイルを制御部２８０が選択する。

続いて、制御部２８０は、ステップＳ１０４において、相関検出部２４０に選択した動画ファイルを映像データと音声データとに分離する処理を行わせるための指示を行う。このことにより、相関検出部２４０は、動画ファイルを映像データと音声データとに分離し、分離した映像データと音声データとをメモリ２３０に記憶する。

続いて、制御部２８０は、ステップＳ１０５において、メモリ２３０に記憶されている分離した映像データから撮影時間を算出する。ここで、撮影時間の算出方法は、例えば、映像データのタイムスタンプと映像データに記録されている撮影フレーム数から、撮像装置２００が被写体を撮影した撮影開始時間と撮影終了時間とを算出する。
なお、本発明においては、制御部２８０による撮影時間の算出方法に関しては規定しない。

続いて、制御部２８０は、ステップＳ１０６において、通信ケーブル３００を介して通信インタフェース部２７０を経由して録音端末１００が記録した音声データから、ステップＳ１０５で算出した撮影開始時間と撮影終了時間との両方を含む音声データを選択する。その後、選択した音声データを通信インタフェース部２７０を介して取得し、取得した音声データをメモリ２３０内に記憶する。
なお、ステップＳ１０６において行われる音声データの選択は、録音端末１００の記録部１２０内に記憶されている音声データのタイムスタンプと音声データに記録されているサンプリングデータ数から、接続されている録音端末１００が録音した音声の録音開始時間と録音終了時間とを算出する。その後、算出した録音開始時間と録音終了時間とを、ステップＳ１０５で算出した撮影開始時間と撮影終了時間と比較することによって行う。すなわち、録音開始時間が撮影開始時間以前であり、かつ、録音終了時間が撮影終了時間以降である音声ファイルを選択する。

続いて、制御部２８０は、ステップＳ１０７において、選択された音声データがあるか否かを確認し、選択された音声データがある場合は、ステップＳ１０８に進む。また、選択された音声データがない場合は、ステップＳ１０２に戻って、動画ファイルの確認と選択を繰り返す。

続いて、制御部２８０は、ステップＳ１０８において、相関検出部２４０に選択した音声データのスタート位置の検出処理を行わせるための指示を行う。このことにより、相関検出部２４０は、選択した音声データの相関検出を行う。

続いて、制御部２８０は、ステップＳ１０９において、相関検出部２４０による相関検出によって、選択した音声データ、すなわち、録音端末１００の音声データのスタート位置が検出されているか否かを判断し、音声データのスタート位置が検出されている場合は、ステップＳ１１０に進む。ステップＳ１０９において、音声データのスタート位置が検出されていない場合は、ステップＳ１０２に戻って、動画ファイルの確認と選択を繰り返す。

続いて、制御部２８０は、ステップＳ１１０において、動画生成部２５０に分離した映像データと選択した音声データとを用いて動画データの生成処理を行わせるための指示を行う。このことにより、動画生成部２５０は、動画データの生成を行う。
なお、ステップＳ１１０において行われる動画データの生成処理は、分離した映像データの先頭（撮影開始時間）のフレームと、相関検出部２４０によって検出した音声データのスタート位置とを合わせた動画データを生成する。
動画生成部２５０による動画データの生成が終了すると、ステップＳ１０２に戻って、次に動画データを生成する動画ファイルの確認と選択を繰り返す。ここで、次に動画データを生成する動画ファイルがない、すなわち、全ての動画ファイルに対する動画データの生成が完了した場合は、動画データの生成処理を終了する。

次に、本実施形態の動画生成システムの使用例について説明する。図６は、本実施形態の動画生成システムの使用例を示した図である。

図６は、録音端末１００と撮像装置２００とをそれぞれ別の人が持ち、後に説明者を撮影した映像データと、説明者の声を録音した音声データとを合成した動画データを記録する場合の例を示している。
なお、録音端末１００を複数用意し、それぞれの録音端末１００が録音した説明者の声を録音した音声データの中から１つの音声データを選択して合成した動画データを記録することもできる。また、複数の録音端末１００が録音した音声データをステレオ音声や、５．１チャンネル音声として記録することもできるが、本発明においては、撮像装置２００によるステレオ音声や５．１チャンネル音声の動画データの生成方法に関しては規定しない。

上記に述べたとおり、本発明の実施形態によれば、それぞれ別の機器である撮像装置２００が撮影した被写体の映像データと、録音端末１００が記録した音声データとを後の処理によって関連付けた動画データを記録することができる。このことによって、記録する音声データの音質が、通信インタフェースの性能の影響をうけることがなく、高音質で高画質な動画データを生成することができる。

＜第２実施形態＞
次に、本発明の第２の実施の形態として、パーソナルコンピュータを用いて動画データを生成する場合について、図面を参照して説明する。図７は、本第２の実施形態の動画生成システムにおける動画処理の処理手順を示したフローチャートである。なお、図７に示したフローチャートは、中央処理装置（ＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、データ記憶装置（メモリ：ＲＯＭ、ＲＡＭなど）、および通信インタフェース（ＵＳＢインタフェースなど）などを備えるパーソナルコンピュータ（以下、「ＰＣ」という）上で動作するプログラムであり、本第２の実施形態の動画生成システムのよって合成される映像データと音声データとを含む動画ファイルと音声ファイルは、すでに撮像装置２００と録音端末１００とからＰＣ内に転送されているものとして説明を行う。

まず、動画データの生成を開始すると、ＰＣは、ステップＳ２０１において、動画ファイルを選択し、続いてステップＳ２０２において、音声ファイルを選択する。
なお、ステップＳ２０１おいて行われる動画ファイルの選択およびステップＳ２０２において行われる音声ファイルの選択は、ＰＣ内に記憶されている動画ファイルおよび音声ファイルをＰＣの操作者が指定し、指定された動画ファイルおよび音声ファイルをＰＣが選択する。

続いて、ＰＣは、ステップＳ２０３において、選択した動画ファイルを映像データと音声データとに分離し、分離した映像データと音声データとをＰＣ内に記憶する。

続いて、ＰＣは、ステップＳ２０４において、ＰＣ内に記憶されている分離した音声データと、ステップＳ２０２において選択された音声ファイルとの相関を検出し、相関が検出されたデータ範囲の音声データをステップＳ２０２において選択された音声ファイルから切り出す。また、切り出した音声データは、ＰＣ内に記憶する。
なお、本発明においては、ＰＣによって行われる音声ファイルから音声データを切り出す処理方法に関しては規定しない。

続いて、ＰＣは、ステップＳ２０５において、相関検出処理の結果、分離した音声データと、選択された音声ファイルとの相関が検出され、相関部分が存在、すなわち、切り出した音声データが存在するか否かを判断し、切り出した音声データが存在する場合は、ステップＳ２０６に進む。ステップＳ２０５において、切り出した音声データが存在しない場合は、ステップＳ２０７において、動画データの合成ができなかったことを表す表示をＰＣの操作者に表示し、動画データの生成処理を終了する。

ステップＳ２０５において、切り出した音声データが存在する場合、ＰＣは、ステップＳ２０６において、ＰＣ内に記憶されている分離した映像データと、切り出した音声データとを用いて動画データの合成処理を行い、動画データを生成する。

続いて、ＰＣは、ステップＳ２０８において、動画データの合成が完了したことを表す表示をＰＣの操作者に表示し、動画データの生成処理を終了する。

上記に述べたとおり、本発明の第２の実施形態によれば、被写体を撮影した音声データを含む動画データと、動画データに記録されている被写体の音声を録音した音声ファイルとを後の処理によって合成した動画データを記録することができる。このことによって、動画データに記録されている被写体の音声が確実に録音されている動画データを生成することができる。

上記に述べたとおり、本発明を実施するための形態によれば、録音端末１００と撮像装置２００とが別の機器であり、それぞれ記録された動画ファイルと音声ファイルとを合成する場合において、撮像装置２００が記録した動画ファイルに含まれる音声データと、録音端末１００が記録した音声データとの相関を検出することによって、生成する動画データ内の映像データと音声データのタイミングを一致させることができるので、映像と音声のずれがなく、違和感のない動画データを生成することができる。

なお、本実施形態において動画データを生成する際に関連付ける音声データは、映像データの開始位置における音声データのスタート位置のみの相関を検出する例で説明したが、動画データの途中において予め定められたフレーム間隔毎に、撮像装置２００が記憶した音声データと、録音端末１００が記録した音声データとの相関を検出して、映像データと音声データのタイミングのずれや誤差を補正する構成とすることもできる。

また、第１の実施形態における撮像装置２００と録音端末１００との接続は、ＵＳＢ規格による有線のインタフェースの例で説明したが、本発明においては、撮像装置２００と録音端末１００との接続におけるインタフェースの規格に関しての限定はしない。例えば、その他の有線インタフェースであるＩＥＥＥ１３９４規格を本発明のインタフェース方法として適用することもできる。また、有線インタフェースに限らず、無線インタフェースである無線ＬＡＮ規格を本発明のインタフェース方法として適用することもできる。

また、第１の実施形態においは、動画データの生成処理を撮像装置２００内で行う構成で説明したが、本発明においては、動画データの生成処理を行う装置に関しての限定はしない。例えば、撮像装置２００と外部記憶装置（データストレージ装置）とを接続して撮像装置２００が撮影した動画ファイルを外部記憶装置に転送し、その後、録音端末１００が記録した音声ファイルを外部記憶装置に転送後に、外部記憶装置が動画データの生成処理を行う構成とすることもできる。

また、第１の実施形態において、動画データを映像データと音声データとに分離する処理は、制御部２８０が指示して相関検出部２４０が実行する構成で説明したが、本発明においては、動画データを映像データと音声データとに分離する処理を制御部２８０が実行する構成とすることもできる。

また、本実施形態においては、動画データを生成する場合を説明したが、動画データの生成に限定されるものではなく、例えば、静止画像の連続撮影において音声データを付加する場合にも本発明を適用することができる。

なお、本実施形態において撮像装置２００は、一眼レフレックスカメラの例で説明したが、本発明においては、被写体を撮影することができる構成であれば良く、カメラの種類などに関しての規定はしない。

また、本実施形態において録音端末１００は、ボイスレコーダの例で説明したが、本発明においては、音声を記録することができる構成であれば良く、音声記録装置の種類などに関しての規定はしない。

以上、本発明の実施形態について、図面を参照して説明してきたが、具体的な構成はこの実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲においての種々の変更も含まれる。

１００・・・録音端末、１０１・・・マイク、１１０・・・ＡＤ変換部、１２０・・・記録部、１３０・・・通信インタフェース部、２００・・・撮像装置、２０１・・・マイク（録音手段）、２０２・・・レリーズ釦、２１０・・・撮影部（撮像手段）、２２０・・・ＡＤ変換部、２３０・・・メモリ（記憶手段）、２４０・・・相関検出部（検出手段，音声分離手段）、２５０・・・動画生成部（動画生成手段）、２６０・・・メモリカードインタフェース部、２７０・・・通信インタフェース部（インタフェース手段）、２８０・・・制御部（音声選択手段）、３００・・・通信ケーブル

Claims

映像データと第１の録音条件で録音された第１の音声データとを記憶する記憶手段と、
前記第１の録音条件と異なる第２の録音条件で録音された第２の音声データの中から前記第１の音声データの予め定められたデータ範囲に対応するデータ範囲を検出する検出手段と、
前記検出手段が検出した検出結果に基づいて、前記映像データと前記第２の音声データとを同期して関連付けた動画データを生成する動画生成手段と、
を備えることを特徴とする動画生成装置。
前記映像データと前記第１の音声データとを含む第２の動画データから前記映像データと前記第１の音声データとを分離する音声分離手段、
を更に備えることを特徴とする請求項１に記載の動画生成装置。
前記検出手段は、
前記第１の音声データと前記第２の音声データとの相関を検出し、該相関を検出した結果に基づいて、前記第２の音声データの中から前記第１の音声データの予め定められたデータ範囲に対応するデータ範囲を検出する、
ことを特徴とする請求項１に記載の動画生成装置。
前記第１の録音条件と異なる前記第２の録音条件で録音された複数の前記第２の音声データから、いずれかの前記第２の音声データを選択する音声選択手段、
を更に備え、
前記検出手段は、
前記音声選択手段によって選択された前記第２の音声データの中から前記第１の音声データの予め定められたデータ範囲に対応するデータ範囲を検出する、
ことを特徴とする請求項１に記載の動画生成装置。
前記音声選択手段は、
前記映像データまたは前記第１の音声データに含まれる記録開始時間を示す情報と、記録している時間の長さを示す情報とから第１の時間情報を算出し、前記複数の音声データのそれぞれに含まれる音声の記録開始時間を示す情報と、記録している時間の長さを示す情報とから第２の時間情報を算出し、算出された前記第１の時間情報と前記第２の時間情報とに基づいて、いずれかの前記第２の音声データを選択する、
ことを特徴とする請求項４に記載の動画生成装置。
前記検出手段は、
前記第１の音声データおよび前記第２の音声データから予め定められた周波数成分のデータを抽出し、前記第１の音声データから抽出した周波数成分のデータと、前記第２の音声データから抽出した周波数成分のデータとの比較を行い、該比較を行った結果に基づいて、前記第２の音声データの中から前記第１の音声データの予め定められたデータ範囲に対応するデータ範囲を検出する、
ことを特徴とする請求項１に記載の動画生成装置。
前記検出手段は、
前記動画生成手段が前記動画データを生成する際の前記動画データの開始位置を基準とする予め定められた期間内の前記第１の音声データのデータ範囲と、前記第２の音声データのデータ範囲との相関を検出する、
ことを特徴とする請求項３に記載の動画生成装置。
被写体を撮影して前記映像データを生成する撮像手段と、
前記第１の音声データを生成する録音手段と、
外部装置から前記第２の音声データを取得するインタフェース手段と、
を更に備え、
前記記憶手段は、
前記撮像手段によって生成された前記映像データと、前記録音手段によって生成された前記第１の音声データとを記憶し、
前記動画生成手段は、
前記撮像手段によって生成された前記映像データと、前記外部装置から取得した前記第２の音声データとを同期して関連付けた動画データを生成する、
ことを特徴とする請求項１に記載の動画生成装置。
映像データと第１の録音条件で録音された第１の音声データとを記憶する記憶手順と、
前記第１の録音条件と異なる第２の録音条件で録音された第２の音声データの中から前記第１の音声データの予め定められたデータ範囲に対応するデータ範囲を検出する検出手順と、
前記検出手順が検出した検出結果に基づいて、前記映像データと前記第２の音声データとを同期して関連付けた動画データを生成する動画生成手順と、
を含むことを特徴とする動画生成方法。