[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2010171626A - 動画生成装置および動画生成方法 - Google Patents

動画生成装置および動画生成方法 Download PDF

Info

Publication number
JP2010171626A
JP2010171626A JP2009011152A JP2009011152A JP2010171626A JP 2010171626 A JP2010171626 A JP 2010171626A JP 2009011152 A JP2009011152 A JP 2009011152A JP 2009011152 A JP2009011152 A JP 2009011152A JP 2010171626 A JP2010171626 A JP 2010171626A
Authority
JP
Japan
Prior art keywords
data
audio data
moving image
audio
recording
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2009011152A
Other languages
English (en)
Inventor
Hitoshi Tsuchiya
仁司 土屋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Olympus Corp
Original Assignee
Olympus Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Olympus Corp filed Critical Olympus Corp
Priority to JP2009011152A priority Critical patent/JP2010171626A/ja
Publication of JP2010171626A publication Critical patent/JP2010171626A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)
  • Studio Devices (AREA)

Abstract

【課題】映像と音声がずれることなく記録することができる動画生成装置および動画生成方法を提供する。
【解決手段】映像データと第1の録音条件で録音された第1の音声データとを記憶する記憶手段と、第1の録音条件と異なる第2の録音条件で録音された第2の音声データの中から第1の音声データの予め定められたデータ範囲に対応するデータ範囲を検出する検出手段と、検出手段が検出した検出結果に基づいて、映像データと第2の音声データとを同期して関連付けた動画データを生成する動画生成手段と、を備える。
【選択図】図1

Description

本発明は、別の録音装置によって録音した音声データを用いて動画を生成する動画生成装置および動画生成方法に関する。
近年、動画を撮影することができるデジタルカメラが市場に投入されており、高画質の画像を撮影することができる一眼レフレックス方式のデジタルカメラ(以下、「一眼レフレックスカメラ」という)においても動画撮影機能を備えたものがある。
このような一眼レフレックスカメラにおいては、非常に高画質な映像を撮影することができ、映像と共に音声の録音を行うことによって臨場感を増した動画の撮影をすることができる。
しかしながら、一眼レフレックスカメラに搭載されているマイクによる音声は、一眼レフレックスカメラの撮影する画質につり合った高音質の音声ということができず、例えば、一眼レフレックスカメラに接続されたレンズ内のフォーカスレンズを駆動するときのモータ駆動音や、この一眼レフレックスカメラの操作者がズーム操作を行うときの操作音など、多くの雑音が音声と同時に記録されてしまっている。また、一眼レフレックスカメラでズーム倍率を高くして撮影した場合などでは、被写体との距離が離れているため、被写体の音声を確実に録音することができないという問題がある。
このような問題を解決する方法として、特許文献1では、被写体付近に設置した複数の無線マイクが捉えた音声信号を近距離無線データ通信を用いて送信し、カメラが撮影した被写体の画像と複数の無線マイクから送信されてきた音声信号とを記録することによって、所望の被写体の映像と音声を記録するビデオカメラ装置が開示されている。
特開2006−54567号公報
しかしながら、特許文献1のビデオカメラ装置では、無線マイクが捉えた音声を所望の被写体の映像と共に記録することができるが、近距離無線データ通信による通信は、撮影している環境の電波の通信状況や、音声信号を送信する無線マイクの数、近距離無線データ通信のネットワーク利用状況などによって大きく変化する通信状態の影響が大きく、音飛びや雑音が発生してしまうという問題がある。
また、近距離無線データ通信は、その通信速度にも限界があるため、記録できる音質にも限界がある。すなわち、最大のデータ転送速度で送信された音声データの量が記録できる最大の音質となってしまうという問題がある。
本発明は、上記の課題認識に基づいてなされたものであり、被写体の動画像を撮影する撮像装置が撮影した動画データに、別体で設けられた被写体の音声を録音する録音装置が記録した音声信号を合成して記録する動画生成装置において、映像と音声がずれることなく記録することができる動画生成装置および動画生成方法を提供することを目的としている。
上記の課題を解決するため、本発明の動画生成装置は、映像データと第1の録音条件で録音された第1の音声データとを記憶する記憶手段と、前記第1の録音条件と異なる第2の録音条件で録音された第2の音声データの中から前記第1の音声データの予め定められたデータ範囲に対応するデータ範囲を検出する検出手段と、前記検出手段が検出した検出結果に基づいて、前記映像データと前記第2の音声データとを同期して関連付けた動画データを生成する動画生成手段と、を備えることを特徴とする。
このことにより、第1の音声データの予め定められたデータ範囲に対応する第2の音声データのデータ範囲を検出し、データ範囲の検出結果に基づいて、映像データと第2の音声データとを同期して関連付けた動画データを生成する。これにより、映像データと音声データのずれがなく、また、被写体の音声を確実に録音した動画データを生成することができるという効果が得られる。
また、本発明の動画生成装置は、前記映像データと前記第1の音声データとを含む第2の動画データから前記映像データと前記第1の音声データとを分離する音声分離手段、を更に備えることを特徴とする。
このことにより、動画データから映像データと第1の音声データとに分離することができ、第1の音声データの予め定められたデータ範囲に対応する第2の音声データのデータ範囲を検出することができるという効果が得られる。
また、本発明の前記検出手段は、前記第1の音声データと前記第2の音声データとの相関を検出し、該相関を検出した結果に基づいて、前記第2の音声データの中から前記第1の音声データの予め定められたデータ範囲に対応するデータ範囲を検出する、ことを特徴とする。
このことにより、第1の音声データと第2の音声データとの相関を検出することによって、一致するデータ範囲を検出することができるという効果が得られる。
また、本発明の動画生成装置は、前記第1の録音条件と異なる前記第2の録音条件で録音された複数の前記第2の音声データから、いずれかの前記第2の音声データを選択する音声選択手段、を更に備え、前記検出手段は、前記音声選択手段によって選択された前記第2の音声データの中から前記第1の音声データの予め定められたデータ範囲に対応するデータ範囲を検出する、ことを特徴とする。
このことにより、所望の音声データを選択して、映像データと選択した音声データを合成することができるという効果が得られる。
また、本発明の前記音声選択手段は、前記映像データまたは前記第1の音声データに含まれる記録開始時間を示す情報と、記録している時間の長さを示す情報とから第1の時間情報を算出し、前記複数の音声データのそれぞれに含まれる音声の記録開始時間を示す情報と、記録している時間の長さを示す情報とから第2の時間情報を算出し、算出された前記第1の時間情報と前記第2の時間情報とに基づいて、いずれかの前記第2の音声データを選択する、ことを特徴とする。
このことにより、それぞれの音声データの時間情報を確認することによって、複数の音声データから映像データの記録開始時間と長さに合致した音声データを選択することができるという効果が得られる。
また、本発明の前記検出手段は、前記第1の音声データおよび前記第2の音声データから予め定められた周波数成分のデータを抽出し、前記第1の音声データから抽出した周波数成分のデータと、前記第2の音声データから抽出した周波数成分のデータとの比較を行い、該比較を行った結果に基づいて、前記第2の音声データの中から前記第1の音声データの予め定められたデータ範囲に対応するデータ範囲を検出する、ことを特徴とする。
このことにより、第1の音声データおよび第2の音声データの予め定められた特定の周波数成分を抽出することによって、予め判明している雑音を含む周波数成分を除いた雑音のない周波数成分を用いて対応するデータ範囲を検出することができるので、検出結果の信頼性を向上することができるという効果が得られる。
また、本発明の前記検出手段は、前記動画生成手段が前記動画データを生成する際の前記動画データの開始位置を基準とする予め定められた期間内の前記第1の音声データのデータ範囲と、前記第2の音声データのデータ範囲との相関を検出する、ことを特徴とする。
このことにより、第1の音声データの全ての期間の相関を検出することなく、相関検出に用いるデータ量を少なくすることができるので、相関検出に係わる処理速度を向上することができるという効果が得られる。
また、本発明の動画生成装置は、被写体を撮影して前記映像データを生成する撮像手段と、前記第1の音声データを生成する録音手段と、外部装置から前記第2の音声データを取得するインタフェース手段と、を更に備え、前記記憶手段は、前記撮像手段によって生成された前記映像データと、前記録音手段によって生成された前記第1の音声データとを記憶し、前記動画生成手段は、前記撮像手段によって生成された前記映像データと、前記外部装置から取得した前記第2の音声データとを同期して関連付けた動画データを生成する、ことを特徴とする。
このことにより、インタフェース手段を介して取得した外部装置からの音声データを、生成する動画データの音声データとして、映像データと同期して関連付けた動画データを生成することができるという効果が得られる。
また、本発明の動画生成方法は、映像データと第1の録音条件で録音された第1の音声データとを記憶する記憶手順と、前記第1の録音条件と異なる第2の録音条件で録音された第2の音声データの中から前記第1の音声データの予め定められたデータ範囲に対応するデータ範囲を検出する検出手順と、前記検出手順が検出した検出結果に基づいて、前記映像データと前記第2の音声データとを同期して関連付けた動画データを生成する動画生成手順と、を含むことを特徴とする。
このことにより、第1の音声データの予め定められたデータ範囲に対応する第2の音声データのデータ範囲を検出し、データ範囲の検出結果に基づいて、映像データと第2の音声データとを同期して関連付けた動画データを生成する。これにより、被写体の音声を確実に録音した動画データを生成することができるという効果が得られる。
本発明によれば、被写体の動画像を撮影する撮像装置が撮影した動画データに、別体で設けられた被写体の音声を録音する録音装置が記録した音声信号を合成して記録する動画生成装置において、録音装置が記録した音声信号の内の音声データから動画データに記録されている音声と同じ範囲の音声データを検出し、その検出した音声データを動画データ内の映像データと共に記録することによって、映像と音声がずれることなく記録することができるという効果が得られる。
本発明の実施形態による動画生成システムの概略構成の例を示した図である。 本実施形態の動画生成システムにおいて合成される音声データを記録する録音端末の概略構成を示したブロック図である。 本実施形態の動画生成システムにおける撮像装置の概略構成を示したブロック図である。 本実施形態の動画生成システムにおいて音声データの相関を検出する動作の概要を示した図である。 本実施形態の撮像装置の処理手順を示したフローチャートである。 本実施形態の動画生成システムの使用例を示した図である。 本発明の第2の実施形態による動画生成システムにおける動画処理の処理手順を示したフローチャートである。
<第1実施形態>
以下、本発明の第1の実施の形態について、図面を参照して説明する。図1は、本実施形態による動画生成システムの概略構成の例を示した図である。図1において、動画生成システムは、録音端末100、撮像装置200から構成される。また、録音端末100は、マイク101を備えている。また、撮像装置200は、マイク201、レリーズ釦202を備えている。また、録音端末100は、通信ケーブル300を介して撮像装置200にデータを転送することができる。
録音端末100は、この録音端末100が設置された環境において、マイク101によって集音された音声を内部に記録するボイスレコーダである。また、録音端末100は、記録した音声データを、通信ケーブル300を介して他の機器、すなわち、撮像装置200に転送する。なお、録音端末100は、この録音端末100単体で動作することができ、マイク101以外の構成として単体で動作するために必要な設定スイッチや表示パネルなどを備えているが、この録音端末100単体での動作のみに必要な構成は、本発明に関係しないため説明を省略する。
撮像装置200は、本実施形態の動画生成システムによって動画を撮影する撮影者によって操作され、撮影者がレリーズ釦202を押下することによって、被写体の撮影を開始、または停止するデジタル一眼レフレックスカメラである。撮像装置200は、被写体の撮影を開始すると同時にマイク201で集音した音声の記録も開始する。
なお、撮像装置200は、マイク201、レリーズ釦202以外の構成として被写体の撮影に必要な交換レンズや表示パネルなどを備え、また、単体で動作するために必要な設定スイッチなどを備えているが、本発明に関係しないため説明を省略する。
また、撮像装置200は、自撮像装置200が撮影した被写体の映像データと、通信ケーブル300を介して取得した録音端末100が記録した音声データとを関連付けた動画データを生成して記録する。
なお、撮像装置200は、取得した録音端末100が記録した音声データを関連付けた動画データを生成して記録する場合は、自撮像装置200が被写体の撮影を開始すると同時にマイク201で集音した音声の音声データは動画データの生成には用いずに、破棄する。
通信ケーブル300は、例えば、録音端末100と撮像装置200とが通信することができるユニバーサル・シリアル・バス(Universal Serial Bus:以下「USB」という)規格のケーブルである。
次に、本実施形態の録音端末100について説明する。図2は、本実施形態による動画生成システムにおいて合成される音声データを記録する録音端末100の概略構成を示したブロック図である。図2において、録音端末100は、マイク101、AD変換部110、記録部120、通信インタフェース部130、制御部140から構成される。なお、録音端末100全体の動作は、制御部140によって制御される。
AD変換部110は、マイク101が集音した音声の電気信号(音声信号)をアナログ・デジタル変換し、デジタルデータに変換された音声データを記録部120に出力する。
記録部120は、AD変換部110から入力された音声データを記録し、記録している音声データを、制御部140からの制御に従って、通信インタフェース部130に出力する。
通信インタフェース部130は、記録部120から入力された音声データを、通信規格(例えば、USB規格)に従って処理し、処理後の音声データを接続している他の機器、すなわち、撮像装置200に転送する。
次に、本実施形態の撮像装置200について説明する。図3は、本実施形態による動画生成システムにおける撮像装置200の概略構成を示したブロック図である。図3において、撮像装置200は、撮影部210、マイク201、AD変換部220、メモリ230、相関検出部240、動画生成部250、メモリカードインタフェース部260、通信インタフェース部270、制御部280から構成される。
撮影部210は、撮影者によってレリーズ釦130が押下されることによって撮影が開始されると、撮影部210内の図示しないレンズを介して入射された被写体の光束を同じく撮影部210内の図示しない光電変換素子などによって光電変換し、撮影した被写体の映像データとしてメモリ230に出力する。
AD変換部220は、撮影の開始と同時にマイク201が集音した音声の電気信号(音声信号)をアナログ・デジタル変換し、デジタルデータに変換された音声データをメモリ230に出力する。
このことによって、メモリ230には、撮像装置200が撮影した被写体の映像データと音声データとが記憶される。
通信インタフェース部270は、通信ケーブル300を介して取得した接続している他の機器、すなわち、録音端末100から転送された音声データを、通信規格(例えば、USB規格)に従って処理し、処理後の音声データをメモリ230に出力する。
なお、通信インタフェース部270に通信ケーブル300を介して転送されるデータは、音声データのみに限定されるものではなく、例えが、映像データと音声データとを含んだ動画データや、画像データであってもよい。また、通信インタフェース部270が通信ケーブル300を介して取得するデータは、1つのデータのみに限定されるものではなく、複数のデータを取得してもよい。
メモリ230は、撮像装置200が撮影した被写体の映像データと音声データとを記憶する。また、メモリ230は、録音端末100が記録し、通信ケーブル300を介して通信インタフェース部270が取得した音声データを記憶する。
相関検出部240は、メモリ230に記憶されている撮像装置200が記憶した音声データと、通信ケーブル300を介して通信インタフェース部270が取得した音声データ、すなわち、録音端末100が記録した音声データとの相関検出によって、それぞれの音声データが一致する部分を検出する。
また、相関検出部240は、相関検出によって得られた結果を、動画生成部250に出力する。この動画生成部250に出力される相関検出の結果は、例えば、撮像装置200が記憶した音声データと、取得した録音端末100が記録した音声データとに相関があるか否かを示す信号や、取得した録音端末100が記録した音声データ内で相関が検出された場所または時刻を示すデータなどが考え得られるが、本発明においては、相関検出の結果に含まれる詳細な内容に関しての規定はしない。
また、撮像装置200が撮影した被写体のデータ、または通信ケーブル300を介して通信インタフェース部270が取得したデータが、例えが、映像データと音声データとを含んだ動画データである場合、相関検出部240は、制御部280からの指示によって、動画データを映像データと音声データとに分離し、分離した音声データを用いて相関検出を行う。
また、通信ケーブル300を介して通信インタフェース部270が複数のデータを取得した場合、相関検出部240は、撮像装置200が記憶した音声データと、取得したそれぞれの音声データとの相関検出を行う。なお、複数の音声データを取得した場合は、例えば、取得した複数の音声データの中から制御部280が予め定め選択した1つの音声データとの相関検出を行うこともできる。
動画生成部250は、メモリ230に記憶されている撮像装置200が記憶した映像データと、通信ケーブル300を介して通信インタフェース部270が取得した音声データ、すなわち、録音端末100が記録した音声データとを関連付けた動画データを生成し、生成した動画データをメモリカードインタフェース部260に出力する。
なお、動画生成部250によって生成される動画データ内の映像データの開始位置における音声データのスタート位置は、相関検出部240から入力された相関検出の結果に基づいて決定される。
なお、本発明においては、動画生成部250による動画データの生成方法に関しては規定しない。
なお、通信ケーブル300を介して通信インタフェース部270が複数のデータを取得した場合、相関検出部240によって相関検出された音声データの中から制御部280によって選択された1つの音声データと撮像装置200が記憶した映像データとを関連付けた動画データを生成する。
メモリカードインタフェース部260は、動画生成部250から入力された動画データを、メモリカードに記録するために必要な処理を行って、図示しないメモリカードに記録する。
なお、本発明においては、メモリカードへの動画データの記録方法に関しては規定しない。
また、メモリカードインタフェース部260は、撮像装置200が撮影し、図示しないメモリカードに記録されている被写体の映像データと音声データとをメモリ230に出力する。
制御部280は、撮像装置200全体を制御する制御部である。また、制御部280は、撮像装置200における撮影動作、他の機器、すなわち、録音端末100との通信動作の他にも、動画データを生成する際の相関検出部240による相関検出や、動画生成部250による動画生成の制御を行う。
制御部280は、相関検出部240に相関検出の処理を行わせる前に、通信ケーブル300を介して通信インタフェース部270が取得した音声データが、撮像装置200が記憶した映像データに関連付けて記録することが可能な音声データであるか否かを確認し、関連付けて記録することが可能な音声データである場合は、相関検出部240に相関検出の処理を行わせる。制御部280によって行われる記録することが可能な音声データであるか否かの確認は、例えば、まず、取得した音声データから、該音声データの情報として記録されている音声の記録開始時刻の情報や、記録した音声の長さを示す記録時間の情報(以下、記録開始時刻の情報や、記録時間の情報を含む音声データの情報を「タイムスタンプ」という)を取得する。続いて、取得したタイムスタンプが、撮像装置200が記憶した映像データの記録開始時刻や、記録時間が含まれるか否かを判断する。
なお、本発明においては、相関検出部240に相関検出の処理を行わせる前に行う制御部280によって行われる記録することが可能な音声データであるか否かの判断処理の内容に関しては規定しない。
また、制御部280は、撮像装置200が撮影した被写体のデータ、または通信ケーブル300を介して通信インタフェース部270が取得したデータが、例えば、映像データと音声データとを含んだ動画データである場合、相関検出部240によって相関検出を開始する前に、相関検出部240に動画データを映像データと音声データとに分離する処理を行わせる。
なお、本発明においては、相関検出部240が相関検出の処理を行う前に行う動画データを映像データと音声データとに分離する処理の内容に関しては規定しない。
また、制御部280は、通信ケーブル300を介して通信インタフェース部270が複数のデータを取得した場合、相関検出部240に相関検出の処理を行わせる前または動画生成部250に動画生成の処理を行わせる前に、取得した複数の音声データの中から撮像装置200が記憶した映像データと関連付けて動画データを生成する1つの音声データを選択する。
例えば、相関検出部240に相関検出の処理を行わせる前に複数の音声データから1つの音声データを選択する場合は、例えば、上述のタイムスタンプの確認によって選択する方法が考えられる。また、例えば、動画生成部250に動画生成の処理を行わせる前に複数の音声データから1つの音声データを選択する場合は、相関検出部240による相関検出の結果に基づいて、最も相関度の高い音声データを選択する方法や、相関が検出された音声データの内、記録されている音声のレベルが最も高い音声データを選択する方法が考えられるが、本発明においては、制御部280による音声データを選択する処理の内容に関しては規定しない。
次に、本実施形態における相関検出について説明する。図4は、本実施形態の動画生成システムにおいて音声データの相関を検出する動作の概要を示した図である。図4において、上段のグラフaは、撮像装置200が被写体の撮影開始と同時にマイク201が集音し、メモリ230に記憶されている音声データ内で、予め定められた1つの周波数の音声データを示し、下段のグラフbは、通信ケーブル300を介して通信インタフェース部270が取得した音声データ、すなわち、録音端末100が記録した音声データ内で、予め定められた上段の音声データと同じ周波数の音声データを示す。
また、図4の横軸は、動画データの記録時間を示し、横軸に記載した目盛りは、記憶している動画データのフレームの区切り位置を示している。例えば、動画データのフレームレートが30フレーム/秒の動画データである場合は、1秒間に30回のフレームの区切りがあるため、図4における横軸の目盛りの間隔は、約33msとなる。また、例えば、音声データのサンプリングが32k/秒である場合、動画データの1フレーム区間、すなわち、1目盛りの間隔には、約1000個のサンプリングされた音声データが存在する。
次に、相関検出部240による音声データの相関検出の例について説明する。なお、図4においては、映像データの開始位置から予め定められた2500個のサンプリングデータを比較して、音声データのスタート位置を検出する場合について説明する。
まず、相関検出部240は、撮像装置200が記憶した映像データの開始時(タイミングt1)のグラフaの音声データと、グラフbの音声データとの差を算出し、引き続きタイミングt1からサンプリングタイミングを1つ後ろにずらしたタイミングt1+1のグラフaの音声データと、グラフbの音声データとの差を算出する。以降、同様に、サンプリングタイミングを1つ後ろにずらしてタイミングt1〜タイミングt1+2500までのグラフaの音声データと、タイミングt1〜タイミングt1+2500までのグラフbの音声データとの差を算出する。その後、算出したそれぞれのサンプリングタイミングにおける音声データの差、すなわち、2500個の音声データの差を合計し、その合計値(合計値t1)を記憶する。
続いて、タイミングt1のグラフaの音声データと、タイミングt1+1のグラフbの音声データとの差を算出し、引き続きタイミングt1+1のグラフaの音声データと、タイミングt1+2のグラフbの音声データとの差を算出する。以降、同様に、サンプリングタイミングを1つ後ろにずらしてタイミングt1〜タイミングt1+2500までのグラフaの音声データと、タイミングt1+1〜タイミングt1+2500+1までのグラフbの音声データとの差を算出する。その後、算出したそれぞれのサンプリングタイミングにおける音声データの差を合計し、その合計値(合計値t1+1)を記憶する。
続いて、タイミングt1のグラフaの音声データと、タイミングt1+2のグラフbの音声データとの差を算出し、引き続きタイミングt1+1のグラフaの音声データと、タイミングt1+3のグラフbの音声データとの差を算出する。以降、同様に、サンプリングタイミングを1つ後ろにずらしてタイミングt1〜タイミングt1+2500までのグラフaの音声データと、タイミングt1+2〜タイミングt1+2500+2までのグラフbの音声データとの差を算出する。その後、算出したそれぞれのサンプリングタイミングにおける音声データの差を合計し、その合計値(合計値t1+2)を記憶する。
以降、同様にグラフaの音声データと、グラフbの音声データとの差の算出、算出したそれぞれのサンプリングタイミングにおける音声データの差の合計値の記憶を行う。
続いて、予め定められた2500個の音声データの差の合計値(合計値t1〜合計値t1+2500)の記憶が完了した後に、記憶した音声データの差の合計値t1〜合計値t1+2500の中から、その値が最小となる値を検出する。
続いて、音声データの差の合計値が最小であるサンプリングタイミング、すなわち、タイミングt1のグラフaの音声データに対して、グラフbの音声データのサンプリングタイミングを幾つずらしたときの音声データの差の合計値が最小であったかを示すサンプリングタイミングのずらし量(図4における遅延時間c)を、相関検出部240による相関検出の結果として動画生成部250に出力する。
動画生成部250は、相関検出部240からの相関検出の結果に基づいて、撮像装置200が記憶した映像データの開始位置に対して、通信ケーブル300を介して通信インタフェース部270が取得した録音端末100が記録した音声データのスタート位置をずらした動画データを生成する。すなわち、映像データは、図4におけるタイミングt1から記録され、音声データは、図4における遅延時間cをずらしたタイミングt2以降の音声データが記録される。
このことによって、動画生成部250が生成した動画データを再生する際には、タイミングt1からの映像データと、タイミングt2からの音声データが同時に再生されることとなる。
なお、本説明の音声データの相関検出例においては、予め定められた特定の周波数の音声データを用いて相関検出を行っているが、複数の周波数帯を用いて相関検出を行うとより効果的である。すなわち、複数の周波数帯を用いて相関検出を行うことによって、例えば、記憶した音声データに電子音などの単調な繰り返しパターンがある場合の誤検出を回避することができる。
また、撮像装置200における雑音、例えば、レンズの駆動音などの予め判明している周波数帯の音声データを使用しないことで、より正確に相関検出を行うこともできる。
また、本説明の音声データの相関検出例においては、映像データの開始位置から予め定められたサンプリングデータ(2500個)を比較して、全ての音声データの差の合計値を算出した後に音声データのスタート位置を検出する場合について説明したが、本発明においては、この方法に限定しない。例えば、音声データの差の合計値を算出する毎に前回の音声データの差の合計値と今回の音声データの差の合計値とを比較して、音声データの差の合計値の最小値が検出されたときに音声データの差の合計値の算出を終了(音声データの差の合計値の最小値が検出された後に、予め定められた回数の音声データの差の合計値の算出を行ってから判断する場合も含む)することもできる。このことによって、映像データの開始位置から音声データの相関が検出されるまでの処理時間を短縮することができる。
なお、本発明においては、音声データの相関が検出される方法であれば良く、音声データの相関検出方法に関しての規定はしない。
また、グラフaの音声データと、グラフbの音声データとのそれぞれの音声データの最大値と最小値との差が大きい場合は、それぞれの音声データにゲインをかけて、最大値と最小値の範囲を同様にした後にグラフaの音声データと、グラフbの音声データとの相関を検出することによって、より容易に相関検出を行うこともできる。
また、グラフaの音声データと、グラフbの音声データとは、音声データが圧縮されていない状態であることが望ましいが、受信した音声データが圧縮されている場合は、相関検出の条件を変更することで圧縮されている音声データに対しても相関を検出することができる。例えば、変更される相関検出の条件は、相関判定条件の緩和や、サンプリングタイミングの変更などが考えられる。
次に、本実施形態の撮像装置200の処理手順について説明する。図5は、本実施形態の撮像装置200の処理手順を示したフローチャートである。
まず、動画データの生成を開始すると、制御部280は、ステップS101において、録音端末100が通信ケーブル300を介して接続されているか否かを確認し、録音端末100が接続されている場合は、ステップS102に進む。また、録音端末100が接続されていない場合は、ステップS101を繰り返して、録音端末100が接続されるのを待つ。
ステップS101において、録音端末100が接続されている場合、制御部280は、ステップS102において、メモリカードインタフェース部260を経由して図示しないメモリカード内に撮像装置200が撮影した被写体の動画ファイルが記憶されているか否かを確認し、図示しないメモリカード内に動画ファイルが記憶されている場合は、ステップS103において、図示しないメモリカードに記憶されている動画ファイルを選択する。その後、選択した動画ファイルをメモリカードインタフェース部260を介して読み出し、読み出した動画ファイルをメモリ230内に記憶する。ステップS102において、図示しないメモリカード内に動画ファイルが記憶されていない場合、または全ての動画ファイルに対する動画データの生成が完了した場合は、動画データの生成処理を終了する。
なお、ステップS103において行われる動画ファイルの選択は、図示しないメモリカード内に記憶されている動画ファイルのタイムスタンプの情報に基づいて、最も古いタイムスタンプであり、かつ動画データの生成処理が行われていない動画ファイルを制御部280が選択する。
続いて、制御部280は、ステップS104において、相関検出部240に選択した動画ファイルを映像データと音声データとに分離する処理を行わせるための指示を行う。このことにより、相関検出部240は、動画ファイルを映像データと音声データとに分離し、分離した映像データと音声データとをメモリ230に記憶する。
続いて、制御部280は、ステップS105において、メモリ230に記憶されている分離した映像データから撮影時間を算出する。ここで、撮影時間の算出方法は、例えば、映像データのタイムスタンプと映像データに記録されている撮影フレーム数から、撮像装置200が被写体を撮影した撮影開始時間と撮影終了時間とを算出する。
なお、本発明においては、制御部280による撮影時間の算出方法に関しては規定しない。
続いて、制御部280は、ステップS106において、通信ケーブル300を介して通信インタフェース部270を経由して録音端末100が記録した音声データから、ステップS105で算出した撮影開始時間と撮影終了時間との両方を含む音声データを選択する。その後、選択した音声データを通信インタフェース部270を介して取得し、取得した音声データをメモリ230内に記憶する。
なお、ステップS106において行われる音声データの選択は、録音端末100の記録部120内に記憶されている音声データのタイムスタンプと音声データに記録されているサンプリングデータ数から、接続されている録音端末100が録音した音声の録音開始時間と録音終了時間とを算出する。その後、算出した録音開始時間と録音終了時間とを、ステップS105で算出した撮影開始時間と撮影終了時間と比較することによって行う。すなわち、録音開始時間が撮影開始時間以前であり、かつ、録音終了時間が撮影終了時間以降である音声ファイルを選択する。
続いて、制御部280は、ステップS107において、選択された音声データがあるか否かを確認し、選択された音声データがある場合は、ステップS108に進む。また、選択された音声データがない場合は、ステップS102に戻って、動画ファイルの確認と選択を繰り返す。
続いて、制御部280は、ステップS108において、相関検出部240に選択した音声データのスタート位置の検出処理を行わせるための指示を行う。このことにより、相関検出部240は、選択した音声データの相関検出を行う。
続いて、制御部280は、ステップS109において、相関検出部240による相関検出によって、選択した音声データ、すなわち、録音端末100の音声データのスタート位置が検出されているか否かを判断し、音声データのスタート位置が検出されている場合は、ステップS110に進む。ステップS109において、音声データのスタート位置が検出されていない場合は、ステップS102に戻って、動画ファイルの確認と選択を繰り返す。
続いて、制御部280は、ステップS110において、動画生成部250に分離した映像データと選択した音声データとを用いて動画データの生成処理を行わせるための指示を行う。このことにより、動画生成部250は、動画データの生成を行う。
なお、ステップS110において行われる動画データの生成処理は、分離した映像データの先頭(撮影開始時間)のフレームと、相関検出部240によって検出した音声データのスタート位置とを合わせた動画データを生成する。
動画生成部250による動画データの生成が終了すると、ステップS102に戻って、次に動画データを生成する動画ファイルの確認と選択を繰り返す。ここで、次に動画データを生成する動画ファイルがない、すなわち、全ての動画ファイルに対する動画データの生成が完了した場合は、動画データの生成処理を終了する。
次に、本実施形態の動画生成システムの使用例について説明する。図6は、本実施形態の動画生成システムの使用例を示した図である。
図6は、録音端末100と撮像装置200とをそれぞれ別の人が持ち、後に説明者を撮影した映像データと、説明者の声を録音した音声データとを合成した動画データを記録する場合の例を示している。
なお、録音端末100を複数用意し、それぞれの録音端末100が録音した説明者の声を録音した音声データの中から1つの音声データを選択して合成した動画データを記録することもできる。また、複数の録音端末100が録音した音声データをステレオ音声や、5.1チャンネル音声として記録することもできるが、本発明においては、撮像装置200によるステレオ音声や5.1チャンネル音声の動画データの生成方法に関しては規定しない。
上記に述べたとおり、本発明の実施形態によれば、それぞれ別の機器である撮像装置200が撮影した被写体の映像データと、録音端末100が記録した音声データとを後の処理によって関連付けた動画データを記録することができる。このことによって、記録する音声データの音質が、通信インタフェースの性能の影響をうけることがなく、高音質で高画質な動画データを生成することができる。
<第2実施形態>
次に、本発明の第2の実施の形態として、パーソナルコンピュータを用いて動画データを生成する場合について、図面を参照して説明する。図7は、本第2の実施形態の動画生成システムにおける動画処理の処理手順を示したフローチャートである。なお、図7に示したフローチャートは、中央処理装置(CPU:Central Processing Unit)、データ記憶装置(メモリ:ROM、RAMなど)、および通信インタフェース(USBインタフェースなど)などを備えるパーソナルコンピュータ(以下、「PC」という)上で動作するプログラムであり、本第2の実施形態の動画生成システムのよって合成される映像データと音声データとを含む動画ファイルと音声ファイルは、すでに撮像装置200と録音端末100とからPC内に転送されているものとして説明を行う。
まず、動画データの生成を開始すると、PCは、ステップS201において、動画ファイルを選択し、続いてステップS202において、音声ファイルを選択する。
なお、ステップS201おいて行われる動画ファイルの選択およびステップS202において行われる音声ファイルの選択は、PC内に記憶されている動画ファイルおよび音声ファイルをPCの操作者が指定し、指定された動画ファイルおよび音声ファイルをPCが選択する。
続いて、PCは、ステップS203において、選択した動画ファイルを映像データと音声データとに分離し、分離した映像データと音声データとをPC内に記憶する。
続いて、PCは、ステップS204において、PC内に記憶されている分離した音声データと、ステップS202において選択された音声ファイルとの相関を検出し、相関が検出されたデータ範囲の音声データをステップS202において選択された音声ファイルから切り出す。また、切り出した音声データは、PC内に記憶する。
なお、本発明においては、PCによって行われる音声ファイルから音声データを切り出す処理方法に関しては規定しない。
続いて、PCは、ステップS205において、相関検出処理の結果、分離した音声データと、選択された音声ファイルとの相関が検出され、相関部分が存在、すなわち、切り出した音声データが存在するか否かを判断し、切り出した音声データが存在する場合は、ステップS206に進む。ステップS205において、切り出した音声データが存在しない場合は、ステップS207において、動画データの合成ができなかったことを表す表示をPCの操作者に表示し、動画データの生成処理を終了する。
ステップS205において、切り出した音声データが存在する場合、PCは、ステップS206において、PC内に記憶されている分離した映像データと、切り出した音声データとを用いて動画データの合成処理を行い、動画データを生成する。
続いて、PCは、ステップS208において、動画データの合成が完了したことを表す表示をPCの操作者に表示し、動画データの生成処理を終了する。
上記に述べたとおり、本発明の第2の実施形態によれば、被写体を撮影した音声データを含む動画データと、動画データに記録されている被写体の音声を録音した音声ファイルとを後の処理によって合成した動画データを記録することができる。このことによって、動画データに記録されている被写体の音声が確実に録音されている動画データを生成することができる。
上記に述べたとおり、本発明を実施するための形態によれば、録音端末100と撮像装置200とが別の機器であり、それぞれ記録された動画ファイルと音声ファイルとを合成する場合において、撮像装置200が記録した動画ファイルに含まれる音声データと、録音端末100が記録した音声データとの相関を検出することによって、生成する動画データ内の映像データと音声データのタイミングを一致させることができるので、映像と音声のずれがなく、違和感のない動画データを生成することができる。
なお、本実施形態において動画データを生成する際に関連付ける音声データは、映像データの開始位置における音声データのスタート位置のみの相関を検出する例で説明したが、動画データの途中において予め定められたフレーム間隔毎に、撮像装置200が記憶した音声データと、録音端末100が記録した音声データとの相関を検出して、映像データと音声データのタイミングのずれや誤差を補正する構成とすることもできる。
また、第1の実施形態における撮像装置200と録音端末100との接続は、USB規格による有線のインタフェースの例で説明したが、本発明においては、撮像装置200と録音端末100との接続におけるインタフェースの規格に関しての限定はしない。例えば、その他の有線インタフェースであるIEEE1394規格を本発明のインタフェース方法として適用することもできる。また、有線インタフェースに限らず、無線インタフェースである無線LAN規格を本発明のインタフェース方法として適用することもできる。
また、第1の実施形態においは、動画データの生成処理を撮像装置200内で行う構成で説明したが、本発明においては、動画データの生成処理を行う装置に関しての限定はしない。例えば、撮像装置200と外部記憶装置(データストレージ装置)とを接続して撮像装置200が撮影した動画ファイルを外部記憶装置に転送し、その後、録音端末100が記録した音声ファイルを外部記憶装置に転送後に、外部記憶装置が動画データの生成処理を行う構成とすることもできる。
また、第1の実施形態において、動画データを映像データと音声データとに分離する処理は、制御部280が指示して相関検出部240が実行する構成で説明したが、本発明においては、動画データを映像データと音声データとに分離する処理を制御部280が実行する構成とすることもできる。
また、本実施形態においては、動画データを生成する場合を説明したが、動画データの生成に限定されるものではなく、例えば、静止画像の連続撮影において音声データを付加する場合にも本発明を適用することができる。
なお、本実施形態において撮像装置200は、一眼レフレックスカメラの例で説明したが、本発明においては、被写体を撮影することができる構成であれば良く、カメラの種類などに関しての規定はしない。
また、本実施形態において録音端末100は、ボイスレコーダの例で説明したが、本発明においては、音声を記録することができる構成であれば良く、音声記録装置の種類などに関しての規定はしない。
以上、本発明の実施形態について、図面を参照して説明してきたが、具体的な構成はこの実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲においての種々の変更も含まれる。
100・・・録音端末、101・・・マイク、110・・・AD変換部、120・・・記録部、130・・・通信インタフェース部、200・・・撮像装置、201・・・マイク(録音手段)、202・・・レリーズ釦、210・・・撮影部(撮像手段)、220・・・AD変換部、230・・・メモリ(記憶手段)、240・・・相関検出部(検出手段,音声分離手段)、250・・・動画生成部(動画生成手段)、260・・・メモリカードインタフェース部、270・・・通信インタフェース部(インタフェース手段)、280・・・制御部(音声選択手段)、300・・・通信ケーブル

Claims (9)

  1. 映像データと第1の録音条件で録音された第1の音声データとを記憶する記憶手段と、
    前記第1の録音条件と異なる第2の録音条件で録音された第2の音声データの中から前記第1の音声データの予め定められたデータ範囲に対応するデータ範囲を検出する検出手段と、
    前記検出手段が検出した検出結果に基づいて、前記映像データと前記第2の音声データとを同期して関連付けた動画データを生成する動画生成手段と、
    を備えることを特徴とする動画生成装置。
  2. 前記映像データと前記第1の音声データとを含む第2の動画データから前記映像データと前記第1の音声データとを分離する音声分離手段、
    を更に備えることを特徴とする請求項1に記載の動画生成装置。
  3. 前記検出手段は、
    前記第1の音声データと前記第2の音声データとの相関を検出し、該相関を検出した結果に基づいて、前記第2の音声データの中から前記第1の音声データの予め定められたデータ範囲に対応するデータ範囲を検出する、
    ことを特徴とする請求項1に記載の動画生成装置。
  4. 前記第1の録音条件と異なる前記第2の録音条件で録音された複数の前記第2の音声データから、いずれかの前記第2の音声データを選択する音声選択手段、
    を更に備え、
    前記検出手段は、
    前記音声選択手段によって選択された前記第2の音声データの中から前記第1の音声データの予め定められたデータ範囲に対応するデータ範囲を検出する、
    ことを特徴とする請求項1に記載の動画生成装置。
  5. 前記音声選択手段は、
    前記映像データまたは前記第1の音声データに含まれる記録開始時間を示す情報と、記録している時間の長さを示す情報とから第1の時間情報を算出し、前記複数の音声データのそれぞれに含まれる音声の記録開始時間を示す情報と、記録している時間の長さを示す情報とから第2の時間情報を算出し、算出された前記第1の時間情報と前記第2の時間情報とに基づいて、いずれかの前記第2の音声データを選択する、
    ことを特徴とする請求項4に記載の動画生成装置。
  6. 前記検出手段は、
    前記第1の音声データおよび前記第2の音声データから予め定められた周波数成分のデータを抽出し、前記第1の音声データから抽出した周波数成分のデータと、前記第2の音声データから抽出した周波数成分のデータとの比較を行い、該比較を行った結果に基づいて、前記第2の音声データの中から前記第1の音声データの予め定められたデータ範囲に対応するデータ範囲を検出する、
    ことを特徴とする請求項1に記載の動画生成装置。
  7. 前記検出手段は、
    前記動画生成手段が前記動画データを生成する際の前記動画データの開始位置を基準とする予め定められた期間内の前記第1の音声データのデータ範囲と、前記第2の音声データのデータ範囲との相関を検出する、
    ことを特徴とする請求項3に記載の動画生成装置。
  8. 被写体を撮影して前記映像データを生成する撮像手段と、
    前記第1の音声データを生成する録音手段と、
    外部装置から前記第2の音声データを取得するインタフェース手段と、
    を更に備え、
    前記記憶手段は、
    前記撮像手段によって生成された前記映像データと、前記録音手段によって生成された前記第1の音声データとを記憶し、
    前記動画生成手段は、
    前記撮像手段によって生成された前記映像データと、前記外部装置から取得した前記第2の音声データとを同期して関連付けた動画データを生成する、
    ことを特徴とする請求項1に記載の動画生成装置。
  9. 映像データと第1の録音条件で録音された第1の音声データとを記憶する記憶手順と、
    前記第1の録音条件と異なる第2の録音条件で録音された第2の音声データの中から前記第1の音声データの予め定められたデータ範囲に対応するデータ範囲を検出する検出手順と、
    前記検出手順が検出した検出結果に基づいて、前記映像データと前記第2の音声データとを同期して関連付けた動画データを生成する動画生成手順と、
    を含むことを特徴とする動画生成方法。
JP2009011152A 2009-01-21 2009-01-21 動画生成装置および動画生成方法 Withdrawn JP2010171626A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009011152A JP2010171626A (ja) 2009-01-21 2009-01-21 動画生成装置および動画生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009011152A JP2010171626A (ja) 2009-01-21 2009-01-21 動画生成装置および動画生成方法

Publications (1)

Publication Number Publication Date
JP2010171626A true JP2010171626A (ja) 2010-08-05

Family

ID=42703332

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009011152A Withdrawn JP2010171626A (ja) 2009-01-21 2009-01-21 動画生成装置および動画生成方法

Country Status (1)

Country Link
JP (1) JP2010171626A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016119561A (ja) * 2014-12-19 2016-06-30 ティアック株式会社 無線lan機能を備えた携帯機器及び記録システム
US10250927B2 (en) 2014-01-31 2019-04-02 Interdigital Ce Patent Holdings Method and apparatus for synchronizing playbacks at two electronic devices
WO2024142608A1 (ja) * 2022-12-27 2024-07-04 キヤノン株式会社 ワイヤレスマイク、制御方法およびプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10250927B2 (en) 2014-01-31 2019-04-02 Interdigital Ce Patent Holdings Method and apparatus for synchronizing playbacks at two electronic devices
JP2016119561A (ja) * 2014-12-19 2016-06-30 ティアック株式会社 無線lan機能を備えた携帯機器及び記録システム
WO2024142608A1 (ja) * 2022-12-27 2024-07-04 キヤノン株式会社 ワイヤレスマイク、制御方法およびプログラム

Similar Documents

Publication Publication Date Title
JP5801026B2 (ja) 画像音響処理装置及び撮像装置
EP2161928B1 (en) Image processing device, image processing method, and program
KR101247645B1 (ko) 표시 제어 장치, 표시 제어 방법, 및 기록 매체
JP4535114B2 (ja) 撮像装置および撮像方法、表示制御装置および表示制御方法、並びに、プログラム
KR101753715B1 (ko) 촬영장치 및 이를 이용한 촬영방법
JP2019114914A (ja) 撮像装置、その制御方法、プログラムならびに撮像システム
JP2010171625A (ja) 撮像装置、録音装置、および動画撮影システム
JP4748075B2 (ja) 画像同期システム及び画像同期方法
CN107592452B (zh) 一种全景音视频采集设备及方法
US12167106B2 (en) Image capture apparatus, control method therefor, image processing apparatus, and image processing system
JP2012100216A (ja) カメラおよび動画撮影プログラム
JP2015053741A (ja) 画像再生装置
JP2008048374A (ja) ビデオカメラ装置
JP2007299297A (ja) 画像合成装置およびその制御方法
JP2010171626A (ja) 動画生成装置および動画生成方法
JP2009130767A (ja) 信号処理装置
JP5528856B2 (ja) 撮影機器
JP2009010903A (ja) 撮像装置及び撮像方法
JP2011120308A (ja) 画像同期システム及び画像同期方法
JP2011120165A (ja) 撮像装置
CN109257544B (zh) 图像记录装置、图像记录方法以及记录介质
JP2011087203A (ja) 撮像装置
JP2011188055A (ja) 撮像装置
KR20030090889A (ko) 디지털 카메라 일체형 휴대용 단말기의 확대 영상 촬영방법 및 장치
US9571717B2 (en) Imaging device, imaging system, imaging method, and computer-readable recording medium

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20120403