JP4923517B2 - Imaging device, imaging method, and semiconductor device - Google Patents
Imaging device, imaging method, and semiconductor device Download PDFInfo
- Publication number
- JP4923517B2 JP4923517B2 JP2005313490A JP2005313490A JP4923517B2 JP 4923517 B2 JP4923517 B2 JP 4923517B2 JP 2005313490 A JP2005313490 A JP 2005313490A JP 2005313490 A JP2005313490 A JP 2005313490A JP 4923517 B2 JP4923517 B2 JP 4923517B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- information
- feature amount
- audio
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Television Signal Processing For Recording (AREA)
- Studio Devices (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
Description
本発明は撮像装置、撮像方法、および半導体装置に関し、特に、撮像装置を用いた撮影により得られたオーディオビデオデータに対して編集点を設定するデータ処理の改良に関するものである。 The present invention relates to an imaging device , an imaging method, and a semiconductor device , and more particularly to an improvement in data processing for setting an edit point for audio video data obtained by photographing using an imaging device.
近年、被写体を撮影してデジタル映像データを符号化して記録媒体に記録するデジタル撮像装置が普及し、一般家庭でも大量のデジタル映像データを扱う機会が増えてきた。 In recent years, digital imaging apparatuses that photograph a subject, encode digital video data, and record the data on a recording medium have become widespread, and opportunities for handling a large amount of digital video data have increased even in general households.
ところが、一度撮影した映像は、編集してまとめておきたいところではあるが、編集のスタートポイントを探したりするのが面倒である。例えば、運動会や結婚式などで撮影した映像データは、一旦、記録媒体に記録するものの、その編集が面倒であるなどの理由で、一度も見ずに放置してしまっているという状況も考えられる。 However, once you shoot the video, you want to edit it and put it together, but it is troublesome to find the starting point of editing. For example, video data taken at an athletic meet or wedding may be temporarily recorded on a recording medium, but may be left unattended for reasons such as troublesome editing. .
また、編集のスタートポイントを見つけても、このスタートポイントに相当するピクチャが、予測符号化処理における画面間予測ピクチャとなっているため、開始位置として容易に使用できないなどの課題もある。 Even when the editing start point is found, the picture corresponding to the start point is an inter-screen prediction picture in the predictive coding process, and thus cannot be easily used as a start position.
このように従来の撮像装置で撮影した映像データは、その重要な部分のみを簡単に視聴したり、記録媒体に残しておくようにしたりするには、面倒な編集作業を必要とするものであった。 As described above, the video data shot by the conventional imaging device requires troublesome editing work in order to easily view only the important part or leave it on the recording medium. It was.
ところで、特開2003−299010号公報には、映像コンテンツ編集支援システムが開示されており、このシステムは、画像を撮影して映像コンテンツデータを記録する撮像装置と、該撮像装置での撮影により得られた映像コンテンツデータをネットワークなどを介してリアルタイムで受信して表示する編集者端末装置とを有している。 By the way, Japanese Patent Laid-Open No. 2003-299010 discloses a video content editing support system. This system captures an image and records video content data, and obtains it by shooting with the imaging device. And an editor terminal device for receiving and displaying the received video content data in real time via a network or the like.
この編集支援システムの撮像装置は、ユーザ操作などに基づいて電子マークデータを発生する電子マーク発生部と、発生した電子マークデータを、撮影により得られた映像コンテンツデータにそのタイムコードと関連付けて記述する電子マーク挿入部とを有するものである。また、上記編集支援システムの編集者端末装置は、撮像装置からの電子マークデータに基づいて電子マークリストデータを作成するリスト作成部と、撮像装置からの映像コンテンツデータを表示する表示部とを有し、該表示部に、電子マークデータに対応するタイミングに同期した映像コンテンツデータの画像を表示するものである。 An imaging device of this editing support system includes an electronic mark generator that generates electronic mark data based on user operations and the like, and describes the generated electronic mark data in association with the time code of video content data obtained by shooting And an electronic mark insertion portion. The editor terminal device of the editing support system includes a list creation unit that creates electronic mark list data based on the electronic mark data from the imaging device, and a display unit that displays video content data from the imaging device. The video content data image synchronized with the timing corresponding to the electronic mark data is displayed on the display unit.
このような映像コンテンツ編集支援システムでは、撮影中にユーザ操作により、被写体の撮像データである映像コンテンツデータに電子マークデータを付加することにより、撮像により得られた映像コンテンツデータを、パーソナルコンピュータなどの編集者端末装置で電子マークデータに基づいて自動編集されるものとすることができる。
ところが、上記文献記載の映像コンテンツ編集支援システムでは、撮影後の編集作業が自動で行われるようにするには、撮影中に、編集位置を示す電子マークデータを映像コンテンツデータに付加しておく必要があり、撮影時には、編集して残すべきと思われる重要な撮影部分にマーカを付加するといったわずらわしい操作を行わなければならないという問題がある。 However, in the video content editing support system described in the above document, electronic mark data indicating the editing position needs to be added to the video content data during shooting in order to automatically perform editing after shooting. When shooting, there is a problem that it is necessary to perform troublesome operations such as adding a marker to an important shooting part that should be edited and left.
本発明は、上記のような従来の問題点を解決するためになされたもので、撮影者にとって重要と思われる撮影部分を、自動で、あるいはガイダンスに対する簡単な選択操作により編集可能とする撮像装置、撮像方法、および半導体装置を得ることを目的とする。 The present invention has been made in order to solve the above-described conventional problems, and enables an imaging unit that is important for a photographer to be edited automatically or by a simple selection operation for guidance. An object is to obtain an imaging method and a semiconductor device .
本願の請求項1に係る発明は、被写体の撮影により画像情報及び音声情報を取得して、該画像情報及び音声情報を含むオーディオビデオストリームを記録する撮像装置であって、被写体を撮像して画像信号を出力する撮像部と、上記被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理部と、音声を取得して音声信号を出力する音声取得部と、上記音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理部と、上記画像特徴量あるいは音声特徴量が所定の閾値よりも大きい場合に、上記画像あるいは音声が変化した撮影タイミングが編集点として妥当であると判定する特徴量判定部と、該編集点として妥当であると判定された撮影タイミングを示す編集点情報を生成する情報生成部とを備え、上記画像情報、音声情報、及び編集点情報を含むオーディオビデオストリームを記録媒体に格納し、さらに、上記情報生成部は、上記画像処理部に符号化前の画像情報であるバッファデータが保持されているか否かを判定し、該符号化前のバッファデータが保持されている場合には、上記編集点を、上記画像、音声、あるいは撮影状態が変化した撮影タイミングに対応するピクチャに設定し、該符号化前のバッファデータが保持されていない場合には、上記編集点を、上記画像処理部により画像信号を符号化して得られたストリームにおける、上記画像、あるいは音声が変化した撮影タイミングに最も近い、ランダムアクセスの単位であるVOBユニットの先頭ピクチャに設定し、上記画像処理部は、上記符号化前のバッファデータが上記画像処理部に保持されている場合には、上記編集点に対応するピクチャが、VOBユニットの先頭ピクチャとなるようVOBユニットを形成する、ものである。
The invention according to
本願の請求項2に係る発明は、請求項1記載の撮像装置において、撮影状態を示す固有識別情報を取得する固有識別情報取得部と、取得した固有識別情報に信号処理を施して、撮影状態の変化の特徴を示す固有特徴量を抽出する固有識別情報処理部とを備え、上記特徴量判定部は、上記画像特徴量あるいは音声特徴量あるいは固有特徴量が所定の閾値より大きい場合に、上記画像、音声、あるいは撮影状態が変化した撮影タイミングが編集点として妥当であると判定する、ものである。
The invention according to
本願の請求項3に係る発明は、請求項2記載の撮像装置において、上記固有特徴量を、撮影中に生じた撮影者の生理変化の大きさ、または撮影者の操作による調整の大きさを示すものとした、ものである。
The invention according to
本願の請求項4に係る発明は、請求項3記載の撮像装置において、上記撮影中に生じた撮影者の生理変化は、撮影者の発汗量の変化、α波の変化、まばたきの回数変化、瞳孔の変化、及び脈拍の変化のうちの少なくとも1つであり、上記固有識別情報取得部は、上記撮影者の生理変化を測定する、該生理変化の種類に応じたセンサを有する、ものである。 According to a fourth aspect of the present invention, in the imaging device according to the third aspect, the photographer's physiological changes that occurred during the photographing are a change in the amount of sweating of the photographer, a change in α wave, a change in the number of blinks It is at least one of a change in the pupil and a change in the pulse, and the unique identification information acquisition unit has a sensor according to the type of the physiological change for measuring the physiological change of the photographer. .
本願の請求項5に係る発明は、請求項1記載の撮像装置において、上記画像処理部は、被写体の撮像により得られた画像信号に対して、符号化の対象となるピクチャを、符号化済みのピクチャを参照して予測符号化する画面間予測符号化処理を施し、上記画像特徴量を、該画面間予測符号化処理で用いる、画像の動きの大きさを示す動きベクトルに基づいて抽出し、上記音声処理部は、音声の取得により得られた音声信号に対して、上記画像信号に対する符号化処理に対応した符号化処理を施し、上記情報生成部は、上記編集点として妥当であると判定された撮影タイミングに基づいて、画像信号の符号化により得られた画像ストリームにおける特定のピクチャを上記編集点に設定する、ものである。
The invention according to
本願の請求項6に係る発明は、請求項1記載の撮像装置において、上記音声処理部は、上記音声特徴量を、音声信号の変化の大きさに基づいて抽出する、ものである。
The invention according to
本願の請求項7に係る発明は、請求項2記載の撮像装置において、ユーザのマニュアル操作信号に基づいて、上記画像特徴量あるいは音声特徴量、並びに上記固有特徴量のそれぞれに対する閾値レベルを設定する制御部を有し、上記特徴量判定部は、上記各特徴量を、対応する、上記制御部で設定された閾値レベルに基づいて判定して、上記画像、音声、あるいは撮影状態が変化した撮影タイミングが編集点として妥当であるか否かを決定する、ものである。 According to a seventh aspect of the present invention, in the imaging device according to the second aspect, a threshold level is set for each of the image feature amount or the sound feature amount and the unique feature amount based on a user manual operation signal. A control unit, wherein the feature amount determination unit determines each feature amount based on a corresponding threshold level set by the control unit, and the image, sound, or shooting state in which the shooting state is changed This is to determine whether the timing is valid as an edit point.
本願の請求項8に係る発明は、請求項2記載の撮像装置において、複数のシナリオのそれぞれと、上記画像特徴量あるいは音声特徴量、並びに固有特徴量の各々に対する閾値レベルの組合せとの対応関係を示すテーブル情報を保持し、ユーザのマニュアル操作により指定されたシナリオと、上記テーブル情報とに基づいて、上記各種特徴量の閾値レベルを設定する制御部を有し、上記特徴量判定部は、上記各特徴量を、対応する、上記制御部で設定された閾値レベルに基づいて判定して、上記画像、音声、あるいは撮影状態が変化した撮影タイミングが編集点として妥当であるか否かを決定する、ものである。
The invention according to claim 8 of the present application is the imaging device according to
本願の請求項9に係る発明は、請求項8記載の撮像装置において、上記テーブル情報を、ネットワーク上の情報端末からダウンロードして取得した情報とした、ものである。 The invention according to claim 9 of the present application is the imaging apparatus according to claim 8, wherein the table information is information obtained by downloading from an information terminal on a network.
本願の請求項10に係る発明は、請求項1記載の撮像装置において、上記情報生成部は、上記編集点を、画像、あるいは音声に変化を与えるイベントが発生した時点から、実際に画像、あるいは音声が変化するまでの遅延時間に応じた撮影タイミングに設定する、ものである。
The invention according to
本願の請求項11に係る発明は、被写体の撮影により画像情報及び音声情報を取得して、該画像情報及び音声情報を含むオーディオビデオストリームを記録する撮像装置であって、被写体を撮像して画像信号を出力する撮像部と、上記被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理部と、音声を取得して音声信号を出力する音声取得部と、上記音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理部と、上記画像特徴量あるいは音声特徴量が所定の閾値より大きい場合に、上記画像あるいは音声が変化した撮影タイミングが編集点として妥当であると判定する特徴量判定部と、該編集点として妥当であると判定された撮影タイミングを示す編集点情報を生成する情報生成部とを備え、上記画像情報、音声情報、及び編集点情報を含むオーディオビデオストリームを記録媒体に格納し、さらに、上記情報生成部は、上記画像処理部に符号化前の画像情報であるバッファデータが保持されているか否かを判定し、該符号化前のバッファデータが保持されている場合には、上記編集点を、上記画像、あるいは音声が変化した撮影タイミングに対応するピクチャに設定し、該符号化前のバッファデータが保持されていない場合には、上記画像処理部での符号化処理に利用可能な残り時間と、再符号化に要する時間とを比較判定し、該再符号化に要する時間が上記画像処理部での符号化処理に利用可能な残り時間を超えている場合は、上記編集点を、上記画像処理部により画像信号を符号化して得られた画像ストリームにおける、上記画像、あるいは音声が変化した撮影タイミングに最も近い、ランダムアクセスの単位であるVOBユニットの先頭ピクチャに設定し、上記再符号化に要する時間が上記画像処理部での符号化処理に利用可能な残り時間を超えていない場合は、上記画像ストリームの再符号化を画像処理部に指令し、上記画像処理部は、上記符号化前のバッファデータが保持されている場合には、上記編集点に対応するピクチャが、VOBユニットの先頭ピクチャとなるようVOBユニットを形成し、上記符号化前のバッファデータが保持されておらず、かつ上記再符号化に要する時間が上記画像処理部での符号化処理に利用可能な残り時間を超えていない場合は、上記画像ストリームを、上記編集点に対応するピクチャが、VOBユニットの先頭に位置するIピクチャとなるよう再符号化する、ものである。
The invention according to
本願の請求項12に係る発明は、請求項1または11記載の撮像装置において、上記画像、あるいは音声に変化を与えるイベントが発生した時刻を、上記編集点としてオーディオビデオストリームに記録する、ものである。 According to a twelfth aspect of the present invention, in the imaging apparatus according to the first or eleventh aspect , the time at which an event that changes the image or the sound occurs is recorded in the audio video stream as the edit point. is there.
本願の請求項13に係る発明は、請求項12記載の撮像装置において、上記イベントの発生時刻を、再生条件を示すプレイリストとして上記オーディオビデオストリームに記録する、ものである。 According to a thirteenth aspect of the present invention, in the imaging device according to the twelfth aspect , the occurrence time of the event is recorded in the audio video stream as a play list indicating a reproduction condition.
本願の請求項14に係る発明は、請求項12記載の撮像装置において、上記編集点が、画像、あるいは音声のいずれの要因によるものであるかを示す情報を、上記オーディオビデオストリームに埋め込む、ものである。 According to a fourteenth aspect of the present invention, in the imaging device according to the twelfth aspect, information indicating whether the edit point is caused by an image or a sound is embedded in the audio video stream. It is.
本願の請求項15に係る発明は、請求項1または11記載の撮像装置において、上記情報生成部は、上記画像、あるいは音声に変化を与えるイベントが発生した時刻に対応するピクチャを、編集時のサムネイル表示に用いるシーケンス外ピクチャとして上記オーディオビデオストリームに埋め込む、ものである。 According to a fifteenth aspect of the present invention, in the imaging device according to the first or eleventh aspect , the information generation unit is configured to edit a picture corresponding to a time at which an event that changes the image or the sound occurs at the time of editing. It is embedded in the audio video stream as an out-of-sequence picture used for thumbnail display.
本願の請求項16に係る発明は、被写体の撮影により画像情報及び音声情報を取得して、該画像情報及び音声情報を含むオーディオビデオストリームを記録する撮像方法であって、 被写体を撮像して画像信号を出力する撮像ステップと、上記被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理ステップと、音声を取得して音声信号を出力する音声取得ステップと、上記音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理ステップと、上記画像特徴量あるいは音声特徴量が所定の閾値よりも大きい場合に、上記画像あるいは音声が変化した撮影タイミングが編集点として妥当であると判定する特徴量判定ステップと、該編集点として妥当であると判定された撮影タイミングを示す編集点情報を生成する情報生成ステップと、上記画像情報、音声情報、及び編集点情報を含むオーディオビデオストリームを記録媒体に格納するステップとを含み、さらに、上記情報生成ステップは、上記画像処理ステップを実行する画像処理部に符号化前の画像情報であるバッファデータが保持されているか否かを判定し、該符号化前のバッファデータが保持されている場合には、上記編集点を、上記画像、音声、あるいは撮影状態が変化した撮影タイミングに対応するピクチャに設定し、該符号化前のバッファデータが保持されていない場合には、上記編集点を、上記画像処理部により画像信号を符号化して得られたストリームにおける、上記画像、あるいは音声が変化した撮影タイミングに最も近い、ランダムアクセスの単位であるVOBユニットの先頭ピクチャに設定し、上記画像処理ステップは、上記符号化前のバッファデータが上記画像処理部に保持されている場合には、上記編集点に対応するピクチャが、VOBユニットの先頭ピクチャとなるようVOBユニットを形成する、ものである。 The invention according to claim 16 of the present application is an imaging method for acquiring image information and audio information by photographing a subject and recording an audio video stream including the image information and audio information. An imaging step for outputting a signal, an image processing step for performing signal processing on the image signal obtained by imaging the subject, and extracting image information including an image feature amount indicating a feature of an image change, and acquiring sound A voice acquisition step for outputting a voice signal, and a voice processing step for performing signal processing on the voice signal obtained by the voice acquisition to extract voice information including a voice feature amount indicating a feature of voice change; When the image feature amount or the sound feature amount is larger than a predetermined threshold, it is determined that the shooting timing at which the image or sound has changed is appropriate as the editing point. A feature amount determination step to be determined, an information generation step for generating edit point information indicating a photographing timing determined to be appropriate as the edit point, and an audio video stream including the image information, audio information, and edit point information The information generating step determines whether or not buffer data that is image information before encoding is held in the image processing unit that executes the image processing step. If the buffer data before encoding is held, the editing point is set to the picture corresponding to the image, audio, or shooting timing when the shooting state has changed, and the buffer data before encoding is set. Is not held, the edit point is the stream in the stream obtained by encoding the image signal by the image processing unit. Set to the first picture of the VOB unit, which is the unit of random access, closest to the shooting timing at which the image or sound has changed, and the image processing step stores the buffer data before encoding in the image processing unit. If so, the VOB unit is formed so that the picture corresponding to the edit point becomes the first picture of the VOB unit.
本願の請求項17に係る発明は、被写体の撮影により画像情報及び音声情報を取得して、該画像情報及び音声情報を含むオーディオビデオストリームを記録する半導体装置であって、上記被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理部と、音声を取得して音声信号を出力する音声取得部と、上記音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理部と、上記画像特徴量あるいは音声特徴量が所定の閾値よりも大きい場合に、上記画像あるいは音声が変化した撮影タイミングが編集点として妥当であると判定する特徴量判定部と、該編集点として妥当であると判定された撮影タイミングを示す編集点情報を生成する情報生成部とを備え、上記画像情報、音声情報、及び編集点情報を含むオーディオビデオストリームを記録媒体に格納し、さらに、上記情報生成部は、上記画像処理部に符号化前の画像情報であるバッファデータが保持されているか否かを判定し、該符号化前のバッファデータが保持されている場合には、上記編集点を、上記画像、音声、あるいは撮影状態が変化した撮影タイミングに対応するピクチャに設定し、該符号化前のバッファデータが保持されていない場合には、上記編集点を、上記画像処理部により画像信号を符号化して得られたストリームにおける、上記画像、あるいは音声が変化した撮影タイミングに最も近い、ランダムアクセスの単位であるVOBユニットの先頭ピクチャに設定し、上記画像処理部は、上記符号化前のバッファデータが上記画像処理部に保持されている場合には、上記編集点に対応するピクチャが、VOBユニットの先頭ピクチャとなるようVOBユニットを形成する、ものである。 The invention according to claim 17 of the present application is a semiconductor device that acquires image information and audio information by photographing a subject and records an audio video stream including the image information and audio information, and is obtained by imaging the subject. An image processing unit that performs signal processing on the received image signal to extract image information including an image feature amount indicating a change feature of the image, an audio acquisition unit that acquires audio and outputs an audio signal, and the audio A voice processing unit that performs signal processing on the voice signal obtained by acquiring the voice information including the voice feature quantity indicating the feature of the voice change, and the image feature quantity or the voice feature quantity is greater than a predetermined threshold value. when is large, the characteristic amount determination unit for determining a photographing timing of the image or voice has changed is valid for editing point, shot is determined to be appropriate as the edit point in Thailand And an information generation unit that generates an edit point information indicating the ring, and stores the image information, audio information, and the audio video stream including an edit point information on a recording medium, further, the information generating unit, the image processing Whether or not buffer data that is image information before encoding is held, and if the buffer data before encoding is held, the edit point is set to the image, audio, or When the picture corresponding to the shooting timing at which the shooting state has changed is set and the buffer data before encoding is not held, the editing point is obtained by encoding the image signal by the image processing unit. Set the first picture of the VOB unit, which is the unit of random access, closest to the shooting timing at which the image or sound changes in the stream. Image processing unit, if the coding buffer before the data is held in the image processing section, a picture corresponding to the edit point, to form a VOB unit to be a head picture VOB unit, stuff It is.
本願請求項1の発明によれば、被写体の撮影により画像情報及び音声情報を取得して、該画像情報及び音声情報を含むオーディオビデオストリームを記録する撮像装置であって、被写体を撮像して画像信号を出力する撮像部と、上記被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理部と、音声を取得して音声信号を出力する音声取得部と、上記音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理部と、上記画像特徴量あるいは音声特徴量が所定の閾値よりも大きい場合に、上記画像あるいは音声が変化した撮影タイミングが編集点として妥当であると判定する特徴量判定部と、該編集点として妥当であると判定された撮影タイミングを示す編集点情報を生成する情報生成部とを備え、上記画像情報、音声情報、及び編集点情報を含むオーディオビデオストリームを記録媒体に格納し、さらに、上記情報生成部は、上記画像処理部に符号化前の画像情報であるバッファデータが保持されているか否かを判定し、該符号化前のバッファデータが保持されている場合には、上記編集点を、上記画像、音声、あるいは撮影状態が変化した撮影タイミングに対応するピクチャに設定し、該符号化前のバッファデータが保持されていない場合には、上記編集点を、上記画像処理部により画像信号を符号化して得られたストリームにおける、上記画像、あるいは音声が変化した撮影タイミングに最も近い、ランダムアクセスの単位であるVOBユニットの先頭ピクチャに設定し、上記画像処理部は、上記符号化前のバッファデータが上記画像処理部に保持されている場合には、上記編集点に対応するピクチャが、VOBユニットの先頭ピクチャとなるようVOBユニットを形成するものとしたので、符号化前のバッファデータがある場合に、編集点を正確に設定し、符号化前のバッファデータがない場合に、編集点を簡単に設定することができ、撮影により得られたオーディオビデオストリームの、撮影者にとって重要と思われる部分を、自動であるいはガイダンスに対する簡単な選択操作により編集することができる。 According to the first aspect of the present invention, there is provided an imaging apparatus that acquires image information and audio information by photographing a subject and records an audio video stream including the image information and audio information. An image capturing unit that outputs a signal, an image processing unit that performs image processing on the image signal obtained by capturing the subject and extracts image information including image feature amounts indicating the characteristics of image change, and obtains sound A voice acquisition unit that outputs a voice signal, a voice processing unit that performs signal processing on the voice signal obtained by the voice acquisition, and extracts voice information including a voice feature amount indicating a feature of voice change; , when the image feature amount or the audio feature amount is greater than a predetermined threshold value, the characteristic amount determination unit for determining a photographing timing of the image or voice has changed is valid for editing point, knitted And an information generation unit that generates an edit point information indicating a photographing timing is determined to be appropriate as a point, stored in a recording medium an audio video stream including the image information, audio information, and an editing point information, further The information generation unit determines whether or not buffer data that is image information before encoding is held in the image processing unit, and when the buffer data before encoding is held, When the edit point is set to a picture corresponding to the image, sound, or shooting timing when the shooting state has changed, and the buffer data before encoding is not held, the edit point is set to the image processing unit. This is the unit of random access that is closest to the shooting timing at which the image or sound changes in the stream obtained by encoding the image signal by If the pre-encoding buffer data is held in the image processing unit, the picture processing unit sets the picture corresponding to the editing point as the first picture of the VOB unit. The VOB unit is formed so that the edit point is accurately set when there is buffer data before encoding, and the edit point is easily set when there is no buffer data before encoding. The portion of the audio / video stream obtained by shooting can be edited automatically or by a simple selection operation for guidance.
本願請求項2の発明によれば、請求項1記載の撮像装置において、撮影状態を示す固有識別情報を取得する固有識別情報取得部と、取得した固有識別情報に信号処理を施して、撮影状態の変化の特徴を示す固有特徴量を抽出する固有識別情報処理部とを備え、上記特徴量判定部は、上記画像特徴量あるいは音声特徴量あるいは固有特徴量が所定の閾値より大きい場合に、上記画像、音声、あるいは撮影状態が変化した撮影タイミングが編集点として妥当であると判定するものとしたので、撮影状態が大きく変化した撮影タイミングを編集点として設定することができる。 According to the second aspect of the present invention, in the imaging apparatus according to the first aspect, the unique identification information acquisition unit that acquires the unique identification information indicating the shooting state, and the acquired unique identification information are subjected to signal processing to obtain the shooting state. A unique identification information processing unit that extracts a unique feature amount indicating a feature of the change, and the feature amount determination unit, when the image feature amount, the audio feature amount, or the unique feature amount is larger than a predetermined threshold, Since it is determined that the shooting timing at which the image, sound, or shooting state has changed is appropriate as the editing point, the shooting timing at which the shooting state has greatly changed can be set as the editing point.
本願請求項3の発明によれば、請求項2記載の撮像装置において、上記固有特徴量を、撮影中に生じた撮影者の生理変化の大きさ、あるいは撮影者の操作による調整の大きさを示すものとしたので、撮影者が無意識で撮像装置を操作した撮影タイミングや、撮影者が意識を集中したり興奮したりした撮影タイミングを、編集点として設定することができるという効果がある。 According to a third aspect of the present invention, in the imaging apparatus according to the second aspect, the characteristic feature amount is determined by a magnitude of a photographer's physiological change occurring during photographing or a magnitude of adjustment by a photographer's operation. Therefore, the shooting timing when the photographer unconsciously operates the imaging apparatus and the shooting timing when the photographer concentrates or gets excited can be set as editing points.
本願請求項4の発明によれば、請求項3記載の撮像装置において、撮影者の発汗量の変化、α波の変化、まばたきの頻度、瞳孔の変化、及び脈拍の変化のうちの少なくとも1つをセンサにより測定して、このような撮影者の生理変化が撮影中に生じた撮影タイミングを編集点とするので、撮影者にとって重要なシーンを、撮影者の生理変化に基づいて編集することが可能となる。
According to the invention of claim 4 of the present application, in the imaging apparatus of
本願請求項5の発明によれば、請求項1記載の撮像装置において、上記画像処理部は、被写体の撮像により得られた画像信号に対して、符号化の対象となるピクチャを、符号化済みのピクチャを参照して予測符号化する画面間予測符号化処理を施し、上記画像特徴量を、該画面間予測符号化処理で用いる、画像の動きの大きさを示す動きベクトルに基づいて抽出するので、画像の動きに関する画像特徴量を、予測符号化処理で用いる動きベクトルに基づいて正確に抽出することができる。 According to a fifth aspect of the present invention, in the imaging apparatus according to the first aspect, the image processing unit has encoded a picture to be encoded with respect to an image signal obtained by imaging a subject. Inter-picture predictive coding processing for predictive coding with reference to the picture is extracted, and the image feature amount is extracted based on a motion vector indicating the magnitude of image motion used in the inter-picture predictive coding processing. Therefore, the image feature amount related to the motion of the image can be accurately extracted based on the motion vector used in the predictive encoding process.
本願請求項6の発明によれば、請求項1記載の撮像装置において、上記音声処理部は、上記音声特徴量を、音声信号の変化の大きさに基づいて抽出するので、音の大きさに関する音声特徴量を、音声信号に基づいて正確に抽出することができる。
According to the invention of
本願請求項7の発明によれば、請求項2記載の撮像装置において、上記画像特徴量あるいは音声特徴量、並びに固有特徴量のそれぞれに対する閾値レベルをマニュアル操作信号に基づいて設定する制御部を有するので、画像特徴量あるいは音声特徴量、並びに固有特徴量の検出強度を、ユーザが設定することができ、これにより、撮影した映像データの自動編集にユーザの嗜好などを反映することができる。 According to the seventh aspect of the present invention, in the imaging apparatus according to the second aspect, the image processing apparatus includes a control unit that sets a threshold level for each of the image feature amount, the sound feature amount, and the unique feature amount based on a manual operation signal. Therefore, the user can set the detection intensity of the image feature amount or the voice feature amount and the unique feature amount, and thus the user's preference can be reflected in the automatic editing of the captured video data.
本願請求項8の発明によれば、請求項2記載の撮像装置において、複数の異なるシナリオのそれぞれと、画像特徴量あるいは音声特徴量、並びに固有特徴量に対する閾値レベルの組合せとの対応関係を示すテーブル情報を保持し、ユーザのマニュアル操作によるシナリオの選択により、上記各特徴量に対する閾値レベルを設定するので、運動会や結婚式といった撮影場所に応じたシナリオを選択するという簡単な操作により、運動会や結婚式などの撮影が行われる場所に応じた自動編集が可能となる。
According to the invention of claim 8 of the present application, in the imaging apparatus according to
本願請求項9の発明によれば、請求項8記載の撮像装置において、上記テーブル情報は、ネットワーク上の情報端末からダウンロードして取得するので、撮像装置のメーカのホームページなどを利用して、上記画像、音声あるいは撮影状態の変化である各特徴量に対して、画像、音声、あるいは撮影状態が変化した撮影タイミングが編集点として妥当であるか否かを判定する、シナリオに合った適切な判定強度を設定することができる。 According to the ninth aspect of the present invention, in the imaging apparatus according to the eighth aspect, the table information is downloaded and acquired from an information terminal on a network. Appropriate judgment that suits the scenario for determining whether the shooting timing at which the image, sound, or shooting state has changed is appropriate as an edit point for each feature that is a change in the image, sound, or shooting state The intensity can be set.
本願請求項10の発明によれば、請求項1記載の撮像装置において、上記情報生成部は、上記編集点を、画像、あるいは音声に変化を与えるイベントが発生した時点から、実際に画像、あるいは音声が変化するまでの遅延時間に応じた撮影タイミングに設定するので、編集点を、ほぼ、イベントが実際に発生したタイミングに設定することができる。 According to a tenth aspect of the present invention, in the imaging apparatus according to the first aspect , the information generation unit may actually change the edit point from the point in time when an event that changes the image or the sound occurs. Since the shooting timing is set according to the delay time until the sound changes, the editing point can be set almost at the timing when the event actually occurs.
本願請求項11の発明によれば、被写体の撮影により画像情報及び音声情報を取得して、該画像情報及び音声情報を含むオーディオビデオストリームを記録する撮像装置であって、被写体を撮像して画像信号を出力する撮像部と、上記被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理部と、音声を取得して音声信号を出力する音声取得部と、上記音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理部と、上記画像特徴量あるいは音声特徴量が所定の閾値より大きい場合に、上記画像あるいは音声が変化した撮影タイミングが編集点として妥当であると判定する特徴量判定部と、該編集点として妥当であると判定された撮影タイミングを示す編集点情報を生成する情報生成部とを備え、上記画像情報、音声情報、及び編集点情報を含むオーディオビデオストリームを記録媒体に格納し、さらに、上記情報生成部は、上記画像処理部に符号化前の画像情報であるバッファデータが保持されているか否かを判定し、該符号化前のバッファデータが保持されている場合には、上記編集点を、上記画像、あるいは音声が変化した撮影タイミングに対応するピクチャに設定し、該符号化前のバッファデータが保持されていない場合には、上記画像処理部での符号化処理に利用可能な残り時間と、再符号化に要する時間とを比較判定し、該再符号化に要する時間が上記画像処理部での符号化処理に利用可能な残り時間を超えている場合は、上記編集点を、上記画像処理部により画像信号を符号化して得られた画像ストリームにおける、上記画像、あるいは音声が変化した撮影タイミングに最も近い、ランダムアクセスの単位であるVOBユニットの先頭ピクチャに設定し、上記再符号化に要する時間が上記画像処理部での符号化処理に利用可能な残り時間を超えていない場合は、上記画像ストリームの再符号化を画像処理部に指令し、上記画像処理部は、上記符号化前のバッファデータが保持されている場合には、上記編集点に対応するピクチャが、VOBユニットの先頭ピクチャとなるようVOBユニットを形成し、上記符号化前のバッファデータが保持されておらず、かつ上記再符号化に要する時間が上記画像処理部での符号化処理に利用可能な残り時間を超えていない場合は、上記画像ストリームを、上記編集点に対応するピクチャが、VOBユニットの先頭に位置するIピクチャとなるよう再符号化するので、符号化前のバッファデータがある場合、また、符号化前のバッファデータがない場合でも再符号化のために必要な時間が符号化に使える残り時間を超えていない場合には、上記編集点を正確に設定し、符号化前のバッファデータがない場合で再符号化のために必要な時間が符号化に使える残り時間を超えているときには編集点を簡単に設定することができ、撮影により得られたオーディオビデオストリームの、撮影者にとって重要と思われる部分を、自動であるいはガイダンスに対する簡単な選択操作により編集することができる。
According to the invention of
本願請求項12の発明によれば、請求項1または11記載の撮像装置において、上記画像、あるいは音声に変化を与えるイベントが発生した時刻を、上記編集点としてオーディオビデオストリームに記録するので、編集点を非常に簡単に設定することができる。 According to the twelfth aspect of the present invention, in the imaging apparatus according to the first or eleventh aspect , the time when the event that changes the image or the sound is recorded is recorded in the audio video stream as the edit point. The point can be set very easily.
本願請求項13の発明によれば、請求項12記載の撮像装置において、イベント発生時刻を、再生条件を示すプレイリストとしてオーディオビデオストリームに記録するので、編集点を非常に簡単に設定することができる。 According to the thirteenth aspect of the present invention, in the imaging device according to the twelfth aspect , since the event occurrence time is recorded in the audio-video stream as a playlist indicating the reproduction condition, the editing point can be set very easily. it can.
本願請求項14の発明によれば、請求項12記載の撮像装置において、上記編集点が、画像、あるいは音声のいずれの要因によるものであるかを示す情報を、オーディオビデオストリームに埋め込むので、編集時には、編集点がどのような要因によるものであるかによって編集点の間引きを行うことも可能である。
According to the invention of
本願請求項15の発明によれば、請求項1または11記載の撮像装置において、イベント発生時刻に対応するピクチャを、編集時のサムネイル表示に用いるシーケンス外ピクチャとしてストリームに埋め込むので、編集時には、編集点として適切なピクチャを、サムネイル表示により一目で確認することができる。 According to the fifteenth aspect of the present invention, in the imaging device according to the first or eleventh aspect , the picture corresponding to the event occurrence time is embedded in the stream as an out-of-sequence picture used for thumbnail display at the time of editing. A picture suitable as a point can be confirmed at a glance by a thumbnail display.
本願請求項16の発明によれば、被写体の撮影により画像情報及び音声情報を取得して、該画像情報及び音声情報を含むオーディオビデオストリームを記録する撮像方法であって、 被写体を撮像して画像信号を出力する撮像ステップと、上記被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理ステップと、音声を取得して音声信号を出力する音声取得ステップと、上記音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理ステップと、上記画像特徴量あるいは音声特徴量が所定の閾値よりも大きい場合に、上記画像あるいは音声が変化した撮影タイミングが編集点として妥当であると判定する特徴量判定ステップと、該編集点として妥当であると判定された撮影タイミングを示す編集点情報を生成する情報生成ステップと、上記画像情報、音声情報、及び編集点情報を含むオーディオビデオストリームを記録媒体に格納するステップとを含み、さらに、上記情報生成ステップは、上記画像処理ステップを実行する画像処理部に符号化前の画像情報であるバッファデータが保持されているか否かを判定し、該符号化前のバッファデータが保持されている場合には、上記編集点を、上記画像、音声、あるいは撮影状態が変化した撮影タイミングに対応するピクチャに設定し、該符号化前のバッファデータが保持されていない場合には、上記編集点を、上記画像処理部により画像信号を符号化して得られたストリームにおける、上記画像、あるいは音声が変化した撮影タイミングに最も近い、ランダムアクセスの単位であるVOBユニットの先頭ピクチャに設定し、上記画像処理ステップは、上記符号化前のバッファデータが上記画像処理部に保持されている場合には、上記編集点に対応するピクチャが、VOBユニットの先頭ピクチャとなるようVOBユニットを形成するので、符号化前のバッファデータがある場合に、編集点を正確に設定し、符号化前のバッファデータがない場合に、編集点を簡単に設定することができ、撮影により得られたオーディオビデオストリームの、撮影者にとって重要と思われる部分を、自動であるいはガイダンスに対する簡単な選択操作により編集することが可能となる。
According to the sixteenth aspect of the present invention, there is provided an imaging method for acquiring image information and audio information by photographing a subject and recording an audio video stream including the image information and audio information. An imaging step for outputting a signal, an image processing step for performing signal processing on the image signal obtained by imaging the subject, and extracting image information including an image feature amount indicating a feature of an image change, and acquiring sound A voice acquisition step for outputting a voice signal, and a voice processing step for performing signal processing on the voice signal obtained by the voice acquisition to extract voice information including a voice feature amount indicating a feature of voice change; When the image feature amount or the sound feature amount is larger than a predetermined threshold, it is determined that the shooting timing at which the image or sound has changed is appropriate as the editing point. A feature amount determination step to be determined, an information generation step for generating edit point information indicating a photographing timing determined to be appropriate as the edit point, and an audio video stream including the image information, audio information, and edit point information The information generating step determines whether or not buffer data that is image information before encoding is held in the image processing unit that executes the image processing step. If the buffer data before encoding is held, the edit point is set to the picture corresponding to the image, audio, or shooting timing when the shooting state has changed, and the buffer data before encoding is set. Is not held, the edit point is the stream in the stream obtained by encoding the image signal by the image processing unit. Set to the first picture of the VOB unit, which is the unit of random access, closest to the shooting timing at which the image or sound has changed, and the image processing step stores the buffer data before encoding in the image processing unit. If so, the VOB unit is formed so that the picture corresponding to the edit point becomes the first picture of the VOB unit. Therefore, when there is buffer data before encoding, the edit point is accurately set and encoded. When there is no previous buffer data, the edit point can be set easily, and the part of the audio / video stream obtained by shooting is considered to be important for the photographer automatically or by simple selection operation for guidance. It becomes possible to edit.
本願請求項17の発明によれば、被写体の撮影により画像情報及び音声情報を取得して、該画像情報及び音声情報を含むオーディオビデオストリームを記録する半導体装置であって、上記被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理部と、音声を取得して音声信号を出力する音声取得部と、上記音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理部と、上記画像特徴量あるいは音声特徴量が所定の閾値よりも大きい場合に、上記画像あるいは音声が変化した撮影タイミングが編集点として妥当であると判定する特徴量判定部と、該編集点として妥当であると判定された撮影タイミングを示す編集点情報を生成する情報生成部とを備え、上記画像情報、音声情報、及び編集点情報を含むオーディオビデオストリームを記録媒体に格納し、さらに、上記情報生成部は、上記画像処理部に符号化前の画像情報であるバッファデータが保持されているか否かを判定し、該符号化前のバッファデータが保持されている場合には、上記編集点を、上記画像、音声、あるいは撮影状態が変化した撮影タイミングに対応するピクチャに設定し、該符号化前のバッファデータが保持されていない場合には、上記編集点を、上記画像処理部により画像信号を符号化して得られたストリームにおける、上記画像、あるいは音声が変化した撮影タイミングに最も近い、ランダムアクセスの単位であるVOBユニットの先頭ピクチャに設定し、上記画像処理部は、上記符号化前のバッファデータが上記画像処理部に保持されている場合には、上記編集点に対応するピクチャが、VOBユニットの先頭ピクチャとなるようVOBユニットを形成するので、符号化前のバッファデータがある場合、また、符号化前のバッファデータがない場合でも再符号化のために必要な時間が符号化に使える残り時間を超えていない場合には、上記編集点を正確に設定し、符号化前のバッファデータがない場合で再符号化のために必要な時間が符号化に使える残り時間を超えているときには編集点を簡単に設定することができ、撮影により得られたオーディオビデオストリームを、その撮影者にとって重要と思われる部分を、自動であるいはガイダンスに対する簡単な選択操作により編集可能なストリームとすることができる半導体装置を得ることができる。 According to the invention of claim 17 of the present application, a semiconductor device that acquires image information and audio information by photographing a subject and records an audio-video stream including the image information and audio information is obtained by imaging the subject. An image processing unit that performs signal processing on the received image signal to extract image information including an image feature amount indicating a change feature of the image, an audio acquisition unit that acquires audio and outputs an audio signal, and the audio A voice processing unit that performs signal processing on the voice signal obtained by acquiring the voice information including the voice feature quantity indicating the feature of the voice change, and the image feature quantity or the voice feature quantity is greater than a predetermined threshold value. when is large, the characteristic amount determination unit for determining a photographing timing of the image or voice has changed is valid for editing point, shot is determined to be appropriate as the edit point in Thailand And an information generation unit that generates an edit point information indicating the ring, and stores the image information, audio information, and the audio video stream including an edit point information on a recording medium, further, the information generating unit, the image processing Whether or not buffer data that is image information before encoding is held, and if the buffer data before encoding is held, the edit point is set to the image, audio, or When the picture corresponding to the shooting timing at which the shooting state has changed is set and the buffer data before encoding is not held, the editing point is obtained by encoding the image signal by the image processing unit. Set the first picture of the VOB unit, which is the unit of random access, closest to the shooting timing at which the image or sound changes in the stream. Image processing unit, if the coding buffer before the data is held in the image processing section, a picture corresponding to the edit point, because it forms a VOB unit to be a head picture VOB unit, If there is buffer data before encoding, or if there is no buffer data before encoding and the time required for re-encoding does not exceed the remaining time that can be used for encoding, the above edit points are used. If there is no buffer data before encoding and the time required for re-encoding exceeds the remaining time that can be used for encoding, the edit point can be set easily and obtained by shooting. The recorded audio-video stream can be edited as a stream that can be edited automatically or by a simple selection operation for guidance. A semiconductor device that can be obtained can be obtained.
以下、本発明の実施の形態について説明する。
(実施の形態1)
図1及び図2は、本発明の実施の形態1による撮像装置を説明するための図であり、図1は、この実施の形態1の撮像装置の全体構成を示し、図2は、この撮像装置により得られるオーディオビデオストリームを示している。
本実施の形態1の撮像装置101は、被写体の撮影により画像信号Sim及び音声信号Sauを得るとともに、得られた画像信号Sim及び音声信号Sauに、撮影状況を示す情報に基づいた信号処理を施して、撮影者にとって重要と思われる撮影部分を自動で、あるいはガイダンスに対する簡単な選択操作により編集可能なMPEG‐2対応のストリーム(以下オーディオビデオデータともいう。)Dを生成するものである。
Embodiments of the present invention will be described below.
(Embodiment 1)
1 and 2 are diagrams for explaining an imaging apparatus according to
The
すなわち、この撮像装置101は、被写体を撮影して画像信号Simを出力する撮像部11と、被写体の撮影により得られた画像信号Simに、フィルタ処理、圧縮符号化処理、及び特徴量抽出処理等の信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理部11aとを有している。ここで、画像の変化は、イベントの発生により生じた被写体の画像の変化であり、また、画像特徴量は、画像の変化の大きさや、画像が全くあるいは実質的に変化しない期間の長さなどである。
That is, the
上記撮像装置101は、音声を取得して音声信号Sauに出力する音声取得部12と、該音声信号Sauに、フィルタ処理、圧縮符号化処理、及び特徴量抽出処理などの信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理部12aとを有している。ここで、音声の変化は、イベントの発生により生じた被写体からの音声の変化であり、音声特徴量は、音声の変化の大きさや、音声が全くあるいは実質的に変化しない期間の長さなどである。
The
上記撮像装置101は、撮影者の撮影状態を識別する固有の識別情報Didを取得する固有識別情報取得部10と、取得した固有識別情報Didにフィルタ処理や特徴量抽出処理などの信号処理を施して、撮影状態の変化の特徴を示す固有特徴量を含む情報を抽出する固有識別情報処理部10aとを有している。ここで、撮影状態の変化は、イベントの発生により生じた撮影者の生理変化や撮影者による撮像装置の操作であり、固有特徴量は、撮影者の生理変化の大きさや、撮影者によるズーム調整,フォーカス調整の大きさなどである。
The
上記撮像装置101は、上記画像処理部11a、音声処理部12a、及び固有識別情報処理部10aでの特徴量抽出処理により得られた特徴量に基づいて、撮影状況が変化した撮影タイミングが編集点として妥当かどうかを判定する特徴量判定部21と、該編集点として妥当であると判定された撮影タイミングを示す編集点情報を生成する編集点情報生成部22aとを有している。ここで、撮影状況が変化した撮影タイミングは、撮影中に被写体の画像が変化したタイミング、撮影中に被写体からの音声が変化したタイミング、及び、撮影状態が変化したタイミングを含むものである。また、撮影状態の変化は、撮影中に生じた撮影者の生理変化や撮影者の操作によるズーム、フォーカスなどの変化を含むものである。
The
上記撮像装置101は、画像処理部11a、音声処理部12a、及び固有識別情報処理部10aからの情報に基づいて、画像処理部11aでの画像信号Simの圧縮符号化処理により得られた画像ストリーム、音声処理部12aでの音声信号の圧縮符号化処理により得られた音声ストリーム、及び編集点情報生成部22aにて生成された編集点情報を含むオーディオビデオストリームを作成するシステム処理部13と、該オーディオビデオストリームを格納する記録媒体30aと、該記録媒体30aとデータバスDbusとの間に接続された記録媒体インターフェース部30と、ユーザの操作により発生したユーザ操作信号に基づいて、一連の記録再生処理が行われるよう上記各部を制御する制御部20aとを有している。
The
以下、上記各部で行われる信号処理について詳しく説明する。
上記画像処理部11aで行われる画像信号Simに対するフィルタ処理は、特定の周波数帯域の信号のみを抽出する処理である。画像処理部11aで行われる画像信号Simに対する圧縮符号化処理は、MPEG‐2に対応した画面内及び画面間予測符号化処理である。なお、この予測符号化処理は、MPEG‐2に対応したものに限らず、MPEG‐4あるいはMPEG‐4AVCに対応したものであってもよい。また、ここでは、画像信号Simに対する特徴量抽出処理は、撮影された画像が急に変化した急変部分での変化の大きさや、画像が全くあるいは実質的に変化しない状態の継続時間などを、上記画面間予測符号化処理で用いる、画像の動きを示す動きベクトルに基づいて特徴量として抽出する処理である。画像の急変部分は、例えば、撮影者が、ハッとして、特定の被写体にカメラを向けたときの撮影部分などであり、また、映像の非変部分は、例えば、撮影者の視点が特定の方向に定まって動かないときの撮影部分などである。
Hereinafter, signal processing performed in each of the above-described units will be described in detail.
The filter process for the image signal Sim performed by the
上記音声取得部12で行われる音声信号Sauに対するフィルタ処理は、特定の周波数帯域の信号のみを抽出する処理である。音声取得部12で行われる音声信号Sauに対する圧縮符号化処理は、音声信号を圧縮して音声圧縮データを生成する、MPEG‐2,MPEG‐4などの画像信号に対する符号化処理に対応した処理である。また、ここでは、音声信号Sauに対する特徴量抽出処理は、音声信号の変化の大きさに基づいて、音声が大きく変化した急変部分での変化の大きさや、音声が全くあるいは実質的に変化しない状態の継続時間などを特徴量として抽出する処理である。音声の急変部分は、例えば、撮影されている人が会話をはじめたとき、演奏会などで音楽演奏が始まったとき、あるいは、運動会などでスタートの合図として用いられるピストルやホイッスルの音が発生したときの録音部分などである。また、音声の非変部分は、演劇などの中間幕の一瞬の静かな状態の録音部分などである。
The filtering process on the audio signal Sau performed by the
上記固有識別情報処理部10aで行われる固有識別情報Didに対するフィルタ処理は、該固有識別情報Didである固有識別情報取得部10の出力信号の特定周波数成分のみ抽出する処理である。固有識別情報処理部10aで行われる固有識別情報Didに対する特徴量抽出処理は、固有識別情報Didの値が急激にあるいは大きく変化した急変部分での変化の大きさや、固有識別情報Didの値が全く変化しなくなった状態の継続時間などを固有特徴量として抽出する処理である。固有識別情報の急変部分は、例えば、撮影者の、意識の集中による緊張が始まったときに生ずる生理現象の特徴的な変化などに対応する。ここで、上記生理現象の特徴的な変化は、例えば、撮影中に生じた撮影者の生理現象の大きな変化である。また、検出の対象となる生理現象は、発汗作用、まばたき、瞳孔の変化、及び脈拍であり、固有識別情報処理部10aは、発汗作用やまばたき等の各種生理現象の変化を検知する、その種類に応じたセンサを有している。例えば、発汗作用は、撮影者の手の熱伝導率を測定するセンサによりモニタすることができる。なお、上記固有識別情報としての撮影者の生理現象は上記のものに限るものではない。
The filtering process for the unique identification information Did performed by the unique identification
また、上記編集点を判定する処理は、特徴量判定部21が、撮影状況が変化した撮影タイミングが編集点として妥当か否かを判定するものであり、具体的には以下の6つの判定処理である。
第1の判定処理は、画像処理部11aからの特徴量である、画面内のすべてのマクロブロックの動きベクトルの大きさが、あるいは画面内の特定のマクロブロックの動きベクトルの大きさが、決められた閾値を超えたか否かを判定し、動きベクトルの大きさが閾値を超えたと判定された撮影タイミングを、編集点として適切と判定するものである。
In addition, the process for determining the edit point is for the feature
In the first determination process, the size of the motion vector of all macroblocks in the screen, or the size of the motion vector of a specific macroblock in the screen, which is a feature amount from the
画面内のすべてのマクロブロックの動きベクトルの大きさが、決められた閾値を超えた場合は、撮像装置の筐体の揺れの大きさがある閾値を超えたこと、あるいは画面輝度レベルが急に変化したことが考えられる。 If the size of the motion vector of all macroblocks in the screen exceeds a predetermined threshold, the amount of shaking of the imaging device's housing exceeds a certain threshold, or the screen brightness level suddenly It may have changed.
第2の判定処理は、画像処理部11aからの特徴量である、動きベクトルの大きさの変化やフォーカス距離の変化の大きさがある閾値以下である状態が一定時間続いているか否かを判定し、一定時間以上続いていると判定された撮影タイミングを編集点として適切と判定するものである。
In the second determination process, it is determined whether or not a state in which the magnitude of the change in the motion vector or the change in the focus distance, which is the feature amount from the
動きベクトルの大きさの変化やフォーカス距離の変化の大きさが、ある閾値以下を維持している場合は、撮影者の視点が変化していない状態と考えられる。 If the change in the magnitude of the motion vector or the change in the focus distance remains below a certain threshold, it is considered that the photographer's viewpoint has not changed.
第3の判定処理は、音声処理部12aからの特徴量である、音のダイナミックレンジの変化の大きさが、決められた閾値を超えたか否かを判定し、閾値を超えたと判定された撮影タイミングを、編集点として適切と判定するものである。なお、音の変化は、被写体からの音の変化だけでなく、撮影者が発する音、例えば咳払いなどの音も含まれる。
In the third determination process, it is determined whether or not the magnitude of the change in the dynamic range of the sound, which is the feature amount from the
第4の判定処理は、音のダイナミックレンジの無変化状態が、一定時間続いているか否かを検出し、無変化状態が一定時間以上続いていると判定された撮影タイミングを、編集点として適切と判定するものである。この場合、無変化部分の先頭位置を編集点とすることができる。 The fourth determination process detects whether or not the unchanged state of the sound dynamic range has continued for a certain period of time, and the shooting timing determined that the unchanged state has continued for a certain period of time is appropriate as an editing point. It is determined. In this case, the start position of the unchanged part can be set as the editing point.
第5の判定処理は、固有識別情報処理部10aからの特徴量である、撮影者の心拍数の変化の大きさや撮影者の手の熱伝導率の変化の大きさが、ある閾値を超えたか否かを検出し、閾値を超えたと判定された撮影タイミングを、編集点として適切と判定するものである。
In the fifth determination process, whether the magnitude of the change in the heart rate of the photographer or the change in the thermal conductivity of the photographer's hand, which is a feature amount from the unique identification
第6の判定処理は、固有識別情報処理部10aからの特徴量である、まばたきの回数変化や瞳孔の変化の大きさなどが、ある閾値を超えたか否かを検出し、閾値を超えたと判定された撮影タイミングを、編集点として適切と判定するものである。
The sixth determination process detects whether or not the change in the number of blinks or the size of the pupil, which is a feature amount from the unique identification
なお、フォーカスやズームなどの無意識で行われる操作については、画像処理部11aからの特徴量ではなく、専用のセンサの出力レベルに基づいて、これらの操作が行われた撮影タイミングが編集点として妥当か否かを判定するようにしてもよい。この場合、具体的には、固有識別情報取得部10が上記専用センサの出力を、撮影状態を示す固有識別情報として取得し、固有識別情報処理部10aが、該固有識別情報に基づいて、撮影状態の変化の大きさである、撮影者の操作によるフォーカスやズームなどの調整の大きさを示す固有特徴量を取得する。そして、特徴量判定部21が、固有特徴量を判定して、フォーカスやズームなどの撮影状態が変化した撮影タイミングが編集点として妥当か否かを判定する。また、撮影者の脳波、例えばα波を測定するセンサを設け、該センサの出力レベルに基づいて、α波が変化した撮影タイミングが編集点として妥当か否かを判定するようにしてもよい。この場合、具体的には、固有識別情報取得部10が上記α波測定センサの出力レベルを、撮影状態を示す固有識別情報として取得し、固有識別情報処理部10aが、該固有識別情報に基づいて、撮影状態を表す撮影者のα波の変化の大きさを示す固有特徴量を取得する。そして、特徴量判定部21が、固有特徴量を判定して、撮影状態を表す撮影者のα波が変化した撮影タイミングが編集点として妥当か否かを決定する。また、画像や音の特徴量は、撮影により得られた画像信号や音声信号を信号処理して抽出するのではなく、専用のセンサを用いて検出することも可能である。
For operations that are performed unconsciously such as focus and zoom, the shooting timing at which these operations are performed is appropriate as an edit point based on the output level of the dedicated sensor, not the feature amount from the
また、この実施の形態1では、編集点情報生成部22aは、編集点として適切と判定された撮影タイミングを示す情報と、この撮影タイミングが、例えば、音の変化や映像の変化,あるいは撮影状態の変化などの特徴量のうちのどのような特徴量に基づいて判定されたものであるかを示す情報とを生成してシステム処理部13に出力するものである。また、編集点情報生成部22aは、編集点として判定された撮影タイミングに最も近い、この撮影タイミング以前のVOBユニットの先頭のIピクチャを、編集時にアクセスポイントとして用いるピクチャに設定し、このように編集点を上記Iピクチャに設定したことを示す情報をシステム処理部13に出力する。また、システム処理部13は、編集点情報生成部22aからの情報に基づいて、オーディオビデオストリームDに含まれる管理情報であるプレイリストを更新するものとなっている。
つまり、システム処理部13により作成されたオーディオビデオストリームのプレイリストは、編集点として適切と判定された撮影タイミングを示す編集点情報と、編集点として適切と判定された撮影タイミングが、どのような特徴量に基づいて判定されたものであるかを示す情報と、編集時にアクセスポイントとして用いるピクチャにいずれのピクチャを設定したかを示す情報とを含んでいる。
Further, in the first embodiment, the editing point
In other words, the playlist of the audio video stream created by the
但し、上記アクセスポイントとして用いるピクチャは、編集点として判定された、単に画像や音声などの撮影状況が変化した撮影タイミングに最も近い、この撮影タイミング以前のIピクチャに限るものではなく、例えば、編集点の設定を行う、画像の変化や音声の変化などの要因に応じて、被写体の画像または音声、あるいは撮影者の撮影状態に変化を与えるイベントが発生したタイミングから、このイベントに起因する特徴量が検出されるまでの遅延時間を考慮して、編集点とするピクチャを決定しても良い。例えば、撮影状況が変化したタイミングから上記遅延時間だけ遡った撮影タイミングに一番近いIピクチャを編集点として用いるピクチャに設定してもよい。この場合、遅延時間は、フォーカス情報などに応じて決定した時間としても、予めすべの要因に対して一律に、あるいは個々の要因に対して別々に決められた固定の時間としてもよい。 However, the picture used as the access point is not limited to the I picture before the shooting timing, which is the closest to the shooting timing at which the shooting situation such as the image or sound, which has been determined as the editing point, has changed. The amount of feature attributed to this event from the timing of the event that changes the image or sound of the subject or the shooting state of the photographer, depending on factors such as the change in the image and the change in the sound. A picture to be an edit point may be determined in consideration of a delay time until detection of. For example, the I picture closest to the shooting timing that is backed by the delay time from the timing when the shooting situation changes may be set as the picture that is used as the editing point. In this case, the delay time may be a time determined according to the focus information or the like, or may be a fixed time determined in advance uniformly for all factors or separately for each factor.
また、本実施の形態1では、オーディオビデオストリームはMPEG‐2に対応するものとしているため、上記画像、音声、あるいは撮影状態を変化させるイベントが発生した時刻を、上記画像、音声、あるいは撮影状態の変化の特徴を示す特徴量が検出された時刻として、プレイリストに含めて、該ストリームの管理情報記録領域に書き込んでいるが、該ストリームはMPEG‐4AVCに対応するものでもよく、この場合は、特徴量検出時刻のみを、該ストリームの付加情報記録領域(SEI)に記録してもよい。 In the first embodiment, since the audio / video stream corresponds to MPEG-2, the time at which the event for changing the image, sound, or shooting state occurs is set as the image, sound, or shooting state. As the time when the feature amount indicating the feature of the change is detected, it is included in the playlist and written in the management information recording area of the stream. However, the stream may correspond to MPEG-4 AVC, and in this case Only the feature amount detection time may be recorded in the additional information recording area (SEI) of the stream.
また、この実施の形態1では、制御部20aは、撮影前にユーザにより選択されたシナリオに基づいて特徴量判定部21に指令信号を出力して、編集点の設定を行う要因となる、例えば、音、映像、撮影者の生理現象などを決定するとともに、編集点設定を行う要因が変化した撮影タイミングを編集点と判定する際の判定強度、つまり特徴量の閾値を決定するものとしている。
Further, in the first embodiment, the
また、上記制御部20aは、ユーザが、本撮像装置によるガイダンスに応じて、運動会、演奏会、結婚式、旅行などの、撮影場所を選択すると、撮影状況の変化のパターン、例えば、音量の変化パターン、明るさの変化パターン、撮影者の生理現象の変化パターンなどに応じて、編集点設定のための各種の要因に対する判定強度が、予め容易された複数の既定値のうちの1つに設定する。但し、各種の要因に対する判定強度として用意されている既定値は、ユーザの好みなどに応じて、独自に調整可能としてもよい。
In addition, when the user selects a shooting location such as an athletic meet, a concert, a wedding, or a trip according to the guidance from the imaging apparatus, the
なお、この撮影装置101は、図示していないが、上記制御部20aからの制御信号に基づいて、記録媒体に記録されたオーディオビデオストリームを復号化して再生する再生部を有している。
Although not shown, the photographing
次に、上記記録媒体に記録されたAVデータの構造について簡単に説明する。
図2は、記録媒体に記録されたAVデータの構造を説明する図である。
ここで、記録媒体は、DVD(Digital Versatile Disk)ディスクなどのディスク状記録媒体としている。ただし、記録媒体は、DVDなどのディスク状記録媒体に限るものではなく、例えば、HDD(ハードディスクドライブ)、メモリーカード、あるいは磁気テープなどでもよい。また、上記記録媒体には、1つのコンテンツに対応する画像信号Sim及び音声信号Sauを符号化して得られたストリームDsと、これらのコンテンツに対応する管理情報Dmとを含むオーディオビデオストリームDが書き込まれている。この管理情報Dmは、ディスク状記録媒体の中心近傍の内側領域に書き込まれ、上記ストリームDsは、この内側領域の外側の領域に書き込まれている。また、ストリームDsは、VOBユニットVOBUにより区分されている。
Next, the structure of AV data recorded on the recording medium will be briefly described.
FIG. 2 is a diagram for explaining the structure of AV data recorded on a recording medium.
Here, the recording medium is a disc-shaped recording medium such as a DVD (Digital Versatile Disk) disc. However, the recording medium is not limited to a disk-shaped recording medium such as a DVD, and may be, for example, an HDD (Hard Disk Drive), a memory card, or a magnetic tape. In addition, an audio video stream D including a stream Ds obtained by encoding an image signal Sim and an audio signal Sau corresponding to one content and management information Dm corresponding to these contents is written on the recording medium. It is. The management information Dm is written in an inner area near the center of the disc-shaped recording medium, and the stream Ds is written in an area outside the inner area. The stream Ds is divided by the VOB unit VOBU.
また、上記管理情報DmはプレイリストDmpを含んでおり、このプレイリストDmpには、複数の補助情報playitem[0],[1],[2],・・・,[n],・・・が含まれている。 The management information Dm includes a playlist Dmp, and the playlist Dmp includes a plurality of auxiliary information playitems [0], [1], [2],..., [N],. It is included.
例えば、図2に示す符号化データDのストリームDsには、VOBユニットVOBU(m−k)VOBユニットVOBU(m)、VOBユニットVOBU(m+q)が含まれており、特定のVOBユニットVOBU(m)に対応するプレイリストの補助情報playitem[n]には、時間情報Dtm、AV情報Dav、操作情報Dop、生理的情報Dph、及び編集済みフラグDefが含まれている。ここで、時間情報Dtmは、VOBユニットVOBU(m)の開始時刻を示す情報Dstと、VOBユニットVOBU(m)の終了時刻を示す情報Detとを含んでいる。AV情報Davは、画像に関する特徴量を示す情報Dvi、及び音声に関する特徴量を示す情報Dauを含んでいる。操作情報Dopは、手ブレの程度を示す情報Dhm、フォーカス操作時の操作量を示す情報Dfo、及びズーム操作時の操作量を示す情報Dzmを含んでいる。生理的情報Dphは、撮影者の発汗量を示す汗情報Dsu、撮影者のα波強度を示すα波情報Dαw、操作者のまばたきの頻度を示すまばたき情報Dbk、操作者の瞳孔変化の程度を示す瞳孔情報Dpu、及び操作者の脈拍数を示す脈拍情報Dpsを含んでいる。このように、上記画像、音声、あるいは撮影状態を変化させるイベントが発生した時刻は、上記画像、音声、あるいは撮影状態の変化の特徴を示す特徴量が検出された時刻として、実質的に、プレイリストに含めて該ストリームの管理情報記録領域に書き込まれている。 For example, the stream Ds of the encoded data D shown in FIG. 2 includes a VOB unit VOBU (m−k), a VOB unit VOBU (m), and a VOB unit VOBU (m + q), and a specific VOB unit VOBU (m ) Corresponding to the playlist includes time information Dtm, AV information Dav, operation information Dop, physiological information Dph, and an edited flag Def. Here, the time information Dtm includes information Dst indicating the start time of the VOB unit VOBU (m) and information Det indicating the end time of the VOB unit VOBU (m). The AV information Dav includes information Dvi indicating a feature amount related to an image and information Dau indicating a feature amount related to a sound. The operation information Dop includes information Dhm indicating the degree of camera shake, information Dfo indicating the operation amount during the focus operation, and information Dzm indicating the operation amount during the zoom operation. The physiological information Dph includes sweat information Dsu indicating the amount of sweat of the photographer, α-wave information Dαw indicating the α-wave intensity of the photographer, blink information Dbk indicating the frequency of the operator's blink, and the degree of pupil change of the operator. It includes pupil information Dpu to be displayed and pulse information Dps to indicate the pulse rate of the operator. As described above, the time at which the event for changing the image, sound, or shooting state occurs is substantially the same as the time at which the feature amount indicating the change feature of the image, sound, or shooting state is detected. It is included in the list and written in the management information recording area of the stream.
次に動作について説明する。
〔撮影前の設定操作〕
まず、撮影前のマニュアル設定操作について説明する。
撮影者は、運動会や結婚式などの催し物に合わせて、撮影状況が変化した撮影タイミングが編集点として適切であるか否かの判定に用いる判定強度を設定する。
Next, the operation will be described.
[Setting operation before shooting]
First, a manual setting operation before photographing will be described.
The photographer sets a determination strength used for determining whether or not the shooting timing at which the shooting situation has changed is appropriate as an editing point in accordance with an event such as an athletic meet or a wedding.
この判定強度については、撮像装置に予め設定されている複数のシナリオのうちから、運動会や結婚式に対応するものを選択することにより、編集点設定のための個々の要因に対する判定強度を、選択されたシナリオに応じた値に設定することもできるが、ここでは、操作者がマニュアルで設定する操作について説明する。 For this judgment strength, select the judgment strength for each factor for editing point setting by selecting the one corresponding to athletic meet or wedding from a plurality of scenarios preset in the imaging device Although it can be set to a value according to the scenario, the operation manually set by the operator will be described here.
図3は、撮像装置100の編集点挿入設定を行う画面を示している。
この設定画面100a上には、AV情報の設定ボタン110、操作情報の設定ボタン120、生理的情報の設定ボタン130が表示されている。また、設定画面100aの右下部分には、生理的情報のより詳細な設定を行う詳細設定画面130aが表示されており、該詳細設定画面130a上には、汗情報の設定ボタン131、瞳孔情報の設定ボタン132、及び脈拍情報の設定ボタン133が表示されている。なお、図3では、示していないが、AV情報のより詳細な設定を行う詳細設定画面や操作情報のより詳細な設定を行う詳細設定画面も表示可能となっている。
FIG. 3 shows a screen for performing edit point insertion setting of the
On this
それぞれのボタンは、各要素に対する判定強度を、“−”表示が示す最小レベルと、“+”表示が示す最大レベルとの間で、任意のレベルに設定可能となっている。なお、“0”表示は、これらの中間のレベルを示している。 Each button can set the determination strength for each element to an arbitrary level between the minimum level indicated by “−” display and the maximum level indicated by “+” display. The “0” display indicates an intermediate level between these.
ここで、例えば、汗情報に関する判定強度のレベルが高いということは、発汗量の変化が比較的小さくても、この発汗量の変化が生じた撮影タイミングを、編集点として適切であると判定するということである。一方、汗情報に関する判定強度のレベルが小さいということは、発汗量の変化が比較的大きくても、この発汗量の変化が生じた撮影タイミングは、編集点として適切でないと判定するということである。 Here, for example, the fact that the level of the determination intensity related to sweat information is high means that even when the change in the amount of sweat is relatively small, the shooting timing at which the change in the amount of sweat occurs is appropriate as the editing point. That's what it means. On the other hand, when the level of the determination intensity related to sweat information is small, even if the change in the amount of sweat is relatively large, it is determined that the shooting timing at which the change in the amount of sweat occurs is not appropriate as an edit point. .
例えば、運動会など競技大会で撮影を行う場合には、演技や競技の開始時にはその合図などの音声の大きな変化が発生すると考えられるため、AV情報の音声要素に対する判定強度を平均的なレベルより強く設定し、また、生理的情報の脈拍要素に対する判定強度なども、競技中は撮影者がハラハラする場合も考えられることから、強めに設定するのがよいと考えられる。 For example, when shooting at a competition such as an athletic meet, it is considered that a large change in sound such as a cue occurs at the start of performance or competition, so the determination strength for the audio element of AV information is stronger than the average level. It is considered that it is better to set the strength of the determination for the pulse element of the physiological information because the photographer may be injured during the competition.
旅行などで風景を撮影する場合には、撮影者は、AV情報の画像要素に対する判定強度を平均的なレベルより強く設定し、また、遠くの景色などを撮影する場合も考えられるので、フォーカスやズームの操作量に対する判定強度を高くする場合があると考えられる。 When shooting a landscape during a trip or the like, the photographer may set the determination strength for the image element of the AV information to be higher than the average level, and may shoot a distant landscape. It is considered that the determination strength for the zoom operation amount may be increased.
また、結婚式では、撮影者は、AV情報の画像特徴量の判定強度及び音声特徴量の判定強度をともに平均的なレベルより強く設定し、生理的情報の各要素の特徴量についても比較的判定強度を高く設定する場合が考えられる。 In weddings, the photographer sets both the image feature amount determination strength and the sound feature amount determination strength of AV information to be stronger than the average level, and the feature amount of each element of physiological information is relatively high. A case where the determination intensity is set high can be considered.
このような判定強度の設定は、ユーザ操作、つまり撮影者のマニュアル操作に応じて上記制御部20aにて行われ、制御部20aは、ユーザ操作に応じて設定された各要素に対する判定強度を示す制御信号を上記特徴量判定部21に供給する。その後、撮影者が撮影を行うと、上記特徴量判定部21は、上記各特徴量を、対応する、上記制御部20aで設定された判定強度(閾値レベル)に基づいて判定して、上記画像、音声、あるいは撮影状態が変化した撮影タイミングが編集点として妥当であるか否かを決定する。
Such setting of the determination strength is performed by the
〔撮影時の動作〕
続いて、撮影時の撮像装置の動作について具体的に説明する。
図4は、実施の形態1の撮像装置の動作フローを説明する図である。
撮影が開始されると(ステップS1)、撮像装置101は、画像情報、音声情報、及び撮影状態に関する情報を取得する(ステップS2)。
[Operation during shooting]
Next, the operation of the imaging apparatus at the time of shooting will be specifically described.
FIG. 4 is a diagram illustrating an operation flow of the imaging apparatus according to the first embodiment.
When shooting is started (step S1), the
具体的には、上記ステップS2では、撮像部11が、被写体の撮像により画像信号Dimを出力する処理、音声取得部12が音声を取得して音声信号Dauを出力する処理、及び、固有識別情報取得部10が撮影者による撮像装置の操作及び撮影者の生理的変化を検知して、操作量及び生理的な変化に関する固有識別情報Didを出力する処理が並行して行われる。
Specifically, in step S2, the
すると、固有識別情報処理部10aは、固有識別情報取得部10からの固有識別情報Did及び制御部20aからの制御信号に基づいて、フォーカスやズーム操作における操作量、及び撮影者の生理的な変化の大きさを示す、発汗量、まばたきの頻度、脈拍数の変動量など特徴量を検出する(ステップS2a)。また、画像処理部11aでは、撮影部11からの画像信号Dim及び制御部20aからの制御信号に基づいて、画像信号に対してMPEG‐2対応の予測符号化処理を施して画像ストリームを生成するとともに、該予測符号化処理で用いる動きベクトルに基づいて、画像が急変した部分での画像変化の大きさなどである画像の特徴量を含む画像情報を取得する(ステップS2b)。また、音声処理部12aでは、音声取得部12からの音声信号Dim及び制御部20aからの制御信号に基づいて、音声信号に対して符号化処理を施して音声ストリームを生成するとともに、該音声信号に基づいて、音声が急変した部分での音声変化の大きさなどである音声の特徴量を含む音声情報を取得する(ステップS2c)。
Then, the unique identification
次に、特徴量判定部21は、ユーザ操作や撮影者の生理的変化に関する特徴量、画像に関する特徴量、及び音声に関する特徴量と、各特徴量に対して設定されている判定強度とに基づいて、特徴量が検出された撮影タイミングが編集点として妥当であるかを判定する(ステップS3)。
Next, the feature
続いて、編集点情報生成部22aは、編集点として妥当であると判定された撮影タイミングを示す編集点情報を生成するとともに、編集点として用いるピクチャを、該撮影タイミング以前であってこれに最も近いVOBユニットの先頭のIピクチャに設定したことを示す編集点ピクチャ情報を生成する(ステップS4)。
Subsequently, the edit point
その後、システム処理部13は、制御部20aからの制御信号に基づいて、上記画像ストリーム、音声ストリーム、編集点情報、及び編集点ピクチャ情報を含むオーディオビデオストリームを作成して記録媒体インターフェース30に出力する。すると、記録媒体インターフェースは、入力されたオーディオビデオストリームを記録媒体に記録する(ステップS5)。
Thereafter, the
以下、編集点を判定するステップS3の処理について説明する。
具体的には、特徴量判定部21は、制御部20aからの判定強度を示す制御信号に基づいて、固有識別情報処理部10aで検出された固有特徴量、画像処理部11aで検出された画像特徴量、音声処理部12aで検出された音声特徴量のそれぞれについて、それぞれの特徴量が検出された撮影タイミングが編集点として妥当であるか否かを判定する。
Hereinafter, the process of step S3 for determining the edit point will be described.
Specifically, the feature
例えば、固有識別情報処理部10aで検出された、手ブレに関する特徴量は、撮影者の手ブレの大きさである。この検出された手ブレの大きさが、予め撮影前に設定されている判定強度、つまり手ブレの大きさの閾値以上であれば、この手ブレに関する特徴量が検出された撮影タイミングが編集点として妥当であると判定され、手ブレの大きさが上記判定強度より小さければ、該撮影タイミングは編集点として妥当でないと判定される(ステップS3a)。また、固有識別情報処理部10aで検出された、フォーカスに関する特徴量、及びズームに関する特徴量は、それぞれ、フォーカス操作により変化したフォーカス変動量、及びズーム操作により変化したズーム変動量である。そして、これらの特徴量についても、手ブレに関する特徴量と同様に、その大きさが撮影前に設定されている判定強度以上であるか否かに応じて、特徴量が検出された撮影タイミングが編集点として妥当であるか否かが判定される(ステップS3a)。
For example, the feature amount related to camera shake detected by the unique identification
さらに、固有識別情報処理部10aで検出された、発汗に関する特徴量は、撮影者の発汗量である。この検出された発汗量が、予め撮影前に設定されている判定強度、つまり発汗量の閾値以上であれば、この発汗に関する特徴量が検出された撮影タイミングが編集点として妥当であると判定され、上記発汗量が上記検出強度より小さければ、該撮影タイミングは編集点として妥当でないと判定される。また、固有識別情報処理部10aで検出された、α波に関する特徴量、まばたきに関する特徴量、瞳孔に関する特徴量、及び脈拍に関する特徴量は、α波の変化の大きさ、まばたきの頻度、瞳孔の変化の大きさ、及び脈拍数の変化の大きさである。そして、これらの撮影者の生理変化に関する特徴量についても、発汗に関する特徴量と同様、その値が予め撮影前に設定されている判定強度以上であるか否かに応じて、それぞれの特徴量が検出された撮影タイミングが編集点として妥当であるか否かが判定される(ステップS3a)。
Further, the feature amount related to sweating detected by the unique identification
画像処理部11aで検出された、画像に関する特徴量は、画像が急に変化した部分での変化の大きさ、あるいは画像がまったくあるいは実質的に変化しない部分が継続した時間である。そして、この検出された画像急変部分での変化の大きさ、あるいは画像無変化状態の継続時間が、予め撮影前に設定されている判定強度、つまり変化の大きさの閾値、あるいは状態継続時間の閾値以上であれば、これらの特徴量が検出された撮影タイミングが編集点として妥当であると判定され、そうでなければ、撮影タイミングは編集点として妥当でないと判定される(ステップS3b)。
The feature amount related to the image detected by the
音声処理部12aで検出された、音声に関する特徴量は、音声が大きく変化した部分での変化の大きさ、あるいは音声がまったくあるいは実質的に変化しない状態が継続した時間である。そして、この検出された音声急変部分での変化の大きさ、あるいは音声無変化状態の継続時間が、予め撮影前に設定されている判定強度、つまり変化の大きさの閾値、あるいは状態継続時間の閾値以上であれば、これらの特徴量が検出された撮影タイミングが編集点として妥当であると判定され、そうでなければ、該撮影タイミングは編集点として妥当でないと判定される(ステップS3c)。
The feature amount related to the sound detected by the
その後、編集点情報生成部22aは、特徴量判定部21で、各処理部10a、11a、12aから供給されたそれぞれの特徴量に基づいて、該特徴量が検出された撮影タイミングが編集点として妥当であると判定される度に、該撮影タイミングを示す編集点情報を生成するとともに、編集点として用いるピクチャを、該撮影タイミング以前であってこれに最も近いVOBユニットの先頭のIピクチャに設定したことを示す編集点ピクチャ情報を生成する(ステップS4)。
Thereafter, the editing point
図5は、編集点の設定処理を具体的に説明する図であり、図5(a)は、処理フローを示し、図5(b)は、撮影タイミングと、画像ストリームにおけるVOBユニットの切れ目との関係を示している。 5A and 5B are diagrams for specifically explaining the edit point setting process. FIG. 5A shows a processing flow, and FIG. 5B shows the shooting timing and the breaks of VOB units in the image stream. Shows the relationship.
この実施の形態1では、編集点情報生成部22aは、特徴量による遅延時間、つまり特徴量によって異なる、イベントの発生時点から該イベントの発生により撮影状況が変化するまでの時間を算出する(ステップS11)。
In the first embodiment, the editing point
次に、編集点情報生成部22aは、上記特徴量が検出された撮影タイミングTcpから、上記算出された遅延時間Δtだけ遡った撮影タイミングTepより前で最も近いVOBユニット(i)の切れ目を編集点に設定する(ステップS12a)。
Next, the edit point
その後、編集点情報生成部22aは、編集点として妥当であると判定された撮影タイミングTepを示す編集点情報を生成するとともに、図5(b)に示すように、編集点として用いるピクチャを、該撮影タイミング以前であってこれに最も近いVOBユニットVOBU(f)の先頭のIピクチャF1に設定したことを示す編集点設定情報を生成する。そして、オーディオビデオストリームのプレイアイテムを、撮影タイミングTepが編集点に設定されたことが示されるよう変更する(ステップS13)。
After that, the edit point
なお、図5(b)では、ピクチャF1は、その符号化あるいは復号化の際に他のピクチャを参照しないIピクチャであり、ピクチャF4、F7、F10は、符号化あるいは復号化の際に、前方のIピクチャあるいはPピクチャを参照するPピクチャであり、ピクチャF2、F3、F5、F6、F8、F9は、符号化あるいは復号化の際に、前方のIピクチャあるいはPピクチャと後方のPピクチャとを参照するBピクチャである。 In FIG. 5 (b), the picture F1 is an I picture that does not refer to other pictures at the time of encoding or decoding, and the pictures F4, F7, and F10 are at the time of encoding or decoding. A P picture that refers to a forward I picture or P picture, and the pictures F2, F3, F5, F6, F8, and F9 are, when encoded or decoded, a forward I picture or P picture and a backward P picture. B picture that refers to
そして、各VOBユニットは、複数のピクチャからなり、その先頭にはIピクチャが位置し、隣接するIピクチャとPピクチャの間、あるいは隣接する2つのPピクチャの間には2つのBピクチャが配置されている。また、VOBユニットVOBU(f−1)及びVOBU(f+1)は、VOBユニットVOBU(f)の前後に位置するVOBユニットである。 Each VOB unit is composed of a plurality of pictures, and an I picture is located at the head of the VOB unit. Two B pictures are arranged between adjacent I and P pictures or between two adjacent P pictures. Has been. The VOB units VOBU (f−1) and VOBU (f + 1) are VOB units positioned before and after the VOB unit VOBU (f).
〔再生時の動作〕
そして、再生時には、記録媒体に記録されたオーディオビデオストリームは、埋め込まれている編集点情報、つまり先頭ピクチャが編集点に設定されているVOBユニットに対応するプレイリストの開始時刻と終了時刻に基づいて自動編集して再生される。
[Operation during playback]
At the time of reproduction, the audio video stream recorded on the recording medium is based on embedded edit point information, that is, the start time and end time of the playlist corresponding to the VOB unit in which the first picture is set as the edit point. Automatically edited and played.
なお、上記記録媒体に記録されたオーディオビデオストリームの再生は、編集点をピックアップして自動編集して行うものに限らず、ユーザが設定した編集条件に基づいて、記録されたオーディオビデオストリームにおける、設定された編集条件を満たす部分のみを編集して行うものであってもよい。 Note that the playback of the audio video stream recorded on the recording medium is not limited to the one that is automatically edited by picking up the editing point, but in the recorded audio video stream based on the editing conditions set by the user, It may be performed by editing only the portion satisfying the set editing conditions.
図6は、例えば、設定条件に基づいて、記録されたオーディオビデオストリームを自動編集して再生する処理を説明する図である。
実施の形態1では、撮像装置101の再生部(図示せず)は、記録媒体に記録されたオーディオビデオストリームの再生が開始されると、該オーディオビデオストリームに含まれるプレイリストの各アイテムに基づいた処理が完了しているが否かを判定する(ステップS21)。処理が終了している場合は、再生を終了する。
FIG. 6 is a diagram for explaining processing for automatically editing and reproducing a recorded audio-video stream based on setting conditions, for example.
In
一方、上記再生部は、ステップS21での判定の結果、処理が終了していない場合は、編集点が編集条件を満たしているか否かを判定し(ステップS22)、特徴量に関する設定条件を満たしているVOBユニットVOBUを再生する(ステップS23)。 On the other hand, if the result of determination in step S <b> 21 is that processing has not ended, the playback unit determines whether or not the edit point satisfies editing conditions (step S <b> 22), and satisfies the setting condition regarding the feature amount. The current VOB unit VOBU is reproduced (step S23).
なお、オーディオビデオストリームに含まれている編集点に関する情報は、自動編集に利用できるだけでなく、ユーザによるオーディオビデオストリームの編集作業に利用することもできる。 Note that the information related to the editing points included in the audio video stream can be used not only for automatic editing but also for editing audio video streams by the user.
図7は、このような編集点の利用方法を説明する図であり、記録媒体に記録されているオーディオビデオストリームを編集するための表示画面を示している。
ここでは、表示装置200は、テレビジョンセットやパーソナルコンピュータの表示部であり、その表示画面210には、記録媒体に記録されている1つのコンテンツに対応するオーディオビデオストリームの全体を示す帯状インジケータ211、該オーディオビデオストリームにおける特定のVOBユニット211aを拡大して示す帯状インジケータ212、該VOBユニット211aにおける、編集点となっているピクチャ212a、212b、212c、212dのサムネイル画面213a、213b、213c、213dが示されている。
FIG. 7 is a diagram for explaining how to use such editing points, and shows a display screen for editing an audio video stream recorded on a recording medium.
Here, the
また、表示画面210には、処理用サムネイル表示領域220があり、この領域220には、ユーザが編集条件を調整する対象となっている編集点のピクチャが表示されている。表示画面210では、処理用サムネイル表示領域220と隣接して、編集点のピクチャが満たすべき編集条件である特徴量の判定強度を調整するための、各要素に対応した操作領域230及び240が表示されている。
Further, the
ユーザは、このように表示画面210上で、各編集点に設定されているピクチャが満たすべき編集条件、つまり特徴量の判定強度を調整することができる。
In this way, the user can adjust the editing condition to be satisfied by the picture set at each editing point, that is, the determination amount of the feature amount, on the
なお、上記編集サポートのための表示は、Iピクチャをすべてサムネイル画面で表示し、編集点となるピクチャのサムネイル画面を、他のIピクチャのサムネイル画面よりも大きくすることも可能である。 Note that the display for editing support can display all the I pictures on the thumbnail screen, and the thumbnail screen of the picture to be edited can be made larger than the thumbnail screens of the other I pictures.
また、上記編集サポートのための表示は、編集点となるピクチャをサムネイル表示する順序は、特徴量の発生要因の種別に応じた順序としても、あるいは、すべての要因に対して正規化した特徴量の大きさ順としもよい。 In addition, the display for the above-mentioned editing support is such that the order in which the pictures to be edited are displayed as thumbnails may be the order corresponding to the type of the cause of the feature quantity, or the feature quantity normalized with respect to all the factors. It may be in the order of size.
さらに、上記編集サポートの表示は、編集点に設定されているピクチャをスライドショー形式で順次表示するものでもよく、この場合、必要な編集点を要否選択することで一次編集を行い、細かな2次編集のためのサポートを行うことも可能である。 Further, the editing support may be displayed by sequentially displaying pictures set as editing points in a slide show format. In this case, primary editing is performed by selecting whether or not the necessary editing points are necessary. It is also possible to provide support for subsequent editing.
また、上記編集サポートのための表示は、編集点から数秒ずつを自動的につなぎ合わせて、好みのBGMの音程やテンポに合せて編集点を切り替えてダイジェストで表示するものであってもよい。この場合、記録されているオーディオビデオストリームをこのようなダイジェスト版になるよう編集しなおしても、特に編集しないでもこのような表示を行うだけでもよい。 The display for editing support may be one in which several seconds from the editing point are automatically connected, and the editing point is switched according to the favorite BGM pitch and tempo and displayed as a digest. In this case, the recorded audio-video stream may be re-edited so as to have such a digest version, or such display may be performed without any particular editing.
またさらに、制御部20aあるいは編集点情報生成部22aは、編集が終了したかどうかを認識するフラグも管理するものとし、記録されたオーディオビデオストリームは、編集されたものか否かの情報を有するものとしてもよい。
また、編集されたオーディオビデオストリームは、実データ部分は変更しないで、プレイリストのみ変更したものであってもよい。
Furthermore, the
The edited audio / video stream may be one in which only the playlist is changed without changing the actual data portion.
このように本実施の形態1の撮像装置101では、被写体の撮影により得られた画像信号Dimから、画像の変化の特徴を表す画像特徴量を抽出する画像処理部11aと、被写体の撮影により得られた音声信号Dauから、音声の変化の特徴を表す音声特徴量を抽出する音声処理部12aと、撮影者の生理変化を示す情報Didに基づいて、撮影状態の変化の特徴を表す固有特徴量を抽出する固有識別情報処理部10aとを備え、抽出された特徴量を予め設定されている判定強度と比較して、上記画像や音声が変化した撮影タイミングが編集点として妥当であるか否かを決定するので、撮影者にとって重要と思われる撮影部分を自動で編集可能なオーディオビデオストリームを生成することができる。
As described above, in the
また、この実施の形態1では、編集点は、編集点として妥当であると判定された撮影タイミングに近い、AV符号化データにおけるVOBユニットの切れ目に設定しているので、撮影により得られた画像信号が符号化されている状態でも、符号化された画像信号を処理することなく、編集点の設定が可能である。 In the first embodiment, the edit point is set at the break of the VOB unit in the AV encoded data close to the shooting timing determined to be valid as the edit point. Even when the signal is encoded, the edit point can be set without processing the encoded image signal.
また、この実施の形態1では、編集点を、イベントの発生時点からイベント発生により撮影状況が変化するまでの遅延時間だけ、撮影状況が変化した撮影タイミングから遡った撮影タイミングに設定するので、編集点を、ほぼイベントが実際に発生したタイミングに設定することができる。 In the first embodiment, the editing point is set to the shooting timing retroactive from the shooting timing at which the shooting situation has changed by the delay time from the event occurrence time until the shooting situation changes due to the event occurrence. The point can be set at the timing when the event actually occurs.
また、この実施の形態1では、撮影状況が変化した撮影タイミングを編集点として適切であると判定する際の判定強度を、操作者がマニュアルで設定する場合について説明したが、編集点設定のための個々の要因に対する判定強度は、撮像装置に予め設定されている複数のシナリオのうちから、運動会や結婚式に対応するものを選択することにより、設定するようにしてもよい。 In the first embodiment, the case where the operator manually sets the determination strength when determining that the shooting timing at which the shooting situation has changed is appropriate as the edit point has been described. The determination strength for each of the factors may be set by selecting one corresponding to an athletic meet or wedding from a plurality of scenarios set in advance in the imaging apparatus.
このようにシナリオの選択により個々の要因に対する判定強度を決定する撮像装置は、例えば、実施の形態1の撮像装置において、上記制御部を、複数のシナリオのそれぞれと、上記画像特徴量、音声特徴量、及び固有特徴量の各々に対する閾値レベルの組合せとの対応関係を示すテーブル情報を保持し、ユーザのマニュアル操作により指定されたシナリオと、上記テーブル情報とに基づいて、上記各要因に対応する特徴量の閾値レベルを設定するものとし、さらに上記特徴量判定部を、上記画像特徴量、音声特徴量、及び固有特徴量を、それぞれに対応する、上記制御部で設定された閾値レベルに基づいて、上記画像、音声、及び撮影状態が変化した撮影タイミングが編集点として妥当であるか否かを判定するものとすることにより、実現することが可能である。
As described above, the imaging device that determines the determination strength for each factor by selecting a scenario, for example, in the imaging device of
この場合、上記複数のシナリオのそれぞれと、上記画像特徴量、音声特徴量、及び固有特徴量の各々に対する閾値レベルの組合せとの対応関係を示すテーブル情報には、ネットワーク上の情報端末からダウンロードして取得したものを利用することも可能である。 In this case, table information indicating a correspondence relationship between each of the plurality of scenarios and a combination of threshold levels for each of the image feature amount, the sound feature amount, and the unique feature amount is downloaded from an information terminal on the network. It is also possible to use what has been acquired.
なお、上記テーブル情報に含まれる各特徴量の閾値レベルの組み合わせは、画像特徴量、音声特徴量、及び固有特徴量のうちの2つでもよく、また、上記テーブル情報は、複数のシナリオのそれぞれと、上記画像特徴量、音声特徴量、及び固有特徴量のいずれか1つに対する閾値レベルとの対応関係を示すものでもよい。 The combination of threshold levels of each feature amount included in the table information may be two of an image feature amount, an audio feature amount, and a unique feature amount, and the table information includes each of a plurality of scenarios. And a threshold level corresponding to any one of the image feature value, the sound feature value, and the unique feature value.
(実施の形態2)
図8は、本発明の実施の形態2による撮像装置を説明するための図である。
本実施の形態2の撮像装置102は、実施の形態1の撮像装置101における編集点情報生成部22aに代えて、編集点となるピクチャがIピクチャでない場合は、編集点となるピクチャとその近傍のピクチャのピクチャタイプを変更するよう画像処理部11aに再符号化を指令する編集点情報生成部22bを備えたものである。また、制御部20bは、再符号化時に画像処理部11aを制御する点のみ、実施の形態1の制御部20aと異なっている。そして、本実施の形態2の撮影装置102のその他の構成は、実施の形態1の撮像装置101と同一である。
(Embodiment 2)
FIG. 8 is a diagram for explaining an imaging apparatus according to
In the
次に動作について説明する。
この実施の形態2の撮像装置102では、撮影前のマニュアル設定操作は、実施の形態1と同様に行われる。
Next, the operation will be described.
In the
撮影が開始されると、撮像装置102の特徴量判定部21は、実施の形態1の撮像装置101と同様、画像情報、音声情報、及び撮影状態に関する情報を取得し、該取得した情報から得られた、ユーザ操作や撮影者の生理的変化の特徴量、画像の特徴量、及び音声の特徴量に基づいて、撮影状況が変化した撮影タイミングが編集点として妥当であるか否かを判定する。
When shooting is started, the feature
そして、この実施の形態2では、編集点情報生成部22bは、特徴量判定部21で、各処理部10a、11a、12aから供給されたそれぞれの特徴量に基づいて、撮影状況が変化した撮影タイミングが編集点として妥当であると判定される度に、編集点を示す編集点情報を生成し、編集点に対応するピクチャがIピクチャ以外である場合には再符号化の指令を画像処理部11aに対して行う。
In the second embodiment, the editing point
図9は、編集点情報の生成処理、及び再符号化処理のフローを示す。
この実施の形態2では、制御部20bは、特徴量の種類に応じた遅延時間、つまり特徴量によって異なる、イベントの発生時点から該イベント発生により撮影状況が変化するまでの時間を算出する(ステップS11)。
FIG. 9 shows a flow of edit point information generation processing and re-encoding processing.
In the second embodiment, the
次に、編集点情報生成部22bは、上記特徴量が検出された撮影タイミングTcpから上記遅延時間だけ遡った撮影タイミングTepに対応するピクチャを先頭するVOBユニットを強制的に作成するよう画像処理部11aに指令する。すると、画像処理部11aは、強制的にVOBユニットVOBUを作成しなおす再符号化処理を行う(ステップS12b)。
Next, the editing point
その後、編集点情報生成部22bは、編集点として妥当であると判定された撮影タイミングTepを示す編集点情報を生成するとともに、図10(b)〜(d)に示すように、編集点を、強制的に作成したVOBユニットVOBUの先頭のIピクチャに設定したことを示す編集点ピクチャ情報を生成する。そして、オーディオビデオストリームのプレイアイテムを、撮影タイミングTepが編集点に設定されたことが示されるよう変更する(ステップS13)。
Thereafter, the editing point
以下、強制的にVOBユニットVOBUを作成しなおす再符号化処理を説明する図である。
図10(a)は、複数のピクチャF1、F2、F3、F4、F5、F6、F7、F8、F9、F10、・・・からなる1つのVOBユニットVOBU(f)を示している。
Hereinafter, a re-encoding process for forcibly re-creating a VOB unit VOBU will be described.
FIG. 10A shows one VOB unit VOBU (f) composed of a plurality of pictures F1, F2, F3, F4, F5, F6, F7, F8, F9, F10,.
ここで、ピクチャF1は、その符号化及び復号化の際に他のピクチャを参照しないIピクチャであり、ピクチャF4、F7、F10は、符号化及び復号化の際に、前方のIピクチャあるいはPピクチャを参照するPピクチャであり、ピクチャF2、F3、F5、F6、F8、F9は、符号化及び復号化の際に、前方のIピクチャあるいはPピクチャと後方のPピクチャとを参照するBピクチャであり、図10(a)に示す各ピクチャは、MPEG‐2で規定されている本来の参照関係となっている。 Here, the picture F1 is an I picture that does not refer to other pictures at the time of encoding and decoding, and the pictures F4, F7, and F10 are the front I picture or P at the time of encoding and decoding. P pictures that refer to pictures, and pictures F2, F3, F5, F6, F8, and F9 are B pictures that refer to forward I pictures or P pictures and backward P pictures at the time of encoding and decoding. Each picture shown in FIG. 10A has an original reference relationship defined by MPEG-2.
図10(b)は、編集点となるピクチャが、VOBユニットVOBU(f)の4番目のピクチャF4となり、このピクチャF4のピクチャタイプを変更し、かつその前の2つのBピクチャF2及びF3の参照関係を変更する場合を示している。 In FIG. 10B, the picture to be edited is the fourth picture F4 of the VOB unit VOBU (f), the picture type of this picture F4 is changed, and the two previous B pictures F2 and F3 are changed. The case where the reference relationship is changed is shown.
この場合は、ピクチャF4は、PピクチャからIピクチャに変更され、BピクチャF2及びF3は、前方のIピクチャF1のみを参照するよう再符号化される。また、ピクチャF4を先頭とする新たなVOBユニットVOBU(fb1)が作成され、ピクチャF4以降のピクチャのインデックスの付け替えなどの処理が行われる。なお、VOBユニットVOBU(fa1)は、BピクチャF2及びF3の参照関係を変更した、VOBユニットVOBU(fb1)直前の新たなVOBユニットである。 In this case, the picture F4 is changed from the P picture to the I picture, and the B pictures F2 and F3 are re-encoded to refer only to the front I picture F1. Also, a new VOB unit VOBU (fb1) starting from the picture F4 is created, and processing such as changing the index of pictures after the picture F4 is performed. The VOB unit VOBU (fa1) is a new VOB unit immediately before the VOB unit VOBU (fb1), in which the reference relationship between the B pictures F2 and F3 is changed.
図10(c)は、編集点となるピクチャが、VOBユニットVOBU(f)の5番目のピクチャF5となり、このピクチャF5及びその後のBピクチャF6の参照関係を変更し、PピクチャF7のピクチャタイプを変更する場合を示している。 In FIG. 10C, the picture to be edited is the fifth picture F5 of the VOB unit VOBU (f), the reference relationship between this picture F5 and the subsequent B picture F6 is changed, and the picture type of the P picture F7 Shows the case of changing.
この場合は、ピクチャF7は、PピクチャからIピクチャに変更され、ピクチャF5及びF6は、ピクチャタイプが変更された後方のIピクチャF7のみを参照するよう再符号化される。また、ピクチャF5を先頭とする新たなVOBユニットVOBU(fb2)が作成され、ピクチャF8以降のピクチャのインデックスの付け替えなどの処理が行われる。なお、VOBユニットVOBU(fa2)は、PピクチャF4を最終ピクチャとする、VOBユニットVOBU(fb2)直前の新たなVOBユニットである。 In this case, the picture F7 is changed from the P picture to the I picture, and the pictures F5 and F6 are re-encoded to refer only to the rear I picture F7 whose picture type is changed. Also, a new VOB unit VOBU (fb2) starting from the picture F5 is created, and processing such as changing the index of pictures after the picture F8 is performed. The VOB unit VOBU (fa2) is a new VOB unit immediately before the VOB unit VOBU (fb2) with the P picture F4 as the last picture.
図10(d)は、編集点となるピクチャが、VOBユニットVOBU(f)の6番目のピクチャF6となり、このピクチャF6の参照関係と、その前後のBピクチャF5及びF7の参照関係を変更する場合を示している。 In FIG. 10D, the picture that is the editing point is the sixth picture F6 of the VOB unit VOBU (f), and the reference relationship of this picture F6 and the reference relationship of the B pictures F5 and F7 before and after that are changed. Shows the case.
この場合は、ピクチャF7は、PピクチャからIピクチャに変更され、ピクチャF5は、その前方のPピクチャF4のみを参照し、ピクチャF6は、その後方のPピクチャF7のみを参照するよう再符号化される。また、ピクチャF6を先頭とする新たなVOBユニットVOBU(fb3)が作成され、ピクチャF8以降のピクチャのインデックスの付け替えなどの処理が行われる。なお、VOBユニットVOBU(fa3)は、PピクチャF5を最終ピクチャとする、VOBユニットVOBU(fb3)直前の新たなVOBユニットである。 In this case, the picture F7 is changed from the P picture to the I picture, the picture F5 is re-encoded to refer only to the front P picture F4, and the picture F6 is referred to only the rear P picture F7. Is done. Also, a new VOB unit VOBU (fb3) starting from the picture F6 is created, and processing such as changing the index of pictures after the picture F8 is performed. The VOB unit VOBU (fa3) is a new VOB unit immediately before the VOB unit VOBU (fb3) with the P picture F5 as the final picture.
このような構成の実施の形態2では、被写体の撮影により得られた画像信号から、画像の変化の特徴を表す画像特徴量を抽出する画像処理部11aと、被写体の撮影により得られた音声信号から、音声の変化の特徴を表す音声特徴量を抽出する音声処理部12aと、撮影者の生理変化を示す情報に基づいて、撮影状態の変化の特徴を表す固有特徴量を抽出する固有識別情報処理部10aとを備え、抽出された特徴量を予め設定されている判定強度と比較して、画像や音声などが変化した撮影タイミングが編集点として妥当であるか否かを判定するので、実施の形態1と同様、撮影者にとって重要と思われる撮影部分を自動で編集可能なオーディオビデオストリームを生成することができる。
In the second embodiment having such a configuration, an
また、この実施の形態2では、編集点は、編集点として妥当であると判定された撮影タイミングに対応するピクチャが、VOBユニットの切れ目となるよう、そのピクチャタイプ及びその周辺のピクチャの参照関係が変更されるよう、これらのピクチャを再符号化するので、撮影により得られた画像信号が符号化されている状態でも、編集点の設定を正確に行うことができる。 In the second embodiment, the edit point is a reference relationship between the picture type and surrounding pictures so that the picture corresponding to the shooting timing determined to be valid as the edit point becomes a break in the VOB unit. Since these pictures are re-encoded so as to be changed, edit points can be set accurately even when the image signal obtained by shooting is encoded.
また、この実施の形態2では、編集点は、イベントの発生から該イベント発生により撮影状態が変化するまでの遅延時間だけ、画像や音声などの撮影状況が変化した撮影タイミングから遡った撮影タイミングに設定するので、編集点を、ほぼイベントが実際に発生したタイミングに設定することができる。 Further, in the second embodiment, the editing point is set to the shooting timing retroactive from the shooting timing when the shooting situation such as the image and the sound changes by the delay time from the occurrence of the event until the shooting state changes due to the event occurrence. Since it is set, the edit point can be set at the timing when the event actually occurs.
なお、上記実施の形態2では、編集点に設定されたピクチャが画面間予測ピクチャである場合は、このピクチャが面内予測ピクチャとなるようトランスコードして記録するようにしているが、トランスコードにより得られた面内予測ピクチャは、上記編集点に設定された画面間予測ピクチャとは別に、そのサブピクチャとして記録するようにしてもよい。
この場合、編集時には、編集点に設定されている画面間予測ピクチャをそのサブピクチャとして記録されている画面内予測ピクチャと置き換え、該置き換えた画面内予測ピクチャを、編集点であるVOBユニットの先頭ピクチャとして再生に利用することができる。
In the second embodiment, when the picture set at the edit point is an inter-picture prediction picture, the picture is transcoded and recorded so as to be an in-plane prediction picture. The in-plane prediction picture obtained by the above may be recorded as a sub-picture separately from the inter-picture prediction picture set at the editing point.
In this case, at the time of editing, the inter-screen prediction picture set at the editing point is replaced with the intra-screen prediction picture recorded as the sub picture, and the replaced intra-screen prediction picture is replaced with the head of the VOB unit that is the editing point. It can be used for playback as a picture.
(実施の形態3)
図11は、本発明の実施の形態3による撮像装置を説明するための図である。
本実施の形態3の撮像装置103は、実施の形態1の撮像装置101における編集点情報生成部22aに代えて、編集点を挿入する際、符号化前のバッファデータがあるか否かによって、先頭ピクチャが編集点に対応した新たなVOBユニットVOBUを生成する処理と、編集点をこの編集点に最も近いVOBユニットVOBUの切れ目に設定する処理とを切り替える編集点情報生成部22cを備えたものである。また、制御部20cは、編集点の設定処理の切り替えに応じて画像処理部11aを制御する点のみ、実施の形態1の制御部20aと異なっている。そして、本実施の形態3の撮影装置103のその他の構成は、実施の形態1の撮像装置101と同一である。
(Embodiment 3)
FIG. 11 is a diagram for explaining an imaging apparatus according to
The
次に動作について説明する。
この実施の形態3の撮像装置では、撮影前のマニュアル設定操作は、実施の形態1と同様に行われる。
Next, the operation will be described.
In the imaging apparatus according to the third embodiment, the manual setting operation before shooting is performed in the same manner as in the first embodiment.
撮影が開始されると、撮像装置103は、実施の形態1の撮像装置101と同様、画像情報、音声情報、及び撮影状態を示す情報を取得し、該取得した情報から得られた、ユーザ操作や撮影者の生理的変化の特徴量、画像の特徴量、及び音声の特徴量に基づいて、画像や音声などの撮影状況が変化した撮影タイミングが編集点として妥当であるか否かを判定する。
When shooting starts, the
そして、この実施の形態3では、編集点情報生成部22cは、特徴量判定部21で、各処理部10a、11a、12aから供給されたそれぞれの特徴量に基づいて、撮影状況が変化した撮影タイミングが編集点として妥当であると判定される度に、編集点を設定した撮影タイミングを示す編集点情報を生成し、編集点の設定処理を行う。
In the third embodiment, the editing point
図12は、編集点の設定処理のフローを示す。
この実施の形態3では、制御部20cは、特徴量の種類に応じた遅延時間、つまり特徴量によって異なる、イベントの発生時点から該イベント発生により撮影状況が変化するまでの時間を算出する(ステップS11)。
FIG. 12 shows a flow of edit point setting processing.
In the third embodiment, the
次に、編集点情報生成部22cは、遅延時間の算出時点で、符号化前の画像信号であるバッファデータがあるか否かを判定し(ステップS11a)、符号化前のバッファデータがあると判定された場合は、作成途中のVOBユニットVOBUをクローズして、新たなVOBユニットVOBUを作成する(ステップS12c)。一方、ステップS11aにて、符号化前のバッファデータがないと判定された場合は、撮影状況が変化したタイミングTcpから、算出された遅延時間だけ遡った撮影タイミングTep以前で、この撮影タイミングTepに最も近いVOBユニットVOBUの切れ目を編集点とする処理を行う(ステップS12a)。このステップS12aの処理は、実施の形態1のステップS12aの処理と同じものである。
Next, the edit point
その後、編集点情報生成部22cは、編集点として妥当であると判定された撮影タイミングTepを示す編集点情報を生成するとともに、上記ステップS12a及びS12cのいずれかの処理により編集点が設定されたかが示されるよう、システムストリームのプレイアイテムを変更する(ステップS13)。
Thereafter, the editing point
以下、図13は、上記ステップS12cで、先頭ピクチャを編集点に設定した新たなVOBユニットVOBUを作成する処理を説明する図である。
図13(a)は、複数のピクチャJ1、J2、J3、J4、J5、J6、J7、J8、J9、J10、・・・からなる1つのVOBユニットVOBU(j)を示している。
Hereinafter, FIG. 13 is a diagram for explaining the process of creating a new VOB unit VOBU in which the first picture is set as an edit point in step S12c.
FIG. 13A shows one VOB unit VOBU (j) composed of a plurality of pictures J1, J2, J3, J4, J5, J6, J7, J8, J9, J10,.
ここで、ピクチャJ1は、その符号化及び復号化の際に他のピクチャを参照しないIピクチャであり、ピクチャJ4、J7、J10は、符号化及び復号化の際に、前方のIピクチャあるいはPピクチャを参照するPピクチャであり、ピクチャJ2、J3、J5、J6、J8、J9は、符号化及び復号化の際に、前方のIピクチャあるいはPピクチャと後方のPピクチャとを参照するBピクチャであり、VOBユニットVOBU(j)の各ピクチャは、MPEG‐2で規定されている本来の参照関係となっている。 Here, the picture J1 is an I picture that does not refer to other pictures at the time of encoding and decoding, and the pictures J4, J7, and J10 are the preceding I picture or P at the time of encoding and decoding. P pictures that refer to pictures, and pictures J2, J3, J5, J6, J8, and J9 are B pictures that refer to a forward I picture or P picture and a backward P picture at the time of encoding and decoding. Each picture of the VOB unit VOBU (j) has an original reference relationship defined by MPEG-2.
図13(b)は、VOBユニットVOBU(j)の4番目のピクチャJ4を編集点として新たなVOBユニットVOBUを生成する場合を示している。
この場合は、VOBユニットVOBU(j)におけるPピクチャとして符号化されるべきピクチャJ4は、新たなVOBユニットVOBU(ja)の先頭のIピクチャJa1として符号化される。VOBユニットVOBU(j)における、それぞれBピクチャである2番目ピクチャJ2と3番目のピクチャJ3は、前方のIピクチャJ1のみを参照するBピクチャとして符号化される。なお、VOBユニットVOBU(ja)におけるピクチャJa4、Ja7は、符号化及び復号化の際に、前方のIピクチャあるいはPピクチャを参照するPピクチャであり、VOBユニットVOBU(ja)におけるピクチャJa2、Ja3、Ja5、Ja6は、符号化及び復号化の際に、前方のIピクチャあるいはPピクチャと後方のPピクチャとを参照するBピクチャである。
FIG. 13B shows a case where a new VOB unit VOBU is generated with the fourth picture J4 of the VOB unit VOBU (j) as an editing point.
In this case, the picture J4 to be encoded as the P picture in the VOB unit VOBU (j) is encoded as the first I picture Ja1 of the new VOB unit VOBU (ja). In the VOB unit VOBU (j), the second picture J2 and the third picture J3, which are B pictures, are encoded as B pictures that refer to only the front I picture J1. Note that the pictures Ja4 and Ja7 in the VOB unit VOBU (ja) are P pictures that refer to the preceding I picture or P picture in encoding and decoding, and the pictures Ja2 and Ja3 in the VOB unit VOBU (ja). , Ja5, and Ja6 are B pictures that refer to the front I picture or P picture and the rear P picture at the time of encoding and decoding.
図13(c)は、VOBユニットVOBU(j)の5番目のピクチャJ5を編集点として新たなVOBユニットVOBUを生成する場合を示している。
この場合は、VOBユニットVOBU(j)におけるBピクチャとして符号化されるべきピクチャJ5は、新たなVOBユニットVOBU(jb)の先頭のIピクチャとして符号化される。なお、VOBユニットVOBU(jb)におけるピクチャJ8は、符号化及び復号化の際に、前方のIピクチャを参照するPピクチャであり、VOBユニットVOBU(jb)におけるピクチャJ6、J7、J9、J10は、符号化及び復号化の際に、前方のIピクチャあるいはPピクチャと後方のPピクチャとを参照するBピクチャである。
FIG. 13C shows a case where a new VOB unit VOBU is generated with the fifth picture J5 of the VOB unit VOBU (j) as an editing point.
In this case, the picture J5 to be encoded as the B picture in the VOB unit VOBU (j) is encoded as the first I picture of the new VOB unit VOBU (jb). Note that the picture J8 in the VOB unit VOBU (jb) is a P picture that refers to the front I picture at the time of encoding and decoding, and the pictures J6, J7, J9, and J10 in the VOB unit VOBU (jb) are The B picture refers to a front I picture or P picture and a rear P picture at the time of encoding and decoding.
図13(d)は、VOBユニットVOBU(j)の6番目のピクチャJ6を編集点として新たなVOBユニットVOBUを生成する場合を示している。
この場合は、VOBユニットVOBU(j)におけるBピクチャとして符号化されるべきピクチャJ6は、新たなVOBユニットVOBU(jc)の先頭のIピクチャとして符号化される。VOBユニットVOBU(j)における、Bピクチャである5番目ピクチャJ5は、前方のPピクチャJ4のみを参照するBピクチャとして符号化される。なお、VOBユニットVOBU(jc)におけるピクチャJ9は、符号化及び復号化の際に、前方のIピクチャを参照するPピクチャであり、VOBユニットVOBU(jc)におけるピクチャJ7、J8、J10は、符号化及び復号化の際に、前方のIピクチャあるいはPピクチャと後方のPピクチャとを参照するBピクチャである。
FIG. 13D shows a case where a new VOB unit VOBU is generated with the sixth picture J6 of the VOB unit VOBU (j) as an editing point.
In this case, the picture J6 to be encoded as the B picture in the VOB unit VOBU (j) is encoded as the first I picture of the new VOB unit VOBU (jc). The fifth picture J5 that is a B picture in the VOB unit VOBU (j) is encoded as a B picture that refers to only the front P picture J4. Note that the picture J9 in the VOB unit VOBU (jc) is a P picture that refers to the front I picture at the time of encoding and decoding, and the pictures J7, J8, and J10 in the VOB unit VOBU (jc) are code This is a B picture that refers to a forward I picture or P picture and a backward P picture at the time of encoding and decoding.
このような構成の実施の形態3では、被写体の撮影により得られた画像信号から、画像の変化の特徴を表す画像特徴量を抽出する画像処理部11aと、被写体の撮影により得られた音声信号から、音声の変化の特徴を表す音声特徴量を抽出する音声処理部12aと、撮影者の生理変化を示す情報に基づいて、撮影状態の変化の特徴を表す固有特徴量を抽出する固有識別情報処理部10aとを備え、抽出された特徴量を予め設定されている判定強度と比較して、この特徴量の発生した撮影タイミングが編集点として妥当であるか否かを判定するので、実施の形態1と同様、撮影者にとって重要と思われる撮影部分を自動で編集可能なオーディオビデオストリームを生成することができる。
In the third embodiment having such a configuration, an
また、この実施の形態3では、編集点を挿入する際、符号化前のバッファデータがあるか否かによって、編集点を先頭ピクチャとする新たなVOBユニットVOBUを生成する処理と、イベントの発生タイミングに最も近いVOBユニットVOBUの切れ目を編集点とする処理とを切り替えるので、撮影により得られた画像信号が符号化されていない場合は、編集点を基準としてVOBユニットVOBUを生成することにより正確な位置に編集ポイントを設定することができ、また、撮影により得られた画像信号が符号化されている場合には、オーディオビデオストリームを処理することなく、編集点の設定を簡単に行うことができる。 In the third embodiment, when an edit point is inserted, processing for generating a new VOB unit VOBU having the edit point as the first picture and occurrence of an event depending on whether or not there is buffer data before encoding. Since the process of changing the cut point of the VOB unit VOBU closest to the timing to the edit point is switched, if the image signal obtained by shooting is not encoded, the VOB unit VOBU is accurately generated by using the edit point as a reference. Edit points can be set at various positions, and when the image signal obtained by shooting is encoded, the edit points can be easily set without processing the audio-video stream. it can.
また、この実施の形態3では、編集点は、イベント発生からその検出、つまりイベント発生により撮影状況が変化するまでの遅延時間だけ、撮影状況が変化したタイミングから遡った撮影タイミングに設定するので、編集点を、ほぼイベントが実際に発生した撮影タイミングに設定することができる。 In the third embodiment, the editing point is set to the shooting timing retroactive from the timing at which the shooting situation has changed by the delay time from the occurrence of the event to its detection, that is, until the shooting situation changes due to the event occurrence. The editing point can be set to the shooting timing when the event actually occurs.
なお、上記実施の形態3では、イベントが発生してから実際に画像、音声、あるいは撮影状態が変化するまでの遅延時間に応じて、編集点を設定する撮影タイミングを決定しているが、イベントは、画像、音声、あるいは撮影状態が変化した後に発生する場合もあり、このような場合には、画像、音声、あるいは撮影状態の変化からイベント発生までの時間に応じて、編集点を設定する撮影タイミングを決定するようにしてもよい。 In the third embodiment, the shooting timing for setting the edit point is determined according to the delay time from the occurrence of the event to the actual change of the image, sound, or shooting state. May occur after the image, sound, or shooting state changes. In such a case, the edit point is set according to the time from the change of the image, sound, or shooting state to the event occurrence. The shooting timing may be determined.
また、上記実施の形態3では、撮影により得られた画像信号が符号化されている場合には、イベントが発生したタイミングに最も近いVOBユニットVOBUの切れ目を編集点としているが、この場合は、編集点として妥当であると判定された撮影タイミングに対応するピクチャが、VOBユニットの切れ目となるよう、そのピクチャタイプ及びその周辺のピクチャの参照関係が変更されるよう、これらのピクチャを再符号化するようにしてもよい。 In the third embodiment, when the image signal obtained by shooting is encoded, the cut point of the VOB unit VOBU closest to the timing at which the event occurs is set as the editing point. In this case, These pictures are re-encoded so that the picture type and the reference relationship of the surrounding pictures are changed so that the picture corresponding to the shooting timing determined to be valid as the editing point becomes a break in the VOB unit. You may make it do.
この場合、図14に示すように、編集点を設定する際、符号化前のバッファデータがあるか否かの判定(ステップS11a)の結果によって、編集点を先頭ピクチャとする新たなVOBユニットVOBUを生成する処理(ステップS12c)と、編集点として妥当であると判定された撮影タイミングに対応するピクチャが、VOBユニットの切れ目となり、かつそのピクチャタイプ及びその周辺のピクチャの参照関係が変更されるよう、これらのピクチャを再符号化する処理(ステップS12b)とが切り替えられることとなる。 In this case, as shown in FIG. 14, when setting an edit point, a new VOB unit VOBU having the edit point as the first picture is determined based on the result of determination as to whether there is buffer data before encoding (step S11a). And the picture corresponding to the shooting timing determined to be valid as the edit point become a break in the VOB unit, and the reference relationship between the picture type and the surrounding pictures is changed. As described above, the process of re-encoding these pictures (step S12b) is switched.
さらに、撮影により得られた画像信号が符号化されている場合には、イベント発生タイミングに最も近いVOBユニットVOBUの切れ目を編集点とする処理と、再符号化により強制的にVOBユニットVOBUを生成する処理とを、再符号化に要する時間が上記画像処理部での符号化処理に利用可能な残り時間を超えているか否かに応じて切り替えるようにしてもよい。 Furthermore, when the image signal obtained by shooting is encoded, processing for setting the break of the VOB unit VOBU closest to the event occurrence timing as an edit point and forcibly generating the VOB unit VOBU by re-encoding You may make it switch to the process to perform according to whether the time which re-encoding requires exceeds the remaining time which can be utilized for the encoding process in the said image process part.
図15は、符号化前のバッファデータがない場合に、符号化に使える残り時間に応じて、編集点を設定する処理を切り替えるフローを示している。
この場合、編集点を挿入する際、符号化前のバッファデータがあるか否かを判定し(ステップS12)、バッファデータがあると判定された場合は、実施の形態3と同様に、編集点を先頭ピクチャとする新たなVOBユニットVOBUを強制的に生成する処理(ステップS13a)を行う。
FIG. 15 shows a flow for switching processing for setting an edit point according to the remaining time available for encoding when there is no buffer data before encoding.
In this case, when the edit point is inserted, it is determined whether there is buffer data before encoding (step S12). If it is determined that there is buffer data, the edit point is the same as in the third embodiment. A process for forcibly generating a new VOB unit VOBU with the first picture as the first picture is performed (step S13a).
一方、符号化前のバッファデータがないと判定された場合には、再符号化に要する時間が、その時点で画像処理部11aでの符号化処理に利用できる残り時間を超えているか否かを判定する(ステップS12a)。そして、再符号化に要する時間が、その時点で符号化処理に使える残り時間を超えていると判定された場合には、編集点は、イベント発生タイミングに近いVOBユニットの切れ目に設定し(ステップS13c)、一方、ステップS12aにて、再符号化に要する時間が、その時点で符号化処理に使える残り時間を超えていないと判定された場合には、イベント発生タイミングに対応するピクチャを先頭とするVOBユニットを強制的に作成する再符号化処理を行う(ステップS13b)。なお、図15に示す処理フローでは、符号化前のバッファデータがない場合には、上記ステップS13bの処理とステップS13cの処理を、再符号化に要する時間と、画像処理部での符号化処理に使える残り時間との比較結果に応じて切り替えているが、この処理フローは、符号化前のバッファデータがない場合は、予め撮影者が設定した、ステップS13b及びステップS13cのいずれか一方の処理を行うものであってもよい。
On the other hand, if it is determined that there is no buffer data before encoding, it is determined whether or not the time required for re-encoding exceeds the remaining time available for encoding processing in the
さらに、上記各実施の形態では、オーディオビデオストリームはMPEG‐2に対応するシステムストリームを想定しているが、オーディオビデオストリームは、MPEG‐4やMPEG‐4AVCに対応するシステムストリームを想定したものであってもよい。 Further, in each of the above embodiments, the audio video stream is assumed to be a system stream corresponding to MPEG-2, but the audio video stream is assumed to be a system stream corresponding to MPEG-4 or MPEG-4 AVC. There may be.
ただし、MPEG‐4AVC対応のシステムストリームでは、Iピクチャには、ランダムアクセス不可能なIピクチャとランダムアクセス可能なIピクチャ(IDR)があるため、編集点として設定するIピクチャは、イベント発生タイミングから最も近い、ランダムアクセス可能なIピクチャ(IDR)とされる。 However, in an MPEG-4AVC-compatible system stream, there are I pictures that cannot be randomly accessed and I pictures (IDR) that can be accessed randomly, so that the I picture set as the edit point is determined from the event occurrence timing. It is the closest, randomly accessible I picture (IDR).
また、MPEG‐4AVC対応のシステムストリームには、補助的な情報の書き込み領域(SEI)が設定されているため、この書き込み領域に、特徴量の発生がどのような要因によるものであるかを示す情報を埋め込むこともできる。 In addition, since an auxiliary information writing area (SEI) is set in the MPEG-4 AVC compatible system stream, it indicates what causes the generation of the feature amount in this writing area. You can also embed information.
また、上記各実施の形態では、オーディオビデオストリームは、1つのシーケンスに対応するピクチャのデータを含むものであるが、このストリームは、1つのシーケンスに対応するピクチャのデータのほかに、サムネイル編集選択のためのシーケンス外のサブピクチャのデータを埋め込んだものであってもよい。この場合、編集時には、編集点として適切なピクチャを、サムネイル表示により一目で確認することができる。 In each of the above embodiments, the audio / video stream includes picture data corresponding to one sequence. This stream is used for thumbnail editing selection in addition to picture data corresponding to one sequence. The sub-picture data outside the sequence may be embedded. In this case, at the time of editing, an appropriate picture as an editing point can be confirmed at a glance by displaying thumbnails.
また、上記各実施の形態では、編集点に設定されたピクチャを全て編集に利用しているが、編集点が多いと編集しにくいということも考えられるので、編集点の設定後に、各編集点の設定要因毎に、つまり画像の変化や音声の変化などの別に、編集点を間引くようにしてよい。例えば、設定された複数の編集点から、音声の変化によって設定された編集点を削除することにより、編集時に利用する編集点の情報を削減することができる。 In each of the above embodiments, all the pictures set as edit points are used for editing. However, it may be difficult to edit if there are many edit points. The editing points may be thinned out for each setting factor, that is, for each change of the image or the change of the sound. For example, by deleting an edit point set by a change in sound from a plurality of set edit points, it is possible to reduce information on the edit point used at the time of editing.
また、MPEG‐4AVCのシステムストリームでは、ランダムアクセス可能なIピクチャ(IDR)は、ランダムアクセス不可能なIピクチャよりも間隔をあけて配置されているため、このようなIピクチャ(IDR)を編集点として設定することにより、編集点の数を減らすことができる。 In addition, in the MPEG-4 AVC system stream, randomly accessible I pictures (IDR) are arranged with a gap from I pictures that cannot be randomly accessed, so such I pictures (IDR) are edited. By setting as a point, the number of editing points can be reduced.
またさらに、上記各実施の形態では、編集点の設定は、イベント発生時の特徴量が一定の判定強度以上であるか否かを判定して、イベント発生タイミングを編集点として設定しているが、イベント発生タイミングをすべて編集点として設定し、編集時に、編集点を実際に利用するか否かを決定するようにしてもよい。 Furthermore, in each of the above-described embodiments, the edit point is set by determining whether or not the feature amount at the time of the event occurrence is equal to or higher than a predetermined determination strength and setting the event occurrence timing as the edit point. Alternatively, all the event occurrence timings may be set as edit points, and at the time of editing, it may be determined whether or not the edit points are actually used.
このような構成の撮影装置は、具体的には、実施の形態1〜3のいずれかの撮像装置の情報生成部を、画像、音声、あるいは撮影状態が変化した撮影タイミングを編集点として示す編集点情報を生成するものとし、さらに、その特徴量判定部を、オーディオビデオストリームを編集する際、上記画像特徴量、音声特徴量、あるいは固有特徴量を判定して、上記編集点情報が編集点として示す撮影タイミングを編集に用いるか否かを決定するものとすることにより実現できる。 Specifically, the image capturing apparatus configured as described above is configured to edit the information generation unit of any of the image capturing apparatuses according to any one of the first to third embodiments using an image, a sound, or a shooting timing at which the shooting state is changed as an edit point. Point information is generated, and the feature amount determination unit determines the image feature amount, the audio feature amount, or the unique feature amount when the audio video stream is edited, and the edit point information is determined to be an edit point. It can be realized by determining whether or not to use the photographing timing shown as for editing.
この場合、具体的には、上記画像、音声、及び撮影状態を変化させるすべてのイベントの発生時刻は、撮影タイミングを編集点として示す編集点情報として上記オーディオビデオストリームに埋め込まれることとなる。このため、イベント発生タイミングを編集点に設定する際には、イベント発生タイミングを編集点として利用するか否かの判定をリアルタイムで行う必要がなくなる。 In this case, specifically, the occurrence time of all the events that change the image, sound, and shooting state is embedded in the audio video stream as editing point information indicating the shooting timing as an editing point. For this reason, when the event occurrence timing is set to the edit point, it is not necessary to determine in real time whether the event occurrence timing is used as the edit point.
また、上記各実施の形態では、編集点を、被写体の画像や音声が変化した撮影タイミングだけでなく、撮影者の生理現象に変化が生じた撮影タイミングや撮影者が撮影器装置を操作した撮影タイミングにも設定する撮影装置を示したが、編集点は、被写体の画像や音声が変化した撮影タイミングのみに設定するようにしてもよい。この場合、撮像装置は、上記実施の形態の固有識別情報取得部10及び固有識別情報処理部10aを含まないものとなる。
Further, in each of the above embodiments, the editing point is not only the shooting timing when the subject image or sound changes, but also the shooting timing when the photographer's physiological phenomenon changes or the shooting when the photographer operates the camera device. Although the photographing apparatus that also sets the timing is shown, the editing point may be set only at the photographing timing when the image or sound of the subject has changed. In this case, the imaging apparatus does not include the unique identification
また、上記各実施の形態の説明では特に言及していないが、図1に示す実施の形態1の撮像装置101、図8に示す実施の形態2の撮像装置102、及び図11に示す実施の形態3の撮像装置103における、撮像部11、記録媒体30a及び記録媒体インターフェース30を除く各機能部は、典型的には集積回路であるLSIとして実現されるものである。これらの機能部は、個別に1チップ化したものでもよいし、それらのうちのいくつかを、またはそれらの全てを含むように1チップ化したものでもよい。
Although not particularly mentioned in the description of each of the above embodiments, the
例えば、上記各実施の形態の撮像装置における複数の機能部は、記録媒体30a及び記録媒体インターフェース30に相当するメモリ以外の機能部を、1チップ化したものでもよい。
For example, the plurality of functional units in the imaging apparatus of each of the above embodiments may be a single-chip functional unit other than the memory corresponding to the
またここでは、集積回路にはLSIと呼ばれるものを例に挙げたが、該集積回路は、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。 Here, the integrated circuit is referred to as an LSI, but the integrated circuit may be referred to as an IC, a system LSI, a super LSI, or an ultra LSI depending on the degree of integration.
また、集積回路化の手法は、1つまたは複数の機能部をLSIとして実現するものに限らず、該機能部を専用回路又は汎用プロセサで実現してもよい。また、LSIとしては、その製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用しても良い。 Further, the method of circuit integration is not limited to one in which one or more functional units are realized as an LSI, and the functional unit may be realized in a dedicated circuit or a general-purpose processor. Further, as the LSI, a Field Programmable Gate Array (FPGA) that can be programmed after its manufacture or a reconfigurable processor that can reconfigure the connection and setting of circuit cells inside the LSI may be used. .
さらには、半導体技術の進歩又は派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能部の集積化を行ってもよく、例えば、将来的な集積回路化の技術はバイオ技術を適応したもの等である可能性がありえる。
また、近年、被写体を撮影してその動画像を記録可能なデジタルカメラや携帯端末が開発されており、このようなものに、上記実施の形態1〜3の撮像装置を構成する各機能部を搭載することにより、撮影者にとって重要と思われる撮影部分を、自動で、あるいはガイダンスに対する簡単な選択操作により編集可能なオーディオビデオストリームを記録し、該ストリームの所要部分を自動編集して再生するデジタルカメラや携帯端末を実現することができる。
Furthermore, if integrated circuit technology that replaces LSI emerges as a result of advances in semiconductor technology or other technologies derived from it, naturally, functional units may be integrated using this technology. There is a possibility that the technology of circuit integration is one that is applied biotechnology.
In recent years, digital cameras and portable terminals capable of photographing a subject and recording a moving image have been developed, and the functional units constituting the imaging devices of the first to third embodiments are added to such a digital camera and a portable terminal. With this digital audio recording, an audio / video stream that can be edited automatically or with a simple selection operation for guidance is recorded, and the required part of the stream is automatically edited and played back. A camera or a mobile terminal can be realized.
本発明の撮像装置は、撮影者にとって重要と思われる撮影部分を、自動で、あるいはガイダンスに対する簡単な選択操作により編集可能なオーディオビデオストリームを生成するものであり、特に、家庭用のデジタルビデオカメラ、さらにはデジタルカメラや携帯端末などにおいて有用である。 The imaging apparatus of the present invention generates an audio / video stream that can be edited automatically or by a simple selection operation with respect to a guidance, which is considered to be important for a photographer, and in particular, a digital video camera for home use. Furthermore, it is useful in digital cameras, portable terminals, and the like.
10 固有識別情報取得部
10a 固有識別情報処理部
11 撮像部
11a 画像処理部
12 音声取得部
12a 音声処理部
20a,20b,20c 制御部
21 特徴量判定部
22a,22b,22c 編集点情報生成部
30 記録媒体インターフェース部
30a 記録媒体
101,102、103 撮像装置
DESCRIPTION OF
Claims (17)
被写体を撮像して画像信号を出力する撮像部と、
上記被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理部と、
音声を取得して音声信号を出力する音声取得部と、
上記音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理部と、
上記画像特徴量あるいは音声特徴量が所定の閾値よりも大きい場合に、上記画像あるいは音声が変化した撮影タイミングが編集点として妥当であると判定する特徴量判定部と、
該編集点として妥当であると判定された撮影タイミングを示す編集点情報を生成する情報生成部とを備え、
上記画像情報、音声情報、及び編集点情報を含むオーディオビデオストリームを記録媒体に格納し、さらに、
上記情報生成部は、
上記画像処理部に符号化前の画像情報であるバッファデータが保持されているか否かを判定し、
該符号化前のバッファデータが保持されている場合には、上記編集点を、上記画像、音声、あるいは撮影状態が変化した撮影タイミングに対応するピクチャに設定し、
該符号化前のバッファデータが保持されていない場合には、上記編集点を、上記画像処理部により画像信号を符号化して得られたストリームにおける、上記画像、あるいは音声が変化した撮影タイミングに最も近い、ランダムアクセスの単位であるVOBユニットの先頭ピクチャに設定し、
上記画像処理部は、
上記符号化前のバッファデータが上記画像処理部に保持されている場合には、上記編集点に対応するピクチャが、VOBユニットの先頭ピクチャとなるようVOBユニットを形成する、
ことを特徴とする撮像装置。 An imaging device that acquires image information and audio information by photographing a subject and records an audio video stream including the image information and audio information,
An imaging unit for imaging a subject and outputting an image signal;
An image processing unit that performs signal processing on an image signal obtained by imaging the subject and extracts image information including an image feature amount indicating a feature of an image change;
An audio acquisition unit that acquires audio and outputs an audio signal;
A voice processing unit that performs signal processing on the voice signal obtained by the voice acquisition and extracts voice information including a voice feature amount indicating a feature of voice change;
A feature amount determination unit that determines that a shooting timing at which the image or sound has changed is appropriate as an editing point when the image feature amount or the sound feature amount is larger than a predetermined threshold;
An information generation unit that generates edit point information indicating a shooting timing determined to be appropriate as the edit point;
An audio video stream including the image information, audio information, and editing point information is stored in a recording medium;
The information generation unit
It is determined whether or not buffer data that is image information before encoding is held in the image processing unit,
When the buffer data before encoding is held, the editing point is set to a picture corresponding to the shooting timing at which the image, sound, or shooting state has changed,
When the buffer data before the encoding is not held, the edit point is set to the shooting timing at which the image or the sound in the stream obtained by encoding the image signal by the image processing unit changes. Set it to the first picture of the VOB unit that is the nearest random access unit,
The image processing unit
When the buffer data before encoding is held in the image processing unit, the VOB unit is formed so that the picture corresponding to the edit point becomes the first picture of the VOB unit.
An imaging apparatus characterized by that.
撮影状態を示す固有識別情報を取得する固有識別情報取得部と、
取得した固有識別情報に信号処理を施して、撮影状態の変化の特徴を示す固有特徴量を抽出する固有識別情報処理部とを備え、
上記特徴量判定部は、上記画像特徴量あるいは音声特徴量あるいは固有特徴量が所定の閾値より大きい場合に、上記画像、音声、あるいは撮影状態が変化した撮影タイミングが編集点として妥当であると判定する、
ことを特徴とする撮像装置。 The imaging device according to claim 1,
A unique identification information acquisition unit for acquiring unique identification information indicating a shooting state;
A unique identification information processing unit that performs signal processing on the acquired unique identification information and extracts a unique feature amount indicating a characteristic of a change in a shooting state;
The feature amount determination unit determines that the shooting timing at which the image, sound, or shooting state has changed is appropriate as an edit point when the image feature amount, the audio feature amount, or the unique feature amount is larger than a predetermined threshold. To
An imaging apparatus characterized by that.
上記固有特徴量は、撮影中に生じた撮影者の生理変化の大きさ、または撮影者の操作による調整の大きさを示すものである、
ことを特徴とする撮像装置。 The imaging apparatus according to claim 2, wherein
The unique feature amount indicates the magnitude of the photographer's physiological change that occurred during shooting, or the magnitude of adjustment by the photographer's operation.
An imaging apparatus characterized by that.
上記撮影中に生じた撮影者の生理変化は、撮影者の発汗量の変化、α波の変化、まばたきの回数変化、瞳孔の変化、及び脈拍の変化のうちの少なくとも1つであり、
上記固有識別情報取得部は、上記撮影者の生理変化を測定する、該生理変化の種類に応じたセンサを有する、
ことを特徴とする撮像装置。 The imaging device according to claim 3.
The physiological change of the photographer that occurred during the photographing is at least one of a change in the amount of sweat of the photographer, a change in α wave, a change in the number of blinks, a change in the pupil, and a change in the pulse,
The unique identification information acquisition unit has a sensor that measures the photographer's physiological change and that corresponds to the type of the physiological change.
An imaging apparatus characterized by that.
上記画像処理部は、被写体の撮像により得られた画像信号に対して、符号化の対象となるピクチャを、符号化済みのピクチャを参照して予測符号化する画面間予測符号化処理を施し、上記画像特徴量を、該画面間予測符号化処理で用いる、画像の動きの大きさを示す動きベクトルに基づいて抽出し、
上記音声処理部は、音声の取得により得られた音声信号に対して、上記画像信号に対する符号化処理に対応した符号化処理を施し、
上記情報生成部は、上記編集点として妥当であると判定された撮影タイミングに基づいて、画像信号の符号化により得られた画像ストリームにおける特定のピクチャを上記編集点に設定する、
ことを特徴とする撮像装置。 The imaging device according to claim 1,
The image processing unit performs an inter-screen predictive encoding process for predictively encoding a picture to be encoded with reference to an encoded picture with respect to an image signal obtained by imaging a subject, The image feature amount is extracted based on a motion vector indicating the magnitude of motion of the image used in the inter-screen predictive encoding process,
The audio processing unit performs an encoding process corresponding to the encoding process for the image signal on the audio signal obtained by acquiring the audio,
The information generation unit sets a specific picture in an image stream obtained by encoding an image signal as the edit point, based on a shooting timing determined to be appropriate as the edit point.
An imaging apparatus characterized by that.
上記音声処理部は、上記音声特徴量を、音声信号の変化の大きさに基づいて抽出する、
ことを特徴とする撮像装置。 The imaging device according to claim 1,
The audio processing unit extracts the audio feature amount based on a magnitude of a change in the audio signal;
An imaging apparatus characterized by that.
ユーザのマニュアル操作信号に基づいて、上記画像特徴量あるいは音声特徴量、並びに上記固有特徴量のそれぞれに対する閾値レベルを設定する制御部を有し、
上記特徴量判定部は、上記各特徴量を、対応する、上記制御部で設定された閾値レベルに基づいて判定して、上記画像、音声、あるいは撮影状態が変化した撮影タイミングが編集点として妥当であるか否かを決定する、
ことを特徴とする撮像装置。 The imaging apparatus according to claim 2, wherein
Based on a user's manual operation signal, a control unit that sets a threshold level for each of the image feature amount or the sound feature amount, and the unique feature amount,
The feature amount determination unit determines each feature amount based on a corresponding threshold level set by the control unit, and the shooting timing at which the image, sound, or shooting state changes is valid as an editing point. To determine whether or not
An imaging apparatus characterized by that.
複数のシナリオのそれぞれと、上記画像特徴量あるいは音声特徴量、並びに上記固有特徴量の各々に対する閾値レベルの組合せとの対応関係を示すテーブル情報を保持し、ユーザのマニュアル操作により指定されたシナリオと、上記テーブル情報とに基づいて、上記各種特徴量の閾値レベルを設定する制御部を有し、
上記特徴量判定部は、上記各特徴量を、対応する、上記制御部で設定された閾値レベルに基づいて判定して、上記画像、音声、あるいは撮影状態が変化した撮影タイミングが編集点として妥当であるか否かを決定する、
ことを特徴とする撮像装置。 The imaging apparatus according to claim 2, wherein
Table information indicating a correspondence relationship between each of a plurality of scenarios and a combination of threshold levels corresponding to each of the image feature amount, the sound feature amount, and the unique feature amount, and a scenario designated by a user's manual operation And a control unit for setting threshold levels of the various feature amounts based on the table information,
The feature amount determination unit determines each feature amount based on a corresponding threshold level set by the control unit, and the shooting timing at which the image, sound, or shooting state changes is valid as an editing point. To determine whether or not
An imaging apparatus characterized by that.
上記テーブル情報は、ネットワーク上の情報端末からダウンロードして取得したものである、
ことを特徴とする撮像装置。 The imaging apparatus according to claim 8.
The table information is obtained by downloading from an information terminal on the network.
An imaging apparatus characterized by that.
上記情報生成部は、
上記編集点を、画像、あるいは音声に変化を与えるイベントが発生した時点から、実際に画像、あるいは音声が変化するまでの遅延時間に応じた撮影タイミングに設定する、
ことを特徴とする撮像装置。 The imaging device according to claim 1,
The information generation unit
The edit point is set to a shooting timing according to a delay time from when an event that changes the image or sound occurs until the image or sound actually changes.
An imaging apparatus characterized by that.
被写体を撮像して画像信号を出力する撮像部と、
上記被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理部と、
音声を取得して音声信号を出力する音声取得部と、
上記音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理部と、
上記画像特徴量あるいは音声特徴量が所定の閾値より大きい場合に、上記画像あるいは音声が変化した撮影タイミングが編集点として妥当であると判定する特徴量判定部と、
該編集点として妥当であると判定された撮影タイミングを示す編集点情報を生成する情報生成部とを備え、
上記画像情報、音声情報、及び編集点情報を含むオーディオビデオストリームを記録媒体に格納し、さらに、
上記情報生成部は、
上記画像処理部に符号化前の画像情報であるバッファデータが保持されているか否かを判定し、
該符号化前のバッファデータが保持されている場合には、上記編集点を、上記画像、あるいは音声が変化した撮影タイミングに対応するピクチャに設定し、
該符号化前のバッファデータが保持されていない場合には、上記画像処理部での符号化処理に利用可能な残り時間と、再符号化に要する時間とを比較判定し、
該再符号化に要する時間が上記画像処理部での符号化処理に利用可能な残り時間を超えている場合は、上記編集点を、上記画像処理部により画像信号を符号化して得られた画像ストリームにおける、上記画像、あるいは音声が変化した撮影タイミングに最も近い、ランダムアクセスの単位であるVOBユニットの先頭ピクチャに設定し、
上記再符号化に要する時間が上記画像処理部での符号化処理に利用可能な残り時間を超えていない場合は、上記画像ストリームの再符号化を画像処理部に指令し、
上記画像処理部は、
上記符号化前のバッファデータが保持されている場合には、上記編集点に対応するピクチャが、VOBユニットの先頭ピクチャとなるようVOBユニットを形成し、
上記符号化前のバッファデータが保持されておらず、かつ上記再符号化に要する時間が上記画像処理部での符号化処理に利用可能な残り時間を超えていない場合は、上記画像ストリームを、上記編集点に対応するピクチャが、VOBユニットの先頭に位置するIピクチャとなるよう再符号化する、
ことを特徴とする撮像装置。 An imaging device that acquires image information and audio information by photographing a subject and records an audio video stream including the image information and audio information,
An imaging unit for imaging a subject and outputting an image signal;
An image processing unit that performs signal processing on an image signal obtained by imaging the subject and extracts image information including an image feature amount indicating a feature of an image change;
An audio acquisition unit that acquires audio and outputs an audio signal;
A voice processing unit that performs signal processing on the voice signal obtained by the voice acquisition and extracts voice information including a voice feature amount indicating a feature of voice change;
A feature amount determination unit that determines that the shooting timing at which the image or sound has changed is appropriate as an edit point when the image feature amount or the sound feature amount is greater than a predetermined threshold;
An information generation unit that generates edit point information indicating a shooting timing determined to be appropriate as the edit point;
An audio video stream including the image information, audio information, and editing point information is stored in a recording medium;
The information generation unit
It is determined whether or not buffer data that is image information before encoding is held in the image processing unit,
If the buffer data before encoding is held, the editing point is set to the picture corresponding to the shooting timing at which the image or sound has changed,
If the buffer data before encoding is not held, the remaining time available for the encoding process in the image processing unit is compared with the time required for re-encoding,
When the time required for the re-encoding exceeds the remaining time available for the encoding process in the image processing unit, the edit point is an image obtained by encoding the image signal by the image processing unit. Set the first picture of the VOB unit, which is the unit of random access, closest to the shooting timing at which the image or sound changes in the stream,
If the time required for the re-encoding does not exceed the remaining time available for the encoding process in the image processing unit, the image processing unit is instructed to re-encode the image stream,
The image processing unit
When the buffer data before encoding is held, a VOB unit is formed so that the picture corresponding to the edit point becomes the first picture of the VOB unit,
Not held above before encoding buffered data, and the case where the time required for re-encoding does not exceed the remaining time available for the encoding process in the image processing section, the upper Kiga image stream Are re-encoded so that the picture corresponding to the edit point is the I picture located at the head of the VOB unit.
An imaging apparatus characterized by that.
上記画像、あるいは音声に変化を与えるイベントが発生した時刻を、上記編集点としてオーディオビデオストリームに記録する、
ことを特徴とする撮像装置。 The imaging device according to claim 1 or 11,
Recording the time at which an event giving a change to the image or sound occurs as an edit point in an audio video stream;
An imaging apparatus characterized by that.
上記イベントの発生時刻を、再生条件を示すプレイリストとして上記オーディオビデオ
ストリームに記録する、
ことを特徴とする撮像装置。 The imaging device according to claim 12, wherein
Recording the time of occurrence of the event in the audio-video stream as a playlist indicating playback conditions;
An imaging apparatus characterized by that.
上記編集点が、画像、あるいは音声のいずれの要因によるものであるかを示す情報を、上記オーディオビデオストリームに埋め込む、
ことを特徴とする撮像装置。 The imaging device according to claim 12, wherein
Embedding in the audio video stream information indicating whether the edit point is due to image or audio factors;
An imaging apparatus characterized by that.
上記情報生成部は、
上記画像、あるいは音声に変化を与えるイベントが発生した時刻に対応するピクチャを、編集時のサムネイル表示に用いるシーケンス外ピクチャとして上記オーディオビデオストリームに埋め込む、
ことを特徴とする撮像装置。 The imaging device according to claim 1 or 11,
The information generation unit
Embed a picture corresponding to the time at which an event giving a change to the image or sound occurs as an out-of-sequence picture used for thumbnail display at the time of editing in the audio video stream.
An imaging apparatus characterized by that.
被写体を撮像して画像信号を出力する撮像ステップと、
上記被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理ステップと、
音声を取得して音声信号を出力する音声取得ステップと、
上記音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理ステップと、
上記画像特徴量あるいは音声特徴量が所定の閾値よりも大きい場合に、上記画像あるいは音声が変化した撮影タイミングが編集点として妥当であると判定する特徴量判定ステップと、
該編集点として妥当であると判定された撮影タイミングを示す編集点情報を生成する情報生成ステップと、
上記画像情報、音声情報、及び編集点情報を含むオーディオビデオストリームを記録媒体に格納するステップとを含み、さらに、
上記情報生成ステップは、
上記画像処理ステップを実行する画像処理部に符号化前の画像情報であるバッファデータが保持されているか否かを判定し、
該符号化前のバッファデータが保持されている場合には、上記編集点を、上記画像、音声、あるいは撮影状態が変化した撮影タイミングに対応するピクチャに設定し、
該符号化前のバッファデータが保持されていない場合には、上記編集点を、上記画像処理部により画像信号を符号化して得られたストリームにおける、上記画像、あるいは音声が変化した撮影タイミングに最も近い、ランダムアクセスの単位であるVOBユニットの先頭ピクチャに設定し、
上記画像処理ステップは、
上記符号化前のバッファデータが上記画像処理部に保持されている場合には、上記編集点に対応するピクチャが、VOBユニットの先頭ピクチャとなるようVOBユニットを形成する、
ことを特徴とする撮像方法。 An imaging method for acquiring image information and audio information by photographing a subject and recording an audio video stream including the image information and audio information,
An imaging step of imaging a subject and outputting an image signal;
An image processing step of performing signal processing on an image signal obtained by imaging the subject and extracting image information including an image feature amount indicating a feature of image change;
An audio acquisition step of acquiring audio and outputting an audio signal;
A voice processing step of performing voice signal processing on the voice signal obtained by the voice acquisition to extract voice information including a voice feature amount indicating a feature of voice change;
A feature amount determination step for determining that a shooting timing at which the image or sound has changed is appropriate as an edit point when the image feature amount or the sound feature amount is larger than a predetermined threshold;
An information generation step for generating edit point information indicating a photographing timing determined to be appropriate as the edit point;
Storing an audio video stream including the image information, audio information, and editing point information in a recording medium, and
The information generation step includes
It is determined whether or not buffer data that is image information before encoding is held in the image processing unit that executes the image processing step,
When the buffer data before encoding is held, the editing point is set to a picture corresponding to the shooting timing at which the image, sound, or shooting state has changed,
When the buffer data before the encoding is not held, the edit point is set to the shooting timing at which the image or the sound in the stream obtained by encoding the image signal by the image processing unit changes. Set it to the first picture of the VOB unit that is the nearest random access unit,
The image processing step includes
When the buffer data before encoding is held in the image processing unit, the VOB unit is formed so that the picture corresponding to the edit point becomes the first picture of the VOB unit.
An imaging method characterized by the above.
上記被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理部と、
音声を取得して音声信号を出力する音声取得部と、
上記音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理部と、
上記画像特徴量あるいは音声特徴量が所定の閾値よりも大きい場合に、上記画像あるいは音声が変化した撮影タイミングが編集点として妥当であると判定する特徴量判定部と、
該編集点として妥当であると判定された撮影タイミングを示す編集点情報を生成する情報生成部とを備え、
上記画像情報、音声情報、及び編集点情報を含むオーディオビデオストリームを記録媒体に格納し、さらに、
上記情報生成部は、
上記画像処理部に符号化前の画像情報であるバッファデータが保持されているか否かを判定し、
該符号化前のバッファデータが保持されている場合には、上記編集点を、上記画像、音声、あるいは撮影状態が変化した撮影タイミングに対応するピクチャに設定し、
該符号化前のバッファデータが保持されていない場合には、上記編集点を、上記画像処理部により画像信号を符号化して得られたストリームにおける、上記画像、あるいは音声が変化した撮影タイミングに最も近い、ランダムアクセスの単位であるVOBユニットの先頭ピクチャに設定し、
上記画像処理部は、
上記符号化前のバッファデータが上記画像処理部に保持されている場合には、上記編集点に対応するピクチャが、VOBユニットの先頭ピクチャとなるようVOBユニットを形成する、
ことを特徴とする半導体装置。 A semiconductor device that acquires image information and audio information by photographing a subject and records an audio video stream including the image information and audio information,
An image processing unit that performs signal processing on an image signal obtained by imaging the subject and extracts image information including an image feature amount indicating a feature of an image change;
An audio acquisition unit that acquires audio and outputs an audio signal;
A voice processing unit that performs signal processing on the voice signal obtained by the voice acquisition and extracts voice information including a voice feature amount indicating a feature of voice change;
A feature amount determination unit that determines that a shooting timing at which the image or sound has changed is appropriate as an editing point when the image feature amount or the sound feature amount is larger than a predetermined threshold;
An information generation unit that generates edit point information indicating a shooting timing determined to be appropriate as the edit point;
An audio video stream including the image information, audio information, and editing point information is stored in a recording medium;
The information generation unit
It is determined whether or not buffer data that is image information before encoding is held in the image processing unit,
When the buffer data before encoding is held, the editing point is set to a picture corresponding to the shooting timing at which the image, sound, or shooting state has changed,
When the buffer data before the encoding is not held, the edit point is set to the shooting timing at which the image or the sound in the stream obtained by encoding the image signal by the image processing unit changes. Set it to the first picture of the VOB unit that is the nearest random access unit,
The image processing unit
When the buffer data before encoding is held in the image processing unit, the VOB unit is formed so that the picture corresponding to the edit point becomes the first picture of the VOB unit.
A semiconductor device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005313490A JP4923517B2 (en) | 2004-10-27 | 2005-10-27 | Imaging device, imaging method, and semiconductor device |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004312942 | 2004-10-27 | ||
JP2004312942 | 2004-10-27 | ||
JP2005313490A JP4923517B2 (en) | 2004-10-27 | 2005-10-27 | Imaging device, imaging method, and semiconductor device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006157893A JP2006157893A (en) | 2006-06-15 |
JP4923517B2 true JP4923517B2 (en) | 2012-04-25 |
Family
ID=36635549
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005313490A Active JP4923517B2 (en) | 2004-10-27 | 2005-10-27 | Imaging device, imaging method, and semiconductor device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4923517B2 (en) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008205953A (en) * | 2007-02-21 | 2008-09-04 | Sanyo Electric Co Ltd | Imaging device and image reproducing device |
JP5295638B2 (en) * | 2008-05-22 | 2013-09-18 | 池上通信機株式会社 | TV camera |
JP5100667B2 (en) * | 2009-01-09 | 2012-12-19 | キヤノン株式会社 | Image coding apparatus and image coding method |
JP5262801B2 (en) * | 2009-02-17 | 2013-08-14 | 株式会社ニコン | Imaging apparatus and image reproduction program |
JP5282709B2 (en) | 2009-09-25 | 2013-09-04 | ブラザー工業株式会社 | Imaging data utilization system including head mounted display |
US8520088B2 (en) | 2010-05-25 | 2013-08-27 | Intellectual Ventures Fund 83 Llc | Storing a video summary as metadata |
KR101030763B1 (en) * | 2010-10-01 | 2011-04-26 | 위재영 | Image acquisition unit, acquisition method and associated control unit |
KR101436908B1 (en) * | 2012-10-19 | 2014-09-11 | 경북대학교 산학협력단 | Image processing apparatus and method thereof |
JP2015082691A (en) * | 2013-10-21 | 2015-04-27 | 日本電信電話株式会社 | Video editing device, video editing method, and video editing program |
JP2015082692A (en) * | 2013-10-21 | 2015-04-27 | 日本電信電話株式会社 | Video editing device, video editing method, and video editing program |
CN111263234B (en) * | 2020-01-19 | 2021-06-15 | 腾讯科技(深圳)有限公司 | Video clipping method, related device, equipment and storage medium |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3629764B2 (en) * | 1995-08-25 | 2005-03-16 | ソニー株式会社 | Video signal recording apparatus, recording method, editing method and system thereof |
JP4109065B2 (en) * | 2002-09-27 | 2008-06-25 | クラリオン株式会社 | Recording / reproducing apparatus, recording apparatus, control method therefor, control program, and recording medium |
JP2004180279A (en) * | 2002-11-13 | 2004-06-24 | Sony Corp | Content editing support system, video processing apparatus, reproducing apparatus, editing apparatus, computer program, and content processing method |
-
2005
- 2005-10-27 JP JP2005313490A patent/JP4923517B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2006157893A (en) | 2006-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7502560B2 (en) | Image capturing apparatus, method for recording captured image data, and captured image data processing apparatus and method | |
JP4986886B2 (en) | Imaging apparatus, image reproducing apparatus, imaging control method, and image reproducing method | |
JP5783737B2 (en) | Image pickup apparatus and moving image recording apparatus control method | |
JP4923517B2 (en) | Imaging device, imaging method, and semiconductor device | |
KR101711009B1 (en) | Apparatus to store image, apparatus to play image, method to store image, method to play image, recording medium, and camera | |
JP5759212B2 (en) | Scenario editing apparatus, scenario editing method, and imaging system | |
US7586517B2 (en) | Image pickup apparatus | |
JP2009225361A (en) | Recording device and recording method, and editing device and editing method | |
JP5600405B2 (en) | Image processing apparatus, image processing method, and program | |
JP2005260749A (en) | Electronic camera and control program thereof | |
JP4330968B2 (en) | REPRODUCTION DEVICE, RECORDING DEVICE, REPRODUCTION PROGRAM, AND COMPUTER-READABLE RECORDING MEDIUM CONTAINING THE REPRODUCTION PROGRAM | |
JP5773855B2 (en) | Image processing device | |
JP4698961B2 (en) | Electronic camera and electronic camera control program | |
JP2007200409A (en) | Image pickup device, recording device, and recording method | |
JP2008283708A (en) | Playback apparatus | |
JP3683462B2 (en) | Movie display device | |
US9595292B2 (en) | Image processing apparatus | |
JP2007166501A (en) | Image recording apparatus, image recording and reproducing method, program and computer readable storage medium | |
JP2011234180A (en) | Imaging apparatus, reproducing device, and reproduction program | |
JP2009055618A (en) | Electronic camera and control program of electronic camera | |
JP2010252207A (en) | Imaging apparatus | |
JP2006092681A (en) | Image management method, image management device and image management system | |
JP2010141414A (en) | Imaging reproducing apparatus | |
JP6230675B2 (en) | Image reproduction apparatus, image reproduction method, and image reproduction program | |
JP6643081B2 (en) | Album moving image generating apparatus, album moving image generating method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080904 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100315 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100630 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100827 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110412 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110610 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110613 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110613 |
|
RD05 | Notification of revocation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7425 Effective date: 20110614 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120110 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120123 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150217 Year of fee payment: 3 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4923517 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150217 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |