JP6799660B2 - Image processing device, image processing method, program - Google Patents
Image processing device, image processing method, program Download PDFInfo
- Publication number
- JP6799660B2 JP6799660B2 JP2019231955A JP2019231955A JP6799660B2 JP 6799660 B2 JP6799660 B2 JP 6799660B2 JP 2019231955 A JP2019231955 A JP 2019231955A JP 2019231955 A JP2019231955 A JP 2019231955A JP 6799660 B2 JP6799660 B2 JP 6799660B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- learning
- shooting
- recording
- teacher
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 135
- 238000003672 processing method Methods 0.000 title claims description 5
- 230000013016 learning Effects 0.000 claims description 265
- 238000000034 method Methods 0.000 claims description 160
- 230000008569 process Effects 0.000 claims description 117
- 238000004891 communication Methods 0.000 claims description 78
- 238000003384 imaging method Methods 0.000 claims description 47
- 238000001514 detection method Methods 0.000 description 79
- 238000013528 artificial neural network Methods 0.000 description 48
- 230000008859 change Effects 0.000 description 30
- 230000005236 sound signal Effects 0.000 description 22
- 230000033001 locomotion Effects 0.000 description 21
- 230000001133 acceleration Effects 0.000 description 19
- 230000006870 function Effects 0.000 description 14
- 230000015654 memory Effects 0.000 description 13
- 230000004913 activation Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 10
- 230000007613 environmental effect Effects 0.000 description 10
- 238000003860 storage Methods 0.000 description 10
- 210000002569 neuron Anatomy 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 6
- 238000012937 correction Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000013434 data augmentation Methods 0.000 description 5
- 230000008921 facial expression Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000003825 pressing Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 210000000887 face Anatomy 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000017531 blood circulation Effects 0.000 description 3
- 230000004399 eye closure Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000010079 rubber tapping Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 230000004397 blinking Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000009966 trimming Methods 0.000 description 2
- 208000033748 Device issues Diseases 0.000 description 1
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 241000135164 Timea Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 229920001940 conductive polymer Polymers 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000001678 irradiating effect Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000001454 recorded image Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/61—Control of cameras or camera modules based on recognised objects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/61—Control of cameras or camera modules based on recognised objects
- H04N23/611—Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/62—Control of parameters via user interfaces
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/64—Computer-aided capture of images, e.g. transfer from script file into camera, check of taken image quality, advice or proposal for image composition or decision on when to take image
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/65—Control of camera operation in relation to power supply
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/667—Camera operation mode switching, e.g. between still and video, sport and normal or high- and low-resolution modes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/80—Camera processing pipelines; Components thereof
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Studio Devices (AREA)
- Exposure Control For Cameras (AREA)
- Image Analysis (AREA)
- Details Of Cameras Including Film Mechanisms (AREA)
Description
本発明は、撮像装置における自動撮影技術に関するものである。 The present invention relates to an automatic photographing technique in an imaging device.
カメラ等の撮像装置による静止画・動画撮影においては、ユーザがファインダー等を通して撮影対象を決定し、撮影状況を自ら確認して撮影画像のフレーミングを調整することによって、画像を撮影するのが通常である。このような撮像装置では、ユーザの操作ミスを検知してユーザに通知したり、外部環境の検知を行い、撮影に適していない場合にユーザに通知したりする機能が備えられている。また、撮影に適した状態になるようにカメラを制御する仕組みが従来から存在している。 When shooting still images and movies with an image pickup device such as a camera, it is normal for the user to determine the shooting target through a viewfinder, etc., check the shooting status by himself, and adjust the framing of the shot image to shoot the image. is there. Such an imaging device is provided with a function of detecting an operation error of the user and notifying the user, detecting the external environment, and notifying the user when it is not suitable for shooting. In addition, there has been a mechanism for controlling the camera so as to be in a state suitable for shooting.
このようなユーザの操作により撮影を実行する撮像装置に対し、ユーザが撮影指示を与えることなく定期的および継続的に撮影を行うライフログカメラが存在する(特許文献1)。ライフログカメラは、ストラップ等でユーザの身体に装着された状態で用いられ、ユーザが日常生活で目にする光景を一定時間間隔で映像として記録するものである。ライフログカメラによる撮影は、ユーザがシャッターを切るなどの意図したタイミングで撮影するのではなく、一定の時間間隔で撮影を行うため、普段撮影しないような不意な瞬間を映像として残すことができる。 There is a life log camera that periodically and continuously shoots an imaging device that performs shooting by such a user operation without giving a shooting instruction by the user (Patent Document 1). The life log camera is used in a state of being worn on the user's body with a strap or the like, and records a scene that the user sees in daily life as an image at regular time intervals. When shooting with a life log camera, the user does not shoot at the intended timing such as when the shutter is released, but shoots at regular time intervals, so it is possible to leave an unexpected moment as an image that is not normally shot.
しかしながら、ライフログカメラをユーザが身に着けた状態において、定期的に自動撮影を行った場合、ユーザの好みでない映像が取得され、本当に得たい瞬間の映像を取得できない場合があった。 However, when the user wears the life log camera and performs automatic shooting on a regular basis, an image that the user does not like may be acquired, and the image at the moment that the user really wants to obtain may not be acquired.
また、ライフログカメラが学習機能を有し、本当に撮影したい瞬間を学習して自動撮影することができたとしても、その学習のためには大量の教師データが必要となる。特許文献2には、ニューラルネットワークを用いて被検物の欠陥の有無を検査する欠陥検査装置において、被検物の人工的な欠陥画像を画像処理により作成して、学習用パターンの不足を補う技術が開示されている。しかし、被検物の種類が限られる欠陥検査とは異なり、ライフログカメラにおいては被写体の種類は無限にあり、画像処理によって学習用パターンの不足を補うことは難しい。 Further, even if the life log camera has a learning function and can learn the moment to be photographed and automatically photograph the moment, a large amount of teacher data is required for the learning. In Patent Document 2, in a defect inspection device that inspects the presence or absence of defects in a test object using a neural network, an artificial defect image of the test object is created by image processing to make up for the lack of learning patterns. The technology is disclosed. However, unlike the defect inspection in which the types of the test objects are limited, the types of subjects in the life log camera are infinite, and it is difficult to make up for the lack of learning patterns by image processing.
本発明は上述した課題に鑑みてなされたものであり、その目的は、ユーザが特別な操作を行うことなく、ユーザに好適な映像を取得することが可能な画像処理装置を提供することである。 The present invention has been made in view of the above-mentioned problems, and an object of the present invention is to provide an image processing device capable of acquiring a suitable image for a user without performing a special operation. ..
本発明に係わる画像処理装置は、撮像手段により撮影された撮影画像に関する教師データを取得する取得手段と、前記教師データに基づいて、画像を評価するための学習モデルを生成する学習手段と、を有し、前記学習手段は、ユーザの指示に応じて撮影された記録用の画像に基づく教師データと、前記ユーザの指示に応じて撮影された前記記録用の画像に対して連続して撮影された学習用の画像に基づく教師データとを用いて、前記学習モデルを生成することを特徴とする。 The image processing apparatus according to the present invention includes an acquisition means for acquiring teacher data regarding a captured image captured by an imaging means and a learning means for generating a learning model for evaluating an image based on the teacher data. The learning means has, and the teacher data based on the recording image taken according to the user's instruction and the recording image taken according to the user's instruction are continuously photographed. It is characterized in that the learning model is generated by using the teacher data based on the learning image.
また、本発明に係わる画像処理装置は、撮像手段により撮影された撮影画像から教師データを生成する生成手段と、前記生成手段が生成した教師データを、学習モデルを生成する学習手段に送信する通信手段と、を有し、前記生成手段は、ユーザの指示に応じて撮影された記録用の画像から教師データを生成するとともに、前記ユーザの指示に応じて撮影された前記記録用の画像に対して連続して撮影された学習用の画像からも教師データを生成し、前記通信手段は、前記記録用の画像から生成された教師データと、前記学習用の画像から生成された教師データを、前記学習手段に送信することを特徴とする。 Further, the image processing apparatus according to the present invention communicates with a generation means for generating teacher data from a captured image taken by the imaging means and a communication for transmitting the teacher data generated by the generation means to the learning means for generating a learning model. The generation means includes means, and the generation means generates teacher data from a recording image taken according to a user's instruction, and with respect to the recording image taken according to the user's instruction. Teacher data is also generated from the images for learning taken continuously, and the communication means uses the teacher data generated from the image for recording and the teacher data generated from the image for learning. It is characterized in that it is transmitted to the learning means.
本発明によれば、ユーザが特別な操作を行うことなく、ユーザに好適な映像を取得することが可能な画像処理装置を提供することが可能となる。 According to the present invention, it is possible to provide an image processing device capable of acquiring an image suitable for the user without performing a special operation by the user.
〔第1の実施形態〕
<撮像装置の構成>
図1は、第1の実施形態の撮像装置を模式的に示す図である。
[First Embodiment]
<Configuration of imaging device>
FIG. 1 is a diagram schematically showing an imaging device according to the first embodiment.
図1(a)に示す撮像装置101は、電源スイッチの操作を行うことができる操作部材(以後、電源ボタンというが、タッチパネルへのタップやフリック、スワイプなどの操作でもよい)などが設けられている。撮像を行う撮影レンズ群や撮像素子を含む筐体である鏡筒102は、撮像装置101に取り付けられ、鏡筒102を固定部103に対して回転駆動できる回転機構を設けている。チルト回転ユニット104は、鏡筒102を図1(b)に示すピッチ方向に回転できるモーター駆動機構であり、パン回転ユニット105は、鏡筒102をヨー方向に回転できるモーター駆動機構である。よって、鏡筒102は、1軸以上の方向に回転可能である。なお、図1(b)は、固定部103位置での軸定義である。角速度計106と加速度計107はともに、撮像装置101の固定部103に実装されている。そして、角速度計106や加速度計107に基づいて、撮像装置101の振動を検出し、チルト回転ユニットとパン回転ユニットを検出した揺れ角度に基づいて回転駆動する。これにより、可動部である鏡筒102の振れを補正したり、傾きを補正したりする構成となっている。
The
図2は、本実施形態の撮像装置の構成を示すブロック図である。 FIG. 2 is a block diagram showing the configuration of the image pickup apparatus of the present embodiment.
図2において、第1制御回路223は、プロセッサ(例えば、CPU、GPU、マイクロプロセッサ、MPUなど)、メモリ(例えば、DRAM、SRAMなど)からなる。これらは、各種処理を実行して撮像装置101の各ブロックを制御したり、各ブロック間でのデータ転送を制御したりする。不揮発性メモリ(EEPROM)216は、電気的に消去・記録可能なメモリであり、第1制御回路223の動作用の定数、プログラム等が記憶される。
In FIG. 2, the
図2において、ズームユニット201は、変倍を行うズームレンズを含む。ズーム駆動制御回路202は、ズームユニット201を駆動制御する。フォーカスユニット203は、ピント調整を行うレンズを含む。フォーカス駆動制御回路204は、フォーカスユニット203を駆動制御する。
In FIG. 2, the
撮像部206は、撮像素子とA/D変換器を備え、撮像素子が各レンズ群を通して入射する光を受け、その光量に応じた電荷の情報をアナログ画像データとして画像処理回路207に出力する。画像処理回路207は複数のALU(Arithmetic and Logic Unit)を搭載した演算回路であり、A/D変換により出力されたデジタル画像データに対して、歪曲補正やホワイトバランス調整や色補間処理等の画像処理を適用し、適用後のデジタル画像データを出力する。画像処理回路207から出力されたデジタル画像データは、画像記録回路208でJPEG形式等の記録用フォーマットに変換し、メモリ215や後述する映像出力回路217に送信される。
The
鏡筒回転駆動回路205は、チルト回転ユニット104、パン回転ユニット105を駆動して鏡筒102をチルト方向とパン方向に駆動させる。
The lens barrel
装置揺れ検出回路209は、例えば撮像装置101の3軸方向の角速度を検出する角速度計(ジャイロセンサ)106や、装置の3軸方向の加速度を検出する加速度計(加速度センサ)107が搭載される。装置揺れ検出回路209は、検出された信号に基づいて、装置の回転角度や装置のシフト量などが演算される。
The device
音声入力回路213は、撮像装置101に設けられたマイクから撮像装置101周辺の音声信号を取得し、アナログデジタル変換をして音声処理回路214に送信する。音声処理回路214は、入力されたデジタル音声信号の適正化処理等の音声に関する処理を行う。そして、音声処理回路214で処理された音声信号は、第1制御回路223によりメモリ215に送信される。メモリ215は、画像処理回路207、音声処理回路214により得られた画像信号及び音声信号を一時的に記憶する。
The
画像処理回路207及び音声処理回路214は、メモリ215に一時的に記憶された画像信号や音声信号を読み出して画像信号の符号化、音声信号の符号化などを行い、圧縮画像信号、圧縮音声信号を生成する。第1制御回路223は、これらの圧縮画像信号、圧縮音声信号を、記録再生回路220に送信する。
The
記録再生回路220は、記録媒体221に対して画像処理回路207及び音声処理回路214で生成された圧縮画像信号、圧縮音声信号、その他撮影に関する制御データ等を記録する。また、音声信号を圧縮符号化しない場合には、第1制御回路223は、音声処理回路214により生成された音声信号と画像処理回路207により生成された圧縮画像信号とを、記録再生回路220に送信し記録媒体221に記録させる。
The recording /
記録媒体221は、撮像装置101に内蔵された記録媒体でも、取外し可能な記録媒体でもよい。記録媒体221は、撮像装置101で生成した圧縮画像信号、圧縮音声信号、音声信号などの各種データを記録することができ、不揮発性メモリ216よりも大容量な媒体が一般的に使用される。例えば、記録媒体221は、ハードディスク、光ディスク、光磁気ディスク、CD−R、DVD−R、磁気テープ、不揮発性の半導体メモリ、フラッシュメモリ、などのあらゆる方式の記録媒体を含む。
The
記録再生回路220は、記録媒体221に記録された圧縮画像信号、圧縮音声信号、音声信号、各種データ、プログラムを読み出す(再生する)。そして読み出した圧縮画像信号、圧縮音声信号を、第1制御回路223は画像処理回路207及び音声処理回路214に送信する。画像処理回路207及び音声処理回路214は、圧縮画像信号、圧縮音声信号を一時的にメモリ215に記憶させ、所定の手順で復号し、復号した信号を映像出力回路217、音声出力回路218に送信する。
The recording / reproducing
音声入力回路213は複数のマイクが撮像装置101に搭載されており、音声処理回路214は複数のマイクが設置された平面上の音の方向を検出することができ、後述する探索や自動撮影に用いられる。さらに、音声処理回路214では、特定の音声コマンドを検出する。音声コマンドは事前に登録されたいくつかのコマンドの他、ユーザが特定音声を撮像装置に登録できる構成にしてもよい。また、音シーン認識も行う。音シーン認識では、予め大量の音声データを基に機械学習により学習させたネットワークにより音シーン判定を行う。例えば、「歓声が上がっている」、「拍手している」、「声を発している」などの特定シーンを検出するためのネットワークが音声処理回路214に設定されている。そして、特定音シーンや特定音声コマンドを検出すると、第1制御回路223や第2制御回路211に、検出トリガー信号を出力する構成になっている。
The
撮像装置101のメインシステム全体を制御する第1制御回路223とは別に設けられた、第2制御回路211が第1制御回路223の供給電力を制御する。
A
第1電源回路210と第2電源回路212は、第1制御回路223と第2制御回路211を動作させるための、電力をそれぞれ供給する。撮像装置101に設けられた電源ボタンの押下により、まず第1制御回路223と第2制御回路211の両方に電力が供給されるが、後述するように、第1制御回路223は、第1電源回路210へ自らの電力供給をOFFするように制御する。第1制御回路223が動作していない間も、第2制御回路211は動作しており、装置揺れ検出回路209や音声処理回路214からの情報が入力される。第2制御回路は各種入力情報を基にして、第1制御回路223を起動するか否かの判定処理を行い、起動判定されると第1電源回路に電力供給指示をする構成になっている。
The first
音声出力回路218は、例えば撮影時などに撮像装置101に内蔵されたスピーカーから予め設定された音声パターンを出力する。
The
LED制御回路224は、例えば撮影時などに撮像装置101に設けられたLEDを予め設定された点灯点滅パターンで制御する。
The
映像出力回路217は、例えば映像出力端子からなり、接続された外部ディスプレイ等に映像を表示させるために画像信号を送信する。また、音声出力回路218、映像出力回路217は、結合された1つの端子、例えばHDMI(登録商標)(High−Definition Multimedia Interface)端子のような端子であってもよい。
The
通信回路222は、撮像装置101と外部装置との間で通信を行うもので、例えば、音声信号、画像信号、圧縮音声信号、圧縮画像信号などのデータを送信したり受信したりする。また、撮影開始や終了コマンド、パン・チルトやズーム駆動等の、撮影にかかわる制御信号を受信して、撮像装置101と相互通信可能な外部機器の指示から撮像装置101を駆動する。また、撮像装置101と外部装置との間で、後述する学習処理回路219で処理される学習にかかわる各種パラメータなどの情報を送信したり受信したりする。通信回路222は、例えば、赤外線通信モジュール、Bluetooth(登録商標)通信モジュール、無線LAN通信モジュール、WirelessUSB、GPS受信機等の無線通信モジュールである。
The
<外部通信機器との構成>
図3は、撮像装置101と外部装置301との無線通信システムの構成例を示す図である。撮像装置101は撮影機能を有するデジタルカメラであり、外部装置301はBluetooth通信モジュール、無線LAN通信モジュールを含むスマートデバイスである。
<Configuration with external communication equipment>
FIG. 3 is a diagram showing a configuration example of a wireless communication system between the
撮像装置101とスマートデバイス301は、例えばIEEE802.11規格シリーズに準拠した無線LANによる通信302と、例えばBluetooth Low Energy(以下、「BLE」と呼ぶ。)などの、制御局と従属局などの主従関係を有する通信303とによって通信可能である。なお、無線LAN及びBLEは通信手法の一例であり、各通信装置は、2つ以上の通信機能を有し、例えば制御局と従属局との関係の中で通信を行う一方の通信機能によって、他方の通信機能の制御を行うことが可能であれば、他の通信手法が用いられてもよい。ただし、一般性を失うことなく、無線LANなどの第1の通信は、BLEなどの第2の通信より高速な通信が可能であり、また、第2の通信は、第1の通信よりも消費電力が少ないか通信可能距離が短いかの少なくともいずれかであるものとする。
The
スマートデバイス301の構成を、図4を用いて説明する。
The configuration of the
スマートデバイス301は、例えば、無線LAN用の無線LAN制御回路401、及び、BLE用のBLE制御回路402に加え、公衆無線通信用の公衆回線制御回路406を有する。また、スマートデバイス301は、パケット送受信回路403をさらに有する。無線LAN制御回路401は、無線LANのRF制御、通信処理、IEEE802.11規格シリーズに準拠した無線LANによる通信の各種制御を行うドライバや無線LANによる通信に関するプロトコル処理を行う。BLE制御回路402は、BLEのRF制御、通信処理、BLEによる通信の各種制御を行うドライバやBLEによる通信に関するプロトコル処理を行う。公衆回線制御回路406は、公衆無線通信のRF制御、通信処理、公衆無線通信の各種制御を行うドライバや公衆無線通信関連のプロトコル処理を行う。公衆無線通信は例えばIMT(International Multimedia Telecommunications)規格やLTE(Long Term Evolution)規格などに準拠したものである。パケット送受信回路403は、無線LAN並びにBLEによる通信及び公衆無線通信に関するパケットの送信と受信との少なくともいずれかを実行するための処理を行う。なお、本例では、スマートデバイス301は、通信においてパケットの送信と受信との少なくともいずれかを行うものとして説明するが、パケット交換以外に、例えば回線交換など、他の通信形式が用いられてもよい。
The
スマートデバイス301は、例えば、制御回路411、記憶回路404、GPS受信部405、表示装置407、操作部材408、音声入力音声処理回路409、電源回路410をさらに有する。制御回路411は、例えば、記憶回路404に記憶される制御プログラムを実行することにより、スマートデバイス301全体を制御する。記憶回路404は、例えば制御回路411が実行する制御プログラムと、通信に必要なパラメータ等の各種情報とを記憶する。後述する各種動作は、記憶回路404に記憶された制御プログラムを制御回路411が実行することにより、実現される。
The
電源回路410はスマートデバイス301に電力を供給する。表示装置407は、例えば、LCDやLEDのように視覚で認知可能な情報の出力、又はスピーカー等の音出力が可能な機能を有し、各種情報の表示を行う。操作部材408は、例えばユーザによるスマートデバイス301の操作を受け付けるボタン等である。なお、表示装置407及び操作部材408は、例えばタッチパネルなどの共通する部材によって構成されてもよい。
The
音声入力音声処理回路409は、例えばスマートデバイス301に内蔵された汎用的なマイクから、ユーザが発した音声を取得し、音声認識処理により、ユーザの操作命令を取得する構成にしてもよい。
The voice input
また、スマートデバイス内の専用のアプリケーションを介して、ユーザの発音により音声コマンドを取得する。そして、無線LANによる通信302を介して、撮像装置101の音声処理回路214に特定音声コマンド認識させるための特定音声コマンドとして登録することもできる。
In addition, voice commands are acquired by the user's pronunciation via a dedicated application in the smart device. Then, it can be registered as a specific voice command for causing the
GPS(Global positioning system)405は、衛星から通知されるGPS信号を受信し、GPS信号を解析し、スマートデバイス301の現在位置(経度・緯度情報)を推定する。もしくは、位置推定は、WPS(Wi−Fi Positioning System)等を利用して、周囲に存在する無線ネットワークの情報に基づいて、スマートデバイス301の現在位置を推定するようにしてもよい。取得した現在のGPS位置情報が予め事前に設定されている位置範囲(所定半径の範囲以内)に位置している場合に、BLE制御回路402を介して撮像装置101へ移動情報を通知し、後述する自動撮影や自動編集のためのパラメータとして使用する。また、GPS位置情報に所定以上の位置変化があった場合に、BLE制御回路402を介して撮像装置101へ移動情報を通知し、後述する自動撮影や自動編集のためのパラメータとして使用する。
The GPS (Global Positioning System) 405 receives a GPS signal notified from a satellite, analyzes the GPS signal, and estimates the current position (longitude / latitude information) of the
上記のように撮像装置101とスマートデバイス301は、無線LAN制御回路401、及び、BLE制御回路402を用いた通信により、撮像装置101とデータのやりとりを行う。例えば、音声信号、画像信号、圧縮音声信号、圧縮画像信号などのデータを送信したり受信したりする。また、スマートデバイスから撮像装置101の撮影などの操作指示であったり、音声コマンド登録データ送信や、GPS位置情報に基づいた所定位置検出通知や場所移動通知を行う。また、スマートデバイス内の専用のアプリケーションを介しての学習用データの送受信も行う。
As described above, the
<アクセサリ類の構成>
図5は、撮像装置101と通信可能である外部装置501との構成例を示す図である。撮像装置101は撮影機能を有するデジタルカメラであり、外部装置501は、例えばBluetooth通信モジュールなどにより撮像装置101と通信可能である各種センシング部を含むウエアラブルデバイスである。
<Structure of accessories>
FIG. 5 is a diagram showing a configuration example of an
ウエアラブルデバイス501において、例えばユーザの腕などに装着できるような構成なっており、所定の周期でユーザの脈拍、心拍、血流等の生体情報を検出するセンサやユーザの運動状態を検出できる加速度センサ等が搭載されている。
The
生体情報検出回路502は、例えば、脈拍を検出する脈拍センサ、心拍を検出する心拍センサ、血流を検出する血流センサ、導電性高分子による皮膚の接触によって電位の変化を検出したことを検知するセンサを含む。本実施形態では、生体情報検出回路502として心拍センサを用いて説明する。心拍センサは、例えばLED等を用いて皮膚に赤外光を照射し、体組織を透過した赤外光を受光センサで検出して信号処理することによりユーザの心拍を検出する。生体情報検出回路502は、検出した生体情報を信号として、後述する制御回路607へ出力する。
The biological
ユーザの運動状態を検出する揺れ検出回路503は、例えば、加速度センサやジャイロセンサを搭載しており、加速度の情報に基づきユーザが移動しているかどうかや、腕を振り回してアクションをしているかどうかなどのモーションを検出することができる。
The shaking
また、ユーザによるウエアラブルデバイス501の操作を受け付ける操作部材505や、LCDやLEDのように視覚で認知可能な情報を出力する表示装置504が搭載される。
Further, an
ウエアラブルデバイス501の構成を、図6を用いて説明する。
The configuration of the
ウエアラブルデバイス501は、例えば、制御回路607、通信回路601、生体情報検出回路502、揺れ検出回路503、表示装置504、操作部材505、電源回路606、記憶回路608を有する。
The
制御回路607は、例えば、記憶回路608に記憶される制御プログラムを実行することにより、ウエアラブルデバイス501全体を制御する。記憶回路608は、例えば制御回路607が実行する制御プログラムと、通信に必要なパラメータ等の各種情報とを記憶する。後述する各種動作は、例えば記憶回路608に記憶された制御プログラムを制御回路607が実行することにより、実現される。
The
電源回路606はウエアラブルデバイス501に電力を供給する。表示装置504は、例えば、LCDやLEDのように視覚で認知可能な情報の出力、又はスピーカー等の音出力が可能な機能を有し、各種情報の表示を行う。操作部材505は、例えばユーザによるウエアラブルデバイス501の操作を受け付けるボタン等である。なお、表示装置504及び操作部材505は、例えばタッチパネルなどの共通する部材によって構成されてもよい。
The
また、操作部材は、例えばウエアラブルデバイス501に内蔵された汎用的なマイクから、ユーザが発した音声を取得し、音声処理によりユーザが発した音声を取得し、音声認識処理により、ユーザの操作命令を取得する構成にしてもよい。
Further, the operation member acquires the voice uttered by the user from, for example, a general-purpose microphone built in the
生体情報検出回路502や揺れ検出回路503から制御回路607で処理された各種検出情報は、通信回路601により、撮像装置101へ送信される。
Various detection information processed by the
例えば、ユーザの心拍の変化を検出したタイミングで検出情報を撮像装置101に送信したり、歩行移動/走行移動/立ち止まりなどの移動状態の変化のタイミングで検出情報を送信したりする。また、例えば、予め設定された腕ふりのモーションを検出したタイミングで検出情報を送信したり、予め設定された距離の移動を検出したタイミングで検出情報を送信したりする。
For example, the detection information is transmitted to the
<撮像動作のシーケンス>
図7は、本実施形態における撮像装置101の第1制御回路223が受け持つ動作の例を説明するフローチャートである。
<Sequence of imaging operation>
FIG. 7 is a flowchart illustrating an example of the operation undertaken by the
ユーザが撮像装置101に設けられた電源ボタンを操作すると、第1電源回路210により電力供給部から、第1制御回路223及び撮像装置101の各ブロックに電力を供給させる。
When the user operates the power button provided on the
また、同様に第2制御回路211においても第2電源回路212により電力供給部から、第2制御回路に電力を供給させるが、第2制御回路の動作の詳細については後述する図8のフローチャートを用いて説明する。
Similarly, in the
電力が供給されると、図7の処理がスタートする。ステップS701(以下では、「ステップ」を単に「S」と省略する)では、起動条件の読み込みが行われる。本実施形態においては、起動条件は以下である。
(1)電源ボタンが手動で押下されて電源起動
(2)外部機器(例えば301)からの外部通信(例えばBLE通信)による指示で電源起動
(3)Subプロセッサ(第2制御回路211)から、電源起動
ここで、(3)のSubプロセッサから電源起動の場合は、Subプロセッサ内で演算された起動条件が読み込まれることになるが、詳細は後述する図8で説明する。
When the electric power is supplied, the process of FIG. 7 starts. In step S701 (hereinafter, "step" is simply abbreviated as "S"), the start condition is read. In this embodiment, the activation conditions are as follows.
(1) Power is activated by manually pressing the power button (2) Power is activated by an instruction from an external device (for example, 301) by external communication (for example, BLE communication) (3) From the Sub processor (second control circuit 211) Power supply activation Here, in the case of power activation from the Sub processor of (3), the activation conditions calculated in the Sub processor are read, and the details will be described later with reference to FIG.
また、ここで読み込まれた起動条件は、被写体探索や自動撮影時の1つのパラメータ要素として用いられるが、後述して説明する。起動条件読み込みが終了するとS702に進む。 Further, the activation condition read here is used as one parameter element at the time of subject search or automatic shooting, and will be described later. When the start condition reading is completed, the process proceeds to S702.
S702では、各種センサの読み込みが行われる。ここで読み込まれるセンサは、装置揺れ検出回路209からのジャイロセンサや加速度センサなどの振動検出するセンサであったりする。また、チルト回転ユニット104やパン回転ユニット105の回転位置であったりする。また、音声処理回路214にて検出される音声レベルや特定音声認識の検出トリガーや音方向検出だったりする。
In S702, various sensors are read. The sensor read here may be a vibration detecting sensor such as a gyro sensor or an acceleration sensor from the device shaking
また、図1乃至図6には図示していないが、環境情報を検出するセンサでも情報を取得する。 Further, although not shown in FIGS. 1 to 6, information is also acquired by a sensor that detects environmental information.
例えば、所定の周期で撮像装置101の周辺の温度を検出する温度センサや、撮像装置101の周辺の気圧の変化を検出する気圧センサがある。また、撮像装置101の周辺の明るさを検出する照度センサや、撮像装置101の周辺の湿度を検出する湿度センサや、撮像装置101の周辺の紫外線量を検出するUVセンサ等を備えてもよい。検出した温度情報や気圧情報や明るさ情報や湿度情報やUV情報に加え、検出した各種情報から所定時間間隔での変化率を算出した温度変化量や気圧変化量や明るさ変化量や湿度変化量や紫外線変化量などを後述する自動撮影などの判定に使用する。
For example, there are a temperature sensor that detects the temperature around the
S702で各種センサ読み込みが行われるとS703に進む。 When various sensors are read in S702, the process proceeds to S703.
S703では、外部機器からの通信が指示されているかを検出し、通信指示があった場合、外部機器との通信を行う。 The S703 detects whether communication from an external device is instructed, and if there is a communication instruction, communicates with the external device.
例えば、スマートデバイス301から、無線LANやBLEを介した、リモート操作であったり、音声信号、画像信号、圧縮音声信号、圧縮画像信号などのデータを送信したり受信したりする。また、スマートデバイス301からの撮像装置101の撮影などの操作指示や、音声コマンド登録データ送信や、GPS位置情報に基づいた所定位置検出通知や場所移動通知や学習用データの送受信の指示があるかどうかの読み込みを行う。
For example, the
また、例えば、ウエアラブルデバイス501から、ユーザの運動情報、腕のアクション情報、心拍などの生体情報の更新がある場合、BLEを介した情報の読み込みを行う。また、上述した環境情報を検出する各種センサは、撮像装置101に搭載してもよいが、スマートデバイス301或いはウエアラブルデバイス501に搭載していてもよく、その場合、BLEを介した環境情報の読み込みも行う。S703で外部機器からの通信読み込みが行われると、S704に進む。
Further, for example, when the
S704では、モード設定判定が行われる。S704で設定されるモードは、以下の内から判定され選ばれる。 In S704, the mode setting determination is performed. The mode set in S704 is determined and selected from the following.
(1)自動撮影モード
[モード判定条件]
後述する学習により設定された各検出情報(画像、音、時間、振動、場所、身体の変化、環境変化)や、自動撮影モードに移行してからの経過時間や、過去の撮影情報などから、自動撮影を行うべきと判定されると、自動撮影モードに設定される。
(1) Automatic shooting mode [Mode judgment conditions]
From each detection information (image, sound, time, vibration, place, physical change, environmental change) set by learning described later, the elapsed time after shifting to the automatic shooting mode, past shooting information, etc. When it is determined that automatic shooting should be performed, the automatic shooting mode is set.
[モード内処理]
自動撮影モード処理(S710)では、各検出情報(画像、音、時間、振動、場所、体の変化、環境変化)に基づいて、パン・チルトやズームを駆動して被写体を自動探索する。そして、ユーザの好みの撮影が行えるタイミングであると判定されると、静止画一枚撮影、静止画連続撮影、動画撮影、パノラマ撮影、タイムラプス撮影など様々な撮影方法の中から、撮影方法の判定処理が行われ、自動で撮影が行われる。
[Processing in mode]
In the automatic shooting mode processing (S710), the subject is automatically searched by driving pan / tilt and zoom based on each detection information (image, sound, time, vibration, place, body change, environmental change). Then, when it is determined that the timing is such that the user's favorite shooting can be performed, the shooting method is determined from various shooting methods such as single still image shooting, continuous still image shooting, moving image shooting, panoramic shooting, and time-lapse shooting. Processing is performed and shooting is performed automatically.
(2)学習モード
[モード判定条件]
前回学習処理を行ってからの経過時間と、学習に使用することのできる画像に対応付けられた情報や学習データの数などから、自動学習を行うべきと判定されると、自動学習モードに設定される。または、スマートデバイス301からの通信を介して学習データが設定されるように指示があった場合も本モードに設定される。
(2) Learning mode [Mode judgment conditions]
When it is determined that automatic learning should be performed based on the elapsed time since the last learning process and the number of information and learning data associated with the images that can be used for learning, the automatic learning mode is set. Will be done. Alternatively, this mode is also set when instructed to set the learning data via communication from the
[モード内処理]
自動学習モード処理(S712)では、ユーザの好みに合わせた学習を行う。スマートデバイス301での各操作、スマートデバイス301からの学習情報通知などの情報を基にニューラルネットワークを用いて、ユーザの好みに合わせた学習が行われる。スマートデバイス301での各操作の情報としては、例えば、撮像装置からの画像取得情報、専用アプリケーションを介して手動による編集指示がされた情報、撮像装置内の画像に対してユーザが入力した判定値情報がある。
[Processing in mode]
In the automatic learning mode processing (S712), learning is performed according to the user's preference. Learning is performed according to the user's preference by using a neural network based on information such as each operation on the
なお、自動撮影モード処理、学習モード処理についての詳細は、後述する。 The details of the automatic shooting mode processing and the learning mode processing will be described later.
S705ではS704でモード設定判定が低消費電力モードに設定されているかどうかを判定する。低消費電力モード判定は、後述する「自動撮影モード」と「学習モード」の何れのモードの判定条件でもない場合は、低消費電力モードになるように判定される。判定処理が行われるとS705に進む。 In S705, it is determined in S704 whether or not the mode setting determination is set to the low power consumption mode. The low power consumption mode determination is determined to be the low power consumption mode if it is not the determination condition of any of the "automatic shooting mode" and the "learning mode" described later. When the determination process is performed, the process proceeds to S705.
S705では、低消費電力モード条件であると判定されれば、S706に進む。 In S705, if it is determined that the power consumption mode condition is low, the process proceeds to S706.
S706では、Subプロセッサ(第2制御回路211)へ、Subプロセッサ内で判定する起動要因に係る各種パラメータを(揺れ検出判定用パラメータ、音検出用パラメータ、時間経過検出パラメータ)を通知する。各種パラメータは後述する学習処理にて、学習されることによって値が変化する。S706の処理を終了すると、S707に進み、Mainプロセッサ(第1制御回路223)の電源をOFFして、処理を終了する。 In S706, the Sub processor (second control circuit 211) is notified of various parameters (sway detection determination parameter, sound detection parameter, time lapse detection parameter) related to the activation factor determined in the Sub processor. The values of various parameters change as they are learned in the learning process described later. When the processing of S706 is completed, the process proceeds to S707, the power of the Main processor (first control circuit 223) is turned off, and the processing is completed.
一方、S705で低消費電力モードでないと判定されると、S709に進み、モード設定が自動撮影モードであるか否かを判定し、自動撮影モードであればS710に進み、自動撮影モード処理が行われる。処理が終了すると、S702に戻り、処理を繰り返す。S709で、自動撮影モードでないと判定されると、S711に進む。 On the other hand, if it is determined in S705 that the power consumption mode is not low, the process proceeds to S709 to determine whether or not the mode setting is the automatic shooting mode, and if it is the automatic shooting mode, the process proceeds to S710 and the automatic shooting mode processing is performed. Will be. When the process is completed, the process returns to S702 and the process is repeated. If it is determined in S709 that the mode is not the automatic shooting mode, the process proceeds to S711.
S711では、モード設定が学習モードであるか否かを判定し、学習モードであればS712に進み、学習モード処理が行われる。処理が終了すると、S702に戻り、処理を繰り返す。S711で、学習モードでないと判定されると、S702に戻り、処理を繰り返す。 In S711, it is determined whether or not the mode setting is the learning mode, and if it is the learning mode, the process proceeds to S712 and the learning mode processing is performed. When the process is completed, the process returns to S702 and the process is repeated. If it is determined in S711 that the learning mode is not set, the process returns to S702 and the process is repeated.
図8は、本実施形態における撮像装置101の第2制御回路211が受け持つ動作の例を説明するフローチャートである。
FIG. 8 is a flowchart illustrating an example of the operation undertaken by the
ユーザが撮像装置101に設けられた電源ボタンを操作すると、第1電源回路210により電力供給部から第1制御回路223へ電力が供給されるのと同様に第2制御回路211においても第2電源回路212により電力供給部から第2制御回路211に電力が供給される。電力が供給されると、Subプロセッサ(第2制御回路211)が起動され、図8の処理がスタートする。
When the user operates the power button provided on the
S801では、サンプリングの周期となる所定期間が経過したか否かを判定する。例えば10msecに設定された場合、10msec周期で、S802に進む。所定期間が経過していないと判定されると、Subプロセッサは何も処理をせずにS801に戻って所定期間が経過するのを待つ。 In S801, it is determined whether or not a predetermined period, which is a sampling cycle, has elapsed. For example, when it is set to 10 msec, the process proceeds to S802 in a cycle of 10 msec. If it is determined that the predetermined period has not elapsed, the Sub processor returns to S801 without performing any processing and waits for the predetermined period to elapse.
S802では、揺れ検出値が取得される。揺れ検出値は、装置揺れ検出回路209からのジャイロセンサや加速度センサなどの振動検出するセンサからの出力値である。
In S802, the shaking detection value is acquired. The vibration detection value is an output value from a vibration detection sensor such as a gyro sensor or an acceleration sensor from the device
S802で揺れ検出値が取得されると、S803に進み、予め設定された揺れ状態検出の処理を行う。いくつかの例を説明する。 When the shaking detection value is acquired in S802, the process proceeds to S803 to perform a preset shaking state detection process. Some examples will be described.
(1)タップ検出
ユーザが撮像装置101を例えば指先などで叩いた状態(タップ状態)を、撮像装置101に取り付けられた加速度センサの出力値より検出することが可能である。3軸の加速度センサの出力を所定サンプリング周期で特定の周波数領域に設定したバンドパスフィルタ(BPF)に通すことで、タップによる加速度変化の信号領域を抽出することができる。BPF後の加速度信号を所定時間TimeA間に、所定閾値ThreshAを超えた回数が、所定回数CountAであるか否かにより、タップ検出を行う。ダブルタップの場合は、CountAは2に設定され、トリプルタップの場合は、CountAは3に設定される。
(1) Tap detection A state in which the user taps the
(2)揺れ状態の検出
撮像装置101の揺れ状態を、撮像装置101に取り付けられたジャイロセンサや加速度センサの出力値より検出することが可能である。ジャイロセンサや加速度センサの出力をHPFで高周波成分をカットし、LPFで低周波成分をカットした後、絶対値変換を行う。算出した絶対値が所定時間TimeB間に、所定閾値ThreshBを超えた回数が、所定回数CountB以上であるか否かにより、振動検出を行う。例えば撮像装置101を机などに置いたような揺れが小さい状態か、ウエアラブルで撮像装置101を装着し歩いているような揺れが大きい状態かを判定することが可能である。また、判定閾値や判定のカウント数の条件を複数もつことで、揺れレベルに応じた細かい揺れ状態を検出することも可能である。
(2) Detection of shaking state It is possible to detect the shaking state of the
S803で特定揺れ状態検出処理が行われると、S804に進み、予め設定された特定音検出処理を行う。いくつかの例を説明する。 When the specific shaking state detection process is performed in S803, the process proceeds to S804 to perform a preset specific sound detection process. Some examples will be described.
(1)特定音声コマンド検出
特定の音声コマンドを検出する。音声コマンドは事前に登録されたいくつかのコマンドの他、ユーザが特定音声を撮像装置に登録できる。
(1) Detection of specific voice command Detects a specific voice command. In addition to some voice commands registered in advance, the user can register a specific voice in the imaging device.
(2)特定音シーン認識
予め大量の音声データを基に機械学習により学習させたネットワークにより音シーン判定を行う。例えば、「歓声が上がっている」、「拍手している」、「声を発している」などの特定シーンを検出する。
(2) Specific sound scene recognition Sound scene judgment is performed by a network trained by machine learning based on a large amount of voice data in advance. For example, it detects a specific scene such as "cheers", "applause", or "speaking".
(3)音レベル判定
所定時間の間で、音レベルの大きさがレベル所定値を超えている時間を加算するなどの方法によって、音レベル判定による検出を行う。
(3) Sound level determination Detection is performed by sound level determination by a method such as adding the time when the magnitude of the sound level exceeds the predetermined level value within the predetermined time.
(4)音方向判定
複数のマイクが設置された平面上の音の方向を検出することができ、所定の大きさの音レベルに対して、音の方向を検出する。
(4) Sound direction determination It is possible to detect the direction of sound on a plane on which a plurality of microphones are installed, and detect the direction of sound with respect to a sound level of a predetermined magnitude.
音声処理回路214内で上記の判定処理が行われており、特定音検出がされたかをS804で判定する。
The above determination process is performed in the
S804で特定音検出処理が行われると、S805に進む。S805では、Mainプロセッサ(第1制御回路223)はOFF状態であるか否かを判定し、MainプロセッサがOFF状態であれば、S806に進み、予め設定された時間経過検出処理を行う。MainプロセッサがONからOFFへ遷移したときからの経過時間が計測されており、経過時間がパラメータTimeC以上であれば、時間経過と判定され、TimeCより小さければ、時間経過とは判定されない。 When the specific sound detection process is performed in S804, the process proceeds to S805. In S805, the Main processor (first control circuit 223) determines whether or not it is in the OFF state, and if the Main processor is in the OFF state, the process proceeds to S806 to perform a preset time lapse detection process. The elapsed time from the transition from ON to OFF of the Main processor is measured, and if the elapsed time is equal to or greater than the parameter TimeC, it is determined to be time elapsed, and if it is smaller than TimeC, it is not determined to be time elapsed.
S806で時間経過検出処理が行われると、S807に進み、低消費電力モード解除判定がされたかを判定する。低消費電力モード解除条件は以下によって判定される。
(1)特定揺れ検出の判定条件
(2)特定音検出の判定条件
(3)時間経過判定の判定条件
それぞれ、S803での特定揺れ状態検出処理により、特定揺れ検出の判定条件に入ったか否かを判定できる。また、S804での特定音検出処理により、特定音検出の判定条件に入ったか否かを判定できる。また、S806での時間経過検出処理により、時間経過検出の判定条件に入ったか否かを判定できる。したがって、何れか一つ以上の条件に入っていれば、低消費電力モード解除を行うような判定が行われる。
When the time lapse detection process is performed in S806, the process proceeds to S807 to determine whether the low power consumption mode release determination has been made. The low power consumption mode release condition is determined by the following.
(1) Judgment condition for specific shaking detection (2) Judgment condition for specific sound detection (3) Judgment condition for time lapse judgment Each of them has entered the judgment condition for specific shaking detection by the specific shaking state detection process in S803. Can be determined. Further, by the specific sound detection process in S804, it can be determined whether or not the determination condition for the specific sound detection is satisfied. Further, by the time lapse detection process in S806, it can be determined whether or not the time lapse detection determination condition is satisfied. Therefore, if any one or more of the conditions are met, a determination is made to cancel the low power consumption mode.
S807で解除条件判定されると、S808に進みMainプロセッサの電源をONし、S809で、低消費電力モード解除と判定された条件(揺れ、音、時間)をMainプロセッサに通知し、S801に戻り処理をループする。 When the release condition is determined in S807, the process proceeds to S808 to turn on the power of the Main processor, and in S809, the condition (shaking, sound, time) determined to release the low power consumption mode is notified to the Main processor, and the process returns to S801. Loop the process.
S807で何れの解除条件にも当てはまらず、低消費電力モード解除判定でないと判定されると、S801に戻り処理をループする。 If none of the release conditions are met in S807 and it is determined that the low power consumption mode release determination is not made, the process returns to S801 and the process is looped.
S805で、MainプロセッサがON状態であると判定されている場合、S802乃至805までで取得した情報をMainプロセッサに通知し、S801に戻り処理をループする。 When it is determined in S805 that the Main processor is in the ON state, the information acquired in S802 to 805 is notified to the Main processor, and the process returns to S801 to loop the processing.
本実施形態においては、MainプロセッサがON状態においても揺れ検出や特定音検出をSubプロセッサで行い、検出結果をMainプロセッサに通知する構成にしている。しかしながら、MainプロセッサがONの場合は、S802乃至805の処理を行わず、Mainプロセッサ内の処理(図7のS702)で揺れ検出や特定音検出を検出する構成にしてもよい。 In the present embodiment, even when the Main processor is ON, the Sub processor performs shaking detection and specific sound detection, and notifies the Main processor of the detection result. However, when the Main processor is ON, the processing of S802 to 805 may not be performed, and the processing in the Main processor (S702 in FIG. 7) may be configured to detect the shaking detection and the specific sound detection.
上記、揺れ検出や音検出や時間経過による低消費電力モード解除方法について詳しく説明したが、環境情報により低消費電力モード解除を行ってもよい。環境情報は温度や気圧や明るさや湿度や紫外線量の絶対量や変化量が所定閾値を超えたか否かで判定することができる。 Although the method of canceling the low power consumption mode due to shaking detection, sound detection, and the passage of time has been described in detail above, the low power consumption mode may be canceled based on environmental information. Environmental information can be determined by whether or not the absolute amount or change amount of temperature, atmospheric pressure, brightness, humidity, or ultraviolet ray amount exceeds a predetermined threshold value.
<自動撮影モード処理>
図9を用いて、自動撮影モード処理の詳細を説明する。前述したように、以下の処理は、本実施形態における撮像装置101の第1制御回路223が制御を受け持つ。
<Automatic shooting mode processing>
The details of the automatic shooting mode processing will be described with reference to FIG. As described above, the
S901では、画像処理回路207に撮像部206で取り込まれた信号を画像処理させ、被写体認識用の画像を生成させる。
In S901, the
生成された画像からは、人物や物体認識などの被写体認識が行われる。 Subject recognition such as person or object recognition is performed from the generated image.
人物を認識する場合、被写体の顔や人体を検出する。顔検出処理では、人物の顔を判断するためのパターンが予め定められており、撮像された画像内に含まれる該パターンに一致する箇所を人物の顔画像として検出することができる。 When recognizing a person, the face or human body of the subject is detected. In the face detection process, a pattern for determining the face of a person is predetermined, and a portion matching the pattern included in the captured image can be detected as a face image of the person.
また、被写体の顔としての確からしさを示す信頼度も同時に算出し、信頼度は、例えば画像内における顔領域の大きさや、顔パターンとの一致度等から算出される。 At the same time, the reliability indicating the certainty of the subject's face is also calculated, and the reliability is calculated from, for example, the size of the face region in the image, the degree of coincidence with the face pattern, and the like.
物体認識についても同様に、予め登録されたパターンに一致する物体を認識することができる。 Similarly, for object recognition, it is possible to recognize an object that matches a pre-registered pattern.
また、撮像された画像内の色相や彩度等のヒストグラムを使用する方法で特徴被写体を抽出する方法などもある。この場合、撮影画角内に捉えられている被写体の画像に関し、その色相や彩度等のヒストグラムから導出される分布を複数の区間に分け、区間ごとに撮像された画像を分類する処理が実行される。 There is also a method of extracting a feature subject by using a histogram of hue, saturation, etc. in the captured image. In this case, regarding the image of the subject captured within the shooting angle of view, the process of dividing the distribution derived from the histogram of the hue, saturation, etc. into a plurality of sections and classifying the images captured in each section is executed. Will be done.
例えば、撮像された画像について複数の色成分のヒストグラムが作成され、その山型の分布範囲で区分けし、同一の区間の組み合わせに属する領域にて撮像された画像が分類され、被写体の画像領域が認識される。 For example, a histogram of a plurality of color components is created for the captured image, the image is divided by the mountain-shaped distribution range, and the captured image is classified in the area belonging to the combination of the same sections, and the image area of the subject is divided. Be recognized.
認識された被写体の画像領域ごとに評価値を算出することで、当該評価値が最も高い被写体の画像領域を主被写体領域として判定することができる。 By calculating the evaluation value for each image area of the recognized subject, the image area of the subject having the highest evaluation value can be determined as the main subject area.
以上の方法で、撮像情報から各被写体情報を得ることができる。 By the above method, each subject information can be obtained from the imaging information.
S902では、像揺れ補正量の算出を行う。具体的には、まず、装置揺れ検出回路209において取得した角速度および加速度情報に基づいて撮像装置の絶対角度の算出を行う。そして、絶対角度を打ち消す角度方向にチルト回転ユニット104およびパン回転ユニット105を動かす防振角度を求め、像揺れ補正量とする。なお、ここでの像揺れ補正量算出処理は、後述する学習処理によって、演算方法を変更することができる。
In S902, the image shake correction amount is calculated. Specifically, first, the absolute angle of the image pickup device is calculated based on the angular velocity and acceleration information acquired by the device
S903では、撮像装置の状態判定を行う。角速度情報や加速度情報やGPS位置情報などで検出した角度や移動量などにより、現在、撮像装置がどのような振動/動き状態なのかを判定する。 In S903, the state of the imaging device is determined. Based on the angle and movement amount detected by the angular velocity information, acceleration information, GPS position information, etc., it is determined what kind of vibration / movement state the image pickup device is currently in.
例えば、車に撮像装置101を装着して撮影する場合、移動された距離によって大きく周りの風景などの被写体情報が変化する。
For example, when the
そのため、車などに装着して速い速度で移動している「乗り物移動状態」か否かを判定し、後に説明する自動被写体探索に使用することができる。 Therefore, it can be used for automatic subject search, which will be described later, by determining whether or not the vehicle is in a "vehicle moving state" in which the vehicle is mounted on a car or the like and is moving at a high speed.
また、角度の変化が大きいか否かを判定し、撮像装置101が揺れ角度がほとんどない「置き撮り状態」であるのかを判定する。
Further, it is determined whether or not the change in the angle is large, and it is determined whether or not the
「置き撮り状態」である場合は、撮像装置101自体の角度変化はないと考えてよいので、置き撮り用の被写体探索を行うことができる。
In the "place-shooting state", it can be considered that the angle of the
また、比較的、角度変化が大きい場合は、「手持ち状態」と判定され、手持ち用の被写体探索を行うことができる。 Further, when the angle change is relatively large, it is determined to be in the "handheld state", and the subject search for handheld can be performed.
S904では、被写体探索処理を行う。被写体探索は、以下の処理によって構成される。 In S904, subject search processing is performed. The subject search is composed of the following processes.
(1)エリア分割
図11を用いて、エリア分割を説明する。図11(a)のように撮像装置(原点Oが撮像装置位置とする。)位置を中心として、全周囲でエリア分割を行う。図11(a)の例においては、チルト方向、パン方向それぞれ22.5度で分割している。図11(a)のように分割すると、チルト方向の角度が0度から離れるにつれて、水平方向の円周が小さくなり、エリア領域が小さくなる。よって、図11(b)のように、チルト角度が45度以上の場合、水平方向のエリア範囲は22.5度よりも大きく設定している。図11(c)、(d)に撮影画角内でのエリア分割された例を示す。軸1101は初期化時の撮像装置101の方向であり、この方向角度を基準位置としてエリア分割が行われる。1102は、撮像されている画像の画角エリアを示しており、そのときの画像例を図11(d)に示す。画角に写し出されている画像内ではエリア分割に基づいて、図11(d)の1103〜1118のように画像分割される。
(1) Area division The area division will be described with reference to FIG. As shown in FIG. 11A, the area is divided around the entire periphery around the position of the image pickup device (origin O is the position of the image pickup device). In the example of FIG. 11A, the tilt direction and the pan direction are each divided by 22.5 degrees. When divided as shown in FIG. 11A, the circumference in the horizontal direction becomes smaller and the area area becomes smaller as the angle in the tilt direction deviates from 0 degrees. Therefore, as shown in FIG. 11B, when the tilt angle is 45 degrees or more, the area range in the horizontal direction is set to be larger than 22.5 degrees. 11 (c) and 11 (d) show examples of area division within the shooting angle of view. The
(2)エリア毎の重要度レベルの算出
前記のように分割した各エリアについて、エリア内に存在する被写体やエリアのシーン状況に応じて、探索を行う優先順位を示す重要度レベルを算出する。被写体の状況に基づいた重要度レベルは、例えば、エリア内に存在する人物の数、人物の顔の大きさ、顔向き、顔検出の確からしさ、人物の表情、人物の個人認証結果に基づいて算出する。また、シーンの状況に応じた重要度レベルは、例えば、一般物体認識結果、シーン判別結果(青空、逆光、夕景など)、エリアの方向からする音のレベルや音声認識結果、エリア内の動き検知情報等である。また、撮像装置の状態判定(S903)で、撮像装置の振動状態が検出されており、振動状態に応じても重要度レベルが変化するようにもすることができる。例えば、「置き撮り状態」と判定された場合、顔認証で登録されている中で優先度の高い被写体(例えば撮像装置のユーザである)を中心に被写体探索が行われるように、特定人物の顔認証を検出すると重要度レベルが高くなるように判定される。また、後述する自動撮影も上記顔を優先して行われることになり、撮像装置のユーザが撮像装置を身に着けて持ち歩き撮影を行っている時間が多くても、撮像装置を取り外して机の上などに置くことで、ユーザが写った画像も多く残すことができる。このときパン・チルトにより探索可能であることから、撮像装置の置き角度などを考えなくても、適当に設置するだけでユーザが写った画像やたくさんの顔が写った集合写真などを残すことができる。なお、上記条件だけでは、各エリアに変化がない限りは、最も重要度レベルが高いエリアが同じとなり、その結果探索されるエリアがずっと変わらないことになってしまう。そこで、過去の撮影情報に応じて重要度レベルを変化させる。具体的には、所定時間継続して探索エリアに指定され続けたエリアは重要度レベルを下げたり、後述するS910にて撮影を行ったエリアでは、所定時間の間重要度レベルを下げたりしてもよい。
(2) Calculation of importance level for each area For each area divided as described above, the importance level indicating the priority of searching is calculated according to the subject existing in the area and the scene situation of the area. The importance level based on the situation of the subject is based on, for example, the number of people existing in the area, the size of the person's face, the face orientation, the certainty of face detection, the facial expression of the person, and the personal authentication result of the person. calculate. In addition, the importance level according to the situation of the scene is, for example, general object recognition result, scene discrimination result (blue sky, backlight, evening scene, etc.), sound level and voice recognition result from the direction of the area, motion detection in the area. Information etc. Further, the vibration state of the image pickup apparatus is detected by the state determination (S903) of the image pickup apparatus, and the importance level can be changed according to the vibration state. For example, when it is determined that the subject is in the "placed shooting state", the subject is searched for the subject having a high priority (for example, the user of the imaging device) registered by face recognition, so that the subject is searched for. When face recognition is detected, it is determined that the importance level is high. In addition, automatic shooting, which will be described later, will also be performed with priority given to the above-mentioned face, and even if the user of the image pickup device wears the image pickup device and takes a lot of time to carry around and take a picture, the image pickup device is removed from the desk. By placing it on the top, you can leave many images of the user. At this time, since it is possible to search by pan / tilt, it is possible to leave an image of the user or a group photo of many faces just by installing it properly without considering the placement angle of the image pickup device. it can. Under the above conditions alone, as long as there is no change in each area, the area with the highest importance level will be the same, and as a result, the area to be searched will not change forever. Therefore, the importance level is changed according to the past shooting information. Specifically, the importance level is lowered in the area that has been continuously designated as the search area for a predetermined time, and the importance level is lowered in the area that was photographed in S910 described later for a predetermined time. May be good.
(3)探索対象エリアの決定
前記のように各エリアの重要度レベルが算出されたら、重要度レベルが高いエリアを探索対象エリアとして決定する。そして、探索対象エリアを画角に捉えるために必要なパン・チルト探索目標角度を算出する。
(3) Determining the search target area After the importance level of each area is calculated as described above, the area with the high importance level is determined as the search target area. Then, the pan / tilt search target angle required to capture the search target area at the angle of view is calculated.
S905では、パン・チルト駆動を行う。具体的には、像振れ補正量とパン・チルト探索目標角度に基づいた制御サンプリングでの駆動角度を加算することで、パン・チルト駆動量を算出し、鏡筒回転駆動回路205によって、チルト回転ユニット104、パン回転ユニット105をそれぞれ駆動制御する。
In S905, pan / tilt drive is performed. Specifically, the pan / tilt drive amount is calculated by adding the image shake correction amount and the drive angle in the control sampling based on the pan / tilt search target angle, and the tilt rotation is performed by the lens barrel
S906ではズームユニット201を制御しズーム駆動を行う。具体的には、S904で決定した探索対象被写体の状態に応じてズームを駆動させる。例えば、探索対象被写体が人物の顔であるとき、画像上の顔が小さすぎると検出可能な最小サイズを下回ることで検出ができず、見失ってしまう恐れがある。そのような場合は、望遠側にズームすることで画像上の顔のサイズが大きくなるように制御する。一方で、画像上の顔が大きすぎる場合、被写体や撮像装置自体の動きによって被写体が画角から外れやすくなってしまう。そのような場合は、広角側にズームすることで、画面上の顔のサイズが小さくなるように制御する。このようにズーム制御を行うことで、被写体を追跡するのに適した状態を保つことができる。
In S906, the
S904乃至S906では、パン・チルトやズーム駆動により被写体探索を行う方法を説明したが、広角なレンズを複数使用して全方位を一度に撮影する撮像システムで被写体探索を行ってもよい。全方位カメラの場合、撮像によって得られる信号すべてを入力画像として、被写体検出などの画像処理を行うと膨大な処理が必要となる。そこで、画像の一部を切り出して、切り出した画像範囲の中で被写体の探索処理を行う構成にする。上述した方法と同様にエリア毎の重要度レベルを算出し、重要度レベルに基づいて切り出し位置を変更し、後述する自動撮影の判定を行う。これにより画像処理による消費電力の低減や高速な被写体探索が可能となる。 In S904 to S906, the method of searching for a subject by pan / tilt or zoom drive has been described, but the subject search may be performed by an imaging system that uses a plurality of wide-angle lenses to shoot in all directions at once. In the case of an omnidirectional camera, enormous processing is required when performing image processing such as subject detection using all the signals obtained by imaging as input images. Therefore, a part of the image is cut out, and the subject search process is performed within the cut out image range. Similar to the method described above, the importance level for each area is calculated, the cutting position is changed based on the importance level, and the automatic shooting determination described later is performed. This makes it possible to reduce power consumption by image processing and search for a subject at high speed.
S907では、ユーザ(手動)による撮影指示があったがどうかを判定し、撮影指示があった場合、S910に進む。この時、ユーザ(手動)による撮影指示は、シャッターボタン押下によるものや、撮像装置の筺体を指等で軽く叩く(タップ)、音声コマンド入力、外部機器からの指示などによってもよい。タップ操作による撮影指示は、ユーザが撮像装置の筺体をタップした際、装置揺れ検出回路209によって短期間に連続した高周波の加速度を検知し、撮影のトリガーとする撮影指示方法である。音声コマンド入力は、ユーザが所定の撮影を指示する合言葉(例えば「写真とって」等)を発声した場合、音声処理回路214で音声を認識し、撮影のトリガーとする撮影指示方法である。外部機器からの指示は、例えば撮像装置とBlueTooth接続したスマートフォン等から、専用のアプリケーションを介して送信されたシャッター指示信号をトリガーとする撮影指示方法である。
In S907, it is determined whether or not there is a shooting instruction by the user (manual), and if there is a shooting instruction, the process proceeds to S910. At this time, the user (manual) shooting instruction may be performed by pressing the shutter button, tapping the housing of the imaging device with a finger or the like (tap), inputting a voice command, or instructing from an external device. The shooting instruction by tap operation is a shooting instruction method in which when the user taps the housing of the imaging device, the device shaking
また、S907でユーザによる撮影指示があった場合、S914にも進む。このS914、および、その後のS915の処理については、後で詳細な説明を行う。 If the user gives a shooting instruction in S907, the process proceeds to S914. The processing of S914 and the subsequent processing of S915 will be described in detail later.
S907で撮影指示がなかった場合、S908に進み、自動撮影判定を行う。自動撮影判定では、自動撮影を行うかどうかの判定と、撮影方法の判定(静止画一枚撮影、静止画連続撮影(連写)、動画撮影、パノラマ撮影、タイムラプス撮影などの内どれを実行するかの判定)を行う。 If there is no shooting instruction in S907, the process proceeds to S908 and an automatic shooting determination is performed. In the automatic shooting judgment, which of the judgment of whether to perform automatic shooting and the judgment of the shooting method (single still image shooting, continuous still image shooting (continuous shooting), movie shooting, panoramic shooting, time-lapse shooting, etc. are executed. Judgment).
(1)自動撮影を行うかどうかの判定
自動撮影を行うかどうかの判定は以下の2つの判定に基づいて行う。1つは、S904にて得られたエリア別の重要度レベルに基づき、重要度レベルが所定値を超えている場合、自動撮影を実施する判定を下す。2つめは、機械学習の1つであるニューラルネットワークに基づく判定である。ニューラルネットワークの一例として、多層パーセプトロンによるネットワークの例を図10に示す。ニューラルネットワークは、入力値から出力値を予測することに使用されるものであり、予め入力値と、その入力に対して模範となる出力値とを学習しておくことで、新たな入力値に対して、学習した模範に倣った出力値を推定することができる。なお、学習の方法は後述する。図10の1001およびその縦に並ぶ丸は入力層のニューロンであり、1003およびその縦に並ぶ丸は中間層のニューロンであり、1004は出力層のニューロンである。1002のような矢印は各ニューロンを繋ぐ結合を示している。ニューラルネットワークに基づく判定では、入力層のニューロンに対して、現在の画角中に写る被写体や、シーンや撮像装置の状態に基づいた特徴量を入力として与え、多層パーセプトロンの順伝播則に基づく演算を経て出力層から出力された値を得る。そして、出力の値が閾値以上であれば、自動撮影を実施する判定を下す。なお、被写体の特徴は、現在のズーム倍率、現在の画角における一般物体認識結果、顔検出結果、現在画角に写る顔の数、顔の笑顔度・目瞑り度、顔角度、顔認証ID番号、被写体人物の視線角度、シーン判別結果、特定の構図の検出結果等を使用する。また、前回撮影時からの経過時間、現在時刻、GPS位置情報および前回撮影位置からの変化量、現在の音声レベル、声を発している人物、拍手、歓声が上がっているか否か等を使用してもよい。また、振動情報(加速度情報、撮像装置の状態)、環境情報(温度、気圧、照度、湿度、紫外線量)等を使用してもよい。更に、ウエアラブルデバイス501からの情報通知がある場合、通知情報(ユーザの運動情報、腕のアクション情報、心拍などの生体情報など)も特徴として使用してもよい。この特徴を所定の範囲の数値に変換し、特徴量として入力層の各ニューロンに与える。そのため、入力層の各ニューロンは上記使用する特徴量の数だけ必要となる。
(1) Judgment of whether to perform automatic shooting Judgment of whether to perform automatic shooting is performed based on the following two judgments. One is to make a determination to perform automatic shooting when the importance level exceeds a predetermined value based on the importance level for each area obtained in S904. The second is a judgment based on a neural network, which is one of machine learning. As an example of a neural network, an example of a network using a multi-layer perceptron is shown in FIG. A neural network is used to predict an output value from an input value, and by learning the input value and an output value that serves as a model for that input in advance, a new input value can be obtained. On the other hand, the output value that follows the learned model can be estimated. The learning method will be described later. In FIG. 10, 1001 and its vertical circles are neurons in the input layer, 1003 and its vertical circles are neurons in the middle layer, and 1004 are neurons in the output layer. Arrows such as 1002 indicate the connections that connect each neuron. In the judgment based on the neural network, the feature amount based on the subject in the current angle of view, the scene and the state of the imaging device is given as an input to the neurons in the input layer, and the calculation based on the forward propagation law of the multi-layer perceptron The value output from the output layer is obtained through. Then, if the output value is equal to or greater than the threshold value, it is determined to perform automatic shooting. The features of the subject are the current zoom magnification, general object recognition result at the current angle of view, face detection result, number of faces reflected in the current angle of view, face smile / eye closure, face angle, face authentication ID. The number, the line-of-sight angle of the subject person, the scene discrimination result, the detection result of a specific composition, etc. are used. In addition, the elapsed time from the previous shooting, the current time, GPS position information and the amount of change from the previous shooting position, the current voice level, the person making the voice, applause, whether or not cheers are raised, etc. are used. You may. Further, vibration information (acceleration information, state of the imaging device), environmental information (temperature, atmospheric pressure, illuminance, humidity, amount of ultraviolet rays) and the like may be used. Further, when there is information notification from the
なお、このニューラルネットワークに基づく判断は、後述する学習処理によって、各ニューロン間の結合重みを変化させることによって、出力値が変化し、判断の結果を学習結果に適応させることができる。 In the judgment based on this neural network, the output value is changed by changing the connection weight between each neuron by the learning process described later, and the judgment result can be adapted to the learning result.
また、図7のS702で読み込んだMainプロセッサの起動条件によって、自動撮影される判定も変化する。例えば、タップ検出による起動や特定音声コマンドによる起動の場合は、ユーザが現在撮影してほしいための操作である可能性が非常に高い。そこで、撮影頻度が多くなるように設定されるようになる。 Further, the determination of automatic shooting also changes depending on the activation condition of the Main processor read in S702 of FIG. 7. For example, in the case of activation by tap detection or activation by a specific voice command, it is very likely that the operation is for the user to currently take a picture. Therefore, the shooting frequency is set to increase.
(2)撮影方法の判定
撮影方法の判定では、S901乃至S904において検出した、撮像装置の状態や周辺の被写体の状態に基づいて、静止画撮影、動画撮影、連写、パノラマ撮影などの内どれを実行するかの判定を行う。例えば、被写体(人物)が静止している場合は静止画撮影を実行し、被写体が動いている場合は動画撮影または連写を実行する。また、被写体が撮像装置を取り囲むように複数存在している場合や、前述したGPS情報に基づいて景勝地であることが判断できた場合には、パン・チルトを操作させながら順次撮影した画像を合成してパノラマ画像を生成するパノラマ撮影処理を実行してもよい。
(2) Judgment of shooting method In the judgment of the shooting method, which of still image shooting, moving image shooting, continuous shooting, panoramic shooting, etc. is performed based on the state of the imaging device and the state of the surrounding subject detected in S901 to S904. To determine whether to execute. For example, when the subject (person) is stationary, still image shooting is executed, and when the subject is moving, moving image shooting or continuous shooting is executed. In addition, when a plurality of subjects exist so as to surround the image pickup device, or when it can be determined that the subject is a scenic spot based on the GPS information described above, the images taken sequentially while operating the pan / tilt are taken. A panoramic shooting process that synthesizes and generates a panoramic image may be executed.
S909では、S908の自動撮影判定により撮影する判定が下された場合、S910に進み、下されなかった場合、撮影モード処理終了へと進む。 In S909, if it is determined by the automatic shooting determination of S908 to shoot, the process proceeds to S910, and if not, the process proceeds to the end of the shooting mode process.
S910では、撮影を開始する。この時、手動撮影であれば静止画の撮影、あるいは、ユーザが手動で設定した撮影方法で撮影を行い、自動撮影であればS908にて判定された撮影方法による撮影を開始する。その際、フォーカス駆動制御回路204によるオートフォーカス制御を行う。また、不図示の絞り制御回路およびセンサゲイン制御回路、シャッター制御回路を用いて、被写体が適切な明るさになるような露出制御を行う。さらに、撮影後には画像処理回路207において、オートホワイトバランス処理、ノイズリダクション処理、ガンマ補正処理等、種々の画像処理を行い、画像を生成する。
In S910, shooting is started. At this time, in the case of manual shooting, a still image is shot, or in the case of automatic shooting, shooting is performed by a shooting method manually set by the user, and in the case of automatic shooting, shooting by the shooting method determined in S908 is started. At that time, autofocus control is performed by the focus
なお、自動撮影の際に、所定の条件を満たした時、撮像装置が撮影対象となる人物に対し撮影を行う旨を報知処理した上で撮影する手段を取ってもよい。報知の方法は、例えば、音声出力回路218からの音声やLED制御回路224によるLED点灯光を使用してもよいし、パン・チルトを駆動することにより視覚的に被写体の視線を誘導するモーション動作をしてもよい。所定の条件は、例えば、画角内における顔の数、顔の笑顔度・目瞑り度、被写体人物の視線角度や顔角度、顔認証ID番号、個人認証登録されている人物の数等である。また、撮影時の一般物体認識結果、シーン判別結果、前回撮影時からの経過時間、撮影時刻、GPS情報に基づく現在位置が景勝地であるか否か、撮影時の音声レベル、声を発している人物の有無、拍手、歓声が上がっているか否か等である。また、振動情報(加速度情報、撮像装置の状態)、環境情報(温度、気圧、照度、湿度、紫外線量)等である。これらの条件に基づき報知撮影を行うことによって、重要性が高いシーンにおいてカメラ目線の好ましい画像を残すことができる。
In the case of automatic shooting, when a predetermined condition is satisfied, the imaging device may take a means of notifying the person to be shot that the person is to be shot and then taking a picture. As the method of notification, for example, the voice from the
また、所定の条件を複数もち、各条件に応じて音声を変更したり、LEDの点灯方法(色や点滅時間など)を変更したり、パン・チルトのモーション方法(動き方や駆動速度)を変更してもよい。 In addition, it has multiple predetermined conditions, and changes the sound according to each condition, changes the LED lighting method (color, blinking time, etc.), and pan / tilt motion method (movement method and drive speed). You may change it.
S911では、S910にて生成した画像を加工したり、動画に追加したりといった編集処理を行う。画像加工については、具体的には、人物の顔や合焦位置に基づいたトリミング処理、画像の回転処理、HDR(ハイダイナミックレンジ)効果、ボケ効果、色変換フィルタ効果などである。画像加工は、S910にて生成した画像を元に、上記の処理の組み合わせによって複数生成し、前記S910にて生成した画像とは別に保存するとしてもよい。また、動画処理については、撮影した動画または静止画を、生成済みの編集動画にスライド、ズーム、フェードの特殊効果処理をつけながら追加するといった処理をしてもよい。S911での編集についても、撮影画像の情報、或いは撮影前に検出した各種情報をニューラルネットワークに基づく判断によって、画像加工の方法を判定することもできるし、この判定処理は、後述する学習処理によって、判定条件を変更することができる。 In S911, editing processing such as processing the image generated in S910 and adding it to a moving image is performed. Specific examples of image processing include trimming processing based on a person's face and in-focus position, image rotation processing, HDR (high dynamic range) effect, bokeh effect, and color conversion filter effect. In the image processing, a plurality of images may be generated based on the image generated in S910 by a combination of the above processes, and may be saved separately from the image generated in S910. Further, as for the moving image processing, the captured moving image or the still image may be added to the generated edited moving image while adding special effect processing of slide, zoom, and fade. Regarding editing in S911, the image processing method can also be determined by determining the captured image information or various information detected before imaging based on the neural network, and this determination process is performed by the learning process described later. , Judgment conditions can be changed.
S912では撮影画像の学習情報生成処理を行う。ここでは、後述する学習処理に使用する学習情報を生成し、記録する。具体的には、今回の撮影画像における、撮影時のズーム倍率、撮影時の一般物体認識結果、顔検出結果、撮影画像に写る顔の数、顔の笑顔度・目瞑り度、顔角度、顔認証ID番号、被写体人物の視線角度等である。また、シーン判別結果、前回撮影時からの経過時間、撮影時刻、GPS位置情報および前回撮影位置からの変化量、撮影時の音声レベル、声を発している人物、拍手、歓声が上がっているか否か等である。また、振動情報(加速度情報、撮像装置の状態)、環境情報(温度、気圧、照度、湿度、紫外線量)、動画撮影時間、手動撮影指示によるものか否か、等である。更にユーザの画像の好みを数値化した学習モデルの出力であるスコアも演算する。 In S912, learning information generation processing of the captured image is performed. Here, learning information used for the learning process described later is generated and recorded. Specifically, in the image taken this time, the zoom magnification at the time of shooting, the general object recognition result at the time of shooting, the face detection result, the number of faces in the photographed image, the degree of smile / eye closure of the face, the face angle, and the face. The authentication ID number, the line-of-sight angle of the subject person, and the like. In addition, the scene discrimination result, the elapsed time from the previous shooting, the shooting time, the GPS position information and the amount of change from the previous shooting position, the audio level at the time of shooting, the person making a voice, applause, and whether or not cheers are raised. Is it? In addition, vibration information (acceleration information, state of the imaging device), environmental information (temperature, atmospheric pressure, illuminance, humidity, amount of ultraviolet rays), moving image shooting time, whether or not it is due to manual shooting instructions, and the like. Furthermore, the score, which is the output of the learning model that quantifies the user's image preference, is also calculated.
これらの情報を生成し、撮影画像ファイルへタグ情報として記録する。あるいは、不揮発性メモリ216へ書き込むか、記録媒体221内に、所謂カタログデータとして各々の撮影画像の情報をリスト化した形式で保存する、としてもよい。
This information is generated and recorded as tag information in the captured image file. Alternatively, the information may be written to the
S913では過去撮影情報の更新を行う。具体的には、S908の説明で述べたエリア毎の撮影枚数や、個人認証登録された人物毎の撮影枚数、一般物体認識で認識された被写体毎の撮影枚数、シーン判別のシーン毎の撮影枚数について、今回撮影された画像が該当する枚数のカウントを1つ増やす。 In S913, the past shooting information is updated. Specifically, the number of shots for each area described in the explanation of S908, the number of shots for each person registered for personal authentication, the number of shots for each subject recognized by general object recognition, and the number of shots for each scene for scene discrimination. The count of the number of images taken this time is incremented by one.
<学習モード処理>
次に、本実施形態におけるユーザの好みに合わせた学習について説明する。
<Learning mode processing>
Next, learning according to the user's preference in the present embodiment will be described.
本実施形態では、図10に示すようなニューラルネットワークを用い、機械学習アルゴリズムを使用して、学習処理回路219にてユーザの好みに合わせた学習を行って学習モデルを生成する。学習処理回路219は、例えば、NVIDIA社のJetson TX2を用いる。ニューラルネットワークは、入力値から出力値を予測することに使用されるものであり、予め入力値の実績値と出力値の実績値を学習しておくことで、新たな入力値に対して、出力値を推定することができる。ニューラルネットワークを用いることにより、前述の自動撮影や被写体探索に対して、ユーザの好みに合わせた学習を行う。
In the present embodiment, a neural network as shown in FIG. 10 is used, and a machine learning algorithm is used to perform learning according to the user's preference in the
また、ニューラルネットワークに入力する特徴データともなる被写体登録(顔認証や一般物体認識など)を登録することも行う。 In addition, subject registration (face recognition, general object recognition, etc.), which is also feature data to be input to the neural network, is also registered.
本実施形態において、学習処理により、学習される要素は以下である。 In the present embodiment, the elements learned by the learning process are as follows.
(1)自動撮影
自動撮影に対する学習について説明する。自動撮影では、ユーザの好みに合った画像の撮影を自動で行うための学習を行う。図9のフローを用いた説明で上述したように、撮影後(S912)に学習情報生成処理が行われている。後述する方法により学習させる画像を選択させ、画像に含まれる学習情報を基に、ニューラルネットワークの重みを変化させることで学習する。学習は、自動撮影タイミングの判定を行うニューラルネットワークの変更と、撮影方法(静止画撮影、動画撮影、連写、パノラマ撮影など)の判定をニューラルネットワークの変更で行われる。
(1) Automatic shooting Learn about automatic shooting. In automatic shooting, learning is performed to automatically shoot an image that suits the user's taste. As described above in the description using the flow of FIG. 9, the learning information generation process is performed after shooting (S912). An image to be trained is selected by a method described later, and learning is performed by changing the weight of the neural network based on the learning information contained in the image. The learning is performed by changing the neural network for determining the automatic shooting timing and changing the neural network for determining the shooting method (still image shooting, moving image shooting, continuous shooting, panoramic shooting, etc.).
(2)自動編集
自動編集に対する学習について説明する。自動編集は、図9のS911での撮影直後の編集に対して学習が行われる。撮影直後の編集について説明する。後述する方法により学習させる画像を選択させ、画像に含まれる学習情報を基に、ニューラルネットワークの重みを変化させることで学習する。撮影或いは撮影直前の情報により得られた各種検出情報をニューラルネットワークに入力し、編集方法(トリミング処理、画像の回転処理、HDR(ハイダイナミックレンジ)効果、ボケ効果、色変換フィルタ効果など)の判定を行う。
(2) Automatic editing Learning for automatic editing will be described. In the automatic editing, learning is performed for the editing immediately after shooting in S911 of FIG. Editing immediately after shooting will be described. An image to be trained is selected by a method described later, and learning is performed by changing the weight of the neural network based on the learning information contained in the image. Various detection information obtained from shooting or information immediately before shooting is input to the neural network to determine the editing method (trimming processing, image rotation processing, HDR (high dynamic range) effect, blur effect, color conversion filter effect, etc.). I do.
(3)被写体探索
被写体探索に対する学習について説明する。被写体探索では、ユーザの好みに合った被写体の探索を自動で行うための学習を行う。図9のフローを用いた説明で上述したように、被写体探索処理(S904)において、各エリアの重要度レベルを算出し、パン・チルト、ズームを駆動し、被写体探索を行っている。学習は撮影画像や探索中の検出情報によって学習され、ニューラルネットワークの重みを変化させることで学習する。探索動作中の各種検出情報をニューラルネットワークに入力し、重要度レベルの算出を行い、重要度レベルに基づきパン・チルトの角度を設定することで学習を反映した被写体探索を行う。また、重要度レベルに基づくパン・チルト角度の設定以外にも、例えば、パン・チルト駆動(速度、加速度、動かす頻度)の学習も行う。
(3) Subject search Learning for subject search will be described. In the subject search, learning is performed to automatically search for a subject that suits the user's preference. As described above in the description using the flow of FIG. 9, in the subject search process (S904), the importance level of each area is calculated, pan / tilt and zoom are driven, and the subject search is performed. The learning is learned by the captured image and the detection information during the search, and is learned by changing the weight of the neural network. Various detection information during the search operation is input to the neural network, the importance level is calculated, and the pan / tilt angle is set based on the importance level to perform the subject search reflecting the learning. In addition to setting the pan / tilt angle based on the importance level, for example, learning of pan / tilt drive (speed, acceleration, frequency of movement) is also performed.
(4)被写体登録
被写体登録に対する学習について説明する。被写体登録では、ユーザの好みに合った被写体の登録やランク付けを自動で行うための学習を行う。学習として、例えば、顔認証登録や一般物体認識の登録、ジェスチャーや音声認識、音によるシーン認識の登録を行う。認証登録は人と物体に対する認証登録を行い、画像取得される回数や頻度、手動撮影される回数や頻度、探索中の被写体の現れる頻度からランク設定を行う。登録された情報は、各ニューラルネットワークを用いた判定の入力として登録されることになる。
(4) Subject registration The learning for subject registration will be described. In subject registration, learning is performed to automatically register and rank subjects according to the user's preference. As learning, for example, face recognition registration, general object recognition registration, gesture and voice recognition, and sound scene recognition registration are performed. Authentication registration is performed for people and objects, and rank is set based on the number and frequency of image acquisition, the number and frequency of manual shooting, and the frequency of appearance of the subject under search. The registered information will be registered as an input for determination using each neural network.
次に、学習方法について説明する。 Next, the learning method will be described.
学習方法としては、「撮像装置内の学習」と「通信機器との連携による学習」がある。 As a learning method, there are "learning in an imaging device" and "learning in cooperation with a communication device".
撮像装置内学習の方法について、以下説明する。本実施形態における撮像装置内学習は、以下の方法がある。 The method of learning in the imaging device will be described below. There are the following methods for in-image learning in the imaging device in this embodiment.
(1)ユーザによる撮影指示時の検出情報による学習
図9のS907乃至S913で説明したとおり、本実施形態においては、撮像装置101は、手動撮影と自動撮影の2つの撮影を行うことができる。S907で手動操作による撮影指示(上記説明したとおり、3つの判定に基づいて行う。)があった場合は、S912において、撮影画像は手動で撮影された画像であるとの情報が付加される。また、S909にて自動撮影ONと判定されて撮影された場合においては、S912において、撮影画像は自動で撮影された画像であると情報が付加される。
(1) Learning from Detection Information at the Time of Shooting Instruction by the User As described in S907 to S913 of FIG. 9, in the present embodiment, the
ここで手動撮影される場合、ユーザの好みの被写体、好みのシーン、好みの場所や時間間隔を基に撮影された可能性が非常に高い。よって、手動撮影時に得られた各特徴データや撮影画像の学習情報を基とした学習が行われるようにする。 When manually shooting here, it is very likely that the picture was taken based on the user's favorite subject, favorite scene, favorite place and time interval. Therefore, learning is performed based on each feature data obtained at the time of manual shooting and learning information of the shot image.
また、手動撮影時の検出情報から、撮影画像における特徴量の抽出や個人認証の登録、個人ごとの表情の登録、人の組み合わせの登録に関して学習を行う。また、被写体探索時の検出情報からは、例えば、個人登録された被写体の表情から、近くの人や物体の重要度を変更するような学習を行う。 In addition, from the detection information at the time of manual shooting, learning is performed regarding extraction of feature quantities in shot images, registration of personal authentication, registration of facial expressions for each individual, and registration of combinations of people. Further, from the detection information at the time of subject search, for example, learning is performed to change the importance of a nearby person or object from the facial expression of the personally registered subject.
(2)被写体探索時の検出情報による学習
被写体探索動作中において、個人認証登録されている被写体が、どんな人物、物体、シーンと同時に写っているかを判定し、同時に画角内に写っている時間比率を演算しておく。
(2) Learning based on detection information during subject search During the subject search operation, it is determined what kind of person, object, and scene the subject registered for personal authentication is being captured at the same time, and the time during which the subject is captured within the angle of view at the same time. Calculate the ratio.
例えば、個人認証登録被写体の人物Aが個人認証登録被写体の人物Bと同時に写っている時間比率が所定閾値よりも高い場合重要度が高いと判定できる。このため、人物Aと人物Bが画角内に入る場合は、自動撮影判定の点数が高くなるように各種検出情報を学習データとして保存して学習モード処理716で学習する。 For example, if the time ratio in which the person A of the personal authentication registered subject is photographed at the same time as the person B of the personal authentication registered subject is higher than the predetermined threshold value, it can be determined that the importance is high. Therefore, when the person A and the person B are within the angle of view, various detection information is saved as learning data and learned by the learning mode process 716 so that the score of the automatic shooting determination is high.
他の例では、個人認証登録被写体の人物Aが一般物体認識により判定された被写体「猫」と同時に写っている時間比率が所定閾値よりも高い場合、重要度が高いと判定できる。このため、人物Aと「猫」が画角内に入る場合は、自動撮影判定の点数が高くなるように各種検出情報を学習データとして保存する。そして、学習モード処理716で学習する。 In another example, when the time ratio in which the person A of the personal authentication registered subject appears at the same time as the subject "cat" determined by the general object recognition is higher than the predetermined threshold value, it can be determined that the importance is high. Therefore, when the person A and the "cat" are within the angle of view, various detection information is saved as learning data so that the score of the automatic shooting determination is high. Then, learning is performed by the learning mode process 716.
このように、探索中の被写体の現れる頻度が高い場合に、自動撮影判定の点数が高くなるようにすると、個人認証登録されている被写体の近くの人や物体の重要度も、高くなるように変更することができる。 In this way, when the subject being searched for appears frequently, if the score of the automatic shooting judgment is increased, the importance of people and objects near the subject registered for personal authentication will also be increased. Can be changed.
また、個人認証登録被写体の人物Aの笑顔度を検出したり、表情の検出により「喜び」「驚き」などが検出されたとき、同時に写っている被写体は重要であるように学習される処理が行われる。また、表情が「怒り」「真顔」などが検出されたときの、同時に写っている被写体は重要である可能性が低いので学習することはしないなどの処理が行われる。 In addition, when the smile degree of the person A who is the subject registered for personal authentication is detected, or when "joy" or "surprise" is detected by detecting the facial expression, the subject that is simultaneously captured is learned to be important. Will be done. In addition, when facial expressions such as "anger" and "true face" are detected, it is unlikely that the subject in the picture at the same time is important, so processing such as not learning is performed.
次に、本実施形態における外部通信機器との連携による学習を説明する。本実施形態における外部通信機器との連携による学習には、以下の方法がある。 Next, learning in cooperation with an external communication device in this embodiment will be described. There are the following methods for learning in cooperation with an external communication device in this embodiment.
(3)外部通信機器で画像を取得したことによる学習
図3で説明したとおり、撮像装置101と外部機器301は、通信302、303の通信手段を有している。主に通信302によって画像の送受信が行われ、外部機器301内の専用のアプリケーションを介して、撮像装置101内の画像を外部機器301に通信取得することができる。また、撮像装置101内の保存されている画像データのサムネイル画像を外部機器301内の専用のアプリケーションを介して、閲覧可能な構成である。これにより、ユーザはサムネイル画像の中から、自分が気に入った画像を選択して、画像確認し、画像取得指示を操作することで外部機器301に画像取得できる。
(3) Learning by Acquiring an Image with an External Communication Device As described in FIG. 3, the
このとき、ユーザが画像を選んで送信指示し取得しているので、取得された画像はユーザの好みの画像である可能性が非常に高い。よって取得された画像は、学習すべき画像であると判定し、取得された画像の学習情報を基に学習することでユーザの好みの各種学習を行うことができる。 At this time, since the user selects an image, instructs transmission, and acquires the image, it is very likely that the acquired image is the user's favorite image. Therefore, it is determined that the acquired image is an image to be learned, and by learning based on the learning information of the acquired image, various learnings preferred by the user can be performed.
操作例を説明する。スマートデバイスである外部機器301の専用のアプリケーションを介して、撮像装置101内の画像を閲覧している例を図14に示す。表示装置407に撮像装置内に保存されている画像データのサムネイル画像(1404乃至1409)を表示してあり、ユーザは自分が気に入った画像を選択し画像取得を行える。このとき、表示方法を変更する表示方法変更部(1401、1402、1403)が設けられている。1401を押下すると表示順序が日時優先表示モードに変更され、撮像装置101内画像の撮影日時の順番で表示装置407に画像が表示される。(例えば、1404は日時が新しく、1409が日時は古いように表示される。)1402を押下するとおすすめ画像優先表示モードに変更される。図9S912で演算した各画像に対してユーザの好みを判定したスコアに基づいて、撮像装置101内画像のスコアの高い順番で表示装置407に画像が表示される。(例えば、1404はスコアが高く、1409がスコアは低いように表示される。)1403を押下すると人物や物体被写体を指定でき、続いて特定の人物や物体被写体を指定すると特定の被写体のみを表示することもできる。
An operation example will be described. FIG. 14 shows an example in which an image in the
1401乃至1403は同時に設定をONすることもでき、例えばすべての設定がONされている場合、指定された被写体のみを表示し、且つ、撮影日時が新しい画像が優先され、且つ、スコアの高い画像が優先され、表示されることになる。 The settings of 1401 to 1403 can be turned on at the same time. For example, when all the settings are turned on, only the specified subject is displayed, the image with the newest shooting date and time is prioritized, and the image has a high score. Will be given priority and displayed.
このように、撮影画像に対してもユーザの好みを学習しているため、撮影された大量の画像の中から簡単な確認作業でユーザの好みの画像のみを簡単に抽出することが可能である。 In this way, since the user's preference is also learned for the captured image, it is possible to easily extract only the user's favorite image from a large number of captured images by a simple confirmation work. ..
(4)外部通信機器を介して、画像に判定値を入力することによる学習
上記で説明したとおり、撮像装置101と外部機器301は、通信手段を有しており、撮像装置101内の保存されている画像を外部機器301内の専用のアプリケーションを介して、閲覧可能な構成である。ここで、ユーザは、各画像に対して点数付を行う構成にしてもよい。ユーザが好みと思った画像に対して高い点数(例えば5点)を付けたり、好みでないと思った画像に対して低い点数(例えば1点)を付けることができ、ユーザの操作によって、撮像装置が学習していくような構成にする。各画像の点数は、撮像装置内で学習情報と共に再学習に使用する。指定した画像情報からの特徴データを入力にした、ニューラルネットワークの出力がユーザが指定した点数に近づくように学習される。
(4) Learning by inputting a determination value into an image via an external communication device As described above, the
本実施形態では、通信機器301を介して、撮影済み画像にユーザが判定値を入力する構成にしたが、撮像装置101を操作して、直接、画像に判定値を入力する構成にしてもよい。その場合、例えば、撮像装置101にタッチパネルディスプレイを設け、タッチパネルディスプレイ画面表示装置に表示されたGUIボタンをユーザが押下して、撮影済み画像を表示するモードに設定する。そして、ユーザは撮影済み画像を確認しながら、各画像に判定値を入力するなどの方法により、同様の学習を行うことができる。
In the present embodiment, the user inputs the determination value to the captured image via the
(5)外部通信機器で、パラメータを変更することによる学習
上記で説明したとおり、撮像装置101と外部機器301は、通信手段を有しており、撮像装置101内に現在設定されている学習パラメータを外部機器301に通信し、外部機器301の記憶回路404に保存することができる。学習パラメータとしては、例えば、ニューラルネットワークの重みや、ニューラルネットワークに入力する被写体の選択などが考えられる。また、外部機器301内の専用のアプリケーションを介して、専用のサーバにセットされた学習パラメータを公衆回線制御回路406を介して取得して、撮像装置101内の学習パラメータに設定することもできる構成とする。これにより、ある時点でのパラメータを外部機器301に保存しておいて、撮像装置101に設定することで学習パラメータを戻すこともできるし、他のユーザが持つ学習パラメータを専用のサーバを介して取得し自身の撮像装置101に設定することもできる。
(5) Learning by changing parameters in an external communication device As described above, the
次に、学習処理シーケンスについて説明する。 Next, the learning processing sequence will be described.
図7のS704のモード設定判定にて、学習処理を行うべきか否かを判定し、学習処理を行う場合、学習モードであると判定され、S712の学習モード処理を行う。 In the mode setting determination of S704 of FIG. 7, it is determined whether or not the learning process should be performed, and when the learning process is performed, it is determined that the learning mode is used, and the learning mode process of S712 is performed.
学習モードの判定条件を説明する。学習モードに移行するか否かは、前回学習処理を行ってからの経過時間と、学習に使用できる情報の数、通信機器を介して学習処理指示があったかなどから判定される。S704のモード設定判定処理内で判定される、学習モードに移行すべきか否かの判定処理フローを図12に示す。 The judgment conditions of the learning mode will be described. Whether or not to shift to the learning mode is determined from the elapsed time since the last learning process, the number of information that can be used for learning, and whether or not a learning process instruction was given via a communication device. FIG. 12 shows a determination processing flow for determining whether or not to shift to the learning mode, which is determined in the mode setting determination process of S704.
S704のモード設定判定処理内で学習モード判定が開始指示されると、図12の処理がスタートする。S1201では、外部機器301からの登録指示があるかどうかを判定する。ここでの登録は、上記説明した学習するための登録指示があったかどうかの判定である。例えば、<通信機器で画像取得された画像情報による学習>や、<通信機器を介して、画像に判定値を入力することによる学習>がある。S1201で、外部機器からの登録指示があった場合、S1208に進み、学習モード判定をTRUEにして、S712の処理を行うように設定する。S1201で外部機器からの登録指示がない場合、S1202に進む。S1202では外部機器からの学習指示があるかどうかを判定する。ここでの学習指示は<通信機器で、撮像装置パラメータを変更することによる学習>のように、学習パラメータをセットする指示があったかどうかの判定である。S1202で、外部機器からの学習指示があった場合、S1208に進み、学習モード判定をTRUEにして、S712の処理を行うように設定し、学習モード判定処理を終了する。S1202で外部機器からの学習指示がない場合、S1203に進む。
When the learning mode determination is instructed to start in the mode setting determination process of S704, the process of FIG. 12 starts. In S1201, it is determined whether or not there is a registration instruction from the
S1203では、前回学習処理(ニューラルネットワークの重みの再計算)が行われてからの経過時間TimeNを取得し、S1204に進む。S1204では、学習する新規のデータ数DN(前回学習処理が行われてからの経過時間TimeNの間で、学習するように指定された画像の数)を取得し、S1205に進む。S1205では、TimeNから閾値DTを演算する。例えば、TimeNが所定値よりも小さい場合の閾値DTaが、所定値よりも大きい場合の閾値DTbよりも大きく設定されており、時間経過によって、閾値が小さくなるように設定してある。これにより、学習データが少ない場合においても、時間経過が大きいと再度学習するようにすることで、使用時間に応じて撮像装置が学習変化し易いようにしてある。 In S1203, the elapsed time TimeN since the previous learning process (recalculation of the neural network weight) is acquired, and the process proceeds to S1204. In S1204, the number of new data to be learned DN (the number of images designated to be learned during the elapsed time TimeN since the last learning process was performed) is acquired, and the process proceeds to S1205. In S1205, the threshold value DT is calculated from TimeN. For example, the threshold DTa when TimeN is smaller than the predetermined value is set to be larger than the threshold DTb when it is larger than the predetermined value, and the threshold is set to become smaller with the passage of time. As a result, even when the learning data is small, the imaging device is made easy to change in learning according to the usage time by learning again when the passage of time is large.
S1205で閾値DTを演算すると、S1206に進み、学習するデータ数DNが、閾値DTよりも大きいか否かを判定する。DNが、閾値DTよりも大きい場合、S1207に進み、DNを0に設定した後、S1208に進み、学習モード判定をTRUEにして、S712の処理を行うように設定し、学習モード判定処理を終了する。 When the threshold value DT is calculated in S1205, the process proceeds to S1206, and it is determined whether or not the number of data DN to be learned is larger than the threshold value DT. When the DN is larger than the threshold value DT, the process proceeds to S1207, the DN is set to 0, then the process proceeds to S1208, the learning mode determination is set to TRUE, the processing of S712 is set to be performed, and the learning mode determination processing is completed. To do.
S1206でDNが、閾値DT以下の場合、S1209に進む。外部機器からの登録指示も、外部機器からの学習指示もなく、且つ学習データ数も所定値以下であるので、学習モード判定をFALSEにし、S712の処理は行わないように設定し、学習モード判定処理を終了する。 If the DN is equal to or less than the threshold value DT in S1206, the process proceeds to S1209. Since there is no registration instruction from an external device, no learning instruction from an external device, and the number of learning data is less than or equal to a predetermined value, the learning mode determination is set to FALSE, the S712 process is set not to be performed, and the learning mode determination is performed. End the process.
次に、学習モード処理(S712)内の処理について説明する。学習モード処理の詳細なフローを図13に示す。 Next, the processing in the learning mode processing (S712) will be described. The detailed flow of the learning mode processing is shown in FIG.
図7のS711で学習モードと判定され、S712に進むと、図13の処理がスタートする。S1301では、外部機器301からの登録指示があるかどうかを判定する。S1301で、外部機器からの登録指示があった場合、S1302に進む。S1302では、各種登録処理を行う。
When the learning mode is determined in S711 of FIG. 7 and the process proceeds to S712, the process of FIG. 13 starts. In S1301, it is determined whether or not there is a registration instruction from the
各種登録は、ニューラルネットワークに入力する特徴の登録であり、例えば顔認証の登録や、一般物体認識の登録や、音情報の登録や、場所情報の登録などである。 Various registrations are registrations of features to be input to the neural network, such as face recognition registration, general object recognition registration, sound information registration, and location information registration.
登録処理を終了すると、S1303に進み、S1302で登録された情報から、ニューラルネットワークへ入力する要素を変更する。 When the registration process is completed, the process proceeds to S1303, and the element to be input to the neural network is changed from the information registered in S1302.
S1303の処理を終了すると、S1307に進む。 When the process of S1303 is completed, the process proceeds to S1307.
S1301で外部機器301からの登録指示がない場合、S1304に進み、外部機器301からの学習指示があるかどうかを判定する。外部機器からの学習指示があった場合、S1305に進み、外部機器から通信された学習パラメータを各判定器(ニューラルネットワークの重みなど)に設定し、S1307に進む。
If there is no registration instruction from the
S1304で外部機器からの学習指示がない場合、S1306で学習(ニューラルネットワークの重みの再計算)を行う。S1306の処理に入るのは、図12を用いて説明したように、学習するデータ数DNが閾値を超えて、各判定器の再学習を行える条件である。誤差逆伝搬法或いは、勾配降下法などの方法を使って再学習させ、ニューラルネットワークの重みを再計算して、各判定器のパラメータを変更する。学習パラメータが設定されると、S1307に進む。 If there is no learning instruction from an external device in S1304, learning (recalculation of the neural network weight) is performed in S1306. The process of S1306 is entered under the condition that the number of data to be learned DN exceeds the threshold value and each determination device can be relearned, as described with reference to FIG. Re-learning is performed using a method such as an error back propagation method or a gradient descent method, the weight of the neural network is recalculated, and the parameters of each judge are changed. When the learning parameter is set, the process proceeds to S1307.
S1307では、ファイル内の画像を再スコア付する。本実施形態においては、学習結果に基づいてファイル(記録媒体221)内に保存されているすべての撮影画像にスコアを付けておき、付けられたスコアに応じて、自動編集や自動ファイル削除を行う構成となっている。よって、再学習や外部機器からの学習パラメータのセットが行われた場合には、撮影済み画像のスコアも更新を行う必要がある。よって、S1307では、ファイル内に保存されている撮影画像に対して新たなスコアを付ける再計算が行われ、処理が終了すると学習モード処理を終了する。 In S1307, the images in the file are rescored. In the present embodiment, scores are assigned to all captured images stored in the file (recording medium 221) based on the learning result, and automatic editing or automatic file deletion is performed according to the assigned scores. It is composed. Therefore, when re-learning or setting of learning parameters from an external device is performed, it is necessary to update the score of the captured image as well. Therefore, in S1307, the recalculation for adding a new score to the captured image stored in the file is performed, and when the processing is completed, the learning mode processing is terminated.
本実施形態においては、撮像装置101内で、学習する構成を基に説明したが、外部機器301側に学習処理をもち、学習に必要なデータを外部機器301に通信し、外部機器側でのみ学習を実行する構成でも同様の学習効果を実現可能である。その場合、上記<通信機器で、パラメータを変更することによる学習>で説明したように、外部機器側で学習したニューラルネットワークの重みなどのパラメータを撮像装置101に通信により設定することで学習を行う構成にしてもよい。
In the present embodiment, the description has been made based on the configuration of learning in the
また、撮像装置101内と、外部機器301内の両方に、それぞれ学習処理をもつ構成にしてもよい。例えば撮像装置101内で学習モード処理716が行われるタイミングで外部機器301が持つ学習情報を撮像装置101に通信し、学習パラメータをマージすることで学習を行う構成にしてもよい。
Further, the learning process may be provided in both the
次に、ニューラルネットワークの学習において教師データの不足を補う方法について説明する。 Next, a method of compensating for the lack of teacher data in the learning of the neural network will be described.
ニューラルネットワークで入力値から精度良く出力値を推定するためには十分な数の教師データが必要とされる。教師データの数に対してニューラルネットワークのモデルが複雑で自由度が高いと推定精度を上げるのは難しい。また機械学習の分野では、教師データと少し異なるデータであってもロバストに推定ができるようするためにData Augmentationという処理を行う場合がある。これは教師データ(この場合は画像)に対してアスペクト比の変更、回転(ロール、ピッチ、ヨー)、ぼかし、ノイズ付加、ずらし等の画像処理を加えることで行うことが多い。しかしながら、必ずしもカメラで撮影できる画像と一致するとはいえない。たとえば画像処理でぼかしを加えたとしても、実際にカメラで絞りを開放にしたり、ピントをずらしたりしても、同等のぼかしが実現できるとは限らない。 A sufficient number of teacher data is required to accurately estimate the output value from the input value in the neural network. It is difficult to improve the estimation accuracy if the neural network model is complicated and has a high degree of freedom with respect to the number of teacher data. In the field of machine learning, even data that is slightly different from the teacher data may be subjected to a process called Data Augmentation so that it can be estimated robustly. This is often done by adding image processing such as aspect ratio change, rotation (roll, pitch, yaw), blurring, noise addition, and shifting to the teacher data (in this case, the image). However, it does not always match the image that can be taken by the camera. For example, even if blurring is added by image processing, the same blurring cannot always be achieved even if the aperture is actually opened or the focus is shifted by the camera.
ニューラルネットワークで推定をしたいデータと教師データが似ていないと、この教師データがニューラルネットワークの推定精度を下げる要因となりかねない。また、所定の回転(ロール、ピッチ、ヨー)を加えたとしても、実際に人間がカメラで撮影する角度を再現できるとは限らない。具体的には、画像を単純に画像中心からたとえば45度や90度回転させても、ユーザは被写体が直立していない写真を撮る機会は少ないので、ユーザの好みを学習するための教師データとしては貢献度が低い。 If the data to be estimated by the neural network and the teacher data are not similar, this teacher data may be a factor that lowers the estimation accuracy of the neural network. Moreover, even if a predetermined rotation (roll, pitch, yaw) is applied, it is not always possible to reproduce the angle actually taken by a human being with a camera. Specifically, even if the image is simply rotated by 45 degrees or 90 degrees from the center of the image, the user has few chances to take a picture in which the subject is not upright, so it is used as teacher data for learning the user's preference. Has a low degree of contribution.
このように画像処理によって教師データの不足を補うことは難しく、好ましくは実際の撮影によって教師データを増加させる方が良い。もしくは画像処理でData Augmentationを行う場合も、カメラとして撮影できない画像よりも、カメラで撮影できる画像に近いものの方が良い。そこで本実施形態では、学習用に実際の撮影を自動的に行って教師データを増加させる方法について説明する。 As described above, it is difficult to make up for the shortage of teacher data by image processing, and it is preferable to increase the teacher data by actual shooting. Alternatively, when performing Data Augmentation by image processing, it is better to have an image close to the image that can be taken by the camera rather than an image that cannot be taken by the camera. Therefore, in the present embodiment, a method of automatically performing actual shooting for learning to increase teacher data will be described.
上述したように、図9のS907でユーザによる撮影指示があったと判別された場合、S910およびS914に進む。 As described above, when it is determined in S907 of FIG. 9 that there is a shooting instruction by the user, the process proceeds to S910 and S914.
S914では現在の教師データ数が所定の数N(Nは自然数)より小さいか否かが判断される。そして、現在の教師データ数が所定の数Nより小さいときのみ、教師データが不足しているとしてS915に進み、教師データの補充のための学習用自動撮影を行う。このNは、ニューラルネットワークの複雑さや自由度(ノード数や中間層の層数)に応じて変化させるとよい。ニューラルネットワークが複雑であったり、自由度が高かったりすると必要な教師データ数は増えるので、Nを増加させる。S914で現在の教師データ数≧Nになり、十分な教師データが蓄えられたと判断された場合は、S915をスキップして、S912に進む。 In S914, it is determined whether or not the current number of teacher data is smaller than a predetermined number N (N is a natural number). Then, only when the current number of teacher data is smaller than a predetermined number N, the process proceeds to S915 assuming that the teacher data is insufficient, and automatic learning imaging for supplementing the teacher data is performed. This N may be changed according to the complexity and the degree of freedom (the number of nodes and the number of layers of the intermediate layer) of the neural network. If the neural network is complicated or the degree of freedom is high, the number of teacher data required increases, so N is increased. If the current number of teacher data ≥ N in S914 and it is determined that sufficient teacher data has been stored, S915 is skipped and the process proceeds to S912.
S907で手動撮影指示があった時にのみ学習用自動撮影をするのは、前述したとおり、手動撮影される場合はユーザの好みの被写体、好みのシーン、好みの場所や時間間隔を基に撮影された可能性が非常に高いためである。よってこのときに学習用自動撮影をすれば、ユーザの好みを反映した教師データが取得できる可能性が高い。 As described above, the automatic shooting for learning is performed only when the manual shooting instruction is given in S907. When the manual shooting is performed, the shooting is performed based on the user's favorite subject, favorite scene, favorite place and time interval. This is because it is very likely. Therefore, if automatic shooting for learning is performed at this time, there is a high possibility that teacher data that reflects the user's preference can be acquired.
またS915の学習用自動撮影とS910の手動撮影は同時には行えないので、タイミングをずらして行う。どちらが先でもよいが、学習用自動撮影と手動撮影が連続して行われるようにする。もし学習用自動撮影が遅れてしまうと、ユーザがカメラを動かしてしまって手動撮影時の好ましい構図から離れてしまう恐れがある。一方、手動撮影が遅れてしまうと、シャッタータイミングがずれることになる。以降の説明では特に明記しないかぎり、最初に手動撮影が行われ、直後に学習用自動撮影が行われるものとする。 Further, since the automatic learning shooting of S915 and the manual shooting of S910 cannot be performed at the same time, the timings are staggered. Whichever comes first, make sure that automatic learning and manual shooting are performed continuously. If the automatic learning shooting is delayed, the user may move the camera and move away from the preferable composition for manual shooting. On the other hand, if the manual shooting is delayed, the shutter timing will shift. In the following description, unless otherwise specified, manual photography is performed first, and automatic learning photography is performed immediately afterwards.
S915では学習用自動撮影が行われる。学習用自動撮影はいくつかの方法が考えられる。一つ目は連写である。手動撮影後に学習用に自動で連写を行い、連写画像を取得する。手動撮影とタイミングが近ければ、ユーザの好みの画像と近い教師データを複数取得できる。この場合、手動撮影で得られた画像は記録画像として扱われるため、記録媒体221に記録されるが、学習用自動撮影で得られた画像は学習のためだけに用いられ、ユーザの目には付かない。
In S915, automatic shooting for learning is performed. There are several possible methods for automatic learning photography. The first is continuous shooting. After manual shooting, continuous shooting is automatically performed for learning, and continuous shooting images are acquired. If the timing is close to that of manual shooting, it is possible to acquire multiple teacher data that are close to the user's favorite image. In this case, since the image obtained by manual shooting is treated as a recorded image, it is recorded on the
二つ目は動画撮影である。手動撮影の前か後に自動的に動画撮影が行われ、静止画と動画が組み合わされてユーザへ提供される機能が一般のカメラやライフログカメラに搭載されることがある。あるいは、カメラは、リングバッファなどのメモリに、一定期間の動画を常に上書きしておいて、静止画が撮影されたタイミングを基準とした前後の所定期間の動画をユーザへ提供する機能が搭載されることがある。この自動的に取得される動画を静止画に分解して教師データとする。これも一つ目の連写と同じ理由で教師データとしての価値がある。なお、この機能を使ったときに制限されるわけではなく、学習用の目的だけで動画を撮影してもよい。その場合、動画はユーザへ提供されない。 The second is video recording. Movie shooting is automatically performed before or after manual shooting, and a function that combines still images and movies and is provided to users may be installed in general cameras and life log cameras. Alternatively, the camera is equipped with a function that constantly overwrites a moving image for a certain period of time in a memory such as a ring buffer and provides the user with a moving image for a predetermined period before and after the timing at which the still image was taken. There are times. This automatically acquired moving image is decomposed into still images and used as teacher data. This is also valuable as teacher data for the same reason as the first continuous shooting. It should be noted that this function is not limited when it is used, and a moving image may be shot only for learning purposes. In that case, the video is not provided to the user.
三つ目はブラケット撮影である。ブラケット撮影は手動撮影での撮影条件を少しずつ変化させて行う。変化させる撮影条件はカメラで変更可能なパラメータであればよく、フォーカス、露出、ホワイトバランス、ストロボ発光、ズーム、シャープネスなどである。これらの撮影条件を変えることでData Augmentationと同じ効果が期待できる。もしカメラで実現不可能なData Augmentationを行い教師データとしてしまうと、それから学習したニューラルネットワークでは、その教師データに近いものしか良く推定できなくなってしまう。これではカメラ用のニューラルネットワークとしては不適格なものとなってしまう。そのため、カメラで実現可能なブラケット撮影による教師データの増加であれば、Data Augmentationとしての効果が期待できる。 The third is bracket photography. Bracket shooting is performed by gradually changing the shooting conditions for manual shooting. The shooting conditions to be changed may be parameters that can be changed by the camera, such as focus, exposure, white balance, strobe light emission, zoom, and sharpness. The same effect as Data Augmentation can be expected by changing these shooting conditions. If data augmentation that cannot be realized by a camera is performed and used as teacher data, the neural network learned from it can only estimate data that is close to the teacher data. This makes it unsuitable as a neural network for cameras. Therefore, if the teacher data is increased by bracket shooting that can be realized by the camera, the effect as Data Augmentation can be expected.
なお、ブラケット撮影の中には手動撮影直後に行わないといけないものと、ある程度時間がたってからでも可能なものとがある。前者はフォーカス、ズームなどの機械動作を伴うものである。これらは手動撮影と連続して撮らないと構図が変わってしまい教師データとして成り立たない。一方後者は、ホワイトバランスやシャープネス、RAW画像データの現像条件等の画像処理によるものである。これらは例え手動撮影と連続して行えなくても、手動撮影画像を基に生成できる。この場合は手動撮影画像のRAWデータを記録するようにしてもよい。手動撮影画像を基に生成する場合は、撮影時である必要はなく、カメラの待機中などに生成してもよい。 It should be noted that some bracket shooting must be performed immediately after manual shooting, and some can be performed even after a certain amount of time has passed. The former involves mechanical movements such as focus and zoom. If these are not taken continuously with manual shooting, the composition will change and they will not be valid as teacher data. On the other hand, the latter is due to image processing such as white balance, sharpness, and development conditions of RAW image data. These can be generated based on the manually photographed image even if they cannot be continuously photographed. In this case, the RAW data of the manually captured image may be recorded. When the image is generated based on the manually captured image, it does not have to be at the time of shooting, and may be generated while the camera is on standby.
このようにブラケット撮影の中には手動撮影と連続して行う必要があるものと、連続して行う必要がないものがあるため、ブラケット撮影の種別に優先順位を設けて自動撮影を行ってもよい。手動撮影と連続して行う必要があるブラケット撮影を先に行うということである。 In this way, some bracket shooting needs to be performed continuously with manual shooting, and some does not need to be performed continuously. Therefore, even if the bracket shooting type is prioritized and automatic shooting is performed. Good. This means that bracket shooting, which must be performed in succession with manual shooting, is performed first.
また、手動撮影から学習用自動撮影を行うまでに、カメラの角速度計106と加速度計107の情報等から、ユーザがカメラを動かしたと判断される場合には、学習用自動撮影を中止するようにしてもよい。
In addition, if it is determined from the information of the camera's
S912では手動撮影と学習用自動撮影の学習用情報を生成し、教師データを作成する。学習用自動撮影で得られた画像についても手動撮影で得られた画像と同様の方法で学習用情報が生成できる。手動撮影で得られた画像はユーザの好みである可能性が高いので、所定の高いスコアを付ける。そして、そのスコアを学習用自動撮影で得られた画像から生成された教師データにもつける。 In S912, learning information for manual shooting and automatic learning shooting is generated, and teacher data is created. For the image obtained by the automatic learning shooting, the learning information can be generated in the same manner as the image obtained by the manual shooting. Since the image obtained by manual shooting is likely to be the user's preference, a predetermined high score is given. Then, the score is also attached to the teacher data generated from the image obtained by the automatic shooting for learning.
あるいは、学習用自動撮影で得られた画像に対して、手動撮影で得られた画像との関係に応じたスコアをつけるようにしてもよい。たとえば、手動撮影と間を空けずに学習用自動撮影が行われたのであれば、学習用自動撮影で得られた画像に対しても手動撮影で得られた画像と同等の高いスコアを付与する。そして、手動撮影と、学習用自動撮影の間隔が離れるにつれて、学習用自動撮影で得られた画像に対するスコアを下げていくということもできる。これにより、ユーザが指示したベストショットタイミングの手動撮影画像の点数が一番高くなり、それよりずれるにつれて低い点がついていくため、ユーザのシャッタータイミングの好みを学習することができる。あるいは、学習用自動撮影で得られた画像のそれぞれに対して手動撮影画像と類似度を比較し、その類似度に応じてスコアをつけるようにしてもよい。さらに、被写体が動体であったり、被写体を含むシーンが変化していたりする場合には、手動撮影のタイミングで撮影された画像の前後の画像を、敢えて、負の教師データとして学習に用いるようにしてもよい。こうすることで、ユーザのシャッタータイミングの好みをより厳密に学習することができるようになることが期待できる。また、前後の画像の代わりに、連続して撮像された画像のうちの、手動撮影で得られた画像との類似度が閾値より低い画像を負の教師データとしてもよい。 Alternatively, the image obtained by the automatic learning photography may be given a score according to the relationship with the image obtained by the manual photography. For example, if the learning automatic shooting is performed without a gap from the manual shooting, the image obtained by the learning automatic shooting is given a high score equivalent to the image obtained by the manual shooting. .. Then, as the interval between the manual shooting and the automatic learning shooting increases, the score for the image obtained by the automatic learning shooting can be lowered. As a result, the score of the manually shot image at the best shot timing instructed by the user becomes the highest, and as the score shifts from that, the score becomes lower, so that the user's preference for shutter timing can be learned. Alternatively, the similarity between the manually captured image and the image obtained by the automatic learning image may be compared with each other, and a score may be given according to the similarity. Furthermore, when the subject is a moving object or the scene including the subject is changing, the images before and after the image taken at the timing of manual shooting are intentionally used for learning as negative teacher data. You may. By doing so, it can be expected that the user's shutter timing preference can be learned more strictly. Further, instead of the images before and after, the images having a similarity lower than the threshold value with the images obtained by manual shooting among the images continuously captured may be used as negative teacher data.
また、ブラケット画像についても同様の考えで、ブラケットによって設定された撮影条件が、手動撮影にて設定された撮影条件から離れるにつれてスコアを下げることもできる。たとえば手動撮影で得られた画像に一番高いスコアをつけ、ブラケット撮影で露出補正+1とした画像に二番目に高いスコアをつけ、露出補正+2とした画像に三番目に高いスコアをつけるなどである。これにより、ユーザの好きな撮影条件についても学習することができる。 Further, with the same idea for the bracket image, the score can be lowered as the shooting conditions set by the bracket deviate from the shooting conditions set by the manual shooting. For example, give the highest score to an image obtained by manual shooting, give the second highest score to an image with exposure compensation +1 in bracket shooting, and give the third highest score to an image with exposure compensation +2. is there. This makes it possible to learn about the user's favorite shooting conditions.
学習用自動撮影で得られた画像の学習用情報は、手動撮影で得られた画像の学習用情報から流用してもよい。たとえば、学習用自動撮影と手動撮影で、撮影対象である被写体は同じである可能性が高いので、手動撮影で得られた画像から生成された一般物体認識結果や顔検出結果などは、学習用自動撮影で得られた画像の学習用情報として流用可能である。これにより学習用情報生成の時間を短縮することができる。 The learning information of the image obtained by the automatic learning shooting may be diverted from the learning information of the image obtained by the manual shooting. For example, it is highly possible that the subject to be photographed is the same in automatic learning shooting and manual shooting, so general object recognition results and face detection results generated from images obtained by manual shooting are for learning. It can be diverted as learning information for images obtained by automatic shooting. As a result, the time for generating learning information can be shortened.
また、S907で判定対象とするユーザによる撮影指示には、前述した音声コマンドや装置101へのタップ操作、外部装置301,501からの撮影指示を含むようにしてもよい。
Further, the shooting instruction by the user to be determined in S907 may include the above-mentioned voice command, tap operation to the
また、学習用自動撮影自体はユーザが指示したものではないため、学習用自動撮影では、シャッター音の小さい電子シャッターによる撮影を行うことが望ましい。 Further, since the learning automatic shooting itself is not instructed by the user, it is desirable to perform shooting with an electronic shutter having a low shutter sound in the learning automatic shooting.
また、学習用自動撮影は、ユーザの意図したタイミングとは別のタイミングで撮影が行われるため、ユーザの意図しない個人情報を保存してしまう可能性がある。これはプライバシーを考慮する上で問題になる可能性がある。そこで学習用自動撮影で得られた画像は保存せずに、この画像から生成された学習用情報のみを保存する構成にしてもよい。学習用情報はたとえばニューラルネットワークの入力層に当たるパラメータで、画像以外の形式となるため、プライバシー情報が特定されにくい。あるいは、学習用情報に個人認証ID等の人物に関連する情報は記録しないようにし、代わりに所定の規定値で置き換えるようにしてもよい。 Further, in the automatic learning shooting, since the shooting is performed at a timing different from the timing intended by the user, there is a possibility that personal information not intended by the user is saved. This can be a problem when considering privacy. Therefore, the image obtained by the automatic learning shooting may not be saved, but only the learning information generated from this image may be saved. The learning information is, for example, a parameter corresponding to the input layer of the neural network, and since it is in a format other than an image, it is difficult to specify the privacy information. Alternatively, the learning information may not record information related to a person such as a personal authentication ID, and may be replaced with a predetermined specified value instead.
またS914の学習用自動撮影を行うための条件は、教師データ数でなくてもよい。例えば、ニューラルネットワークの推定精度が高まったと判断できたらS914の判定はNOとしてもよい。推定精度が高まったかどうかは次の方法で検証する。学習用自動撮影により教師データが取得されたら、それをニューラルネットワークに入力して出力値を求める。その出力値と教師値の差が所定の値より小さければニューラルネットワークの精度が高まったと判断できる。つまり新たなデータを入力しても出力値が模範となる値と近くなったので精度が高くなったと判断できる。 Further, the condition for performing the automatic learning imaging of S914 does not have to be the number of teacher data. For example, if it can be determined that the estimation accuracy of the neural network has improved, the determination of S914 may be NO. Whether or not the estimation accuracy has improved is verified by the following method. When teacher data is acquired by automatic learning photography, it is input to the neural network to obtain the output value. If the difference between the output value and the teacher value is smaller than a predetermined value, it can be judged that the accuracy of the neural network has improved. In other words, even if new data is input, the output value is close to the model value, so it can be judged that the accuracy has improved.
また、この「ニューラルネットワーク出力値と教師値の差」を用いて、学習用自動撮影で取得された教師データのうち、教師データとして適さないものを外れ値として除去することも可能である。ニューラルネットワーク出力値と教師値の差が所定の値より大きい場合は、推定ができていないことになり、この教師データは過去に学習してきた教師データと性質が大きく異なる教師データと言える。この場合は、手動撮影直後にカメラが既にユーザによって動かされ、天空や地面など意図しない方向を向いている可能性が高く、外れ値として除去する。つまり、教師データとして登録しない。 Further, by using this "difference between the neural network output value and the teacher value", it is possible to remove the teacher data acquired by the automatic learning imaging that is not suitable as the teacher data as an outlier. If the difference between the neural network output value and the teacher value is larger than a predetermined value, it means that the estimation has not been performed, and this teacher data can be said to be teacher data whose properties are significantly different from the teacher data learned in the past. In this case, it is highly possible that the camera has already been moved by the user immediately after manual shooting and is facing an unintended direction such as the sky or the ground, and is removed as an outlier. That is, it is not registered as teacher data.
またニューラルネットワークを通さなくても学習用自動撮影画像の外れ値検証が可能である。ニューラルネットワークの入力層の特徴量を組み合わせた特徴量ベクトルにおいて学習用自動撮影画像と手動撮影画像の差が所定の値より大きければ外れ値として除去してもよい。 In addition, it is possible to verify outliers of automatically captured images for learning without passing through a neural network. If the difference between the learning automatic image and the manually photographed image is larger than a predetermined value in the feature vector that combines the features of the input layer of the neural network, it may be removed as an outlier.
これらの学習用自動撮影により教師データの増加が可能となる。これらの教師データは次の学習モードが実行されたときに学習に利用される。教師データが増えた分、ニューラルネットワークの推定精度の向上が望める。 It is possible to increase teacher data by these automatic shooting for learning. These teacher data will be used for learning when the next learning mode is executed. As the teacher data increases, the estimation accuracy of the neural network can be expected to improve.
(他の実施形態)
また本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現できる。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現できる。
(Other embodiments)
The present invention also supplies a program that realizes one or more functions of the above-described embodiment to a system or device via a network or storage medium, and one or more processors in the computer of the system or device reads the program. It can also be realized by the processing to be executed. It can also be realized by a circuit (for example, ASIC) that realizes one or more functions.
本発明は、デジタルカメラやデジタルビデオカメラの撮影に限らず、監視カメラ、Webカメラ、携帯電話などの撮影装置にも搭載できる。 The present invention is not limited to shooting with a digital camera or a digital video camera, but can be mounted on a shooting device such as a surveillance camera, a Web camera, or a mobile phone.
101:撮像装置、301:スマートデバイス、501:ウエアラブルデバイス、104:チルト回転ユニット、105:パン回転ユニット 101: Imaging device, 301: Smart device, 501: Wearable device, 104: Tilt rotation unit, 105: Pan rotation unit
Claims (21)
前記教師データに基づいて、画像を評価するための学習モデルを生成する学習手段と、を有し、
前記学習手段は、ユーザの指示に応じて撮影された記録用の画像に基づく教師データと、前記ユーザの指示に応じて撮影された前記記録用の画像に対して連続して撮影された学習用の画像に基づく教師データとを用いて、前記学習モデルを生成することを特徴とする画像処理装置。 An acquisition means for acquiring teacher data regarding a captured image captured by an imaging means, and
It has a learning means for generating a learning model for evaluating an image based on the teacher data.
The learning means is for learning, which is continuously captured with respect to the teacher data based on the recording image taken according to the user's instruction and the recording image captured according to the user's instruction. An image processing apparatus characterized in that the learning model is generated by using the teacher data based on the image of.
前記生成手段が生成した教師データを、学習モデルを生成する学習手段に送信する通信手段と、を有し、
前記生成手段は、ユーザの指示に応じて撮影された記録用の画像から教師データを生成するとともに、前記ユーザの指示に応じて撮影された前記記録用の画像に対して連続して撮影された学習用の画像からも教師データを生成し、
前記通信手段は、前記記録用の画像から生成された教師データと、前記学習用の画像から生成された教師データを、前記学習手段に送信することを特徴とする画像処理装置。 A generation means for generating teacher data from a captured image taken by an imaging means,
It has a communication means for transmitting the teacher data generated by the generation means to the learning means for generating the learning model.
The generation means generates teacher data from a recording image taken according to a user's instruction, and continuously takes a picture of the recording image taken according to the user's instruction. Teacher data is also generated from images for learning,
The communication means is an image processing apparatus characterized in that the teacher data generated from the image for recording and the teacher data generated from the image for learning are transmitted to the learning means.
前記教師データに基づいて、画像を評価するための学習モデルを生成する生成工程と、を有し、
前記生成工程では、ユーザの指示に応じて撮影された記録用の画像に基づく教師データと、前記ユーザの指示に応じて撮影された前記記録用の画像に対して連続して撮影された学習用の画像に基づく教師データとを用いて、前記学習モデルを生成することを特徴とする画像処理方法。 The acquisition process to acquire teacher data related to the captured image captured by the imaging means,
It has a generation step of generating a learning model for evaluating an image based on the teacher data.
In the generation step, the teacher data based on the recording image taken according to the user's instruction and the learning image taken continuously with respect to the recording image taken according to the user's instruction. An image processing method characterized by generating the learning model using the teacher data based on the image of.
前記生成工程において生成した教師データを、学習モデルを生成する学習手段に送信する通信工程と、を有し、
前記生成工程では、ユーザの指示に応じて撮影された記録用の画像から教師データを生成するとともに、前記ユーザの指示に応じて撮影された前記記録用の画像に対して連続して撮影された学習用の画像からも教師データを生成し、
前記通信工程では、前記記録用の画像から生成された教師データと、前記学習用の画像から生成された教師データを、前記学習手段に送信することを特徴とする画像処理方法。 A generation process that generates teacher data from captured images taken by the imaging means,
It has a communication step of transmitting the teacher data generated in the generation step to a learning means for generating a learning model.
In the generation step, teacher data is generated from the recording image taken according to the user's instruction, and the recording image taken according to the user's instruction is continuously photographed. Teacher data is also generated from the image for learning,
The image processing method, characterized in that, in the communication step, the teacher data generated from the image for recording and the teacher data generated from the image for learning are transmitted to the learning means.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017250104 | 2017-12-26 | ||
JP2017250104 | 2017-12-26 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018203255A Division JP6641447B2 (en) | 2017-12-26 | 2018-10-29 | Imaging device and control method therefor, program, storage medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020061761A JP2020061761A (en) | 2020-04-16 |
JP6799660B2 true JP6799660B2 (en) | 2020-12-16 |
Family
ID=67305454
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018203255A Active JP6641447B2 (en) | 2017-12-26 | 2018-10-29 | Imaging device and control method therefor, program, storage medium |
JP2019231955A Active JP6799660B2 (en) | 2017-12-26 | 2019-12-23 | Image processing device, image processing method, program |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018203255A Active JP6641447B2 (en) | 2017-12-26 | 2018-10-29 | Imaging device and control method therefor, program, storage medium |
Country Status (2)
Country | Link |
---|---|
JP (2) | JP6641447B2 (en) |
GB (1) | GB2582197B (en) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11694432B2 (en) * | 2019-07-23 | 2023-07-04 | Toyota Research Institute, Inc. | System and method for augmenting a visual output from a robotic device |
JP7374430B2 (en) * | 2019-07-26 | 2023-11-07 | 株式会社オレンジテクラボ | Video processing device, video processing method, and video processing program |
JP2021057816A (en) * | 2019-09-30 | 2021-04-08 | キヤノン株式会社 | Imaging apparatus and control method of the same, program, and storage medium |
US20210195119A1 (en) * | 2019-12-20 | 2021-06-24 | Canon Kabushiki Kaisha | Image processing apparatus, image capturing apparatus and image processing method |
JPWO2021130593A1 (en) | 2019-12-27 | 2021-07-01 | ||
US20230199299A1 (en) | 2020-03-27 | 2023-06-22 | Sony Group Corporation | Imaging device, imaging method and program |
WO2021229926A1 (en) * | 2020-05-15 | 2021-11-18 | ソニーグループ株式会社 | Information processing device, information processing method, computer program, and imaging device |
JPWO2022014306A1 (en) * | 2020-07-16 | 2022-01-20 | ||
WO2022201810A1 (en) * | 2021-03-24 | 2022-09-29 | 富士フイルム株式会社 | Control device, control method, and program |
US11893668B2 (en) | 2021-03-31 | 2024-02-06 | Leica Camera Ag | Imaging system and method for generating a final digital image via applying a profile to image information |
WO2023286360A1 (en) * | 2021-07-12 | 2023-01-19 | 古野電気株式会社 | Training data collection device, training data collection method, and program |
US11895368B2 (en) * | 2022-03-04 | 2024-02-06 | Humane, Inc. | Generating, storing, and presenting content based on a memory metric |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2404511B (en) * | 2003-07-26 | 2007-08-22 | Hewlett Packard Development Co | Image capture device having a learning function |
JP6205941B2 (en) * | 2013-07-24 | 2017-10-04 | 富士通株式会社 | Imaging program, imaging method, and information processing apparatus |
JP6624167B2 (en) * | 2017-06-26 | 2019-12-25 | カシオ計算機株式会社 | Imaging control device, imaging control method, and imaging control program |
JP6544716B2 (en) * | 2017-12-15 | 2019-07-17 | オムロン株式会社 | DATA GENERATION APPARATUS, DATA GENERATION METHOD, AND DATA GENERATION PROGRAM |
-
2018
- 2018-10-29 JP JP2018203255A patent/JP6641447B2/en active Active
- 2018-12-18 GB GB1919386.1A patent/GB2582197B/en active Active
-
2019
- 2019-12-23 JP JP2019231955A patent/JP6799660B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP6641447B2 (en) | 2020-02-05 |
JP2020061761A (en) | 2020-04-16 |
GB2582197A (en) | 2020-09-16 |
GB2582197B (en) | 2021-12-08 |
JP2019118098A (en) | 2019-07-18 |
GB201919386D0 (en) | 2020-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6799660B2 (en) | Image processing device, image processing method, program | |
JP7077376B2 (en) | Image pickup device and its control method | |
JP6641446B2 (en) | Image processing method, image processing device, imaging device, program, storage medium | |
CN109981976B (en) | Image pickup apparatus, control method thereof, and storage medium | |
CN111294488B (en) | Image pickup apparatus, control method thereof, and storage medium | |
WO2019124055A1 (en) | Image capturing device, control method therefor, program, and storage medium | |
JP7267686B2 (en) | Imaging device and its control method | |
US11438501B2 (en) | Image processing apparatus, and control method, and storage medium thereof | |
JP2022070684A (en) | Imaging device, control method thereof, and program | |
JP2019110509A (en) | Imaging device and method of controlling the same, program, and storage medium | |
JP6852141B2 (en) | Information processing device, imaging device, control method of information processing device, and program | |
JP7545505B2 (en) | Imaging device, control method thereof, and program | |
WO2019065454A1 (en) | Imaging device and control method therefor | |
JP7403218B2 (en) | Imaging device, its control method, program, storage medium | |
CN111105039A (en) | Information processing apparatus, control method thereof, and memory | |
JP7527769B2 (en) | Imaging device, control method thereof, program, and storage medium | |
JP7199808B2 (en) | Imaging device and its control method | |
JP6896818B2 (en) | Information processing equipment, information processing methods, and programs | |
JP2020145556A (en) | Imaging device and control method thereof, program, and storage medium | |
JP2020195099A (en) | Image processing device, and image processing method, imaging device, program, and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191223 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200930 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201023 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201120 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6799660 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |