WO2020235401A1

WO2020235401A1 - 画像処理装置、および画像処理方法、並びにプログラム

Info

Publication number: WO2020235401A1
Application number: PCT/JP2020/019020
Authority: WO
Inventors: 二郎高鳥; 翔平野口
Original assignee: ソニー株式会社
Priority date: 2019-05-21
Filing date: 2020-05-12
Publication date: 2020-11-26
Also published as: JPWO2020235401A1; EP3975542A1; EP3975542A4; JP7424375B2; US20220217276A1; CN113812139A

Abstract

撮像部からの入力画像に含まれる動被写体の動き予測を実行し、未来予測画像を生成して表示部に表示する装置、方法を提供する。撮像部からの入力画像に含まれる動被写体の動き予測を実行し、未来予測画像を生成して表示部に表示する画像処理部を有する。表示する未来予測画像は、ユーザによる被写体撮影開始準備動作から画像撮影完了までに発生する遅延要因に基づく遅延時間を考慮した画像であり、例えば表示部に対する表示遅延とシャッタ操作から画像記録までの遅延時間との総遅延時間分、未来の予測画像である。画像処理部は、さらに、入力画像に含まれる動被写体の状態を解析し、状態を説明する情報や予測される動きを説明する情報を生成して表示部に表示する。

Description

画像処理装置、および画像処理方法、並びにプログラム

　本開示は、画像処理装置、および画像処理方法、並びにプログラムに関する。さらに詳細には、カメラ撮影画像から、未来の予測画像や、予測される動きの説明等の案内情報を生成して表示する画像処理装置、および画像処理方法、並びにプログラムに関する。

　多くの一般的なカメラはシャッタ操作から画像撮影までに遅延時間が存在する。従って、動きのある被写体の、ある特別な瞬間の写真を撮影しようとしてシャッタを操作しても、遅延時間分、遅れた写真が撮影されてしまうことがある。

　さらに、最近のカメラや、カメラ機能を有するスマホは、表示部に表示される画像（ＬＶ画像（スルー画像））を見ながら撮影を行うものが多いが、表示部に対する画像表示処理にも所定の時間が必要であり、表示画像はわずかに遅延した画像となる。従って、ユーザがモニタ画面を見ながら、ある特別な瞬間の画像を撮影しようとしても、モニタ画面で見た画像とは異なるやや遅れた時間の画像が撮影されてしまうことがある。

　具体的には、例えば鳥がはばたく瞬間を撮影しようとして、鳥がはばたく瞬間の画像を表示部で確認してシャッタ操作を行っても、撮影された画像は鳥が飛び立った後の画像になってしまうといったことがある。
　鳥がはばたく瞬間の画像を確実に撮影するためには、鳥がはばたく直前に、鳥の動きを察知してシャッタを操作することが必要となる。

　プロのカメラマンであれば、遅延時間を考慮して、鳥がはばたく直前に鳥の動きを察知してシャッタを操作するといった撮影が可能かもしれないが、多くの一般ユーザにとって、このような高度な撮影は困難である。

　連写モードで連続撮影を行えば、所定間隔の画像が撮影できるが、連写モードは一般的に例えば２０ｆ／ｓ、すなわち１秒間に２０フレーム程度の撮影間隔であり、この間隔の撮影画像に撮影したいタイミングの画像が含まれるか否かは撮影後の画像を確認するまで分からない。
　高速連写や動画撮影を行うということも可能であるが、画質の高い静止画と比較すると、低画質になるという問題がある。

　このように、一般的なユーザは、カメラやスマホの表示部に表示された画像を確認してシャッタ操作を行うと、ユーザが想定した特別な瞬間の画像を撮影することが困難になるという問題がある。

　この問題を解決するためには、現在より未来の状態をユーザに知らせることが有効である。
　なお、未来の状態を予測して予測画像を表示部に表示する処理を開示した従来技術として例えば特許文献１（特開２０００－３２２５５６号公報）がある。
　この文献は、雨雲の動きなど予測される未来の天気画像を生成して表示する処理例を開示している。

　しかし、この特許文献に開示された処理によって生成する未来予測画像は、数分～数時間先の未来予測画像であり、カメラの撮影者であるユーザにシャッタ操作タイミングを教えるといった処理を可能とするものではない。

特開２０００－３２２５５６号公報

　本開示は、例えば、上述の問題点に鑑みてなされたものであり、カメラやスマホの表示部に、未来の予測画像や、予測される動きの説明等の案内情報を表示して、撮影者（ユーザ）が適切なタイミングの写真を撮影することを可能とした画像処理装置、および画像処理方法、並びにプログラムを提供する。

　本開示の第１の側面は、
　撮像部からの入力画像に含まれる動被写体の動き予測を実行し、
　未来予測画像を生成して表示部に表示する画像処理部を有する画像処理装置にある。

　さらに、本開示の第２の側面は、
　画像処理装置において実行する画像処理方法であり、
　画像処理部が、
　撮像部からの入力画像に含まれる動被写体の動き予測を実行し、
　未来予測画像を生成して表示部に表示する画像処理方法にある。

　さらに、本開示の第３の側面は、
　画像処理装置において画像処理を実行させるプログラムであり、
　画像処理部に、
　撮像部からの入力画像に含まれる動被写体の動き予測を実行させ、
　未来予測画像を生成して表示部に表示させるプログラムにある。

　なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な画像処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、画像処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。

　本開示のさらに他の目的、特徴や利点は、後述する本開示の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

　本開示の一実施例の構成によれば、本開示の一実施例の構成によれば、撮像部からの入力画像に含まれる動被写体の動き予測を実行し、未来予測画像を生成して表示部に表示する装置、方法が実現される。
　具体的には、例えば、撮像部からの入力画像に含まれる動被写体の動き予測を実行し、未来予測画像を生成して表示部に表示する画像処理部を有する。表示する未来予測画像は、ユーザによる被写体撮影開始準備動作から画像撮影完了までに発生する遅延要因に基づく遅延時間を考慮した画像であり、例えば表示部に対する表示遅延とシャッタ操作から画像記録までの遅延時間との総遅延時間分、未来の予測画像である。画像処理部は、さらに、入力画像に含まれる動被写体の状態を解析し、状態を説明する情報や予測される動きを説明する情報を生成して表示部に表示する。
　本構成により、撮像部からの入力画像に含まれる動被写体の動き予測を実行し、未来予測画像を生成して表示部に表示する装置、方法が実現される。
　なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。

本開示の画像処理装置の一例である撮像装置の構成例について説明する図である。本開示の画像処理装置が実行する処理の一例について説明する図である。本開示の画像処理装置が実行する処理の一例について説明する図である。ユーザ（撮影者）が、撮像装置を被写体に向けてから、実際の画像撮影（本撮影）が行われるまでのシーケンスと、このシーケンス中に発生する遅延要因を説明する図である。本開示の画像処理装置のＵＩの一例について説明する図である。本開示の画像処理装置が実行する処理の一例について説明する図である。本開示の画像処理装置のＵＩの一例について説明する図である。本開示の画像処理装置が実行する処理の一例について説明する図である。本開示の画像処理装置が実行する処理の一例について説明する図である。本開示の画像処理装置が実行する処理の一例について説明する図である。本開示の画像処理装置が実行する処理の具体例について説明する図である。本開示の画像処理装置が実行する処理の具体例について説明する図である。本開示の画像処理装置が実行する学習処理と判別処理（予測処理）の実行構成例について説明する図である。本開示の画像処理装置が実行する学習処理と判別処理（予測処理）の具体例について説明する図である。本開示の画像処理装置が実行する学習処理と判別処理（予測処理）の具体例について説明する図である。本開示の画像処理装置の構成例について説明する図である。本開示の画像処理装置の画像処理部の構成と処理の一例について説明する図である。本開示の画像処理装置の画像処理部の構成と処理の一例について説明する図である。

　以下、図面を参照しながら本開示の画像処理装置、および画像処理方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行なう。
　１．本開示の画像処理装置の外観構成例について
　２．本開示の画像処理装置の実行する処理の具体例について
　２－（１）表示部に未来予測画像を表示する処理の具体例について
　２－（２）表示部に被写体の動きの説明または予測情報を表示する処理の具体例について
　３．本開示の画像処理装置の画像処理部が実行するデータベースを参照した解析処理の具体例について
　４．データベース格納データの生成処理として実行する学習処理と学習結果の利用処理について
　５．本開示の画像処理装置の構成例について
　６．本開示の構成のまとめ

　　［１．本開示の画像処理装置の外観構成例について］
　まず、本開示の画像処理装置の外観構成例について説明する。
　なお、以下においては、本開示の画像処理装置の一例として撮像装置（カメラ）を利用した例を説明する。ただし、本開示の構成や処理は、撮像装置に限らず、例えばスマホ（スマートフォン）、タブレット端末等、カメラ機能と表示部を有する装置において適用可能である。
　また、撮像装置と通信を実行するリモート装置において、撮像装置の撮影画像を受信して処理を行う装置においても利用可能である。本開示の画像処理装置は、これらの様々な装置を含むものである。

　図１は、本開示の画像処理装置の一例である撮像装置１０の構成例を示す図である。撮像装置１０は、レンズ１１、シャッタ１２、各種操作部１３，１５、表示部（モニタ部）１４を有する。

　表示部１４には、シャッタ１２の操作に関わらず、現在の被写体画像がＬＶ画（ライブビュー画像（スルー画像））として表示される。
　画像を撮影する場合、例えば、ユーザは撮像装置１０の表示部１４に表示された画像を見て、所定のタイミングでシャッタ１２を押下する。

　しかし、前述したように、撮像装置１０はシャッタ１２の操作に完全に等しいタイミングの撮影画像を取得することはできず、シャッタ操作タイミングと画像撮影タイミングとの間には遅延時間が存在する。従って、動きの速い被写体の写真を撮影する場合、この遅延時間も考慮してシャッタを操作することが必要となる。
　また、表示部１４の表示画像も遅延が発生した画像であり、モニタ画面を見ながら撮影する場合も、この遅延時間を考慮したシャッタ操作が要求される。
　このような撮影処理は一般ユーザには困難である。

　本開示の画像処理装置、例えば図１に示す撮像装置１０は、表示部１４に未来の予測画像や、予測される動きの説明等の案内情報を表示する。
　以下、図２以下を参照して、本開示の撮像装置１０が実行する処理の具体例について説明する。

　　［２．本開示の画像処理装置の実行する処理の具体例について］
　次に、図２以下を参照して、本開示の画像処理装置の実行する処理の具体例について説明する。

　前述したように、本開示の画像処理装置、例えば図１に示す撮像装置１０は、表示部１４に未来の予測画像や、予測される被写体の動きの説明等の情報を表示する。
　以下、下記の２つの処理の具体例について、順次、説明する
　（１）表示部に未来予測画像を表示する処理の具体例
　（２）表示部に被写体の動きの説明または予測情報を表示する処理の具体例

　　［２－（１）表示部に未来予測画像を表示する処理の具体例について］
　まず、表示部に未来予測画像を表示する処理の具体例について説明する。

　図２を参照して、本開示の撮像装置１０の画像処理部が実行する処理の一例、すなわち、撮像装置１０の表示部１４に未来予測画像を表示する処理の具体例について説明する。
　図２に示す（ａ）入力画像は、撮像装置１０の画像処理部に入力する画像である。すなわち撮像装置１０の撮像素子を介して入力される画像である、通常はこの画像がＬＶ画像（スルー画像）として撮像装置１０の表示部１４に表示される。

　本開示の撮像装置１０の画像処理部は、これらの入力画像に基づいて、未来の予測画像を生成して表示部１４に表示する処理を実行する。

　図２には、（ａ）入力画像として、フレームｆ（ｎ－２）、フレームｆ（ｎ－１）、フレームｆ（ｎ）の３枚の連続撮影フレームを示している。
　これらは、ユーザによるシャッタ操作によって撮影記録される画像ではなく、記録対象外のＬＶ画像（スルー画像）として入力される画像である。
　現在はフレームｆ（ｎ）の入力タイミングであるとする。

　本開示の撮像装置１０の画像処理部は、各入力画像フレームの入力毎に各画像フレーム内の動く被写体、すなわち「動被写体」を検出し、検出した動被写体の動き解析を行う。
　具体的にはスケルトン（骨組み）解析や、重心解析を行う。
　この解析結果が、図２（ｂ）に示すフレーム単位解析画像である。
　画像処理部は、図２（ｂ）に示すように、各画像フレームに含まれる動被写体のスケルトン（骨組み）や、重心の位置を解析する。

　さらに、画像処理部は、図２（ｂ）に示すフレーム単位解析画像を、複数、用いて、フレーム間のスケルトンや重心の移動や変化の量、方向を解析して、所定時間後の「動被写体」の状態、すなわち「動被写体」の位置や姿勢を推定析する。
　この解析処理（推定処理）の結果の一例が、図２（ｃ）、すなわち、
　（ｃ）未来予測画像生成用データ（スケルトン画像（骨組み画像））
　である。

　（ｃ）未来予測画像生成用データ（スケルトン画像（骨組み画像））は、撮影画像中の動被写体のスケルトン（骨組み）の構造や重心位置を示したデータである。

　最後に、画像処理部は、「（ｃ）未来予測画像生成用データ（スケルトン画像（骨組み画像））」に対して、入力済みの画像、例えばフレームｆ（ｎ－２）～ｆ（ｎ）の画像から得られる動被写体の画像を貼り付けて、未来予測画像を生成する。
　図２に示す（ｄ）未来予測画像である。

　この図２に示す（ｄ）未来予測画像は、現在（フレームｆ（ｎ）入力時）の３フレーム先（ｆ（ｎ＋３））の画像に相当する。
　画像処理部は、この未来予測画像を撮像装置１０の表示部１４に表示する。

　図３は、撮像装置１０の表示部１４に対する未来予測画像の表示例を示している。
　通常、撮像装置１０の表示部１４には現在の撮影画像（ＬＶ画像）が表示される。しかし、未来予測画像を表示する未来予測画像表示モードに設定することで、表示部１４には、現在の撮影画像（ＬＶ画像）ではなく、未来予測画像を表示することができる。

　未来予測画像表示モードに設定した場合、図３に示すように撮像装置１０の表示部１４には、現在の撮影画像（フレームｆ（ｎ））ではなく、未来予測画像（３フレーム先のフレームｆ（ｎ＋３）を表示することができる。
　ユーザは、この表示部１４に表示された未来予測画像を確認してシャッタを操作することで、この表示部１４に表示された未来予測画像に相当する画像、すなわち現在の入力画像フレームｆ（ｎ）ではなく、未来の入力画像フレームｆ（ｎ＋３）を撮影することに成功する。

　なお、表示部１４に表示する未来予測画像は、例えば、表示部に対する表示遅延時間と、シャッタ操作から画像撮影処理までの処理遅延時間を考慮し、これらの総遅延時間分に相当する先の時間の未来予測画像とする。
　画像処理部は、このような設定の未来予測画像を生成して表示部１４に表示する。
　この設定により、ユーザは、表示部１４に表示された未来予測画像を確認してシャッタを操作することで、この表示部１４に表示された未来予測画像と同じ画像を撮影、記録することが可能となる。

　なお、表示部１４に表示する未来予測画像については、上述のように、シャッタ操作から画像撮影処理までの総遅延時間分に相当する先の時間の未来予測画像とする設定の他、様々な設定が可能である。
　図４に、ユーザ（撮影者）による撮像装置１０を利用した画像撮影時に発生する遅延要因を説明する図を示す。

　図４は、ユーザ（撮影者）が、撮像装置１０を被写体に向けてから、実際の画像撮影（本撮影）が行われるまでのシーケンスと、このシーケンス中に発生する遅延要因を説明する図である。

　ステップＳ０１において、撮像装置１０を被写体に向けて撮影画像（ＬＶ画像）を撮像装置１０に撮りこむ。
　ステップＳ０２において、撮影画像（ＬＶ画像）を表示部１４に表示する。
　ステップＳ０３において、ユーザ（撮影者）が、表示部１４に表示された撮影画像（ＬＶ画像）を認識する。
　ステップＳ０４において、ユーザ（撮影者）が、撮影画像（ＬＶ画像）を見て撮影タイミングを予測する。
　ステップＳ０５において、ユーザ（撮影者）が、撮影操作を行う。
　ステップＳ０６において、ユーザ（撮影者）による撮影操作に応じた画像撮影が実行される。

　基本的には、これらステップＳ０１～Ｓ０６の順番で処理が実行される。
　これらの処理シーケンス中に発生する可能性がある遅延要因として、図４の右側に示す遅延要因（１）～（５）がある。すなわち、以下の遅延要因である。

　遅延要因（１）カメラを向けた先のシーンが撮影画像（ＬＶ画像）として撮影されて表示部上に表示されるまでの遅延（ＥＶＦ（ｅｌｅｃｔｒｏｎｉｃ　ｖｉｅｗｆｉｎｄｅｒ）等の表示部において発生する）
　遅延要因（２）ユーザが被写体を認識するまでの遅延（突発的に起こる事象や、認識しにくい被写体の場合に発生しやすい）
　遅延要因（３）ユーザが被写体を行動、動作を予測できるまでの遅延（行動/動作を予測しながら撮影をする場合に発生しやすい）
　遅延要因（４）ユーザが撮影を判断して、撮影のための操作を完了するまでの遅延
　遅延要因（５）カメラに対するユーザの撮影操作が行われてから、実際の露光開始までの遅延

　例えば、これらの遅延要因がある。
　これらの遅延要因は、ユーザの撮影したい画像と、実際の撮影画像を異なる画像にしてしまう原因となる。
　例えば、本開示の画像処理装置である撮像装置の画像処理部が生成する未来予測画像は、撮像装置に対するユーザによる被写体の撮影開始準備動作から画像撮影完了までに発生する上記の様々な遅延要因に基づく遅延時間を考慮した未来の予測画像である。本開示の画像処理装置は、これらの様々な遅延要因を考慮して、ユーザの撮影したい画像と、実際の撮影画像を一致した画像にする処理を行う。

　なお、表示部１４に表示する未来予測画像をどの程度、先の画像にするかについては、ユーザによる設定が可能である。これは、ユーザによるシャッタ操作スピードの差異や、ユーサの好み等を考慮したものである。

　この設定のためのＵＩ（ユーザインタフェース）の一例を図５に示す。
　図５には、以下の２つのＵＩ例を示している。
　（ａ）未来予測画像設定時間調整用ＵＩ例１
　（ｂ）未来予測画像設定時間調整用ＵＩ例２

　（ａ）未来予測画像設定時間調整用ＵＩ例１は、基本的なＵＩの例である。ユーザは、表示部１４に表示する未来予測画像を、どの程度の未来時間にするかを、１０ｍｓ～１０００ｍｓの間で設定することができる。
　図に示すスクロールバー２１を左右にスライドすることで、表示部１４に表示する未来予測画像を１０ｍｓ先の画像から、１０００ｍｓ先の画像の範囲で任意に設定することができる。

　撮像装置１０の画像処理部は、このユーザ設定情報に基づいて、先に図１、図２を参照して説明した処理を実行して、ユーザの設定時間に応じた未来予測画像を生成して、表示部１４に表示する。

　（ｂ）未来予測画像設定時間調整用ＵＩ例２は、設定補助情報２２を追加表示したＵＩの例である。
　設定補助情報２２は、被写体の動きから推定される最適な未来予測画像の設定時間の目安を補助情報である。この設定補助情報２２は、撮像装置１０の画像処理部において、被写体の動きを解析して算出された範囲の時間である。

　図３を参照して説明した未来予測画像の表示例は、表示部１４にＬＶ画像を表示せず、未来予測画像のみを表示した例であるが、表示部１４に対する未来予測画像の表示態様は、このような表示例には限らない。
　図６を参照して、もう１つの未来予測画像の表示例について説明する。

　図６に示す例は、表示部１４にＬＶ画像と、未来予測画像を重畳して表示した例である。
　図６には、表示部１４に対する画像表示例として、以下の２つの表示モードにおける画像表示例を示している。
　（１）未来予測画像非表示モードにおける表示画像例（ＬＶ画像（スルー画像）表示）
　（２）未来予測画像表示モードにおける表示画像例（ＬＶ画像（スルー画像）と、未来予測画像の重畳表示やブレンド表示）

　図６（１）に示す表示画像は、従来と同様、ＬＶ画像のみを表示した例である。「未来予測画像非表示モード」に設定した場合、表示部１４には、従来と同様、撮像素子から入力される現在の撮影画像、すなわちＬＶ画像が表示部１４に表示される。

　一方、図６（２）に示す表示画像は、ＬＶ画像に、画像処理部が生成した未来予測画像を重畳、またはブレンドして表示した表示画像の例である。「未来予測画像表示モード」に設定した場合、表示部１４には、撮像素子から入力される現在の撮影画像、すなわちＬＶ画像に、画像処理部が生成した未来予測画像が重畳、またはブレンドさされて表示される。

　なお、ＬＶ画像と未来予測画像をブレンドして表示する場合、そのブレンド率はユーザによる調整が可能である。
　この設定のためのＵＩ（ユーザインタフェース）の一例を図７に示す。
　図７には、以下のＵＩ例を示している。
　（ａ）ＬＶ画像と未来予測画像のブレンド率設定の調整用ＵＩ例

　ユーザは、図７に示すＵＩを利用して、表示部１４に表示する画像を、ＬＶ画像と未来予測画像をどのようにブレンドして表示するかについて、ＬＶ画像１００％～未来予測画像１００％の範囲で調整することができる。
　図に示すスクロールバー２３を左右にスライドすることで、表示部１４に表示する画像のブレンド率を調整することができる。

　撮像装置１０の画像処理部は、このユーザ設定情報に基づいて、ＬＶ画像と未来予測画像をブレンドして表示部１４に表示する。

　例えばＬＶ画像１００％の設定の場合は、図６（１）に示すような、未来予測画像非表示モードに対応する画像、すなわち、ＬＶ画像のみが表示される。
　また、未来予測画像１００％の設定の場合は、図３（ｅ）に示すような、未来予測画像のみの画像が表示される。
　さらに、ブレンド率５０％の設定の場合は、例えば図６（２）に示すような、未来予測画像表示モードに対応する画像、すなわち、ＬＶ画像と未来予測画像を重畳した画像が表示される。
　このように、ユーザは、ブレンド率調整ＵＩを利用してユーザが調整することができる。

　なお、このようなＵＩによる調整処理を行うことなく、自動的な表示切り替え制御を行う構成としてもよい。例えば、以下のような制御である。
　（１）ユーザがシャッタに触れた場合や半押しを行った場合に、ＬＶ画像から未来予測画像に切り替えて表示する。
　さらに、カメラにＬＶ画像と未来予測画像の切り替え表示用の操作部（スイッチ等）を設けて、この操作部の操作に応じて切り替えを行う構成としてもよい。

　　［２－（２）表示部に被写体の動きの説明または予測情報を表示する処理の具体例について］
　次に、表示部に被写体の動きの説明または予測情報を表示する処理の具体例について説明する。

　図８は、本開示の撮像装置１０の画像処理部が実行する処理の一例であり、表示部１４に、被写体の動きに関する説明情報を表示する処理例を説明する図である。

　図８に示す例は、撮像素子から入力するＬＶ画像内に「動被写体」として「鳥」が含まれる場合の例である。
　図８には、ユーザが撮像装置（カメラ）１０を鳥の方に向けて、ＬＶ画像を撮像装置１０の表示部１４に表示している状態を示している。

　図８には、（１）～（３）に時間ｔ１～ｔ３の時系列に従った表示データを示している。
　まず、（１）時間ｔ１の表示部１４の表示画像は、ＬＶ画像のみの表示である。
　次の（２）時間ｔ２の表示部１４の表示画像は、ＬＶ画像に併せて、動被写体（＝鳥）の状態についての説明情報、すなわち、
　説明情報＝「飛び立ち準備」、
　この説明情報を表示した表示データを示している。

　次の（３）時間ｔ３の表示部１４の表示画像も、ＬＶ画像に併せて、動被写体（＝鳥）の状態についての説明情報、すなわち、
　説明情報＝「飛び立ち開始」、
　この説明情報を表示した表示データを示している。

　このように、本開示の撮像装置１０の画像処理部は、表示部１４に被写体の動きに関する説明情報を表示する。
　ユーザである撮影者は、例えば、（２）時間ｔ２の表示部１４の表示画像に追加表示された説明情報＝「飛び立ち準備」を確認して、このタイミングでシャッタを操作すれば、その直後の画像、例えば、（３）に示す飛び立つ瞬間の画像を撮影することが可能となる。

　このような説明がないと、ユーザは例えば図８（３）に示す時間ｔ３のタイミングであわててシャッタ操作を行う可能性がある。この場合、鳥が飛び立って画面から外に出た画像が撮影されるといった事態になりかねない。

　このように、本開示の撮像装置１０の画像処理部は、ＬＶ画像内に含まれる動被写体の動きについての解説情報をＬＶ画像に併せて出力する。
　なお、この処理を行うためには、ＬＶ画像に含まれる動被写体の種類に応じた解析データが必要となる。

　例えばＬＶ画像に含まれる動被写体が鳥である場合、鳥の姿勢や動きが何を意味するかを取得可能な辞書のような解析データが必要となる。本開示の撮像装置は、この解析データを、事前にデータベースに格納しておき、データベースの記録データを参照して、ＬＶ画像に含まれる動被写体の種類に応じた情報を提示する。
　データベースには、例えば人、鳥、犬、猫・・・等、様々な種類の動被写体に関する解析データが格納されている。すなわち、各動被写体の種類や、その動被写体の実行する処理に応じた姿勢、動きと、その状態の解説情報を対応付けたデータが格納されている。

　図９は、図８と同様、表示部１４にＬＶ画像に併せて、情報を追加表示する具体例を説明する図である。図９に示す例は、表示部１４に被写体の動きの予測情報を表示する処理の具体例である。

　図９には、以下の各表示例を示している。
　（ａ）ＬＶ画像のみの表示例、
　（ｂ１）動被写体（人）の動き予測情報追加表示例１、
　（ｂ２）動被写体（人）の動き予測情報追加表示例２、
　（ｂ３）動被写体（人）の動き予測情報追加表示例３、

　（ｂ１）～（ｂ３）は、本開示の撮像装置１０の画像処理部内において、動被写体（人）の動き予測情報を追加して表示した例である。

　（ｂ１）動被写体（人）の動き予測情報追加表示例１は、動被写体（人）の動き予測情報として、
　「７秒後にフレームアウト（時速３Ｋｍ）」
　この予測情報を追加表示した例である。
　本開示の撮像装置１０の画像処理部は、継続して入力するＬＶ画像の解析により、動被写体（人）の歩行速度を解析し、動被写体（人）がフレームアウトするまでの時間を算出する。この算出結果に基づいて、表示部１４に、
　「７秒後にフレームアウト（時速３Ｋｍ）」
　この予測情報を追加表示する。

　ユーザ（撮影者）は、この情報に基づいて、動被写体（人）がフレームアウトする前にシャッタを操作して撮影を行う、あるいはカメラの方向を変更する等の様々な処理を行うことが可能となる。

　（ｂ２）動被写体（人）の動き予測情報追加表示例２は、動被写体（人）の動き予測情報として、動被写体（人）の動き方向を示す矢印アイコンを追加表示した例である。
　本開示の撮像装置１０の画像処理部は、継続して入力するＬＶ画像の解析により、動被写体（人）の移動方向を解析し、この解析結果に基づいて、表示部１４に動被写体（人）の動き方向を示す矢印を追加表示する。

　ユーザ（撮影者）は、この情報に基づいて、動被写体（人）の移動方向を認識し、カメラの方向を変更する等の処理を行うことが可能となる。

　（ｂ３）動被写体（人）の動き予測情報追加表示例３は、動被写体（人）の動き予予測情報として、
　「所定時間後の動被写体（人）の画像」
　をＬＶ画像に重畳表示した例である。
　本開示の撮像装置１０の画像処理部は、継続して入力するＬＶ画像の解析により、動被写体（人）の歩行速度を解析し、所定時間後の動被写体（人）の位置を算出する。この算出結果に基づいて、表示部１４に、
　「所定時間後の動被写体（人）の画像」
　この予測情報を追加表示する。

　ユーザ（撮影者）は、この情報に基づいて、例えば最適な動被写体（人）の撮影タイミングを事前に知ることが可能となり、ユーザの思い描く画像を撮影することが可能となる。

　さらに、図１０は、図８や図９と同様、表示部１４にＬＶ画像に併せて、情報を追加表示する具体例を説明する図である。
　図１０に示す例は、人の顔を撮影する際に、まばたきにより目を閉じた状態の画像が撮影されてしまうことを帽子するための予測情報の表示例である。

　図には、撮像装置１０の表示部１４に表示されている人の顔画像の一部である目の領域画像を抽出して示している。

　図１０（１）は、撮像装置１０の撮像素子から画像処理部に入力される入力画像の一部を示している。人の顔画像の一部である目の領域画像を抽出して示している。入力画像例として（１ａ）～（１ｄ）の４つの例を示している。

　本開示の撮像装置１０の画像処理部は、これらの画像が入力されると、入力画像に含まれる目の状態を解析する。具体的には、目の状態が、
　（Ｘ）直後にまばたきを発生させることがないと判定される状態、
　（Ｙ）まばたき実行中、または直後にまばたきをすると判定される状態、
　このいずれであるかを判定する。

　入力画像に含まれる目の状態が、
　（Ｘ）直後にまばたきを発生させることがないと判定される状態、
　この状態であると判定された例が、図１０（１ａ），（２ａ）に示す例である。
　この場合、画像処理部は、表示部１４に（２ａ）に示すＬＶ画像のみを表示する。

　一方、入力画像に含まれる目の状態が、
　（Ｙ）まばたき実行中、または直後にまばたきをすると判定される状態、
　この状態であると判定された例が、図１０（１ｂ～１２），（２ｂ～２ｄ）に示す例である。
　この場合、画像処理部は、表示部１４に（２ｂ～２ｄ）に示す予測情報、すなわち、
　「まばたき注意」
　この予測情報を表示する。

　ユーザ（撮影者）は、この情報を確認し、このタイミングでのシャッタ操作による撮影を中止することができる。

　なお、この処理も、先に説明したデータベース、すなわち、事前に解析済みの様々な動被写体の動き予測データを格納したデータベースの記録情報を参照して実行される。

　　［３．本開示の画像処理装置の画像処理部が実行するデータベースを参照した解析処理の具体例について］
　次に、本開示の画像処理装置の画像処理部が実行するデータベースを参照した解析処理の具体例について説明する。

　先に説明したように、本開示の撮像装置１０の画像処理部は、ＬＶ画像内に含まれる動被写体の動きについての予測情報や解説情報をＬＶ画像に併せて出力する。
　この処理を行うために、画像処理部は、例えば、ＬＶ画像に含まれる動被写体の種類に応じた解析データをデータベースから取得して参照する。

　前述したように、例えばＬＶ画像に含まれる動被写体が鳥である場合、鳥の姿勢や動きが何を意味するかを取得可能な辞書のような解析データが必要となる。本開示の撮像装置は、この解析データを、事前にデータベースに格納しておき、データベースの記録データを参照して、ＬＶ画像に含まれる動被写体の種類に応じた情報を提示する。

　データベースには、例えば人、鳥、犬、猫・・・等、様々な種類の動被写体に関する解析データが格納されている。すなわち、各動被写体の種類や、その動被写体の実行する処理に応じた姿勢、動きと、その状態の解説情報を対応付けたデータが格納されている。

　本開示の撮像装置１０の画像処理部がデータベースに格納されたデータに基づいて実行する処理の具体例について、図１１、図１２を参照して説明する。

　図１１、図１２は、本開示の撮像装置１０の画像処理部が実行するシーン別の処理例を示す図である。
　なお、シーン解析は、画像処理部が入力ＬＶ画像とデータベースに格納されたシーン特定用のデータを比較して実行する。

　データベースには、例えば図１１、図１２に示す７つのシーンカテゴリに対応するシーン特定用の特徴データが格納されている。図１１、図１２に示す１～７の各シーンである。すなわち、
　１．人が複数の可動道具を使うスポーツ（テニス、野球，バトミントン、ゴルフ）
　２．人が１つの可動道具を使うスポーツ（サッカー、剣道）
　３．人が可動道具を使わないスポーツ（陸上競技、水泳、ダンス、体操、柔道）
　４．ポートレート撮影
　５．動物撮影
　６．移動物体撮影
　７．風景撮影

　本開示の撮像装置１０の画像処理部は、まず、撮像素子から入力するＬＶ画像とデータベースに格納されたシーン特定用のデータを対比して、入力するＬＶ画像が上記１～７のいずれのシーンであるかを判定する。

　シーン判別が終了すると、次に、そのシーン内の動き解析対象となる動被写体を特定する。
　動被写体の特定は、連続入力画像から動被写体を検出る処理として実行する。
　図１１、図１２の項目「（ｂ）動き解析対象」には、各シーンにおいて検出される動被写体、すなわち動き解析処理の対象となる動被写体の例を示している。

　「シーン１．人が複数の可動道具を使うスポーツ（テニス、野球，バトミントン、ゴルフ）」の場合、人体と道具１（ラケット）と道具２（球）が動被写体、すなわち動き解析処理の対象となる動被写体である。
　「シーン２．人が１つの可動道具を使うスポーツ（サッカー、剣道）」の場合、人体と道具１（球）が動被写体、すなわち動き解析処理の対象となる動被写体である。

　「シーン３．人が可動道具を使わないスポーツ（陸上競技、水泳、ダンス、体操、柔道）」の場合、人体が動被写体、すなわち動き解析処理の対象となる動被写体である。
　「シーン４．ポートレート撮影」の場合、人体と顔が動被写体、すなわち動き解析処理の対象となる動被写体である。
　「シーン５．動物撮影」の場合、動物が動被写体、すなわち動き解析処理の対象となる動被写体である。

　「シーン６．移動物体撮影」の場合、移動物体が動被写体、すなわち動き解析処理の対象となる動被写体である。
　「シーン７．風景撮影」の場合、対象とする物体の動きや出現の兆候が動き解析処理の対象である。

　画像処理部は、例えば、各シーン対応の「（ｂ）動き解析対象」を特定した後、これらの動き解析対象について、特定の動き予測態様と予測タイミングを決定する。すなわち、例えば図１１、図１２（ｃ）に示す「動き予測態様と予測タイミング」の特定処理を実行する。

　「シーン１．人が複数の可動道具を使うスポーツ（テニス、野球，バトミントン、ゴルフ）」の場合、道具１（ラケット）と道具２（球）の動き予測を行い、インパクトのタイミングを動き予測タイミングとする。
　具体的には、例えば「具体例」に記載した以下の事象のタイミング予測を行う。
　ラケットとボールの当たる動きや瞬間、
　バットとボールの当たる動きや瞬間、
　ラケットとシャトルの当たる動きや瞬間、
　ゴールにボールが入ったと判定される瞬間、

　「シーン２．人が１つの可動道具を使うスポーツ（サッカー、剣道）」の場合、人と道具１（球）の動き予測を行い、インパクトのタイミングを動き予測タイミングとする。
　具体的には、例えば「具体例」に記載した以下の事象のタイミング予測を行う。
　足とボールの当たる動きや瞬間、
　手とボールの当たる動きや瞬間、
　ボールが手を離れる動きや瞬間、
　竹刀が面にあたる動きや瞬間、

　「シーン３．人が可動道具を使わないスポーツ（陸上競技、水泳、ダンス、体操、柔道）」の場合、人体の動き予測を行い、もっともそのスポーツで人が見たいと思うようなタイミングを動き予測タイミングとする。
　具体的には、例えば「具体例」に記載した以下の事象のタイミング予測を行う。
　ゴールした瞬間、
　追い越した瞬間、
　走り幅跳びのジャンプの頂点、
　ポーズを決めた瞬間、
　ボクシングのパンチの当たった瞬間、
　タックルが当たる動きや瞬間、
　タックルで倒される動きや瞬間、
　投げ技で体が宙に浮いた瞬間、

　「シーン４．ポートレート撮影」の場合、人体と顔の動き予測を行い、ポートレートとして、最適な姿勢＆表情のタイミングを動き予測タイミングとする。
　具体的には、例えば「具体例」に記載した以下の事象のタイミング予測を行う。
　笑った瞬間、
　複数人が目をつむっていない瞬間、
　人が振り向いた瞬間、
　スピーチ中に口の形がよく、目をつむっていない瞬間、

　「シーン５．動物撮影」の場合、動物の動き予測を行い、動物の動き出しや際立った動きのタイミングを動き予測タイミングとする。
　具体的には、例えば「具体例」に記載した以下の事象のタイミング予測を行う。
　鳥の飛び立つ動きや瞬間、
　鳥の羽が伸び切っている瞬間、
　動物の走りだす動きや瞬間、
　動物がこちらを見る動きや瞬間、
　動物の捕食（口を大きく開けた）瞬間、
　水中動物の水面から出てくる瞬間、

　「シーン６．移動物体撮影」の場合、移動物体の動き予測を行い、移動物体が最適な構図にいるタイミングを動き予測タイミングとする。
　具体的には、例えば「具体例」に記載した以下の事象のタイミング予測を行う。
　電車走行中の正面写真、
　車のレースでのゴールシーン、
　飛行機の離着陸シーン、

　「シーン７．風景撮影」の場合、対象が出現したタイミング予測を行い、対象が最適な位置にいるタイミングを動き予測タイミングとする。
　具体的には、例えば「具体例」に記載した以下の事象のタイミング予測を行う。
　雷のおちた瞬間、
　流れ星がきれいに映る瞬間、
　花火が大きく開いた瞬間、
　花火の軌跡がきれいに映る瞬間、

　　［４．データベース格納データの生成処理として実行する学習処理と学習結果の利用処理について］
　次に、データベース格納データの生成処理として実行する学習処理と学習結果の利用処理について説明する。
　データベースには、予め実行した機械学習処理によって取得したデータを格納する。本開示の画像処理装置は、様々なシーンに対応する様々な予測データを出力するための学習処理を実行し、この学習結果をデータベースに格納する。
　図１３以下を参照して、学習処理の具体例について説明する。

　図１３には、本開示の画像処理装置に構成される学習器／判別器５１と、学習結果を格納するデータベース５２を示している。
　学習器／判別器５１の学習器は、様々なシーン対応の時系列画像データを入力データ４０として、未来の動きや変化の予測データを推定する学習処理を実行する。学習結果はデータベース５２に格納される。
　なお、学習アルゴリズムとしては、様々なアルゴリズムが利用可能である。例えばガウス過程やベイジアンニューラルネット、サポートベクタマシーン（ＳＶＭ：Ｓｕｐｐｏｒｔ　Ｖｅｃｔｏｒ　Ｍａｃｈｉｎｅ）やロジスティック回帰などが利用できる。

　また、学習器／判別器５１の判別器は、データベース５２に格納された学習結果を利用して未来予測データからなる出力６０を生成して出力する。
　上述した各実施例において生成される未来予測画像は、データベース５２に格納された学習データを利用して実行される。

　学習器／判別器５１の学習器は、様々なシーン単位で、各シーンに対応する出力（予測画像等）を取得するための学習処理を実行する。
　例えば、特定シーンとして鳥の飛び立つシーンを撮影した既存の時系列画像を多数入力して、鳥が飛び立つ瞬間の画像やその直前の画像がどの画像となるかを推定する学習処理を実行する。

　すなわち、人がボールを蹴る瞬間を特定する場合は、様々な多数の人がボールを蹴る時系列画像を入力して、人がボールを蹴る瞬間の画像やその直前の画像がどの画像となるかを推定する学習処理を実行する。
　これらのシーン対応の学習結果データはデータベースに格納される。

　学習器／判別器５１の判別器は、未来予測を行う新たな処理対象画像（時系列画像）を入力して、まずシーン判別を行い、データベース５２に格納されたそのシーン対応の学習結果を利用して未来予測データからなる出力６０を生成して出力する。
　例えば、新たに入力された処理対象画像（時系列画像）が、先に図８を参照して説明した鳥の画像である場合、データベース５２に格納された鳥が飛び立つ瞬間のシーンを解析した学習データを参照して、鳥が飛び立つ瞬間の直前の画像フレームを推定し、先に図８を参照して説明したような説明情報の出力処理等を実行する。

　このように、学習器／判別器５１の学習処理や判別処理（未来予測処理）は、シーンごとに異なる処理として実行される。
　図１３に示す学習器／判別器５１に対する入力データと出力データの具体例について、図１４、図１５を参照して説明する。

　図１４、図１５は、先に説明した図１１、図１２と同様、シーン別の学習器／判別器５１に対する入力データと出力データの具体例を示す図である。
　シーンは、以下の１～７の各シーンである。
　１．人が複数の可動道具を使うスポーツ（テニス、野球，　バトミントン、ゴルフ）
　２．人が１つの可動道具を使うスポーツ（サッカー、剣道）
　３．人が可動道具を使わないスポーツ（陸上競技、水泳、ダンス、体操、柔道）
　４．ポートレート撮影
　５．動物撮影
　６．移動物体撮影
　７．風景撮影

　図１４、図１５には、これら各シーンに対応する
　（ｂ）動き解析対象と、
　学習器／判別器５１に対する、
　（ｐ）入力データ
　（ｑ）出力データ
　を示している。

　「（ｂ）動き解析対象」は、各シーンにおいて検出される動被写体、すなわち動き解析処理の対象となる動被写体である。
　「（ｐ）入力データ」は、学習器／判別器５１に対する入力データである。具体的には時系列画像データである。
　「（ｑ）出力データ」は、学習器／判別器５１からの出力データである。学習処理実行時には、入力データに基づいて推定される出力データであり、入力データと出力データとの組み合わせデータをデータベース５２に格納する。
　判別処理（予測処理）実行時には、入力データに基づいてデータベース５２を検索して、入力データにより近い学習データを選択して、出力データとしての予測データ、例えば予測画像を生成して出力する。

　学習器／判別器５１は、各シーン対応の「（ｂ）動き解析対象」を特定した後、これらの動き解析対象について、学習器による学習処理、または判別器による判別処理（予測処理）を実行する。
　以下、学習器／判別器５１が処理対象とする各シーン対応の「（ｂ）動き解析対象」と、学習器／判別器５１に対する「（ｐ）入力データ」と、学習器／判別器５１が生成する「（ｑ）出力データ」の具体例について説明する。

　「シーン１．人が複数の可動道具を使うスポーツ（テニス、野球，バトミントン、ゴルフ）」の場合、
　学習器／判別器５１が処理対象とする「（ｂ）動き解析対象」は、人体と道具１（ラケット）と道具２（球）である。
　学習器／判別器５１に対する「（ｐ）入力データ」は、道具１（ラケット）と道具２（球）の動きの時系列画像である。
　学習器／判別器５１が生成する「（ｑ）出力データ」は、道具１（ラケット）と道具２（球）の動きの未来画像やインパクトのタイミング等である。

　学習器／判別器５１は、例えば「具体例」に記載した以下の事象の動きやタイミング、すなわち、
　ラケットとボールの当たる動きや瞬間、
　バットとボールの当たる動きや瞬間、
　ラケットとシャトルの当たる動きや瞬間、
　ゴールにボールが入ったと判定される瞬間、
　これらの事象の動きやタイミングを推定する学習処理を学習器が実行して学習結果をデータベース５２に格納する。さらに、判別器がデータベース５２に格納した学習結果を利用して予測データを生成する。

　「シーン２．人が１つの可動道具を使うスポーツ（サッカー、剣道）」の場合、
　学習器／判別器５１が処理対象とする「（ｂ）動き解析対象」は、人体と道具１（球）である。
　学習器／判別器５１に対する「（ｐ）入力データ」は、人と道具1(球)の動きの時系列画像である。
　学習器／判別器５１が生成する「（ｑ）出力データ」は、人と道具1(球)の動きの未来画像やインパクトのタイミング等である。

　学習器／判別器５１は、例えば「具体例」に記載した以下の事象の動きやタイミング、すなわち、
　足とボールの当たる動きや瞬間、
　手とボールの当たる動きや瞬間、
　ボールが手を離れる動きや瞬間、
　竹刀が面にあたる動きや瞬間、
　これらの事象の動きやタイミングを推定する学習処理を学習器が実行して学習結果をデータベース５２に格納する。さらに、判別器がデータベース５２に格納した学習結果を利用して予測データを生成する。

　「シーン３．人が可動道具を使わないスポーツ（陸上競技、水泳、ダンス、体操、柔道）」の場合、
　学習器／判別器５１が処理対象とする「（ｂ）動き解析対象」は、人体である。
　学習器／判別器５１に対する「（ｐ）入力データ」は、人体の動きの時系列画像である。
　学習器／判別器５１が生成する「（ｑ）出力データ」は、人体の動きの未来画像、もっともそのスポーツで人が見たいと思うようなタイミング等である。

　学習器／判別器５１は、例えば「具体例」に記載した以下の事象の動きやタイミング、すなわち、
　ゴールした瞬間、
　追い越した瞬間、
　走り幅跳びのジャンプの頂点、
　ポーズを決めた瞬間、
　ボクシングのパンチの当たった瞬間、
　タックルが当たる動きや瞬間、
　タックルで倒される動きや瞬間、
　投げ技で体が宙に浮いた瞬間、
　これらの事象の動きやタイミングを推定する学習処理を学習器が実行して学習結果をデータベース５２に格納する。さらに、判別器がデータベース５２に格納した学習結果を利用して予測データを生成する。

　「シーン４．ポートレート撮影」の場合、
　学習器／判別器５１が処理対象とする「（ｂ）動き解析対象」は、人体と顔である。
　学習器／判別器５１に対する「（ｐ）入力データ」は、人体と顔の動きの時系列画像である。
　学習器／判別器５１が生成する「（ｑ）出力データ」は、人体と顔の動きの未来画像、ポートレートとして最適な姿勢&表情のタイミング等である。

　学習器／判別器５１は、例えば「具体例」に記載した以下の事象の動きやタイミング、すなわち、
　笑った瞬間、
　複数人が目をつむっていない瞬間、
　人が振り向いた瞬間、
　スピーチ中に口の形がよく、目をつむっていない瞬間、
　これらの事象の動きやタイミングを推定する学習処理を学習器が実行して学習結果をデータベース５２に格納する。さらに、判別器がデータベース５２に格納した学習結果を利用して予測データを生成する。

　「シーン５．動物撮影」の場合、
　学習器／判別器５１が処理対象とする「（ｂ）動き解析対象」は、動物である。
　学習器／判別器５１に対する「（ｐ）入力データ」は、動物の動きの時系列画像である。
　学習器／判別器５１が生成する「（ｑ）出力データ」は、動物の動きの未来画像、
動物の動き出しや際立った動きのタイミング等である。

　学習器／判別器５１は、例えば「具体例」に記載した以下の事象の動きやタイミング、すなわち、
　鳥の飛び立つ動きや瞬間、
　鳥の羽が伸び切っている瞬間、
　動物の走りだす動きや瞬間、
　動物がこちらを見る動きや瞬間、
　動物の捕食（口を大きく開けた）瞬間、
　水中動物の水面から出てくる瞬間、
　これらの事象の動きやタイミングを推定する学習処理を学習器が実行して学習結果をデータベース５２に格納する。さらに、判別器がデータベース５２に格納した学習結果を利用して予測データを生成する。

　「シーン６．移動物体撮影」の場合、
　学習器／判別器５１が処理対象とする「（ｂ）動き解析対象」は、移動物体である。
　学習器／判別器５１に対する「（ｐ）入力データ」は、移動物体の動きの時系列画像である。
　学習器／判別器５１が生成する「（ｑ）出力データ」は、移動物体の動きの未来画像、移動物体が最適な構図にいるタイミング等である。

　学習器／判別器５１は、例えば「具体例」に記載した以下の事象の動きやタイミング、すなわち、
　電車走行中の正面写真、
　車のレースでのゴールシーン、
　飛行機の離着陸シーン、
　これらの事象の動きやタイミングを推定する学習処理を学習器が実行して学習結果をデータベース５２に格納する。さらに、判別器がデータベース５２に格納した学習結果を利用して予測データを生成する。

　「シーン７．風景撮影」の場合、
　学習器／判別器５１が処理対象とする「（ｂ）動き解析対象」は、予測対象とする物体の動きや出現の兆候である。
　学習器／判別器５１に対する「（ｐ）入力データ」は、予測対象とする物体の動きの時系列画像である。
　学習器／判別器５１が生成する「（ｑ）出力データ」は、予測対象が出現したタイミング、対象が最適な位置にいるタイミング等である。

　学習器／判別器５１は、例えば「具体例」に記載した以下の事象の動きやタイミング、すなわち、
　雷のおちた瞬間、
　流れ星がきれいに映る瞬間、
　花火が大きく開いた瞬間、
　花火の軌跡がきれいに映る瞬間、
　これらの事象の動きやタイミングを推定する学習処理を学習器が実行して学習結果をデータベース５２に格納する。さらに、判別器がデータベース５２に格納した学習結果を利用して予測データを生成する。

　上述したように、学習器／判別器５１の学習器は、様々なシーン単位で、各シーンに対応する出力（予測画像等）を取得するための学習処理を実行する。
　また、学習器／判別器５１の判別器は、未来予測を行う新たな処理対象画像（時系列画像）を入力して、まずシーン判別を行い、データベース５２に格納されたそのシーン対応の学習結果を利用して未来予測データからなる出力６０を生成して出力する。

　　［５．本開示の画像処理装置の構成例について］
　次に、本開示の画像処理装置の構成例について説明する。
　図１６は、本開示の画像処理装置（カメラ）１００の一構成例を示すブロック図である。画像処理装置１００は、図１に示す撮像装置１０に相当する。

　図１６に示すように、画像処理装置１００は、レンズ１０１、イメージセンサ１０２、画像処理部１０３、データベース１０４、メモリ１０５、通信部１０６、駆動部１０７、制御部１０８、入力部１０９、表示部１１０、記憶部１１１を有する。

　撮影画像は、レンズ１０１を介してイメージセンサ１０２に撮り込まれる。
　イメージセンサ１０２は、例えばＣＣＤ（Ｃｈａｒｇｅ　Ｃｏｕｐｌｅｄ　Ｄｅｖｉｃｅｓ）イメージセンサやＣＭＯＳ（Ｃｏｍｐｌｅｍｅｎｔａｒｙ　Ｍｅｔａｌ　Ｏｘｉｄｅ　Ｓｅｍｉｃｏｎｄｕｃｔｏｒ）イメージセンサなどである。

　画像処理部１０３は、イメージセンサ１０２から出力される画像データ、例えばＬＶ画像を入力して、上述した処理、すなわちＬＶ画像に含まれる動被写体を識別し、さらに、動被写体の状態解析や動き予測を行い、未来予測画像の生成、動被写体の状態情報や予測情報の生成等を行う。
　画像処理部１０３は、先に図１３を参照して説明した学習器／判別器５１の機能も有しており、学習処理や判別処理（予測処理）を実行する。
　なお、画像処理部１０３は、通常の画像撮影に伴う信号処理も実行する。例えば、デモザイク処理や、ホワイトバランス（ＷＢ）調整、ガンマ補正等、一般的なカメラにおける信号処理を実行する。

　データベース１０４は、画像処理部１０３において実行する動被写体の識別処理や、動被写体の状態解析や動き予測、未来予測画像の生成、さらに動被写体の状態情報や予測情報の生成処理の際に参照するデータが記録されたデータベースである。

　すなわち、先に説明したように、データベース１０４には、例えば人、鳥、犬、猫・・・等、様々な種類の動被写体に関する解析データが格納されている。すなわち、各動被写体の種類や、その動被写体の実行する処理に応じた姿勢、動きと、その状態の解説情報を対応付けたデータが格納されている。

　メモリ１０５は、撮影画像の格納、画像処理装置１００において実行する処理プログラム、各種パラメータ等の格納領域として利用されるＲＡＭ，ＲＯＭ等によって構成されるメモリである。
　通信部１０６は、外部装置、例えばサーバや、他の情報端末との通信処理に利用する通信部である。

　駆動部１０７は、画像撮影のためのレンズ駆動、絞り制御等、画像撮影に必要となる様々な駆動処理を行なう。この駆動処理は、例えば制御部１０８の制御の下で実行される。
　制御部１０８は、画像処理装置（カメラ）１００の実行する画像撮影、画像解析、動き予測としての判別処理、学習処理、通信処理等の様々な処理の制御を実行する。制御部１０８は、メモリ１０５に格納されたデータ処理プログラムに従って様々な処理を実行するデータ処理部として機能する。

　入力部１０９は、シャッタの他、ユーザによる様々な設定情報を入力する入力部である。先に図５、図７を参照して説明した未来予測画像設定時間の調整やＬＶ画像と未来予測画像のブレンド比率調整用データの入力処理に利用されるＵＩもこの入力部１０９の一部である。

　表示部１１０は、図１に示す撮像装置１０の表示部１４に対応する。ＬＶ画像の表示、未来予測画像の表示、動被写体情報、予測情報の表示処理等が行われる。またＵＩ画面の表示にも利用される。

　記憶部１１１は、撮影画像の格納領域、さらに、様々な処理パラメータ、プログラム等の格納領域として利用される。
　なお、カメラ機能を持つスマートフォンも、図１６に示すハードウェア構成を有する。

　次に、図１７を参照して、画像処理部１０３の詳細構成例について説明する。
　図１７に示すように、画像処理部１０３は、シーン判別部２０１、動被写体識別部２０２、動被写体状態＆動き解析部２０３、表示情報生成部２０４、記録情報生成部２０５を有する。

　シーン判別部２０１は、イメージセンサ１０２から入力する入力画像（ＬＶ画像）３０１に基づいて撮影シーンの判別を行う。データベース１０４に格納されたシーン判別用データを参照してシーン判別を実行する。
　具体的には、例えば、先に図１１、図１２を参照して説明した以下の各シーン１～７のいずれであるかを判別する。
　１．人が複数の可動道具を使うスポーツ（テニス、野球、バトミントン、ゴルフ）
　２．人が１つの可動道具を使うスポーツ（サッカー、剣道）
　３．人が可動道具を使わないスポーツ（陸上競技、水泳、ダンス、体操、柔道）
　４．ポートレート撮影
　５．動物撮影
　６．移動物体撮影
　７．風景撮影

　シーン判別部２０１のシーン判別結果は、入力画像（ＬＶ画像）３０１とともに動被写体識別部２０２に入力される。
　動被写体識別部２０２は、入力画像（ＬＶ画像）３０１内から動被写体を検出し、動き予測対象となる動被写体を識別する。なお、この動被写体識別処理に際しては、シーン判別部２０１のシーン判別結果を利用可能である。データベース１０４には各シーンに対応する検出可能性の高い動被写体情報が格納されている。図１１、図１２に示す項目（ｂ）に示すデータである。

　動被写体識別部２０２は、このデータベース１０４格納データを参照して、入力画像（ＬＶ画像）３０１から動き予測を行う対象としての動被写体を決定する。
　例えば、人、鳥、人の目等の動き予測を行う対象を特定する。

　動被写体識別部２０２によって特定された動き予測処理対象の動被写体識別情報は、入力画像（ＬＶ画像）３０１とともに動被写体状態＆動き解析部２０３に入力される。
　動被写体状態＆動き解析部２０３は、動被写体識別部２０２によって特定された動き予測処理対象の状態解析や動き予測を行う。この処理には、データベース１０４に格納された解析済みデータ（学習結果データ）が利用される。

　先に説明したように、データベース１０４には、例えば人、鳥、犬、猫・・・等、様々な種類の動被写体に関する解析データが格納されている。すなわち、各動被写体の種類や、その動被写体の実行する処理に応じた姿勢、動きと、その状態の解説情報を対応付けたデータが格納されている。
　動被写体状態＆動き解析部２０３は、動被写体識別部２０２によって特定された動き予測処理対象について、データベース１０４に格納されたデータを参照して、動被写体の状態解析や動き予測を行う。

　動被写体状態＆動き解析部２０３によって解析されたデータ、すなわち、動被写体識別部２０２によって解析対象として特定された動被写体の状態解析情報や動き予測情報は、表示情報生成部２０４に入力される。

　表示情報生成部２０４は、動被写体状態＆動き解析部２０３から入力する動被写体の状態解析情報や動き予測情報に基づいて、表示部１１０に表示するための未来予測画像や、動被写体の状態を説明する情報や、動被写体の未来の動きを説明する情報等を生成する。

　具体的には、例えば、
　（１）図２、図３、図６を参照して説明した未来予測画像、
　（２）図８～図１０を参照して説明した動被写体の状態を説明する情報や、動被写体の未来の動きを説明する情報
　これらの表示用データを生成する。
　表示情報生成部２０４は、さらに、イメージセンサ１０２から入力する入力画像（ＬＶ画像）に併せて、上記（１），（２）の情報を表示部１１０に出力して表示する。

　なお、表示部１１０に対する表示態様は、ユーザによる入力部１０９を介した設定情報に応じて変更される。
　例えば表示する未来予測画像をどの程度先の未来予測画像に設定するかについては、先に図５を参照して説明したＵＩを利用してユーザが設定可能である。
　また、未来予測画像とＬＶ画像とのブレンド比率については、先に図７を参照して説明したＵＩを利用してユーザが設定可能である。
　表示情報生成部２０４は、これらのユーザ設定に応じて表示情報を生成した表示部１１０に表示する。

　記録情報生成部２０５は、入力部１０９を構成するシャッタの操作に応じて、イメージセンサ１０２から入力する画像を記憶部１１１に記録する処理を実行する。なお、この画像記録処理に際しては、従来の撮像装置と同様の信号処理が実行される。

　なお、図１７に示す構成では、シーン判別部２０１によるシーン判別処理や、動被写体識別部２０２における動被写体識別処理、さらに、動被写体状態＆動き解析部２０３における解析処理に適用する画像を、イメージセンサ１０２から入力する入力画像（ＬＶ画像）３０１をそのまま利用する構成としている。

　しかし、データ量が多いと、解析処理に必要となる時間が長くなるため、処理時間の短縮を図るため、これらの処理部に入力する画像を例えば画素間引きによりデータ量を削減した画像としてもよい。
　このような構成とした例を図１８に示す。

　図１８に示す例は、イメージセンサ１０２から出力する画像を２種類の画像としている。表示情報生成部２０４や、記録情報生成部２０５に対しては通常の高画素の入力画像（ＬＶ画像）３０１を出力する。
　一方、シーン判別部２０１以下の画像解析処理実行部には、例えば画素間引きによりデータ量を削減した識別用画像３２１を出力する。
　この構成により、シーン判別部２０１以下の画像解析処理実行部における解析処理を短時間で実行することが可能となる。

　さらに、撮像素子を複数、設けた構成としてもよい、例えば離間した位置に２つの撮像素子を設けて、これらの２つの画像を解析する構成とすれば、被写体距離の算出も可能となり、被写体の動きの高精度な３次元動きを解析することが可能となる。

　さらに、例えば高速撮影可能な構成や、赤外線センサ、測距センサを備えた構成として、これらの高速撮影画像やセンサ取得情報を用いて動被写体の動き予測を行う構成としてもよい。

　　［６．本開示の構成のまとめ］
　以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。

　なお、本明細書において開示した技術は、以下のような構成をとることができる。
　（１）　撮像部からの入力画像に含まれる動被写体の動き予測を実行し、
　未来予測画像を生成して表示部に表示する画像処理部を有する画像処理装置。

　（２）　前記画像処理装置は撮像装置であり、
　前記画像処理部が生成する未来予測画像は、
　前記撮像装置に対するユーザによる被写体の撮影開始準備動作から画像撮影完了までに発生する遅延要因に基づく遅延時間を考慮した未来の予測画像である（１）に記載の画像処理装置。

　（３）　前記画像処理装置は撮像装置であり、
　前記画像処理部が生成する未来予測画像は、
　前記撮像装置の表示部に対する表示遅延と、シャッタ操作から画像記録までの遅延時間との総遅延時間に相当する時間分、未来の予測画像である（１）または（２）に記載の画像処理装置。

　（４）　前記画像処理部は、
　前記撮像素子から入力する複数の連続撮影画像に基づいて、動被写体の動き予測を実行する（１）～（３）いずれかに記載の画像処理装置。

　（５）　前記画像処理装置は、
　前記画像処理部が表示部に表示する未来予測画像を、どの程度、先の画像とするかについて、ユーザによる設定を可能とした構成を有し、
　前記画像処理部は、
　ユーザ設定情報に従って、表示部に表示する未来予測画像を生成する（１）～（４）いずれかに記載の画像処理装置。

　（６）　前記画像処理部は、
　撮像部からの入力画像であるライブビュー画像（ＬＶ画像）を表示部に出力するとともに、前記ライブビュー画像を前記未来予測画像に切り替えて表示部に出力する（１）～（５）いずれかに記載の画像処理装置。

　（７）　前記画像処理部は、
　撮像部からの入力画像であるライブビュー画像（ＬＶ画像）と、前記未来予測画像を重畳、またはブレンドして表示部に出力する（１）～（６）いずれかに記載の画像処理装置。

　（８）　前記画像処理装置は、
　前記ライブビュー画像（ＬＶ画像）と、前記未来予測画像とのブレンド率について、ユーザによる設定を可能とした構成を有し、
　前記画像処理部は、
　ユーザ設定情報に従って、表示部に表示するブレンド画像を生成する（７）に記載の画像処理装置。

　（９）　前記画像処理部は、
　前記入力画像に含まれる動被写体の状態を解析し、
　解析した動被写体状態の説明情報を生成して表示部に表示する（１）～（８）いずれかに記載の画像処理装置。

　（１０）　前記画像処理部は、
　データベースに蓄積されたデータを参照して、
　前記入力画像に含まれる動被写体の状態を解析する（９）に記載の画像処理装置。

　（１１）　前記画像処理部は、
　前記入力画像に含まれる動被写体の動き予測を実行し、
　動き予測結果を説明する説明情報を生成して表示部に表示する（１）～（１０）いずれかに記載の画像処理装置。

　（１２）　前記説明情報は、動被写体がフレームアウトするまでの時間を記述した情報である（１１）に記載の画像処理装置。

　（１３）　前記説明情報は、動き方向を示すアイコンである（１１）に記載の画像処理装置。

　（１４）　前記説明情報は、人の目のまばたきが実行されることを説明する注意情報である（１１）に記載の画像処理装置。

　（１５）　画像処理装置において実行する画像処理方法であり、
　画像処理部が、
　撮像部からの入力画像に含まれる動被写体の動き予測を実行し、
　未来予測画像を生成して表示部に表示する画像処理方法。

　（１６）　画像処理装置において画像処理を実行させるプログラムであり、
　画像処理部に、
　撮像部からの入力画像に含まれる動被写体の動き予測を実行させ、
　未来予測画像を生成して表示部に表示させるプログラム。

　また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。

　なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

　以上、説明したように、本開示の一実施例の構成によれば、撮像部からの入力画像に含まれる動被写体の動き予測を実行し、未来予測画像を生成して表示部に表示する装置、方法が実現される。
　具体的には、例えば、撮像部からの入力画像に含まれる動被写体の動き予測を実行し、未来予測画像を生成して表示部に表示する画像処理部を有する。表示する未来予測画像は、ユーザによる被写体撮影開始準備動作から画像撮影完了までに発生する遅延要因に基づく遅延時間を考慮した画像であり、例えば表示部に対する表示遅延とシャッタ操作から画像記録までの遅延時間との総遅延時間分、未来の予測画像である。画像処理部は、さらに、入力画像に含まれる動被写体の状態を解析し、状態を説明する情報や予測される動きを説明する情報を生成して表示部に表示する。
　本構成により、撮像部からの入力画像に含まれる動被写体の動き予測を実行し、未来予測画像を生成して表示部に表示する装置、方法が実現される。

　　１０　撮像装置
　　１１　レンズ
　　１２　シャッタ
　　１３，１５　各種操作部
　　１４　表示部（モニタ部）
　　２１，２３　スクロールバー
　　２２　設定補助情報
　　５１　学習器／判別器
　　５２　データベース
　１００　画像処理装置
　１０１　レンズ
　１０２　イメージセンサ
　１０３　画像処理部
　１０４　データベース
　１０５　メモリ
　１０６　通信部
　１０７　駆動部
　１０８　制御部
　１０９　入力部
　１１０　表示部
　１１１　記憶部
　２０１　シーン判別部
　２０２　動被写体識別部
　２０３　動被写体状態＆動き解析部
　２０４　表示情報生成部
　２０５　記録情報生成部
　３０１　入力画像（ＬＶ画像）
　３２１　識別用画像

Claims

　撮像部からの入力画像に含まれる動被写体の動き予測を実行し、
　未来予測画像を生成して表示部に表示する画像処理部を有する画像処理装置。
　前記画像処理装置は撮像装置であり、
　前記画像処理部が生成する未来予測画像は、
　前記撮像装置に対するユーザによる被写体の撮影開始準備動作から画像撮影完了までに発生する遅延要因に基づく遅延時間を考慮した未来の予測画像である請求項１に記載の画像処理装置。
　前記画像処理装置は撮像装置であり、
　前記画像処理部が生成する未来予測画像は、
　前記撮像装置の表示部に対する表示遅延と、シャッタ操作から画像記録までの遅延時間との総遅延時間に相当する時間分、未来の予測画像である請求項１に記載の画像処理装置。
　前記画像処理部は、
　前記撮像素子から入力する複数の連続撮影画像に基づいて、動被写体の動き予測を実行する請求項１に記載の画像処理装置。
　前記画像処理装置は、
　前記画像処理部が表示部に表示する未来予測画像を、どの程度、先の画像とするかについて、ユーザによる設定を可能とした構成を有し、
　前記画像処理部は、
　ユーザ設定情報に従って、表示部に表示する未来予測画像を生成する請求項１に記載の画像処理装置。
　前記画像処理部は、
　撮像部からの入力画像であるライブビュー画像（ＬＶ画像）を表示部に出力するとともに、前記ライブビュー画像を前記未来予測画像に切り替えて表示部に出力する請求項１に記載の画像処理装置。
　前記画像処理部は、
　撮像部からの入力画像であるライブビュー画像（ＬＶ画像）と、前記未来予測画像を重畳、またはブレンドして表示部に出力する請求項１に記載の画像処理装置。
　前記画像処理装置は、
　前記ライブビュー画像（ＬＶ画像）と、前記未来予測画像とのブレンド率について、ユーザによる設定を可能とした構成を有し、
　前記画像処理部は、
　ユーザ設定情報に従って、表示部に表示するブレンド画像を生成する請求項７に記載の画像処理装置。
　前記画像処理部は、
　前記入力画像に含まれる動被写体の状態を解析し、
　解析した動被写体状態の説明情報を生成して表示部に表示する請求項１に記載の画像処理装置。
　前記画像処理部は、
　データベースに蓄積されたデータを参照して、
　前記入力画像に含まれる動被写体の状態を解析する請求項９に記載の画像処理装置。
　前記画像処理部は、
　前記入力画像に含まれる動被写体の動き予測を実行し、
　動き予測結果を説明する説明情報を生成して表示部に表示する請求項１に記載の画像処理装置。
　前記説明情報は、動被写体がフレームアウトするまでの時間を記述した情報である請求項１１に記載の画像処理装置。
　前記説明情報は、動き方向を示すアイコンである請求項１１に記載の画像処理装置。
　前記説明情報は、人の目のまばたきが実行されることを説明する注意情報である請求項１１に記載の画像処理装置。
　画像処理装置において実行する画像処理方法であり、
　画像処理部が、
　撮像部からの入力画像に含まれる動被写体の動き予測を実行し、
　未来予測画像を生成して表示部に表示する画像処理方法。
　画像処理装置において画像処理を実行させるプログラムであり、
　画像処理部に、
　撮像部からの入力画像に含まれる動被写体の動き予測を実行させ、
　未来予測画像を生成して表示部に表示させるプログラム。