WO2024029224A1

WO2024029224A1 - 画像処理方法、画像処理装置、プログラムおよび画像処理システム

Info

Publication number: WO2024029224A1
Application number: PCT/JP2023/023284
Authority: WO
Inventors: 法人日浅
Original assignee: キヤノン株式会社
Priority date: 2022-08-03
Filing date: 2023-06-23
Publication date: 2024-02-08
Also published as: JP2024021485A

Abstract

【課題】ぼけの発生した撮像画像に対する機械学習を用いた認識または回帰のタスクにおいて、輝度飽和によるタスクの精度低下を抑制する。【解決手段】画像処理方法は、撮像により得られた撮像画像を第１の機械学習モデルに入力することで生成された第１のマップを取得する工程（Ｓ２０２）と、撮像画像の輝度飽和領域の位置に関する情報に基づいて、第１のマップを修正することで第２のマップを生成する工程（Ｓ２０３）とを有し、第１のマップは、輝度飽和領域における被写体が撮像において発生したぼけによって広がった領域と、該領域における信号値とを表す情報である。

Description

画像処理方法、画像処理装置、プログラムおよび画像処理システム

　本発明は、ぼけの発生した撮像画像に対して、機械学習モデルを用いた認識または回帰のタスクを実行する画像処理方法に関する。

　非特許文献１には、機械学習モデルの１つである畳み込みニューラルネットワーク（ＣＮＮ：Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）を用いて、撮像画像のぼけを先鋭化する方法が開示されている。撮像画像の輝度飽和値以上の信号値を有する画像をぼかすことで訓練データセットを生成し、該訓練データセットでＣＮＮを訓練することで、輝度飽和領域の周辺でも弊害を抑制して、ぼけ先鋭化を行うことができる。

Ｌｉ　Ｘｕ，ｅｔ　ａｌ．，Ｄｅｅｐ　Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ　ｆｏｒ　Ｉｍａｇｅ　Ｄｅｃｏｎｖｏｌｕｔｉｏｎ，Ａｄｖａｎｃｅｓ　ｉｎ　Ｎｅｕｒａｌ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｐｒｏｃｅｓｓｉｎｇ　Ｓｙｓｔｅｍｓ　２７，ＮＩＰＳ２０１４

　しかし、非特許文献１に開示された方法では、輝度飽和と無関係な位置の被写体にアーティファクト（偽構造）が発生する可能性がある。アーティファクトとは、具体的には、実際の被写体の構造とは異なる局所的な信号値の減少または増大である。なお、アーティファクトとその発生理由の詳細については後述する。ぼけ先鋭化以外のぼけが発生した画像に対するタスクにおいても、同様に輝度飽和の影響によってタスクの精度が低下する。

　そこで本発明は、ぼけの発生した撮像画像に対する機械学習を用いた認識または回帰のタスクにおいて、輝度飽和によるタスクの精度低下を抑制することが可能な画像処理方法を提供することを目的とする。

　本発明の一側面としての画像処理方法は、撮像により得られた撮像画像を第１の機械学習モデルに入力することで生成された第１のマップを取得する工程と、前記撮像画像の輝度飽和領域の位置に関する情報に基づいて、前記第１のマップを修正することで第２のマップを生成する工程とを有し、前記第１のマップは、前記輝度飽和領域における被写体が前記撮像において発生したぼけによって広がった領域と、該領域における信号値とを表す情報であることを特徴とする。

　本発明の他の目的及び特徴は、以下の実施例において説明される。

　本発明によれば、ぼけの発生した撮像画像に対する機械学習を用いた認識または回帰のタスクにおいて、輝度飽和によるタスクの精度低下を抑制することが可能な画像処理方法を提供することができる。

実施例１におけるモデル出力の生成過程を表した図である。実施例１乃至３における被写体と撮像画像との関係、および第１のマップの説明図である。実施例１における撮像画像、第１のマップ、およびモデル出力の説明図である。実施例１における画像処理システムのブロック図である。実施例１における画像処理システムの外観図である。実施例１におけるアーティファクトの説明図である。実施例１乃至３における第１及び第２の機械学習モデルの訓練のフローチャートである。実施例１における第１及び第２の機械学習モデルの訓練の過程を表した図である。実施例１における訓練データセットに関する説明図である。実施例１又は２における第１及び第２の機械学習モデルの推定のフローチャートである。実施例２における画像処理システムのブロック図である。実施例２における画像処理システムの外観図である。実施例２における第１のマップに対する修正の説明図である。実施例３における画像処理システムのブロック図である。実施例３における画像処理システムの外観図である。実施例３における第１及び第２の機械学習モデルの推定のフローチャートである。

　以下、本発明の実施例について、図面を参照しながら詳細に説明する。各図において、同一の部材については同一の参照符号を付し、重複する説明は省略する。

　各実施例を詳述する前に、本発明の課題に関して説明する。画像に対する認識または回帰のタスクにおいて、理論ベースの手法では、仮定や近似によって無視された要素により、タスクの精度が低下し得る。これに対して、機械学習を用いた手法では、それらの要素も含む訓練データを用いて機械学習モデルを訓練することで、仮定や近似のない訓練データに即した推定が実現できるため、タスクの精度が向上する。すなわち、画像に対する認識または回帰のタスクにおいて、機械学習モデルを用いた手法は理論ベースの手法に対して高い精度を実現できる。

　例えば、ぼけの発生した撮像画像のぼけを先鋭化する技術では、上記要素として撮像画像の輝度飽和（白飛びとも呼ばれる）が挙げられる。Ｗｉｅｎｅｒフィルタなどの理論ベースの手法では、輝度飽和はないと仮定されているため、輝度飽和した領域（輝度飽和領域）の周辺でぼけが正しく先鋭化されず、リンギングなどの弊害が発生する。これに対し、機械学習による手法は非特許文献１のように、輝度飽和が存在してもぼけを先鋭化することができる。ただし、非特許文献１の手法では補正後の画像にアーティファクトが発生するという課題があった。

　本発明の課題は、ぼけの発生した撮像画像に対して機械学習モデルで認識または回帰のタスクを行った際、輝度飽和に起因して発生するタスクの精度低下（前述のアーティファクト）を抑制することである。ここで、ぼけとは、撮像画像の撮像に用いた光学系の収差、回折、デフォーカスいずれかによるぼけ、光学ローパスフィルタによるぼけ、撮像素子の画素開口によるぼけ、撮像時の手ぶれまたは被写体ぶれによるぼけ等のいずれかを指す。または、これらのうちの複数の組み合わせを指す。また、認識タスクとは、入力された画像に対応するクラスを求めるタスクである。例えば、認識タスクとして、画像中の被写体を人、犬、車などに分類するタスクや、顔画像から笑顔、泣き顔などの表情に分類するタスクなど、画像内の性質や意味を認識するタスクが挙げられる。クラスは一般に離散変数である。また、クラスはスカラー値である認識ラベル、またはセグメンテーションマップなどの認識ラベルが空間的に配列された信号列である。これに対して回帰タスクは、入力された画像に対応する連続変数が空間的に配列された信号列を求めるタスクを指す。例えば、回帰タスクとして、ぼけの発生した画像からぼけの先鋭化された画像を推定するタスクや、画像から被写体空間のデプスマップを推定するタスクなどが挙げられる。

　図２（Ａ）を用いて、ぼけの発生した撮像画像における、輝度飽和領域を含むその周辺領域とそれ以外の領域における性質の差異に関して説明する。図２（Ａ）は、被写体と撮像画像の輝度分布の関係を示した図である。図２（Ａ）において、横軸は空間座標、縦軸は輝度である。実線がぼけのない場合の撮像画像、破線がぼけの発生した実際の撮像画像である。一点鎖線は、輝度飽和でクリップされる前の輝度分布を表している。被写体２２１は、撮像過程でぼけても、輝度飽和値以下の輝度しか有さない。そのため、輝度飽和値によるクリップは発生せず、被写体２２１は非飽和ぼけ像２３１となる。これに対し、被写体２２２は、撮像過程でぼけた結果、輝度飽和値以上の輝度を有するため、輝度飽和値によるクリップが発生し、被写体２２２は飽和ぼけ像２３２となる。非飽和ぼけ像２３１は、ぼけによって被写体の情報が減衰する。これに対し、飽和ぼけ像２３２は、ぼけだけでなく輝度飽和による信号値のクリップでも被写体の情報が減衰する。故に、輝度飽和の有無によって、被写体情報の減衰の仕方が異なる。これが輝度飽和領域を含むその周辺領域とそれ以外の領域で、性質が異なる１つ目の要因である。

　次に、性質が異なる２つ目の要因に関して説明する。それは、輝度飽和領域の端において、信号値のクリップにより被写体には本来存在しない偽エッジが発生することである。飽和ぼけ像２３２は本来、輝度飽和値以上の領域において一点鎖線で表される輝度分布となるため滑らかな分布をしているが、輝度飽和値のクリップによって不連続なエッジが形成される。

　さらに、撮像画像は、輝度飽和領域にある被写体２２２から、ぼけによってその周辺に信号値が漏れ出している。この漏れ出した信号値の大きさと範囲は、輝度飽和領域にある被写体２２２の輝度が大きいほど大きくなるが、輝度飽和によって信号値がクリップされているため、漏れ出した信号値の大きさと範囲は容易には分からない。故に、性質が異なる３つ目の要素は、輝度飽和領域を含むその周辺領域において、被写体の信号値とぼけによって漏れ出してきた信号値を（仮にぼけの形状が既知だとしても）分離できないことである。

　これら３つの要素によって、輝度飽和領域を含むその周辺領域とそれ以外の領域では性質が異なるため、それぞれに対して異なる処理を実行しなければ、高精度なタスクは実現できない。

　機械学習モデルは、入力された画像に対して画一的な効果の処理でなく、画像の特徴に応じて効果の異なる処理を実行することができる。そのため、例えば撮像画像のぼけを先鋭化する例を考えた場合、機械学習モデルは、注目した領域が輝度飽和を含むぼけ像（飽和ぼけ像）か、それ以外のぼけ像（非飽和ぼけ像）かを内部で判定し、異なる先鋭化処理を実行する。これによって、どちらのぼけ像も先鋭化することができる。しかし、機械学習モデルの判定が正しく行われない場合がある。例えば、図２（Ａ）の飽和ぼけ像２３２において、輝度飽和領域の近傍が注目領域だった場合、機械学習モデルは、注目領域の近傍に輝度飽和領域があるため、注目領域が輝度飽和の影響を受けた領域と判定可能である。しかし、輝度飽和領域から離れた位置２３３が注目領域の場合、位置２３３が輝度飽和の影響を受けているか否かを判定することは容易でなく、曖昧性が高くなる。その結果、輝度飽和領域から離れた位置２３３では、機械学習モデルが誤判定を起こすことがある。これによって、タスクがぼけの先鋭化の場合、非飽和ぼけ像に対して、飽和ぼけ像に対応する先鋭化処理を実行する。この際、ぼけを先鋭化した画像にアーティファクトが発生し、タスクの精度が低下する。このアーティファクトに関しては、実施例１で詳細に説明する。

　ぼけの先鋭化以外のタスクに関しても同様で、機械学習モデルが輝度飽和の影響を受けている領域と、それ以外の領域を誤判定することで、タスクの精度が低下する。例えば、認識タスクでは、非飽和ぼけ像を飽和ぼけ像と誤判定すると、ぼけ像に輝度飽和した領域からぼけによって漏れ出した信号値が加算されている状態であると判定するため、実際の非飽和ぼけ像とは異なる特徴量を抽出し、タスクの精度が低下する。

　次に、この課題を解決する本発明の要旨に関して説明する。本発明では、第１の機械学習モデルを用いて、撮像過程でぼけが発生した撮像画像から、第１のマップを生成する。第１のマップとは、撮像画像の輝度飽和領域における被写体が撮像により発生したほけによって広がった領域の範囲と、該領域に対応する信号値の大きさとの関係を表すマップである。また、第１のマップとは、撮像画像の輝度飽和領域の被写体が、撮像画像の撮像過程で発生したぼけによって広がった領域の信号値の大きさと範囲を表すマップ（空間的に配列された信号列）とも言うことができる。さらに換言すると、第１のマップは、撮像画像の輝度飽和領域を含む高輝度領域の輝度値の拡がりを表すマップである（輝度飽和するほどに高輝度な被写体が撮像過程で生じたぼけにより広がった分布を表すマップである）。

　例として、図２（Ａ）の撮像画像に対する第１のマップを図２（Ｂ）に破線で示す。第１の機械学習モデルに第１のマップを明示的に生成させることで、その後に実行するタスク（ぼけ先鋭化など）において、輝度飽和の影響を受けた領域に実行すべき処理と、それ以外の領域に実行すべき処理を、それぞれ適切な領域に実行することができる。そのため、第１の機械学習モデルに第１のマップを生成させることで、タスクの精度が向上する。

　ただし、生成された第１のマップには、誤推定が発生する可能性がある。これについて図３を用いて説明する。図３は、撮像画像、第１のマップ、およびモデル出力の説明図である。図３におけるモデル出力は、撮像画像のぼけを先鋭化したぼけ先鋭化画像である。例えば、図３（Ａ）の破線で表される撮像画像に対して、図３（Ｂ）の破線で示される第１のマップが推定されることがある。図３（Ａ）は輝度飽和値未満の平坦な信号分布の被写体のため、第１のマップは全て非飽和ぼけ像を表す同一の値（第１の信号値）を有する場合が正しい。しかし、図３（Ｂ）のように輝度飽和の影響を表す値を有する領域２４１が生成されることがある。これは、機械学習モデルの学習方法に起因して発生する誤推定である。この誤推定が発生する原理は、実施例１の説明の中で詳細に述べる。第１のマップに領域２４１が存在するため、第１のマップに基づいてぼけ先鋭化を実施すると、図３（Ａ）の実線で表されるように、ぼけ先鋭化画像（モデル出力）には実際の被写体には存在しないアーティファクト領域２４２が発生する。

　そこで、本発明ではさらに、撮像画像の輝度飽和領域の位置に関する情報に基づいて、第１のマップを修正することで第２のマップを生成する。第１のマップは、撮像画像の輝度飽和領域と無関係な位置において、輝度飽和の影響を表す値を有さないはずである。このため、飽和領域の位置に関する情報によって、第１のマップの誤推定を修正した第２のマップを生成することができる。これによって、さらにタスクの精度を向上させることができる。

　なお以下では、訓練データセットに基づいて機械学習モデルのウエイトを決定する段階のことを訓練と呼び、訓練済みのウエイトを用いた機械学習モデルで撮像画像から認識または回帰のタスクを実行する段階のことを推定と呼ぶ。機械学習モデルは、例えば、ニューラルネットワーク、遺伝的プログラミング、ベイジアンネットワークなどを含む。ニューラルネットワークは、ＣＮＮ（Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）、ＧＡＮ（Ｇｅｎｅｒａｔｉｖｅ　Ａｄｖｅｒｓａｒｉａｌ　Ｎｅｔｗｏｒｋ）、ＲＮＮ（Ｒｅｃｕｒｒｅｎｔ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）、Ｔｒａｎｓｆｏｒｍｅｒなどを含む。
（実施例１）
　本発明の実施例１における画像処理システム１００に関して説明する。本実施例では、第２のマップを生成した後に実行するタスクを、輝度飽和を含む撮像画像に対するぼけの先鋭化とする。先鋭化するぼけは、光学系で発生する収差や回折、光学ローパスフィルタによるぼけを対象とする。ただし、画素開口やデフォーカス、ぶれによるぼけを先鋭化する場合も、同様に発明の効果を得ることができる。また、ぼけ先鋭化以外のタスクに関しても、同様に発明を実施し、効果を得ることが可能である。

　図４は、本実施例における画像処理システム１００のブロック図である。図５は、画像処理システム１００の外観図である。画像処理システム１００は、有線または無線のネットワークで接続された訓練装置１０１と画像処理装置１０３を有する。訓練装置１０１は、記憶部１０１ａ、取得部１０１ｂ、演算部１０１ｃ、および更新部１０１ｄを有する。画像処理装置１０３は、記憶部１０３ａ、取得部１０３ｂ、および演算部１０３ｃを有する。画像処理装置１０３には、有線または無線によって、撮像装置１０２、表示装置１０４、記録媒体１０５、出力装置１０６が接続される。撮像装置１０２は、光学系１０２ａ、撮像素子１０２ｂを有する。

　撮像装置１０２を用いて被写体空間を撮像した撮像画像は、画像処理装置１０３に入力される。撮像画像には、撮像装置１０２内の光学系１０２ａによる収差および回折と、撮像素子１０２ｂの光学ローパスフィルタとによってぼけが発生しており、被写体の情報が減衰している。画像処理装置１０３は、第１の機械学習モデルを用いて、撮像画像から第１のマップを推定する。さらに、画像処理装置１０３は、撮像画像の飽和領域の位置に関する情報に基づいて、第１のマップを修正した第２のマップを生成し、第２の機械学習モデルを用いて、撮像画像と第２のマップから、ぼけ先鋭化画像（モデル出力）を生成する。第１および第２の機械学習モデルは訓練装置１０１で訓練されたものであり、画像処理装置１０３は第１および第２の機械学習モデルに関する情報を予め訓練装置１０１から取得し、記憶部１０３ａに記憶している。さらに、画像処理装置１０３は、ぼけ先鋭化の強度を調整する機能を有する。なお、第１および第２の機械学習モデルの訓練と推定、およびぼけ先鋭化の強度調整の詳細に関しては、後述する。

　ユーザは、表示装置１０４に表示されたぼけ先鋭化画像を確認しながら、ぼけ先鋭化の強度調整を行える。強度調整が施されたぼけ先鋭化画像は、記憶部１０３ａまたは記録媒体１０５に保存され、必要に応じてプリンタなどの出力装置１０６に出力される。訓練装置１０１と画像処理装置１０３のそれぞれは、機械学習モデルを高速に処理できる、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）などの並列計算に適した処理手段を有していることが望ましい。なお、撮像画像は、グレースケールでも複数の色成分を有していてもよい。また、撮像画像は、未現像のＲＡＷ画像でも、現像後の画像でもよい。

　次に、図６（Ａ）乃至（Ｃ）を用いて、機械学習モデルによってぼけ先鋭化を行う際に発生するアーティファクトに関して説明する。アーティファクトとは、実際の被写体の構造とは異なる局所的な信号値の減少または増大である。図６（Ａ）乃至（Ｃ）は、アーティファクトの説明図であり、横軸は空間座標、縦軸は信号値をそれぞれ示す。図６（Ａ）乃至（Ｃ）は、画像の信号値の空間変化を示し、Ｒ、Ｇ、Ｂ（Ｒｅｄ、Ｇｒｅｅｎ、Ｂｌｕｅ）の色成分にそれぞれ対応する。ここで、画像は８ｂｉｔに現像された画像であり、輝度飽和値は２５５である。

　図６（Ａ）乃至（Ｃ）において、一点鎖線は撮像画像（ぼけ画像）、細い実線はぼけのない正解画像である。いずれの画素も輝度飽和値に達していないため、輝度飽和の影響はない。点線は、本実施例を適用しない従来の機械学習モデルを用いて、撮像画像のぼけを先鋭化したぼけ先鋭化画像である。点線で表されるぼけ先鋭化画像では、エッジのぼけが先鋭化されているが、中央付近に正解画像にはない信号値の減少が発生している。この減少は、エッジと隣接せず、離れた位置で発生しており、さらに発生領域が広いことから、アンダーシュートとは異なる弊害である。これが、ぼけ先鋭化の際に発生するアーティファクトである。

　また、図６（Ａ）乃至（Ｃ）の比較から分かるように、色成分によって信号値の減少の度合いが異なる。図６（Ａ）乃至（Ｃ）では、Ｇ、Ｒ、Ｂの順に、信号値の減少の度合いが大きくなっている。これは、未現像のＲＡＷ画像でも同様の傾向を示す。そのため、正解画像では平坦部にもかかわらず、点線で表される従来のぼけ先鋭化画像では緑に色づいた暗い領域がアーティファクトとして発生する。なお、図６（Ａ）乃至（Ｃ）では正解画像より信号が減少する例を示したが、逆に信号値が増大する場合もある。

　このアーティファクトが発生する原因は、前述したように、機械学習モデルが輝度飽和の影響を受けた領域とそれ以外の領域を誤判定し、飽和ぼけ像にかけるべきぼけ先鋭化を、非飽和ぼけ像に対して誤って実行したためである。図２（Ａ）から分かるように、被写体の輝度が大きいほど、ぼけ先鋭化の残差成分（撮像画像とぼけのない撮像画像の差）の絶対値は大きくなる。そのため、飽和ぼけ像にかけるべきぼけ先鋭化を、非飽和ぼけ像に対して実行すると過剰に信号値を変化させることになる。その結果、図６（Ａ）乃至（Ｃ）の点線のように、正解画像（実線）より信号値が小さくなった領域が発生する。

　また、一般的に、可視光を対象とした光学系は、ＲＧＢのうちＧの性能が最も良くなるように設計されていることが多い。すなわち、ＲやＢの方がＧよりぼけ（ＰＳＦ：点像強度分布）の広がりが大きいため、高輝度な被写体を撮像した飽和ぼけ像の端はＲやＢに色付きやすい（パープルフリンジがこれに該当する）。この飽和ぼけ像を補正する場合、ＧよりＲやＢにおけるぼけ先鋭化の残差成分が大きくなる。故に、非飽和ぼけ像を飽和ぼけ像と誤判定した場合、ＧよりＲやＢの信号値の減少が大きくなり、図６（Ａ）乃至（Ｃ）に示されるように、緑に色付いた暗い領域としてアーティファクトが発生する。

　これに対して、図６（Ａ）乃至（Ｃ）中に示される破線は、本実施例を用いてぼけの先鋭化を行った結果である。アーティファクトの発生を抑制して、ぼけが先鋭化されていることが分かる。これは第１のマップ、さらにその誤推定を修正した第２のマップによって、ぼけ先鋭化を行う第２の機械学習モデルが輝度飽和の影響を受けた領域とそれ以外の領域を誤判定しにくくなるためである。図６（Ａ）乃至（Ｃ）から、本実施例によって、タスクの精度低下が抑制されていることが分かる。

　次に、図７を参照して、訓練装置１０１で実行される第１及び第２の機械学習モデルの訓練に関して説明する。図７は、第１及び第２の機械学習モデルの訓練のフローチャートである。図７の各ステップは、訓練装置１０１の記憶部１０１ａ、取得部１０１ｂ、演算部１０１ｃ、または更新部１０１ｄにより実行される。

　ステップＳ１０１において、取得部１０１ｂは、記憶部１０１ａから１枚以上の原画像を取得する。原画像は、第２の信号値より大きい信号値を有する画像である。ここで第２の信号値は、撮像画像の輝度飽和値に相当する信号値である。ただし、第１及び第２の機械学習モデルに入力する際、信号値を規格化してもよいため、必ずしも第２の信号値と撮像画像の輝度飽和値とが一致する必要はない。原画像を基にして第１及び第２の機械学習モデルの訓練を行うため、原画像は様々な周波数成分（異なる向きと強度のエッジ、グラデーション、平坦部など）を有する画像であることが望ましい。原画像は実写画像でもよいし、ＣＧ（Ｃｏｍｐｕｔｅｒ　Ｇｒａｐｈｉｃｓ）でもよい。

　ステップＳ１０２において、演算部１０１ｃは、原画像にぼけを付与し、ぼけ画像を生成する。ぼけ画像は、訓練時に第１及び第２の機械学習モデルに入力される画像であり、推定時の撮像画像に相当する。付与するぼけは、先鋭化の対象となるぼけである。本実施例では、光学系１０２ａの収差と回折、および撮像素子１０２ｂの光学ローパスフィルタによって発生するぼけを付与する。光学系１０２ａの収差と回折によるぼけの形状は、像面座標（像高とアジムス）によって変化する。また、光学系１０２ａの変倍、絞り、フォーカスの状態によっても変化する。これらのぼけ全てを先鋭化する第２の機械学習モデルを一括で訓練したい場合、光学系１０２ａで発生する複数のぼけを用いて、複数のぼけ画像を生成するとよい。また、ぼけ画像において、第２の信号値を超える信号値はクリップされる。これは、撮像画像の撮像過程で起きる輝度飽和を再現するために行う。必要に応じて、撮像素子１０２ｂで発生するノイズをぼけ画像に付与してもよい。

　ステップＳ１０３において、演算部１０１ｃは、原画像に基づく画像と信号値の閾値とに基づいて、第１の領域を設定する。実施例１では、原画像に基づく画像として、ぼけ画像を用いるが、原画像そのものなどを用いてもよい。ぼけ画像の信号値と、信号値の閾値と、を比較することで、第１の領域を設定する。より具体的には、ぼけ画像の信号値が、信号値の閾値以上となっている領域を第１の領域とする。本実施例において、信号値の閾値は第２の信号値である。故に、第１の領域は、ぼけ画像の輝度飽和領域を表す。ただし、信号値の閾値と第２の信号値は、必ずしも一致しなくてもよい。信号値の閾値を、第２の信号値よりやや小さい値（例えば、０．９倍）に設定してもよい。

　ステップＳ１０４において、演算部１０１ｃは、第１の領域に原画像の信号値を有する第１の画像を生成する。第１の画像は、第１の領域以外の領域において、原画像とは異なる信号値を有する。さらに望ましくは、第１の画像は、第１の領域以外の領域において、第１の信号値を有する。本実施例において、第１の信号値は０であるが、これに限定されるものではない。すなわち、本実施例では、第１の画像は、ぼけ画像が輝度飽和領域のみに原画像の信号値を有し、それ以外の領域の信号値は０である。

　ステップＳ１０５において、演算部１０１ｃは、第１の画像にぼけを付与し、第１の正解マップを生成する。付与されるぼけは、ぼけ画像に付与したぼけと同じである。これによって、ぼけ画像の輝度飽和領域にある被写体から、ぼけによって周辺に漏れ出した信号値の大きさと範囲を表すマップ（空間的に配列された信号列）である第１の正解マップが生成される。本実施例では、ぼけ画像と同様に、第１の正解マップを第２の信号値でクリップするが、必ずしもクリップを行う必要はない。

　ステップＳ１０６において、取得部１０１ｂは、正解モデル出力を取得する。本実施例ではタスクがぼけ先鋭化のため、正解モデル出力はぼけ画像よりぼけの小さい画像である。本実施例では、原画像を第２の信号値でクリップすることで、正解モデル出力を生成する。原画像に高周波成分が不足している場合、原画像を縮小した画像を正解モデル出力としてもよい。この場合、ステップＳ１０２にてぼけ画像を生成する際にも同様に縮小を行う。また、ステップＳ１０６は、ステップＳ１０１より後であって、かつステップＳ１０７より前であれば、いつ実行してもよい。ステップＳ１０６までで、第1及び第２の機械学習モデルの訓練に用いる訓練データ（ぼけ画像が複数の場合は訓練データセット）が揃う。

　ステップＳ１０７において、演算部１０１ｃは、第１及び第２の機械学習モデルを用いて、ぼけ画像に基づき、第１のマップとモデル出力を生成する。図８は、第１及び第２の機械学習モデルの訓練過程を表した図である。本実施例では、第１及び第２の機械学習モデルの訓練において、図８に示された構成を用いるが、これに限定されるものではない。図８において、ぼけ画像２５１と輝度飽和マップ２５２が、第１の機械学習モデル２１１に入力される。ぼけ画像２５１と輝度飽和マップ２５２は、空間的に２次元の信号分布を有するが、図８では説明の分かりやすさのため、ある断面での１次元的な信号分布として描画されている。輝度飽和マップ２５２は、ぼけ画像２５１の輝度飽和した（信号値が第２の信号値以上である）領域を示したマップである。例えば、輝度飽和マップ２５２は、第２の信号値でぼけ画像２５１を二値化することによって生成することができる。図８では、ぼけ画像２５１を第２の信号値で正規化し、１を閾値として二値化することで、輝度飽和マップ２５２を生成している。ただし、輝度飽和マップ２５２の生成方法は、これに限定されるものではない。また、輝度飽和マップ２５２は、必ずしも必須ではない。ぼけ画像２５１と輝度飽和マップ２５２は、チャンネル方向に連結されて、第１の機械学習モデル２１１に入力される。ただし、本実施例はこれに限定されるものではない。例えば、ぼけ画像２５１と輝度飽和マップ２５２をそれぞれ特徴マップに変換し、それらの特徴マップをチャンネル方向に連結してもよい。また、輝度飽和マップ２５２以外の情報を入力に追加してもよい。

　第１の機械学習モデル２１１と第２の機械学習モデル２１２は複数の層を有し、各層で層の入力とウエイトの線型和が取られる。ウエイトの初期値は、乱数などで決定することができる。本実施例は、線型和として入力とフィルタの畳み込み（フィルタの各要素の値がウエイトに該当し、またバイアスとの和を含んでいてもよい）を用いるＣＮＮを第１及び第２の機械学習モデル２１１、２１２として用いるが、これに限定されるものではない。また、各層では必要に応じて、ＲｅＬＵ（Ｒｅｃｔｉｆｉｅｄ　Ｌｉｎｅａｒ　Ｕｎｉｔ）やシグモイド関数などの活性化関数による非線型変換が実行される。さらに、第１及び第２の機械学習モデル２１１、２１２は必要に応じて、残差ブロックやＳｋｉｐ　Ｃｏｎｎｅｃｔｉｏｎ（Ｓｈｏｒｔｃｕｔ　Ｃｏｎｎｅｃｔｉｏｎともいう）を有していてよい。

　第１の機械学習モデル２１１では、第１のマップ２５３が生成される。次に、第１の正解マップ２５４とぼけ画像２５１をチャンネル方向に連結して第２の機械学習モデル２１２に入力し、モデル出力２５５を生成する。第１の正解マップ２５４の代わりに、第１のマップ２５３、またはぼけ画像２５１の飽和領域の位置に関する情報に基づいて第１のマップ２５３を修正した第２のマップを、第２の機械学習モデル２１２に入力してもよい。なお、第１及び第２の機械学習モデル２１１、２１２の訓練は、同時に行う必要はなく、個別に実行してもよい。

　図７に戻って、ステップＳ１０８において、更新部１０１ｄは、損失関数に基づいて、第１の機械学習モデル２１１と第２の機械学習モデル２１２のウエイトを更新する。本実施例において、第１の機械学習モデル２１１の損失関数は、第１のマップ２５３と第１の正解マップ２５４に基づく。第２の機械学習モデル２１２の損失関数は、モデル出力２５５と正解モデル出力に基づく。損失関数には、ＭＳＥ（Ｍｅａｎ　Ｓｑｕａｒｅｄ　Ｅｒｒｏｒ）を使用するが、これに限定されるものではない。ウエイトの更新には、誤差逆伝搬法（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）などを用いることができる。

　ステップＳ１０９において、更新部１０１ｄは、第１の機械学習モデル２１１と第２の機械学習モデル２１２の訓練が完了したか否かを判定する。訓練の完了は、ウエイトの更新の反復回数が既定の回数に達したかや、更新時の損失関数または更新時のウエイトの変化量が既定値より小さいかなどによって、判定することができる。ステップＳ１０９にて訓練が完了していないと判定された場合、ステップＳ１０１へ戻り、取得部１０１ｂは１枚以上の新たな原画像を取得する。一方、訓練が完了したと判定された場合、更新部１０１ｄは訓練を終了し、第１及び第２の機械学習モデル２１１、２１２の構成とウエイトの情報を記憶部１０１ａに記憶する。

　以上の訓練方法によって、第１の機械学習モデル２１１は、ぼけ画像２５１（推定時には撮像画像）の輝度飽和した領域の被写体がぼけによって広がった信号値の大きさと範囲を表す第１のマップ２５３を推定することができる。ただし、第１のマップ２５３には、図８に示すように、学習方法に起因する誤推定領域２６０が発生し得る。

　この誤推定の発生原理に関して、図９（Ａ）及び（Ｂ）を用いて説明する。図９（Ａ）及び（Ｂ）は、本実施例における訓練データセットに関する説明図であり、図９（Ａ）において、横軸は空間座標、縦軸は輝度をそれぞれ示す。図９（Ａ）において、破線はぼけ画像２５１、実線は正解モデル出力２５６を表す。図２（Ａ）と同様に、一点鎖線は輝度飽和値でクリップされる前の信号値を表す。ぼけ画像２５１の左側は、輝度飽和値によるクリップがないため非飽和ぼけ像であり、ぼけ画像２５１の右側は飽和ぼけ像である。図９（Ｂ）において、破線は図９（Ａ）に対応する第１の正解マップ２５４である。例えば、図９（Ａ）及び（Ｂ）に示される領域２６１を用いて、第１の機械学習モデル２１１を訓練したとする。この際、第１の機械学習モデル２１１は、入力されたぼけ画像２５１から、第１の正解マップ２５４を推定する必要がある。しかし、領域２６１内には輝度飽和領域が存在しないため、ぼけ画像２５１の左側が非飽和ぼけ像であり、ぼけ画像２５１の右側が飽和ぼけ像であることを判定することは不可能である。故に、訓練された第１の機械学習モデル２１１は、ぼけ画像２５１から第１の正解マップ２５４を推定できず、損失関数が最小になる解、例えば図９（Ｂ）の実線に示したような第１のマップ２５３を推定する。この第１のマップ２５３は、ぼけ画像２５１の非飽和ぼけ像に対応する位置に誤推定領域を有している。このような原理によって、図８に示される誤推定領域２６０が発生する。

　誤推定領域２６０の発生を抑制する学習方法として、例えば以下の方法が考えられる。第１の機械学習モデル２１１に、ぼけ画像２５１（図９（Ａ）の破線の領域２６１）を入力し、推定された第１のマップ２５３のうち周辺を除いた領域２６２のみを使用する方法である。この際、領域２６２における第１のマップ２５３と第１の正解マップ２５４との損失関数を用いて、第１の機械学習モデル２１１のウエイトを更新する。領域２６１の外側にいる飽和領域がぼけによって影響を及ぼす範囲を除いて第１の機械学習モデル２１１を訓練することで、誤推定領域２６０の発生を抑制することができる。ただし、第１の機械学習モデル２１１の訓練に用いられる情報が減ってしまうため、訓練の精度を維持するには領域２６１を広げる必要があり、訓練の計算負荷が非常に大きくなってしまう問題がある。そのため、本実施例では訓練後の推定時に、第１のマップを修正することで、誤推定領域の抑制を行う。

　次に、画像処理装置１０３で実行される、訓練済みの第１及び第２の機械学習モデルを用いた撮像画像のぼけ先鋭化（推定）に関して、図１と図１０を用いて説明する。図１は、モデル出力の生成過程を表した図である。図１０は、第１及び第２の機械学習モデルの推定のフローチャートである。図１０の各ステップは、画像処理装置１０３の記憶部１０３ａ、取得部１０３ｂ、または演算部１０３ｃにより実行される。

　ステップＳ２０１において、取得部（取得手段）１０３ｂは、撮像画像２０１、第１の機械学習モデル２１１、及び第２の機械学習モデル２１２を取得する。第１及び第２の機械学習モデル２１１、２１２の構成とウエイトの情報は、記憶部１０３ａから取得される。

　ステップＳ２０２において、演算部（生成手段）１０３ｃは、第１の機械学習モデル２１１を用いて、撮像画像２０１と撮像画像２０１に対応した輝度飽和マップ２０２とから、第１のマップ２０３を生成する。第１の機械学習モデル２１１の構成は、訓練時と同様である。第１のマップ２０３は、撮像画像２０１の輝度飽和領域の被写体が、撮像画像２０１の撮像過程で発生したぼけによって広がった領域の信号値の大きさと範囲を表すマップである。ただし、第１のマップ２０３は、飽和ぼけ像とは無関係な位置に、誤推定領域２２０を有する可能性がある。なお一般に、撮像素子１０２ｂの各画素の飽和信号値は、製造ばらつきによって一定の値にならない。そのため、輝度飽和マップ２０２を生成する際、撮像素子１０２ｂにおける輝度飽和の設計値に対して、１以下の係数（０．９など。値は、製造ばらつきの大きさによって決めればよい）をかけた値を撮像画像２０１の全画素における輝度飽和値としてもよい。

　ステップＳ２０３において、演算部１０３ｃは、撮像画像２０１の輝度飽和領域の位置に関する情報に基づいて、第１のマップ２０３の誤推定領域２２０を修正した第２のマップ２０５を生成する。本実施例では、図１に示した方法で、第１のマップ２０３の修正を行うが、これに限定されるものではない。輝度飽和マップ２０２（第４のマップ）にＭＡＸフィルタ（最大値フィルタ）２１３を畳み込み、輝度飽和領域を含む輝度飽和領域の周辺領域と、該周辺領域以外の領域と、を区別するためのマップである第３のマップ２０４を生成する。第３のマップ２０４は、撮像画像２０１の各飽和画素から所定の範囲にある領域と、それ以外の領域を表す。所定の範囲の大きさは、本実施例において、ＭＡＸフィルタ２１３のフィルタサイズで決まる。ＭＡＸフィルタ２１３のフィルタサイズは、撮像画像２０１に発生するぼけの拡がりから決めるとよい。また、畳み込むフィルタは、ＭＡＸフィルタ２１３以外でもよく、例えば全要素が１のフィルタを畳み込み、ゼロか非ゼロで二値化することで第３のマップ２０４を生成してもよい。第３のマップ２０４は、撮像画像２０１において、輝度飽和領域を含む輝度飽和領域の周辺領域と、それ以外の領域と、を区別するマップであり、本実施例では輝度飽和領域を含む周辺領域で１、それ以外の領域で０の値を有する。第１のマップ２０３と第３のマップ２０４との要素毎の積演算２１４を用いて、第２のマップ２０５を生成する。第３のマップ２０４との積演算２１４によって、輝度飽和領域を含む輝度飽和領域の周辺領域以外に存在する誤推定領域２２０を抑制することができる。本実施例に示した第１のマップ２０３の修正方法は、畳み込みと積演算で構成されるため、ＧＰＵなどの並列計算手段で容易に実行が可能である。そのため、第１及び第２の機械学習モデル２１１、２１２の推定を並列計算手段で実行する場合、ステップＳ２０２乃至Ｓ２０４を同一の並列計算手段で連続的に実行することができ、高速な処理が可能である。なお、第３のマップ２０４は、ステップＳ２０３より前に生成しておいてもよい。

　また、第１のマップ２０３または第２のマップ２０５に、閾値処理を実行してもよい。例えば、第１のマップ２０３または第２のマップ２０５の広域に渡って、非常に弱い誤推定の成分が存在するような場合に対して、閾値処理は有効である。さらに、第１のマップ２０３または第２のマップ２０５が、閾値を境界として値が不連続にならないように、閾値処理はソフトスレッショルディング処理であることが望ましい。ソフトスレッショルディング処理の後、第１のマップ２０３または第２のマップ２０５の最大値が変化しないよう、係数をかけて第１のマップ２０３または第２のマップ２０５をスケールし直すとよい。なお、図１では簡単のため、撮像画像２０１が単一の色成分の場合を描画したが、撮像画像２０１が複数の色成分を有する場合、各色成分に対してステップＳ２０３を実行する。

　ステップＳ２０４において、演算部１０３ｃは、第２の機械学習モデル２１２を用いて、撮像画像２０１と第２のマップ２０５から、撮像画像２０１のぼけが先鋭化された画像であるモデル出力２０６を生成する。誤推定領域２２０が抑制された第２のマップ２０５を用いることで、第２の機械学習モデル２１２は高精度に非飽和ぼけ像と飽和ぼけ像を判別できる。このため、第２の機械学習モデル２１２はアーティファクトの発生を抑えて、ぼけの先鋭化を行うことができる。なお、ぼけの先鋭化には機械学習以外の方法（ＷｉｅｎｅｒフィルタやＲｉｃｈａｒｄｓｏｎ－Ｌｕｃｙ法など）を用いてもよい。第２のマップ２０５によって、非飽和ぼけ像と飽和ぼけ像の領域を高精度に判別できるため、それぞれに適した手法で先鋭化するとよい。例えば、非飽和ぼけ像の領域はＷｉｅｎｅｒフィルタで先鋭化し、飽和ぼけ像の領域のみ第２の機械学習モデル２１２で先鋭化して、両者の結果を合成する、などしてもよい。

　ステップＳ２０５において、演算部１０３ｃは、第２のマップ２０５に基づいて、撮像画像２０１と撮像画像２０１に対応する画像であるモデル出力２０６を合成する。撮像画像２０１の輝度飽和領域を含むその周辺領域は、それ以外の領域に対して、輝度飽和による被写体の情報の減衰があるため、ぼけの先鋭化（減衰した被写体情報の推定）の難度が高い。そのため、輝度飽和領域を含むその周辺領域では、ぼけの先鋭化に伴う弊害（リンギングやアンダーシュートなど）が発生しやすい。この弊害を抑制するために、モデル出力２０６と撮像画像２０１を合成する。この際、第２のマップ２０５に基づいて合成することにより、非飽和ぼけ像のぼけ先鋭化効果の低下を抑制しつつ、弊害が出やすい輝度飽和領域を含むその周辺領域のみ撮像画像２０１の重みを強くすることができる。本実施例では、以下の方法で合成を行う。第２のマップ２０５を第２の信号値で規格化し、これを撮像画像２０１の重みマップとして、モデル出力２０６と加重平均する。この際、モデル出力２０６に対しては、全て１のマップから撮像画像２０１の重みマップを減算した重みマップを使用する。第２のマップ２０５を規格化する信号値を変化させることで、ぼけ先鋭化効果と弊害のバランスを調整することも可能である。また他に、第２のマップ２０５が既定の信号値以上の値を有する領域のみ、モデル出力２０６を撮像画像２０１に置換する合成方法などを用いてもよい。

　以上の構成により、機械学習モデルを用いたぼけ先鋭化において、輝度飽和による精度低下を抑制することが可能な画像処理システムを提供することができる。

　次に、本実施例の効果を得るために望ましい条件に関して説明する。ステップＳ１０７において、第２の機械学習モデル２１２には、第１の正解マップ２５４を入力することが望ましい。第１の正解マップ２５４の代わりに、生成された第１のマップ２５３を入力して第２の機械学習モデル２１２を訓練した場合、モデル出力２５５にアーティファクトが発生する可能性がある。この原理に関して、図９（Ａ）及び（Ｂ）を用いて説明する。第２の機械学習モデル２１２は、領域２６１におけるぼけ画像２５１から、領域２６１における正解モデル出力２５６を推定しなければならない。ぼけ画像２５１は左側と右側で同様の信号分布を有しているが、正解モデル出力２５６の信号分布は左側と右側で大きく異なっている。第２の機械学習モデル２１２に、第１の正解マップ２５４を入力する場合、第１の正解マップ２５４の値の違いと正解モデル出力２５６が対応している。そのため、第２の機械学習モデル２１２は、第１の正解マップ２５４の値に基づいて、ぼけ画像２５１に実行する先鋭化を変更することで、正解モデル出力２５６に近いモデル出力２５５を推定することができる。これに対し、図９（Ｂ）の第１のマップ２５３の値は、正解モデル出力２５６の違いに対応していない。そのため、第１の正解マップ２５４の代わりに第１のマップ２５３を第２の機械学習モデル２１２に入力すると、第２の機械学習モデル２１２はぼけ画像２５１中の非飽和ぼけ像と飽和ぼけ像を判定できない場合があり、アーティファクトが発生する。
（実施例２）
　実施例２における画像処理システムに関して説明する。本実施例では、第２のマップを生成した後に実行するタスクを、輝度飽和を含む撮像画像に対するぼけ味の変換とする。ぼけ味の変換とは、撮像画像に作用しているデフォーカスによるぼけを、該ぼけとは異なる形状のぼけに変換するタスクである。例えば、デフォーカスぼけに二線ぼけやヴィネッティングが発生している際に、これを円形のディスク（強度がフラットな形状）やガウシアンで表されるぼけに変換する。ぼけ味の変換では、デフォーカスのぼけをより大きくし、ぼけの先鋭化（減衰した被写体情報の推定）は行わない。本実施例に記載の方法は、ぼけ味の変換以外のタスクに関しても、同様に効果を得ることが可能である。

　図１１は、本実施例における画像処理システム３００のブロック図である。図１２は、画像処理システム３００の外観図である。画像処理システム３００は、訓練装置３０１、撮像装置３０２、画像処理装置３０３を有する。訓練装置３０１は、記憶部３１１、取得部３１２、演算部３１３、および更新部３１４を有する。画像処理装置３０３は、記憶部３３１、通信部３３２、取得部３３３、および演算部３３４を有する。撮像装置３０２は、光学系３２１、撮像素子３２２、記憶部３２３、通信部３２４、および表示部３２５を有する。訓練装置３０１と画像処理装置３０３、画像処理装置３０３と撮像装置３０２はそれぞれ、有線または無線のネットワークで接続される。撮像装置３０２で撮像された撮像画像は、光学系３２１に応じた形状のデフォーカスぼけが作用している。撮像画像は、通信部３２４を介して画像処理装置３０３へ送信される。画像処理装置３０３は、通信部３３２を介して撮像画像を受信し、記憶部３３１に記憶された第１及び第２の機械学習モデルの構成とウエイトの情報を用いて、ぼけ味の変換を行う。第１及び第２の機械学習モデルの構成とウエイトの情報は、訓練装置３０１によって訓練されたものであり、予め訓練装置３０１から取得され、記憶部３３１に記憶されている。撮像画像のぼけ味が変換されたぼけ味変換画像（モデル出力）は、撮像装置３０２に送信され、記憶部３２３に記憶され、表示部３２５に表示される。

　次に、訓練装置３０１で実行される第１及び第２の機械学習モデルの訓練に関して、図７のフローチャートを用いて説明するが、実施例１と同様の箇所は省略する。図７の各ステップは、訓練装置３０１の記憶部３１１、取得部３１２、演算部３１３、または更新部３１４により実行される。

　ステップＳ１０１において、取得部３１２は、記憶部３１１から１枚以上の原画像を取得する。

　ステップＳ１０２において、演算部３１３は、原画像に対してデフォーカス量を設定し、デフォーカス量に対応したデフォーカスぼけを原画像に付与したぼけ画像を生成する。デフォーカスぼけは、光学系３２１の変倍と絞りによって、形状が変化する。また、デフォーカスぼけは、光学系３２１のフォーカス距離と、そのときの被写体のデフォーカス量とによっても変化する。さらに、像高とアジムスによっても、デフォーカスぼけは変化する。これらのデフォーカスぼけ全てを変換可能な第２の機械学習モデルを一括で訓練したい場合、光学系３２１で発生する複数のデフォーカスぼけを用いて、複数のぼけ画像を生成するとよい。また、ぼけ味の変換において、デフォーカスしていないフォーカス被写体は、変換の前後で不変となることが望ましい。故に、フォーカス被写体は変化させないように第２の機械学習モデルを訓練する必要がある。このため、デフォーカス量が０の場合のぼけ画像も生成する。デフォーカス量が０のぼけ画像は、ぼけの付与がなくてもよいし、光学系３２１のフォーカス面における収差や回折によるぼけを付与してもよい。

　ステップＳ１０３において、演算部３１３は、ぼけ画像と信号値の閾値に基づいて、第１の領域を設定する。

　ステップＳ１０４において、演算部３１３は、第１の領域に原画像の信号値を有する第１の画像を生成する。

　ステップＳ１０５において、演算部３１３は、第１の画像にぼけ画像と同じデフォーカスぼけを付与し、第１の正解マップを生成する。

　ステップＳ１０６において、取得部３１２は、正解モデル出力を取得する。本実施例では、デフォーカスぼけがディスクぼけ（円形でフラットな強度分布を有するぼけ）に変換されるように第２の機械学習モデルを訓練する。そのため、原画像に対してディスクぼけを付与して、正解モデル出力を生成する。ただし、付与するぼけの形状はこれに限定されるものではない。ぼけ画像のデフォーカス量に対応した広がりを有するディスクぼけを付与する。付与するディスクぼけは、ぼけ画像の生成で付与したデフォーカスぼけより、ぼけが大きい。言い換えると、ディスクぼけはぼけ画像の生成で付与したデフォーカスぼけより、ＭＴＦ（変調伝達関数）が低い。また、デフォーカス量が０の場合は、ぼけ画像の生成と同様である。

　ステップＳ１０７において、演算部３１３は、第１の機械学習モデルを用いて、ぼけ画像から第１のマップを生成し、第２の機械学習モデルを用いて、ぼけ画像と第１の正解マップとからモデル出力を生成する。

　ステップＳ１０８において、更新部３１４は、損失関数から第１及び第２の機械学習モデルのウエイトを更新する。

　ステップＳ１０９において、更新部３１４は、第１及び第２の機械学習モデルの訓練が完了したかを判定する。訓練済みの第１及び第２の機械学習モデルの構成およびウエイトの情報は、記憶部３１１に記憶される。

　次に、画像処理装置３０３で実行される、訓練済みの第１及び第２の機械学習モデルを用いた撮像画像のぼけ味の変換に関して、図１０のフローチャートを用いて説明するが、実施例１と同様の箇所は省略する。図１０の各ステップは、画像処理装置３０３の記憶部３３１、通信部３３２、取得部３３３、または演算部３３４により実行される。

　ステップＳ２０１において、取得部３３３は、撮像画像、第１の機械学習モデル、及び第２の機械学習モデルを取得する。

　ステップＳ２０２において、演算部３３４は、第１の機械学習モデルを用いて、撮像画像から、第１のマップを生成する。

　ステップＳ２０３において、演算部３３４は、撮像画像の輝度飽和領域の位置の情報に基づいて、第１のマップを修正した第２のマップを生成する。本実施例では、第１のマップの所定の条件を満たす閉空間が、撮像画像の輝度飽和領域の位置を含むか否かに基づいて、第１のマップを修正することで、第２のマップを生成する。これに関して、図１３（Ａ）及び（Ｂ）を用いて詳細に説明する。図１３（Ａ）は、第１のマップを二値化したマップを表している。二値化は非飽和ぼけ像を表す値で実行され、斜線領域が非飽和ぼけ像を表し、白い領域が輝度飽和の影響を受けた飽和ぼけ像、或いは誤推定の領域を表す。例えば、第１のマップにおいて０が非飽和ぼけ像を示す場合、０の領域が斜線領域になり、非ゼロの領域が白い領域になる。図１３（Ｂ）は、撮像画像に対応する輝度飽和マップを表す。白い領域が撮像画像の飽和領域を表し、斜線領域は非飽和領域を表す。図１３（Ａ）には、第１のマップにおいて所定の条件（非飽和ぼけ像ではないと推定されたこと）を満たす閉空間４０１と閉空間４０２が存在する。もし閉空間の中に撮像画像の飽和領域が含まれていない場合、その閉空間は誤推定領域であると直ちに分かる。閉空間４０２内には撮像画像の飽和領域が含まれていないため、閉空間４０２を誤推定領域として第１のマップを修正し、第２のマップを生成する。

　ステップＳ２０４において、演算部３３４は、第２の機械学習モデルを用いて、撮像画像と第２のマップから、モデル出力を生成する。モデル出力は、撮像画像のデフォーカスぼけが異なる形状のぼけに変換されたぼけ味変換画像である。

　ステップＳ２０５において、演算部３３４は、第２のマップに基づいて、撮像画像とモデル出力を合成する。

　以上の構成により、機械学習モデルを用いたぼけ味の変換において、輝度飽和による精度低下を抑制することが可能な画像処理システムを提供することができる。
（実施例３）
　実施例３における画像処理システムに関して説明する。本実施例では、第２のマップを生成した後に実行するタスクを、撮像画像に対するデプスマップの推定とする。光学系はデフォーカス量によってぼけの形状が変化するため、ぼけの形状とデプス（デフォーカス量）を対応付けることができる。機械学習モデルは、入力された撮像画像の各領域におけるぼけの形状をモデル内で（陽に又は暗に）推定することで、被写体空間のデプスマップを生成することができる。なお、本実施例に記載の方法は、デプスマップの推定以外のタスクに関しても、同様に効果を得ることが可能である。

　図１４は、本実施例における画像処理システム５００のブロック図である。図１５は、画像処理システム５００の外観図である。画像処理システム５００は、有線または無線で接続された訓練装置５０１と撮像装置５０２を有する。訓練装置５０１は、記憶部５１１、取得部５１２、演算部５１３、および更新部５１４を有する。撮像装置５０２は、光学系５２１、撮像素子５２２、画像処理部５２３、記憶部５２４、通信部５２５、表示部５２６、およびシステムコントローラ５２７を有する。画像処理部５２３は、取得部５２３ａ、演算部５２３ｂ、およびぼかし部５２３ｃを備える。図１５において、撮像装置５０２は表面と裏面の両方が描画されている。撮像装置５０２は、光学系５２１を介して被写体空間の像を形成し、該像を撮像素子５２２で撮像画像として取得する。撮像画像には、光学系５２１の収差とデフォーカスによるぼけが発生している。画像処理部５２３は、第１及び第２の機械学習モデルを用いて、撮像画像から被写体空間のデプスマップを生成する。第１及び第２の機械学習モデルは訓練装置５０１によって訓練されたものであり、その構成とウエイトの情報は、通信部５２５を介して予め訓練装置５０１から取得され、記憶部５２４に記憶されている。撮像画像と推定されたデプスマップは、記憶部５２４に記憶され、必要に応じて表示部５２６に表示される。デプスマップは、撮像画像のぼけ味の付与や被写体の切り出しなどに用いられる。一連の制御は、システムコントローラ５２７によって行われる。

　次に、訓練装置５０１によって実行される第１及び第２の機械学習モデルの訓練に関して、図７のフローチャートを用いて説明するが、実施例１と同様の箇所は省略する。図７の各ステップは、訓練装置５０１の記憶部５１１、取得部５１２、演算部５１３、または更新部５１４により実行される。

　ステップＳ１０１において、取得部５１２は、１枚以上の原画像を取得する。

　ステップＳ１０２において、演算部５１３は、原画像にぼけを付与し、ぼけ画像を生成する。演算部５１３は、原画像に対応するデプスマップ（デフォーカスマップでもよい）と光学系５２１のフォーカス距離を設定し、光学系５２１のフォーカス距離とそこからのデフォーカス量に対応したぼけを付与する。絞り値を固定した場合、デフォーカス量の絶対値が大きいほど、デフォーカスによるぼけは大きくなる。さらに、球面収差の影響によって、フォーカス面の前後でぼけの形状は変化する。球面収差が負方向に出ている場合、被写体空間においてフォーカス面より光学系５２１から離れる方向（物体側）では二線ぼけになり、近づく方向（像側）では中心にピークを有する形状のぼけになる。球面収差が正の場合は、逆の関係になる。また、光軸上以外では非点収差などの影響によって、デフォーカス量に応じてさらにぼけの形状が変化する。

　ステップＳ１０３において、演算部５１３は、ぼけ画像と信号の閾値に基づいて、第１の領域を設定する。

　ステップＳ１０４において、演算部５１３は、第１の領域に原画像の信号値を有する第１の画像を生成する。

　ステップＳ１０５において、演算部５１３は、第１の画像にぼけを付与し、第１の正解マップを生成する。なお、本実施例では、第１の正解マップを第２の信号値でクリップしない。これによって、第１の機械学習モデルは、第１のマップの生成の際に、輝度飽和領域のクリップされる前の輝度も推定するように訓練される。

　ステップＳ１０６において、取得部５１２は、正解モデル出力を取得する。正解モデル出力は、ステップＳ１０２で設定したデプスマップである。

　ステップＳ１０７において、演算部５１３は、第１の機械学習モデルを用いて、ぼけ画像から第１のマップを生成し、第２の機械学習モデルを用いて、ぼけ画像と第１の正解マップとからモデル出力を生成する。

　ステップＳ１０８において、更新部５１４は、損失関数を用いて、第１及び第２の機械学習モデルのウエイトを更新する。

　ステップＳ１０９において、更新部５１４は、第１及び第２の機械学習モデルの訓練が完了したか判定する。

　次に、画像処理部５２３で実行される、第１及び第２の機械学習モデルを用いた撮像画像のデプスマップの推定と、撮像画像に対するぼけ味の付与とに関して、図１６のフローチャートを用いて説明するが、実施例１と同様の箇所は省略する。図１６は、第１及び第２の機械学習モデルの推定のフローチャートである。図１６の各ステップは、画像処理部５２３の取得部５２３ａ、演算部５２３ｂ、またはぼかし部５２３ｃにより実行される。

　ステップＳ４０１において、取得部５２３ａは、撮像画像、第１の機械学習モデル、及び第２の機械学習モデルを取得する。記憶部５２４から、第１及び第２の機械学習モデルの構成とウエイトの情報を取得する。

　ステップＳ４０２において、演算部５２３ｂは、第１の機械学習モデルを用いて、撮像画像から第１のマップを生成する。

　ステップＳ４０３において、演算部５２３ｂは、撮像画像の輝度飽和領域の位置に関する情報に基づいて、第１のマップを修正した第２のマップを生成する。実施例１と同様の方法で修正を行う。

　ステップＳ４０４において、演算部５２３ｂは、第２の機械学習モデルを用いて、撮像画像と第２のマップから、モデル出力を生成する。モデル出力は、撮像画像に対応するデプスマップである。

　ステップＳ４０５において、ぼかし部５２３ｃは、モデル出力と第２のマップに基づいて、撮像画像にぼけを付与し、ぼけ味が付与された（被写界深度が浅くなった）画像を生成する。モデル出力であるデプスマップから、撮像画像の各領域に対して、デフォーカス量に応じたぼけを設定する。フォーカス領域にはぼけを付与せず、デフォーカス量が大きい領域ほど大きなぼけを付与する。また、第２のマップには、撮像画像の輝度飽和領域のクリップ前の輝度が推定されている。撮像画像の輝度飽和領域の信号値をこの輝度に置換してから、ぼけの付与を行う。これによって、木漏れ日や水面などの反射光、また夜景のライトなどがぼけの付与によって暗くならず、自然なぼけ味の画像を生成することができる。

　以上の構成により、機械学習モデルを用いたデプスマップの推定において、輝度飽和による精度低下を抑制することが可能な画像処理システムを提供することができる。
（その他の実施例）
　本発明は、上述の実施例の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

　各実施例によれば、ぼけの発生した撮像画像に対する、機械学習モデルを用いた認識または回帰のタスクにおいて、輝度飽和による精度低下を抑制することが可能な画像処理方法、画像処理装置、および画像処理プログラムを提供することができる。

　以上、本発明の好ましい実施形態について説明したが、本発明はこれらの実施形態に限定されたものではなく、その要旨の範囲内で様々な変形、及び変更が可能である。

　例えば、各実施例の撮像装置（第１の装置）と、クラウド上の装置（第２の装置）とが互いに通信可能に構成されており、第１の装置からの要求に基づいて第２の装置が図１０または図１６の処理を実行する画像処理システムであってもよい。この場合、第１の装置は、撮像画像および処理の実行に関する要求を第２の装置へ送信する送信手段を有する。第２の装置は、第１の装置から撮像画像および要求を受信する受信手段、および、受信した要求に応じて、第１の機械学習モデルを用いて撮像画像に基づき第１のマップを生成する生成手段を有する。そして、生成手段は、撮像画像の輝度飽和領域の位置に関する情報に基づいて、第１のマップを修正することで第２のマップを生成する。さらに、生成手段は、第２の機械学習モデルを用いて、撮像画像と第２のマップとに基づき、モデル出力を生成する。

Claims

　撮像により得られた撮像画像を第１の機械学習モデルに入力することで生成された第１のマップを取得する工程と、
　前記撮像画像の輝度飽和領域の位置に関する情報に基づいて、前記第１のマップを修正することで第２のマップを生成する工程とを有し、
　前記第１のマップは、前記輝度飽和領域における被写体が前記撮像において発生したぼけによって広がった領域と、該領域における信号値とを表す情報であることを特徴とする画像処理方法。
　前記撮像画像と前記第２のマップとを第２の機械学習モデルに入力することでモデル出力を生成する工程を更に有し、
　前記モデル出力は、前記撮像画像に対応する認識ラベルまたは空間的に配列された信号列であることを特徴とする請求項１に記載の画像処理方法。
　前記情報は、前記撮像画像において、前記輝度飽和領域を含む前記輝度飽和領域の周辺領域と、該周辺領域以外の領域と、を区別する第３のマップであることを特徴とする請求項１または２に記載の画像処理方法。
　前記第２のマップを生成する工程において、前記第１のマップと前記第３のマップとに基づく積演算を用いて前記第２のマップを生成することを特徴とする請求項３に記載の画像処理方法。
　前記第３のマップは、前記撮像画像の前記輝度飽和領域を表す第４のマップとフィルタとの畳み込み演算に基づいて生成されることを特徴とする請求項３または４に記載の画像処理方法。
　前記フィルタは、ＭＡＸフィルタであることを特徴とする請求項５に記載の画像処理方法。
　前記フィルタは、全要素が１のフィルタであることを特徴とする請求項５に記載の画像処理方法。
　前記第１のマップを生成する工程を有し、
　前記第１のマップを生成する工程、前記第２のマップを生成する工程、および前記モデル出力を生成する工程は、同一の並列計算可能な処理手段で実行されることを特徴とする請求項２に記載の画像処理方法。
　前記モデル出力は、前記撮像画像に対応する画像であり、
　前記第２のマップに基づいて、前記撮像画像と前記モデル出力を合成した画像を生成する第５の工程を更に有することを特徴とする請求項２または８に記載の画像処理方法。
　前記モデル出力は、前記ぼけを先鋭化することで得られた画像、前記ぼけを異なる形状のぼけに変換することで得られた画像、または、前記撮像画像に対応する被写体空間のデプスマップを含むことを特徴とする請求項２、８、９のいずれか一項に記載の画像処理方法。
　前記撮像画像は複数の色成分を有し、前記第２のマップを生成する工程は前記色成分ごとに実行されることを特徴とする請求項１乃至１０のいずれか一項に記載の画像処理方法。
　前記第２のマップを生成する工程において、前記第１のマップの所定の条件を満たす閉空間が前記輝度飽和領域の位置を含むか否かに基づいて、前記第２のマップを生成することを特徴とする請求項１乃至１１のいずれか一項に記載の画像処理方法。
　請求項１乃至１２のいずれか一項に記載の画像処理方法をコンピュータに実行させることを特徴とするプログラム。
　撮像により得られた撮像画像を取得する取得手段と、
　第１の機械学習モデルを用いて、前記撮像画像に基づき、第１のマップを生成し、
　前記撮像画像の輝度飽和領域の位置に関する情報に基づいて、前記第１のマップを修正することで第２のマップを生成する生成手段を有し、
　前記第１のマップは、前記輝度飽和領域における被写体が前記撮像において発生したぼけによって広がった領域と、該領域における信号値とを表す情報であることを特徴とする画像処理装置。
　前記生成手段は、第２の機械学習モデルを用いて、前記撮像画像と前記第２のマップとに基づき、モデル出力を生成し、
　前記モデル出力は、前記撮像画像に対応する認識ラベルまたは空間的に配列された信号列であることを特徴とする請求項１４に記載の画像処理装置。
　請求項１４または１５に記載の画像処理装置と、該画像処理装置と通信可能な制御装置とを有する画像処理システムであって、
　前記制御装置は、撮像により得られた撮像画像および処理の実行に関する要求を前記画像処理装置へ送信する手段を有し、
　前記画像処理装置は、前記要求に応じて前記撮像画像に対する処理を実行する手段を有することを特徴とする画像処理システム。