JP7346528B2 - Image processing device, image processing method and program - Google Patents
Image processing device, image processing method and program Download PDFInfo
- Publication number
- JP7346528B2 JP7346528B2 JP2021192448A JP2021192448A JP7346528B2 JP 7346528 B2 JP7346528 B2 JP 7346528B2 JP 2021192448 A JP2021192448 A JP 2021192448A JP 2021192448 A JP2021192448 A JP 2021192448A JP 7346528 B2 JP7346528 B2 JP 7346528B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- feature amount
- feature
- trained model
- person
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 113
- 238000003672 processing method Methods 0.000 title claims description 6
- 238000000034 method Methods 0.000 claims description 110
- 230000006870 function Effects 0.000 claims description 12
- 238000012795 verification Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 5
- 238000005286 illumination Methods 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 description 115
- 230000001815 facial effect Effects 0.000 description 35
- 239000013598 vector Substances 0.000 description 30
- 238000010586 diagram Methods 0.000 description 22
- 230000009466 transformation Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 239000002131 composite material Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Landscapes
- Collating Specific Patterns (AREA)
- Image Analysis (AREA)
Description
本発明は、画像を用いた顔認証技術に関するものである。 The present invention relates to face recognition technology using images.
画像中の人物の顔が、他の画像中の人物と同一人物であるか否かを判定する顔認証技術がある。顔認証では、一般に撮影時の物体の見えの角度、照明、マスクおよび眼鏡といった装着物の有無、などの対象の状態や撮影環境の条件が異なると照合が困難である。そこで、特許文献1では、画像から人物の特徴を抽出する際に、マスクや眼鏡の装着を判定し、その結果に応じて特徴量を抽出する画像領域を動的に変更する。
There is a face recognition technology that determines whether the face of a person in an image is the same as a person in another image. In face recognition, matching is generally difficult when the conditions of the photographing environment and the state of the object differ, such as the viewing angle of the object at the time of photographing, lighting, presence or absence of items worn such as masks and glasses, etc. Therefore, in
しかしながら、特許文献1では、人物の登録時に装着物等の状態に応じて複数パターンの特徴を保存する必要があった。
However, in
本発明は上記課題に鑑みてなされたものであり、異なる状態である物体同士を照合する場合において登録すべき情報より少なくすることを目的とする。 The present invention has been made in view of the above problems, and an object of the present invention is to reduce the amount of information that should be registered when comparing objects in different states.
上記課題を解決する本発明にかかる画像処理装置は、第一の画像内の所定の条件に合致する第一の物体の第一の特徴量であって、第一の学習済みモデルを用いて得られる第一の特徴量を取得する第一の取得手段と、第二の画像内の前記所定の条件に合致しない第二の物体の第二の特徴量であって、第二の学習済みモデルを用いて得られる第二の特徴量を取得する第二の取得手段と、前記第一の特徴量と前記第二の特徴量に基づいて、前記第一の画像内の前記第一の物体と前記第二の画像内の前記第二の物体が同一の物体であるか否かを判定する照合手段と、を有し、前記第一および第二の学習済みモデルは、前記第一の物体と前記第二の物体が同一の物体である場合、前記所定の条件に合致する前記第一の物体の特徴量として前記第一の学習済みモデルを用いて得られる前記第一の特徴量と、前記所定の条件に合致しない前記第二の物体の特徴量として前記第二の学習済みモデルを用いて得られる前記第二の特徴量とが類似した特徴量になるように学習されることを特徴とする。 An image processing device according to the present invention that solves the above problems is characterized in that a first feature of a first object that meets a predetermined condition in a first image is obtained using a first trained model. and a second feature of a second object that does not meet the predetermined condition in the second image, the second acquired model being a second learned model. and a second acquisition means for acquiring a second feature amount obtained using the first object and the first object in the first image based on the first feature amount and the second feature amount. and a matching means for determining whether or not the second object in the second image is the same object , and the first and second trained models are connected to the first object and the second object. When the second objects are the same object, the first feature obtained using the first trained model as the feature of the first object that meets the predetermined condition, and the predetermined The feature quantity of the second object that does not meet the condition is trained so that the second feature quantity obtained using the second trained model becomes a similar feature quantity. .
本発明によれば、異なる状態である物体同士を照合する場合において登録すべき情報をより少なくすることが出来る。 According to the present invention, it is possible to further reduce the amount of information to be registered when comparing objects in different states.
<実施形態1>
本発明の実施形態に係る画像処理装置を、図面を参照しながら説明する。なお、図面間で符号の同じものは同じ動作をするとして重ねての説明を省く。また、この実施の形態に掲載されている構成要素はあくまで例示であり、この発明の範囲をそれらのみに限定する趣旨のものではない。
<
An image processing device according to an embodiment of the present invention will be described with reference to the drawings. Components with the same reference numerals in the drawings operate in the same way, and redundant explanation will be omitted. Furthermore, the components described in this embodiment are merely examples, and the scope of the present invention is not intended to be limited thereto.
従来の顔認証技術では、大きく2つの問題がある。ひとつは、(1)人物の登録時に装着物等の状態に応じて複数パターンの特徴を保存する必要がある。あるいは(2)人物のマスク等の状態を判定した後に登録画像の特徴量変換を行う必要がある。このため、照合の対象となる登録人物が多数の場合、(1)の方法では多くの記憶領域が必要になり、(2)の方法では照合速度に劣る問題がある。本実施形態に係る画像処理装置は、画像中の物体の撮影時の状態に応じ異なる特徴量変換手段で特徴量に変換してから照合を行う。これにより状態に応じて特徴量変換手段を変更しない従来の方法に比べて、照合の精度に優れる。また本発明によれば、異なる変換手段を用いつつ、同一物体であれば出力される特徴量が互いに類似するように学習の調整を行う。このため変換の方法が相異なっても区別することなく照合処理に用いることができる。このため登録画像パターンの特徴量を抽出する従来の方法に比べ、特徴量の記憶に必要なメモリ量が少なく済む。あるいは照合処理の計算コストや速度に優れる。 Conventional facial recognition technology has two major problems. The first is (1) when registering a person, it is necessary to store multiple patterns of characteristics depending on the state of things worn, etc. Or (2) it is necessary to perform feature amount conversion of the registered image after determining the state of the person's mask or the like. Therefore, when there are a large number of registered persons to be verified, method (1) requires a large storage area, and method (2) has the problem of poor verification speed. The image processing apparatus according to the present embodiment converts the object into a feature amount using different feature amount converting means depending on the state of the object in the image at the time of photographing, and then performs matching. This results in superior matching accuracy compared to conventional methods that do not change the feature value conversion means depending on the state. Further, according to the present invention, learning is adjusted so that the output feature amounts are similar to each other for the same object, while using different conversion means. Therefore, even if the conversion methods are different, they can be used for matching processing without distinction. Therefore, compared to the conventional method of extracting feature amounts of registered image patterns, the amount of memory required to store feature amounts is smaller. Alternatively, it is superior in calculation cost and speed of matching processing.
図1は、画像処理装置の機能構成例を示す図である。画像処理装置1は、第一の画像取得部101、第二の画像取得部102、物体パラメータ決定103、記憶部104、第一の特徴量変換部105、第二の特徴量変換部106、特徴量照合部107、を有する。詳細は後述する。
FIG. 1 is a diagram showing an example of the functional configuration of an image processing apparatus. The
図2は、本実施形態における、画像処理装置1のハードウェア構成図である。CPU H101は、ROM H102に格納されている制御プログラムを実行することにより、本装置全体の制御を行う。RAM H103は、各構成要素からの各種データを一時記憶する。また、プログラムを展開し、CPU H101が実行可能な状態にする。記憶部H104は、本実施形態の画像変換を行うための変換パラメータを格納するものである。記憶部H104の媒体としては、HDD,フラッシュメモリ、各種光学メディアなどを用いることができる。取得部H105は、キーボード・タッチパネル、ダイヤル等で構成され、ユーザからの入力を受け付けるものであり、被写体の画像を再構成する際の任意視点の設定等に用いる。表示部H106は、液晶ディスプレイ等で構成され、被写体の画像の再構成結果を表示する。また、本装置は通信部H107を介して、撮影装置やその他の装置と通信することができる。
FIG. 2 is a hardware configuration diagram of the
<画像照合処理フェーズ>
図3は、本実施形態の照合処理の模式図であり、本発明の方法と従来の方法との差異を示している。図3(A)は従来の方法であり、認証処理の対象となる人物を含む入力画像と登録人物を含む登録画像とに対して同一のパラメータで特徴量の変換を行う。この時マスクやサングラスの装着の有無といった大きな見えの変化があると、精度の劣化が生じ易い。一方であらゆる見えの変化に対応させようとすると、特徴量変換部の構成規模が大きくなる課題がある。図3(B)は本発明の模式図例である。同図では入力画像が入力されると、物体パラメータ決定103がマスク装着の有無といった被写体の状態を判定する。その判定結果に応じて特徴量変換部106が記憶部104から適切な変換パラメータを読み出して特徴量変換を行う。ここで、変換パラメータは、人物の状態や撮影環境に応じて、複数種類学習されている。変換パラメータは被写体の状態に特化して個別に学習がなされているため、マスクやサングラスの装着の有無といった大きな見えの変化に対しても頑健な照合が実現できる。
<Image matching processing phase>
FIG. 3 is a schematic diagram of the matching process of this embodiment, and shows the difference between the method of the present invention and the conventional method. FIG. 3A shows a conventional method in which feature amounts are converted using the same parameters for an input image including a person to be subjected to authentication processing and a registered image including a registered person. At this time, if there is a large change in appearance, such as whether or not a mask or sunglasses are worn, accuracy is likely to deteriorate. On the other hand, there is a problem in that the size of the structure of the feature quantity converting section becomes large when trying to cope with all kinds of changes in appearance. FIG. 3(B) is a schematic diagram of the present invention. In the figure, when an input image is input, an
なお本実施形態の方法では、上記特徴量は、いずれの変換パラメータで変換されたものであっても、同一物体であれば互いに類似度が高くなるように学習を行う(学習方法については後述する)。このため、特徴量の照合部107は特徴量間の内積や角度といった基本的な方法に拠って類似度を算出すればよく、特別な処理を必要としない。このように物体の状態に関わらず一種類の類似度を統一的な照合の尺度とすることができる。例えば、特許文献1の方法では、特徴抽出方法の数と同じ数だけ登録人物の特徴量を記憶しなければならないのに対して、本実施形態の方法では、登録人物に対しては1つの変換パラメータを適用するので、登録すべき特徴量を絞ることができる。
In addition, in the method of this embodiment, the above-mentioned feature quantities are trained so that they have a high degree of similarity to each other if they are the same object, regardless of which transformation parameter they are transformed with (the learning method will be described later). ). Therefore, the feature
次に図4を用いて照合の処理の手順を説明する。本実施形態では2枚の人物画像が与えられたときに、同一人物が写っているか、異なる人物かを画像特徴量に基づいて判定することを目的とする。図4のフローチャートに示した処理は、コンピュータである図2のCPU101により記憶装置104に格納されているコンピュータプログラムに従って実行される。以下の説明では、各工程(ステップ)について先頭にSを付けて表記することで、工程(ステップ)の表記を省略する。
Next, the procedure of the verification process will be explained using FIG. 4. The purpose of this embodiment is to determine, when two person images are given, whether the same person or different people are shown based on image feature amounts. The processing shown in the flowchart of FIG. 4 is executed by the
まずS101では、第一の画像取得部101が、認証対象の物体(ここでは人物)を含む一枚目の画像(第一の画像)を取得する。S102では、判定部103が、第一の画像が所定の条件を満たすか判定する。所定の条件を満たす場合は、物体の状態や撮影環境が通常の状態(学習された環境に近い状態)であって、それ以外の場合はマスクをしている場合や環境の照度が変わった場合等で通常の状態でないと判定する。ここでは、具体的には、1枚目の画像の人物がマスクを装着しているか否かを判定する。マスクの検出は、テンプレートマッチング等の手法を用いる。所定の条件(マスクをしていない)を満たしている場合はS103に進む。所定の条件を満たしていない場合(マスクをしている)はS104に進む。
First, in S101, the first
S103では、第一の特徴量変換部(第一の特徴取得部)105が、通常人物用の特徴量変換のパラメータ(第一のパラメータセット)を読み出して学習済みモデルにセットする。学習済みモデルは、画像から物体の特徴量を取得するためのニューラルネットワークである。第一のパラメータセットが適用された学習済みモデルを第一の学習済みモデルと呼ぶ。S104では、第一の特徴量変換部105が、マスク装着人物用の特徴量変換パラメータ(第二のパラメータセット)を読み出して学習済みモデルにセットする。第二のパラメータセットが適用された学習済みモデルを第二の学習済みモデルと呼ぶ。ここで特徴量変換部105は、例えば、非特許文献1で公知な畳み込みニューラルネットワークで構成されている。または、特徴量変換部105は、特許文献2で公知なTransformerネットワーク(トランスフォーマーネットワーク)と呼ばれるディープニューラルネットワーク(以降DNNと略す)で構成されている。つまり、特徴量変換部105は、画像に含まれる人物の特徴を取得するための学習済みモデルであって、画像に含まれる人物の状態に応じて学習されたパラメータセットを用いて特徴量を取得する。(非特許文献1:Deng, et. Al., ArcFace: Additive Angular Margin Loss for Deep Face Recognition. In CVPR, 2019)。(特許文献2:米国特許第10956819号)。ここで特徴量変換のパラメータはニューロンの層数やニューロンの数、結合重み等の各種パラメータである。次にS105では、第一の特徴量変換部105が、第一の学習済みモデルまたは第二の学習済みモデルに基づいて、第一の画像取得部101から受け取った第一の画像から特徴量を変換する。
In S103, the first feature value conversion unit (first feature acquisition unit) 105 reads out parameters for feature value conversion for a normal person (first parameter set) and sets them in the learned model. The trained model is a neural network for acquiring object features from images. The trained model to which the first parameter set is applied is called a first trained model. In S104, the first feature
次にS106からS110では、2枚目の画像(第二の画像)に対して前述のS101からS105までと同一の処理を行う。つまり、第二の画像に含まれる人物がマスクをしていない場合は、第一のパラメータセットが適用された学習済みモデルを第一の学習済みモデルから特徴量を取得する。第二の画像に含まれる人物がマスクをしている場合は、第二のパラメータセットが適用された第二の学習済みモデルから特徴量を取得する。ただし上記処理を第二の画像取得部102と第二の特徴量変換部(第二の特徴取得部)106が行う。これにより、1枚目の画像と2枚目の画像がそれぞれ特徴量に変換される。この特徴量をf1,f2と表す。f1とf2は非特許文献1と同様に1次元ベクトルとする。(DNNの全結合層の処理を経て、1次元ベクトルに変換されている。)また第一の特徴量変換部105と第二の特徴量変換部106が受け取るDNNのパラメータは同一の構成である必要はないが、最終層のニューロンの出力チャンネル数は同一とする。これによりf1とf2の次元の長さは同一に揃っているとする。
Next, in S106 to S110, the same processing as in S101 to S105 described above is performed on the second image (second image). That is, if the person included in the second image is not wearing a mask, the feature amount is acquired from the trained model to which the first parameter set is applied. If the person included in the second image is wearing a mask, the feature amount is acquired from the second trained model to which the second parameter set is applied. However, the above processing is performed by the second
次にS111では、特徴量照合部107が、2つの特徴量の類似度スコアを算出する。すなわち、第一の特徴量と第二の特徴量とに基づいて、第一の画像に含まれる物体と第二の画像に含まれる物体が同一か否かを判定する。第一の特徴量と第二の特徴量との類似度スコアが所定の閾値以上である場合は、2つの画像には同一の物体が含まれる。第一の特徴量と第二の特徴量との類似度スコアが所定の閾値より小さい場合は、2つの画像には異なる物体が含まれる。ここで特徴量間の類似度を図る指標は複数が公知であるが、ここでは非特許文献1の方法と同じく、特徴量ベクトル間の角度を用いる。下記のように類似度のスコアを計算する。
(数式1)
類似度スコア(f1,f2) := cos(θ12)
=<f1,f2>÷(|f1|・|f2|)
ただしθ12は特徴量ベクトルf1とf2のなす角度であり、<x,y>はxとyの内積、|x|はxの長さである。特徴量照合部107は上記の類似度スコアが所定の閾値以上であれば同一人物、そうでなければ他人、と判定する。以上で照合処理の動作が終了する。なお、第一の画像および第二の画像は、共通の画像取得部、特徴量変換部によって、特徴量を取得する構成でもよい。
Next, in S111, the
(Formula 1)
Similarity score (f 1 , f 2 ) := cos(θ 12 )
=<f 1 , f 2 >÷(|f 1 |・|f 2 |)
However, θ 12 is the angle formed by the feature vectors f 1 and f 2 , <x, y> is the inner product of x and y, and |x| is the length of x. The
<学習処理フェーズ>
本実施形態の学習フェーズについて説明する。ここでは非特許文献1で公知である<代表ベクトル手法>による学習を行う。代表ベクトル手法は、各人物を代表する特徴量ベクトルを設定し、これを併用することで学習効率を上げる顔認証の学習手法である。詳細は非特許文献1を参照されたい。なお、学習処理フェーズにおける画像処理装置2は、図14に示す。画像変換部200は、対象の基準となる画像(例えば、装着物がない状態の人物の顔画像)のセットである第一の画像群を、対象の所定の状態を示す画像(例えば、マスクを装着した人物の顔画像)のセットである第二の画像群に変換する。具体的には、マスク等の装着物を示す画像を顔画像に合成することや、ある一定の明るさになるよう画像を変換する。画像取得部201は、学習用に用いる画像群を取得する。ここでは、2種類以上のパラメータセットを学習するため、2種類以上の画像群を取得する。特徴量変換部202は、画像の状態に応じたパラメータセットと画像から特徴量を抽出する学習モデルとを用いて、画像のそれぞれから特徴量を取得する。学習部203は、パラメータセットと、画像から特徴量を抽出する学習モデルを学習する。なお、本実施形態では、第一の学習モデルと第二の学習モデルを交互に学習させる例を述べる。
<Learning processing phase>
The learning phase of this embodiment will be explained. Here, learning is performed using the <representative vector method> known in
本形態の処理フロー手順は図5(A)(B)からなる。ここで図5(A)に示した処理を<一回目の学習処理>、図5(B)に示した処理を<二回目の学習処理>、と呼ぶ。<一回目の学習処理>ではマスク非装着の人物の画像群(第一の画像群)を用いて通常の特徴量変換の学習を行う。<二回目の学習処理>ではマスクを装着した人物の画像群(第二の画像群)を用いてマスク人物に特化した学習を行う。なお、図14の実線部分は<一回目の学習処理>の処理で用いる構成であって、破線部分は<二回目の学習処理>の処理で用いる構成である。 The processing flow procedure of this embodiment consists of FIGS. 5(A) and 5(B). Here, the process shown in FIG. 5(A) will be referred to as <first learning process>, and the process shown in FIG. 5(B) will be referred to as <second learning process>. In the <first learning process>, normal feature amount conversion learning is performed using a group of images of a person not wearing a mask (first group of images). In the <second learning process>, learning specialized for masked persons is performed using a group of images of persons wearing masks (second image group). Note that the solid line part in FIG. 14 is the configuration used in the process of <first learning process>, and the broken line part is the configuration used in the process of <second learning process>.
<一回目の学習処理>の内容は基本的に非特許文献1の方法に準じる。図5(A)に画像処理装置が実行する学習フェーズでの処理を示す。まずS201では、特徴量変換部202が、第一の学習モデルのパラメータセットと代表ベクトルv1~vnを乱数で初期化する。ここで1~nは学習画像中に含まれる全人物のIDである。各代表ベクトルvはd次元ベクトルである(dは所定の値である)。
The contents of <first learning process> basically follow the method of
次にS202では、画像取得部201が、第一の画像群からランダムに選んだ画像I1~Imを取得する。第一の画像群は、基準となる画像群であって、マスクを装着していない複数の人物画像であり、一人の人物につき1枚以上の画像が含まれる。各画像には人物のIDの情報が付されている。
Next, in S202, the
次にS203では、特徴量変換部202が、第一の学習モデルに上記第一の画像群の各画像Iiを入力することによって第一の学習特徴量fiを取得する。ここで学習特徴量fiはd次元のベクトルである。次にS204では、特徴量変換部202が、各人物画像と代表ベクトル間の特徴量の類似度(クラス内類似度)と各人物と他人の代表ベクトルの特徴量の類似度(クラス間類似度)に基づいて、損失値を計算する。
Next, in S203, the feature
(数式2)
クラス内類似度スコア(fi)= 類似度スコア(fi,vy(i)) ,
クラス間類似度スコア(fi)= Σj≠y(-i) 類似度スコア(fi,vj)
ただしここで、y(i)は画像Iiの人物のIDの番号である。これを各画像について下記のように総和したものが学習に用いる損失値となる。
(Formula 2)
Intra-class similarity score ( fi ) = similarity score ( fi , vy (i) ),
Inter-class similarity score (f i ) = Σ j≠y(-i) similarity score (f i , v j )
However, here, y(i) is the ID number of the person in the image Ii . The sum of these values for each image as shown below becomes the loss value used for learning.
(数式3)
損失値 = Σi クラス間類似度スコア(fi) - λクラス内類似度スコア(fi)
λは学習のバランスのための重みパラメータである。なお上記は損失値の一例であり、マージン付の類似度スコアや交差エントロピーを用いる等の様々な公知の方法がある。詳細は非特許文献1等を参照されたい。
(Formula 3)
Loss value = Σ i inter-class similarity score (f i ) - λ intra-class similarity score (f i )
λ is a weight parameter for learning balance. Note that the above is an example of a loss value, and there are various known methods such as using a similarity score with a margin or cross entropy. For details, please refer to
次にS205とS206では、学習部203が、上記の損失値を小さくするように特徴変換部(第一の学習モデル)の第一のパラメータセットを更新する。S205では、特徴量変換部203が、代表ベクトルの値を、S206では第一のパラメータセットを、それぞれ更新する。DNNで一般的な誤差逆伝搬手法を用いることで損失値を減ずる方向に微小に更新していく。これにより代表ベクトルは各人物の特徴を代表する値としてより機能するように改善され、第一の学習済みモデルは同一人物の特徴量であれば互いに似るように改善されていく。
Next, in S205 and S206, the
以上のような学習処理を学習が収束するか所定の回数まで繰り返す(S207)。次にS208、および、S209では、記憶部104が、第一のパラメータセットおよび代表ベクトルv1~vnの値を記憶して保存する。
The above learning process is repeated until the learning converges or a predetermined number of times (S207). Next, in S208 and S209, the
図6は<一回目の学習処理>が終了した時点の結果例を模式的に示している。特徴空間600上に代表ベクトル601,602,603がID1番~ID3番の人物を代表する特徴ベクトルとして得られている。さらに各人物の特徴a,bや特徴p,qなどはこれらの代表ベクトルの近傍に位置するように第一のパラメータセットが適切に学習されている(図中に各人物の画像特徴を黒丸で表している)。
FIG. 6 schematically shows an example of the results when the <first learning process> is completed.
次に<二回目の学習処理>を行う。本処理ではマスクを装着した人物の学習用画像群(第二の画像群)を用いて、マスク装着人物用の特徴量変換のDNN(第二の学習モデル)を学習する。 Next, <second learning process> is performed. In this process, a DNN (second learning model) for feature value conversion for a person wearing a mask is learned using a learning image group (second image group) of a person wearing a mask.
図5(B)を用いて<二回目の学習処理>を説明する。準備として、S300では、画像変換部200が、第一の画像群を所定の条件を満たすような第二の画像群に変換する。具体的には、マスクやサングラス等の装着物を合成した画像や、照度の異なる画像を既存の変換方法を用いて生成する。第二の画像群が予め用意できている場合はS300をスキップしてよい。S301では、特徴量変換部202が、第一のパラメータセットを取得し、第二の学習モデルのパラメータの初期値とする。次にS302~S306まで図5(A)の処理フローと同様に第二の学習モデルの第二のパラメータの学習を行う。処理の内容や損失の計算等は先のS202~S207の処理と同一である。ただしS205で行った代表ベクトルv1~vnの更新処理は行わず、前段階のS208で保存した値のまま固定して使う。これにより、マスクを装着した人物の特徴量が、マスクを装着していない人物の代表ベクトルに近づくような学習が行われる。学習が収束したらS307では、記憶部104が、第二のパラメータセットを保存して学習を終了する。なお代表ベクトルの値は学習時にのみ用い、照合動作時には代表ベクトルの値は使用しない。
<Second learning process> will be explained using FIG. 5(B). As preparation, in S300, the
図7は<二回目の学習処理>の開始時点を模式的に示した図である。代表ベクトル601,602,603の位置は固定され、以降学習による更新はされない。マスクを装着した人物の画像c,画像dは、その人物の代表ベクトル601から遠いところに位置している。<二回目の学習処理>の学習調整を行うことで、特徴c(付番702)に矢印を付して示すように、各人物の特徴はそれぞれの代表ベクトルの方向に近づくように、第二のパラメータセットが学習される。これにより、学習の収束時には、マスク非装着人物の画像(図6のa,b)に対して第一のパラメータセットを用いた特徴量と、マスクを装着した人物の画像(図7のc,d)に対して第二のパラメータセットを用いた特徴量とが、特徴空間上で近接するようになる。
FIG. 7 is a diagram schematically showing the start point of the <second learning process>. The positions of
<学習方法の派生形態>
ここで学習の形態のその他の派生的な形態を挙げる。例えば、<代表ベクトル>を用いない学習形態も考えられる。この学習の動作処理のフロー例を図8、模式図として図9を用いて説明する。本形態例では通常の人物の画像のセットと、同画像にマスク画像を重畳合成した画像群を用いる。図9(A)に通常の人物の画像a,b,p、およびマスクを重畳した画像a’,b’,p’の例を示す。本派生の例では画像a’,b’,p’の特徴量が画像a,b,pの特徴量へとそれぞれ近づくように第二のパラメータセットを学習する。
<Derivative forms of learning methods>
Here are some other derivative forms of learning. For example, a learning form that does not use <representative vector> is also conceivable. A flow example of this learning operation process will be explained using FIG. 8 and a schematic diagram using FIG. 9. In this embodiment, a set of normal human images and a group of images obtained by superimposing and combining the same images with a mask image are used. FIG. 9A shows examples of images a, b, and p of normal people and images a', b', and p' on which masks are superimposed. In the example of this derivation, the second parameter set is learned so that the feature quantities of images a', b', and p' approach the feature quantities of images a, b, and p, respectively.
まず<一回目の学習処理>は通常の人物の画像群を用いて、先述の方法に準じた学習処理をS401~S407で行う。なお先述の方法と異なり代表ベクトルを用いずに下式でクラス内類似度とクラス間類似度から損失値を算出し、第一の学習モデルの第一のパラメータセットを更新する。 First, in the <first learning process>, a learning process based on the method described above is performed in S401 to S407 using a group of images of normal people. Note that, unlike the above-mentioned method, a loss value is calculated from the intra-class similarity and the inter-class similarity using the following formula without using the representative vector, and the first parameter set of the first learning model is updated.
(数式4)
クラス内類似度スコア(fi)= Σy(k)=y(i) 類似度スコア(fi,fk) ,
クラス間類似度スコア(fi)= Σy(j)≠y(-i) 類似度スコア(fi,fj) ,
損失値 = Σi クラス間類似度スコア(fi) - λクラス内類似度スコア(fi)
ここでfi,fkは同一人物の特徴量のペア、fi,fjは他人同士の特徴量のペアである。<一回目の学習処理>の結果を図9(B)に示す。
(Formula 4)
Intraclass similarity score (f i ) = Σ y(k) = y(i) similarity score (f i , f k ),
Inter-class similarity score (f i ) = Σ y (j)≠y (-i) similarity score (f i , f j ),
Loss value = Σ i inter-class similarity score (f i ) - λ intra-class similarity score (f i )
Here, f i and f k are a pair of feature quantities of the same person, and f i and f j are a pair of feature quantities of strangers. The results of <first learning process> are shown in FIG. 9(B).
次に、<二回目の学習処理>で第二の学習モデルの第二のパラメータセットを学習する。S501では、特徴量変換部202が、DNNのパラメータを初期化し、S502では、画像取得部201が、学習画像としてマスクを重畳する前の元画像(第一の学習画像)と合成重畳した画像(第二の学習画像)のペアを取得する。つまり、第一の学習画像と第二の学習画像とは、同一の物体が撮像された画像であって、物体の状態や撮影環境が異なるような画像のペアである。S503とS504では、特徴量変換部202が、第一の学習モデルと元画像(第一の画像)から第一の学習特徴量を、第二の特徴モデルと合成画像(第二の画像)からそれぞれ学習特徴量を取得する。S505では、学習部203が、人物のクラス内とクラス間の損失値を算出する。この時、これまでに用いた人物のクラス内とクラス間の類似度スコアの項に加えて下式のように画像ペアの類似度の項を新たに追加する。
Next, in <second learning process>, a second parameter set of the second learning model is learned. In S501, the feature
(数式5)
画像ペア類似度スコア(fx)= 類似度スコア(fx,fx’)
(数式6)
損失値 = Σi クラス間類似度スコア(fi)- λ1 クラス内類似度スコア(fi)
- λ2 画像ペア類似度スコア(fi)
なお上式でfxは画像xの特徴量、fx’は画像xにマスクを重畳合成した画像x’の特徴量である。λ1,λ2は各項のバランスをとるパラメータである。
(Formula 5)
Image pair similarity score (f x ) = similarity score (f x , f x' )
(Formula 6)
Loss value = Σ i inter-class similarity score (f i ) - λ 1 intra-class similarity score (f i )
- λ 2 image pair similarity score (f i )
Note that in the above equation, f x is a feature amount of image x, and f x' is a feature amount of image x' obtained by superimposing and synthesizing a mask on image x. λ 1 and λ 2 are parameters for balancing each term.
画像ペアの類似度の項はマスク重畳前の元画像(第一の学習画像)と重畳後の合成画像(第二の学習画像)のそれぞれの学習特徴量同士との距離が所定の値より小さくなるように学習する。特徴量ペアの類似度の項の模式図を図9(C)に付番900,901,902を矢印に付して併せて示す。同図で矢印903は従来のクラス内類似度,矢印904はクラス間類似度を示している。このように複数の類似度を組み合わせて損失値を定義することで、照合の精度を向上させることが期待できる。S506では上記の損失値を減ずるように第二の学習モデルの第二パラメータセットの学習を行う。ここでは第一の学習モデルの学習を行わないため、この<二回目の学習処理>では、マスク非装着の元画像の特徴量は「固定」されて動かず、マスクを装着合成した画像の特徴量が、マスク非装着の特徴量に近づく方向に変化するような学習が行われる。S507で、学習部203が、学習が収束したと判断した場合、S508で第二の学習モデルの第二のパラメータセットを保存して学習を終了する。以上が学習方法の派生形態の例になる。
The similarity term for image pairs is defined as the distance between the learning features of the original image before mask superimposition (first learning image) and the composite image after superposition (second learning image) is smaller than a predetermined value. Learn to become. A schematic diagram of the similarity terms of feature quantity pairs is also shown in FIG. 9C with
またさらに別の学習方法の形態例も考えられる。一つの例として、<一回目の学習処理>で通常人物用の特徴量変換部を学習する際に、若干数のマスク人物画像含めて学習を行っておくことが考えられる。このようにすると照合時に物体パラメータ決定103が判定に失敗して、誤った特徴量変換パラメータが適用されても、大幅な性能劣化を抑止することが期待できる。同様に、マスク装着人物用の特徴量変換部の学習を行う際に、通常人物の画像も混ぜて学習することも考えられる。
Furthermore, other examples of learning methods are also possible. As one example, when learning the feature amount conversion unit for normal people in <first learning process>, it is conceivable to perform learning including some masked person images. In this way, even if the
このように学習処理については様々な形態の学習処理が考えられる。ここで説明した複数の学習処理方法を、学習の進度に応じて段階的に適用することも考えられる。このように本発明の画像処理装置を学習するための処理は一つの例に限定されない。 As described above, various types of learning processing are possible. It is also conceivable to apply the plurality of learning processing methods described here in stages according to the progress of learning. In this way, the processing for learning the image processing apparatus of the present invention is not limited to one example.
<特徴量変換部の構成の派生形態>
次にDNNの構成について派生の形態例を挙げる。例えば、通常人物用の特徴量変換のDNNと、マスク装着人物用のDNNで、層数やニューロン数を変更することが考えられる。一般に、マスクをつけた人物や横顔の人物などの照合困難な対象や、見えのバリエーションが豊富な対象は、規模の大きいDNNを用いることで性能が向上しやすい。このため、扱う対象に応じて各DNNの規模を調整すれば計算コストと照合精度の費用対効果を向上させることができる。
<Derivative form of the configuration of the feature amount conversion unit>
Next, an example of a derived form of the DNN configuration will be given. For example, it is conceivable to change the number of layers and the number of neurons between a DNN for feature value conversion for a normal person and a DNN for a person wearing a mask. In general, for objects that are difficult to match, such as a person wearing a mask or a person in profile, or for objects with a wide variety of appearances, performance is likely to be improved by using a large-scale DNN. Therefore, by adjusting the scale of each DNN depending on the target to be handled, it is possible to improve the cost-effectiveness of calculation cost and matching accuracy.
また別の形態として、通常人物用の特徴量変換のDNNと、マスク装着人物用のDNNで、前段の層は共有し、後段の層のみを人物の状態に応じて部分的に変更するといった形態が考えられる。 Another method is to use a DNN for feature value conversion for normal people and a DNN for people wearing masks, and share the first layer, and only partially change the second layer depending on the state of the person. is possible.
さらに別の形態として、通常人物用の特徴量変換部とマスク装着人物用の特徴量変換部で構成の全く異なる特徴量変換の手段を用いることが考えられる。例えば通常人物用の特徴量変換部に畳み込みニューラルネットワークを用いて、マスク装着人物用に特許文献2で公知なTransformerネットワークを用いることが考えられる。また再帰的ニューラルネットワーク等を用いてもよい。損失値に基づいてパラメータを調整することが可能な手段であれば、特徴量変換部にはDNNに限らず広く様々な特徴量変換の手段が適用可能である。
As another form, it is conceivable to use feature amount conversion means having completely different configurations, including a feature amount conversion section for a normal person and a feature amount conversion section for a person wearing a mask. For example, it is conceivable to use a convolutional neural network in the feature quantity transformation unit for a normal person, and to use a Transformer network known in
さらに別の派生の形態として、入力画像を変換して得られる特徴量f1,f2は、1次元ベクトルでなくN次元行列の形態でもよい。また本実施形態では第一の学習済みモデルと第二の学習済みモデルから得られる特徴ベクトルの長さを同一としたが、長さが異なっていてもよい。異なる長さの特徴量を用いる場合は、Earth Mover‘s Distanceなどの不等長のベクトル間の類似度を算出する公知の方法を用いればよい。 As yet another form of derivation, the feature quantities f 1 and f 2 obtained by transforming the input image may be in the form of an N-dimensional matrix instead of a one-dimensional vector. Further, in this embodiment, the lengths of the feature vectors obtained from the first trained model and the second trained model are the same, but the lengths may be different. When using feature quantities of different lengths, a known method for calculating the similarity between vectors of unequal length, such as Earth Mover's Distance, may be used.
以上で実施形態1の説明を終える。 This concludes the description of the first embodiment.
<実施形態2>
本実施形態はマスクやサングラスの装着の有無による切り替え以外の形態に本発明を適用する。実施形態1では1枚対1枚の画像を入力とし、同一物体の被写体かを判定した。本実施形態では、顔認証によって開閉する自動ドアのゲートのようなユースケースを想定した形態例を説明する。本実施形態の画像処理装置には予めN人の人物の特徴量を登録しておく。照合時にはゲートの前のカメラで撮影した1枚の画像を入力画像として入力し、入力された人物が登録されたN人のうちいずれかの人物と同一であるか、いずれにも該当しないかを判定する。
<
In this embodiment, the present invention is applied to modes other than switching depending on whether or not a mask or sunglasses are worn. In the first embodiment, one-to-one images are input, and it is determined whether the images are the same object. In this embodiment, an example of a configuration will be described assuming a use case such as an automatic door gate that opens and closes using facial recognition. The feature amounts of N people are registered in advance in the image processing apparatus of this embodiment. During verification, a single image taken with a camera in front of the gate is input as an input image, and it is checked whether the input person is the same as one of the registered N people or does not correspond to any of them. judge.
実施形態1ではマスクの有無を判定して特徴量変換部の切り替えを行った。本実施形態では、登録用の顔画像(照明条件が良好な正面顔)と、問い合わせ用の顔画像(カメラの設置状況により照明条件が悪い、顔向きの角度が大きい、等がある)で、撮影条件が大きく異なる。そこで、それぞれに対応する特徴量変換部を学習して用いることとする。 In the first embodiment, the presence or absence of a mask is determined and the feature quantity conversion unit is switched. In this embodiment, the facial image for registration (frontal face with good lighting conditions) and the facial image for inquiry (poor lighting conditions, large face angle, etc. depending on the camera installation situation) are used. The shooting conditions are very different. Therefore, we will learn and use feature quantity conversion units corresponding to each.
図10に画像処理装置3の機能構成例を示す。基本的な構成は図1に準じている。差異としては、新たに特徴登録部108および処理モード設定部109を備える。照合処理のフローは図11である。人物の登録動作を図11(A)に、入力画像と登録人物との照合動作を図11(B)に示している。
FIG. 10 shows an example of the functional configuration of the
画像処理装置3が登録動作を開始すると、処理モード設定部109が、現在の動作モードを登録動作モードに設定する(S601)。S602では、第一の特徴量変換部105が、登録動作モード用の変換パラメータセット(第一のパラメータセット)を取得する。取得したパラメータセットを学習済みモデルに適用する。次にS604では、第一の画像取得部101が、一人ずつ全N人の登録用人物画像を入力し(S604)、特徴量変換部105が特徴量に変換し(S605)、特徴登録部108に各人物の特徴量として登録する。登録画像としては良好な条件で撮影した人物の正面顔が想定される。そのため第一の特徴量変換部は正面顔を主に用いて予め学習してある。
When the
次に画像処理装置が照合動作を開始すると、処理モード設定部109が、動作モードを照合動作モードに設定する(S701)。まずS702は、第二の特徴量変換部106が、複数の学習済みのパラメータセットのうち、状況に応じて選択されたパラメータセット(第二のパラメータセット)を取得する。第二のパラメータセットは、様々な角度の人物を学習データとして用いて予め学習してある。
Next, when the image processing apparatus starts a matching operation, the processing
S703では、第二の画像取得部102が、撮影した一枚の入力画像を取得する。なおカメラとゲートドアの位置関係の状況によっては画像中のどこに人物が写っているかは事前に決定されない。そのため第二の画像取得部102の内部に顔検出器を用意しておき、顔を検出させて顔周辺の画像だけを切り出してもよい。(顔検出器は広く公知のものを使用すればよい。)次に第二の特徴量変換部106が入力画像から第二の特徴量を取得する(S704)。S705~S707で特徴量照合部107が入力画像の特徴量と各登録済の特徴量との類似度を一つ一つ算出し(S706)、所定値以上に類似度の高い候補人物がいればその結果を出力する(S708)。処理フロー中には図示しないが、実際のユースケースでは以上の結果に基づきゲートドアの開閉動作を行う。具体的には、第二の画像に含まれる人物が登録人物のいずれかと一致する場合は、ゲートを開ける制御を行い、いずれの登録人物とも一致しない場合は、ゲートを開けず、必要に応じて管理者に通知を出力する。認証結果を入室ゲートの近くの表示装置に出力しても良い。
In S703, the second
図12は本実施形態2の学習処理のフローである。図13に模式図を併せて示す。ここでは実施形態1の形態と異なり、第一の学習モデルと第二の学習モデルとを同時に学習する点がこれまでとの差異である。本実施形態の学習の方法がこのような方法にも適用可能であることを説明する。なお、ハードウェア構成例は図2、画像処理装置の機能構成例は図14と同様である。 FIG. 12 is a flowchart of learning processing according to the second embodiment. A schematic diagram is also shown in FIG. The difference here from the first embodiment is that the first learning model and the second learning model are learned at the same time. It will be explained that the learning method of this embodiment is also applicable to such a method. Note that an example of the hardware configuration is the same as that shown in FIG. 2, and an example of the functional configuration of the image processing apparatus is the same as that shown in FIG. 14.
図12のS801では、画像取得部201が、登録画像の撮影条件を模した正面画像だけを集めた第一の学習画像群を取得する。S802では、特徴量変換部202が、第一のパラメータセットを用いた第一の学習モデルに基づいて、第一の学習画像群から第一の学習特徴量を取得する。S803では、画像取得部201が、第二の学習画像群を取得する。第二の画像群は入力画像を想定した見下ろしなどを含む角度の異なる様々な人物画像を含む。S804では、特徴量変換部202が、第二のパラメータセットを用いた第二の学習モデルに基づいて、第二の学習画像群から第二の学習特徴量を取得する。
In S801 of FIG. 12, the
S805では、学習部203が、それぞれの画像群から画像をランダムに選んで本人ペア(クラス内ペア)と他人ペア(クラス間ペア)を作り、それらの特徴量間の類似度に基づいて損失値を求める。損失には下記のように非特許文献2等で公知なトリプレット損失を用いる。(非特許文献2:Florian Schroff, Dmitry Kalenichenko, and James Philbin. Facenet: A unified embedding for face recognition and clustering. In CVPR, 2015)。
In S805, the
(数式7)
損失値 = Σi [クラス間ペア類似度スコア(fi,fj)
- クラス内ペア類似度スコア(fi,fk)+m ]+ ,
ただしmは学習を頑健にするための損失のマージン値の定数、[・]+は
(数式8)
[x]+=x If x>0
[x]+=0 Otherwise
で定義される関数である。
ここでfiは人物画像Iiの特徴量、fjは画像Iiと異なる人物の特徴量、fkはIiと同一人物の別の画像Ikの特徴量である。
(Formula 7)
Loss value = Σ i [inter-class pair similarity score (f i, f j )
− Intra-class pair similarity score (f i, f k )+m ] + ,
However, m is a constant for the loss margin value to make learning robust, and [・] + is (Formula 8)
[x] + =x If x>0
[x] + =0 Otherwise
This is a function defined by .
Here, f i is a feature amount of the person image I i , f j is a feature amount of a person different from the image I i , and f k is a feature amount of another image I k of the same person as I i .
なお人物画像Iiは第一の学習セットあるいは第二の学習セットからランダムに選択し、それに応じて人物画像IjとIkをサンプリングしてクラス間ペアとクラス内ペアを作る。この時、人物画像Iiを第一の学習セットから選んだ場合は人物画像IjとIkは第二の学習セットから選び、人物画像Iiを第二の学習セットから選んだ場合は人物画像IjとIkは第一の学習セットから選ぶ。これにより第一の学習モデルと第二の学習モデルを連動させて学習させることができる。 Note that the person images I i are randomly selected from the first learning set or the second learning set, and the person images I j and I k are sampled accordingly to create inter-class pairs and intra-class pairs. At this time, when the person image I i is selected from the first learning set, the person images I j and I k are selected from the second learning set, and when the person image I i is selected from the second learning set, the person images I j and I k are selected from the second learning set. Images I j and I k are selected from the first training set. Thereby, the first learning model and the second learning model can be trained in conjunction with each other.
S806では、学習部203が、第一の学習モデルと第二の学習モデルのそれぞれが損失値を減ずる方向に誤差逆伝搬の方法を用いてパラメータの学習更新を行う。この結果、図13に模式図を示すように、二つの学習モデルのそれぞれの出力に対して類似度に基づく損失値を算出し、それを誤差として再び各特徴変換部に逆伝搬させて学習更新が行われる。
In S806, the
以上のように第一の学習モデルと第二の学習モデルとで異なる特性の画像を処理させながら、双方で同時に学習を行う例について説明した。なお派生的方法として、初期段階は二つの学習モデルを同時に学習し、後半では第一の特徴量を固定して第二の特徴量のみ学習するといった組み合わせも考えられる。 As described above, an example has been described in which the first learning model and the second learning model process images with different characteristics and simultaneously perform learning on both models. As a derivative method, a combination of learning two learning models at the same time in the initial stage, fixing the first feature amount and learning only the second feature amount in the latter half can also be considered.
<実施形態3>
上述の実施形態では、状態判定と特徴量変換の双方が画像から状態や特徴量を各々求めていた。本実施形態では、画像から中間特徴量を生成し、中間特徴量をもとに状態判定と特徴量変換を行う形態について説明する。ここで、状態とは、例えば、性別、人種や年齢といった人物の属性を含む。本実施形態では、画像に含まれる人物について個人を特定するための特徴量を得る際に、人物の属性に応じて学習モデルの一部のパラメータを異ならせる。一方で、人物の属性(状態)判定及び特徴量変換の処理を実行する学習モデルのレイヤについては共通のものを用いる。これにより、状態判定と特徴量変換の処理が共通化され、速度・メモリの効率が高められる。
<
In the above-described embodiment, both the state determination and the feature amount conversion obtain the state and feature amount from the image. In this embodiment, an embodiment will be described in which an intermediate feature amount is generated from an image, and state determination and feature amount conversion are performed based on the intermediate feature amount. Here, the state includes, for example, attributes of a person such as gender, race, and age. In this embodiment, when obtaining feature amounts for identifying a person included in an image, some parameters of the learning model are changed depending on the attributes of the person. On the other hand, a common learning model layer is used for determining attributes (states) of a person and converting features. As a result, the processing of state determination and feature quantity conversion is shared, and speed and memory efficiency are improved.
本実施形態では、図15~図18を用いて、実施形態1と同様の1枚対1枚の画像を入力とし、同一物体の被写体かを判定する「1対1の画像照合処理」の場合について説明する。次に、図19~図20を使用して、予め登録したN人の人物から、入力画像に映る人物がいずれかの登録人物と同一であるかを判定する「1対Nの画像照合処理」の場合について説明する。なお、ハードウェア構成は実施形態1,2における図2の情報処理装置と同様である。 In this embodiment, using FIGS. 15 to 18, the same one-to-one images as in the first embodiment are input, and "one-to-one image matching processing" is performed to determine whether the subjects are the same object. I will explain about it. Next, using FIGS. 19 and 20, "1-to-N image matching processing" is performed to determine whether the person appearing in the input image is the same as any registered person from among the N people registered in advance. The case will be explained below. Note that the hardware configuration is the same as that of the information processing apparatus shown in FIG. 2 in the first and second embodiments.
<1対1の画像照合処理>
図15に画像処理装置15の機能構成例を示す。基本的な構成は図1に準じている。差異としては、第一の特徴量変換部1501が中間特徴量を生成することである。これに伴い、中間特徴量をもとにパラメータ決定部1502と第二の特徴量変換部1504と第三の特徴量変換部1505(第三の特徴取得部)が動作するようになっている。パラメータ決定部1502は、画像に含まれる物体の状態(人物の場合、属性)に応じて、学習済みモデルのパラメータを決定する。パラメータ決定部1502は、画像の中間特徴量に基づいて、画像に含まれる物体の状態を推定する。推定方法は、注目属性の代表的な特徴量との一致度が所定の閾値以上であれば注目属性であると推定する。または、画像から物体の状態に関する特徴量を出力する第三の学習済みモデルに基づいて画像に含まれる物体の状態を推定する。さらに、パラメータ決定部1502は、推定された状態(人物の属性)に応じて予め対応付けられた変換パラメータを決定する。つまり、第一の画像に含まれる物体の属性と、第二の画像に含まれる物体の属性が同じ場合は、同一の学習済みモデル(または特徴変換パラメータ)が決定される。第一の画像に含まれる物体の属性と、第二の画像に含まれる物体の属性が異なる場合は、異なる学習済みモデル(またはモデルのパラメータ)が決定される。また、記憶部1503は第二の特徴量変換部1504と第三の特徴量変換部1505に供給する変換パラメータを記憶する。
<One-to-one image matching process>
FIG. 15 shows an example of the functional configuration of the
図16は本実施形態の照合処理の模式図である。入力画像は、第一の特徴量変換部1501により、物体の状態に関する中間特徴量に変換される。変換された中間特徴量を用いて、パラメータ決定部1502によって状態に応じた変換パラメータが求められる。物体の状態は、性別・人種などがある。あるいは、年齢・顔向き・マスク有無等であってもよく、これらに限定されるものではない。記憶部1503には、状態Yに特化した変換パラメータ1602と、全状態に対応する一般用の所定の変換パラメータ1601が保存されている。例えば、入力画像に対する状態判定が「状態Y」であれば、状態Y用の変換パラメータ1602を第三の特徴量変換部1505に設定する。なお、対象の物体が学習済みの特定の状態には当てはまらない場合は、ダミーとして所定のパラメータを与えるようにしてもよい。そして、第三の特徴量変換部1505は、パラメータ決定部1502によって決定されたパラメータに基づいて、中間特徴量を顔特徴量に変換する。なお、前記実施形態では、特徴量と呼称していたが、中間特徴量と区別しやすくするため顔特徴量と呼称している。次に、登録画像も顔特徴量へと変換を行い、特徴量照合部107により入力画像と登録画像の顔特徴量の照合を行う。
FIG. 16 is a schematic diagram of the matching process of this embodiment. The input image is converted by a first
これによって、中間特徴量に変換する部分が共通化されるため、処理スピードを高められる。加えて、パラメータ決定部や第二と第三の特徴変換部のモデルのサイズを小さくできる。また、モデルサイズが小さくなることにより、記憶部1503で管理する変換パラメータのサイズも小さくできる上に、変換パラメータの読み出し速度も高速にできる。なお、実施形態1ではパラメータ決定部1502は、物体の状態(マスクの装着の有無)をテンプレートマッチング等の方法により求めていた。しかし、パラメータ決定部1502も第二と第三の特徴変換部等と同様にディープニューラルネットワークにより構成してもよい。同様に、第一の特徴量変換部もディープニューラルネットワークとして構成してもよい。具体的な状態判定方法は図21を用いて後述する。
As a result, the processing speed can be increased because the parts to be converted into intermediate feature quantities are shared. In addition, the size of the models of the parameter determination section and the second and third feature conversion sections can be reduced. Further, by reducing the model size, the size of the conversion parameters managed in the
これによって、特定の状態に特化した変換パラメータを保持することにより、状態の変化に対して頑健な照合が実現できる。加えて、状態判定に失敗したとしても、いずれの変換パラメータも特徴空間を共有しているため、大きく失敗した特徴量変換をしない。そのため、状態判定の性能に対しても頑健な照合が実現できる。また、この性質を高めるために、各変換パラメータは対応する状態以外の画像に対する特徴量変換もある程度はできるように学習しておいても良い。例えば、学習データとして対応する状態の画像に加えて、少量の他状態の画像を含めて学習するなどしても良い。あるいは、他状態のときは損失値を小さくする等の損失関数を変更した学習をしても良い。 In this way, by holding conversion parameters specific to a specific state, matching that is robust against changes in state can be achieved. In addition, even if state determination fails, since all transformation parameters share the feature space, feature quantity transformation that has failed significantly is not performed. Therefore, matching that is robust to the performance of state determination can be achieved. Further, in order to enhance this property, each transformation parameter may be learned so that it can perform feature amount transformation for images other than the corresponding state to some extent. For example, in addition to images in a corresponding state as learning data, a small amount of images in other states may be included for learning. Alternatively, learning may be performed by changing the loss function, such as reducing the loss value, in other states.
次に図17を用いて照合の処理の手順を説明する。この処理では、1枚対1枚の画像を入力とし、同一物体の被写体かを判定する。この例では、パラメータ決定部1502が求める状態は「性別」として説明する。
Next, the procedure of the verification process will be explained using FIG. 17. In this process, one-by-one images are input, and it is determined whether the images are the same object. In this example, the state determined by the
S1701では、第一の画像取得部101が、人物を含む1枚目の画像(第一の画像)を取得する。
In S1701, the first
S1702では、第一の特徴量変換部1501が、第一の画像を中間特徴量(第一の中間特徴量)に変換する。
In S1702, the first
S1703では、パラメータ決定部1502が、第一の中間特徴量から第一の画像の状態(第一の状態)であるか否か判定する。具体的には、第一の画像に映る人物の性別が男性であるか否か(女性でないか)を判定する。
In S1703, the
S1704では、パラメータ決定部1502が、判定結果に基づいて、記憶部1503から第一の状態に対応する変換パラメータを読み出して、第二の特徴量変換部1504にセットする。
In S1704, the
S1705で、第二の特徴量変換部1504が、第一の中間特徴量を変換して顔特徴量(第一の顔特徴量)を得る。ここでは、S1703での判定結果に応じて、第一の状態が男性である場合は、第二の特徴変換部1504には、男性の識別が得意なパラメータが設定された学習済みモデルに基づいて、画像から特徴を得ることになる。
In S1705, the second feature
S1706では、第二の画像取得部102が、人物を含む2枚目の画像(第二の画像)を取得する。
In S1706, the second
S1707では、第一の特徴量変換部1501が、第二の画像を中間特徴量(第二の中間特徴量)に変換する。
In S1707, the first
S1708では、パラメータ決定部1502が、第二の中間特徴量から第二の画像の状態(第二の状態)を判定する。具体的には、第二の画像に映る人物の性別が男性であるか否か(女性でないか)を判定する。
In S1708, the
S1709では、記憶部1503から第二の状態に対応する変換パラメータを読み出して、第三の特徴量変換部1505にセットする。
In S1709, the conversion parameters corresponding to the second state are read from the
S1710では、第三の特徴量変換部1505が第二の中間特徴量を変換して顔特徴量(第二の顔特徴量)を得る。ここで、第一の画像と第二の画像がともに男性の画像であれば、第二の特徴変換部1504と第三の特徴変換部1505に設定される学習済みモデルのパラメータは同じものになる。一方で、例えば、第一の画像が男性、第二の画像が女性の画像であれば、第二の特徴変換部1504と第三の特徴変換部1505に設定される学習済みモデルのパラメータは異なる。
In S1710, the third feature
S1711では、特徴量照合部107が、S1705とS1710で得た2つの特徴量の類似度スコアを算出する。類似度スコアを閾値処理することで、2つの画像に映る人物が同一か否かを判定できる。
In S1711, the feature
次に図18を用いて、図17とは異なる照合の処理手順を説明する。パラメータ決定部1502によって判定される状態が人種・性別等のとき、異なる状態であれば異なる人物であると判断ができる。この処理では、予め2枚の画像の状態を求めてから、画像に含まれる物体に状態ついての判定結果の確信度高くかつそれぞれの状態が異なると判断される場合には、顔特徴量への変換処理をスキップする。これによって処理を軽減できる。また、2枚とも同じ状態と判定されるときは、変換パラメータの読みだしを1回にまとめることで処理を軽減できる。
Next, using FIG. 18, a verification processing procedure different from that in FIG. 17 will be explained. When the condition determined by the
図18のS1801~S1803は、図17のS1701~S1703と同じで、第一の特徴変換部1501が、第一の画像を中間特徴量に変換し、第一の画像の状態(第一の状態)を求める。S1804~S1806も、S1706~S1708と同様に、第一の特徴変換部1501が、第二の画像を中間特徴量に変換して第二の画像の状態(第二の状態)を求める。
Steps S1801 to S1803 in FIG. 18 are the same as steps S1701 to S1703 in FIG. ). In S1804 to S1806, similarly to S1706 to S1708, the first
S1807では、パラメータ決定部1502が、S1803とS1806で求めた第一の状態と第二の状態が同じであるか否かを判定する。同じときはS1808へ移り、それ以外はS1812へ移る。
In S1807, the
S1808では、パラメータ決定部1502が、記憶部1503から第一の状態に対応する変換パラメータを読みだして、第二の特徴量変換部1504と第三の特徴量変換部1505にセットする。
In S1808, the
S1809では、第二の特徴量変換部1504が、第一の中間特徴量を顔特徴量(第一の顔特徴量)に変換する。
In S1809, the second feature
S1810では、第三の特徴量変換部1505が、第二の中間特徴量を顔特徴量(第二の顔特徴量)に変換する。
In S1810, the third feature
S1811では、特徴量照合部107が、第一の顔特徴量と第二の顔特徴量の類似度スコアを算出する。
In S1811, the
S1812では、パラメータ決定部1502が出力した状態のスコア(状態スコア)が高いか否かを判定する。そのため、パラメータ決定部1502は状態とともにスコアを出力するように構成する。例えば、パラメータ決定部1502をディープニューラルネットワークとして構成し、状態ごとの出力を得るように構成する。そして、画像の状態に対応する出力が最も大きくなるように学習しておく。状態判定は、出力が最大になる状態として判定すればよく、状態スコアはその出力値を用いればよい。状態スコアを求める具体的な方法は図21を用いて後述する。予め定めた閾値より状態スコアが大きいならば、S1813に移る。それ以外は、S1814に移る。
In S1812, it is determined whether the state score (state score) output by the
S1813では、特徴量照合部107が、第一の画像と第二の画像に対する類似度をゼロとして出力する。つまり、状態判定に対する確信度が所定値以上であって、それぞれの物体の状態(人物の属性)が異なる場合は、同一物体である可能性が低いことが判断できる。
In S1813, the
S1814では、パラメータ決定部1502が、記憶部1503から第一の状態に対応する変換パラメータを読み出して、第二の特徴量変換部1504にセットする。
In S1814, the
S1815では、第二の特徴量変換部1504が第一の中間特徴量を変換して顔特徴量(第一の顔特徴量)を得る。
In S1815, the second feature
S1816では、記憶部1503から第二の状態に対応する変換パラメータを読み出して、第三の特徴量変換部1505にセットする。
In S1816, the conversion parameters corresponding to the second state are read from the
S1817では、第三の特徴量変換部1505が第二の中間特徴量を変換して顔特徴量(第二の顔特徴量)を得る。
In S1817, the third feature
S1818では、特徴量照合部107が、S1815とS1817で得た2つの特徴量の類似度スコアを算出する。上述した実施形態と同様に、類似度スコアが所定の閾値以上であれば、2つの物体は同一と判定され、閾値未満であれば異なる物体であると判定される。
In S1818, the feature
<1対Nの画像照合処理>
図19に画像処理装置19の機能構成例を示す。基本的な構成は図15に準じている。差異としては、処理モード設定部1901と特徴量登録部1902を備える。照合処理のフローは図20である。人物の登録動作を図20(A)に、入力画像と登録人物との照合動作を図20(B)に示す。
<1 to N image matching process>
FIG. 19 shows an example of the functional configuration of the
パラメータ決定部1502は、登録動作では、予め取得した登録人物の人種の状態に応じた変換パラメータを決定する。これは、登録時には、登録人物の人種を正確に知ることができるため、画像から推定する必要がないためである。具体的な処理の流れについて、図20(A)を用いて説明する。
In the registration operation, the
S2001aでは、処理モード設定部109が、現在の動作モードを登録動作モードに設定する。
In S2001a, the processing
S2002aでは、処理モード設定部109が、登録人物の人種の状態を取得する。例えば、予め登録人物ごとの人種の状態のリストをHDD等の記憶部H104に記憶しておき、それを取得する。あるいは、キーボードなどの取得部H105から登録する人物の人種の状態を取得する。
In S2002a, the processing
S2003aは、登録人物を順に処理するためのループの始端である。登録人物には1から順に番号が割り当てられているものとする。登録人物を変数iを用いて参照するため、はじめにiを1に初期化する。さらに、iが登録人物数以下であるときS2005aへ移り、これを満たさないときループを抜けて処理を終了する
S2004aでは、パラメータ決定部1502が、処理モード設定部109が取得した人物iの状態に基づいて、記憶部1503から対応する変換パラメータを読みだし、第二の特徴量変換部1504にセットする。
S2003a is the start of a loop for sequentially processing registered persons. It is assumed that registered persons are assigned numbers sequentially starting from 1. In order to refer to a registered person using a variable i, first initialize i to 1. Further, when i is less than or equal to the number of registered persons, the process moves to S2005a, and when this is not satisfied, the process exits the loop and ends the process. Based on this, the corresponding conversion parameters are read from the
S2005aでは、第一の画像取得部101が人物iの登録画像を取得する。
In S2005a, the first
S2006aでは、第一の特徴量変換部1501が、登録画像を中間特徴量に変換する。
In S2006a, the
S2007aでは、第二の特徴量変換部1504が中間特徴量を変換して顔特徴量を得る。
In S2007a, the second feature
S2008aでは、特徴登録部1902に人物iの顔特徴量として登録する。加えて、人物iの人種の状態も登録する。
In S2008a, it is registered in the
S2009aは、登録人物のループの終端であり、iに1を加算してS2003aへ戻る。 S2009a is the end of the registered person loop, in which 1 is added to i and the process returns to S2003a.
次に、入力画像と登録人物の照合動作について図20(B)を用いて説明する。照合動作のときは、入力画像の人種等の状態は不明であるため、画像から推定した状態に基づいて処理を行う。また、人種・性別等の状態のとき、異なる状態であれば異なる人物であると判断ができる。そこで、入力画像の人種等の状態を確信度高く推定できたときは、照合する登録人物を絞り込むことで処理速度を向上させる。具体的な処理の流れについて、図20(B)を用いて説明する。なお、この例では、パラメータ決定部1502が求める状態は「人種」である。
Next, a comparison operation between an input image and a registered person will be explained using FIG. 20(B). During the matching operation, since the status of the input image, such as race, is unknown, processing is performed based on the status estimated from the image. Further, when the status of race, gender, etc. is different, it can be determined that the person is a different person. Therefore, when the state of the input image, such as race, can be estimated with high certainty, the processing speed is improved by narrowing down the registered persons to be matched. A specific process flow will be explained using FIG. 20(B). In this example, the state sought by the
S2001bでは、処理モード設定部109が、動作モードを照合動作モードに設定する。これにより処理モード設定部109から状態を取得しないようになる。
In S2001b, the processing
S2002bでは、第二の画像取得部102が、問い合わせ画像(第二の画像)を取得する。
In S2002b, the second
S2003bでは、第一の特徴量変換部1501が、第二の画像を中間特徴量(第二の中間特徴量)に変換する。
In S2003b, the first
S2004bでは、パラメータ決定部1502が、第二の中間特徴量から第二の画像の状態(第二の状態)を判定する。具体的には、第二の画像に映る人物の人種を判定する。
In S2004b, the
S2005bでは、パラメータ決定部1502が、第二の状態に応じて、記憶部1503から第二の状態に対応する変換パラメータを決定する。第三の特徴量変換部1505には、決定された変換パラメータを(第三の)学習済みモデルに設定する。
In S2005b, the
S2006bでは、第三の特徴量変換部1505が、第二の中間特徴量を変換して顔特徴量(第二の顔特徴量)を得る。
In S2006b, the third feature
S2007bでは、パラメータ決定部1502が出力した状態のスコア(状態スコア)が高いか否かを判定する。予め定めた閾値より状態スコアが大きいならば、S2008bに移る。それ以外は、S2009bに移る。
In S2007b, it is determined whether the state score (state score) output by the
S2008bでは、特徴量照合部107は、第二の状態と同じ状態である登録人物を、候補人物として絞り込む。つまり、本実施形態では、同じ人種の登録人物に絞り込む。
In S2008b, the
S2009bは、登録人物を順に処理するためのループの始端である。S2008bにより登録人物が絞り込まれている場合は、特徴量照合部107は、絞り込まれた登録人物を順に照合処理する。そのため、変数iで順に登録人物を参照するため、はじめに処理対象となる登録人物に1から順に番号を割り当て、iを1に初期化する。さらに、iが処理対象の登録人物数以下であるときS2010bへ移り、これを満たさないときループを抜けてS2012bへ移る。
S2009b is the start of a loop for sequentially processing registered persons. If the registered persons have been narrowed down in S2008b, the feature
S2010bでは、特徴量照合部107は、特徴登録部1902に記憶された人物iの顔特徴量を得る。そして、特徴量照合部107が、S2006bで得た第二の顔特徴量と、人物iの顔特徴量の類似度スコアを算出する。
In S2010b, the
S2011bは、登録人物のループの終端であり、iに1を加算してS2009bへ戻る。 S2011b is the end of the registered person loop, in which 1 is added to i and the process returns to S2009b.
S2012bでは、出力部1900が、S2010bで求めた類似度スコアが、所定値以上の人物がいればその結果を出力する。なお、出力部1900は、特徴量照合部107における照合結果、つまり顔認証の結果を表示装置等に出力する。
In S2012b, the
<状態判定方法の例>
第一の特徴量変換部1501とパラメータ決定部1502により画像から状態を求める方法について述べる。第一の特徴量変換部1501とパラメータ決定部1502を、前述のDNNを使用して構成する。パラメータ決定部1502はニューラルネットワークの出力数を状態数と同じにして、Softmax関数を通して出力を得るように構成する。
<Example of status determination method>
A method for determining the state from an image using the
次に、画像から状態を求められるよう学習する。本実施形態では、パラメータ決定部1502のSoftmax関数の出力の各次元に状態のラベルを対応付けて、画像の対応する状態が1をとり、それ以外が0をとるように学習をする。学習フローについて図21を用いて説明する。
Next, it learns to determine states from images. In this embodiment, a state label is associated with each dimension of the output of the Softmax function of the
S2101では、第一の特徴量変換部1501で使用するパラメータセットを乱数などで初期化する。あるいは、前述の図5(A)等に記載の方法で、顔認証を学習して獲得したパラメータセットで初期化するなどしても良い。
In S2101, a parameter set used by the
S2102では、パラメータ決定部1502で使用するパラメータセットを乱数などで初期化する。
In S2102, the parameter set used by the
S2103では、状態のラベルが付与された顔画像群を取得する。例えば、状態が人種であれば、人種のラベルが付与された顔画像群が取得される。 In S2103, a group of facial images to which state labels have been added is acquired. For example, if the status is race, a group of facial images labeled with race are acquired.
S2104では、パラメータ決定部1502で状態のラベルを推定する。画像を入力として、DNNをフォワード処理して、Softmax関数の値を得ることを行う。
In S2104, the
S2015では、交差エントロピーとして知られる数式9に基づいて損失を計算する。 In S2015, loss is calculated based on Equation 9, which is known as cross entropy.
(数式9)
損失値 = -Σp(i)log(q(i))
ここで、p(i)は、i番目の状態値が正解のときに1をとり、それ以外は0をとる正解ラベルの情報を示す。q(i)は、i番目の状態に対応するSoftmax関数の値を示す。
(Formula 9)
Loss value = -Σp(i)log(q(i))
Here, p(i) indicates information on a correct label that takes 1 when the i-th state value is correct and takes 0 otherwise. q(i) indicates the value of the Softmax function corresponding to the i-th state.
S2016では、損失値が小さくなるように第一の特徴量変換部1501とパラメータ決定部1502のパラメータセットを更新する。DNNで一般的な誤差逆伝搬手法を用いることで損失値を減ずる方向に微小に更新していく。
In S2016, the parameter sets of the
S2107では、学習が終了したか否かを判定する。例えば、損失値の減少幅が小さくなったとき、学習が終了したと判定する。あるいは、予め定めた回数だけ学習が繰り返された場合に学習が終了したと判断するなどしてもよい。学習が終了した場合は、S2108へ移り。それ以外はS2103へ戻る。 In S2107, it is determined whether learning has ended. For example, when the amount of decrease in the loss value becomes small, it is determined that learning has ended. Alternatively, it may be determined that learning has ended when learning has been repeated a predetermined number of times. If learning is completed, the process moves to S2108. Otherwise, the process returns to S2103.
S2108では、第一の特徴量変換部1501のパラメータセットを記憶する。
In S2108, the parameter set of the
S2109では、パラメータ決定部1502のパラメータセットを記憶する。
In S2109, the parameter set of the
これによって得られた第一の特徴量変換部1501とパラメータ決定部1502のパラメータセットを用いることで、画像に対する状態を求めることができるようになる。具体的には、画像に対するSoftmax関数の値を得て、最も大きな値をとる次元に対応する状態に該当すると判定する。なお、このとき得られるSoftmax関数の値は、より確信度が高いときはより大きな値をとるようになるため、Softmax関数の値を状態スコアとして使用することもできる。
By using the parameter set of the
以上によって、状態判定と特徴量変換の中間特徴量の算出までを共通化することで、処理速度が高速化される。加えて、状態判定と特徴量変換のモデルサイズも小さくでき、メモリ使用量も削減できる。また、記憶部1503で管理する変換パラメータも小さくできるため、変換パラメータの読み出し速度を高速化できる。
As described above, the processing speed is increased by standardizing the state determination and the calculation of the intermediate feature amount of the feature amount conversion. In addition, the model size for state determination and feature value conversion can be reduced, and memory usage can also be reduced. Furthermore, since the conversion parameters managed in the
加えて、人種・年齢等の状態の異なりが、人物の異なりと一致する場合においては、確信度高く状態が異なると判断されるとき、特徴量変換をスキップして類似度を低く見積もる。これにより、処理の高速化を図れる。なお、状態の異なりに基づき類似度を低く見積もることは、状態判定と特徴量変換の中間特徴量の算出までを共通化しない場合にも適用可能である。つまり、実施形態1や実施形態2のように、状態判定と特徴量変換がともに画像を入力として行われる場合においても適用可能である。また、状態としては、人物が生涯で変化しにくい属性を設定すればよい。あるいは、運用期間が短いのであれば、年齢・髭の有無・髪型等の見た目の属性を使用してもよい。また、人種の代わりに肌の色等の代替属性を使用してもよい。そのため、使用する状態は、人種や性別に限定されるものではない。 In addition, when differences in states such as race and age match differences in people, when it is determined with high certainty that the states are different, feature amount conversion is skipped and the degree of similarity is estimated to be low. This makes it possible to speed up the processing. Note that estimating the degree of similarity to be low based on the difference in state can be applied even in the case where the calculation of the intermediate feature amount between the state determination and the feature amount conversion is not standardized. In other words, the present invention is applicable even when the state determination and the feature amount conversion are both performed using images as input, as in the first and second embodiments. Further, as the state, an attribute that is difficult to change during a person's lifetime may be set. Alternatively, if the operating period is short, appearance attributes such as age, presence of beard, hairstyle, etc. may be used. Further, an alternative attribute such as skin color may be used instead of race. Therefore, the conditions of use are not limited to race or gender.
<その他派生の形態>
本明細書中では人物の照合を中心に説明を行ったが、本発明は同一性の照合や類似度の算出に関する様々なタスクに適応可能である。例えば特定のカテゴリの物体を検出するタスク、動画中から特定形状の意匠を抽出する画像問い合わせタスク、類似画像検索、などへの適用がある。
<Other derivative forms>
Although the description in this specification has focused on matching people, the present invention is applicable to various tasks related to matching identity and calculating similarity. For example, it can be applied to tasks such as detecting objects in a specific category, image inquiry tasks to extract designs of specific shapes from videos, and similar image searches.
条件判定部103や処理モード設定部109が判定する状態は、入力画像の画質、物体の見えの角度、物体のサイズ、物体の見えの明瞭さ、照明の明暗、物体の遮蔽、物体の付属物や装着物の有無、或いは物体のサブタイプ、或いはそれらの組合せを含む。
The conditions determined by the
またここでは物体の状態に応じて2種類のパラメータを使い分けたが、これを3種類以上用いて切り替える形態も考えられる。 Further, here, two types of parameters are used depending on the state of the object, but it is also possible to use three or more types of parameters and switch between them.
またここでは画像認識の実施形態を中心に例示したが、画像に限らず、音声信号、音楽といった情報の照合や類似検索も考えられる。特許文献2のようなテキストを特徴量に変換する手法を用いることで、書籍やSNSのログ、帳票といったテキスト情報について、意味内容の類似した文書を照合・検索するといったタスクに応用することも考えられる。なお書籍やSNS等はそれぞれのカテゴリに固有な語彙やフォーマットが存在するので、各文書のカテゴリごとに特徴量変換手段を使い分けることで性能が上がる余地がある。
In addition, although the embodiment of image recognition has been mainly illustrated here, collation and similarity search of information other than images, such as audio signals and music, can also be considered. By using the method of converting text into features as in
また、実施形態では同一物体か否かの照合を主に説明したが、物体間の類似度の値を回帰推定することも可能である。そのためには例えば下式のように物体iと物体jのペア間の真の類似度を教師値として与え、推定類似度スコアとの二乗誤差で損失値を定義する。 Further, in the embodiment, the explanation has mainly been given to checking whether or not objects are the same, but it is also possible to estimate the similarity value between objects by regression estimation. To do this, for example, the true similarity between the pair of object i and object j is given as a teacher value as shown in the following equation, and the loss value is defined as the square error with the estimated similarity score.
(数式10)
損失値 = ΣiΣj (真のペア類似度スコア(fi,fj)
- ペア類似度スコア(fi,fj))2
この損失値を減ずるように特徴量変換部105と特徴量変換部106のパラメータをそれぞれ学習すればよい。ただしここでfi,fjはそれぞれ第一の学習済みモデルと第二の学習済みモデルで変換された画像の特徴量のペアである。以上のように本発明が様々なタスクに適用可能であることを示した。
(Formula 10)
Loss value = Σ i Σ j (true pair similarity score (f i, f j )
- Pair similarity score (f i, f j )) 2
The parameters of the
本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、データ通信用のネットワーク又は各種記憶媒体を介してシステム或いは装置に供給する。そして、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。また、そのプログラムをコンピュータが読み取り可能な記録媒体に記録して提供してもよい。 The present invention is also realized by performing the following processing. That is, software (programs) that implement the functions of the embodiments described above are supplied to the system or device via a data communication network or various storage media. This is a process in which the computer (or CPU, MPU, etc.) of the system or device reads and executes the program. Further, the program may be recorded on a computer-readable recording medium and provided.
1 画像処理装置
101 第一の画像取得部
102 第二の画像取得部
103 物体パラメータ決定
104 記憶部
105 第一の特徴量変換部
106 第二の特徴量変換部
107 特徴量照合部
1
Claims (24)
第二の画像内の前記所定の条件に合致しない第二の物体の第二の特徴量であって、第二の学習済みモデルを用いて得られる第二の特徴量を取得する第二の取得手段と、
前記第一の特徴量と前記第二の特徴量に基づいて、前記第一の画像内の前記第一の物体と前記第二の画像内の前記第二の物体が同一の物体であるか否かを判定する照合手段と、
を有し、
前記第一および第二の学習済みモデルは、前記第一の物体と前記第二の物体が同一の物体である場合、前記所定の条件に合致する前記第一の物体の特徴量として前記第一の学習済みモデルを用いて得られる前記第一の特徴量と、前記所定の条件に合致しない前記第二の物体の特徴量として前記第二の学習済みモデルを用いて得られる前記第二の特徴量とが類似した特徴量になるように学習されることを特徴とする画像処理装置。 A first acquisition means for acquiring a first feature amount of a first object that matches a predetermined condition in a first image and is obtained using a first trained model. and,
a second acquisition of a second feature amount of the second object that does not match the predetermined condition in the second image, the second feature amount obtained using the second trained model; means and
Based on the first feature amount and the second feature amount, whether the first object in the first image and the second object in the second image are the same object. a verification means for determining whether the
has
When the first object and the second object are the same object, the first and second trained models are configured such that when the first object and the second object are the same object, the first and second trained models the first feature amount obtained using the trained model; and the second feature obtained using the second trained model as the feature amount of the second object that does not meet the predetermined condition. An image processing device characterized in that learning is performed so that a feature quantity becomes a similar feature quantity .
第三の画像内の第三の物体が前記所定の条件に合致すると前記判定手段により判定された場合、前記第二の取得手段は、前記第三の物体の第三の特徴量であって、前記第一の学習済みモデルを用いて得られる第三の特徴量を取得し、
前記照合手段は、前記第一の特徴量と前記第三の特徴量に基づいて、前記第一の画像内の前記第一の物体と前記第三の画像内の前記第三の物体が同一の物体であるか否かを判定することを特徴とする請求項1に記載の画像処理装置。 further comprising determining means for determining whether the object in the image matches the predetermined condition;
When the determination means determines that the third object in the third image meets the predetermined condition, the second acquisition means acquires a third feature of the third object, obtaining a third feature obtained using the first trained model;
The matching means determines whether the first object in the first image and the third object in the third image are the same based on the first feature amount and the third feature amount. The image processing device according to claim 1, wherein the image processing device determines whether or not it is an object .
前記学習手段は、前記第一の画像群に含まれる物体と、前記第二の画像群に含まれる物体とが同一の物体である場合に、前記第一の画像群に含まれる物体の特徴量と、前記第二の画像群に含まれる物体の特徴量と、の類似度が所定の値より大きくなるように学習すること特徴とする請求項6に記載の画像処理装置。 The plurality of image groups include a first image group serving as a reference and a second image group obtained by converting the reference image group,
The learning means is configured to determine the feature amount of the object included in the first image group when the object included in the first image group and the object included in the second image group are the same object. 7. The image processing apparatus according to claim 6, wherein the image processing apparatus learns so that the degree of similarity between and the feature amount of the object included in the second image group becomes larger than a predetermined value.
前記取得された前記第一の画像の中間特徴量に基づいて、前記第一の学習済みモデルのパラメータを決定するパラメータ決定手段と、を更に有することを特徴とする請求項1乃至13のいずれか1項に記載の画像処理装置。 a third acquisition unit that acquires intermediate feature quantities of the first image based on a third trained model that outputs feature quantities related to the state of the object from the image;
14. The method according to claim 1, further comprising parameter determining means for determining parameters of the first learned model based on intermediate feature amounts of the acquired first image. The image processing device according to item 1 .
前記パラメータ決定手段は、前記取得された前記第二の画像の中間特徴量に基づいて、前記第二の学習済みモデルのパラメータを決定し、
前記第二の学習済みモデルのパラメータは、前記第一の画像の中間特徴量が示す前記物体の属性と前記取得された前記第二の画像の中間特徴量が示す前記物体の属性とが異なる場合は、前記第一の学習済みモデルのパラメータとは異なるパラメータに決定されることを特徴とする請求項14に記載の画像処理装置。 The third acquisition means further acquires an intermediate feature amount of the second image,
The parameter determining means determines parameters of the second trained model based on the intermediate feature amount of the acquired second image,
The parameters of the second trained model are such that the attribute of the object indicated by the intermediate feature of the first image is different from the attribute of the object indicated by the intermediate feature of the acquired second image. 15. The image processing apparatus according to claim 14, wherein if the first learned model is selected, parameters are determined to be different from parameters of the first trained model.
第二の画像の状態に応じて決定された、画像から特徴を抽出する第二の学習済みモデルに基づいて、前記第二の画像から第二の特徴量を取得する第二の取得手段と、a second acquisition unit that acquires a second feature amount from the second image based on a second trained model that extracts features from the image, which is determined according to the state of the second image;
前記第一の特徴量と前記第二の特徴量に基づいて、前記第一の画像に含まれる物体と前記第二の画像に含まれる物体が同一か否かを判定する照合手段と、を有し、Comparing means for determining whether an object included in the first image and an object included in the second image are the same based on the first feature amount and the second feature amount. death,
前記第二の学習済みモデルは、前記第一の学習済みモデルに基づいて抽出される特徴量に基づいて学習されることを特徴とする画像処理装置。The image processing device is characterized in that the second trained model is trained based on feature amounts extracted based on the first trained model.
第二の画像の状態に応じて決定された、画像から特徴を抽出する第二の学習済みモデルに基づいて、前記第二の画像から第二の特徴量を取得する第二の取得手段と、a second acquisition unit that acquires a second feature amount from the second image based on a second trained model that extracts features from the image, which is determined according to the state of the second image;
前記第一の特徴量と前記第二の特徴量に基づいて、前記第一の画像に含まれる物体と前記第二の画像に含まれる物体が同一か否かを判定する照合手段と、a matching unit that determines whether an object included in the first image and an object included in the second image are the same based on the first feature amount and the second feature amount;
画像から物体の状態に関する特徴量を出力する第三の学習済みモデルに基づいて、前記第一の画像の中間特徴量を取得する第三の取得手段と、a third acquisition unit that acquires intermediate feature quantities of the first image based on a third trained model that outputs feature quantities related to the state of the object from the image;
前記第一の画像の中間特徴量に基づいて、前記第一の学習済みモデルのパラメータを決定するパラメータ決定手段と、を有することを特徴とする画像処理装置。An image processing apparatus comprising: parameter determining means for determining parameters of the first learned model based on intermediate feature amounts of the first image.
第二の画像内の人物が前記所定の条件に合致するか否かに応じて、前記第一の学習済みモデル、または、前記第一の学習済みモデルとは異なる第二の学習済みモデルを選択する選択手段と、
前記選択手段によって選択された学習済みモデルに基づいて、前記第二の画像内の人物の特徴量として第二の特徴量を取得する取得手段と、
前記第一の特徴量と前記第二の特徴量に基づいて、前記第二の画像内の人物が前記登録人物のいずれかと同一人物であるか否かを判定する照合手段と、
を有し、
前記第一および第二の学習済みモデルは、前記所定の条件に合致する前記登録人物と前記第二の画像内の前記所定の条件に合致しない人物が同一人物である場合、前記所定の条件に合致する前記登録人物の特徴量として前記第一の学習済みモデルを用いて得られる前記第一の特徴量と、前記所定の条件に合致しない前記人物の特徴量として前記第二の学習済みモデルを用いて得られる前記第二の特徴量とが類似した特徴量になるように学習されることを特徴とする画像処理装置。 a registration means for registering a first feature amount obtained using the first trained model for each image of a registered person that meets a predetermined condition ;
The first trained model or a second trained model different from the first trained model is selected depending on whether the person in the second image matches the predetermined condition. a selection means to
acquisition means for acquiring a second feature amount as a feature amount of the person in the second image based on the learned model selected by the selection means ;
a verification unit that determines whether the person in the second image is the same as any of the registered persons based on the first feature amount and the second feature amount ;
has
The first and second trained models meet the predetermined condition when the registered person who matches the predetermined condition and the person who does not match the predetermined condition in the second image are the same person. The first feature amount obtained by using the first trained model as the feature amount of the registered person who matches, and the second learned model as the feature amount of the person who does not match the predetermined condition. An image processing apparatus characterized in that learning is performed so that the second feature obtained by using the second feature becomes a similar feature .
第二の画像内の前記所定の条件に合致しない第二の物体の第二の特徴量であって、第二の学習済みモデルを用いて得られる第二の特徴量を取得する第二の取得工程と
前記第一の特徴量と前記第二の特徴量に基づいて、前記第一の画像内の前記第一の物体と前記第二の画像内の前記第二の物体が同一の物体であるか否かを判定する照合工程と、
を有し、
前記第一および第二の学習済みモデルは、前記第一の物体と前記第二の物体が同一の物体である場合、前記所定の条件に合致する前記第一の物体の特徴量として前記第一の学習済みモデルを用いて得られる前記第一の特徴量と、前記所定の条件に合致しない前記第二の物体の特徴量として前記第二の学習済みモデルを用いて得られる前記第二の特徴量とが類似した特徴量になるように学習されることを特徴とする画像処理方法。 A first acquisition step of acquiring a first feature amount of a first object that matches a predetermined condition in the first image and is obtained using the first trained model. and a second feature amount of the second object that does not match the predetermined condition in the second image, the second feature amount obtained using the second trained model. an acquisition step; based on the first feature amount and the second feature amount, the first object in the first image and the second object in the second image are the same object; A verification step to determine whether or not there is a
has
When the first object and the second object are the same object, the first and second trained models are configured such that when the first object and the second object are the same object, the first and second trained models the first feature amount obtained using the trained model; and the second feature obtained using the second trained model as the feature amount of the second object that does not meet the predetermined condition. An image processing method characterized in that the image processing method is characterized in that learning is performed so that the quantity becomes a similar feature quantity .
第二の画像内の人物が前記所定の条件に合致するか否かに応じて、前記第一の学習済みモデル、または、前記第一の学習済みモデルとは異なる第二の学習済みモデルを選択する選択工程と、
前記選択工程によって選択された学習済みモデルに基づいて、前記第二の画像内の人物の特徴量として第二の特徴量を取得する取得工程と、
前記第一の特徴量と前記第二の特徴量に基づいて、前記第二の画像内に含まれる人物が前記登録人物のいずれかと同一人物であるか否かを判定する照合工程と、
を有し、
前記第一および第二の学習済みモデルは、前記所定の条件に合致する前記登録人物と前記第二の画像内の前記所定の条件に合致しない人物が同一人物である場合、前記所定の条件に合致する前記登録人物の特徴量として前記第一の学習済みモデルを用いて得られる前記第一の特徴量と、前記所定の条件に合致しない前記人物の特徴量として前記第二の学習済みモデルを用いて得られる前記第二の特徴量とが類似した特徴量になるように学習されることを特徴とする画像処理方法。 a registration step of registering a first feature amount obtained using the first trained model for each image of a registered person that meets predetermined conditions ;
The first trained model or a second trained model different from the first trained model is selected depending on whether the person in the second image matches the predetermined condition. a selection process to
an acquisition step of acquiring a second feature amount as a feature amount of the person in the second image based on the trained model selected in the selection step ;
a matching step of determining whether a person included in the second image is the same as one of the registered persons based on the first feature amount and the second feature amount ;
has
The first and second trained models meet the predetermined condition when the registered person who matches the predetermined condition and the person who does not match the predetermined condition in the second image are the same person. The first feature amount obtained by using the first trained model as the feature amount of the registered person who matches, and the second learned model as the feature amount of the person who does not match the predetermined condition. An image processing method characterized in that learning is performed so that the second feature obtained using the image processing method is similar to the second feature .
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2022/021288 WO2022250063A1 (en) | 2021-05-26 | 2022-05-24 | Image processing device and image processing method for performing facial authentication |
CN202280037899.7A CN117396929A (en) | 2021-05-26 | 2022-05-24 | Image processing apparatus and image processing method for performing face recognition |
EP22811333.8A EP4350611A1 (en) | 2021-05-26 | 2022-05-24 | Image processing device and image processing method for performing facial authentication |
US18/514,325 US20240087364A1 (en) | 2021-05-26 | 2023-11-20 | Image processing apparatus configured to perform face recognition, image processing method, and storage medium |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021088227 | 2021-05-26 | ||
JP2021088227 | 2021-05-26 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022182960A JP2022182960A (en) | 2022-12-08 |
JP7346528B2 true JP7346528B2 (en) | 2023-09-19 |
Family
ID=84328739
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021192448A Active JP7346528B2 (en) | 2021-05-26 | 2021-11-26 | Image processing device, image processing method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7346528B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024195055A1 (en) * | 2023-03-22 | 2024-09-26 | 日本電気株式会社 | Information processing device, information processing method, and recording medium |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007280250A (en) | 2006-04-11 | 2007-10-25 | Matsushita Electric Ind Co Ltd | Face authentication system |
JP2017117024A (en) | 2015-12-22 | 2017-06-29 | キヤノン株式会社 | Image recognition apparatus, image recognition method, and imaging apparatus |
JP2018147240A (en) | 2017-03-06 | 2018-09-20 | パナソニックIpマネジメント株式会社 | Image processing device, image processing method, and image processing program |
JP2018160237A (en) | 2017-03-23 | 2018-10-11 | 三星電子株式会社Samsung Electronics Co.,Ltd. | Facial verification method and apparatus |
JP2018165980A (en) | 2017-03-28 | 2018-10-25 | 三星電子株式会社Samsung Electronics Co.,Ltd. | Face authentication method and apparatus |
JP2018165983A (en) | 2017-03-28 | 2018-10-25 | 三星電子株式会社Samsung Electronics Co.,Ltd. | Face authentication method and device |
US20180373924A1 (en) | 2017-06-26 | 2018-12-27 | Samsung Electronics Co., Ltd. | Facial verification method and apparatus |
JP2019102081A (en) | 2017-12-05 | 2019-06-24 | 富士通株式会社 | Data processing apparatus and data processing method |
WO2020121425A1 (en) | 2018-12-12 | 2020-06-18 | 三菱電機株式会社 | State determination device, state determination method, and state determination program |
JP2020115311A (en) | 2019-01-18 | 2020-07-30 | オムロン株式会社 | Model integration device, model integration method, model integration program, inference system, inspection system and control system |
-
2021
- 2021-11-26 JP JP2021192448A patent/JP7346528B2/en active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007280250A (en) | 2006-04-11 | 2007-10-25 | Matsushita Electric Ind Co Ltd | Face authentication system |
JP2017117024A (en) | 2015-12-22 | 2017-06-29 | キヤノン株式会社 | Image recognition apparatus, image recognition method, and imaging apparatus |
JP2018147240A (en) | 2017-03-06 | 2018-09-20 | パナソニックIpマネジメント株式会社 | Image processing device, image processing method, and image processing program |
JP2018160237A (en) | 2017-03-23 | 2018-10-11 | 三星電子株式会社Samsung Electronics Co.,Ltd. | Facial verification method and apparatus |
JP2018165980A (en) | 2017-03-28 | 2018-10-25 | 三星電子株式会社Samsung Electronics Co.,Ltd. | Face authentication method and apparatus |
JP2018165983A (en) | 2017-03-28 | 2018-10-25 | 三星電子株式会社Samsung Electronics Co.,Ltd. | Face authentication method and device |
US20180373924A1 (en) | 2017-06-26 | 2018-12-27 | Samsung Electronics Co., Ltd. | Facial verification method and apparatus |
JP2019102081A (en) | 2017-12-05 | 2019-06-24 | 富士通株式会社 | Data processing apparatus and data processing method |
WO2020121425A1 (en) | 2018-12-12 | 2020-06-18 | 三菱電機株式会社 | State determination device, state determination method, and state determination program |
JP2020115311A (en) | 2019-01-18 | 2020-07-30 | オムロン株式会社 | Model integration device, model integration method, model integration program, inference system, inspection system and control system |
Also Published As
Publication number | Publication date |
---|---|
JP2022182960A (en) | 2022-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wu et al. | RGB-infrared cross-modality person re-identification | |
Martinel et al. | Person reidentification in a distributed camera network framework | |
Bai et al. | Unsupervised adversarial instance-level image retrieval | |
CN108805077A (en) | A kind of face identification system of the deep learning network based on triple loss function | |
KR102225613B1 (en) | Person re-identification apparatus and method | |
Barman et al. | Shape: A novel graph theoretic algorithm for making consensus-based decisions in person re-identification systems | |
CN112801054B (en) | Face recognition model processing method, face recognition method and device | |
GB2591496A (en) | De-centralised learning for re-identification | |
KR102483650B1 (en) | User verification device and method | |
CN109190521B (en) | Construction method and application of face recognition model based on knowledge purification | |
US20220012511A1 (en) | Systems and methods for enrollment in a multispectral stereo facial recognition system | |
CN113312989A (en) | Finger vein feature extraction network based on aggregation descriptor and attention | |
Ren et al. | A deep and structured metric learning method for robust person re-identification | |
JP7346528B2 (en) | Image processing device, image processing method and program | |
Sarin et al. | Cnn-based multimodal touchless biometric recognition system using gait and speech | |
CN112926557B (en) | Method for training multi-mode face recognition model and multi-mode face recognition method | |
WO2022250063A1 (en) | Image processing device and image processing method for performing facial authentication | |
Guo et al. | Density-adaptive kernel based re-ranking for person re-identification | |
CN114154587B (en) | Multi-mode event detection method based on complementary content perception | |
WO2022267816A1 (en) | Face recognition method and apparatus, and electronic device and storage medium | |
CN114782209B (en) | Social network topological graph-based associated user identity recognition method | |
CN117556330A (en) | Cross-modal pedestrian searching method and system based on knowledge transfer | |
KR20210071410A (en) | Sensor-specific image recognition device and method | |
CN117396929A (en) | Image processing apparatus and image processing method for performing face recognition | |
Zhao et al. | Online learning of dynamic multi-view gallery for person re-identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220308 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220308 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230530 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230727 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230808 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230906 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7346528 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |