JP7559063B2 - フェイスパーシング方法および関連デバイス - Google Patents
フェイスパーシング方法および関連デバイス Download PDFInfo
- Publication number
- JP7559063B2 JP7559063B2 JP2022528685A JP2022528685A JP7559063B2 JP 7559063 B2 JP7559063 B2 JP 7559063B2 JP 2022528685 A JP2022528685 A JP 2022528685A JP 2022528685 A JP2022528685 A JP 2022528685A JP 7559063 B2 JP7559063 B2 JP 7559063B2
- Authority
- JP
- Japan
- Prior art keywords
- face
- pixel
- boundary
- network
- belongs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 47
- 230000008447 perception Effects 0.000 claims description 102
- 230000004927 fusion Effects 0.000 claims description 100
- 238000013528 artificial neural network Methods 0.000 claims description 89
- 230000006870 function Effects 0.000 claims description 86
- 238000012549 training Methods 0.000 claims description 34
- 230000001815 facial effect Effects 0.000 claims description 21
- 238000011176 pooling Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 12
- 230000011218 segmentation Effects 0.000 description 9
- 238000004590 computer program Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 210000004709 eyebrow Anatomy 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 210000004209 hair Anatomy 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/162—Detection; Localisation; Normalisation using pixel segmentation or colour matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2193—Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Description
セマンティック知覚サブネットワークは、顔画像からセマンティック特徴を抽出するために、入力RGB(赤、緑、および青)顔画像のセマンティックセグメンテーション(すなわち、各ピクセルにセマンティックラベル(目、鼻など)が与えられる)のために使用され、セマンティック特徴は、顔画像の各ピクセルが様々な顔領域に属する確率を表す。PSPNet(Pyramid Spatial Pooling Network:ピラミッド空間プーリングネットワーク)およびDeeplabなど、メインストリームのセグメンテーションネットワークがセマンティック知覚サブネットワークに採用され得る。この実施形態では、好ましくは、スケルトンセグメンテーションネットワークとして残差ネットワークResNet-101が採用される。セマンティック知覚サブネットワークによって抽出されたセマンティック特徴(特徴マップ)のサイズは、N×C×W×Hであり、Nはバッチサイズを表し、Cはセマンティックラベルカテゴリの数を表し、WおよびHはセマンティック特徴の幅および高さを表す。
境界知覚サブネットワークは、顔画像から境界特徴を抽出するために使用され、境界特徴は、顔画像の各ピクセルが異なる顔領域間の境界に属する確率を表す。換言すると、境界知覚サブネットワークは、入力RGB顔画像の各ピクセルが境界領域に属しているかどうかを予測するバイナリ分類問題を扱うことができる。例としてスケルトンセグメンテーションネットワークとしてResNet(残差ネットワーク)-101を取り上げると、ResNet-101の5つの畳み込みブロックのうちの3つの中間の畳み込みブロックの各々の最後の畳み込み層から、境界知覚サブネットワークが畳み込み特徴を抽出できる。次いで、3つの畳み込み特徴が、同じサイズにマッピングされ(例えば、畳み込み特徴の画像サイズがリサイズ動作によって変更される)、組み合わせ畳み込み特徴に連結される。次いで、組み合わせ畳み込み特徴は、一連の畳み込み動作を介して新しい特徴空間にマッピングされる。出力境界特徴のサイズ(予測された境界マップ)は、N×2×W×Hであり、N、W、およびHは、セマンティック知覚サブネットワークに一致し、チャネル数のみが異なる。境界特徴のチャネル数は2である(ピクセルが境界に属するかどうかを示す)。境界特徴の各ピクセルは、ピクセルが前景(境界)と背景(非境界)にそれぞれ属する確率を表す2次元ベクトルに対応する。
融合サブネットワークは、入力RGB顔画像の正確なセマンティックセグメンテーションのために使用され、すなわち、連結されたセマンティック特徴と境界特徴を畳み込み、顔画像の融合特徴を取得する。融合特徴は、顔画像の各ピクセルが様々な顔領域に属する予測確率と、顔画像の各ピクセルが境界に属する予測確率とを表す。融合特徴の特徴マップのサイズもN×C×W×Hであり、Nはバッチサイズを表し、Cはカテゴリの数を表し、WおよびHは出力特徴マップの幅および高さを表す。融合サブネットワークはさらに、融合特徴に従って、特にソフトマックス正規化関数によって顔画像の各ピクセルが属する顔領域を決定する。
フェイス・パーシング・ニューラル・ネットワークをトレーニングする際、各ピクセルが属する顔領域によって注釈付けされたサンプルの顔画像を使用して、フェイス・パーシング・ニューラル・ネットワークをトレーニングする。トレーニングされたフェイス・パーシング・ニューラル・ネットワークは、入力顔画像に従って、顔画像の各ピクセルが属する顔領域を出力できる。
フェイス・パーシング・ニューラル・ネットワークに使用される損失関数Lは、セマンティック知覚サブネットワークの損失関数Ls、境界知覚サブネットワークの損失関数Lbを含み、すなわち、L=λ1Ls+λ2Lbであり、ここで、λ1およびλ2の両方は、ゼロより大きく、2つの異なるブランチの損失関数の重みである。
事前トレーニングされたフェイス・パーシング・ニューラル・ネットワークに顔画像を入力するように構成された画像入力モジュール401と、フェイス・パーシング・ニューラル・ネットワークのセマンティック知覚サブネットワークを使用して顔画像からセマンティック特徴を抽出するように構成されたセマンティック特徴抽出モジュール402であって、セマンティック特徴が顔画像の各ピクセルが様々な顔領域に属している確率を表す、セマンティック特徴抽出モジュール402と、フェイス・パーシング・ニューラル・ネットワークの境界知覚サブネットワークを使用して顔画像から境界特徴を抽出するように構成された境界特徴抽出モジュール403であって、境界特徴が、顔画像の各ピクセルが異なる顔領域間の境界に属する確率を表す、境界特徴抽出モジュール403と、顔画像の各ピクセルが属する顔領域を取得するためにフェイス・パーシング・ニューラル・ネットワークの融合サブネットワークを使用して連結されたセマンティック特徴および境界特徴を処理するように構成されたフェイスパーシングモジュール404とを備える。
401 画像入力モジュール
402 セマンティック特徴抽出モジュール
403 境界特徴抽出モジュール
404 フェイスパーシングモジュール
50 電子デバイス
510 メモリ
520 プロセッサ
530 入出力インターフェース
540 ネットワークインターフェース
550 ストレージインターフェース
Claims (12)
- フェイス・パーシング・ニューラル・ネットワークのトレーニング方法であって、
各ピクセルが属する顔内の領域を用いて注釈付けされたサンプルの顔画像を使用して、前記フェイス・パーシング・ニューラル・ネットワークを事前にトレーニングするステップを備え、
前記トレーニングされたフェイス・パーシング・ニューラル・ネットワークは、入力顔画像に従って顔画像の各ピクセルが属する顔内の領域を出力するように構成され、
前記フェイス・パーシング・ニューラル・ネットワークは、セマンティック知覚サブネットワーク、境界知覚サブネットワーク、および融合サブネットワークを含み、
前記セマンティック知覚サブネットワークは、前記サンプルの顔画像からセマンティック特徴を抽出するように構成され、前記セマンティック特徴が、前記サンプルの顔画像の各ピクセルが様々な顔内の領域に属する確率を表し、
前記境界知覚サブネットワークは、前記サンプルの顔画像から境界特徴を抽出するように構成され、前記境界特徴は、前記サンプルの顔画像の各ピクセルが異なる顔内の領域間の境界に属する確率を表し、
前記融合サブネットワークは、連結されたセマンティック特徴と境界特徴を処理して、前記サンプルの顔画像の各ピクセルが属する顔内の領域を取得するように構成され、
前記フェイス・パーシング・ニューラル・ネットワークの前記融合サブネットワークは、前記連結されたセマンティック特徴と境界特徴を処理して、前記サンプルの顔画像の融合特徴を取得するように構成され、前記融合特徴は、前記サンプルの顔画像の各ピクセルが様々な顔内の領域に属する予測確率と、前記サンプルの顔画像の各ピクセルが前記境界に属する予測確率とを表し、前記融合特徴は、前記サンプルの顔画像の各ピクセルが属する顔内の領域を決定するように構成され、
前記フェイス・パーシング・ニューラル・ネットワークをトレーニングする際に使用する損失関数は、前記セマンティック知覚サブネットワークの損失関数と、前記境界知覚サブネットワークの損失関数と、前記融合サブネットワークの損失関数とを含み、
前記セマンティック知覚サブネットワークの損失関数は、前記セマンティック特徴の各ピクセルが様々な顔内の領域に属する予測確率と、前記セマンティック特徴の各ピクセルが実際に属する顔内の領域とに従って決定され、
前記境界知覚サブネットワークの損失関数は、前記境界特徴の各ピクセルが異なる顔内の領域間の境界に属する予測確率と、前記境界特徴の各ピクセルが実際に境界に属するか否かとに従って決定され、
前記融合サブネットワークの損失関数が、前記融合特徴の各ピクセルが様々な顔内の領域に属する予測確率と、前記融合特徴の各ピクセルが実際に属する顔内の領域と、前記融合特徴の各ピクセルが前記境界に属するか否かとに従って決定され、前記融合サブネットワークの損失関数が、前記融合特徴の各ピクセルが様々な顔内の領域に属する予測確率と前記融合特徴の各ピクセルが実際に属する顔内の領域とに関する損失関数、および前記融合特徴の各ピクセルの重み係数という2つの成分の積によって決定され、前記融合特徴の各ピクセルの前記重み係数が、各ピクセルが実際に前記境界に属する場合と比較して、各ピクセルが実際に前記境界に属さない場合に小さい、
トレーニング方法。 - 前記セマンティック知覚サブネットワークの損失関数Lsは、
- 前記境界知覚サブネットワークの損失関数Lbは、
- 前記融合サブネットワークの損失関数Lfは、
- 請求項1~4のいずれか一項に記載のトレーニング方法を使用してフェイス・パーシング・ニューラル・ネットワークをトレーニングすることによって事前トレーニングされたフェイス・パーシング・ニューラル・ネットワークを取得するステップと、
前記事前トレーニングされたフェイス・パーシング・ニューラル・ネットワークに顔画像を入力するステップと、
前記フェイス・パーシング・ニューラル・ネットワークのセマンティック知覚サブネットワークを使用して、前記顔画像からセマンティック特徴を抽出するステップであって、前記セマンティック特徴は、前記顔画像の各ピクセルが様々な顔内の領域に属する確率を表す、ステップと、
前記フェイス・パーシング・ニューラル・ネットワークの境界知覚サブネットワークを使用して前記顔画像から境界特徴を抽出するステップであって、前記境界特徴は、前記顔画像の各ピクセルが異なる顔内の領域間の境界に属する確率を表す、ステップと、
前記フェイス・パーシング・ニューラル・ネットワークの融合サブネットワークを使用して前記連結されたセマンティック特徴と境界特徴を処理して、前記顔画像の各ピクセルが属する顔内の領域を取得するステップと
を備える、フェイスパーシング方法。 - 前記セマンティック知覚サブネットワークが畳み込み層を含み、
セマンティック知覚サブネットワークを使用して前記顔画像からセマンティック特徴を抽出するステップが、前記畳み込み層を使用して前記顔画像に拡張畳み込みを実行して、畳み込み特徴を取得するステップを備える、請求項5に記載のフェイスパーシング方法。 - 前記セマンティック知覚サブネットワークがプール層を備え、
セマンティック知覚サブネットワークを使用して前記顔画像からセマンティック特徴を抽出するステップがさらに、前記プール層を使用して畳み込み特徴のマルチスケールプーリングを実行して、マルチスケールのプールされた特徴を取得するステップと、前記マルチスケールのプールされた特徴と前記畳み込み特徴とを連結するステップとを備える、請求項5に記載のフェイスパーシング方法。 - 前記境界知覚サブネットワークおよび前記融合サブネットワークは、畳み込み層を備える、請求項5に記載のフェイスパーシング方法。
- 各ピクセルが属する顔内の領域を用いて注釈付けされたサンプルの顔画像を使用して、フェイス・パーシング・ニューラル・ネットワークを事前にトレーニングするように構成されたフェイス・パーシング・ニューラル・ネットワークのためのトレーニング装置であって、
前記トレーニングされたフェイス・パーシング・ニューラル・ネットワークは、入力顔画像に従って顔画像の各ピクセルが属する顔内の領域を出力するように構成され、
前記フェイス・パーシング・ニューラル・ネットワークは、セマンティック知覚サブネットワーク、境界知覚サブネットワーク、および融合サブネットワークを含み、
前記セマンティック知覚サブネットワークは、前記サンプルの顔画像からセマンティック特徴を抽出するように構成され、前記セマンティック特徴が、前記サンプルの顔画像の各ピクセルが様々な顔内の領域に属する確率を表し、
前記境界知覚サブネットワークは、前記サンプルの顔画像から境界特徴を抽出するように構成され、前記境界特徴は、前記サンプルの顔画像の各ピクセルが異なる顔内の領域間の境界に属する確率を表し、
前記融合サブネットワークは、連結されたセマンティック特徴と境界特徴を処理して、前記サンプルの顔画像の各ピクセルが属する顔内の領域を取得するように構成され、
前記フェイス・パーシング・ニューラル・ネットワークの前記融合サブネットワークは、前記連結されたセマンティック特徴と境界特徴を処理して、前記サンプルの顔画像の融合特徴を取得するように構成され、前記融合特徴は、前記サンプルの顔画像の各ピクセルが様々な顔内の領域に属する予測確率と、前記サンプルの顔画像の各ピクセルが前記境界に属する予測確率とを表し、前記融合特徴は、前記サンプルの顔画像の各ピクセルが属する顔内の領域を決定するように構成され、
前記フェイス・パーシング・ニューラル・ネットワークをトレーニングする際に使用する損失関数は、前記セマンティック知覚サブネットワークの損失関数と、前記境界知覚サブネットワークの損失関数と、前記融合サブネットワークの損失関数とを含み、
前記セマンティック知覚サブネットワークの損失関数は、前記セマンティック特徴の各ピクセルが様々な顔内の領域に属する予測確率と、前記セマンティック特徴の各ピクセルが実際に属する顔内の領域とに従って決定され、
前記境界知覚サブネットワークの損失関数は、前記境界特徴の各ピクセルが異なる顔内の領域間の境界に属する予測確率と、前記境界特徴の各ピクセルが実際に境界に属するか否かとに従って決定され、
前記融合サブネットワークの損失関数が、前記融合特徴の各ピクセルが様々な顔内の領域に属する予測確率と、前記融合特徴の各ピクセルが実際に属する顔内の領域と、前記融合特徴の各ピクセルが前記境界に属するか否かとに従って決定され、前記融合サブネットワークの損失関数が、前記融合特徴の各ピクセルが様々な顔内の領域に属する予測確率と前記融合特徴の各ピクセルが実際に属する顔内の領域とに関する損失関数、および前記融合特徴の各ピクセルの重み係数という2つの成分の積によって決定され、前記融合特徴の各ピクセルの前記重み係数が、各ピクセルが実際に前記境界に属する場合と比較して、各ピクセルが実際に前記境界に属さない場合に小さい、
トレーニング装置。 - 事前トレーニングされたフェイス・パーシング・ニューラル・ネットワークを取得するように構成された請求項9に記載のトレーニング装置と、
前記事前トレーニングされたフェイス・パーシング・ニューラル・ネットワークに顔画像を入力するように構成された画像入力モジュールと、
前記フェイス・パーシング・ニューラル・ネットワークのセマンティック知覚サブネットワークを使用して、前記顔画像からセマンティック特徴を抽出するように構成されたセマンティック特徴抽出モジュールであって、前記セマンティック特徴は、前記顔画像の各ピクセルが様々な顔内の領域に属する確率を表す、セマンティック特徴抽出モジュールと、
前記フェイス・パーシング・ニューラル・ネットワークの境界知覚サブネットワークを使用して前記顔画像から境界特徴を抽出するように構成された境界特徴抽出モジュールであって、前記境界特徴は、前記顔画像の各ピクセルが異なる顔内の領域間の境界に属する確率を表す、境界特徴抽出モジュールと、
前記フェイス・パーシング・ニューラル・ネットワークの融合サブネットワークを使用して前記連結されたセマンティック特徴と境界特徴を処理して、前記顔画像の各ピクセルが属する顔内の領域を取得するように構成されたフェイスパーシングモジュールと
を備える、フェイスパーシング装置。 - 電子デバイスであって、
メモリと、
前記メモリに結合されたプロセッサとを備え、前記プロセッサが、前記メモリに記憶された命令に基づいて、請求項5~8のいずれか一項に記載のフェイスパーシング方法、あるいは請求項1~4のいずれか一項に記載のトレーニング方法を実行するように構成される、電子デバイス。 - コンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体であって、コンピュータ命令は、プロセッサによる実行時に、請求項5~8のいずれか一項に記載のフェイスパーシング方法、あるいは請求項1~4のいずれか一項に記載のトレーニング方法を実行する、非一時的コンピュータ可読記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911125557.7A CN111783514A (zh) | 2019-11-18 | 2019-11-18 | 面部解析方法、装置及计算机可读存储介质 |
CN201911125557.7 | 2019-11-18 | ||
PCT/CN2020/109826 WO2021098300A1 (zh) | 2019-11-18 | 2020-08-18 | 面部解析方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023501820A JP2023501820A (ja) | 2023-01-19 |
JP7559063B2 true JP7559063B2 (ja) | 2024-10-01 |
Family
ID=72755755
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022528685A Active JP7559063B2 (ja) | 2019-11-18 | 2020-08-18 | フェイスパーシング方法および関連デバイス |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220406090A1 (ja) |
EP (1) | EP4047509A4 (ja) |
JP (1) | JP7559063B2 (ja) |
CN (1) | CN111783514A (ja) |
WO (1) | WO2021098300A1 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112233776A (zh) * | 2020-11-09 | 2021-01-15 | 江苏科技大学 | 基于视觉渐近式空洞网络的皮肤病自学习辅助判定系统 |
US11954853B2 (en) * | 2021-07-21 | 2024-04-09 | GE Precision Healthcare LLC | Systems and methods for fast mammography data handling |
CN113743194B (zh) * | 2021-07-23 | 2024-02-02 | 北京眼神智能科技有限公司 | 人脸静默活体检测方法、装置、电子设备及存储介质 |
CN113724269B (zh) * | 2021-08-12 | 2024-08-02 | 浙江大华技术股份有限公司 | 实例分割方法、实例分割网络的训练方法及相关设备 |
US20230260269A1 (en) * | 2022-02-15 | 2023-08-17 | Ford Global Technologies, Llc | Biometric task network |
US20230260328A1 (en) * | 2022-02-15 | 2023-08-17 | Ford Global Technologies, Llc | Biometric task network |
US20230260301A1 (en) * | 2022-02-15 | 2023-08-17 | Ford Global Technologies, Llc | Biometric task network |
CN114283488B (zh) * | 2022-03-08 | 2022-06-14 | 北京万里红科技有限公司 | 生成检测模型的方法及利用检测模型检测眼睛状态的方法 |
CN118351589B (zh) * | 2024-06-12 | 2024-08-27 | 湖南火眼医疗科技有限公司 | 图像处理方法、装置、设备、存储介质及程序产品 |
CN118396071B (zh) * | 2024-07-01 | 2024-09-03 | 山东科技大学 | 一种用于无人船环境理解的边界驱动神经网络结构 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108062543A (zh) | 2018-01-16 | 2018-05-22 | 中车工业研究院有限公司 | 一种面部识别方法及装置 |
CN109255784A (zh) | 2018-09-13 | 2019-01-22 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN110348322A (zh) | 2019-06-19 | 2019-10-18 | 西华师范大学 | 基于多特征融合的人脸活体检测方法及设备 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006072077A2 (en) * | 2004-12-30 | 2006-07-06 | American Off-Road Technologies, Llc | Improved reduced-size vehicle |
US10528846B2 (en) * | 2016-11-14 | 2020-01-07 | Samsung Electronics Co., Ltd. | Method and apparatus for analyzing facial image |
CN108073876B (zh) * | 2016-11-14 | 2023-09-19 | 北京三星通信技术研究有限公司 | 面部解析设备和面部解析方法 |
US10726244B2 (en) * | 2016-12-07 | 2020-07-28 | Samsung Electronics Co., Ltd. | Method and apparatus detecting a target |
US10496884B1 (en) * | 2017-09-19 | 2019-12-03 | Deepradiology Inc. | Transformation of textbook information |
US10748036B2 (en) * | 2017-11-21 | 2020-08-18 | Nvidia Corporation | Training a neural network to predict superpixels using segmentation-aware affinity loss |
CN109741331B (zh) * | 2018-12-24 | 2021-10-26 | 北京航空航天大学 | 一种图像前景物体分割方法 |
CN110148145B (zh) * | 2019-03-25 | 2023-10-10 | 东南大学 | 一种融合边界信息的图像目标区提取方法及应用 |
CN110070091B (zh) * | 2019-04-30 | 2022-05-24 | 福州大学 | 用于街景理解的基于动态插值重建的语义分割方法及系统 |
CN110059768B (zh) * | 2019-04-30 | 2022-11-15 | 福州大学 | 用于街景理解的融合点与区域特征的语义分割方法及系统 |
US11373352B1 (en) * | 2021-03-04 | 2022-06-28 | Meta Platforms, Inc. | Motion transfer using machine-learning models |
US11960570B2 (en) * | 2021-08-25 | 2024-04-16 | Nvidia Corporation | Learning contrastive representation for semantic correspondence |
US20240135511A1 (en) * | 2022-10-06 | 2024-04-25 | Adobe Inc. | Generating a modified digital image utilizing a human inpainting model |
-
2019
- 2019-11-18 CN CN201911125557.7A patent/CN111783514A/zh active Pending
-
2020
- 2020-08-18 US US17/777,045 patent/US20220406090A1/en active Pending
- 2020-08-18 JP JP2022528685A patent/JP7559063B2/ja active Active
- 2020-08-18 EP EP20889944.3A patent/EP4047509A4/en active Pending
- 2020-08-18 WO PCT/CN2020/109826 patent/WO2021098300A1/zh unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108062543A (zh) | 2018-01-16 | 2018-05-22 | 中车工业研究院有限公司 | 一种面部识别方法及装置 |
CN109255784A (zh) | 2018-09-13 | 2019-01-22 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN110348322A (zh) | 2019-06-19 | 2019-10-18 | 西华师范大学 | 基于多特征融合的人脸活体检测方法及设备 |
Non-Patent Citations (3)
Title |
---|
@klis(himkt),"多クラス交差エントロピー誤差関数とソフトマックス関数,その美しき微分",[online],2018年08月19日,[retrieved on 2024-02-15], https://qiita.com/klis/items/4ad3032d02ff815e09e6 |
"Machine Learning forFinance",[online],2019年05月,[retrieved on 2024-02-15], https://subscription.packtpub.com/book/data/9781789136364/1/ch01lvl1sec21/measuring-model-loss |
Tao Ruan et al.,"Devilin the Details: Towards Accurate Single and Multiple Human Parsing",[online],2018年11月29日,[retrieved on 2024-02-15], https://arxiv.org/abs/1809.05996 |
Also Published As
Publication number | Publication date |
---|---|
EP4047509A1 (en) | 2022-08-24 |
CN111783514A (zh) | 2020-10-16 |
US20220406090A1 (en) | 2022-12-22 |
WO2021098300A1 (zh) | 2021-05-27 |
JP2023501820A (ja) | 2023-01-19 |
EP4047509A4 (en) | 2023-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7559063B2 (ja) | フェイスパーシング方法および関連デバイス | |
CN111104962B (zh) | 图像的语义分割方法、装置、电子设备及可读存储介质 | |
US11328172B2 (en) | Method for fine-grained sketch-based scene image retrieval | |
CN112818975B (zh) | 文本检测模型训练方法及装置、文本检测方法及装置 | |
CN110020676A (zh) | 基于多感受野深度特征的文本检测方法、系统、设备及介质 | |
WO2020062360A1 (zh) | 一种图像融合分类的方法及装置 | |
EP3923233A1 (en) | Image denoising method and apparatus | |
WO2020098257A1 (zh) | 一种图像分类方法、装置及计算机可读存储介质 | |
CN110008853B (zh) | 行人检测网络及模型训练方法、检测方法、介质、设备 | |
CN112256899B (zh) | 图像重排序方法、相关设备及计算机可读存储介质 | |
CN113487610B (zh) | 疱疹图像识别方法、装置、计算机设备和存储介质 | |
CN114241478A (zh) | 宫颈细胞图像中异常细胞图像识别方法、装置 | |
CN114266894A (zh) | 一种图像分割方法、装置、电子设备及存储介质 | |
CN112819007B (zh) | 图像识别方法、装置、电子设备及存储介质 | |
CN113869371A (zh) | 模型训练方法、服装细粒度分割方法及相关装置 | |
CN113343981A (zh) | 一种视觉特征增强的字符识别方法、装置和设备 | |
CN112529068A (zh) | 一种多视图图像分类方法、系统、计算机设备和存储介质 | |
CN114841974A (zh) | 一种水果内部结构无损检测方法、系统、电子设备及介质 | |
CN114612709A (zh) | 图像金字塔特征指导的多尺度目标检测方法 | |
WO2024140642A1 (zh) | 一种图像处理方法、装置及计算设备 | |
CN111738069A (zh) | 人脸检测方法、装置、电子设备及存储介质 | |
CN112771566A (zh) | 图像处理装置和图像处理方法 | |
CN116468702A (zh) | 黄褐斑评估方法、装置、电子设备及计算机可读存储介质 | |
CN115775386A (zh) | 用户界面组件的识别方法、装置、计算机设备和存储介质 | |
CN112183299A (zh) | 行人属性预测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220720 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230522 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240226 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240521 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240819 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240918 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7559063 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |