[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP7559063B2 - フェイスパーシング方法および関連デバイス - Google Patents

フェイスパーシング方法および関連デバイス Download PDF

Info

Publication number
JP7559063B2
JP7559063B2 JP2022528685A JP2022528685A JP7559063B2 JP 7559063 B2 JP7559063 B2 JP 7559063B2 JP 2022528685 A JP2022528685 A JP 2022528685A JP 2022528685 A JP2022528685 A JP 2022528685A JP 7559063 B2 JP7559063 B2 JP 7559063B2
Authority
JP
Japan
Prior art keywords
face
pixel
boundary
network
belongs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022528685A
Other languages
English (en)
Other versions
JP2023501820A (ja
Inventor
▲穎▼▲ル▼ ▲劉▼
▲海▼林 石
涛 ▲梅▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Publication of JP2023501820A publication Critical patent/JP2023501820A/ja
Application granted granted Critical
Publication of JP7559063B2 publication Critical patent/JP7559063B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/162Detection; Localisation; Normalisation using pixel segmentation or colour matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2193Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

関連出願の相互参照本出願は、その全体が参照により本出願に組み込まれる、2019年11月18日に出願された中国特許出願201911125557.7に基づき、該出願の優先権の利益を主張する。
本開示は、人工知能の分野に関し、特に、フェイスパーシング方法および装置、フェイスパーシングネットワークについてのトレーニング方法および装置、電子デバイスおよび非一時的コンピュータ可読記憶媒体に関する。
フェイスパーシングは、顔画像中の各ピクセルにセマンティックラベルを割当てて、各ピクセルが属する顔領域、髪、顔の皮膚、眉、目、鼻、口などを表すことを指す。
近年、ディープラーニングの発達および人工知能技術の成熟に伴い、フェイスパーシング技術は、顔の合成、顔の拡張現実技術など、顔関連のアプリケーションにますます採用されている。
本開示の第1の態様では、フェイスパーシング方法が提供され、該方法は、事前トレーニングされたフェイス・パーシング・ニューラル・ネットワークに顔画像を入力するステップと、フェイス・パーシング・ニューラル・ネットワークのセマンティック知覚サブネットワークを使用して、顔画像からセマンティック特徴を抽出するステップであって、セマンティック特徴は、顔画像の各ピクセルが様々な顔領域に属する確率を表す、ステップと、フェイス・パーシング・ニューラル・ネットワークの境界知覚サブネットワークを使用して顔画像から境界特徴を抽出するステップであって、境界特徴は、顔画像の各ピクセルが異なる顔領域間の境界に属する確率を表す、ステップと、フェイス・パーシング・ニューラル・ネットワークの融合サブネットワークを使用して連結されたセマンティック特徴と境界特徴を処理して、顔画像の各ピクセルが属する顔領域を取得するステップとを備える、
いくつかの実施形態では、フェイスパーシング方法はさらに、各ピクセルが属する顔領域を用いて注釈付けされたサンプルの顔画像を使用して、フェイス・パーシング・ニューラル・ネットワークをトレーニングするステップをさらに備え、トレーニングされたフェイス・パーシング・ニューラル・ネットワークは、入力顔画像に従って顔画像の各画像が属する顔領域を出力する。
いくつかの実施形態では、フェイス・パーシング・ニューラル・ネットワークをトレーニングする際に使用される損失関数は、セマンティック知覚サブネットワークの損失関数と境界知覚サブネットワークの損失関数とを含み、セマンティック知覚サブネットワークの損失関数は、セマンティック特徴の各ピクセルが様々な顔領域に属する予測確率と、セマンティック特徴の各ピクセルが実際に属する顔領域とに従って決定され、境界知覚サブネットワークの損失関数は、境界特徴の各ピクセルが異なる顔領域間の境界に属する予測確率と、境界特徴の各ピクセルが実際に境界に属するか否かとに従って決定される。
いくつかの実施形態では、フェイス・パーシング・ニューラル・ネットワークの融合サブネットワークを使用して連結されたセマンティック特徴と境界特徴を処理して、顔画像の各ピクセルが属する顔領域を取得するステップは、フェイス・パーシング・ニューラル・ネットワークの融合サブネットワークを使用して連結されたセマンティック特徴と境界特徴を処理して、顔画像の融合特徴を取得するステップであって、融合特徴が顔画像の各ピクセルが様々な顔領域に属する予測確率と、顔画像の各ピクセルが境界に属する予測確率とを表す、ステップと、融合特徴に従って顔画像の各ピクセルが属する顔領域を決定するステップとを備える。
いくつかの実施形態では、フェイス・パーシング・ニューラル・ネットワークをトレーニングする際に使用される損失関数が融合サブネットワークの損失関数をさらに含み、融合サブネットワークの損失関数が、融合特徴の各ピクセルが様々な顔領域に属する予測確率と、融合特徴の各ピクセルが実際に属する顔領域と、融合特徴の各ピクセルが境界に属するか否かとに従って決定される。
いくつかの実施形態では、セマンティック知覚サブネットワークの損失関数Lsは、
Figure 0007559063000001
である。
Nは、セマンティック特徴のピクセル総数であり、iは、セマンティック特徴のピクセルの識別子であり、Cは、顔領域のカテゴリの総数であり、jは、顔領域のカテゴリの識別子であり、ピクセルiが顔領域jに実際に属している場合ys ij=1であり、ピクセルiが顔領域jに実際に属していない場合ys ij=0であり、ps ijは、ピクセルiが顔領域jに属する予測確率である。
境界知覚サブネットワークの損失関数Lbは、
Figure 0007559063000002
である。
Nは、境界特徴のピクセル総数であり、iは、境界特徴のピクセルの識別子であり、ピクセルiが実際に境界に属している場合yb i=1であり、ピクセルiが実際に境界に属していない場合yb i=0であり、pb iは、ピクセルiが境界に属している予測確率である。
融合サブネットワークの損失関数Lfは、
Figure 0007559063000003
である。
Nは、融合特徴のピクセル総数であり、iは、融合特徴のピクセルの識別子であり、Cは、顔領域のカテゴリの総数であり、jは、顔領域のカテゴリの識別子であり、ピクセルiが顔領域jに実際に属している場合ys ij=1であり、ピクセルiが顔領域jに実際に属していない場合ys ij=0であり、ps ijは、ピクセルiが顔領域jに属する予測確率であり、ピクセルiが実際に境界に属している場合wi>1であり、ピクセルiが実際に境界に属していない場合wi=1である。
いくつかの実施形態では、セマンティック知覚サブネットワークが畳み込み層を含み、セマンティック知覚サブネットワークを使用して顔画像からセマンティック特徴を抽出するステップが、畳み込み層を使用して顔画像に拡張畳み込みを実行して、畳み込み特徴を取得するステップを備える。
いくつかの実施形態では、セマンティック知覚サブネットワークがプール層を備え、セマンティック知覚サブネットワークを使用して顔画像からセマンティック特徴を抽出するステップがさらに、プール層を使用して畳み込み特徴のマルチスケールプーリングを実行して、マルチスケールのプールされた特徴を取得するステップと、マルチスケールのプールされた特徴と畳み込み特徴とを連結するステップとを備える。
いくつかの実施形態では、境界知覚サブネットワークおよび融合サブネットワークは、畳み込み層を備える。
本開示の第2の態様では、フェイス・パーシング・ニューラル・ネットワークのトレーニング方法が提供され、該方法は、各ピクセルが属する顔領域を用いて注釈付けされたサンプルの顔画像を使用して、フェイス・パーシング・ニューラル・ネットワークを事前にトレーニングするステップを備え、トレーニングされたフェイス・パーシング・ニューラル・ネットワークは、入力顔画像に従って顔画像の各ピクセルが属する顔領域を出力するように構成され、フェイス・パーシング・ニューラル・ネットワークは、セマンティック知覚サブネットワーク、境界知覚サブネットワーク、および融合サブネットワークを含み、セマンティック知覚サブネットワークは、サンプルの顔画像からセマンティック特徴を抽出するように構成され、セマンティック特徴が、サンプルの顔画像の各ピクセルが様々な顔領域に属する確率を表し、境界知覚サブネットワークは、サンプルの顔画像から境界特徴を抽出するように構成され、境界特徴は、サンプルの顔画像の各ピクセルが異なる顔領域間の境界に属する確率を表し、融合サブネットワークは、連結されたセマンティック特徴と境界特徴を処理して、サンプルの顔画像の各ピクセルが属する顔領域を取得する。
いくつかの実施形態では、フェイス・パーシング・ニューラル・ネットワークをトレーニングする際に使用する損失関数は、セマンティック知覚サブネットワークの損失関数と、境界知覚サブネットワークの損失関数とを含み、セマンティック知覚サブネットワークの損失関数は、セマンティック特徴の各ピクセルが様々な顔領域に属する予測確率と、セマンティック特徴の各ピクセルが実際に属する顔領域とに従って決定され、境界知覚サブネットワークの損失関数は、境界特徴の各ピクセルが異なる顔領域間の境界に属する予測確率と、境界特徴の各ピクセルが実際に境界に属するか否かとに従って決定される。
いくつかの実施形態では、フェイス・パーシング・ニューラル・ネットワークの融合サブネットワークは、連結されたセマンティック特徴と境界特徴を処理して、サンプルの顔画像の融合特徴を取得するように構成され、融合特徴は、サンプルの顔画像の各ピクセルが様々な顔領域に属する予測確率およびサンプルの顔画像の各ピクセルが境界に属する予測確率を表し、融合特徴は、サンプルの顔画像の各ピクセルが属する顔領域を決定するように構成される。
いくつかの実施形態では、フェイス・パーシング・ニューラル・ネットワークをトレーニングする際に使用する損失関数は、融合サブネットワークの損失関数を含み、融合サブネットワークの損失関数が、融合特徴の各ピクセルが様々な顔領域に属する予測確率と、融合特徴の各ピクセルが実際に属する顔領域と、融合特徴の各ピクセルが境界に属するか否かとに従って決定される。
いくつかの実施形態では、セマンティック知覚サブネットワークの損失関数Lsは、
Figure 0007559063000004
である。
Nは、セマンティック特徴のピクセル総数であり、iは、セマンティック特徴のピクセルの識別子であり、Cは、顔領域のカテゴリの総数であり、jは、顔領域のカテゴリの識別子であり、ピクセルiが顔領域jに実際に属している場合ys ij=1であり、ピクセルiが顔領域jに実際に属していない場合ys ij=0であり、ps ijは、ピクセルiが顔領域jに属する予測確率である。
いくつかの実施形態では、境界知覚サブネットワークの損失関数Lbは、
Figure 0007559063000005
である。
Nは、境界特徴のピクセル総数であり、iは、境界特徴のピクセルの識別子であり、ピクセルiが実際に境界に属している場合yb i=1であり、ピクセルiが実際に境界に属していない場合yb i=0であり、pb iは、ピクセルiが境界に属している予測確率である。
いくつかの実施形態では、融合サブネットワークの損失関数Lfは、
Figure 0007559063000006
である。
Nは、融合特徴のピクセル総数であり、iは、融合特徴のピクセルの識別子であり、Cは、顔領域のカテゴリの総数であり、jは、顔領域のカテゴリの識別子であり、ピクセルiが顔領域jに実際に属している場合ys ij=1であり、ピクセルiが顔領域jに実際に属していない場合ys ij=0であり、ps ijは、ピクセルiが顔領域jに属する予測確率であり、ピクセルiが実際に境界に属している場合wi>1であり、ピクセルiが実際に境界に属していない場合wi=1である。
本開示の第3の態様では、フェイスパーシング装置が提供され、該装置は、事前トレーニングされたフェイス・パーシング・ニューラル・ネットワークに顔画像を入力するように構成された画像入力モジュールと、フェイス・パーシング・ニューラル・ネットワークのセマンティック知覚サブネットワークを使用して、顔画像からセマンティック特徴を抽出するように構成されたセマンティック特徴抽出モジュールであって、セマンティック特徴は、顔画像の各ピクセルが様々な顔領域に属する確率を表す、セマンティック特徴抽出モジュールと、フェイス・パーシング・ニューラル・ネットワークの境界知覚サブネットワークを使用して顔画像から境界特徴を抽出するように構成された境界特徴抽出モジュールであって、境界特徴は、顔画像の各ピクセルが異なる顔領域間の境界に属する確率を表す、境界特徴抽出モジュールと、フェイス・パーシング・ニューラル・ネットワークの融合サブネットワークを使用して連結されたセマンティック特徴と境界特徴を処理して、顔画像の各ピクセルが属する顔領域を取得するように構成されたフェイスパーシングモジュールとを備える。
いくつかの実施形態では、フェイスパーシング装置はさらに、各ピクセルが属する顔領域を用いて注釈付けされたサンプルの顔画像を使用して、フェイス・パーシング・ニューラル・ネットワークをトレーニングするように構成されたネットワークトレーニングモジュールを備え、前記トレーニングされたフェイス・パーシング・ニューラル・ネットワークは、入力された顔画像に従って入力された顔画像の各ピクセルが属する顔領域を出力する。
いくつかの実施形態では、フェイス・パーシング・ニューラル・ネットワークをトレーニングするためにネットワークトレーニングモジュールによって採用される損失関数は、セマンティック知覚サブネットワークの損失関数と、境界知覚サブネットワークの損失関数とを含み、セマンティック知覚サブネットワークの損失関数は、セマンティック特徴の各ピクセルが様々な顔領域に属する予測確率と、セマンティック特徴の各ピクセルが実際に属する顔領域とに従って決定され、境界知覚サブネットワークの損失関数は、境界特徴の各ピクセルが異なる顔領域間の境界に属する予測確率と、境界特徴の各ピクセルが実際に境界に属するか否かとに従って決定される。
いくつかの実施形態では、フェイスパーシングモジュールは、フェイス・パーシング・ニューラル・ネットワークの融合サブネットワークを使用して連結されたセマンティック特徴と境界特徴を処理して、顔画像の各ピクセルが属する顔領域を取得することであって、融合特徴が顔画像の各ピクセルが様々な顔領域に属する予測確率と、顔画像の各ピクセルが境界に属する予測確率とを表す、ことと、融合特徴に従って顔画像の各ピクセルが属する顔領域を決定することとを行うように構成される。
いくつかの実施形態では、フェイス・パーシング・ニューラル・ネットワークをトレーニングするためにネットワークトレーニングモジュールによって採用される損失関数はさらに、融合サブネットワークの損失関数を含み、融合サブネットワークの損失関数は、融合特徴の各ピクセルが様々な顔領域に属する予測確率と、融合特徴の各ピクセルが実際に属する顔領域と、融合特徴の各ピクセルが境界に属するか否かとに従って決定される。
いくつかの実施形態では、セマンティック知覚サブネットワークの損失関数Lsは、
Figure 0007559063000007
である。
Nは、セマンティック特徴のピクセル総数であり、iは、セマンティック特徴のピクセルの識別子であり、Cは、顔領域のカテゴリの総数であり、jは、顔領域のカテゴリの識別子であり、ピクセルiが顔領域jに実際に属している場合ys ij=1であり、ピクセルiが顔領域jに実際に属していない場合ys ij=0であり、ps ijは、ピクセルiが顔領域jに属する予測確率である。
いくつかの実施形態では、境界知覚サブネットワークの損失関数Lbは、
Figure 0007559063000008
である。
Nは、境界特徴のピクセル総数であり、iは、境界特徴のピクセルの識別子であり、ピクセルiが実際に境界に属している場合yb i=1であり、ピクセルiが実際に境界に属していない場合yb i=0であり、pb iは、ピクセルiが境界に属している予測確率である。
いくつかの実施形態では、融合サブネットワークの損失関数Lfは、
Figure 0007559063000009
である。
Nは、融合特徴のピクセル総数であり、iは、融合特徴のピクセルの識別子であり、Cは、顔領域のカテゴリの総数であり、jは、顔領域のカテゴリの識別子であり、ピクセルiが顔領域jに実際に属している場合ys ij=1であり、ピクセルiが顔領域jに実際に属していない場合ys ij=0であり、ps ijは、ピクセルiが顔領域jに属する予測確率であり、ピクセルiが実際に境界に属している場合wi>1であり、ピクセルiが実際に境界に属していない場合wi=1である。
いくつかの実施形態では、セマンティック知覚サブネットワークが畳み込み層を含み、セマンティック特徴抽出モジュールは、畳み込み層を使用して顔画像に拡張畳み込みを実行して、畳み込み特徴を取得するように構成される。
いくつかの実施形態では、セマンティック知覚サブネットワークはさらに、プール層を備え、セマンティック特徴抽出モジュールはさらに、プール層を使用して畳み込み特徴のマルチスケールプーリングを実行して、マルチスケールのプールされた特徴を取得し、マルチスケールのプールされた特徴と畳み込み特徴とを連結するように構成される。
いくつかの実施形態では、境界知覚サブネットワークおよび融合サブネットワークは畳み込み層を含む。
本開示の第4の態様では、フェイス・パーシング・ニューラル・ネットワークのためのトレーニング装置が提供され、該トレーニング装置は、各ピクセルが属する顔領域を用いて注釈付けされたサンプルの顔画像を使用して、フェイス・パーシング・ニューラル・ネットワークを事前にトレーニングするように構成され、トレーニングされたフェイス・パーシング・ニューラル・ネットワークは、入力顔画像に従って顔画像の各ピクセルが属する顔領域を出力するように構成され、フェイス・パーシング・ニューラル・ネットワークは、セマンティック知覚サブネットワーク、境界知覚サブネットワーク、および融合サブネットワークを含み、セマンティック知覚サブネットワークは、サンプルの顔画像からセマンティック特徴を抽出するように構成され、セマンティック特徴が、サンプルの顔画像の各ピクセルが様々な顔領域に属する確率を表し、境界知覚サブネットワークは、サンプルの顔画像から境界特徴を抽出するように構成され、境界特徴は、サンプルの顔画像の各ピクセルが異なる顔領域間の境界に属する確率を表し、融合サブネットワークは、連結されたセマンティック特徴と境界特徴を処理して、サンプルの顔画像の各ピクセルが属する顔領域を取得する。
本開示の第5の態様では、電子デバイスが提供され、該電子デバイスが、メモリと、メモリに結合されたプロセッサとを備え、プロセッサが、メモリに記憶された命令に基づいて、フェイスパーシング方法あるいはレーニング方法を実行するように構成される。
本開示の第6の態様では、コンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体であって、コンピュータ命令は、プロセッサによる実行時に、フェイスパーシング方法あるいはトレーニング方法を実行する。
本発明の他の特徴および利点は、添付の図面を参照して本開示の例示的な実施形態の以降の詳細な説明から明らかになるであろう。
本開示の実施形態または先行技術の技術的解決策をより明確に説明するために、実施形態または先行技術の説明に使用される必要のある図面について以下に簡単な紹介をする。以下に示される図面が単に本開示の実施形態の一部に過ぎないことは明らかである。当業者はまた、発明の努力が含まれないことを前提として、そのような図面に従う他の図面を獲得してもよい。
本開示のいくつかの実施形態によるフェイス・パーシング・ニューラル・ネットワークの構造図を示す図である。 本開示のいくつか実施形態によるフェイスパーシング方法のフローチャートを示す図である。 3つのフェイスパーシングモデルに対応する視覚的なフェイスパーシング結果を示す図である。 本開示のいくつかの実施形態によるフェイスパーシング装置の構造図を示す図である。 本開示のいくつかの実施形態による電子デバイスの構造図を示す図である。
実施形態の図面を参照しながら本開示の実施形態の技術的解決策が、以下に明確かつ完全に記載される。当然ながら、本開示のすべての実施形態ではなく、いくつかの実施形態のみが本明細書に記載されている。少なくとも1つの例示的な実施形態の以下の説明は、実際には単なる例示であり、本発明、その応用または使用に対する限定を意図するものではない。創造的な努力なしに本開示の実施形態に基づいて当業者によって得られる他のすべての実施形態は、本開示の保護範囲に含まれるものである。
セマンティックセグメンテーションは、コンピュータビジョンにおける基本タスクである。セマンティックセグメンテーションでは、視覚的入力が、異なるセマンティック解釈可能なカテゴリにセグメント分けされる必要がある。発明者は、フェイスパーシングがピクセルレベルのセマンティックセグメンテーションタスクであると確信している。ディープラーニングは強固な特徴抽出能力を有するが、境界領域(異なる顔の領域間のエリア)のピクセルをセグメント化するための能力は改善の必要がある。2つの理由があり、第1に、境界ピクセルは、異なるカテゴリの交差領域に位置し、一定のセマンティックの混同を有するとともに区別し難いピクセルに属するためであり、第2に、ストライドが1より大きいプーリングと畳み込みは、受容野を増加させる可能性があるが、特徴マップの解像度を低下させる可能性もあり、特に境界領域の情報が失われる可能性があるためである。上記2つの態様が、境界領域のピクセルが区別し難い主な理由である。
従来のフェイスパーシング技術は、主に、ニューラルネットワークの基本構造を変更することによって、またはブロック処理を通して、フェイスパーシングの性能を改善するものであり、その両方が、特徴マップ全体を対象とする動作であり、境界領域のピクセルに対して具体的に何も行わないため、それらは依然として境界領域の低いセグメンテーションの精度の問題を解決できていない。フェイスパーシングタスクについて、顔領域全体における境界領域の比率は、シーン分析および他のタスクの比率より大きく、境界領域の識別精度の向上は、フェイスパーシングの精度の向上に直結する。一例としてフェイスパーシングを取り上げながら、開示はフェイスパーシングの精度の向上方法について論じる。
本開示によって解決されるべき技術的問題は、フェイスパーシングの精度の向上方法である。
本開示は、顔画像内の異なる顔領域間の境界ピクセルを識別するようにニューラルネットワークの能力を改善でき、フェイスパーシングの精度を向上することができる。
第1に、本開示に採用するフェイス・パーシング・ニューラル・ネットワークのいくつかの実施形態が、図1を参照して紹介される。
図1は、本開示のいくつかの実施形態によるフェイス・パーシング・ニューラル・ネットワークの構造図を示す。図1に示すように、フェイス・パーシング・ニューラル・ネットワークは、3つのブランチ:セマンティック知覚サブネットワーク、境界知覚サブネットワーク、および融合サブネットワークを含む。セマンティック知覚サブネットワークは、畳み込み層とプール層を有し得る。境界知覚サブネットワークおよび融合サブネットワークは、畳み込み層を有し得る。
(1)セマンティック知覚サブネットワーク
セマンティック知覚サブネットワークは、顔画像からセマンティック特徴を抽出するために、入力RGB(赤、緑、および青)顔画像のセマンティックセグメンテーション(すなわち、各ピクセルにセマンティックラベル(目、鼻など)が与えられる)のために使用され、セマンティック特徴は、顔画像の各ピクセルが様々な顔領域に属する確率を表す。PSPNet(Pyramid Spatial Pooling Network:ピラミッド空間プーリングネットワーク)およびDeeplabなど、メインストリームのセグメンテーションネットワークがセマンティック知覚サブネットワークに採用され得る。この実施形態では、好ましくは、スケルトンセグメンテーションネットワークとして残差ネットワークResNet-101が採用される。セマンティック知覚サブネットワークによって抽出されたセマンティック特徴(特徴マップ)のサイズは、N×C×W×Hであり、Nはバッチサイズを表し、Cはセマンティックラベルカテゴリの数を表し、WおよびHはセマンティック特徴の幅および高さを表す。
(2)境界知覚サブネットワーク
境界知覚サブネットワークは、顔画像から境界特徴を抽出するために使用され、境界特徴は、顔画像の各ピクセルが異なる顔領域間の境界に属する確率を表す。換言すると、境界知覚サブネットワークは、入力RGB顔画像の各ピクセルが境界領域に属しているかどうかを予測するバイナリ分類問題を扱うことができる。例としてスケルトンセグメンテーションネットワークとしてResNet(残差ネットワーク)-101を取り上げると、ResNet-101の5つの畳み込みブロックのうちの3つの中間の畳み込みブロックの各々の最後の畳み込み層から、境界知覚サブネットワークが畳み込み特徴を抽出できる。次いで、3つの畳み込み特徴が、同じサイズにマッピングされ(例えば、畳み込み特徴の画像サイズがリサイズ動作によって変更される)、組み合わせ畳み込み特徴に連結される。次いで、組み合わせ畳み込み特徴は、一連の畳み込み動作を介して新しい特徴空間にマッピングされる。出力境界特徴のサイズ(予測された境界マップ)は、N×2×W×Hであり、N、W、およびHは、セマンティック知覚サブネットワークに一致し、チャネル数のみが異なる。境界特徴のチャネル数は2である(ピクセルが境界に属するかどうかを示す)。境界特徴の各ピクセルは、ピクセルが前景(境界)と背景(非境界)にそれぞれ属する確率を表す2次元ベクトルに対応する。
(3)融合サブネットワーク
融合サブネットワークは、入力RGB顔画像の正確なセマンティックセグメンテーションのために使用され、すなわち、連結されたセマンティック特徴と境界特徴を畳み込み、顔画像の融合特徴を取得する。融合特徴は、顔画像の各ピクセルが様々な顔領域に属する予測確率と、顔画像の各ピクセルが境界に属する予測確率とを表す。融合特徴の特徴マップのサイズもN×C×W×Hであり、Nはバッチサイズを表し、Cはカテゴリの数を表し、WおよびHは出力特徴マップの幅および高さを表す。融合サブネットワークはさらに、融合特徴に従って、特にソフトマックス正規化関数によって顔画像の各ピクセルが属する顔領域を決定する。
(4)フェイス・パーシング・ニューラル・ネットワークのトレーニング
フェイス・パーシング・ニューラル・ネットワークをトレーニングする際、各ピクセルが属する顔領域によって注釈付けされたサンプルの顔画像を使用して、フェイス・パーシング・ニューラル・ネットワークをトレーニングする。トレーニングされたフェイス・パーシング・ニューラル・ネットワークは、入力顔画像に従って、顔画像の各ピクセルが属する顔領域を出力できる。
(5)フェイス・パーシング・ニューラル・ネットワークの損失関数
フェイス・パーシング・ニューラル・ネットワークに使用される損失関数Lは、セマンティック知覚サブネットワークの損失関数Ls、境界知覚サブネットワークの損失関数Lbを含み、すなわち、L=λ1Ls2Lbであり、ここで、λ1およびλ2の両方は、ゼロより大きく、2つの異なるブランチの損失関数の重みである。
セマンティック知覚サブネットワークの損失関数は、セマンティック特徴の各ピクセルが様々な顔領域に属する予測確率およびセマンティック特徴の各ピクセルが実際に属する顔領域に従って決定される。例えば、セマンティック知覚サブネットワークの損失関数Lsは、
Figure 0007559063000010
である。
ここで、Nは、セマンティック特徴のピクセル総数であり、iは、セマンティック特徴のピクセルの識別子であり、Cは、顔領域のカテゴリ総数であり、jは、顔領域のカテゴリの識別子である。ピクセルiが顔領域jに実際に属している場合、ys ij=1である。ピクセルiが顔領域jに実際に属していない場合、ys ij=0である。ps ijは、ピクセルiが顔領域jに属すると予測された確率であり、すなわち、ソフトマックスの後のセマンティック知覚サブネットワークにより抽出されたセマンティック特徴の出力値である。
境界知覚サブネットワークの損失関数は、境界特徴の各ピクセルが異なる顔領域間の境界に属している予測確率と、境界特徴の各ピクセルが実際に境界に属しているか否かとに従って決定される。例えば、境界知覚サブネットワークの損失関数Lbは、
Figure 0007559063000011
である。
ここで、Nは、境界特徴のピクセル総数であり、iは、境界特徴のピクセルの識別子である。ピクセルiが境界に実際に属している場合、yb i=1であり、ピクセルiが境界に実際に属していない場合、yb i=0である。pb iは、ピクセルiが境界に属している予測確率である。境界知覚サブネットワークの境界マップ(正解:Ground truth)を使用して、各ピクセルが境界領域に属しているか否かを示す。上述の損失関数を最適化することにより、境界知覚サブネットワークは、各ピクセルが境界領域に属する確率を予測するために、顔画像の境界情報を最大限に活用することができる。
フェイス・パーシング・ニューラル・ネットワークをトレーニングするために使用される損失関数Lはさらに、融合サブネットワークの損失関数Lfを含むことができ、すなわち、L=λ1Ls2Lb3Lfであり、λ1、λ2、およびλ3はいずれも、ゼロより大きく、3つの異なるブランチの損失関数の重みである。当業者は、λ1、λ2、およびλ3が、フェイス・パーシング・ニューラル・ネットワークの一部のブランチのより良いパフォーマンスのために、実際の必要性に応じて調整され得ることを理解されたい。例えば、λ2がより大きく設定される場合、より良い境界知覚パフォーマンスがフェイス・パーシング・ニューラル・ネットワークにおいて達成され得る。
融合サブネットワークの損失関数は、融合特徴の各ピクセルが様々な顔領域に属する予測確率、融合特徴の各ピクセルが実際に属する顔領域、および融合特徴の各ピクセルが境界に属するか否かに従って決定される。例えば、融合サブネットワークの損失関数Lfは、
Figure 0007559063000012
である。
ここで、Nは、融合特徴のピクセル総数であり、iは、融合特徴のピクセルの識別子であり、Cは、顔領域のカテゴリ総数であり、jは、顔領域のカテゴリの識別子である。ピクセルiが顔領域jに実際に属している場合、ys ij=1であり、ピクセルiが顔領域jに実際に属していない場合、ys ij=0である。ps ijは、ピクセルiが顔領域jに属すると予測された確率である。wiは、重みマップのピクセルiに対応する値であり、ピクセルiの重み係数を示す。ピクセルiが境界に実際に属している(すなわち、yb i=1)場合、wi>1(wi=1+αであり、αは境界ピクセルの重みを増やすために使用される正の値である)である。ピクセルiが境界に実際に属していない(すなわち、yb i=0)場合、wi=1である。境界知覚サブネットワークの境界マップ(正解)を使用して、重みマップが、境界ピクセルの損失を重み付けするように構築され得る。
当業者は、フェイス・パーシング・ニューラル・ネットワークの各ブランチによって実現される関数が各ブランチに対応する損失関数に依存していることを理解されたい。様々なブランチに対応した損失関数からなる全損失関数を用いてフェイス・パーシング・ニューラル・ネットワークをトレーニングした後、フェイス・パーシング・ニューラル・ネットワークの各ブランチは、対応する関数を有することができる。また、本実施形態におけるλ1、λ2、λ3、およびαは、実験結果に従って調整および決定され得る。
本実施形態は、フェイス・パーシング・ニューラル・ネットワークを提供する。一方では、より多くの境界ピクセル情報が、境界知覚特徴およびセマンティック知覚特徴を組み合わせることによって取得され、もう一方では、境界ピクセルの損失が、境界ピクセルの影響を改善するために重み付けされる。したがって、本実施形態によって提供されるフェイス・パーシング・ニューラル・ネットワークは、顔画像の異なる顔領域(間)に属する境界ピクセルに対してよりセンシティブであり、区別および認識しにくい境界ピクセルに対してより注意を払うことができる。
本開示のフェイスパーシング方法のいくつかの実施形態が、図2を参照して以下に説明される。
図2は、本開示のいくつかの実施形態によるフェイスパーシング方法のフローチャートを示す。図2に示すように、本実施形態はステップS201~S204を含む。
ステップS201では、顔画像が、事前トレーニングされたフェイス・パーシング・ニューラル・ネットワークに入力される。
ステップS202では、セマンティック特徴が、フェイス・パーシング・ニューラル・ネットワークのセマンティック知覚サブネットワークを使用して顔画像から抽出され、セマンティック特徴が、顔画像の各ピクセルが様々な顔領域に属する確率を表す。
いくつかの実施形態では、拡張畳み込みまたは膨張畳み込みが、畳み込み層を使用して顔画像に対して実行され、畳み込み特徴を取得する。
例えば、解像度情報の損失を減らすために、拡張畳み込みが、ResNet-101の第5の畳み込みブロックに採用されることがあり、その結果、出力特徴マップの解像度が、入力顔画像の1/32になる代わりに入力顔画像の1/16となり、それにより、顔画像の詳細情報をある程度保持する。当業者は、拡張畳み込みが他の畳み込みブロックに使用でき、かつ複数の畳み込みブロックに使用できることを理解されたい。
いくつかの実施形態では、畳み込み特徴は、プール層を使用してマルチスケールのプールされた特徴を取得することにより、複数のスケールにわたってプールされ、次いで畳み込み特徴と連結される。
例えば、顔画像のグローバル特徴のより良い使用のため、PSPNetのマルチスケールのプール動作が採用され得る。図1に示すように、ResNet-101の第5の畳み込みブロックの最後の畳み込み層から出力された畳み込み特徴は、4つのスケール、すなわち、1×1、2×2、4×4、および6×6にわたってプルールされる次いで、これらのプールされた特徴は、ラベル予測のためにプールされていない畳み込み特徴と連結される。当業者は、異なるサイズのこれらの特徴が連結前に同じサイズにマッピングされ(例えば、プールされた特徴の画像サイズを変更するためのリサイズ動作を使用して)、次いで結合されたプールされた特徴に連結され得ることを理解されたい。
ステップS203では、境界特徴が、フェイス・パーシング・ニューラル・ネットワークの境界知覚サブネットワークを使用して顔画像から抽出され、境界特徴は、顔画像の各ピクセルが異なる顔領域間の境界に属する確率を表す。
ステップS204では、セマンティック特徴および境界特徴が、それらが連結されるとき、フェイス・パーシング・ニューラル・ネットワークの融合サブネットワークを使用して処理されて、顔画像の各ピクセルが属する顔領域を取得する。
この実施形態は、顔画像の異なる顔領域間の境界ピクセルを区別するように、ニューラルネットワークの能力を改善でき、フェイスパーシングの精度および全体の性能を改善する。
本開示の有効性は、以下の実験データによってより直感的に検証することができる。
様々なブランチの貢献度が、LaPaフェイスパーシングデータセット上で比較される。LaPaデータセットは、22000個の顔画像を含み、それぞれが、106点のランドマークおよび11個のカテゴリピクセルレベルのフェイスパーシング注釈を含む。11個のカテゴリは、髪、肌、左眉、右眉、左目、右目、鼻、上唇、口の中、下唇、および背景を含む。3つのモデルが比較され、モデルAはセマンティック知覚サブネットワークのみを使用した結果を表し、モデルBは、境界知覚サブネットワークおよび融合サブネットワークをモデルAに加えた性能を表すが、損失の重みはない、すなわち、Lfではwiが常に1に設定され、モデルCは、モデルBに損失の重みを加えた、すなわち、αの導入後の性能を表す。3つモデルの性能比較の結果を表1に示す。表1の値はF値である。F値は、統計における2つの分類モデルの精度を測定するために使用されるインデックスであり、分類モデルの適合率と再現率を同時に考慮し、モデルの適合率と再現率の加重平均と見なすことができる。F値は、最大値が1であり、最小値が0である。F値の計算式は以下である。
Figure 0007559063000013
表1から分かるように、モデルBの平均F値は、モデルAと比較して0.87%増えており、各サブクラスがある程度の改善を有し、このことは、境界知覚サブネットワークを加えることが、全体のフェイスパーシング精度を効果的に改善できるということを証明している。モデルBと比較して、モデルCの平均F値は、1.1%増えており、このことは、境界マップを使用して境界領域におけるピクセルの損失を重み付けることも効果的であることを証明している。モデルCは、各サブクラスで高い認識精度性能を達成している。境界知覚特徴および境界マップを使用して境界ピクセル損失を重み付けすることはどちらも、フェイスパーシングの性能を向上するために効果的な方法であることが分かる。図3は、3つのフェイスパーシングモデルに対応する視覚フェイスパーシング結果を示す。図3に示すように、第1の列はオリジナルの入力画像を示し、後の4列は、第1の列の画像の点線のボックスの拡大部分の結果である。第2の列は、モデルAに対応するフェイスパーシング結果を示し、第3の列は、モデルBに対応するフェイスパーシング結果を示し、第4の列は、モデルCに対応するフェイスパーシング結果を示し、第5の列は、真の値を示す。
本開示のフェイスパーシング装置のいくつかの実施形態は、図4を参照して以下に説明する。
図4は、本開示のいくつかの実施形態によるフェイスパーシング装置の構造図を示す。図4に示すように、本実施形態のフェイスパーシング装置40は、
事前トレーニングされたフェイス・パーシング・ニューラル・ネットワークに顔画像を入力するように構成された画像入力モジュール401と、フェイス・パーシング・ニューラル・ネットワークのセマンティック知覚サブネットワークを使用して顔画像からセマンティック特徴を抽出するように構成されたセマンティック特徴抽出モジュール402であって、セマンティック特徴が顔画像の各ピクセルが様々な顔領域に属している確率を表す、セマンティック特徴抽出モジュール402と、フェイス・パーシング・ニューラル・ネットワークの境界知覚サブネットワークを使用して顔画像から境界特徴を抽出するように構成された境界特徴抽出モジュール403であって、境界特徴が、顔画像の各ピクセルが異なる顔領域間の境界に属する確率を表す、境界特徴抽出モジュール403と、顔画像の各ピクセルが属する顔領域を取得するためにフェイス・パーシング・ニューラル・ネットワークの融合サブネットワークを使用して連結されたセマンティック特徴および境界特徴を処理するように構成されたフェイスパーシングモジュール404とを備える。
いくつかの実施形態では、フェイスパーシング装置40はさらに、各ピクセルが属する顔領域を用いて注釈付けされたサンプルの顔画像を使用してフェイス・パーシング・ニューラル・ネットワークをトレーニングするように構成されたネットワークトレーニングモジュールを備え、トレーニングされたフェイス・パーシング・ニューラル・ネットワークは、入力顔画像に従って顔画像の各ピクセルが属する顔領域を出力できる。
いくつかの実施形態では、フェイス・パーシング・ニューラル・ネットワークをトレーニングするためにネットワークトレーニングモジュール400によって採用される損失関数は、セマンティック知覚サブネットワークの損失関数と、境界知覚サブネットワークの損失関数とを含む。セマンティック知覚サブネットワークの損失関数は、セマンティック特徴の各ピクセルが様々な顔領域に属する予測確率と、セマンティック特徴の各ピクセルが実際に属する顔領域とに従って決定される。境界知覚サブネットワークの損失関数は、境界特徴の各ピクセルが異なる顔領域間の境界に属する予測確率と、境界特徴の各ピクセルが実際に境界に属するか否かとに従って決定される。
いくつかの実施形態では、フェイスパーシングモジュール404は、フェイス・パーシング・ニューラル・ネットワークの融合サブネットワークを使用して連結されたセマンティック特徴と境界特徴を処理して、顔画像の各ピクセルが属する顔領域を取得することであって、融合特徴が顔画像の各ピクセルが様々な顔領域に属する予測確率と、顔画像の各ピクセルが境界に属する予測確率とを表す、ことと、融合特徴に従って顔画像の各ピクセルが属する顔領域を決定することとを行うように構成される。
いくつかの実施形態では、フェイス・パーシング・ニューラル・ネットワークをトレーニングするためにネットワークトレーニングモジュール400によって採用される損失関数が融合サブネットワークの損失関数をさらに含む。融合サブネットワークの損失関数が、融合特徴の各ピクセルが様々な顔領域に属する予測確率と、融合特徴の各ピクセルが実際に属する顔領域と、融合特徴の各ピクセルが境界に属するか否かとに従って決定される。
いくつかの実施形態では、例えば、セマンティック知覚サブネットワークの損失関数Lsは、
Figure 0007559063000014
である。
ここで、Nは、セマンティック特徴のピクセル総数であり、iは、セマンティック特徴のピクセルの識別子であり、Cは、顔領域のカテゴリ総数であり、jは、顔領域のカテゴリの識別子である。ピクセルiが顔領域jに実際に属している場合、ys ij=1であり、ピクセルiが顔領域jに実際に属していない場合、ys ij=0である。ps ijは、ピクセルiが顔領域jに属すると予測された確率である。
いくつかの実施形態では、境界知覚サブネットワークの損失関数Lbは、
Figure 0007559063000015
である。
ここで、Nは、境界特徴のピクセル総数であり、iは、境界特徴のピクセルの識別子である。ピクセルiが境界に実際に属している場合、yb i=1であり、ピクセルiが境界に実際に属していない場合、yb i=0である。pb iは、ピクセルiが境界に属している予測確率である。
いくつかの実施形態では、融合サブネットワークの損失関数Lfは、
Figure 0007559063000016
である。
ここで、Nは、融合特徴のピクセル総数であり、iは、融合特徴のピクセルの識別子であり、Cは、顔領域のカテゴリ総数であり、jは、顔領域のカテゴリの識別子である。ピクセルiが顔領域jに実際に属している場合、ys ij=1であり、ピクセルiが顔領域jに実際に属していない場合、ys ij=0である。ps ijは、ピクセルiが顔領域jに属すると予測された確率である。ピクセルiが境界に実際に属している場合、wi>1であり、ピクセルiが境界に実際に属していない場合、wi=1である。
いくつかの実施形態では、セマンティック知覚サブネットワークは畳み込み層を含む。セマンティック特徴抽出モジュール402は、畳み込み層を使用して顔画像に対して拡張畳み込みを実行して、畳み込み特徴を取得するように構成される。
いくつかの実施形態では、セマンティック知覚サブネットワークはさらにプーリング層を有する。セマンティック特徴抽出モジュール402はさらに、プーリング層を使用して畳み込み特徴のマルチスケールプーリングを実行して、マルチスケールのプールされた特徴を取得し、マルチスケールのプールされた特徴と畳み込み特徴とを連結するように構成される。
いくつかの実施形態では、境界知覚サブネットワークおよび融合サブネットワークは畳み込み層を有する。
この実施形態では、ニューラルネットワークが顔画像の異なる顔領域間の境界ピクセルを区別する能力を向上し、フェイスパーシングの精度および全体の性能を改善する。
以下に、図5を参照しながら本開示の電子デバイスのいくつかの他の実施形態を説明する。
図5は、本開示のいくつかの実施形態による電子デバイスの構造図を示す。図5に示すように、本実施形態の電子デバイス50は、メモリ510とメモリ510に結合されたプロセッサ520とを備える。プロセッサ520は、メモリ510に格納された命令に基づいて、上述の実施形態の任意の1つに従ってフェイスパーシング方法を実行するように構成される。
メモリ510は、例えば、システムメモリ、固定不揮発性記憶媒体などを含み得る。システムメモリは、例えば、オペレーティングシステム、アプリケーションプログラム、ブートローダ(Boot Loader)、および他のプログラムを記憶する。
電子デバイス50は、入出力インターフェース530、ネットワークインターフェース540、ストレージインターフェース550などをさらに備える。これらのインターフェース530、540、550、メモリ510、およびプロセッサ520は、例えば、バス560を介して接続され得る。入出力インターフェース530は、ディスプレイ、マウス、キーボード、およびタッチスクリーンなど入出力デバイスのための接続インターフェースを提供する。ネットワークインターフェース540は、様々なネットワークデバイスのための接続インターフェースを提供する。ストレージインターフェース550は、SDカードおよびUSBフラッシュディスクなど外部記憶デバイスのための接続インターフェースを提供する。
本開示はさらに、プロセッサによる実行時に、上述の実施形態の任意の1つのフェイスパーシング方法を実装するコンピュータ命令を記憶したコンピュータ可読媒体を提供する。
本開示は、本開示の実施形態による方法のフローチャートおよび/またはブロック図、装置(システム)およびコンピュータプログラム製品を参照して説明される。フローチャートおよび/またはブロック図の各プロセスおよび/またはブロック、並びにフローチャートおよび/またはブロック図のプロセスおよび/またはブロックの組み合わせは、コンピュータプログラム命令によって実施され得る。コンピュータプログラム製品は、汎用コンピュータのプロセッサ、専用コンピュータのプロセッサ、組み込みプロセッサ、または他のプログラム可能なデータ処理デバイスに提供されてマシンを生成し、コンピュータまたは他のプログラム可能なデータ処理デバイスによって実行される命令が、フローチャートの1つまたは複数のフローおよび/またはブロック図の1つまたは複数のブロックに指定される機能を実現する手段を生成する。
コンピュータプログラム命令はまた、コンピュータ可読メモリデバイスに格納に格納され、コンピュータまたは他のプログラム可能なデータ処理デバイスに、コンピュータ可読メモリデバイスに記憶された命令が、フローチャートの1つまたは複数のフローおよび/またはブロック図の1つまたは複数のブロックに指定される機能を実現する命令手段を含む製造品を製造するための指定の方法で動作するように指示できる。
これらのコンピュータプログラム命令はまた、コンピュータまたは他のプログラム可能なデバイスにロードされ、コンピュータまたは他のプログラム可能なデバイス上で一連の動作ステップを実行して、コンピュータまたは他のプログラム可能なデバイス上で実行された命令がフローチャートの1つまたは複数のフローおよび/またはブロック図の1つまたは複数のブロックに指定される機能を実現するように、コンピュータ実施プロセスを生成できる。
上記は、単に本開示の好ましい実施形態であり、本開示を限定するものではない。本開示の精神および原理の範囲内で、任意の変更、置き換え、改善などが本開示の保護範囲に含まれる。
400 ネットワークトレーニングモジュール
401 画像入力モジュール
402 セマンティック特徴抽出モジュール
403 境界特徴抽出モジュール
404 フェイスパーシングモジュール
50 電子デバイス
510 メモリ
520 プロセッサ
530 入出力インターフェース
540 ネットワークインターフェース
550 ストレージインターフェース

Claims (12)

  1. フェイス・パーシング・ニューラル・ネットワークのトレーニング方法であって、
    各ピクセルが属する顔内の領域を用いて注釈付けされたサンプルの顔画像を使用して、前記フェイス・パーシング・ニューラル・ネットワークを事前にトレーニングするステップを備え、
    前記トレーニングされたフェイス・パーシング・ニューラル・ネットワークは、入力顔画像に従って顔画像の各ピクセルが属する顔内の領域を出力するように構成され、
    前記フェイス・パーシング・ニューラル・ネットワークは、セマンティック知覚サブネットワーク、境界知覚サブネットワーク、および融合サブネットワークを含み、
    前記セマンティック知覚サブネットワークは、前記サンプルの顔画像からセマンティック特徴を抽出するように構成され、前記セマンティック特徴が、前記サンプルの顔画像の各ピクセルが様々な顔内の領域に属する確率を表し、
    前記境界知覚サブネットワークは、前記サンプルの顔画像から境界特徴を抽出するように構成され、前記境界特徴は、前記サンプルの顔画像の各ピクセルが異なる顔内の領域間の境界に属する確率を表し、
    前記融合サブネットワークは、連結されたセマンティック特徴と境界特徴を処理して、前記サンプルの顔画像の各ピクセルが属する顔内の領域を取得するように構成され
    前記フェイス・パーシング・ニューラル・ネットワークの前記融合サブネットワークは、前記連結されたセマンティック特徴と境界特徴を処理して、前記サンプルの顔画像の融合特徴を取得するように構成され、前記融合特徴は、前記サンプルの顔画像の各ピクセルが様々な顔内の領域に属する予測確率と、前記サンプルの顔画像の各ピクセルが前記境界に属する予測確率とを表し、前記融合特徴は、前記サンプルの顔画像の各ピクセルが属する顔内の領域を決定するように構成され、
    前記フェイス・パーシング・ニューラル・ネットワークをトレーニングする際に使用する損失関数は、前記セマンティック知覚サブネットワークの損失関数と、前記境界知覚サブネットワークの損失関数と、前記融合サブネットワークの損失関数とを含み、
    前記セマンティック知覚サブネットワークの損失関数は、前記セマンティック特徴の各ピクセルが様々な顔内の領域に属する予測確率と、前記セマンティック特徴の各ピクセルが実際に属する顔内の領域とに従って決定され、
    前記境界知覚サブネットワークの損失関数は、前記境界特徴の各ピクセルが異なる顔内の領域間の境界に属する予測確率と、前記境界特徴の各ピクセルが実際に境界に属するか否かとに従って決定され、
    前記融合サブネットワークの損失関数が、前記融合特徴の各ピクセルが様々な顔内の領域に属する予測確率と、前記融合特徴の各ピクセルが実際に属する顔内の領域と、前記融合特徴の各ピクセルが前記境界に属するか否かとに従って決定され、前記融合サブネットワークの損失関数が、前記融合特徴の各ピクセルが様々な顔内の領域に属する予測確率と前記融合特徴の各ピクセルが実際に属する顔内の領域とに関する損失関数、および前記融合特徴の各ピクセルの重み係数という2つの成分の積によって決定され、前記融合特徴の各ピクセルの前記重み係数が、各ピクセルが実際に前記境界に属する場合と比較して、各ピクセルが実際に前記境界に属さない場合に小さい、
    トレーニング方法。
  2. 前記セマンティック知覚サブネットワークの損失関数Lsは、
    であり、Nは、前記セマンティック特徴のピクセル総数であり、iは、前記セマンティック特徴のピクセルの識別子であり、Cは、顔内の領域のカテゴリの総数であり、jは、前記顔内の領域のカテゴリの識別子であり、ピクセルiが顔内の領域jに実際に属している場合ysij=1であり、ピクセルiが顔内の領域jに実際に属していない場合ysij=0であり、psijは、ピクセルiが顔内の領域jに属する予測確率である、請求項1に記載のトレーニング方法。
  3. 前記境界知覚サブネットワークの損失関数Lbは、
    であり、Nは、前記境界特徴のピクセル総数であり、iは、前記境界特徴のピクセルの識別子であり、ピクセルiが実際に境界に属している場合ybi=1であり、ピクセルiが実際に境界に属していない場合ybi=0であり、pbiは、ピクセルiが境界に属している予測確率である、請求項1に記載のトレーニング方法。
  4. 前記融合サブネットワークの損失関数Lfは、
    であり、Nは、前記融合特徴のピクセル総数であり、iは、前記融合特徴のピクセルの識別子であり、Cは、顔内の領域のカテゴリの総数であり、jは、前記顔内の領域のカテゴリの識別子であり、ピクセルiが顔内の領域jに実際に属している場合ysij=1であり、ピクセルiが顔内の領域jに実際に属していない場合ysij=0であり、psijは、ピクセルiが顔内の領域jに属する予測確率であり、ピクセルiが実際に境界に属している場合wi>1であり、ピクセルiが実際に境界に属していない場合wi=1である、請求項1に記載のトレーニング方法。
  5. 請求項1~4のいずれか一項に記載のトレーニング方法を使用してフェイス・パーシング・ニューラル・ネットワークをトレーニングすることによって事前トレーニングされたフェイス・パーシング・ニューラル・ネットワークを取得するステップと、
    前記事前トレーニングされたフェイス・パーシング・ニューラル・ネットワークに顔画像を入力するステップと、
    前記フェイス・パーシング・ニューラル・ネットワークのセマンティック知覚サブネットワークを使用して、前記顔画像からセマンティック特徴を抽出するステップであって、前記セマンティック特徴は、前記顔画像の各ピクセルが様々な顔内の領域に属する確率を表す、ステップと、
    前記フェイス・パーシング・ニューラル・ネットワークの境界知覚サブネットワークを使用して前記顔画像から境界特徴を抽出するステップであって、前記境界特徴は、前記顔画像の各ピクセルが異なる顔内の領域間の境界に属する確率を表す、ステップと、
    前記フェイス・パーシング・ニューラル・ネットワークの融合サブネットワークを使用して前記連結されたセマンティック特徴と境界特徴を処理して、前記顔画像の各ピクセルが属する顔内の領域を取得するステップと
    を備える、フェイスパーシング方法。
  6. 前記セマンティック知覚サブネットワークが畳み込み層を含み、
    セマンティック知覚サブネットワークを使用して前記顔画像からセマンティック特徴を抽出するステップが、前記畳み込み層を使用して前記顔画像に拡張畳み込みを実行して、畳み込み特徴を取得するステップを備える、請求項5に記載のフェイスパーシング方法。
  7. 前記セマンティック知覚サブネットワークがプール層を備え、
    セマンティック知覚サブネットワークを使用して前記顔画像からセマンティック特徴を抽出するステップがさらに、前記プール層を使用して畳み込み特徴のマルチスケールプーリングを実行して、マルチスケールのプールされた特徴を取得するステップと、前記マルチスケールのプールされた特徴と前記畳み込み特徴とを連結するステップとを備える、請求項5に記載のフェイスパーシング方法。
  8. 前記境界知覚サブネットワークおよび前記融合サブネットワークは、畳み込み層を備える、請求項5に記載のフェイスパーシング方法。
  9. 各ピクセルが属する顔内の領域を用いて注釈付けされたサンプルの顔画像を使用して、フェイス・パーシング・ニューラル・ネットワークを事前にトレーニングするように構成されたフェイス・パーシング・ニューラル・ネットワークのためのトレーニング装置であって、
    前記トレーニングされたフェイス・パーシング・ニューラル・ネットワークは、入力顔画像に従って顔画像の各ピクセルが属する顔内の領域を出力するように構成され、
    前記フェイス・パーシング・ニューラル・ネットワークは、セマンティック知覚サブネットワーク、境界知覚サブネットワーク、および融合サブネットワークを含み、
    前記セマンティック知覚サブネットワークは、前記サンプルの顔画像からセマンティック特徴を抽出するように構成され、前記セマンティック特徴が、前記サンプルの顔画像の各ピクセルが様々な顔内の領域に属する確率を表し、
    前記境界知覚サブネットワークは、前記サンプルの顔画像から境界特徴を抽出するように構成され、前記境界特徴は、前記サンプルの顔画像の各ピクセルが異なる顔内の領域間の境界に属する確率を表し、
    前記融合サブネットワークは、連結されたセマンティック特徴と境界特徴を処理して、前記サンプルの顔画像の各ピクセルが属する顔内の領域を取得するように構成され
    前記フェイス・パーシング・ニューラル・ネットワークの前記融合サブネットワークは、前記連結されたセマンティック特徴と境界特徴を処理して、前記サンプルの顔画像の融合特徴を取得するように構成され、前記融合特徴は、前記サンプルの顔画像の各ピクセルが様々な顔内の領域に属する予測確率と、前記サンプルの顔画像の各ピクセルが前記境界に属する予測確率とを表し、前記融合特徴は、前記サンプルの顔画像の各ピクセルが属する顔内の領域を決定するように構成され、
    前記フェイス・パーシング・ニューラル・ネットワークをトレーニングする際に使用する損失関数は、前記セマンティック知覚サブネットワークの損失関数と、前記境界知覚サブネットワークの損失関数と、前記融合サブネットワークの損失関数とを含み、
    前記セマンティック知覚サブネットワークの損失関数は、前記セマンティック特徴の各ピクセルが様々な顔内の領域に属する予測確率と、前記セマンティック特徴の各ピクセルが実際に属する顔内の領域とに従って決定され、
    前記境界知覚サブネットワークの損失関数は、前記境界特徴の各ピクセルが異なる顔内の領域間の境界に属する予測確率と、前記境界特徴の各ピクセルが実際に境界に属するか否かとに従って決定され、
    前記融合サブネットワークの損失関数が、前記融合特徴の各ピクセルが様々な顔内の領域に属する予測確率と、前記融合特徴の各ピクセルが実際に属する顔内の領域と、前記融合特徴の各ピクセルが前記境界に属するか否かとに従って決定され、前記融合サブネットワークの損失関数が、前記融合特徴の各ピクセルが様々な顔内の領域に属する予測確率と前記融合特徴の各ピクセルが実際に属する顔内の領域とに関する損失関数、および前記融合特徴の各ピクセルの重み係数という2つの成分の積によって決定され、前記融合特徴の各ピクセルの前記重み係数が、各ピクセルが実際に前記境界に属する場合と比較して、各ピクセルが実際に前記境界に属さない場合に小さい、
    トレーニング装置。
  10. 事前トレーニングされたフェイス・パーシング・ニューラル・ネットワークを取得するように構成された請求項9に記載のトレーニング装置と、
    前記事前トレーニングされたフェイス・パーシング・ニューラル・ネットワークに顔画像を入力するように構成された画像入力モジュールと、
    前記フェイス・パーシング・ニューラル・ネットワークのセマンティック知覚サブネットワークを使用して、前記顔画像からセマンティック特徴を抽出するように構成されたセマンティック特徴抽出モジュールであって、前記セマンティック特徴は、前記顔画像の各ピクセルが様々な顔内の領域に属する確率を表す、セマンティック特徴抽出モジュールと、
    前記フェイス・パーシング・ニューラル・ネットワークの境界知覚サブネットワークを使用して前記顔画像から境界特徴を抽出するように構成された境界特徴抽出モジュールであって、前記境界特徴は、前記顔画像の各ピクセルが異なる顔内の領域間の境界に属する確率を表す、境界特徴抽出モジュールと、
    前記フェイス・パーシング・ニューラル・ネットワークの融合サブネットワークを使用して前記連結されたセマンティック特徴と境界特徴を処理して、前記顔画像の各ピクセルが属する顔内の領域を取得するように構成されたフェイスパーシングモジュールと
    を備える、フェイスパーシング装置。
  11. 電子デバイスであって、
    メモリと、
    前記メモリに結合されたプロセッサとを備え、前記プロセッサが、前記メモリに記憶された命令に基づいて、請求項58のいずれか一項に記載のフェイスパーシング方法、あるいは請求項1~4のいずれか一項に記載のトレーニング方法を実行するように構成される、電子デバイス。
  12. コンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体であって、コンピュータ命令は、プロセッサによる実行時に、請求項58のいずれか一項に記載のフェイスパーシング方法、あるいは請求項1~4のいずれか一項に記載のトレーニング方法を実行する、非一時的コンピュータ可読記憶媒体。
JP2022528685A 2019-11-18 2020-08-18 フェイスパーシング方法および関連デバイス Active JP7559063B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201911125557.7A CN111783514A (zh) 2019-11-18 2019-11-18 面部解析方法、装置及计算机可读存储介质
CN201911125557.7 2019-11-18
PCT/CN2020/109826 WO2021098300A1 (zh) 2019-11-18 2020-08-18 面部解析方法及相关设备

Publications (2)

Publication Number Publication Date
JP2023501820A JP2023501820A (ja) 2023-01-19
JP7559063B2 true JP7559063B2 (ja) 2024-10-01

Family

ID=72755755

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022528685A Active JP7559063B2 (ja) 2019-11-18 2020-08-18 フェイスパーシング方法および関連デバイス

Country Status (5)

Country Link
US (1) US20220406090A1 (ja)
EP (1) EP4047509A4 (ja)
JP (1) JP7559063B2 (ja)
CN (1) CN111783514A (ja)
WO (1) WO2021098300A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112233776A (zh) * 2020-11-09 2021-01-15 江苏科技大学 基于视觉渐近式空洞网络的皮肤病自学习辅助判定系统
US11954853B2 (en) * 2021-07-21 2024-04-09 GE Precision Healthcare LLC Systems and methods for fast mammography data handling
CN113743194B (zh) * 2021-07-23 2024-02-02 北京眼神智能科技有限公司 人脸静默活体检测方法、装置、电子设备及存储介质
CN113724269B (zh) * 2021-08-12 2024-08-02 浙江大华技术股份有限公司 实例分割方法、实例分割网络的训练方法及相关设备
US20230260269A1 (en) * 2022-02-15 2023-08-17 Ford Global Technologies, Llc Biometric task network
US20230260328A1 (en) * 2022-02-15 2023-08-17 Ford Global Technologies, Llc Biometric task network
US20230260301A1 (en) * 2022-02-15 2023-08-17 Ford Global Technologies, Llc Biometric task network
CN114283488B (zh) * 2022-03-08 2022-06-14 北京万里红科技有限公司 生成检测模型的方法及利用检测模型检测眼睛状态的方法
CN118351589B (zh) * 2024-06-12 2024-08-27 湖南火眼医疗科技有限公司 图像处理方法、装置、设备、存储介质及程序产品
CN118396071B (zh) * 2024-07-01 2024-09-03 山东科技大学 一种用于无人船环境理解的边界驱动神经网络结构

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062543A (zh) 2018-01-16 2018-05-22 中车工业研究院有限公司 一种面部识别方法及装置
CN109255784A (zh) 2018-09-13 2019-01-22 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
CN110348322A (zh) 2019-06-19 2019-10-18 西华师范大学 基于多特征融合的人脸活体检测方法及设备

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006072077A2 (en) * 2004-12-30 2006-07-06 American Off-Road Technologies, Llc Improved reduced-size vehicle
US10528846B2 (en) * 2016-11-14 2020-01-07 Samsung Electronics Co., Ltd. Method and apparatus for analyzing facial image
CN108073876B (zh) * 2016-11-14 2023-09-19 北京三星通信技术研究有限公司 面部解析设备和面部解析方法
US10726244B2 (en) * 2016-12-07 2020-07-28 Samsung Electronics Co., Ltd. Method and apparatus detecting a target
US10496884B1 (en) * 2017-09-19 2019-12-03 Deepradiology Inc. Transformation of textbook information
US10748036B2 (en) * 2017-11-21 2020-08-18 Nvidia Corporation Training a neural network to predict superpixels using segmentation-aware affinity loss
CN109741331B (zh) * 2018-12-24 2021-10-26 北京航空航天大学 一种图像前景物体分割方法
CN110148145B (zh) * 2019-03-25 2023-10-10 东南大学 一种融合边界信息的图像目标区提取方法及应用
CN110070091B (zh) * 2019-04-30 2022-05-24 福州大学 用于街景理解的基于动态插值重建的语义分割方法及系统
CN110059768B (zh) * 2019-04-30 2022-11-15 福州大学 用于街景理解的融合点与区域特征的语义分割方法及系统
US11373352B1 (en) * 2021-03-04 2022-06-28 Meta Platforms, Inc. Motion transfer using machine-learning models
US11960570B2 (en) * 2021-08-25 2024-04-16 Nvidia Corporation Learning contrastive representation for semantic correspondence
US20240135511A1 (en) * 2022-10-06 2024-04-25 Adobe Inc. Generating a modified digital image utilizing a human inpainting model

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062543A (zh) 2018-01-16 2018-05-22 中车工业研究院有限公司 一种面部识别方法及装置
CN109255784A (zh) 2018-09-13 2019-01-22 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
CN110348322A (zh) 2019-06-19 2019-10-18 西华师范大学 基于多特征融合的人脸活体检测方法及设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
@klis(himkt),"多クラス交差エントロピー誤差関数とソフトマックス関数,その美しき微分",[online],2018年08月19日,[retrieved on 2024-02-15], https://qiita.com/klis/items/4ad3032d02ff815e09e6
"Machine Learning forFinance",[online],2019年05月,[retrieved on 2024-02-15], https://subscription.packtpub.com/book/data/9781789136364/1/ch01lvl1sec21/measuring-model-loss
Tao Ruan et al.,"Devilin the Details: Towards Accurate Single and Multiple Human Parsing",[online],2018年11月29日,[retrieved on 2024-02-15], https://arxiv.org/abs/1809.05996

Also Published As

Publication number Publication date
EP4047509A1 (en) 2022-08-24
CN111783514A (zh) 2020-10-16
US20220406090A1 (en) 2022-12-22
WO2021098300A1 (zh) 2021-05-27
JP2023501820A (ja) 2023-01-19
EP4047509A4 (en) 2023-11-08

Similar Documents

Publication Publication Date Title
JP7559063B2 (ja) フェイスパーシング方法および関連デバイス
CN111104962B (zh) 图像的语义分割方法、装置、电子设备及可读存储介质
US11328172B2 (en) Method for fine-grained sketch-based scene image retrieval
CN112818975B (zh) 文本检测模型训练方法及装置、文本检测方法及装置
CN110020676A (zh) 基于多感受野深度特征的文本检测方法、系统、设备及介质
WO2020062360A1 (zh) 一种图像融合分类的方法及装置
EP3923233A1 (en) Image denoising method and apparatus
WO2020098257A1 (zh) 一种图像分类方法、装置及计算机可读存储介质
CN110008853B (zh) 行人检测网络及模型训练方法、检测方法、介质、设备
CN112256899B (zh) 图像重排序方法、相关设备及计算机可读存储介质
CN113487610B (zh) 疱疹图像识别方法、装置、计算机设备和存储介质
CN114241478A (zh) 宫颈细胞图像中异常细胞图像识别方法、装置
CN114266894A (zh) 一种图像分割方法、装置、电子设备及存储介质
CN112819007B (zh) 图像识别方法、装置、电子设备及存储介质
CN113869371A (zh) 模型训练方法、服装细粒度分割方法及相关装置
CN113343981A (zh) 一种视觉特征增强的字符识别方法、装置和设备
CN112529068A (zh) 一种多视图图像分类方法、系统、计算机设备和存储介质
CN114841974A (zh) 一种水果内部结构无损检测方法、系统、电子设备及介质
CN114612709A (zh) 图像金字塔特征指导的多尺度目标检测方法
WO2024140642A1 (zh) 一种图像处理方法、装置及计算设备
CN111738069A (zh) 人脸检测方法、装置、电子设备及存储介质
CN112771566A (zh) 图像处理装置和图像处理方法
CN116468702A (zh) 黄褐斑评估方法、装置、电子设备及计算机可读存储介质
CN115775386A (zh) 用户界面组件的识别方法、装置、计算机设备和存储介质
CN112183299A (zh) 行人属性预测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220720

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230522

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240521

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240819

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240918

R150 Certificate of patent or registration of utility model

Ref document number: 7559063

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150