[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2022501729A - 顔写真に基づくリスク認識方法、装置、コンピュータ設備および記憶媒体 - Google Patents

顔写真に基づくリスク認識方法、装置、コンピュータ設備および記憶媒体 Download PDF

Info

Publication number
JP2022501729A
JP2022501729A JP2021516611A JP2021516611A JP2022501729A JP 2022501729 A JP2022501729 A JP 2022501729A JP 2021516611 A JP2021516611 A JP 2021516611A JP 2021516611 A JP2021516611 A JP 2021516611A JP 2022501729 A JP2022501729 A JP 2022501729A
Authority
JP
Japan
Prior art keywords
recognition result
hand
shielding
face
risk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021516611A
Other languages
English (en)
Other versions
JP7078803B2 (ja
Inventor
▲藝▼▲飛▼ 胡
国▲強▼ 徐
寒 邱
Original Assignee
ワン・コネクト・スマート・テクノロジー・カンパニー・リミテッド・(シェンチェン)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ワン・コネクト・スマート・テクノロジー・カンパニー・リミテッド・(シェンチェン) filed Critical ワン・コネクト・スマート・テクノロジー・カンパニー・リミテッド・(シェンチェン)
Publication of JP2022501729A publication Critical patent/JP2022501729A/ja
Application granted granted Critical
Publication of JP7078803B2 publication Critical patent/JP7078803B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本願は、顔写真に基づくリスク認識方法、装置、コンピュータ設備および記憶媒体を開示し、当該方法は、顧客が予め設定された質問に回答した時のビデオデータを取得することと、予め訓練された遮蔽認識モデルを用いて、ビデオデータに対して画像認識を実行することと、そのうち、認識結果には、手遮蔽のある顔画像と手遮蔽なし顔画像が含まれ、各手遮蔽のある顔画像に対応する手による顔遮蔽位置を取得し、手遮蔽のある顔画像の全てに対応する手による顔遮蔽位置に基づいて、緊張程度認識結果を取得することと、手遮蔽なし顔画像を予め訓練された安全判断モデルに入力し、リスクレベル認識結果を取得することと、緊張程度認識結果とリスクレベル認識結果に基づいて、リスク警告認識結果を決定し、リスク警告認識結果が第1の所定の閾値よりも大きい場合に、ビデオデータをリスク警告データとすることと、を含み、それによって、ビデオデータの分析中に、手が顔を遮蔽してしまうことによって引き起こされる不正確な認識の問題を解決する。

Description

関連出願への相互参照
本願は、2018年12月14日に提出された「顔写真に基づくリスク認識方法、装置、コンピュータ設備および記憶媒体」と題する中国発明出願第201811535312.7号に基づいており、その優先権を主張する。
本願は、知的意思決定の分野に関し、特に、顔写真に基づくリスク認識方法、装置、コンピュータ設備および記憶媒体に関する。
現在、通常、融資の面接審査過程では、顧客が質問に回答した時のビデオデータがリアルタイムで記録されており、ビデオデータ中の顧客の微表情をリスク認識モデルで分析することにより、顧客への資金供与のリスクがあるか否かを判断することができるが、面接審査過程では、過度の緊張などの行動により、顧客が手で顔を遮蔽することがあり、そのため、ビデオデータ中の微表情を認識してリスク認識モデルを分析することが不可能になり、分析結果が不正確になってしまう。
本願の実施例は、顔写真に基づくリスク認識方法、装置、コンピュータ設備および記憶媒体を提供することで、ビデオデータの分析中に、手が顔を遮蔽してしまうことによって引き起こされる不正確な認識の問題を解決する。
顔写真に基づくリスク認識方法であって、
顧客が予め設定された質問に回答した時のビデオデータを取得することと、
予め訓練された遮蔽認識モデルを用いて、前記ビデオデータに対して画像認識を実行することと、そのうち、認識結果には、手遮蔽のある顔画像と手遮蔽なし顔画像が含まれ、
各前記手遮蔽のある顔画像に対応する手による顔遮蔽位置を取得し、前記手遮蔽のある顔画像の全てに対応する手による顔遮蔽位置に基づいて、緊張程度認識結果を取得することと、
前記手遮蔽なし顔画像を予め訓練された安全判断モデルに入力し、リスクレベル認識結果を取得することと、
前記緊張程度認識結果と前記リスクレベル認識結果に基づき、リスク警告認識結果を決定し、前記リスク警告認識結果が第1の所定の閾値よりも大きい場合に、前記ビデオデータをリスク警告データとすることとのステップを実行する。
顔写真に基づくリスク認識装置であって、
顧客が予め設定された質問に回答した時のビデオデータを取得するためのビデオデータ取得モジュールと、
予め訓練された遮蔽認識モデルを用いて、前記ビデオデータに対して画像認識を実行するための画像認識モジュールと、そのうち、認識結果には、手遮蔽のある顔画像と手遮蔽なし顔画像が含まれ、
各前記手遮蔽のある顔画像に対応する手による顔遮蔽位置を取得し、前記手遮蔽のある顔画像の全てに対応する手による顔遮蔽位置に基づいて、緊張程度認識結果を取得するための第1の認識結果取得モジュールと、
前記手遮蔽なし顔画像を予め訓練された安全判断モデルに入力し、リスクレベル認識結果を取得するための第2の認識結果取得モジュールと、
前記緊張程度認識結果と前記リスクレベル認識結果に基づき、リスク警告認識結果を決定し、前記リスク警告認識結果が第1の所定の閾値よりも大きい場合に、前記ビデオデータをリスク警告データとするためのリスク判別モジュールと、を含む。
メモリ、プロセッサ、および前記メモリに記憶され、かつ前記プロセッサ上で実行可能なコンピュータ可読命令を含むコンピュータ設備であって、前記プロセッサは、前記コンピュータ可読命令を実行する時に、
顧客が予め設定された質問に回答した時のビデオデータを取得することと、
予め訓練された遮蔽認識モデルを用いて、前記ビデオデータに対して画像認識を実行することと、そのうち、認識結果には、手遮蔽のある顔画像と手遮蔽なし顔画像が含まれ、
各前記手遮蔽のある顔画像に対応する手による顔遮蔽位置を取得し、前記手遮蔽のある顔画像の全てに対応する手による顔遮蔽位置に基づいて、緊張程度認識結果を取得することと、
前記手遮蔽なし顔画像を予め訓練された安全判断モデルに入力し、リスクレベル認識結果を取得することと、
前記緊張程度認識結果と前記リスクレベル認識結果に基づき、リスク警告認識結果を決定し、前記リスク警告認識結果が第1の所定の閾値よりも大きい場合に、前記ビデオデータをリスク警告データとすることとのステップを実行する。
コンピュータ可読命令が記憶された1つ以上の可読記憶媒体であって、前記コンピュータ可読記憶媒体にはコンピュータ可読命令が記憶され、前記コンピュータ可読命令が1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサは、
顧客が予め設定された質問に回答した時のビデオデータを取得することと、
予め訓練された遮蔽認識モデルを用いて、前記ビデオデータに対して画像認識を実行することと、そのうち、認識結果には、手遮蔽のある顔画像と手遮蔽なし顔画像が含まれ、
各前記手遮蔽のある顔画像に対応する手による顔遮蔽位置を取得し、前記手遮蔽のある顔画像の全てに対応する手による顔遮蔽位置に基づいて、緊張程度認識結果を取得することと、
前記手遮蔽なし顔画像を予め訓練された安全判断モデルに入力し、リスクレベル認識結果を取得することと、
前記緊張程度認識結果と前記リスクレベル認識結果に基づき、リスク警告認識結果を決定し、前記リスク警告認識結果が第1の所定の閾値よりも大きい場合に、前記ビデオデータをリスク警告データとすることとのステップを実行する。
本願の1つ以上の実施例の詳細は、以下の添付図面および説明に示されている。本願の他の特徴および利点は、明細書、添付図面、および特許請求の範囲から明らかになる。
本願の実施例における技術的解決手段をより明確に説明するために、以下、本願の実施例の説明で使用される図面を簡単に紹介し、当然のことながら、以下の説明における図面は、本願のいくつかの実施例に過ぎず、当業者であれば、創造的労力を要することなく、これらの図面に基づく他の図面を得ることができる。
本願の一実施例における顔写真に基づくリスク認識方法の適用環境の概略図である。 本願の一実施例における顔写真に基づくリスク認識方法のフローチャートである。 本願の一実施例における顔写真に基づくリスク認識方法のフローチャートである。 本願の一実施例における顔写真に基づくリスク認識方法のフローチャートである。 本願の一実施例における顔写真に基づくリスク認識方法のフローチャートである。 本願の一実施例における顔写真に基づくリスク認識方法のフローチャートである。 本願の一実施例における顔写真に基づくリスク認識方法のフローチャートである。 本願の一実施例における顔写真に基づくリスク認識装置の原理を示すブロック図である。 本願の一実施例におけるコンピュータ設備の概略図である。
本願の実施例における図面と併せて、本願の実施例における技術的解決手段を以下に明確かつ完全に説明するが、説明された実施例は、本願の実施例の一部に過ぎず、その全てではないことは明らかである。本願の実施例に基づいて、当業者によって創造的労力なしに得られた他の全ての実施例は、本願の保護範囲に含まれる。
本願の実施例は、図1のような応用環境で適用可能な顔写真に基づくリスク認識方法を提供し、当該顔写真に基づくリスク認識方法は、クライアント側と通信的に接続されたサーバ側で適用される。サーバ側は、予め訓練された遮蔽認識モデルを用いて、面接審査中のビデオデータを分析し、ビデオデータにおける手遮蔽のある顔画像と手遮蔽なし顔画像を取得し、そして、手遮蔽のある顔画像と手遮蔽なし顔画像を分析し、それぞれ緊張程度認識結果とリスクレベル認識結果を取得し、かつ緊張程度認識結果とリスクレベル認識結果からリスク警告認識結果を決定し、これにより、リスク認識効率を向上させる。ここで、クライアント側は、様々なパーソナルコンピュータ、ラップトップ、スマートフォン、タブレットおよび携帯型ウェアラブルデバイスであってもよいが、これらに限定されない。サーバ側は、独立したサーバ側として実装されてもよいし、複数のサーバ側からなるサーバ側のクラスタとして実装されてもよい。
一実施例では、図2に示すように、顔写真に基づくリスク認識方法を提供し、当該方法が図1中のサーバ側に応用されることを例として説明すれば、具体的には、以下のステップを含む。
S10:顧客が予め設定された質問に回答したビデオデータを取得する。
ここで、ビデオデータは、面接審査の過程で顧客が予め設定された質問に回答する時に録画したものである。当該ビデオデータは、少なくとも1フレームの認識対象画像を含み、当該認識対象画像は、面接審査の過程で顧客が予め設定された質問に回答する時の各フレームの画像であり、各フレームの認識対象画像から顧客が予め設定された質問に回答する時の微表情を収集する。
具体的には、サーバ側には、面接審査の過程で提出される質問(すなわち、予め設定された質問)が予め設定されており、ビデオ面接審査を行う際には、予め設定された質問が呼び出され、顧客は、予め設定された質問に基づいて回答することができ、かつ顧客が予め設定された質問に回答しているビデオデータがリアルタイムで取得される。理解されるように、顧客のプライバシー問題に対応するビデオデータ(例えば、プライバシー問題が「月給はいくらですか?」)のみを取得してもよく、非プライバシー問題とプライバシー問題に対応するビデオデータを取得してもよく、当該ビデオデータには、少なくとも1フレームの認識対象画像が含まれる。
S20:予め訓練された遮蔽認識モデルを用いて、ビデオデータに対して画像認識を実行し、そのうち、認識結果には、手遮蔽のある顔画像と手遮蔽なし顔画像が含まれる。
ここで、遮蔽認識モデルは、大量の訓練画像データに基づいて分類訓練を予め行って得られる分類器である。理解されるように、予め訓練された訓練画像データは、手遮蔽訓練画像と手遮蔽なし訓練画像を含み、分類アルゴリズムによって手遮蔽訓練画像と手遮蔽なし訓練画像を訓練して遮蔽認識モデルを取得する。ここで、手遮蔽訓練画像は、遮蔽認識モデルを訓練するために予め収集された、手が顔の異なる位置を遮蔽する画像である。手遮蔽なし訓練画像は、遮蔽認識モデルを訓練するために予め収集された、手が顔を遮蔽しない画像の一部である。
具体的には、サーバ側は、ビデオデータを予め訓練された遮蔽認識モデルに入力し、遮蔽認識モデルによってビデオデータ中の認識対象画像の各フレームを認識し、認識対象画像を手遮蔽のある顔画像または手遮蔽なし顔画像として決定して、認識結果を取得し、認識結果には、手遮蔽のある顔画像と手遮蔽なし顔画像が含まれる。理解されるように、ビデオデータ中の認識対象画像の各フレームに対して、2値化処理などの処理を実行し、かつ認識対象画像に対応する顔領域を取得し、顔領域に対応する勾配ヒストグラム特徴を抽出し、認識対象画像の各フレームに対応する勾配ヒストグラム特徴を予め訓練された遮蔽認識モデルに入力し、当該遮蔽認識モデルによって当該勾配ヒストグラム特徴を分類し、かつ認識対象画像の各フレームに対応する認識確率値を判断し、所定の確率値よりも大きい場合、当該認識対象画像を手遮蔽のある顔画像とし、所定の確率値よりも小さい場合、当該認識対象画像を手遮蔽なし顔画像とする。ここで、認識確率値は、遮蔽認識モデルによって認識対象画像を認識し、当該認識画像が手遮蔽のある顔画像であるか否かを判断する確率値である。選択的に、所定の確率値は0.6であってもよく、遮蔽認識モデルによって認識対象画像の各フレームを認識し、ビデオデータ中の認識対象画像の各フレームを、手遮蔽のある顔画像または手遮蔽なし顔画像に分割し、それによって、続いて手遮蔽のある顔画像と手遮蔽なし顔画像をそれぞれ処理し、リスク認識効率を向上させる。
S30:各手遮蔽のある顔画像に対応する手による顔遮蔽位置を取得し、手遮蔽のある顔画像の全てに対応する手による顔遮蔽位置に基づいて、緊張程度認識結果を取得する。
ここで、手による顔遮蔽位置は、顧客が手で顔を遮蔽する位置である。例えば、顧客は、手で顔の目、耳、口や鼻などの位置を遮蔽する。緊張程度認識結果は、手遮蔽のある顔画像の全てに対応する手による顔遮蔽位置に対応する認識結果である。ここで、緊張程度認識結果は、0〜1の値を用いて表すことができ、値が大きいほど、その顧客の緊張程度が高く、逆に、値が小さいほど、その顧客の緊張程度が低くなる。
具体的には、サーバ側は、手遮蔽のある顔画像を取得した後、遮蔽認識モデルによって認識対象画像が手遮蔽のある顔画像であるか否かを認識することができ、ここで、遮蔽認識モデルを予め訓練する場合、遮蔽訓練画像中の顔部を、額、左目、右目、左頬、右頬、鼻、顎などの位置に予め分割し、かつ各位置に位置番号を付け、例えば、額に1、左目に2、...、鼻に6、顎に7を付けるため、遮蔽認識モデルによって、手が顔を遮蔽する位置の位置番号(すなわち、手による顔遮蔽位置)も取得することができる。ここで、各手遮蔽のある顔画像における手による顔遮蔽位置は少なくとも1つであり、遮蔽認識モデルによって各手遮蔽のある顔画像に対応する位置番号を出力し、各位置番号は、顔部の位置に対応し、位置番号によってデータベースを検索し、各手遮蔽のある顔画像に対応する手による顔遮蔽位置を取得する。その後、各手遮蔽のある顔画像に関しての全ての手による顔遮蔽位置に基づいて、緊張認識結果を取得する。本実施例では、サーバ側は、各手による顔遮蔽位置の遮蔽確率を算出し、最大遮蔽確率に対応する手遮蔽のある顔画像を緊張評価モデルに入力し、手による顔遮蔽位置の最大遮蔽確率に対応する緊張程度認識結果を取得し、その緊張程度認識結果の取得効率が高い。
さらに、遮蔽確率が高い手による顔遮蔽位置を、手遮蔽のある顔画像の全てに対応するキー遮蔽位置として取得し、キー遮蔽位置に基づいて緊張程度認識結果を決定し、リスク認識効率を向上させる。
S40:手遮蔽なし顔画像を予め訓練された安全判断モデルに入力し、リスクレベル認識結果を取得する。
ここで、安全判断モデルは、顧客にリスクがあるか否かを認識するために予め訓練されたモデルであり、主にリスクが含まれる画像データとリスクが含まれない画像データを訓練することによって、得られた安全判断モデルである。リスクレベル認識結果は、安全判断モデルによって出力される、手遮蔽なし顔画像に対応する認識結果である。リスクレベル認識結果は、0〜1の値を用いて表すことができ、値が大きいほど、その顧客に対応するリスクレベルが高く、逆に、値が小さいほど、その顧客に対応するリスクレベルが低くなる。
具体的には、サーバ側は、手遮蔽なし顔画像を取得した後、当該手遮蔽なし顔画像を予め訓練された安全判断モデルに入力し、安全判断モデルによって手遮蔽なし顔画像に対応するリスクレベルを出力する。理解されるように、先ず、全ての手遮蔽なし顔画像によって、キーフレーム画像を取得し、キーフレーム画像を予め訓練された安全判断モデルに入力し、安全判断モデルによってキーフレーム画像に対応する顔動作ユニットに対応する強度を判断し、かつ目標顔動作ユニットに対応する強度に基づいて分類し、キーフレーム画像に対応するリスク確率を出力し、当該リスク確率を手遮蔽なし顔画像の全てに対応するリスクレベル認識結果として使用する。リスクレベル認識結果が高いほど、当該顧客にリスクがある確率が高くなる。ここで、リスク確率は、安全判断モデルによってキーフレーム画像を認識し、当該キーフレーム画像がリスク画像であると判断する確率値である。なお、キーフレーム画像は、手遮蔽なし顔画像の各フレームに含まれる顔動作ユニット(Action Unit、AU)の強度に応じて、全ての手遮蔽なし顔画像をクラスタリングし、クラスタリング中心に最も近い一部のスクリーニング対象画像を選択し、スクリーニング対象画像に含まれる顔動作ユニットの強度を予め設定された強度閾値と比較して、スクリーニング対象画像から、強度が予め設定された強度閾値よりも大きいスクリーニング対象画像を、キーフレームに対応する手遮蔽なし顔画像としてスクリーニングする。例えば、クラスタリング中心に対応するスクリーニング対象となる手遮蔽なし顔画像を選択し、スクリーニング対象となる手遮蔽なし顔画像によって指定された顔動作ユニットの強度が全て予め設定された強度閾値よりも大きい場合に、当該スクリーニング対象となる手遮蔽なし顔画像を、キーフレームに対応する手遮蔽なし顔画像として使用する。本実施例では、キーフレーム画像を予め訓練された安全判断モデルに入力し、リスクレベル認識結果を取得し、安全判断モデルによって認識対象画像を認識し、これにより、取得されたリスクレベル認識結果をより正確にする。
S50:緊張程度認識結果とリスクレベル認識結果に基づき、リスク警告認識結果を決定し、リスク警告認識結果が第1の所定の閾値よりも大きい場合に、ビデオデータをリスク警告データとする。
ここで、リスク警告認識結果は、緊張程度認識結果とリスクレベル認識結果に基づいて決定された認識結果である。一実施形態では、サーバ側は、緊張程度認識結果に対応する総フレーム数、およびリスクレベル認識結果に対応する総フレーム数の大きさを判断することで認識結果を決定することができる。別の実施形態では、サーバ側は、予め設定された計算式に従って、緊張程度認識結果とリスクレベル認識結果を計算することで認識結果を決定することができる。
具体的には、サーバ側は、ビデオデータに対応する緊張程度認識結果とリスクレベル結果を取得した後、緊張程度認識結果とリスクレベル結果に基づき、対応するリスク警告認識結果を取得する。理解されるように、リスク警告認識結果は、緊張程度認識結果をリスク警告認識結果とするか、リスクレベル認識結果をリスク警告認識結果とするか、あるいは、緊張程度認識結果とリスクレベル認識結果とに重みを付け、緊張程度認識結果とリスクレベル認識結果に対して重み付け計算を行って、リスク警告認識結果を取得することができる。本実施例では、サーバ側は、リスク警告認識結果と第1の所定の閾値とを比較し、リスク警告認識結果が第1の所定の閾値よりも大きい場合に、ビデオデータをリスク警告データとし、リスク警告認識結果が第1の所定の閾値以下である場合に、当該ビデオデータをリスク警告データとしない。例えば、第1の所定の閾値が0.6であり、あるビデオデータに対応するリスク警告認識結果が0.7であり、リスク警告認識結果と所定の閾値とを比較し、当該リスク警告認識結果0.7が第1の所定の閾値0.6よりも大きいため、当該ビデオデータをリスク警告データとする。
ステップS10−S50では、顧客が予め設定された質問に回答した時のビデオデータを取得することで、続いてビデオデータに基づいてリスク認識を行う。予め訓練された遮蔽認識モデルを用いて、ビデオデータに対して画像認識を実行し、認識対象画像を手遮蔽のある顔画像または手遮蔽なし顔画像に分割し、認識対象画像の分類を実現し、それによって、続いて分類結果に基づいてそれぞれ処理し、リスク認識の精度を向上させるようになる。その後、各手遮蔽のある顔画像に対応する手による顔遮蔽位置を取得し、手遮蔽のある顔画像の全てに対応する手による顔遮蔽位置に基づいて、緊張程度認識結果を迅速に取得し、手遮蔽のある顔画像によるリスク認識を実現する。しかも、手遮蔽なし顔画像を予め訓練された安全判断モデルに入力することで、リスクレベル認識結果を迅速に取得し、取得過程が簡単で、手遮蔽なし顔画像によるリスク認識を実現する。最後に、緊張程度認識結果とリスクレベル認識結果に基づき、リスク警告認識結果を決定し、リスク警告認識結果が第1の所定の閾値よりも大きい場合に、ビデオデータをリスク警告データとし、ビデオデータへのリスク認識を実現する。ビデオデータにおける手遮蔽のある顔画像と手遮蔽なし顔画像に対してリスク認識をそれぞれ実行することで、リスク認識の精度を向上させる。
一実施例では、図3に示すように、ステップS20の前、すなわち、予め訓練された遮蔽認識モデルを用いてビデオデータに対して画像認識を実行するステップの前に、顔写真に基づくリスク認識方法はさらに、以下のステップを含む。
S201:手遮蔽訓練画像と手遮蔽なし訓練画像を含む遮蔽訓練画像を取得する。
ここで、遮蔽訓練画像は、遮蔽認識モデルを訓練するための訓練画像であり、手遮蔽訓練画像と手遮蔽なし訓練画像を含む。
具体的には、予め収集された、手遮蔽訓練画像と手遮蔽なし訓練画像を含む約720000枚を、遮蔽訓練画像として使用する。手遮蔽訓練画像と手遮蔽なし訓練画像に属性ラベリングを行い、かつ各手遮蔽訓練画像に含まれる手による顔遮蔽位置に位置番号を付けて、遮蔽訓練画像を取得する。理解されるように、顔位置を予め分割して位置番号を付ける。例えば、顔を額、左目、右目、左頬、右頬、鼻や顎などの位置に分割し、分割した顔位置に従って、遮蔽訓練画像における各手遮蔽訓練画像中の遮蔽位置に位置番号を付ける。
S202:手遮蔽訓練画像と手遮蔽なし訓練画像を2値化画像に変換し、顔キーポイント認識アルゴリズムを用いて2値化画像の顔領域を決定する。
ここで、2値化(Image Binarization)画像とは、画像上の画素点の階調値が0または255に設定される画像のことである。手遮蔽訓練画像と手遮蔽なし訓練画像を2値化画像に変換することにより、手遮蔽訓練画像と手遮蔽なし訓練画像のデータ量を減少することができ、それによって、手遮蔽訓練画像と手遮蔽なし訓練画像の輪郭を強調することができる。
具体的には、遮蔽訓練画像における手遮蔽訓練画像と手遮蔽なし訓練画像を2値化画像に変換し、かつ顔キーポイント認識アルゴリズムを用いて各2値化画像に対応する顔領域を決定する。ここで、顔キーポイント認識アルゴリズムは、CLNFアルゴリズム+LNFアルゴリズムを含むが、これらに限定されない。CLNF(Constrained Local Neural Field、制約付きローカルニューラルフィールド)とLNF(local neural field、ローカルニューラルフィールド)を組み合わせたpatchモデルは、フィッティングの過程で、元の均一な正則化ランドマーク平均シフト(regularised landmark mean shift、RLMS)の代わりに、不均一な正則化ランドマーク平均シフト方法を用いて人顔のフィッティングを実行し、フィッティングの速度がより速く、フィッティングの精度がより高く、顔領域をより正確に取得でき、CLNFアルゴリズム+LNFアルゴリズムにより、2値化画像の顔領域を取得することは、従来技術に属し、ここでは詳細に説明しない。
S203:顔領域に基づいて、顔領域に対応する勾配ヒストグラム特徴を取得する。
ここで、勾配ヒストグラム特徴(Histogram of Oriented Gradient、HOG特徴)は、コンピュータビジョンや画像処理で物体検出に用いられる特徴記述子であり、それは局所的な領域に亘る勾配ヒストグラムを計算して人体の特徴を構成し、人体のエッジを良好に記述することができる。HOG特徴は、人体目標輪郭の境界情報だけでなく、人体輪郭の内部情報も抽出することができる。
具体的には、顔領域に対応する勾配ヒストグラム特徴を取得することは、以下のステップを含む。(1)先ず顔領域の画像を前処理し、前処理画像を取得する。例えば、顔領域に対してGamma補正を実行することで、顔領域の全体的な明るさを増減させ、その後の勾配ヒストグラム特徴(HOG特徴)の抽出のために技術的なサポートを提供する。(2)顔領域を複数のセルユニットに分割する。例えば、n×n個の画素点は1つのセルユニットであり、隣接するセルユニットは大きなブロック(block)を形成することができ、例えば、h×h個のセルユニットは1つのブロックを形成し、ブロックの間は互いに重なってもよいし、重なっていなくてもよい。例えば、216*304の顔領域の場合、1つのセルユニットを8*8画素と仮定すると、216*304の顔領域を27*38個のセルユニットに分割することができ、もし2*2のセルユニットが1つのブロックを形成すれば、14*19個のブロックができる。(3)前処理された画像に対して勾配計算を実行し、各画素点の勾配方向と勾配振幅を取得する。具体的には、計算式

Figure 2022501729
により勾配振幅を取得し、(x、y)を画素点とし、G(x,y)を画素点の勾配振幅とする。ここで、先ず、計算式G(x,y)=I(x+1,y)−I(x−1,y)、G(x,y)=I(x,y+1)−I(x,y−1)により、水平方向と垂直方向での画素点の勾配振幅を算出し、G(x,y)は水平方向での画素点の勾配振幅であり、G(x,y)は垂直方向での画素点の勾配振幅である。次に計算式

Figure 2022501729
により、各画素点の勾配方向を計算し、ここで、θ(x,y)は勾配方向である。(4)各ユニット内の画素点の勾配方向範囲を複数の指定方向に等分し、画素点の勾配振幅および勾配方向に従って、各指定方向に対応する指定振幅を計算する。(5)各ユニットの全ての指定方向に対応する指定振幅を計算して当該ユニットの特徴ベクトルを形成する。(6)隣接する複数のユニットを1つのブロックに形成し、1つのブロック内の全てのユニットの特徴ベクトルを直列に接続し、当該ブロックの特徴ベクトルを形成する。(7)顔領域における全てのブロックの特徴ベクトルを直列に接続し、顔領域の特徴ベクトルを取得し、すなわち、顔領域に対応する勾配ヒストグラム特徴を取得する。
S204:主成分分析アルゴリズムを用いて、勾配ヒストグラム特徴に対して次元削減処理を実行し、目標勾配ヒストグラム特徴を取得する。
ここで、主成分分析(Principal Component Analysis、PCA)アルゴリズムは、最も一般的に使用されている線形次元削減法であり、その目的は、高次元のデータを、ある線形投影を介して低次元の空間にマッピングして表示し、かつ投影された次元におけるデータの最大分散を期待し、よって、より多くの元のデータ点の特性を保持しながら、より少ないデータ次元を使用することである。
具体的には、主成分分析アルゴリズムを用いて、勾配ヒストグラム特徴に対して次元削減処理を実行し、目標勾配ヒストグラム特徴を取得することは、以下のステップを含む。(1)勾配ヒストグラム特徴に基づいて、元の行列をXとして構築し、ここで、X={X,X,......,X},i=1,2......n、Xは第1の特徴点行列(勾配ヒストグラムにおいて画素階調値で構成されるベクトルを1つの特徴点行列とする)であり、Xは第2の特徴点行列であり、Xは第nの特徴点行列であり、nは特徴点の総数である。(2)計算式

Figure 2022501729
により共分散行列Cを取得し、次に、共分散行列Cの特徴分解を実行し、共分散行列Cに対応する特徴行列AとBを取得し、ここで、Cは共分散行列(元の行列と特徴点行列の平均値から求められる)であり、

Figure 2022501729
は特徴点行列の平均値(元の行列に対応する平均行列)であり、

Figure 2022501729
(3)特徴行列AとBを、特徴値の大きさに応じて降順にソートして、特徴行列AとBの最初の10次元ベクトルを目標勾配ヒストグラム特徴として取得する。
S205:SVM分類アルゴリズムを用いて、目標勾配ヒストグラム特徴を訓練し、遮蔽認識モデルを取得する。
ここで、SVM(サポートベクトルマシン、Support Vector Machine)とは、サポートベクトルマシンであり、一般的な判別方法である。機械学習の分野では、通常、パターン認識、分類、回帰分析に用いられる教師付き学習モデルである。
具体的には、SVM分類アルゴリズムを用いて目標勾配ヒストグラム特徴を訓練して、遮蔽認識モデルを取得する。理解されるように、サポートベクトルマシン分類器のカーネル関数とサポートベクトルマシン分類器のペナルティパラメータを取得し、ここで、目標勾配ヒストグラム特徴は特徴ベクトルであり、以下の計算式によりラグランジュ乗数a と決定閾値bを求め、計算式は

Figure 2022501729
であり、

Figure 2022501729
式中では、s.t.は数式中の制約条件の略称であり、minは制約条件の下で取られる代数方程式

Figure 2022501729
の最小値であり、K(x,x)はサポートベクトルマシン分類器のカーネル関数であり、Cはサポートベクトルマシン分類器のペナルティパラメータであり、C>0、aとラグランジュ乗数a は共役関係であり、xは遮蔽訓練画像の特徴ベクトルであり、lは遮蔽訓練画像の特徴ベクトルの(目標勾配ヒストグラム特徴に対応する)数であり、yは遮蔽訓練画像のタグである。ここで、カーネル関数は、サポートベクトルマシン分類器を訓練する過程で入力された訓練サンプルの特徴ベクトルに対してカーネル関数演算を行うためのサポートベクトルマシン分類器中のカーネル関数であり、サポートベクトルマシン分類器のカーネル関数は、線形カーネル関数、多項式カーネル関数、ガウスカーネル関数、動径基底カーネル関数を含むが、これらに限定されなく、本実施例のサポートベクトルマシン分類器は線形分類可能であるため、好ましくは、本実施例ではサポートベクトルマシン分類器中のカーネル関数として線形カーネル関数を用い、従って、K(x,x)=(x,x)、yは遮蔽訓練画像のタグであり、サポートベクトルマシン分類器を用いた2値分類問題なので、yは1または−1のいずれであり、手遮蔽訓練画像が正のサンプルであればy=1であり、手遮蔽なし訓練画像が負のサンプルであればy=−1である。ペナルティパラメータCは、サポートベクトルマシン分類器を最適化するパラメータであり、決定された値である。理解されるように、適切なカーネル関数を用いて、適切なペナルティパラメータを設定し、計算式により遮蔽訓練画像の特徴ベクトルとカーネル関数に対してカーネル関数演算を行った後、最適問題を解いて、すなわち、ラグランジュ乗数a の値を求め、カーネル関数演算後の結果

Figure 2022501729
を最小にし、a =(a ,a ...a )を得る。その後、開放区間(0,C)a 範囲内の成分a ,a ...a を決定する。

Figure 2022501729
に従ってb値を計算し、ラグランジュ乗数a と決定閾値bに従って、

Figure 2022501729
を用いて、サポートベクトルマシン分類器の臨界面g(x)を得て、かつ臨界面で遮蔽訓練画像を分類することで、モデルを頻繁に繰り返して訓練せずに遮蔽認識モデルを取得し、モデル訓練の効率を向上させる。ここで、臨界面とは、正のサンプルと負のサンプルを正確に分類し、かつ2種類のサンプルの距離を最大にする分類面である。
本実施例では、SVM分類アルゴリズムを用いて目標勾配ヒストグラム特徴を訓練する時、さらに手遮蔽訓練画像における手による顔遮蔽位置を訓練し、位置により、対応する位置番号が異なり、同じ顔位置を遮蔽するものを分類し、分類が誤っている場合に、再訓練することで、その後、遮蔽認識モデルにより、認識対象画像が手による顔遮蔽位置画像であるか否かを判別し、かつ手が遮蔽する顔の位置の番号を取得することができ、位置番号と手による顔遮蔽位置との関係から、手による顔遮蔽位置を取得する。
ステップS201−S205では、遮蔽訓練画像を取得することで、その後、遮蔽訓練画像を訓練し、遮蔽認識モデルを取得する。手遮蔽訓練画像と手遮蔽なし訓練画像を2値化画像に変換し、顔キーポイント認識アルゴリズムを用いて2値化画像の顔領域を決定し、人顔キーポイントの取得を実現し、その後のモデル訓練に対して技術的サポートを提供する。顔領域に基づいて、顔領域に対応する勾配ヒストグラム特徴を取得して、人顔の特徴の提取を実現する。主成分分析アルゴリズムを用いて、勾配ヒストグラム特徴に対して次元削減処理を実行し、目標勾配ヒストグラム特徴を取得して次元削減処理を実現し、これにより、少ないデータ次元を使用して、多くの元の画像の特徴を保持し、遮蔽認識モデルの訓練に寄与する。SVM分類アルゴリズムを用いて目標勾配ヒストグラム特徴を訓練して、遮蔽認識モデルを取得することで、その後、遮蔽認識モデルによって認識対象画像が手遮蔽のある顔画像であるか否かを決定する。CLNFアルゴリズム+LNFアルゴリズムによって顔領域をより正確に取得でき、かつ勾配ヒストグラム特徴で顔領域のエッジを記述し、かつ勾配ヒストグラム特徴に対して次元削減処理を実行し、その後の訓練の処理量を大幅に減少し、SVM分類アルゴリズムによって次元削減された目標勾配ヒストグラム特徴量を訓練して、遮蔽認識モデルを取得し、その後の認識効率を向上させる。
一実施例では、図4に示すように、ステップS30、すなわち、手遮蔽のある顔画像の全てに対応する手による顔遮蔽位置に基づいて、緊張程度認識結果を取得することは、具体的に、以下のステップを含む。
S31:手遮蔽のある顔画像の全てに対応する手による顔遮蔽位置に基づいて、各手による顔遮蔽位置に対応する遮蔽確率を取得する。
ここで、遮蔽確率は、手による顔遮蔽位置に対応する確率である。
具体的には、サーバ側は、遮蔽認識モデルによってビデオデータにおける各手遮蔽のある顔画像を取得し、ここで、各手遮蔽のある顔画像には少なくとも1つの手による顔遮蔽位置が含まれる。各手遮蔽のある顔画像に基づいて、各手遮蔽のある顔画像に対応する手による顔遮蔽位置を取得し、各手遮蔽のある顔画像に対応する手による顔遮蔽位置に基づいて、確率の計算式により各手遮蔽のある顔画像における手による顔遮蔽位置に対応する遮蔽確率を取得する。ここで、確率の計算式は

Figure 2022501729
であり、yは手による顔遮蔽位置に対応する遮蔽確率であり、xは各手による顔遮蔽位置に対応するフレーム数であり、aはビデオデータにおける手遮蔽のある顔画像のフレーム数である。例えば、ビデオデータには、20フレームの手遮蔽のある顔画像が含まれ、ここで、10フレームは手による額の遮蔽であり、5フレームは手による鼻の遮蔽であり、5フレームは手による顎の遮蔽であり、確率の計算式により各手による顔遮蔽位置に対応する遮蔽確率を算出し、それぞれ50%、25%および25%である。さらに、手遮蔽のある顔画像における対応する手による顔遮蔽位置が複数である場合に、各手遮蔽のある顔画像における手による顔遮蔽位置を決定し、確率の計算式により各手遮蔽のある顔画像における手による顔遮蔽位置に対応する遮蔽確率を取得する。例えば、ビデオデータには、20フレームの手遮蔽のある顔画像が含まれ、ここで、10フレームは手による額と右目の遮蔽であり、5フレームは手による鼻と顎の遮蔽であり、5フレームは手による顎の遮蔽であり、確率の計算式により、手による額と右目の遮蔽確率を50%、手による鼻と顎の遮蔽確率を25%、手による顎の遮蔽確率を25%に算出する。
S32:最大遮蔽確率の手遮蔽のある顔画像を、緊張評価モデルに入力し、最大遮蔽確率の手による顔遮蔽位置に対応する緊張程度を、緊張程度認識結果として取得する。
ここで、緊張評価モデルは、予め訓練して得られた参照基準であり、手による顔の遮蔽位置が異なると、対応する緊張程度も異なる。本実施例では、サーバ側は、緊張程度の異なる、手による顔遮蔽位置が含まれる緊張画像データを事前に取得し、かつ各緊張画像データに対応する緊張程度を標識し、分類アルゴリズムを用いて訓練し、例えば、SVMアルゴリズム,K−Meansアルゴリズムなどを用いて、緊張画像データを訓練し、訓練された緊張評価モデルを取得する。なお、訓練用の緊張画像データには、少なくとも1つの手による顔遮蔽位置が含まれ、すなわち、手が顔の異なる位置を遮蔽、または手が同時に顔の複数の位置を遮蔽する画像を緊張画像データとすることにより、その後、緊張評価モデルによって、手が顔の1位置を遮蔽する画像、または手が顔の複数の位置を遮蔽する画像を認識し、緊張程度を取得することができるようになる。
具体的には、サーバ側は、最大遮蔽確率の手による顔遮蔽位置に基づいて、当該手遮蔽のある顔画像を訓練された緊張評価モデルに入力し、緊張程度認識結果を取得し、当該緊張程度は0〜1の値であってよく、値が大きいほど、顧客の緊張程度が高くなる。さらに、各手による顔遮蔽位置に対応する遮蔽確率に基づいて、最大遮蔽確率に対応する手による顔遮蔽位置に対応する手遮蔽のある顔画像を選択して緊張評価モデルに入力し、当該手による顔遮蔽位置に対応する緊張程度を取得する。ここで、最大遮蔽確率に対応する手による顔遮蔽位置が複数の手遮蔽のある顔画像である場合に、手による顔遮蔽位置が含まれる手遮蔽のある顔画像のいずれか1枚を任意に選択することができる。例えば、手が額を遮蔽する遮蔽確率は0.5であり、手が鼻を遮蔽する遮蔽確率は0.25であり、手が顎を遮蔽する遮蔽確率は0.25であり、最大遮蔽確率に対応する、手が額を遮蔽することが含まれる任意の手遮蔽のある顔画像を選択して緊張評価モデルに入力し、緊張評価モデルによって取得された、手が額を遮蔽することが含まれる手遮蔽のある顔画像に対応する緊張程度は0.7である場合に、手が額を遮蔽すると、顧客が比較的に緊張していることを示し、0.7を緊張程度認識結果とする。また、例えば、手が額と右目を遮蔽する遮蔽確率は0.5であり、手が鼻と顎を遮蔽する遮蔽確率は0.25であり、手が顎を遮蔽する遮蔽確率は0.25であり、最大遮蔽確率に対応する、手が額と右目を遮蔽することが含まれる手遮蔽のある顔画像を選択して緊張評価モデルに入力し、緊張評価モデルによって認識された、手が額と右目を遮蔽することが含まれる手遮蔽のある顔画像に対応する緊張程度は0.8である場合に、手が額と右目を遮蔽すると、顧客が非常に緊張していることを示し、0.8を緊張程度認識結果とする。
ステップS31−S32では、手遮蔽のある顔画像の全てに対応する手による顔遮蔽位置に基づいて、各手による顔遮蔽位置に対応する遮蔽確率を取得することにより、ビデオデータの中で顧客の手が顔のどの位置又は何箇所の位置を頻繁に遮蔽するかを決定し、最大遮蔽確率の手遮蔽のある顔画像を、緊張評価モデルに入力し、最大遮蔽確率の手遮蔽のある顔画像に対応する緊張程度を、緊張程度認識結果として取得することにより、顧客の手が遮蔽する顔の位置の最大遮蔽確率に対応する緊張程度を緊張程度認識結果とすることを実現し、顧客の手が誤って顔を遮蔽する状況が避けられる。
一実施例では、図5に示すように、ステップS40では、手遮蔽なし顔画像を予め訓練された安全判断モデルに入力し、リスクレベル認識結果を取得することは、具体的に以下のステップを含む。
S41:K−Meansアルゴリズムを用いて、手遮蔽なし顔画像に対してクラスタリング処理を実行し、キーフレームに対応する手遮蔽なし顔画像を決定する。
具体的には、融資の面接審査過程で顧客が複数の質問に回答する可能性があるため、プライバシー問題に対応するビデオデータを取得し、かつビデオデータにおける手遮蔽なし顔画像に対して微表情を分析して、リスクレベル認識結果を取得する。微表情は、1/25〜1/5秒程度しか持続しない非常に速い表情で、本当の感情を抑えたり隠したりしようとする時に見せる、自分でコントロールできない表情である。プライバシー問題に回答する顧客のビデオデータでは、通常、顧客の表情は無表情や一般的な表情であり、有用な情報は、それらの微小な表情にのみ表示されるので、K−Meansアルゴリズムを用いて手遮蔽なし顔画像の全てに対してクラスタリング処理を実行し、手遮蔽なし顔画像におけるキーフレームに対応する手遮蔽なし顔画像を取得し、リスク認識精度を向上させる。
具体的には、K−Meansアルゴリズムを用いて手遮蔽なし顔画像の全てに対してクラスタリング処理を実行し、手遮蔽なし顔画像におけるキーフレームに対応する手遮蔽なし顔画像を取得することは、具体的に以下のステップを含む。(1)手遮蔽なし顔画像の総数をn個のデータオブジェクト、クラスタリング数をkとすると、n個のデータオブジェクトの中から任意のk個のオブジェクトを初期クラスタリング中心として選択する。(2)各データオブジェクトから各中心までの距離を計算し、最小距離基準に従って分類する。(3)各クラスタ内の全てのオブジェクトの平均値(中心オブジェクト)に基づいて、サンプルセット内の各オブジェクトからこれらの中心オブジェクトまでの距離を計算し、ステップ(2)のように、再び分類する。(4)ステップ(2)とステップ(3)を、クラスタリング中心の変化がある所定の閾値よりも小さくなるまで繰り返し、演算を停止し、クラスタリング結果を取得し、クラスタリング結果はクラスタリング数とクラスタリング中心を含み、クラスタリング中心の手遮蔽なし顔画像をキーフレームに対応する手遮蔽なし顔画像として使用する。
さらに、各フレームの手遮蔽なし顔画像における顔動作ユニット(action unit)の強度に応じて、K−Meansクラスタリングアルゴリズムを用いて全ての手遮蔽なし顔画像を分類する。具体的には、微表情は、一連の顔動作ユニットからなり、顔動作ユニット番号マッピングテーブルを確立し、各動作ユニットは予め指定された番号で表される。例えば、驚いた表情には、眉の内側が上がっていること、眉の外側が上がっていること、上眼瞼が上がっていること、および下顎が開いていることが含まれ、動作ユニット番号マッピングテーブルから分かるように、これらの動作に対応する動作ユニット番号は、それぞれ1、2、5および26である。各フレームの手遮蔽なし顔画像における顔動作ユニットによって、ビデオ内の全ての手遮蔽なし顔画像をクラスタリングし、所定数のクラスタリング中心に最も近い画像(例えば、眉の内側が上がっているクラスタリング中心、眉の外側が上がっているクラスタリング中心、上眼瞼が上がっているクラスタリング中心、および下顎が開いているクラスタリング中心が4つある場合、4枚の画像を選択する)をいくつか選択し、かつ統計結果から予め得られた動作ユニットの予め設定された強度閾値に基づいて、キーフレームに対応する手遮蔽なし顔画像をスクリーニングする。理解されるように、1フレームの手遮蔽なし顔画像について、指定された顔動作ユニットの強度がいずれも予め設定された強度閾値よりも大きい場合に、手遮蔽なし顔画像をキーフレームに対応する手遮蔽なし顔画像として使用する。
S42:キーフレームに対応する手遮蔽なし顔画像を予め訓練された安全判断モデルに入力し、安全判断モデルから出力されるリスク確率を、リスクレベル認識結果として取得する。
具体的には、サーバ側は、キーフレームに対応する手遮蔽なし顔画像を予め訓練された安全判断モデルに入力し、安全判断モデルによって当該手遮蔽なし顔画像に対して微表情認識を実行し、当該手遮蔽なし顔画像に対応するリスク確率をリスクレベル認識結果として取得し、リスク確率が大きいほど、それに対応して当該顧客に存在するリスクの程度が高くなる。
ステップS41−S42では、K−Meansアルゴリズムを用いて、手遮蔽なし顔画像に対してクラスタリング処理を実行し、キーフレームに対応する手遮蔽なし顔画像を決定して、手遮蔽なし顔画像に対するクラスタリング処理を実現し、それによって、安全判断モデルによって認識された画像はキーフレームに対応する手遮蔽なし顔画像であり、リスク認識の精度とリスク認識の速度を向上させる。キーフレームに対応する手遮蔽なし顔画像を予め訓練された安全判断モデルに入力し、安全判断モデルから出力されたリスク確率を、リスクレベル認識結果として取得し、これにより、リスク認識を実現し、リスク認識の処理効率を向上させる。
一実施例では、図6に示すように、ステップS50では、すなわち、緊張程度認識結果とリスクレベル認識結果に基づき、リスク警告認識結果を決定することは、具体的に以下のステップを含む。
S51:手遮蔽のある顔画像に対応する第1の総フレーム数と、手遮蔽なし顔画像に対応する第2の総フレーム数とを取得する。
具体的には、ビデオデータには、少なくとも1フレームの認識対象画像が含まれ、遮蔽認識モデルによって認識対象画像を手遮蔽のある顔画像または手遮蔽なし顔画像に分割し、かつビデオデータにおける手遮蔽のある顔画像に対応する第1の総フレーム数、および手遮蔽なし顔画像に対応する第2の総フレーム数を統計することにより、その後、第1の総フレーム数と第2の総フレーム数に基づいてリスク警告認識結果を決定する。
S52:第1の総フレーム数、第2の総フレーム数、緊張程度認識結果とリスクレベル認識結果に基づいて、リスク警告認識結果を決定する。
具体的には、ビデオデータにおける手遮蔽のある顔画像に対応する緊張程度認識結果、ビデオデータにおける手遮蔽なし顔画像に対応するリスクレベル認識結果、手遮蔽のある顔画像に対応する第1の総フレーム数、および手遮蔽なし顔画像に対応する第2の総フレーム数に基づいて、リスク警告認識結果を取得する。理解されるように、第1の総フレーム数と第2の総フレーム数に対応する大きさを判断し、大きな総フレーム数に対応する認識結果をリスク警告認識結果として使用することができ、さらに緊張程度認識結果とリスクレベル認識結果に対応する重みを予め設定し、かつ重み付け計算を行い、その重み付け計算によって得られた結果をリスク警告認識結果として使用することができる。
ステップS51−S52では、手遮蔽のある顔画像に対応する第1の総フレーム数、および手遮蔽なし顔画像に対応する第2の総フレーム数を取得することで、その後、リスク警告認識結果の決定に対して技術的サポートを提供する。第1の総フレーム数、第2の総フレーム数、緊張程度認識結果とリスクレベル認識結果に基づいて、リスク警告認識結果を決定し、手遮蔽のある顔画像と手遮蔽なし顔画像によってリスク警告認識結果を決定することで、リスク認識効率を向上させ、手で顔を遮蔽する時のリスク認識の不正確さを回避する。
一実施例では、図7に示すように、ステップS52では、すなわち、第1の総フレーム数、第2の総フレーム数、緊張程度認識結果とリスクレベル認識結果に基づいて、リスク警告認識結果を決定することは、具体的に以下のステップを含む。
S521:第1の総フレーム数と第2の総フレーム数との差の絶対値を計算する。
具体的には、第1の総フレーム数と第2の総フレーム数に基づいて、第1の総フレーム数と第2の総フレーム数との差を求め、絶対値を取って、差の絶対値とする。例えば、ビデオデータには100フレームの認識対象画像が含まれ、第1の総フレーム数は20フレームであり、第2の総フレーム数は80フレームである場合、第1の総フレーム数と第2の総フレーム数との差の絶対値は60フレームである。
S522:差の絶対値が第2の所定の閾値よりも大きい場合に、第1の総フレーム数が第2の総フレーム数よりも大きくなると、緊張程度認識結果をリスク警告認識結果として使用し、第1の総フレーム数が第2の総フレーム数よりも小さくなると、リスクレベル認識結果をリスク警告認識結果として使用する。
具体的には、サーバ側には第2の所定の閾値が予め設定されており、差の絶対値と第2の所定の閾値を比較し、差の絶対値が第2の所定の閾値よりも大きくなり、かつ第1の総フレーム数が第2の総フレーム数よりも大きくなると、第1の総フレーム数に対応する緊張程度認識結果をリスク警告認識結果として使用する。差の絶対値が第2の所定の閾値よりも大きくなり、かつ第1の総フレーム数が第2の総フレーム数よりも小さくなると、第2の総フレーム数に対応するリスクレベル認識結果をリスク警告認識結果として使用する。例えば、差の絶対値60フレームが第2の所定の閾値50フレームよりも大きく、かつ第1の総フレーム数20フレームが第2の総フレーム数80フレームよりも小さい場合に、80フレームに対応するリスクレベル認識結果をリスク警告認識結果として使用する。逆に、差の絶対値60フレームが第2の所定の閾値50フレームよりも大きく、かつ第1の総フレーム数80フレームが第2の総フレーム数20フレームよりも大きい場合に、80フレームに対応する緊張程度認識結果作をリスク警告認識結果として使用する。
S523:差の絶対値が第2の所定の閾値以下である場合に、予め設定された結果計算式により、緊張程度認識結果とリスクレベル認識結果を計算し、リスク警告認識結果を取得する。
具体的には、サーバ側には第2の所定の閾値が予め設定されており、差の絶対値と第2の所定の閾値を比較し、差の絶対値が第2の所定の閾値以下である場合に、予め設定された結果計算式により緊張程度認識結果とリスクレベル認識結果を計算し、リスク警告認識結果を取得する。ここで、結果計算式は重み付け式であり、リスクレベル認識結果と緊張程度認識結果に重みを予め設定し、かつ緊張程度認識結果、緊張程度認識結果に対応する重み、リスクレベル認識結果、およびリスクレベル認識結果に対応する重みに基づいて重み付け計算を行い、リスク警告認識結果を取得する。例えば、緊張程度認識結果が0.3、緊張程度認識結果に対応する重みが0.6、リスクレベル認識結果が0.5、リスクレベル認識結果に対応する重みが0.4である場合に、リスク警告認識結果は0.38である。その後、リスク警告認識結果に基づいてビデオデータがリスク警告データであるか否かを判断でき、理解されるように、第1の所定の閾値が予め設定されており、リスク警告認識結果と第1の所定の閾値とを比較し、リスク警告認識結果0.38が第1の所定の閾値0.5よりも小さい場合に、ビデオデータをリスク警告データとしない。
ステップS521−S523では、第1の総フレーム数と第2の総フレーム数との差の絶対値を計算することで、差の絶対値に基づいてリスク警告認識結果を決定する。差の絶対値が第2の所定の閾値よりも大きい場合に、第1の総フレーム数が第2の総フレーム数よりも大きい場合、緊張程度認識結果をリスク警告認識結果として使用し、第1の総フレーム数が第2の総フレーム数よりも小さい場合、リスクレベル認識結果をリスク警告認識結果として使用し、これにより、リスク警告認識結果を決定し、顧客の手の遮蔽による警告認識結果の不正確さを回避することができる。差の絶対値が第2の所定の閾値以下である場合に、予め設定された結果計算式により、緊張程度認識結果とリスクレベル認識結果を計算することで、手遮蔽のある顔画像と手遮蔽なし顔画像に対応する認識結果に基づいてリスク警告認識結果を決定し、リスク認識の精度を向上させることができる。理解されるように、差の絶対値が第2の所定の閾値よりも大きい場合に、ビデオデータ中に顔が誤って遮蔽されているか、または大部分のフレームでは顔が遮蔽されていることを示し、顔が誤って遮蔽されている場合に、手遮蔽なし顔画像に対応するリスクレベル認識結果をリスク警告認識結果として直接使用し、誤遮蔽の状況を回避し、大部分のフレームでは手が顔を遮蔽している場合に、手遮蔽のある顔画像に対応する緊張程度認識結果をリスク警告認識結果として使用する。差の絶対値が第2の所定の閾値以下である場合に、ビデオデータに含まれる顧客の手による顔遮蔽のフレーム数と手が顔を遮蔽しないフレーム数との差が大きくないことを示し、手遮蔽のある顔画像に対応する緊張程度認識結果と、手遮蔽なし顔画像に対応するリスクレベル認識結果に基づいて重み付け計算を行い、これにより、より正確なリスク警告認識結果を取得できる。
理解されるように、上記実施例における各ステップの番号の大きさは、実行順序を意味するものではなく、各過程の実行順序はその機能および内部論理によって決定されるべきであり、本願の実施例の実施過程に対する何らかの限定を構成するものではない。
一実施例では、顔写真に基づくリスク認識装置を提供し、当該顔写真に基づくリスク認識装置は、上記実施例における顔写真に基づくリスク認識方法とは1対1に対応する。図8に示すように、当該顔写真に基づくリスク認識装置は、ビデオデータ取得モジュール10、画像認識モジュール20、第1の認識結果取得モジュール30、第2の認識結果取得モジュール40、およびリスク判別モジュール50を含む。各機能モジュールの詳細な説明は以下の通りである。
ビデオデータ取得モジュール10は、顧客が予め設定された質問に回答した時のビデオデータを取得するために使用される。
画像認識モジュール20は、予め訓練された遮蔽認識モデルを用いて、ビデオデータに対して画像認識を実行するために使用され、認識結果には、手遮蔽のある顔画像と手遮蔽なし顔画像が含まれる。
第1の認識結果取得モジュール30は、各手遮蔽のある顔画像に対応する手による顔遮蔽位置を取得し、手遮蔽のある顔画像の全てに対応する手による顔遮蔽位置に基づいて、緊張程度認識結果を取得するために使用される。
第2の認識結果取得モジュール40は、手遮蔽なし顔画像を予め訓練された安全判断モデルに入力し、リスクレベル認識結果を取得するために使用される。
リスク判別モジュール50は、緊張程度認識結果とリスクレベル認識結果に基づき、リスク警告認識結果を決定し、リスク警告認識結果が第1の所定の閾値よりも大きい場合に、ビデオデータをリスク警告データとするために使用される。
一実施例では、画像認識モジュール20の前に、顔写真に基づくリスク認識装置はさらに、訓練データ取得ユニット、顔領域取得ユニット、勾配ヒストグラム特徴取得ユニット、目標勾配ヒストグラム特徴取得ユニット、および遮蔽認識モデル取得ユニットを含む。
訓練データ取得ユニットは、手遮蔽訓練画像と手遮蔽なし訓練画像を含む遮蔽訓練画像を取得するために使用される。
顔領域取得ユニットは、手遮蔽訓練画像と手遮蔽なし訓練画像を2値化画像に変換し、顔キーポイント認識アルゴリズムを用いて2値化画像の顔領域を決定するために使用される。
勾配ヒストグラム特徴取得ユニットは、顔領域に基づいて、顔領域に対応する勾配ヒストグラム特徴を取得するために使用される。
目標勾配ヒストグラム特徴取得ユニットは、主成分分析アルゴリズムを用いて、勾配ヒストグラム特徴に対して次元削減処理を実行し、目標勾配ヒストグラム特徴を取得するために使用される。
遮蔽認識モデル取得ユニットは、SVM分類アルゴリズムを用いて、目標勾配ヒストグラム特徴を訓練し、遮蔽認識モデルを取得するために使用される。
一実施例では、第1の認識結果取得モジュール30は、遮蔽確率取得ユニットと緊張程度認識結果取得ユニットを含む。
遮蔽確率取得ユニットは、手遮蔽のある顔画像の全てに対応する手による顔遮蔽位置に基づいて、各手による顔遮蔽位置に対応する遮蔽確率を取得するために使用される。
緊張程度認識結果取得ユニットは、最大遮蔽確率に対応する手遮蔽のある顔画像を、緊張評価モデルに入力し、最大遮蔽確率に対応する手遮蔽のある顔画像に対応する緊張程度を、緊張程度認識結果として取得するために使用される。
一実施例では、第2の認識結果取得モジュール40は、キーフレーム決定ユニット41とリスクレベル認識結果決定ユニット42を含む。
キーフレーム決定ユニット41は、K−Meansアルゴリズムを用いて、手遮蔽なし顔画像に対してクラスタリング処理を実行し、キーフレームに対応する手遮蔽なし顔画像を決定するために使用される。
リスクレベル認識結果決定ユニット42は、キーフレームに対応する手遮蔽なし顔画像を予め訓練された安全判断モデルに入力し、安全判断モデルから出力されたリスク確率を、リスクレベル認識結果として取得するために使用される。
一実施例では、リスク判別モジュール50は、総フレーム数決定ユニットと認識ユニットを含む。
総フレーム数決定ユニットは、手遮蔽のある顔画像に対応する第1の総フレーム数、および手遮蔽なし顔画像に対応する第2の総フレーム数を取得するために使用される。
認識ユニットは、第1の総フレーム数、第2の総フレーム数、緊張程度認識結果とリスクレベル認識結果に基づいて、リスク警告認識結果を決定するために使用される。
一実施例では、認識ユニットは、差の絶対値計算サブユニット、第1の決定サブユニット、および第2の決定サブユニットを含む。
差の絶対値計算サブユニットは、第1の総フレーム数と第2の総フレーム数との差の絶対値を計算するために使用される。
第1の決定サブユニットは、差の絶対値が第2の所定の閾値よりも大きい場合に、第1の総フレーム数が第2の総フレーム数よりも大きくなると、緊張程度認識結果をリスク警告認識結果とし、第1の総フレーム数が第2の総フレーム数よりも小さくなると、リスクレベル認識結果をリスク警告認識結果として使用する。
第2の決定サブユニットは、差の絶対値が第2の所定の閾値以下である場合に、予め設定された結果計算式により緊張程度認識結果とリスクレベル認識結果を計算し、リスク警告認識結果を取得するために使用される。
顔写真に基づくリスク認識装置の具体的な限定は、上記の顔写真に基づくリスク認識方法の限定を参照することができ、ここでは繰り返さない。上記の顔写真に基づくリスク認識装置における各モジュールの全部または一部はソフトウェア、ハードウェアおよびそれらの組み合わせによって達成され得る。上記各モジュールは、ハードウェアの形態でコンピュータ設備内のプロセッサに埋め込まれていてもよく、前記プロセッサから独立してもよく、ソフトウェアの形態でコンピュータ設備内のメモリに記憶されてもよく、それによって、プロセッサは、上記各モジュールに対応する操作を呼び出して実行できる。
一実施例では、コンピュータ設備を提供し、当該コンピュータ設備はサーバ側であってもよく、その内部構造図を図9に示す。当該コンピュータ設備は、システムバスを介して接続されたプロセッサ、メモリ、ネットワークインターフェース、およびデータベースを含む。ここで、当該コンピュータ設備のプロセッサは、計算と制御能力を提供するために使用される。当該コンピュータ設備のメモリは、不揮発性記憶媒体、内部メモリを含む。当該不揮発性記憶媒体には、オペレーティングシステム、コンピュータ可読命令、およびデータベースが記憶されている。当該内部メモリは、不揮発性記憶媒体のオペレーティングシステムとコンピュータ可読命令を動作させるための環境を提供する。当該コンピュータ設備のデータベースは、手による顔遮蔽位置、および位置番号の対応関係などを記憶するために用いられる。当該コンピュータ設備のネットワークインターフェースは、ネットワーク接続を介して外部端末と通信するために用いられる。当該コンピュータ可読命令は、プロセッサによって実行されると、顔写真に基づくリスク認識方法を実現する。
一実施例では、コンピュータ設備を提供し、メモリ、プロセッサ、およびメモリに記憶され、かつプロセッサ上で実行可能なコンピュータ可読命令を含み、プロセッサは、コンピュータ可読命令を実行する時、上記実施例における顔写真に基づくリスク認識方法のステップ、例えば、図2に示すステップS10〜ステップS50を実現する。または、プロセッサは、コンピュータ可読命令を実行する時、上記実施例における顔写真に基づくリスク認識装置中の各モジュール/ユニットの機能、例えば、図8に示すモジュール10〜モジュール50の機能を実現する。繰り返さないように、ここでは再び説明しない。
一実施例では、コンピュータ可読命令が記憶される1つ以上の可読記憶媒体を提供し、前記コンピュータ可読記憶媒体にはコンピュータ可読命令が記憶され、前記コンピュータ可読命令が1つ以上のプロセッサによって実行されると、上記方法実施例における顔写真に基づくリスク認識方法、例えば、図2に示すステップS10〜ステップS50が実現される。または、当該コンピュータ可読命令がプロセッサによって実行されると、上記実施例における顔写真に基づくリスク認識装置中の各モジュール/ユニットの機能、例えば、図8に示すモジュール10〜モジュール50の機能が実現される。繰り返さないように、ここでは再び説明しない。本実施例における可読記憶媒体は、不揮発性可読記憶媒体と揮発性可読記憶媒体を含む。
当業者であれば、コンピュータ可読命令によって関連するハードウェアに命令を出すことにより、上記実施例の方法における流れの全部または一部を実現することが可能であることが理解でき、当該コンピュータ可読命令は、不揮発性可読記憶媒体に記憶されてもよいし、揮発性可読記憶媒体に記憶されていてもよく、このコンピュータ可読命令の実行は、上記各方法の実施例のフローを含んでもよい。ここで、本願によって提供される各実施例で使用されるメモリ、記憶、データベース、または他の媒体への参照はいずれも、不揮発性および/または揮発性メモリを含んでもよい。不揮発性メモリは、読み出し専用メモリ(ROM)、プログラマブルROM(PROM)、電気的プログラマブルROM(EPROM)、電気的に消去可能なプログラマブルROM(EEPROM)またはフラッシュメモリを含んでもよい。揮発性メモリは、ランダムアクセスメモリ(RAM)または外部キャッシュメモリを含んでもよい。限定ではなく説明として、RAMは、例えば、スタティックRAM(SRAM)、ダイナミックRAM(DRAM)、同期型DRAM(SDRAM)、ダブルデータレートSDRAM(DDRSDRAM)、エンハンストSDRAM(ESDRAM)、同期リンク(Synchlink) DRAM(SLDRAM)、メモリバス(Rambus)ダイレクトRAM(RDRAM)、ダイレクトメモリバスダイナミックRAM(DRDRAM)、およびメモリバスダイナミックRAM(RDRAM)などの様々な形態で得られる。
当業者であれば、説明の容易さと簡潔さのために、上述した各機能ユニットとモジュールの分割のみを例に挙げて説明したが、実際の応用では、上記機能の割り当ては、必要に応じて異なる機能ユニットおよびモジュールによって達成され得、すなわち、装置の内部構造が上記機能の全部または一部を達成するために、異なる機能ユニットまたはモジュールに分割されることを明確に理解することができる。
上述した実施例は、本願の技術的解決手段を説明するためのものであり、これらを限定するためのものではない。前記実施例を参照しながら本願を詳細に説明したが、当業者であれば理解できるように、前記各実施例に記載された技術的解決手段を変更し、またはそれらの技術的特徴の一部を等価的に置き換えることができる。これらの変更や置き換えは、対応する技術的解決手段の本質が本願の各実施例の技術的解決手段の要旨および範囲から逸脱することなく、本願の保護の範囲に含まれる。
10 ビデオデータ取得モジュール
20 画像認識モジュール
30 第1の認識結果取得モジュール
40 第2の認識結果取得モジュール
41 キーフレーム決定ユニット
42 リスクレベル認識結果決定ユニット
50 リスク判別モジュール

Claims (20)

  1. 顧客が予め設定された質問に回答した時のビデオデータを取得することと、
    予め訓練された遮蔽認識モデルを用いて、前記ビデオデータに対して画像認識を実行することと、そのうち、認識結果には、手遮蔽のある顔画像と手遮蔽なし顔画像が含まれ、
    各前記手遮蔽のある顔画像に対応する手による顔遮蔽位置を取得し、前記手遮蔽のある顔画像の全てに対応する手による顔遮蔽位置に基づいて、緊張程度認識結果を取得することと、
    前記手遮蔽なし顔画像を予め訓練された安全判断モデルに入力し、リスクレベル認識結果を取得することと、
    前記緊張程度認識結果と前記リスクレベル認識結果に基づき、リスク警告認識結果を決定し、前記リスク警告認識結果が第1の所定の閾値よりも大きい場合に、前記ビデオデータをリスク警告データとすることと、を含むことを特徴とする、顔写真に基づくリスク認識方法。
  2. 上述した予め訓練された遮蔽認識モデルを用いて、前記ビデオデータに対して画像認識を実行するステップの前、前記顔写真に基づくリスク認識方法は、さらに、
    手遮蔽訓練画像と手遮蔽なし訓練画像を含む遮蔽訓練画像を取得することと、
    前記手遮蔽訓練画像と前記手遮蔽なし訓練画像を2値化画像に変換し、顔キーポイント認識アルゴリズムを用いて、前記2値化画像の顔領域を決定することと、
    前記顔領域に基づいて、前記顔領域に対応する勾配ヒストグラム特徴を取得することと、
    主成分分析アルゴリズムを用いて、前記勾配ヒストグラム特徴に対して次元削減処理を実行し、目標勾配ヒストグラム特徴を取得することと、
    SVM分類アルゴリズムを用いて、前記目標勾配ヒストグラム特徴を訓練し、遮蔽認識モデルを取得することとを含むことを特徴とする、請求項1に記載の顔写真に基づくリスク認識方法。
  3. 前記手遮蔽のある顔画像の全てに対応する手による顔遮蔽位置に基づいて、緊張程度認識結果を取得することは、
    前記手遮蔽のある顔画像の全てに対応する手による顔遮蔽位置に基づいて、各前記手による顔遮蔽位置に対応する遮蔽確率を取得することと、
    最大遮蔽確率に対応する手遮蔽のある顔画像を、緊張評価モデルに入力し、前記最大遮蔽確率に対応する手遮蔽のある顔画像に対応する緊張程度を緊張程度認識結果として取得することとを含むことを特徴とする、請求項1に記載の顔写真に基づくリスク認識方法。
  4. 上述した前記手遮蔽なし顔画像を予め訓練された安全判断モデルに入力し、リスクレベル認識結果を取得することは、
    K−Meansアルゴリズムを用いて、前記手遮蔽なし顔画像に対してクラスタリング処理を実行し、キーフレームに対応する手遮蔽なし顔画像を決定することと、
    前記キーフレームに対応する手遮蔽なし顔画像を予め訓練された安全判断モデルに入力し、前記安全判断モデルから出力されたリスク確率を前記リスクレベル認識結果として取得することとを含むことを特徴とする、請求項1に記載の顔写真に基づくリスク認識方法。
  5. 上述した前記緊張程度認識結果と前記リスクレベル認識結果に基づき、リスク警告認識結果を決定することは、
    前記手遮蔽のある顔画像に対応する第1の総フレーム数と、前記手遮蔽なし顔画像に対応する第2の総フレーム数とを取得することと、
    前記第1の総フレーム数、前記第2の総フレーム数、前記緊張程度認識結果、および前記リスクレベル認識結果に基づいて、リスク警告認識結果を決定することとを含むことを特徴とする、請求項1に記載の顔写真に基づくリスク認識方法。
  6. 上述した前記第1の総フレーム数、前記第2の総フレーム数、前記緊張程度認識結果、および前記リスクレベル認識結果に基づいて、リスク警告認識結果を決定することは、
    前記第1の総フレーム数と前記第2の総フレーム数との差の絶対値を計算することと、
    前記差の絶対値が第2の所定の閾値よりも大きい場合に、前記第1の総フレーム数が前記第2の総フレーム数よりも大きくなると、前記緊張程度認識結果をリスク警告認識結果として使用し、前記第1の総フレーム数が前記第2の総フレーム数よりも小さくなると、前記リスクレベル認識結果をリスク警告認識結果として使用することと、
    前記差の絶対値が第2の所定の閾値以下である場合に、予め設定された結果計算式により、前記緊張程度認識結果と前記リスクレベル認識結果を計算し、リスク警告認識結果を取得することとを含むことを特徴とする、請求項5に記載の顔写真に基づくリスク認識方法。
  7. 顧客が予め設定された質問に回答した時のビデオデータを取得するためのビデオデータ取得モジュールと、
    予め訓練された遮蔽認識モデルを用いて、前記ビデオデータに対して画像認識を実行するための画像認識モジュールと、そのうち、認識結果には、手遮蔽のある顔画像と手遮蔽なし顔画像が含まれ、
    各前記手遮蔽のある顔画像に対応する手による顔遮蔽位置を取得し、前記手遮蔽のある顔画像の全てに対応する手による顔遮蔽位置に基づいて、緊張程度認識結果を取得するための第1の認識結果取得モジュールと、
    前記手遮蔽なし顔画像を予め訓練された安全判断モデルに入力し、リスクレベル認識結果を取得するための第2の認識結果取得モジュールと、
    前記緊張程度認識結果と前記リスクレベル認識結果に基づき、リスク警告認識結果を決定し、前記リスク警告認識結果が第1の所定の閾値よりも大きい場合に、前記ビデオデータをリスク警告データとするためのリスク判別モジュールと、を含むことを特徴とする、顔写真に基づくリスク認識装置。
  8. 前記第2の認識結果取得モジュールは、
    K−Meansアルゴリズムを用いて、前記手遮蔽なし顔画像に対してクラスタリング処理を実行し、キーフレームに対応する手遮蔽なし顔画像を決定するためのキーフレーム決定ユニットと、
    前記キーフレームに対応する手遮蔽なし顔画像を予め訓練された安全判断モデルに入力し、前記安全判断モデルから出力されたリスク確率を前記リスクレベル認識結果として取得するためのリスクレベル認識結果決定ユニットとを含むことを特徴とする、請求項7に記載の顔写真に基づくリスク認識装置。
  9. メモリ、プロセッサ、および前記メモリに記憶され、かつ前記プロセッサ上で実行可能なコンピュータ可読命令を含むコンピュータ設備であって、前記プロセッサは、前記コンピュータ可読命令を実行する時、
    顧客が予め設定された質問に回答した時のビデオデータを取得することと、
    予め訓練された遮蔽認識モデルを用いて、前記ビデオデータに対して画像認識を実行することと、そのうち、認識結果には、手遮蔽のある顔画像と手遮蔽なし顔画像が含まれ、
    各前記手遮蔽のある顔画像に対応する手による顔遮蔽位置を取得し、前記手遮蔽のある顔画像の全てに対応する手による顔遮蔽位置に基づいて、緊張程度認識結果を取得することと、
    前記手遮蔽なし顔画像を予め訓練された安全判断モデルに入力し、リスクレベル認識結果を取得することと、
    前記緊張程度認識結果と前記リスクレベル認識結果に基づき、リスク警告認識結果を決定し、前記リスク警告認識結果が第1の所定の閾値よりも大きい場合に、前記ビデオデータをリスク警告データとすることとのステップを実現することを特徴とする、コンピュータ設備。
  10. 上述した予め訓練された遮蔽認識モデルを用いて、前記ビデオデータに対して画像認識を実行するステップの前、前記プロセッサは、前記コンピュータ可読命令を実行する時に、
    手遮蔽訓練画像と手遮蔽なし訓練画像を含む遮蔽訓練画像を取得することと、
    前記手遮蔽訓練画像と前記手遮蔽なし訓練画像を2値化画像に変換し、顔キーポイント認識アルゴリズムを用いて、前記2値化画像の顔領域を決定することと、
    前記顔領域に基づいて、前記顔領域に対応する勾配ヒストグラム特徴を取得することと、
    主成分分析アルゴリズムを用いて、前記勾配ヒストグラム特徴に対して次元削減処理を実行し、目標勾配ヒストグラム特徴を取得することと、
    SVM分類アルゴリズムを用いて、前記目標勾配ヒストグラム特徴を訓練し、遮蔽認識モデルを取得することとのステップをさらに実現することを特徴とする、請求項9に記載のコンピュータ設備。
  11. 前記手遮蔽のある顔画像の全てに対応する手による顔遮蔽位置に基づいて、緊張程度認識結果を取得することは、
    前記手遮蔽のある顔画像の全てに対応する手による顔遮蔽位置に基づいて、各前記手による顔遮蔽位置に対応する遮蔽確率を取得することと、
    前記最大遮蔽確率に対応する手遮蔽のある顔画像を、緊張評価モデルに入力し、前記最大遮蔽確率に対応する手遮蔽のある顔画像に対応する緊張程度を緊張程度認識結果として取得することとを含むことを特徴とする、請求項9に記載のコンピュータ設備。
  12. 上述した前記手遮蔽なし顔画像を予め訓練された安全判断モデルに入力し、リスクレベル認識結果を取得することは、
    K−Meansアルゴリズムを用いて、前記手遮蔽なし顔画像に対してクラスタリング処理を実行し、キーフレームに対応する手遮蔽なし顔画像を決定することと、
    前記キーフレームに対応する手遮蔽なし顔画像を予め訓練された安全判断モデルに入力し、前記安全判断モデルから出力されたリスク確率を前記リスクレベル認識結果として取得することとを含むことを特徴とする、請求項9に記載のコンピュータ設備。
  13. 上述した前記緊張程度認識結果と前記リスクレベル認識結果に基づき、リスク警告認識結果を決定することは、
    前記手遮蔽のある顔画像に対応する第1の総フレーム数と、前記手遮蔽なし顔画像に対応する第2の総フレーム数とを取得することと、
    前記第1の総フレーム数、前記第2の総フレーム数、前記緊張程度認識結果、および前記リスクレベル認識結果に基づいて、リスク警告認識結果を決定することとを含むことを特徴とする、請求項9に記載のコンピュータ設備。
  14. 上述した前記第1の総フレーム数、前記第2の総フレーム数、前記緊張程度認識結果、および前記リスクレベル認識結果に基づいて、リスク警告認識結果を決定することは、
    前記第1の総フレーム数と前記第2の総フレーム数との差の絶対値を計算することと、
    前記差の絶対値が第2の所定の閾値よりも大きい場合に、前記第1の総フレーム数が前記第2の総フレーム数よりも大きくなると、前記緊張程度認識結果をリスク警告認識結果として使用し、前記第1の総フレーム数が前記第2の総フレーム数よりも小さくなると、前記リスクレベル認識結果をリスク警告認識結果として使用することと、
    前記差の絶対値が第2の所定の閾値以下である場合に、予め設定された結果計算式により、前記緊張程度認識結果と前記リスクレベル認識結果を計算し、リスク警告認識結果を取得することとを含むことを特徴とする、請求項13に記載のコンピュータ設備。
  15. コンピュータ可読命令が記憶されるコンピュータ可読記憶媒体であって、前記コンピュータ可読命令が1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサは、
    顧客が予め設定された質問に回答した時のビデオデータを取得することと、
    予め訓練された遮蔽認識モデルを用いて、前記ビデオデータに対して画像認識を実行することと、そのうち、認識結果には、手遮蔽のある顔画像と手遮蔽なし顔画像が含まれ、
    各前記手遮蔽のある顔画像に対応する手による顔遮蔽位置を取得し、前記手遮蔽のある顔画像の全てに対応する手による顔遮蔽位置に基づいて、緊張程度認識結果を取得することと、
    前記手遮蔽なし顔画像を予め訓練された安全判断モデルに入力し、リスクレベル認識結果を取得することと、
    前記緊張程度認識結果と前記リスクレベル認識結果に基づき、リスク警告認識結果を決定し、前記リスク警告認識結果が第1の所定の閾値よりも大きい場合に、前記ビデオデータをリスク警告データとすることとのステップを実行することを特徴とする、コンピュータ可読命令が記憶された一つ以上の可読記憶媒体。
  16. 上述した予め訓練された遮蔽認識モデルを用いて、前記ビデオデータに対して画像認識を実行するステップの前に、前記コンピュータ可読命令が1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサは、
    手遮蔽訓練画像と手遮蔽なし訓練画像を含む遮蔽訓練画像を取得することと、
    前記手遮蔽訓練画像と前記手遮蔽なし訓練画像を2値化画像に変換し、顔キーポイント認識アルゴリズムを用いて、前記2値化画像の顔領域を決定することと、
    前記顔領域に基づいて、前記顔領域に対応する勾配ヒストグラム特徴を取得することと、
    主成分分析アルゴリズムを用いて、前記勾配ヒストグラム特徴に対して次元削減処理を実行し、目標勾配ヒストグラム特徴を取得することと、
    SVM分類アルゴリズムを用いて、前記目標勾配ヒストグラム特徴を訓練し、遮蔽認識モデルを取得することとのステップをさらに実行することを特徴とする、請求項15に記載の可読記憶媒体。
  17. 前記手遮蔽のある顔画像の全てに対応する手による顔遮蔽位置に基づいて、緊張程度認識結果を取得することは、
    前記手遮蔽のある顔画像の全てに対応する手による顔遮蔽位置に基づいて、各前記手による顔遮蔽位置に対応する遮蔽確率を取得することと、
    前記最大遮蔽確率に対応する手遮蔽のある顔画像を、緊張評価モデルに入力し、前記最大遮蔽確率に対応する手遮蔽のある顔画像に対応する緊張程度を緊張程度認識結果として取得することとを含むことを特徴とする、請求項15に記載の可読記憶媒体。
  18. 上述した前記手遮蔽なし顔画像を予め訓練された安全判断モデルに入力し、リスクレベル認識結果を取得することは、
    K−Meansアルゴリズムを用いて、前記手遮蔽なし顔画像に対してクラスタリング処理を実行し、キーフレームに対応する手遮蔽なし顔画像を決定することと、
    前記キーフレームに対応する手遮蔽なし顔画像を予め訓練された安全判断モデルに入力し、前記安全判断モデルから出力されたリスク確率を前記リスクレベル認識結果として取得することとを含むことを特徴とする、請求項15に記載の可読記憶媒体。
  19. 上述した前記緊張程度認識結果と前記リスクレベル認識結果に基づき、リスク警告認識結果を決定することは、
    前記手遮蔽のある顔画像に対応する第1の総フレーム数と、前記手遮蔽なし顔画像に対応する第2の総フレーム数とを取得することと、
    前記第1の総フレーム数、前記第2の総フレーム数、前記緊張程度認識結果、および前記リスクレベル認識結果に基づいて、リスク警告認識結果を決定することとを含むことを特徴とする、請求項15に記載の可読記憶媒体。
  20. 上述した前記第1の総フレーム数、前記第2の総フレーム数、前記緊張程度認識結果、および前記リスクレベル認識結果に基づいて、リスク警告認識結果を決定することは、
    前記第1の総フレーム数と前記第2の総フレーム数との差の絶対値を計算することと、
    前記差の絶対値が第2の所定の閾値よりも大きい場合に、前記第1の総フレーム数が前記第2の総フレーム数よりも大きくなると、前記緊張程度認識結果をリスク警告認識結果として使用し、前記第1の総フレーム数が前記第2の総フレーム数よりも小さくなると、前記リスクレベル認識結果をリスク警告認識結果として使用することと、
    前記差の絶対値が第2の所定の閾値以下である場合に、予め設定された結果計算式により、前記緊張程度認識結果と前記リスクレベル認識結果を計算し、リスク警告認識結果を取得することとを含むことを特徴とする、請求項19に記載の可読記憶媒体。
JP2021516611A 2018-12-14 2019-11-26 顔写真に基づくリスク認識方法、装置、コンピュータ設備および記憶媒体 Active JP7078803B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201811535312.7 2018-12-14
CN201811535312.7A CN109711297A (zh) 2018-12-14 2018-12-14 基于面部图片的风险识别方法、装置、计算机设备及存储介质
PCT/CN2019/120987 WO2020119450A1 (zh) 2018-12-14 2019-11-26 基于面部图片的风险识别方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
JP2022501729A true JP2022501729A (ja) 2022-01-06
JP7078803B2 JP7078803B2 (ja) 2022-05-31

Family

ID=66256524

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021516611A Active JP7078803B2 (ja) 2018-12-14 2019-11-26 顔写真に基づくリスク認識方法、装置、コンピュータ設備および記憶媒体

Country Status (7)

Country Link
EP (1) EP3896601A4 (ja)
JP (1) JP7078803B2 (ja)
KR (1) KR20210100602A (ja)
CN (1) CN109711297A (ja)
PH (1) PH12021551368A1 (ja)
SG (1) SG11202103323VA (ja)
WO (1) WO2020119450A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7471716B2 (ja) 2020-09-27 2024-04-22 中南大学 乗客分布予測モデルのトレーニング方法及びシステム、乗客誘導方法及びシステム

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109711297A (zh) * 2018-12-14 2019-05-03 深圳壹账通智能科技有限公司 基于面部图片的风险识别方法、装置、计算机设备及存储介质
CN110399818A (zh) * 2019-07-15 2019-11-01 联动优势科技有限公司 一种风险预测的方法和设备
CN110909595B (zh) * 2019-10-12 2023-04-18 平安科技(深圳)有限公司 面部动作识别模型训练方法、面部动作识别方法
CN111144360A (zh) * 2019-12-31 2020-05-12 新疆联海创智信息科技有限公司 多模信息识别方法、装置、存储介质及电子设备
CN111401197B (zh) * 2020-03-10 2023-08-15 支付宝(杭州)信息技术有限公司 一种图片风险识别方法、装置及设备
CN111768286B (zh) * 2020-05-14 2024-02-20 北京旷视科技有限公司 风险预测方法、装置、设备及存储介质
CN111639584A (zh) * 2020-05-26 2020-09-08 深圳壹账通智能科技有限公司 基于多分类器的风险识别方法、装置及计算机设备
CN111967306B (zh) * 2020-07-02 2021-09-14 广东技术师范大学 目标远程监控方法、装置、计算机设备及存储介质
CN112001231B (zh) * 2020-07-09 2023-07-21 哈尔滨工业大学(深圳) 加权多任务稀疏表示的三维人脸识别方法、系统及介质
CN112132011B (zh) * 2020-09-22 2024-04-26 深圳市捷顺科技实业股份有限公司 一种面部识别方法、装置、设备及存储介质
CN112201343B (zh) * 2020-09-29 2024-02-02 浙江大学 基于脸部微表情的认知状态识别系统及方法
CN113705472B (zh) * 2021-08-30 2024-01-26 平安国际智慧城市科技股份有限公司 基于图像识别的异常摄像头排查方法、装置、设备及介质
US20230093385A1 (en) * 2021-09-17 2023-03-23 Microsoft Technology Licensing, Llc Visibility-based attribute detection
CN113963424B (zh) * 2021-12-21 2022-03-08 西南石油大学 一种基于单阶人脸定位算法的婴儿窒息或猝死预警方法
CN114613069B (zh) * 2022-03-08 2023-04-28 广州锐景数码科技有限公司 一种智能自助终端及其智能辅助方法
CN116092228B (zh) * 2023-01-05 2024-05-14 厦门科拓通讯技术股份有限公司 针对面部遮挡的门禁处理方法、装置、门禁设备和介质
CN115909468B (zh) * 2023-01-09 2023-06-06 广州佰锐网络科技有限公司 人脸五官遮挡检测方法、存储介质及系统
CN116156198B (zh) * 2023-04-23 2023-06-23 哈尔滨学院 一种舞蹈教学用视觉测量信号传输装置及系统
CN118135498A (zh) * 2024-05-08 2024-06-04 成都新希望金融信息有限公司 基于ai的双录实时风险识别方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030007669A1 (en) * 2001-06-07 2003-01-09 Sony Corporation And Purdue Research Foundation Method of recognizing partially occluded and/or imprecisely localized faces
CN102855496A (zh) * 2012-08-24 2013-01-02 苏州大学 遮挡人脸认证方法及系统
CN105005765A (zh) * 2015-06-29 2015-10-28 北京工业大学 一种基于Gabor小波和灰度共生矩阵的人脸表情识别方法
JP2016081212A (ja) * 2014-10-15 2016-05-16 日本電気株式会社 画像認識装置、画像認識方法、および、画像認識プログラム
JP2017108374A (ja) * 2015-12-01 2017-06-15 カシオ計算機株式会社 画像処理装置、画像処理方法及びプログラム
CN108537160A (zh) * 2018-03-30 2018-09-14 平安科技(深圳)有限公司 基于微表情的风险识别方法、装置、设备及介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1567344A (zh) * 2003-06-23 2005-01-19 威视科技股份有限公司 脸部监视系统及方法
CN107180234A (zh) * 2017-06-01 2017-09-19 四川新网银行股份有限公司 基于人脸表情识别和人脸特征提取的信用风险预测方法
CN108596760A (zh) * 2018-05-14 2018-09-28 平安普惠企业管理有限公司 贷款风险评估方法及服务器
CN108765131B (zh) * 2018-05-18 2023-06-09 深圳壹账通智能科技有限公司 基于微表情的信贷审核方法、装置、终端及可读存储介质
CN108734570A (zh) * 2018-05-22 2018-11-02 深圳壹账通智能科技有限公司 一种风险预测方法、存储介质和服务器
CN109711297A (zh) * 2018-12-14 2019-05-03 深圳壹账通智能科技有限公司 基于面部图片的风险识别方法、装置、计算机设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030007669A1 (en) * 2001-06-07 2003-01-09 Sony Corporation And Purdue Research Foundation Method of recognizing partially occluded and/or imprecisely localized faces
CN102855496A (zh) * 2012-08-24 2013-01-02 苏州大学 遮挡人脸认证方法及系统
JP2016081212A (ja) * 2014-10-15 2016-05-16 日本電気株式会社 画像認識装置、画像認識方法、および、画像認識プログラム
CN105005765A (zh) * 2015-06-29 2015-10-28 北京工业大学 一种基于Gabor小波和灰度共生矩阵的人脸表情识别方法
JP2017108374A (ja) * 2015-12-01 2017-06-15 カシオ計算機株式会社 画像処理装置、画像処理方法及びプログラム
CN108537160A (zh) * 2018-03-30 2018-09-14 平安科技(深圳)有限公司 基于微表情的风险识别方法、装置、设备及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7471716B2 (ja) 2020-09-27 2024-04-22 中南大学 乗客分布予測モデルのトレーニング方法及びシステム、乗客誘導方法及びシステム

Also Published As

Publication number Publication date
CN109711297A (zh) 2019-05-03
KR20210100602A (ko) 2021-08-17
PH12021551368A1 (en) 2021-11-29
EP3896601A1 (en) 2021-10-20
SG11202103323VA (en) 2021-04-29
WO2020119450A1 (zh) 2020-06-18
EP3896601A4 (en) 2022-01-26
JP7078803B2 (ja) 2022-05-31

Similar Documents

Publication Publication Date Title
JP7078803B2 (ja) 顔写真に基づくリスク認識方法、装置、コンピュータ設備および記憶媒体
WO2019232866A1 (zh) 人眼模型训练方法、人眼识别方法、装置、设备及介质
CN103914676B (zh) 一种在人脸识别中使用的方法和装置
CN108062543A (zh) 一种面部识别方法及装置
JP6361387B2 (ja) 識別装置および識別装置の制御方法
CN108629336B (zh) 基于人脸特征点识别的颜值计算方法
CN111539911B (zh) 一种口呼吸面容识别方法、设备和存储介质
CN110826408B (zh) 一种分区域特征提取人脸识别方法
Luo et al. Shape constrained network for eye segmentation in the wild
Verma et al. Local invariant feature-based gender recognition from facial images
Hernandez-Ortega et al. FaceQvec: Vector quality assessment for face biometrics based on ISO compliance
CN107292218A (zh) 一种表情识别方法及装置
RU2768797C1 (ru) Способ и система для определения синтетически измененных изображений лиц на видео
CN113436735A (zh) 基于人脸结构度量的体重指数预测方法、设备和存储介质
Hasan et al. Bangla sign digits recognition using hog feature based multi-class support vector machine
Lin et al. A gender classification scheme based on multi-region feature extraction and information fusion for unconstrained images
CN111950403A (zh) 一种虹膜分类方法及系统、电子设备和存储介质
Mayer et al. Adjusted pixel features for robust facial component classification
Ganakwar et al. Face detection using boosted cascade of simple feature
Xu et al. Face alignment via an ensemble of random ferns
Belle Detection and recognition of human faces using random forests for a mobile robot
Thangamani et al. Image Retrieval System by Skin Colour and Edge Information
Aishwarya et al. RETRACTED: Facial Recognition Using Aggregation and Random Forest Classification Method
Nikisins et al. Reduced complexity automatic face recognition algorithm based on local binary patterns
Rabba et al. Discriminative robust gaze estimation using kernel-dmcca fusion

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210323

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210323

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220509

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220519

R150 Certificate of patent or registration of utility model

Ref document number: 7078803

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150