JP2023531264A

JP2023531264A - 改善された顔属性分類およびその使用のためのシステム及び方法

Info

Publication number: JP2023531264A
Application number: JP2022580296A
Authority: JP
Inventors: アーラビ・パラム; フラマン・フレデリック・アントニン・レイモンド・サージ; ホートン・ジェフリー; ジャン・ルオウェイ; チャン・ユゼ; ユ・チ
Original assignee: LOreal SA
Current assignee: LOreal SA
Priority date: 2020-06-29
Filing date: 2021-06-29
Publication date: 2023-07-21
Also published as: EP4150513A1; US11978242B2; CN116097320A; US20240249504A1; KR20230025906A; WO2022002961A1; US20210406996A1

Abstract

顔属性予測およびその使用のための方法およびシステムを含む、ディープラーニング教師付き回帰に基づくモデルが記載される。使用の例は、画像から決定された顔属性予測に応答して修正画像を提供するための拡張および／または仮想現実インターフェースである。顔属性に一致する顔効果は、インターフェースに適用されるように選択される。【選択図】図１

Description

相互参照

本出願は、２０２０年６月２９日に出願され「改善された顔属性分類およびその使用のためのシステム及び方法」と題された米国仮出願第６３／０４５，３０３号と、２０２０年１０月５日に出願され「改善された顔属性分類およびその使用のためのシステム及び方法」と題されたフランス特許出願第２０１０１２８号と「改善された顔属性分類およびその使用のためのシステム及び方法」と題されたそれぞれの内容全体とが参照により本明細書に組み込まれる優先権を主張する。

本出願は機械学習を使用する画像処理に関し、より詳細には、顔属性分類のタスクに関する。顔画像が与えられると、顔属性分類は、所望の属性が顔のポートレートに存在するかどうかを推定することを目的とする。ダウンストリームアプリケーションは、様々な画像処理及び他のアプリケーションを含む。

顔属性分類（Facial attribute classification、ＦＡＣ）は、被写体の顔画像が与えられると、与えられた被写体の顔属性を分類しようとするタスクである。ＦＡＣは、画像検索、顔認識、人物再識別および推薦システムを含む、多くのダウンストリームアプリケーションにとって非常に重要である。顔の画像を分析して、唇の大きさ及び形状、目の色等のような複数の属性および毛髪の色、性別等のような顔自体に厳密に限定されない他の属性（一般に顔の属性として示される）を予測することができる。

最近、畳み込みニューラルネットワーク（ＣＮＮ）の優れた性能のために、ほとんどの最先端のＦＡＣ手法は、顔属性を分類するためにＣＮＮを利用する。概して、これらの手法は、以下のように分類することができる：（１）単一ラベル学習ベース（single-label learning based）のＦＡＣ手法および（２）複数ラベル学習ベース（multi-label learning based）のＦＡＣ手法。単一ラベル学習ベースのＦＡＣ手法は通常、顔画像のＣＮＮ特徴を抽出し、次いで、サポートベクトルマシン（Support Vector Machine、ＳＶＭ）分類器によって顔属性を分類する。しかしながら、これらの手法は各属性を個々に予測し、従って、属性間の相関を無視する。対照的に、複数の属性を同時に予測することができる複数ラベル学習ベースのＦＡＣ手法は、ＣＮＮの下位のレイヤから共有特徴を抽出し、ＣＮＮの上位のレイヤ上の属性固有分類器を学習する。

実施形態によれば、顔属性予測およびその使用のための方法およびシステム及び／又はコンピュータデバイスを含む、ディープラーニング教師付き回帰ベースのモデルが説明される。使用の例は、画像から決定された顔属性予測に応答して修正された画像を提供するための拡張および／または仮想現実インターフェース（例えばコンピューティングデバイス又は方法を介して）である。一実施形態では、顔属性に一致する顔効果がインターフェースに適用されるように選択される。一実施形態では、顔効果がメイクアップ製品に関連するメイクアップ効果を含む。一実施形態では、電子商取引インターフェースが拡張および／または仮想現実インターフェースを提供し、顔属性に応答するメイクアップ製品を推奨するための推奨コンポーネントを含む。

また、実施形態によれば、コンピュータプログラム製品が提供され、その製品態様は命令を記憶する（例えば、非一時的である）記憶デバイスを備え、命令はコンピューティングデバイスのプロセッサによって実行されたときに、本明細書の任意のそれぞれの実施形態によるような方法を実行するようにコンピューティングデバイスを構成する。

２３の顔属性について複数の（顔）属性について属性値決定を行う際の人間の一致度の評価と、顔属性分類タスクにおける人間のパフォーマンスとを示すグラフである。２３の顔属性について複数の（顔）属性について属性値決定を行う際の人間の一致度の評価と、顔属性分類タスクにおける人間のパフォーマンスとを示すグラフである。一実施形態によるディープラーニングネットワークアーキテクチャを示すブロック図である。一実施形態によるコンピューティングシステム、例えばネットワークを示すブロック図である。一実施形態によるユーザアプリケーションのグラフィカルユーザインターフェースのための表示画面またはその一部の図である。Ａ，Ｂは、一実施形態によるユーザアプリケーションのグラフィカルユーザインターフェースのための表示画面またはその一部の図である。Ａ，Ｂは、一実施形態によるユーザアプリケーションのグラフィカルユーザインターフェースのための表示画面またはその一部の図である。一実施形態によるユーザアプリケーションのグラフィカルユーザインターフェースのための表示画面またはその一部の図である。Ａ，Ｂは、一実施形態によるユーザアプリケーションのグラフィカルユーザインターフェースのための表示画面またはその一部の図である。Ａ～Ｄは、一実施形態によるユーザアプリケーションのグラフィカルユーザインターフェースのための表示画面またはその一部の図である。Ａ～Ｃは、一実施形態によるユーザアプリケーションのグラフィカルユーザインターフェースのための表示画面またはその一部の図である。本明細書の実施形態によるそれぞれの動作のフローチャートである。本明細書の実施形態によるそれぞれの動作のフローチャートである。本明細書の実施形態によるそれぞれの動作のフローチャートである。本明細書の実施形態によるそれぞれの動作のフローチャートである。本明細書の実施形態によるそれぞれの動作のフローチャートである。本明細書の実施形態によるシステムのブロック図である。

本概念は添付の図面を参照して本明細書に記載される、その特定の実施形態を通して最も良く説明され、ここで、同様の参照番号は全体を通して同様の特徴を指す。本発明という用語は本明細書で使用される場合、以下に記載される実施形態の基礎をなす発明の概念を意味することを意図しており、単に実施形態自体を意味するものではないことを理解されたい。さらに、一般的な発明概念は以下に記載される例示的な実施形態に限定されず、以下の説明はそのような観点から読まれるべきであることを理解されたい。

顔属性分類（Facial attribute classification、ＦＡＣ）は、被写体の顔画像が与えられると、与えられた被写体の顔属性を分類しようとするタスクである。ＦＡＣは画像検索、顔認識（例えば２つの写真が同じ顔を示すかどうかを決定する）、顔位置特定および推奨システムを含む、多くのダウンストリームアプリケーションにとり重要である。

本明細書の実施形態では、タスクが属性の所定のセットにわたる分類として定義される。各属性は各対象（subject）を分類することができる潜在的なクラス（例えば属性値）のセットで記述される。例えば、肌のトーンの属性は、フェア（Fair）、ライト（Light）、ミディアム（Medium）、タン（Tan）、ディープ（Deep）及び超ディープ（Very Deep）の合計６つのクラスを有する。従って、この特定の属性に関するタスクは、人物の画像が与えられ、６つのクラスのうちのどれが与えられた画像を最も良く表すかを予測する。

属性の所定のセットは、色属性または形状属性の２つの異なるタイプに大まかに分類することができる。色属性の例としては、髪の色、肌のトーン及びアンダートーン（undertone）が挙げられる。形状属性の例としては、目の形状、目のしわ及び唇の大きさが挙げられる。

最近、畳み込みニューラルネットワーク（ＣＮＮ）の優れた性能のために、ほとんどの最先端のＦＡＣ手法は、顔属性を分類するためにＣＮＮを利用する。概して、これらの手法は、以下のように分類することができる：（１）単一ラベル学習ベース（single-label learning based）のＦＡＣ手法および（２）複数ラベル学習ベース（multi-label learning based）のＦＡＣ手法。単一ラベル学習ベースのＦＡＣ手法は通常、顔画像のＣＮＮ特徴を抽出し、次いで、サポートベクトルマシン（Support Vector Machine、ＳＶＭ）分類器によって顔属性を分類する。しかしながら、これらの手法は各属性を個々に予測し、したがって、属性間の相関を無視する。対照的に、複数の属性を同時に予測することができる複数ラベル学習ベースのＦＡＣ手法はＣＮＮの下位レイヤから共有特徴（shared features）を抽出し、ＣＮＮの上位レイヤ上の属性固有分類器を学習する。

典型的な学術（academic）の環境とは異なり、本明細書で主に説明されるシステム及びそのダウンストリームのタスクは、ファッション及び美容産業に主に関連する。一般的な学術データセット（general academic dataset）における属性は、現在のタスクに最小限の価値を提供する、より広い範囲の顔の特徴をカバーする傾向がある。対照的に、新しいテーラーメイドデータセット（tailor-made dataset）は、良く設計された属性タイプのためのソフトラベル（soft labels）を有する画像を記憶することで定義される。新しいデータセットは、それぞれが異なる環境下で撮影された１～５つの画像を有する３７９０の被験者を含む。全部で２３個の属性があり、各属性は複数（例えば６個）の個々のヒトアノテータ（human annotators）によってラベル付けされ、独立して作用し、更に記載されるようにソフトラベルを使用する。

ヒトアノテータは、顔属性のインスタンスのための特定の値に常に合意するとは限らない。１つのアノテータは、値が平均であると結論付けても良く、別のアノテータは例えば値が高いと結論付けても良い。従って、顔属性分類などの分類タスクに関する人間のパフォーマンスを変更することができる。即ち人間は、異なる意見を有するか、又は特定の属性値について異なる結論に達する可能性がある。一実施形態では、属性データセットがグラウンドトゥルース（ground truth）属性値に関するそれぞれの「意見」を集約するために、複数の人間からのアノテーション（annotations）を用いてコンパイルされる。

このアプローチは、ハード又はシングルグラウンドトゥルースを使用する従来のデータセットアノテーションアプローチとは対照的である。例として、１つの属性は、軽度、中等度または重度のしわ値を有するしわに関する。この例は、値間の線形関係を示す。対照的なものは、顎の形状が丸い、尖っている又は角ばっている、である。これらは数学的に関連しているが、現在のタスクのための新しいデータセットを作成する際に実行されたことはアルゴリズムが各画像に対して使用する属性のための別個のグループ又はバケット（bucket）を定義することである。極端に多様な顎形状が与えられると、分類器アルゴリズムは各バケットに対して信頼性をもたらし、即ち最終製品の推奨は顧客の頬をどのように輪郭づけるかを決定するときに、人間が行う可能性が最も高いバケットを使用することができることを意味する。このタスクに対する従来のアプローチは画像に対する「正しい」出力が何であるかを理解するために、全てのアノテータが言ったことを平均化することによって、「ハードラベル」を使用する。代わりに、それは「ソフトラベル」アプローチを使用して、「正しい」答えがない可能性があると認識される。この手段はアノテータが不一致であっても、アルゴリズムはたとえそれが最も高い信頼性を有すると信じられたものに確定するとしても、全てのアウトプットを推奨する柔軟性を有する。

図１，２は、２３の顔属性に対する顔属性分類タスクにおける人間の一致および人間のパフォーマンスを示すグラフである。

人間の同意は、アノテータがどれだけ互いに同意するかを評価するために設定される。一実施形態では、６つのヒトアノテータがある。アノテーションを行う場合、全ての場合において、アノテータは互いに良く一致するわけではない。例えば髪の色アノテーションの場合、４人がブラウンと言うことができるが、２人が暗いブラウンと言うことも、黒と言うことさえある。第１のグラフは一致を示し、範囲の中点は平均値である。範囲は、一致の標準偏差（ｓｔｄｄｅｖ）を示す。一致は多数決に基づいて計算されるので、４／２の上記の例では、一致がこの特定の属性（例では髪の色）に関するこの特定の対象について６６％である。３／３を５０％、２／２／２を３３％としてカウント。次いで、平均およびｓｔｄｄｅｖは、データセット全体にわたって各属性について決定される。

人間のパフォーマンスとは、人間自身がどれだけ良いかを評価することである。つまり、基本的には「どれだけの数が正しかったか」ということである。「正しい」の定義は、一実施形態について定義される要素である。実施形態では、それは多数決に従う。しかし、他の例は大多数が明確でない例（例えば写真のためのアノテーションのセット）である。例えば髪の色の写真は、２クラスで３／３の投票を得たのか、３クラスで２／２／２の投票を得たのか多数決はない。そのような場合、本実施形態では、「同じ投票を含む」および「同じ投票を含まない」と名付けられた２つのメトリックのセットが定義される。「同じ投票を含む」は多数決を有さない場合を含み、「同じ投票を含まない」は、明確な多数決を有さない場合を単に無視する。無視すると、これらの事例は、計算の分子または分母のいずれにも含まれない。それらは無視される。一方、「同じ投票を含む」は、全てのトップクラスを正しくカウントする。３／３の場合、どちらも正しいので、人間のパフォーマンスは１００％である。２／２／２の場合、まだ１００％である。２／２／１／１の場合、６６％。

表１に２３の属性とその値を示す。

顔の形状は、顔属性４ａ（顔の長さ）及び４ｂ（顎の形）の予測からの信号を組み合わせることによって予測される二次属性である。例えば楕円形＝長い（顔）＋丸形（顎）、丸型＝短い（顔）＋丸形（顎）である。

訓練目的のために、データは、それに応じて２２７４、７５８及び７５８の被験者を含む訓練、検証および試験サブセットに分割される。

見かけの顔アーキテクチャ予測問題は、ディープラーニングを用いたコンピュータ実装のための教師あり回帰問題として投げかけられる。属性は、同じ個体からの１～５個の画像から評価される。

顔属性の固有の関係および異質性を効果的に活用するために、属性を異なるグループに分割することができる。一実施形態によれば、属性は、２つの別個のグループに分けられた：色属性（髪の色、目の色およびアンダートーン等）および形状属性（唇の大きさ、目のしわ及び鼻の種類等）。属性の各グループ上で類似のアーキテクチャを共有する２つのサブモデルが訓練された。推論中に、（それぞれの属性ごとの）予測は最後に集約される。便宜上、２つのサブモデル（１つは色用、１つは形状用）を集約して、顔属性分類のためのスーパーモデルを形成する。しかしながら、サブモデルのいずれか１つは、それぞれの属性のみが分類のために望まれる場合に有用である。

２つのサブモデル（例えば形状サブモデル及び色サブモデル）は同じ構成を共有するが、様々な前処理されたデータ（ここでは訓練の始まり以前の任意のデータ増強の手段の前処理、顔検出および顔切り取り、サイズ変更等を含むが、これらに限定されない）上で訓練される。カラーサイン（color signs）の場合、髪の色および肌のトーンのような属性はカラー抽出を導くために背景も必要とするので（例えば陰影環境において、明るい肌のトーンの画像は背景が切り取られた場合、暗い肌のトーンとして誤って分類される可能性がある）、データセットは形状属性の背景よりも多くの背景を有するように前処理される。形状モデルは最小限の背景で切り抜かれた顔について訓練されるが、カラーモデルはより多くの背景情報を含んでいた。

一実施形態では、２つのサブモデルにおける前処理は：

１．オリジナルの画像をＲＢＧ空間に変換する；

２．画像内に存在する顔を検出する。（任意の標準的な顔検出アルゴリズムが動作するはずである。）これは色に対してはオプションであるが、精度を向上させる；

３．フェイスボックスのサイズ変更－カラーモデル：検出されたフェイスボックスを１．７倍に拡大する、シェイプモデル：検出されたフェイスボックスを１．２倍の幅と高さに拡大する、そして、

４．手順３．の画像をモデルの入力サイズにサイズ変更する。

従って、データセットは、カラー関連サイン（color related signs）及び形状関連サイン（shape related signs）をバケット化することにより、２つのアルゴリズムを訓練するために使用される。これは、関連するサインから学習されたアルゴリズムを意味する。例えば明るい毛髪を有する人々は青い目を有することが多く、暗い皮膚を有する人々は褐色の目を有することが多い。しかし、青い目を持つ人は、顔の形にほとんど相関関係がないかもしれない。各アルゴリズムの結果として得られるコードは、関連するサインの関連する計算を再利用し、関連するサイン間を接続することによって、非常に小さく、非常に高速である。２つのアルゴリズムは一緒になって、ユーザの顔特性の完全なピクチャを作り出すが、互いに過度に複雑にならない。

図３は、ディープラーニングネットワークアーキテクチャを示すブロック図である。３００ネットワークは、入力レイヤ３０４においてソース画像を処理するための畳み込みニューラルネットワーク（ＣＮＮ）３０２を備える。一実施形態では、ＣＮＮ３０２が複数の残差ブロック（residual blocks）３０６を有する残差ネットワークベースのバックボーンを使用して、共有特徴を抽出するように構成される。例として、残余ネットワークベースのバックボーンは、ＲｅｓＮｅｔ（"Deep Residual Learning for Image Recognition"、He、Kaiming et al、2015-12-10、URL：arxiv.org/abs/1512.03385）を使用して構成される。一実施形態では、例えばImageNet(Stanford Vision Lab、Stanford University(URL image-net.org)から入手可能な組織化された画像のデータベース）上で事前訓練されたモデルが、バックボーンネットとして適合され、使用される。そのようなモデルの最後のいくつかの予測レイヤは手元の目的のために、例えば必要に応じて共有特徴データを生成するためのエンコーダとして、モデルを適応させるために除去される。

（例えば平均プーリング（average pooling）を使用して）平坦化された特徴ベクトル３０８が、バックボーンネット３０２から取得される。例えば一実施形態では、ＲｅｓＮｅｔ１８ベースのバックボーン特徴ネットから、出力はサイズ２２４×２２４の画像に対する次元７×７×５１２のベクトルを有する。平均プーリングは、一実施形態では５１２個の位置の各々における７×７個の項の平均をとることによって、１×５１２の平坦化ベクトルを提供する。

特徴ベクトル３０８は、Ｋ個の顔属性の各々に対する複数（Ｋ個）の分類器３１０による処理のために（例えば並行して）複製される。各個々の分類器（例えば３１２_１、３１２_２、…３１２_Ｋ）は、１又は複数の完全に接続された線形レイヤ（３１４_１、３１４_２、…３１４_Ｋ）及び予測ブロック（３１６_１、３１６_２、…３１６_Ｋ）を備え、各属性の最終予測を出力する。形状モデルでは、各分類器ヘッド（classifier head）が整流線形ユニット（rectified linear unit、ＲｅＬＵ）活性化を有する２つの完全に接続された線形レイヤからなる。隠れレイヤ（hidden layer）サイズは５０である（この手段、特徴サイズがＮであると仮定すると、第１のＦＣレイヤは特徴を５０のサイズに絞り込み、次いで、第２のＦＣレイヤはサイズ５０の特徴に作用し、目標出力サイズに等しいサイズを有する特徴ベクトルを出力する）。カラーモデルでは、各分類器ヘッドが１つのＦＣ線形レイヤのみからなる。（サイズＮの特徴をターゲット出力サイズに直接変換する）。典型的には、モデルがより深い（即ちより多くのレイヤが存在する）ほど、モデルの容量はより大きくなる。形状属性は、完全に接続されたレイヤの数の差を説明する学習困難性の点で、色属性よりも比較的複雑である。

訓練時および／または推論時の使用中に、一実施形態では、モデルが一度にＮ個の画像のグループを処理するために使用される。出力は（Ｎ，Ｋ）の次元を有し、Ｎは入力画像の数であり、Ｋは属性の数である。出力行列の各要素は整数であり、Ｏｉ，ｊは、ｉ番目の画像およびｊ番目の属性について、システムが画像を予測するクラスが属することを表す。一実施形態では、Ｎは学習レートのための訓練ハイパーパラメータ（training hyper-parameter）である。Ｎ個の画像の各々は、同じ又は異なる顔を含む。このモデルは、同一性に関するコンテキストを有しておらず、同じ顔の複数の画像にわたって矛盾する予測結果を解決するものでもない。

それぞれの属性についての分類器の各々の中で、最終出力レイヤの前のレイヤは、可能な属性値のセットにわたって（スコア値のよう）予測のセットを生成する。一実施形態では、各予測が属性値の「真」に関する相対的尤度である。３つの属性値のセットについて、予測のセットは２０、２０、６０であり得るが、多くの場合、予測は異なるスケールにわたって正規化される。最終的な予測は予測値のセット（例えば６０に関連付けられた属性）の最大値から決定される。

上述のように、教師あり学習に使用される注釈付きデータセットは、６人の人間のアノテータが独立して行動するアノテーションを有する。上述のように、特定の属性に対する注釈は、各注釈によって同一ではない。「真」解決ルールは、アノテーション値（ソフトラベル）の中から選択するために使用される。１つのルールは最も一般的な予測ルールであり、一連の予測から最も一般的に予測される属性を選択する。１つのルールは、上位２つの最も一般的な予測ルールである。

カラーモデルの場合、一実施形態では、「真」が「最も一般的な投票」として扱われる。これは、目の色に対する以下のアノテーションを有することを意味する：「青」、「青」、「青」、「灰色」、「灰色」、「茶色」：モデルが「青」を予測する場合、最も一般的な投票との整合が存在する。モデルが「青」または「灰色」を予測する場合、上位２つの最も一般的な投票との整合が存在する。アノテーションが「青」、「青」、「灰色」、「灰色」、「茶色」、「黒」である場合、「青」または「灰色」のいずれかが最も一般的な投票である（および上位２つの最も一般的な投票）。

表２は、訓練された色属性を予測するためのモデルの出力および評価を示す。「＊」でアノテーション付けされた属性出力は、モデルによって予測されることがほとんどない出力を表す。一実施形態では、追加の訓練データを利用して、そのような予測を改善する。一実施形態では別のアプローチがこれらの粒度予測を、より一般的な（および関連する）予測と一緒に、又はバンドルすること、予測の粒度または細かさを低減することを含む。例えば一実施形態では「ストロベリー」、「レッド」及び「オーバーン」は共バンドルされる。

形状モデルでは、最も一般的な投票もグラウンドトゥルースとして扱われた。２つの評価基準（予測解決ルール（prediction resolving rule））が使用された：「多数決に一致するパーセンテージのみ」及び「最も一般的な投票に一致するパーセンテージ」。

「最も一般的な投票に合致するパーセンテージ」は全ての最大投票クラスが「グラウンドトゥルース」として扱われるときに、試験セット内の全てのサンプルに対する精度を計算する。

「多数決のみに一致するパーセンテージ」は、１つの多数決クラスのみを有するサンプルについての精度を計算するだけである。

表３は、訓練された形状属性を予測するためのモデルの出力および評価を示す。

図４は、一実施形態において、顔属性分類に応答する推奨アプリケーションを提供するコンピューティングシステム４００を示す。アプリケーションは、電子商取引アプリケーションである。更にディープラーニングネットワークモデル（deep learning network model）を使用すること等による画像処理技法によって、アプリケーションは、顔効果シミュレーションを提供して、推奨をコンテキスト的に提示する。アプリケーションは、仮想および／または拡張現実体験をユーザに提供する。

システム４００には、ユーザコンピューティングデバイス４０２が示される。ユーザコンピューティングデバイス４０２は、スマートフォンの形態で示される。タブレット端末、パーソナルコンピュータ等の他のフォームファクタが有用である。ユーザコンピューティングデバイス４０２は、アプリケーション４０４等の電子商取引アプリケーションに有用な、Apple Inc（登録商標）、Samsung Electronics Co，Ltd．（登録商標）等から入手可能なような消費者向けデバイスである。一実施形態では、デバイス４０２が販売員などによって操作される製品カウンターキオスクデバイスである。

一実施形態では、ユーザコンピューティングデバイス４０２がプロセッサ（ＣＰＵ、ＧＰＵなど）、記憶デバイス、１又は複数の通信サブシステム又はデバイス、ディスプレイ、入力デバイス、出力デバイス等のうちの少なくともいくつかを含む、通信のために結合された様々な構成要素を有するコンピューティングデバイスを備える。一実施形態では、ディスプレイがタッチ又はジェスチャー可能なもの（gesture enabled）であり、入力デバイスはマウス、マイクロフォン、カメラ、キーボード、ボタン等のポインティングデバイスを含み、通信デバイスは有線または無線通信のいずれかを提供し、短距離および／または長距離の通信が可能である。一実施形態では、通信デバイスが衛星ベースのロケーションサービスを提供する等のためにロケーションデバイスに結合する。一実施形態では出力デバイスがスピーカ、ライト、振動／触覚デバイスなどを含み、様々な構成要素は１又は複数の通信バスまたは他の構造を介して結合される。

一実施形態では、記憶デバイスは、例えば実行されたときにコンピューティングデバイスの動作を構成する命令およびデータを記憶する。命令は、オペレーティングシステム、アプリケーション等を定義する。データは、顔の１つ以上のソース画像を含む。アプリケーション４０４に加えて、一実施形態では、電子メール、テキストメッセージ、インスタントメッセージ、ショートメッセージサービス（ＳＭＳ）メッセージ等のメッセージ（データ）を通信するための１又は複数のアプリケーションがある。一実施形態では、通信が画像またはビデオなどの添付ファイルを含む。

一実施形態では、アプリケーション４０４がユーザコンピューティングデバイス４０２の一部として、又は、それに結合された、ディスプレイデバイス（例えば４０８）による表示のための１又は複数の画面（例えば４０６）を含むグラフィカルユーザインターフェースを提供する。一実施形態では、ユーザコンピューティングデバイス４０２及びアプリケーション４０４がジェスチャ及び／又は音声であるか又はその他が有効である。一実施形態では、アプリケーション４０４がネイティブアプリケーションであり、ユーザデバイス及びそのオペレーティングシステムのために特に構成され、ダウンロードされ、その上に記憶されるか、又は、ブラウザベースのアプリケーションの形態など、より多くのデバイスに不可知（agnostic）であり、及び／又は、ウェブサービスとして提供される。

一実施形態では、アプリケーション４０４が例えばインターネットプロトコル（ＩＰ）を使用して、ネットワーク４１０を介して、電子商取引サーバ４１２及び画像処理サーバ４１４等の１又は複数のサーバと通信する（デバイス４０２を使用して）。システム４００は簡略化されており、支払い及び他のサービスは示されておらず、１つのユーザコンピューティングデバイスのみが示されている。

一実施形態では、サーバ４１２及び４１４が（１つのそのようなデバイスが使用され得るが）既知の適切なリソースを有するそれぞれのコンピューティングデバイスによって提供される。適切なコンピューティングデバイスは、プロセッサ（ＣＰＵ、ＧＰＵ等）、記憶デバイス、１又は複数の通信サブシステム又はデバイス、ディスプレイ、入力デバイス、出力デバイス等のうちの少なくともいくつかを含む、通信のために結合された様々な構成要素を有する。一実施形態では、ディスプレイがタッチ又はジェスチャ可能なものであり、入力デバイスはマウス、マイクロフォン、カメラ、キーボード、ボタンなどのポインティングデバイスを含み、通信デバイスは有線または無線通信のいずれかを提供し、短距離または長距離の通信が可能である。一実施形態では通信デバイスが衛星ベースのロケーションサービスを提供するなどのロケーションデバイスに結合し、出力デバイスはスピーカ、ライト、振動／触覚デバイス等のいずれかを含む。様々な構成要素は、１又は複数の通信バス又は他の構造を介して結合される。一実施形態では、記憶デバイスは、例えば実行されたときにコンピューティングデバイスの動作を構成する命令およびデータを記憶する。

本実施形態では、アプリケーション４０４がメイクアップ製品のための電子商取引アプリケーションである。アプリケーション４０４は顔属性分析を取得するためにソース画像を提供し、ソース画像から決定された顔属性に応答して製品推薦を受信するように構成される。サーバ４１４はソース画像を（サーバ４１２への通信なしにデバイス４０２から、又はサーバ４１２を介して）受信し、顔の特徴を決定するための方法を実行するように構成される。

サーバ４１４はディープラーニング及び教師付き回帰（supervised regression）を実行するネットワークモデルを使用して顔のソース画像を処理し、顔属性の各々について予測を出力する。

一実施形態では、ネットワークモデルがディープラーニングを実行して、顔属性を予測するためにそれぞれの分類器による分類のための共有特徴の特徴ベクトルを生成する残差ブロックを有する畳み込みニューラルネットワーク（ＣＮＮ）モデルを備える。特徴ベクトルの複製は、顔属性のそれぞれの１つについてそれぞれの分類器によって処理されるようにされる。一実施形態ではネットワークモデルが複数のそれぞれの分類器を備え、それぞれの分類器の各々は、１又は複数の完全に接続された線形レイヤを備え、それぞれの分類器の各々は顔属性のそれぞれ１つの予測を出力として提供する。複数のそれぞれの分類器は、一実施形態では顔属性を提供するために並行して実行される。

一実施形態では、顔属性が顔属性の固有の関係および異質性（heterogeneity）（例えば色または形状など）に従って、複数（例えば２つ）のそれぞれの属性グループに関連付けられる。一実施形態では、サーバ４１４が、そのような手法がソース画像を処理するために、属性グループのそれぞれの１つのために構成されたそれぞれのネットワークモデルを使用するように構成される。

一実施形態では、それぞれの属性グループのうちの１つは、色ベースの顔属性のための色属性グループであり、ソース画像は色ベースのネットワークモデルによって処理される。一実施形態では、それぞれの属性グループのうちの１つは形状ベースの顔属性のための形状属性グループであり、ソース画像は形状ベースのネットワークモデルによって処理される。

一実施形態では、ネットワークモデルが予測レイヤのトリミングされた、適応され事前訓練されたＲｅｓＮｅｔベースの画像処理ネットワークモデルを含む。

サーバ４１４は、本実施形態では製品推薦を提供するために使用される顔属性を提供するが、他の実施形態では、サーバが画像検索、顔認識、個人再識別ならびに製品および／またはサービス推薦などのうちのいずれか１つを実行するアプリケーションによって使用するための顔属性を提供する。

一実施形態では、サーバ４１４が残差ブロックを有する畳み込みニューラルネットワーク（ＣＮＮ）ベースのバックボーンネットワークモデルを使用して顔のソース画像を処理し、共有特徴の特徴ベクトルを生成し、複数（Ｋ個）の分類器を使用して特徴ベクトルを処理し、Ｋ個のそれぞれの顔属性が決定され、それぞれの分類器は、Ｋ個のそれぞれの顔属性のうちの１つの予測を出力するために１又は複数の完全に接続された線形レイヤと予測ブロックとを備える。一実施形態では、第１のネットワークモデル（例えばサブモデル）は色ベースの顔属性についてソース画像を処理して、色ベースの顔属性を予測するように構成された複数の分類器のそれぞれによって処理するための色ベースの特徴ベクトルを生成し、第２のネットワークモデルは形状ベースの顔属性についてソース画像を処理し、形状ベースの顔属性を予測するように構成された複数の分類器のそれぞれによって処理するための形状ベースの特徴ベクトルを生成する。

ユーザコンピューティングデバイスがソース画像を（例えばカメラまたは他のアップロードから（例えば記憶デバイスから））提供するクライアント／サーバモデルとして示されているが、サーバ４１４は顔属性検出サービスを実行し、一実施形態ではユーザコンピューティングデバイスが十分にロバストである場合、分類を実行するためにディープラーニングモデルを用いて構成される。

一実施形態では、サーバ４１２が電子商取引サービスのための製品推奨を提供する。サーバ４１２は、製品推奨の少なくともいくつかを購入するための電子商取引ショッピングサービスを提供する。

一実施形態では、サーバ４１２が顔のソース画像から決定された複数の顔属性を受信することによって、複数の顔属性を生成するために顔属性分類ネットワークモデル（facial attribute classifying network model）を使用して処理されたソース画像を受信することと、少なくともいくつかの顔属性を使用して、製品に適した顔属性と関連付けて製品を記憶するデータストアから少なくとも１つの製品を選択することと、製品を購入するために電子商取引インターフェースにおいて提示するための推奨として少なくとも１つの製品を提供することと、などによって、電子商取引サービスのために製品を推奨するように構成される。

一実施形態では、顔属性がサーバ４１４及び／又はサーバ４１４について説明した方法を使用して決定される。

一実施形態では、製品がメイクアップ製品を含む。メイクアップ製品は所定のメイクアップルック（make-up looks）を定義するために、データストア（例えばサーバ４１２に結合されたデータベース４１６）内で様々に関連付けられる。ルックは、特定の効果を有するメイクアップから定義され、及び／又は特定の技術を使用して適用される。各ルックは異なるタイプのメイクアップから（例えば含むように）定義される。タイプは顔（頬、鼻、顎、額、顎の線など）の皮膚の領域（領域）または眉毛およびまつ毛などの毛を含む目、唇および眉毛などの領域に関連する。顔の領域（皮膚）、目の領域、眉の領域、唇の領域などは、説明されるように、形状、色を含む顔属性に関連付けられる。それぞれの領域のためのそれぞれのメイクアップ製品は、例えば属性のための適合性尺度（suitability measure）を使用することによって、それぞれの属性に関連付けられる。測定値は、２値、例えば「良い」又は「良くない」であっても良く、又は、適合性測定値はより粒状であっても良い（例えば１～１０のスケール又は他のスケールでランク付けされる）。一実施形態では、外観が顔の複数の領域（例えば全ての領域）に対するそれぞれの製品を含む。ルックのための製品は顔の属性に関連する尺度を有する（例えば唇の形状および色の属性に対する唇の製品、眉の属性に対する眉の製品など）推奨機能はユーザ画像の画像分析から決定された顔の属性を、それぞれのルックにグループ化された製品に一致させるために、ルール又は他の方法を使用することができる。一実施形態では、顔属性へのマッチングが潜在的な外観を識別する。２つ以上のルックが、初期マッチングから識別され得る。識別されたルックは例えばそれぞれのルックについての顔属性マッチのカウント、及び／又は、マッチのスケールを評価する顔属性マッチの品質に基づいてランク付けされ得る。ランキングは、ルックの提示を順序付けるため、及び／又は、スコアを提供するために使用され得る。一実施形態では、外観を選択し、顔属性情報を使用して、外観を達成するために使用可能なマッチング製品を決定することができる（例えば顔に組み合わせたとき）。ランク付けは、外観を達成するために使用されるそれぞれの製品を順序付けまたはスコア付けするために使用され得る。

一実施形態では、サーバ４１４が所定のメイクアップルックのうちの１つの識別を受信する。顔属性のうちの少なくともいくつかを使用するとき、サーバ４１２は少なくとも１つの製品を選択するときに、所定のメイクアップルックのうちの１つに応答する。

一実施形態ではメイクアップ製品の各々が複数のメイクアップタイプのうちの１つに関連付けられるとき、サーバ４１２はメイクアップタイプの各々について、顔属性に応答して、推奨を定義するために少なくとも１つの製品を選択する。上述のように、メイクアップタイプは、顔製品タイプ、目製品タイプ、眉製品タイプ、及び唇製品タイプを含む。

一実施形態では、サーバ４１２が推奨製品を使用する技術を推奨する。

一実施形態では、サーバ４１２がアプリケーション４０４のために（ユーザ）コンピューティングデバイス４０２にその出力を提供する。出力は、電子商取引サービスのグラフィカルユーザインターフェースなどを介してディスプレイ４０８を介して提示される。

一実施形態ではユーザのルック又は個々のメイクアップ製品の知覚を向上させるために、ソース画像は顔効果を提示するために画像処理等によって修正される。ソース画像は、サーバ４１２によって、又はサーバ４１４によって、又は本明細書の実施形態で説明されるようなユーザコンピューティングデバイス４０２によって修正される。ディープラーニングネットワークモデルは、ソース画像を修正するか、又は他の画像処理技術が本明細書の実施形態で説明されるように使用される。ソース特徴を維持しながら、ある領域（domain）から別の領域に変換するように、ソース画像を修正するための１つのそのようなディープラーニングネットワークモデルは、敵対的生成ネットワーク（ＧＡＮ）ベースのモデルである。

一実施形態では、アプリケーション４０４がユーザコンピューティングデバイス４１２が現実をシミュレートするための方法を実行することを可能にする。方法は、顔のソース画像から複数の顔属性を決定することと、顔属性分類ネットワークモデルを使用してソース画像を処理することと、顔属性のうちの少なくとも１つに応答して、顔への適用のための少なくとも１つの顔効果を決定することと、表示のために少なくとも１つの顔効果を顔に適用するためにソース画像を処理することとを含む。一実施形態では、アプリケーション４０４がサーバ４１２及び４１４の一方または両方と通信して、そのために実行される方法ステップを有する。ユーザコンピューティングデバイス４０２は一実施形態ではカメラ４１８を使用してソース画像（例えば４２０）を生成する。

一実施形態では、少なくとも１つの顔面効果が顔面に適用される少なくとも１つのメイクアップ製品および／または技法のシミュレーションである。一実施形態では、他の顔面効果がプロテーゼ、形成手術またはアイウェア等の適用を含む。

様々な実施形態では、少なくとも１つの顔効果を適用するためにソース画像を処理することは顔効果を適用するように構成されたディープラーニングネットワーク（例えばＧＡＮベース）を使用すること、又は、他のディープラーニングモデル若しくは他の画像処理技法が使用されることを含む。限定ではなく例として、（クライアント側）コンピューティングデバイスにおいて構成された拡張現実（ＡＲ）仮想的な試着のための方法が、ソース画像上の推奨製品またはサービスに関連する効果をシミュレートするために使用され、仮想的な試着のユーザエクスペリエンスを与える。要約すると、メイクアップ製品を表すレンダリング値（例えば赤、緑、青（ＲＧＢ）色および色不透明度）と同様に、カメラフレーム又は写真（例えばソース画像として）が、方法への入力として受け取られる。ソース画像は、顔追跡を使用して、ソース画像内のユーザの顔の周りのキーランドマーク（key landmarks）を決定するために処理される。これらのランドマークを使用して、メイクアップ製品に対する顔の領域が、唇関連製品のためのユーザの唇のようにマスクアウト（masked out）される。次に、レンダリング値を使用して、マスクアウトされたエリア内のユーザの顔にメイクアップを描画する。一実施形態では、実際の製品がどのように見えるかを現実的にレンダリングするために、ソース画像から照明をサンプリングすること、ブレンディング（blending）することなどの他のステップが含まれる。最後に、メイクアップ又は顔効果を含む変更されたソース画像の結果が、表示可能な出力として返される。

本実施形態において、図５，６Ａ，６Ｂ，７Ａ，７Ｂ，８，９Ａ，９Ｂ，１０Ａ，１０Ｂ，１０Ｃ，１０Ｄ，１１Ａ，１１Ｂ及び１１Ｃは、アプリケーション４０４のグラフィカルユーザインターフェースのための画面またはその一部を示す。

本実施形態では、図５がアプリケーションの開始画面５００を示し、このコンテンツはユーザコンピューティングデバイス４０２のディスプレイ画面４０８上に全てが適合する（全てが表示可能ではない）わけではない。部分は、アプリケーションの概要を提供する部分５０２等、知られているようにスクロール可能である。制御５０４はアプリケーションを進める（例えば開始する）ために提供される。

本実施形態では、図６Ａがソース画像（例えば４２０）を取得するための初期画面６００（例えば「写真撮影指示画面」）を示す。画像は、カメラ４１８を介した「自撮り」である。「撮影」制御が進み、撮影インターフェースを開始する（図７参照）。アップロード制御６０４は、デバイス４０２のローカル記憶デバイスから、又は別様にスクリーン６１０（例えば「画像取得のためのアップロード／オプション」）及び図６Ｂを介して画像を取得するように、アップロードインターフェースに進む。

本実施形態において、図７Ａ及び図７Ｂは顔７０４の画像をキャプチャする（例えばカメラから受信する）ための撮影インターフェース（例えばそれぞれスクリーン７００及び７１０）を示す。画像キャプチャ制御７０２は、カメラ４１８を呼び出して、ソース画像４２０を取得する。背面（反対向き）カメラモードに切り替えるためのものなど、他の制御は図示されていない。実施形態では、ユーザが顔を適切に位置決めするのを支援するため、メイクアップの摩耗を最小限にするため、髪または他の物体が顔を閉塞するのを最小限にするため及び適切な照明を使用するため等の命令が提示される。命令の例は「顔を位置付ける」７０６であり、これは、画像が撮影される前に顔のプレゼンテーションをオーバーレイすることができる。画像がキャプチャされると、顔の位置および照明を確認し、リテーク（図示せず）を要求するための初期処理が実行される。本実施形態では、ソース画像４２０が説明したように顔属性を決定するための処理のためにサーバ４１４などに通信される。

本実施形態において、図８がソース画像４２０から決定された顔属性を提示するための顔分析のためのインターフェース（例えばスクリーン８００）を示す。本インターフェースでは、ソース画像が顔属性に関する情報８０２を提示する（例えばオーバーレイする）ように修正された（４２０Ａ）ものとして提示される。顔属性情報８０３はコンテキスト的に、かつ属性に関連する顔４２０の領域に関連して提示される。本実施形態では、顔属性情報がソース画像４２０について決定された、表１からの属性および関連値を識別する。本明細書の画面における、オーバーレイスタイル及び制御位置は例示である。

本実施形態では、領域が例えば画像処理によって、例えば領域を特定するために特徴検出を実行することによって、ソース画像４２０上に配置される。ロケーションは例えばデバイス４０２又はサーバ４１４によって決定される。領域は例えば顔全体、眉、目および唇に関連する。これらの領域は、１つ以上の特定の顔属性に関連する。実施形態では、各領域がそれぞれの製品タイプに関連する。

本実施形態では、個々の情報（例えば８０２Ａ）は関連する領域インターフェースに進むための制御（例えばタップ制御８０２Ｂ）に関連付けられる。各関連領域インターフェースは図示のように、領域の顔属性および関連製品などに関する追加情報を提供するように構成される。図９Ａ（制御８０２Ｂに関連する）および図９Ｂ（制御８０２Ｃに関連する）を参照されたい。一実施形態では、各領域がそれぞれの領域界面を有する。

それぞれの（タップ）コントロール８０４はまた、顔属性および関連製品についての追加情報を提供する関連領域インターフェースに進むために提供される。この実施形態では、制御８０４がスワイプジェスチャ（例えば左／右）および／または前進制御（例えば８０４Ａ）のタッチなどによって前進される（呼び出される）。

本実施形態では、スクロールがさらなる情報（例えば「私の結果概要」部分）をもたらし、インターフェース８００の部分８００Ａを制御する。この実施形態では保存制御８０６（例えば「結果画像の保存」）はアノテーション付き画像４２０及び／又は顔属性分析の結果を装置４０２の記憶装置に保存するために提供される。制御８０８（例えば「私のメイクアップルックを続ける」）は推奨インターフェース（例えば図１０Ａ）に進む。コントロールなどの様々なインターフェース部分および要素は、インターフェースナビゲーション及びユーザインターフェース理解を支援するためにテキストラベルを有することができることが明らかである。

本実施形態において、図９Ａが顔全体の顔属性に関連する領域９０２を視覚的に強調し、顔の形状、肌の色合い、アンダートーン（例えば「形、肌の色＆アンダートーン情報メイクアップチップ」）などのさらなる情報（例えば部分９０４における）を提供するための領域インターフェース９００を示す。部分９０４における追加情報は領域９０２の関連製品に関し、グラフィックス及び／又はテキスト、カラースウォッチ画像等を含む。この実施形態では、製品推奨インターフェース（例えば図１０Ａ）に進むために、制御９０６が提供される（例えば「私の推薦を見る」）。制御部９０８は別の領域インターフェース、例えば眉（例えば図９Ｂ）に進むために設けられる。

本実施形態において、図９Ｂが領域インターフェース９１０を示し、額の顔属性に関連する領域９１２を視覚的に強調し、額の形状、額の色（例えば「額の形＆色情報メイクアップチップ」）などの更なる情報を部分９１４に提供する。部分９１４における追加情報は領域９１２の関連製品に関し、グラフィックス及び／又はテキスト、カラースウォッチ画像等を含む。製品推奨インターフェース（例えば図１０Ａ）に進むために、制御９０６が提供される（例えば「私の推薦を見る」）。コントロール９１８は、目のためなどの別の領域インターフェース（目のための領域インターフェースは図示せず）に進むために提供される。コントロール９２０は特定の領域インターフェースまたは「私の結果」インターフェース（例えば図８）に進むために提供される。特定の領域インターフェースに進むことは、例えばコントロール９２０のうちの１つをスワイプするか、又はテーピングすることによってナビゲートされ得る。

領域界面（例えば９００及び９１０）について、関心領域（９０２，９１２）はソース画像４２０上に（例えばオーバーレイを介して）位置する。画像処理は例えば領域を特定するために特徴検出を実行する。本実施形態では、ソース画像４２０をオーバーレイしてそれぞれの修正画像４２０Ｂ，４２０Ｃを定義するように、それぞれのマスクが定義される。本実施形態では、マスクが例えばそれぞれの領域に焦点を合わせるために、関心領域（９０２、９１２）の外側の領域を暗くする。

図示されていないが、本実施形態では唇および目のための領域インターフェースが設けられている。唇領域インターフェースはリップサイズ情報を提示し、唇形状情報を示し、かつ／または記述する。目領域インターフェースは、目の形状、まぶた及び目の色情報を提示する。図示された領域インタフェースの全てと同様に、（例えば領域に関連付けられた適用可能な顔属性に関連する）製品チップも提供される。

本実施形態では、図１０Ａ～１０Ｄが推奨インターフェースの初期画面１０００、１０１０、１０２０及び１０３０を示す。画面１０００、１０１０、１０２０および１０３０は様々な製品情報を提示し、前進制御（例えば「次へ」１００２）を含む。スクリーン１０００は領域またはアイテム情報に進むためのコントロール１００４Ａ及び１００４Ｂを有する「パーソナルルック導入画面」を提供し、全体ルック情報をそれぞれ提供する。図１０Ｂのルック選択インターフェース１０１０は「ルック１」、「ルック２」、「ルック３」及び「ルック４」（例えば全体的な顔の影響を達成するためにそれぞれの顔の影響を有する所定の又は選択されたメイクアップ製品グループ）などの所定の「ルック」に対する選択肢（例えば選択コントロール１０１２Ａ、１０１２Ｂ、１０１２Ｃ及び１０１２Ｄに関連する）を提示する。図では一般的にラベル付けされているが、各ルックは描写的又は空想的なラベル（例えば「ドラマチック」、「エレガント」、「ビジネス」、「ランニング・レイト」など）を有することができ、メイクアップタイプは各（顔）領域に関連付けられ、インターフェースを操作し、追加の情報提示を要求するために選択可能（例えば呼び出し可能）である。情報は、例えばデータベース４１６に記憶される。この実施形態では、外観がそれを適用する製品または技法が１又は複数の特定の顔属性に関連付けられる（例えば推奨される）など、顔属性情報にキー付けされる（関連付けられて記憶される）。例えば楕円形の顔、アーモンドの目、厚い眉、ブラウンの眉、赤色のアンダートーン、ブロンドの髪等を有する顔の特定の外観を達成するために、顔、目、眉および唇に適用可能な製品が決定される。

本実施形態では、肌のタイプ選択インターフェース（例えば画面１０２０）は「タイプ１」、「タイプ２」、「タイプ３」及び「タイプ４」などのスキンタイプ選択のための選択肢（例えば選択コントロール１０２２Ａ、１０２２Ｂ、１０２２Ｃ及び１０２２Ｄに関連する）を提示する。図では一般的にラベル付けされているが、各タイプは描写的または空想的なラベルを有することができる。本実施形態では、肌のタイプが正常、乾燥、油性、これらの組み合わせ等の属性値に関する。本実施形態では、肌のタイプが画像処理により自動的に決定されないユーザによって提供されるデータである。

本実施形態では、製品推奨が肌のタイプに応答する。次へ１００２を選択することは、アプリケーション４０２を呼び出し、ルック及び肌のタイプ情報を要求するサーバ４１２へのメッセージ等により製品推奨を決定するために使用する、ルック及び肌のタイプ情報を提供する。本実施形態では、サービスへのメッセージがソース画像４２０について決定されたユーザの顔属性情報を提供する。一実施形態では、ソース画像４２０が効果の適用に使用するため等に提供される。ソース画像４２０を示す画面１０３０（図１０Ｄ）は製品推奨を受信するのを待つ場合等に（例えばラベル「ルックマッチ」を用いて）提示される。画面１０３０は、図１１Ａの画面１００においてシミュレートされた製品推奨と比較するためのベースライン（例えばメイクアップ基準なし）を提供する。

本実施形態において、図１１Ａ及び図１１Ｂは現実がシミュレートされる製品推奨インターフェース（例えば１１００Ａ及び１１００Ｂとして２つの部分に示される画面１１００）を示す。顔属性に一致すると決定された製品推奨を含む選択されたルックは、ソース画像４２０上でシミュレートされ、画像４２０Ｄを提示する。

本実施形態では、画面１１００が所望の（選択された）外観（例えば１１０２）を達成するための製品のマッチングに使用される顔属性情報（例えば１１０２）を提示する。この実施形態では、１００２の情報がユーザのそれぞれの属性（例えばユーザ詳細１及びユーザ詳細２）のうちの２つにとって、ルックが理想的であることを示す。本実施形態では、特定のルックについての一般的な情報（例えば１１０４）が提供される。一般的な情報はこの実施形態ではルックの名前および特徴を含み、ルックの製品およびチュートリアル情報を含む。共有／保存コントロール１１０６は、シミュレートされた画像４２０Ｄを保存または共有するために提供される。

本実施形態では、画面１１００が、部分１１１０、１１１２、１１１４及び１１１６における顔の領域（例えば全体的な顔、目、眉および唇）の各々についての推奨情報を提示するために分割される。目のための部分１１１２は簡潔にするために、部分的にのみ表されているが、他の部分１１１０、１１１４及び１１１６と同様に構成されていることに留意されたい。部分１１１０、１１１４及び１１１６は特定の製品推奨（例えば１１１０Ａ、１１１４Ａ及び１１１６Ａにおける製品画像、色、名前、価格を含む）、ならびに１１１０Ｂ、１１１４Ｂ及び１１１６Ｂにおける特定の製品チュートリアルを示す。本実施形態では、各それぞれの製品が製品を商品としてショッピングカートに追加するために、それぞれの購入コントロール（例えば１１１０Ｃ、１１１４Ｃ及び１１１６Ｃで「カートに追加」）に関連付けられる。提示すべき情報の量に応答して、一例として、部分１１１０、１１１２、１１１４及び１１１６のいずれかは、（例えば左または右へのスワイプジェスチャを介して）スクロール可能であり、例えば領域のための２つ以上の製品、チュートリアル及び購入コントロールを提示する。ステップカウント及び／又はボタン表示（例えば１１１０Ｄ、１１１４Ｄ及び１１１６Ｄ）は、画面１１００上に現在提示されているそのような情報内の位置を示すのに有用である。

本実施形態では、コントロール１１１８の操作により全ての製品がショッピングカートに追加される。例えば製品属性に応答して、個々の製品は選択可能な特徴を有する（例えばサイズ又は任意の他の選択可能な属性を選択するために）。部分１１１０、１１１２、１１４及び１１１６のいずれかにおける、それぞれの製品のための関連するコントロール（図示せず）を選択することにより、インターフェースは、製品選択インターフェース１１２０を提示する。例えば部分１１１０において、製品推奨１１１０Ａに関連するコントロールを選択することで、製品詳細選択１１２２が推奨１１１０Ａを置き換え、詳細選択１１２２を使用して選択を確認する選択コントロール１１２４がカートに追加コントロール１１１０Ｃを置き換える、その製品推奨のための１１２０に類似する適用可能な製品セレクタインターフェースを呼び出す。

コントロール１１２６（例えば「私のルックの選択」）は様々なルック間で、又は様々なルック特徴もしくはコンテキストのためのようなルック内で移動するように動作可能である。本実施形態では、コンテキストが時刻、イベント、場所などに関する。呼び出しコントロール１１２６は、それぞれ、関連する顔効果の新しい製品推奨および新しい現実シミュレーションをもたらす。検索コントロール（１１２８）（例えば「メイクアップファミリーの検索」）は、追加の製品（インターフェースは図示せず）を示す。

本実施形態では、画面１１１０が、ルック／変更の選択を変更する（例えばルックインターフェースをナビゲートする際に１つの段階に戻る）、最初からやり直す（例えば画面７００で新しい画像キャプチャを開始する）、結果に戻る（例えば画面８００）、終了する（インターフェースを閉じる、図示せず）などの推奨インターフェースのための様々なナビゲーション制御１１３０Ａ、１１３０Ｂを提示する。

一実施形態ではプライバシーに関連する懸念のために、４１２又は４１４等のサーバはソース画像またはソース画像を処理した後等の任意の導出された画像を永続的に記憶しない。本実施形態では、アプリケーション４０４が顔属性処理および製品シミュレーションの要求に（関連付けて）ソース画像を送信する。

顔属性が決定されると、ユーザエクスペリエンスを支援し、適用可能なユーザインターフェースの動作を定義するために、電子商取引サービスにおけるいくつかの目的に有用である。例えばアプリケーション及びそのインターフェースは、１又は複数を実行するように構成可能である。１．ユーザがファンデーションの色合いを間違って見ている場合は、肌検出を使用して仮想な試着にヒントを追加する。２．髪の色検出を使用して、達成可能なカラーを推奨する。３．髪の色検出を使用して、トレンドイメージから髪の色を抽出し、関連するカラーを推奨する。４．より多くの目のパラメータを使用して「完全な目の外観」を行う。５．共有特性に基づいてユーザに適合する類似の外観を見つける。６．顔／髪の毛特徴を使用して、ライフスタイル、個人的ファッション嗜好または他のユーザ特徴を予測する。７．ユーザがルックを決定した後、彼らの顔／髪の特徴に基づいて達成するためのルーチン／アクションを提供する。８．魅力度の評価を計算する。

図１２は、一実施形態による動作１２００を示すフローチャートである。動作１２００は、例えば本明細書で説明される実施形態に従って、訓練および訓練データセットに関連する方法を提供する。ステップ１２０２において、動作は推論時間画像（inference time image）から属性を予測する属性分類器を訓練するための属性データセットを記憶し、属性データセットは複数の属性を示す複数の画像を備え、属性の各々は複数のそれぞれの属性値を有する。ステップ１２０４において、動作は複数の画像の各画像のデータセットにソフトラベルを格納し、ソフトラベルは独立して動作する複数のそれぞれの人間画像アノテータ（human image annotators）によって決定されるように、属性ごとにそれぞれの属性値を含む。ステップ１２０６において、動作は、属性分類器を訓練するための属性データセットを提供する。記憶動作は一実施形態では限定はされないが、データベース等のデータ記憶装置に記憶する。

一実施形態では、動作１２００が（例えばステップ１２０８において）属性データセットを使用して属性分類器（attribute classifier）を訓練することをさらに含むことができる。一実施形態では訓練するとき、方法はソフトラベルの中から真を選択するために「真」解決ルールを使用することを含む。

一実施形態では、属性が属性の固有の関係および異種性に従って複数のそれぞれの属性グループに関連付けられ、属性分類器は属性グループの各々について１つずつ、複数のサブモデルを備える。一実施形態では、それぞれの属性グループのうちの１つは色ベースの属性のための色属性グループである。一実施形態では、それぞれの属性グループのうちの１つは形状ベースの属性のための形状属性グループである。

一実施形態では、属性は顔属性である。一実施形態では、顔属性が表１の属性を含む。

動作１２００の特徴および任意の関連する実施形態はそれに応じて構成されるとき、コンピューティングデバイスの態様およびコンピュータプログラム製品の態様に従って提供されることを理解されたい。

図１３は、一実施形態による動作１３００を示すフローチャートである。動作１３００は、例えば顔属性を決定するための方法を提供する。動作１３００はステップ１３０２において、ディープラーニング及び教師付き回帰を実行するネットワークモデルを使用して顔のソース画像を処理し、顔属性の各々について予測を出力する。一実施形態では、ネットワークモデルがディープラーニングを実行して、顔属性を予測するためにそれぞれの分類器による分類のための共有特徴の特徴ベクトルを生成する残差ブロックを備える畳み込みニューラルネットワーク（ＣＮＮ）モデルを備える。

一実施形態では、顔属性が顔属性の固有の関係および異質性に従って複数のそれぞれの属性グループに関連付けられ、ソース画像は属性グループのそれぞれの１つのために構成されたそれぞれのネットワークモデルによって処理される。一実施形態ではそれぞれの属性グループのうちの１つは色ベースの顔属性のための色属性グループであり、ソース画像は色ベースのネットワークモデルによって処理される。一実施形態ではそれぞれの属性グループのうちの１つは形状ベースの顔属性のための形状属性グループであり、ソース画像は形状ベースのネットワークモデルによって処理される。

一実施形態では、動作１３００がステップ１３０４において、顔属性のそれぞれの１つについて、それぞれの分類器によって処理されるべき特徴ベクトルを複製する。

一実施形態では、ネットワークモデルが複数のそれぞれの分類器を備え、それぞれの分類器の各々は１又は複数の完全に接続された線形レイヤを備え、それぞれの分類器の各々は顔属性のそれぞれ１つの予測を出力として提供する。一実施形態では、複数のそれぞれの分類器が顔属性を提供するために並行して実行する。

一実施形態では、モデルが予測レイヤのトリミングされた、適応され事前訓練されたＲｅｓＮｅｔベースの画像処理ネットワークモデルを含む。

一実施形態では、ステップ１３０６において、動作は画像検索、顔認識ならびに製品および／またはサービス推奨のうちのいずれか１つを実行するための（例えばアプリケーションによる使用のための）顔属性を提供する。

一実施形態では、ステップ１３０８において、動作は画像検索、顔認識ならびに製品および／またはサービス推奨のうちのいずれか１つを実行する。

一実施形態では、アプリケーションが顔属性に応答して製品および／またはサービス推奨を実行し、アプリケーションは推奨される製品またはサービスに関連する効果をシミュレートするようにソース画像を修正し、ユーザエクスペリエンスに仮想的な試着を提供する。

動作１３００の特徴および任意の関連する実施形態は、それに応じて構成されるとき、コンピューティングデバイスの態様およびコンピュータプログラム製品の態様に従って提供されることを理解されたい。

図１４は、一実施形態による動作１４００を示すフローチャートである。動作１４００は、顔画像の顔属性を決定する方法を提供する。ステップ１４０２において、動作は、残差ブロックを有する畳み込みニューラルネットワーク（ＣＮＮ）ベースのバックボーンネットワークモデルを使用して顔のソース画像を処理して、共有特徴の特徴ベクトルを生成する。ステップ１４０２では、動作が、複数（Ｋ個）の分類器を使用して特徴ベクトルを処理し、Ｋ個のそれぞれの顔属性が決定され、それぞれの分類器は、Ｋ個のそれぞれの顔属性のうちの１つの予測を出力するために１又は複数の完全に接続された線形レイヤと予測ブロックとを備える。

一実施形態によれば、処理ステップ（１４０２，１４０４）は、顔のＮ個のソース画像に対して実行され、予測解決ルールを使用して、各顔属性のＮ個の予測からＫ個のそれぞれの顔属性の最終予測を決定する。

一実施形態によれば、ＣＮＮベースのバックボーンネットワークモデルは、第１のネットワークモデルと第２のネットワークモデルとを含む。一実施形態によれば、第１のネットワークモデルは、色ベースの顔属性についてソース画像を処理して、色ベースの顔属性を予測するように構成された複数の分類器のそれぞれによる処理のための色ベースの特徴ベクトルを生成する。

一実施形態によれば、第２のネットワークモデルは、形状ベースの顔属性についてソース画像を処理して、形状ベースの顔属性を予測するように構成された複数の分類器のそれぞれによる処理のための形状ベースの特徴ベクトルを生成する。

一実施形態によれば、特徴ベクトルは、Ｋ個の分類器による並列処理のために複製される。

一実施形態では、ステップ１４０６において、動作は画像検索、顔認識、ならびに製品および／またはサービス推奨のうちのいずれか１つを実行するための（例えばアプリケーションによる使用のための）顔属性を提供する。

一実施形態では、ステップ１４０８において、動作は画像検索、顔認識ならびに製品および／またはサービス推奨のうちのいずれか１つを実行する。

動作１４００の特徴および任意の関連する実施形態はそれに応じて構成されるとき、コンピューティングデバイスの態様およびコンピュータプログラム製品の態様に従って提供されることを理解されたい。

図１５は、一実施形態による動作１５００を示すフローチャートである。動作１５００は、現実をシミュレートするための方法を提供する。１５０２において、動作は、顔のソース画像から複数の顔属性を決定し、顔属性分類ネットワークモデルを使用してソース画像を処理する。１５０４において、動作は、顔属性のうちの少なくとも１つに応答して、顔に適用するための少なくとも１つの顔効果を決定する。動作（１５０６）は、ソース画像を処理して、少なくとも１つの顔効果を表示のために顔に適用する。

一実施形態では、動作１５００の顔属性が、そのようなそれぞれの動作１２００又は１３００の任意の関連する実施形態を含む、それぞれの動作１２００又は１３００を使用して決定される。動作１５００は、従って、任意の関連する実施形態を含むそのような動作１２００又は１３００を実行することを含み得る。

一実施形態では、少なくとも１つの顔効果が顔面に適用される少なくとも１つのメイクアップ製品および／または技法のシミュレーションである。

一実施形態では、少なくとも１つの顔効果を適用するためにソース画像を処理することは、顔効果を適用するように構成されたディープラーニングネットワークを使用することを含む。

一実施形態では、動作１５００のステップ１５０８が、顔属性に関連するメイクアップ製品および／または技法を記憶するデータストアから、１又は複数のメイクアップ製品および／または技法を選択するために、顔属性のうちの少なくとも１つを使用する。

動作１５００の特徴および任意の関連する実施形態は、それに応じて構成されるとき、コンピューティングデバイスの態様およびコンピュータプログラム製品の態様に従って提供されることを理解されたい。

図１６は、一実施形態による動作１６００を示すフローチャートである。動作１６００は、電子商取引サービスのために製品を推奨する方法を提供する。ステップ１６０２において動作は、顔のソース画像から決定された複数の顔属性を受信し、ソース画像は、複数の顔属性を生成するために顔属性分類ネットワークモデルを使用して処理される。１６０４において動作は、製品に適した顔属性に関連した製品を記憶するデータストアから、少なくとも１つの製品を選択するために、少なくともいくつかの顔属性を使用する。１６０６において動作は、少なくとも１つの製品を、製品を購入するための電子商取引インターフェースにおける提示のための推奨として提供する。

一実施形態では、動作１６００の顔属性がそのようなそれぞれの動作１２００又は１３００の任意の関連する実施形態を含むそれぞれの動作１２００又は１３００を使用して決定される。動作１６００は、従って、任意の関連する実施形態を含むそのような動作１２００又は１３００を実行することを含み得る。

一実施形態では、製品がメイクアップ製品を含む。

一実施形態では、メイクアップ製品が所定のメイクアップルックを定義するためにデータストア内で様々に関連付けられ、動作（図示せず）は所定のメイクアップルックのうちの１つの識別を受信し、顔属性のうちの少なくともいくつかを使用するステップは、少なくとも１つの製品を選択するときに、所定のメイクアップルックのうちの１つに応答する。一実施形態では、メイクアップ製品の各々が複数のメイクアップタイプのうちの１つに関連付けられ、方法は推奨を定義するために、メイクアップタイプの各々について、顔属性に応答して少なくとも１つの製品を選択することを含む。一実施形態では、メイクアップタイプが、顔製品タイプ、目製品タイプ、眉製品タイプ及び唇製品タイプを含む。

一実施形態では、動作（図示せず）が推奨製品を使用する技術を更に推奨する。

一実施形態では例えば電子商取引インターフェースを含むことができるインターフェースを介して、動作（図示せず）は、ソース画像を処理することによって顔に適用される少なくとも１つの製品のシミュレーションを提供する。

一実施形態では、動作（図示せず）は、推奨製品の少なくともいくつかを購入するための電子商取引ショッピングサービスを提供する。

動作１６００の特徴および任意の関連する実施形態はそれに応じて構成されるとき、コンピューティングデバイスの態様およびコンピュータプログラム製品の態様に従って提供されることを理解されたい。

本明細書に示され、説明されるコンピューティングデバイス及びインターフェースは、複数の異なる態様を提供する。例えば一実施形態ではコンピューティングデバイスがシステムの構成要素など、構成可能であり、システムはそれぞれの機能を実行するように構成された処理回路を含む１又は複数の特定の機能ユニットを備える。

１つのそのような態様では、図１７に示すように、顔のソース画像から複数の顔属性を抽出し、抽出した複数の顔属性に基づいて１又は複数の顔効果を生成するように構成された処理回路を含む顔属性ユニット１７０２と、少なくとも１つの顔効果をソース画像に適用し、効果が適用されたソース画像の１又は複数の仮想インスタンスを電子商取引インターフェース上で生成するように構成された処理回路を含む顔効果ユニット１７０４とを含むシステム１７００が提供される。

一実施形態では、システムが複数の顔属性のうちの１又は複数に関連して製品を記憶するデータストアから少なくとも１つの製品を決定し、製品を購入するために電子商取引インターフェース上で製品推奨の１又は複数の仮想インスタンスを生成するように構成された処理回路を含むユーザエクスペリエンスユニット１７０６をさらに備える。

一実施形態では、顔属性ユニットがディープラーニング及び教師付き回帰を実行して、顔のソース画像から複数の顔属性の各々についての予測を出力するように構成されたネットワークモデルを実行するように構成された処理回路を含む。

一実施形態では、顔効果ユニットは、効果が適用されたソース画像の少なくとも一部と、メイクアップ製品またはメイクアップ適用技術のうちの少なくとも１つとを含む仮想表現（virtual representation）を生成するように構成された処理回路を含む。

一実施形態では、顔効果が顔属性のうちの１つに応答するアノテーションを含む。一実施形態ではアノテーションが顔属性の顔属性値を含み、及び／又はアノテーションが顔属性が決定されるソース画像の領域に位置する（例えばソース画像上に（例えばオーバーレイとして）位置する）。

一実施形態では、顔属性ユニット１７０２によって決定される顔属性が、動作１２００又は１３００それぞれの任意の関連する実施形態を含む、動作１２００又は１３００それぞれを使用して決定される。従って、顔属性ユニットは、任意の関連する実施形態を含む動作１２００又は１３００を実行するように構成され得る。

他の実施形態では、他の実用的な用途が本明細書に記載の顔属性分類器を使用する。他の実施形態は、画像検索、顔認識などを含む。画像検索の主なタスクは、非常に大きなデータベースから画像を検索することである（この大きなサイズでは、順次検索は通常機能しない）。一実施形態では、顔属性が画像データベースに記憶された画像について計算され、それに応じてキー入力される。検索のための候補画像もまた、計算された属性を有し、これらは検索基準を狭くするため、又は、信頼度一致データ（confidence match data）を定義するため、又は、検索結果を順序付けるために使用される（例えば候補画像は１つの特定の記憶された画像の７つの顔属性のうちの５つと、第２の特定の記憶された画像の７つのうちの６つと一致し、その結果は検索結果を順序付けるため、又は（部分的に）一致する記憶された画像のうちの１つを選択するために使用される。

例えばＲｅｓＮｅｔのようなＣＮＮモデルは画像を「特徴」として表すことができ、これは、元の画像の圧縮された表現であり、従って、通常、はるかに小さく、検索がより容易である。

顔認識では、そのようなタスクが主に、同じアイデンティティ（人物）の異なる画像を見つけること、分類すること、又は、グループ化することに関する。同様の技法は、顔属性を使用して実行可能である。

本開示は、以前の著作物またはデータセットにおいて以前にカバーされなかった（顔の）属性の特別なセットを予測する方法を可能にする、包括的なデータセットのコレクションを説明する。以前の研究（例えば「CelebFaces Attributes dataset」（ＣｅｌｅｂＡ）データセット(URL:mmlab.ie.cuhk.edu.hk/projects/CelebA.htmlで入手可能な香港の中国大学のマルチメディア研究所からの顔属性データセット）は畳み込みニューラルネットワーク（ＣＮＮ）を以前に探索したが、そのようなものは各属性に対して異なるブランチを設定しなかった。即ち異なる属性ごとに別個の分類器ヘッドは使用されなかった。色および形状などの固有の関係を有する異なる属性に対して、異なるサブモデルを使用しなかった。
本明細書に示され、説明されるようなデータセットの収集の実施形態では、訓練ワークフローがモデル精度を改善するためにソフトラベルを使用した。訓練から得られる属性分類子は、人間のアノテーションと同等である。

実用的な実装は、本明細書に記載される特徴のいずれかまたは全てを含むことができる。これらおよび他の態様、特徴および様々な組合せは、機能を実行するための方法、機器、系、手段および本明細書で説明する特徴を組み合わせる他の方法として表され得る。いくつかの実施形態について説明した。それにもかかわらず、本明細書に記載されるプロセスおよび技法の趣旨および範囲から逸脱することなく、様々な修正がなされ得ることが理解されよう。加えて、他のステップを提供することができ、又はステップを記載されたプロセスから排除でき、他の構成要素を記載されたシステムに追加するか、又は、そこから除去できる。従って、他の態様は特許請求の範囲の範囲内にある。

本明細書の説明および特許請求の範囲を通して、単語「含む（comprise）」及び「含む（contain）」及びそれらの変形は「含むが、限定されない（including but not limited to）」を意味し、他の構成要素、整数またはステップを排除することを意図しない（。本明細書全体を通して、単数形は文脈が他のことを必要としない限り、複数形を包含する。特に、不定冠詞が使用される場合は本明細書がその状況が他のことを要求していない限り、単数だけでなく複数も意図していると理解されたい。

本発明の特定の態様、実施形態または実施例に関連して説明される特徴、整数、特性または群はそれらと互換性がない場合を除き、任意の他の態様、実施形態または実施例に適用可能であると理解されるべきである。本明細書に開示される特徴の全て（任意の添付の特許請求の範囲、要約および図面を含む）および／またはそのように開示される任意の方法またはプロセスのステップの全ては、そのような特徴および／またはステップの少なくともいくつかが相互に排他的である組合せを除いて、任意の組合せで組み合わせることができる。本発明は、前述の任意の例または実施形態の詳細に限定されない。本発明は、本明細書（添付の特許請求の範囲、要約および図面を含む）に開示される特徴の任意の新規な１つまたは任意の新規な組み合わせ又は開示される任意の方法またはプロセスのステップの任意の新規な１つまたは任意の新規な組み合わせに及ぶ。
参考文献
1.Deep Residual Learning for Image Recognition", He, Kaiming et. al, 2015-12-10, available at URL arxiv.org/abs/1512.03385.

2. A Survey of Deep Facial Attribute Analysis, Xin Zheng, Xin et. al, Submitted on 26 Dec 2018 (v1), last revised 27 Oct 2019 (this version, v3) URL arxiv.org/abs/1812.10265.

3.Deep Learning Face Attributes in the Wild, Liu, Ziwei et. al, Submitted on 28 Nov 2014 (v1), last revised 24 Sep 2015 (this version, v3), URL: arxiv.org/abs/1411.7766.

Claims

顔の属性を決定する方法であって、
ディープラーニング及び教師付き回帰を実行するネットワークモデルを使用して顔のソース画像を処理し、顔属性の各々について予測を出力することと、
前記ネットワークモデルは、ディープラーニングを実行する残差ブロックを含む畳み込みニューラルネットワーク（ＣＮＮ）モデルを含み、前記顔属性を予測するために、それぞれの分類器による分類のための共有特徴の特徴ベクトルを生成することとを含むことを特徴とする方法。
前記顔属性は、前記顔属性の固有の関係および異質性に従って複数のそれぞれの属性グループに関連付けられ、前記ソース画像は、前記属性グループのうちのそれぞれの１つのために構成されたそれぞれのネットワークモデルによって処理されることを特徴とする請求項１記載の方法。
前記それぞれの属性グループのうちの１つは、色ベースの顔属性のための色属性グループであり、前記ソース画像は、色ベースのネットワークモデルによって処理されることを特徴とする請求項２記載の方法。
前記それぞれの属性グループのうちの１つは、形状ベースの顔属性のための形状属性グループであり、前記ソース画像は、形状ベースのネットワークモデルによって処理されることを特徴とする請求項２又は３に記載の方法。
前記顔属性のそれぞれについて、それぞれの分類器によって処理されるべき前記特徴ベクトルを複製することを含むことを特徴とする請求項１から４のいずれかに記載の方法。
前記ネットワークモデルが複数のそれぞれの分類器を備え、前記それぞれの分類器の各々が、１又は複数の完全に接続された線形レイヤを備え、前記それぞれの分類器の各々が前記顔属性のそれぞれの１つの予測を出力として提供することを特徴とする請求項１から５のいずれかに記載の方法。
前記複数のそれぞれの分類器は、前記顔属性を提供するために並行して実行することを特徴とする請求項６記載の方法。
前記モデルは、予測レイヤのトリミングされた、適応され事前訓練されたＲｅｓＮｅｔベースの画像処理ネットワークモデルを含むことを特徴とする請求項１から７のいずれかに記載の方法。
画像検索、顔認識ならびに製品および／またはサービス推薦のうちのいずれか１つを実行するための前記顔属性を提供することを含むことを特徴とする請求項１から８のいずれかに記載の方法。
アプリケーションが前記顔属性に応答して前記製品および／またはサービス推奨を実行し、前記アプリケーションが、推奨される製品またはサービスに関連する効果をシミュレートするように前記ソース画像を修正して、ユーザエクスペリエンスに仮想的な試着を提供することを特徴とする請求項９記載の方法。
顔画像の顔の属性を決定する方法であって、
残差ブロックを有する畳み込みニューラルネットワーク（ＣＮＮ）ベースのバックボーンネットワークモデルを使用して顔のソース画像を処理して、共有特徴の特徴ベクトルを生成することと、
複数（Ｋ個）の分類器を使用して特徴ベクトルを処理し、Ｋ個のそれぞれの顔属性が決定され、それぞれの分類器は、Ｋ個のそれぞれの顔属性のうちの１つの予測を出力するために１又は複数の完全に接続された線形レイヤと予測ブロックとを備えることとを含むことを特徴とする方法。
前記顔のＮ個のソース画像に対して前記処理ステップを実行するステップと、各顔属性の前記Ｎ個の予測から前記Ｋ個のそれぞれの顔属性の最終予測を決定するために予測解決ルールを使用することとを含むことを特徴とする請求項１１記載の方法。
第１のネットワークモデルが、色ベースの顔属性について前記ソース画像を処理して、色ベースの顔属性を予測するように構成された前記複数の分類器のそれぞれによって処理するための色ベースの特徴ベクトルを生成することを特徴とする請求項１１又は１２に記載の方法。
第２のネットワークモデルが、形状ベースの顔属性について前記ソース画像を処理して、形状ベースの顔属性を予測するように構成された前記複数の分類器のそれぞれによって処理するための形状ベースの特徴ベクトルを生成することを特徴とする請求項１１から１３のいずれかに記載の方法。
前記Ｋ個の分類器による並列処理のために前記特徴ベクトルを複製することを特徴とする請求項１１から１４のいずれかに記載の方法。
現実をシミュレートする方法であって、
顔のソース画像から複数の顔属性を決定し、顔属性分類ネットワークモデルを使用してソース画像を処理することと、
前記顔属性のうちの少なくとも１つに応答して前記顔に適用するための少なくとも１つの顔効果を決定することと、
表示のために、少なくとも１つの顔効果を顔に適用するために、ソース画像を処理することとを含むことを特徴とする方法。
前記顔属性が、請求項１から１５のいずれかに記載の方法を使用して決定されることを特徴とする請求項１６記載の方法。
前記少なくとも１つの顔効果は、前記顔に適用される少なくとも１つのメイクアップ製品および／または技法のシミュレーションであることを特徴とする請求項１６又は１７に記載の方法。
前記少なくとも１つの顔効果を適用するために前記ソース画像を処理することは、前記顔効果を適用するように構成されたディープラーニングネットワークを使用することであることを特徴とする請求項１６から１８のいずれかに記載の方法。
前記顔属性のうちの少なくとも１つを使用して、前記顔属性に関連してメイクアップ製品および／または技法を記憶するデータストアから１又は複数のメイクアップ製品および／または技法を選択することを含むことを特徴とする請求項１８又は１９に記載の方法。
電子商取引サービスのための製品を推奨する方法であって、
顔のソース画像から決定された複数の顔属性を受信し、前記ソース画像は、前記複数の顔属性を生成するために、顔属性分類ネットワークモデルを使用して処理されることと、
製品に適した顔属性と関連して製品を記憶するデータストアから少なくとも１つの製品を選択するために、少なくともいくつかの前記顔属性を使用することと、
少なくとも１つの製品を、製品を購入するための電子商取引インターフェースにおける提示のための推奨として提供することとを含むことを特徴とする方法。
前記顔属性が、請求項１から１５のいずれかに記載の方法を使用して決定されることを特徴とする請求項２１記載の方法。
前記製品が、メイクアップ製品を含むことを特徴とする請求項２１又は２２に記載の方法。
前記メイクアップ製品は、所定のメイクアップルックを定義するために、データストア内で様々に関連付けられ、
当該方法は、所定のメイクアップルックのうちの１つの識別を受信することを含み、
前記顔属性のうちの少なくともいくつかを使用するステップは、少なくとも１つの製品を選択するときに、前記所定のメイクアップルックのうちの１つに応答するものであることを特徴とする請求項２３記載の方法。
前記メイクアップ製品の各々が、複数のメイクアップタイプのうちの１つに関連付けられ、当該方法が前記推奨を定義するために、前記メイクアップタイプの各々について、前記顔属性に応答して、少なくとも１つの製品を選択することを含むことを特徴とする請求項２４記載の方法。
前記メイクアップタイプが、顔製品タイプ、目製品タイプ、眉製品タイプ及び唇製品タイプを含むことを特徴とする請求項２４記載の方法。
推奨製品を使用するための技術を更に推奨することを特徴とする請求項２１から２６のいずれかに記載の方法。
前記電子商取引インターフェースが、前記ソース画像を処理することによって前記顔に適用される前記少なくとも１つの製品のシミュレーションを提供することを特徴とする請求項２１から２７のいずれかに記載の方法。
前記推奨製品のうちの少なくともいくつかを購入するための電子商取引ショッピングサービスを提供することを特徴とする請求項２１から２８のいずれかに記載の方法。
請求項１から２８のいずれかの方法を実行するように構成されたコンピューティングデバイスを備えることを特徴とするシステム。
システムであって、
顔のソース画像から複数の顔属性を抽出し、抽出された複数の顔属性に基づいて１又は
複数の顔効果を生成するように構成された処理回路を含む顔属性ユニットと、
少なくとも１つの顔効果を前記ソース画像に適用し、効果が適用されたソース画像の１又は複数の仮想インスタンスを電子商取引インターフェース上で生成するように構成された処理回路を含む顔効果ユニットとを含むことを特徴とするシステム。
複数の顔属性のうちの１又は複数に関連して製品を記憶するデータストアから少なくとも１つの製品を決定し、製品を購入するために電子商取引インターフェース上で製品推奨の１又は複数の仮想インスタンスを生成するように構成された処理回路を含むユーザエクスペリエンスユニットを更に含むことを特徴とする請求項３１記載のシステム。
前記顔属性ユニットは、ディープラーニング及び教師付き回帰を実行するネットワークモデルを実行して、顔の前記ソース画像から前記複数の顔属性の各々についての予測を出力するように構成された処理回路を含むことを特徴とする請求項３１又は３２に記載のシステム。
前記顔効果ユニットは、前記効果が適用されたソース画像の少なくとも一部と、メイクアップ製品またはメイクアップ適用技術のうちの少なくとも１つとを含む仮想表現を生成するように構成された処理回路を含むことを特徴とする請求項３１から３３のいずれかに記載のシステム。
前記顔効果は、前記顔属性のうちの１つに応答するアノテーションを含むことを特徴とする請求項３１から３３のいずれかに記載のシステム。
前記アノテーションは、前記顔属性の顔属性値を含み、前記アノテーションは、前記顔属性が決定される前記ソース画像の領域に位置することを特徴とする請求項３５記載のシステム。
方法であって、
推論時間画像から属性を予測する属性分類器を訓練するための属性データセットを記憶すること、前記属性データセットは複数の属性を示す複数の画像を含み、前記属性の各々は複数のそれぞれの属性値を有するものであり、
前記複数の画像の各々の画像に対する前記データセットにソフトラベルを記憶すること、前記ソフトラベルは独立して動作する複数のそれぞれの人間画像アノテータによって決定される、属性ごとのそれぞれの属性値を含むものであり、
前記属性分類器を訓練するための前記属性データセットを提供することとを含むことを特徴とする方法。
前記属性データセットを使用して前記属性分類器を訓練することを更に含むことを特徴とする請求項３７記載の方法。
訓練時に、前記ソフトラベルの中から真を選択するために「真」解決ルールを使用することを含むことを特徴とする請求項３８記載の方法。
前記属性は前記属性の固有の関係および異質性に従って複数のそれぞれの属性グループに関連付けられ、前記属性分類器は前記属性グループの各々について１つずつ、サブモデルを備えることを特徴とする請求項３７から３９のいずれかに記載の方法。
前記それぞれの属性グループのうちの１つは、色ベースの属性のための色属性グループであることを特徴とする請求項４０記載の方法。
前記それぞれの属性グループのうちの１つは、形状ベースの属性のための形状属性グループであることを特徴とする請求項４０又は４１に記載の方法。
前記属性が顔属性であることを特徴とする請求項３７から４２のいずれかに記載の方法。
前記顔属性は、表１の属性を含むことを特徴とする請求項４３記載の方法。
請求項３７から４３のいずれかに記載の方法を実行するように構成されたコンピューティングデバイスを備えることを特徴とするシステム。
請求項３７から４３のいずれかに記載の方法に従って定義された属性分類器を用いて構成されたコンピューティングデバイスを備えることを特徴とするシステム。