[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP7403673B2 - モデルトレーニング方法、歩行者再識別方法、装置および電子機器 - Google Patents

モデルトレーニング方法、歩行者再識別方法、装置および電子機器 Download PDF

Info

Publication number
JP7403673B2
JP7403673B2 JP2022547887A JP2022547887A JP7403673B2 JP 7403673 B2 JP7403673 B2 JP 7403673B2 JP 2022547887 A JP2022547887 A JP 2022547887A JP 2022547887 A JP2022547887 A JP 2022547887A JP 7403673 B2 JP7403673 B2 JP 7403673B2
Authority
JP
Japan
Prior art keywords
image
pedestrian
features
pedestrian image
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022547887A
Other languages
English (en)
Other versions
JP2023523502A (ja
Inventor
ワーン,ジーガーン
ワーン,ジエン
スン,ハオ
ディーン,エルルイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN202110372249.5A external-priority patent/CN112861825B/zh
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2023523502A publication Critical patent/JP2023523502A/ja
Application granted granted Critical
Publication of JP7403673B2 publication Critical patent/JP7403673B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Description

本出願は、2021年4月7日に提出された、出願番号が202110372249.5、発明名称が「モデルトレーニング方法、歩行者再識別方法、装置および電子機器」である中国特許出願の優先権を主張し、その全内容は参照により本出願に組み込まれる。
本開示は人工知能分野に関し、具体的にはコンピュータ視覚と深層学習技術であり、インテリジェント都市のシーンに用いることができる。
歩行者再識別は、歩行者再度識別とも呼ばれ、コンピュータ視覚技術を利用して画像またはビデオシーケンス中に特定の歩行者が存在するかどうかを判定するための技術である。一般に、大量のサンプル画像を使用して、歩行者再識別モデルに、教師トレーニングまたは教師なしトレーニングを行い、収束までトレーニングされたモデルを使用して、歩行者再識別タスクを完了することができる。収束モデルの性能は、サンプル画像の品質および難易度に依存する。一般に、モデルは、外見が明らかに異なる歩行者を区別することができるが、外見が似ているが身分が異なる歩行者を区別しにくい。
本開示はモデルトレーニング方法、歩行者再識別方法、装置および電子機器を提供する。
本開示の一態様によれば、
第1エンコーダを利用してサンプルデータセットにおける第1歩行者画像と第2歩行者画像を特徴抽出し、第1歩行者画像の画像特徴と第2歩行者画像の画像特徴を得ることと、
第1歩行者画像の画像特徴と第2歩行者画像の画像特徴を融合し、融合特徴を得ることと、
第1デコーダを利用して融合特徴を特徴復号し、第3歩行者画像を得ることと、
第3歩行者画像を第1歩行者画像の負のサンプル画像として確定し、第1歩行者画像および負のサンプル画像を用いて第1プリセットモデルを収束までトレーニングし、歩行者再識別モデルを得ることとを含むモデルトレーニング方法を提供する。
本開示の別の態様によれば、
歩行者再識別モデルを利用して目標画像および候補歩行者画像をそれぞれ特徴抽出し、目標画像の歩行者特徴および候補歩行者画像の歩行者特徴を得て、ここでは、歩行者再識別モデルは本開示の任意の実施例によって提供されるモデルトレーニング方法によって得られるものであることと、
目標画像の歩行者特徴と候補歩行者画像の歩行者特徴に基づいて、目標画像と候補歩行者画像との類似度を確定することと、
類似度が予め設定された条件に合致する場合、候補歩行者画像を目標画像の関連画像として確定することとを含む歩行者再識別方法を提供する。
本開示の他の一態様によれば、
第1エンコーダを利用してサンプルデータセットにおける第1歩行者画像および第2歩行者画像を特徴抽出し、第1歩行者画像の画像特徴および第2歩行者画像の画像特徴を取得するために用いられる第1符号化モジュールと、
第1歩行者画像の画像特徴と第2歩行者画像の画像特徴を融合し、融合特徴を得るために用いられる融合モジュールと、
第1デコーダを利用して融合特徴を特徴復号し、第3歩行者画像を取得するために用いられる第1復号モジュールと、
第3歩行者画像を第1歩行者画像の負のサンプル画像と確定し、かつ第1歩行者画像および前記負のサンプル画像を利用して第1プリセットモデルを収束までトレーニングし、歩行者再識別モデルを得るために用いられる第1トレーニングモジュールとを含むモデルトレーニング装置を提供する。
本開示の別の態様によれば、
歩行者再識別モデルを利用して目標画像および候補歩行者画像をそれぞれ特徴抽出し、目標画像の歩行者特徴および候補歩行者画像の歩行者特徴を得るために用いられ、歩行者再識別モデルは本開示の任意の実施例によって提供されたモデルトレーニング方法によって得られるものである第2抽出モジュールと、
目標画像の歩行者特徴および候補歩行者画像の歩行者特徴に基づいて、目標画像と候補歩行者画像との類似度を確定するために用いられる第3類似度モジュールと、
類似度が予め設定された条件に合致する場合に、候補歩行者画像を目標画像の関連画像として確定するために用いられる第2確定モジュールとを含む歩行者再識別装置を提供する。
本開示の別の態様によれば、
少なくとも1つのプロセッサ、および
該少なくとも1つのプロセッサに通信接続されたメモリを含み、
該メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶され、該命令は、該少なくとも1つのプロセッサが本開示のいずれか1つの実施例における方法を実行できるように、該少なくとも1つのプロセッサによって実行される電子機器を提供する。
本開示の別の態様によれば、本開示に記載のいずれか1つの実施例における方法をコンピュータに実行させるためのコンピュータ命令を記憶した非一時的コンピュータ可読記憶媒体を提供する。
本開示の別の態様によれば、プロセッサによって実行されると、本開示のいずれか1つの実施例における方法を実施するコンピュータプログラムを含むコンピュータプログラム製品を提供する。
本開示の技術によれば、第3歩行者画像は、第1サンプル画像の画像特徴と第2サンプル画像の画像特徴とに基づいて融合されているので、第3歩行者画像は、第1歩行者画像中の情報も含めば、第1歩行者画像とは一定の差異も有する。第1歩行者画像の負のサンプルとして第3歩行者画像を利用することにより、第1歩行者画像とその負のサンプルとの間の区別の難易度を向上させることができ、したがって、区別が困難なサンプルに基づいてトレーニングして歩行者再識別モデルを得て、モデルにより外見が似ているが身分が異なる歩行者を区別する効果を向上させる。
この部分に説明される内容は、本開示の実施例の要点または重要な特徴を識別することを意図しておらず、本開示の保護範囲を限定するためのものではないことを理解されたい。本開示の他の特徴は、以下の明細書によって理解されやすくなる。
図面は、本解決案をより良く理解するためのものであり、本開示に対する制限を構成しない。
本開示の一実施例によって提供されるモデルトレーニング方法の概略図である。 本開示の別の実施例によって提供されるモデルトレーニング方法の第1段階の概略図である。 本開示の別の実施例によって提供されるモデルトレーニング方法の第2段階の概略図である。 本開示の別の実施例によって提供されるモデルトレーニング方法の第3段階の概略図である。 本開示の一実施例によって提供される歩行者再識別方法の概略図である。 本開示の一実施例によって提供されるモデルトレーニング装置の概略図である。 本開示の別の実施例によって提供されるモデルトレーニング装置の概略図である。 本開示のさらに別の実施例によって提供されるモデルトレーニング装置の概略図である。 本開示の一実施例によって提供される歩行者再識別装置の概略図である。 本開示の実施例による方法を実現するための電子機器のブロック図である。
以下、図面に合わせて本開示の例示的な実施例を説明して、それに含まれる本開示の実施例における様々な詳細が理解を助けるためので、それらは単なる例示的なものと考えられるべきである。したがって、当業者であれば、本開示の範囲および精神から逸脱することなく、本明細書で説明される実施形態に対して様々な変更および修正を行うことができることを認識すべきである。同様に、明瞭と簡潔のために、以下の説明では公知の機能および構造についての説明を省略する。
図1は本開示の一実施例によって提供されるモデルトレーニング方法の概略図である。図1に示すように、モデルトレーニング方法は、
第1エンコーダを利用してサンプルデータセットにおける第1歩行者画像と第2歩行者画像を特徴抽出し、第1歩行者画像の画像特徴と第2歩行者画像の画像特徴を得るステップS11と、
第1歩行者画像の画像特徴と第2歩行者画像の画像特徴を融合し、融合特徴を得るステップS12と、
第1デコーダを利用して融合特徴を特徴復号し、第3歩行者画像を得るステップS13と、
第3歩行者画像を第1歩行者画像の負のサンプル画像として確定し、第1歩行者画像および負のサンプル画像を用いて第1プリセットモデルを収束までトレーニングし、歩行者再識別モデルを得るステップS14と、を含む。
上述したステップS11における第1エンコーダは、歩行者画像に基づいて画像特徴を抽出するために使用されてもよく、ステップS13における第1デコーダは、画像特徴に基づいて復号して新しい画像を得るするために使用されてもよい。したがって、第1エンコーダおよび第1デコーダは画像生成モデルを構成することができ、入力された歩行者画像に基づいて新しい歩行者画像を再構成するために使用される。ここで、第1エンコーダによって抽出された画像特徴は、第1ベクトルを使用して表すことができる。該ベクトルは、対応する歩行者画像の多次元の特徴情報を含むことができる。
本開示の実施例では、サンプルデータセットにおける、第1歩行者画像および第2歩行者画像のような異なる歩行者画像を第1エンコーダにそれぞれ入力することができ、第1エンコーダは対応する画像特徴を出力する。画像特徴を融合することにより、融合特徴を得る。続いて融合特徴を第1デコーダに入力し、第1デコーダは、融合特徴に基づいて第3歩行者画像を再構成して出力する。
第1歩行者画像と第2歩行者画像との融合特徴に基づいて第3歩行者画像が再構成されるため、第3歩行者画像は、第1歩行者画像の情報も第2歩行者画像の情報も含む。第3歩行者画像を第1歩行者画像の負のサンプル画像とすることで、第1歩行者画像とその負のサンプル画像との間の区別を難しくし、したがって区別が困難なサンプルに基づいてトレーニングして歩行者再識別モデルを得て、モデルにより、外見が類似しているが身分が異なる歩行者を区別する効果を向上させる。
例示的に、サンプルデータセットは、少なくとも2つの歩行者画像を含むことができる。各歩行者画像は、1人の歩行者に対応する。異なる歩行者画像は、異なる歩行者に対応してもよいし、同一の歩行者に対応してもよい。
実際の応用では、サンプルデータセットから1つの画像をサンプリングして第1サンプル画像とすることができる。そして、第1サンプル画像を基準として、第1歩行者画像とは大きく異なる画像、例えば第1歩行者画像とは異なる歩行者に対応する画像を第2サンプル画像としてサンプリングする。サンプリングされた画像に基づいて第3歩行者画像を再構成し、第1歩行者画像と第3歩行者画像をそれぞれ第1プリセットモデルに入力し、第1プリセットモデルは第1歩行者画像と第3歩行者画像をそれぞれ処理した後、対応する処理結果、例えば画像中の歩行者特徴または歩行者標識を出力する。第1プリセットモデルの処理結果と第1プリセットモデルに対応する損失関数に基づいて、損失関数の関数値を算出する。そして、第1プリセットモデルが収束条件に到達するまで、例えば更新回数が第1プリセット閾値に到達し、損失関数の関数値が第2プリセット閾値より小さくなったり、損失関数の関数値が変化しなくなったりするまで、損失関数の関数値に基づいて第1プリセットモデルを更新し、収束した第1プリセットモデルを歩行者再識別タスクを完了することに利用できる歩行者再識別モデルとして確定する。
例示的には、第1プリセットモデルに対応する損失関数は、第1歩行者画像の処理結果および負のサンプル画像の処理結果をプッシュするように第1プリセットモデルを制約することに利用でき、あるいは、第1プリセットモデルが、第1歩行者画像および負のサンプル画像に対して、特徴空間内で、できるだけ離れた処理結果を出力するようにすることに利用できる。これにより、第1プリセットモデルは、異なる歩行者画像を区別することができる。
例示的には、サンプリングごとに第3歩行者画像を生成し、第1歩行者画像と第3歩行者画像を含む一組の正負のサンプルペアを形成した後、その一組の正負のサンプルペアを利用して第1プリセットモデルを更新する関連操作を実行することができる。続いて、次のサンプリングを行う。まずサンプルデータセットの各歩行者画像ごとにいずれも対応する負のサンプル画像を取得し、複数の正負のサンプルペアを形成した後、複数の正負のサンプルペアを用いて第1プリセットモデルを複数回更新する関連動作を実行してもよい。
例示的には、第1プリセットモデルを更新することによって第1プリセットモデルのトレーニングを実現する過程において、第1エンコーダおよび第1デコーダを更新することもできる。具体的には、モデルトレーニング方法は、
第1歩行者画像と負のサンプル画像に基づいて、第1類似度を確定することと、
サンプル画像セットの第1歩行者画像以外の少なくとも一つの歩行者画像に基づいて、少なくとも一つの歩行者画像にそれぞれ対応する少なくとも一つの第2類似度を確定することと、
第1類似度、少なくとも1つの第2類似度、および敵対的損失関数に基づいて第1エンコーダおよび第1デコーダを更新することとをさらに含むことができる。
ここでは、敵対的損失関数は、第1類似度が少なくとも1つの第2類似度のいずれかよりも大きいように制約するために使用することができる。これをもとに、第1類似度、少なくとも1つの第2類似度、および敵対的損失関数に基づいて、第1エンコーダおよび第1デコーダを更新して、第1エンコーダおよび第1デコーダによって再構成された画像を第1歩行者画像とより類似させることができ、第1歩行者画像と負のサンプル画像との間の区別の難しさを増加させて、歩行者再識別モデルの効果をさらに向上させることができる。
例示的に、第1類似度および第2類似度に基づいて、敵対的損失関数の関数値を計算し、敵対的損失関数の関数値に基づいて第1エンコーダおよび第1デコーダを更新することができる。
いくつかのシーンでは、再構成損失関数および/または負のサンプル画像の真実度に関連して第1エンコーダおよび第1デコーダを更新してもよい。ここでは、再構成損失関数は、第1エンコーダおよび第1デコーダによって再構成された画像と、第1歩行者画像および/または第2歩行者画像との類似度が予め設定された閾値よりも高い、すなわち、再構成された画像が、入力された画像とある程度の類似性を有するように制約するために使用することができる。真実度は真実度判別器を用いて確定することができる。一例として、まず、敵対的損失関数の関数値、再構成損失関数の関数値を計算し、真実度を確定してから、上記の3者を用いて第1エンコーダおよび第2エンコーダを更新してもよい。
第1歩行者画像およびその負のサンプル画像を用いて第1プリセットモデルをトレーニングして歩行者再識別モデルを得る過程において、また第1歩行者画像および前記負のサンプル画像を用いて第1エンコーダおよび第2デコーダをトレーニングするので、第1エンコーダおよび第1デコーダは、再構成される負のサンプル画像の品質を段階的に向上させ、これにより、第1プリセットモデルのトレーニング効果を段階的に向上させる。
例示的に、第1エンコーダおよび第1デコーダは、歩行者画像に基づいて予めトレーニングされて得られてもよい。具体的には、第1エンコーダおよび第1デコーダを取得する方法は、
第2エンコーダを利用してサンプルデータセットにおけるi番目の歩行者画像を特徴抽出し、i番目の歩行者画像の画像特徴を得て、iは1以上の正の整数であることと、
第2デコーダを利用してi番目の歩行者画像の画像特徴を特徴復号し、生成画像を得ることと、
i番目の歩行者画像と生成画像との類似度および再構成損失関数に基づいて、第2エンコーダおよび第2デコーダを更新することと、
第2エンコーダおよび第2デコーダが収束条件に合致する場合、第2エンコーダを第1エンコーダとして確定して、第2デコーダを第1デコーダとして確定することとを含む。
ここで、再構成損失関数は、i番目の歩行者画像と生成画像との類似度が予め設定された閾値よりも小さいように制約するために使用される。あるいは、再構成損失関数は、復号された画像が入力符号化された画像と類似することを制約する。
上記の過程に基づいて、第2エンコーダおよび第2デコーダは、入力画像と類似する画像を再構成する能力を段階的に向上させる。収束条件に合致する状況で、第2エンコーダおよび第2デコーダを、第1エンコーダおよび第1デコーダが類似する画像を再構成する能力を有するように、第1エンコーダおよび第1デコーダとして確定する。したがって、、第1エンコーダと第1デコーダを負のサンプル画像の生成に適用することで、生成効果を向上させることができ、歩行者再識別モデルのトレーニング効果を向上させることができる。
例示的に、i番目の歩行者画像と生成画像との類似度と、再構成損失関数とに基づいて第2エンコーダおよび第2デコーダを更新することは、
i番目の歩行者画像と生成画像との類似度および再構成損失関数に基づいて、再構成損失関数の関数値を計算することと、
真実度判別器を利用して生成画像の真実度を確定することと、
再構成損失関数の関数値および生成画像の真実度に基づいて、第2エンコーダおよび第2デコーダを更新することとを含む。
つまり、トレーニング過程において、再構成損失関数を利用して、第2エンコーダおよび第2デコーダによって生成された画像が入力画像に類似するように制約するだけでなく、生成画像も可能な限りリアルになるように制約する。第2エンコーダと第2デコーダをトレーニングして得られた第1エンコーダと第1デコーダを負のサンプル画像の生成に適用することにより、生成効果を向上させ、これにより、歩行者再識別モデルのトレーニング効果を向上させることができる。
例示的に、上記の第1プリセットモデルはまた、予めトレーニングされて得られてもよい。具体的には、第1プリセットモデルを取得する方法は、
第2プリセットモデルを利用してサンプルデータセットにおける各歩行者画像を特徴抽出し、各歩行者画像の歩行者特徴を得ることと、
歩行者特徴に基づいてサンプルデータセットにおける各歩行者画像をクラスタリングし、少なくとも2つのクラスタラベルにそれぞれ対応する少なくとも2つのクラスタを得て、少なくとも2つのクラスタの各クラスタはいずれも少なくとも1つの歩行者画像を含むことと、
サンプルデータセットにおける各歩行者画像および各歩行者画像に対応するクラスタラベルに基づいて、第2プリセットモデルを、収束までトレーニングし、第1プリセットモデルを得ることとを含む。
ここで、歩行者特徴は、第2ベクトルを使用して表すことができる。第2ベクトルは、歩行者画像が対応する歩行者の多次元上の特徴を含む。
なお、本開示の実施例における各エンコーダおよび第1プリセットモデル、第2プリセットモデル、歩行者再識別モデルは、いずれも特徴抽出のために利用することができ、各エンコーダまたはモデルは、同じ方法または異なる方法によって異なる次元の特徴を抽出することができる。例えば、エンコーダは、画像のピクチャ効果に関連する色などの特徴を重点的に抽出し、第1プリセットモデル、第2プリセットモデル、歩行者再識別モデルは歩行者の高さなどの歩行者に関連する特徴を重点的に抽出することができる。
例示的には、上記の、歩行者画像をクラスタリングすることは、DBSCAN(Density-Based Spatial Clustering of Applications with Noise、ノイズを伴うアプリケーションの密度ベースの空間クラスタリング方法)、K-means(K-means Clustering Algorithm、K平均クラスタリングアルゴリズム)などの少なくとも1つによって実現することができる。
クラスタリングにより、各歩行者画像は異なるクラスタに分割され、各クラスタのクラスタラベルはクラスタにおける各歩行者画像の擬似ラベルとすることができる。各歩行者画像とそのクラスタラベルまたは擬似ラベルを利用して第2プリセットモデルをトレーニングし、教師なしトレーニングを実現し、各歩行者画像に対するマーキングコストを減少することができる。
実際の応用では、第2プリセットモデルを収束までトレーニングし、第1プリセットモデルを得る過程において、第2プリセットモデルに対応する損失関数を利用して、第2プリセットモデルを拘束して、異なるクラスタの歩行者画像に対する処理結果をプッシュし、同じクラスタの歩行者画像に対する処理結果をプルすることができる。したがって、第2プリセットモデルは、異なる歩行者画像を区別する能力を段階的に向上させることができる。
例示的に、上記の第1歩行者画像および第2歩行者画像は、少なくとも2つのクラスタのうちの異なるクラスタにおける歩行者画像であってもよい。
第1歩行者画像および第2歩行者画像として異なるクラスタの画像を使用することによって、融合特徴を用いて再構成された第3歩行者画像が第1歩行者画像と異なることを確保することができ、これによって歩行者再識別モデルが正確に区別するという能力を有することを確保することができる。
以下、具体的な適用例によって、本開示の実施例のモデルトレーニング方法の代替的な実施形態を説明する。適用例では、モデルトレーニング方法は、歩行者再識別モデルをトレーニングして得るために利用される。具体的には3段階に分けることができる。
図2は、第1段階の概略図である。図2に示すように、第1段階は以下のステップを含む:
特徴抽出ステップ201:初期化されたモデルを使用してラベルなしサンプルデータセット200における各歩行者画像を特徴抽出する。ここで、初期化されたモデルを第2プリセットモデルと表記し、ラベル付き複数の歩行者画像を利用してトレーニングして初期化されたモデルを得ることができる。
クラスタリングステップ202:DBSCAN、k-meansなどのクラスタリングアルゴリズムのうちの1つまたは複数を使用して、ステップ201で抽出された特徴をクラスタリングし、ラベルなしサンプルデータセット200における画像のクラスタリングを実現する。このようにして、ラベルなしサンプルデータセット200における各画像は、特徴空間において、異なるクラスタに分割される。
擬似ラベルを割り当てるステップ203:特徴空間における、各画像の対応するクラスクに応じて、各画像に擬似ラベルを割り当てる。擬似ラベルは、対応するクラスタインデックスである。
教師なし比較トレーニングステップ204:各画像、ステップ203で割り当てられた擬似ラベルおよび損失関数に基づいて、第2プリセットモデルをトレーニングする。ここでは、損失関数は同じクラスタ内の画像が特徴空間において互いに近づき、異なるクラスタの画像が特徴空間において互いに離れるように制約する。
ステップ204での往復反復のトレーニング過程を経て、第2プリセットモデルは収束し、第1プリセットモデル205を得る。
図3は、第2段階の概略図である。第2段階は、画像生成モデルをトレーニングするために使用され、画像生成モデルはエンコーダおよびデコーダを含む。第2段階の目的は、画像生成モデルに、抽象特徴から自然画像を再構成する能力を持たせることである。第2段階は以下のステップを含む:
特徴符号化ステップ300:画像生成モデルにおける第2エンコーダを用いて、ラベルなしサンプルデータセット200における各画像を特徴抽出し、対応する画像特徴301を得る。
特徴復号ステップ302:画像生成モデルにおける第2デコーダを利用して画像特徴301を復号し、生成画像を得る。
真実度判別ステップ303:真実度判別器を利用して、生成画像の真実度を確定する。該ステップは、画像生成モデルから出力される生成画像ができるだけリアルになるように制約するために使用される。
再構成損失関数計算ステップ304:生成画像およびラベルなしサンプルデータセット200における画像生成モデルに入力する画像に基づいて再構成損失関数を計算し、再構成損失関数は、第2デコーダによって復号された生成画像が第2エンコーダに入力された画像に類似するように制限するために使用される。
ステップ303およびステップ304の出力に基づいて、画像生成モデルを更新することができる。予め設定された収束条件に合致する場合、画像生成モデルにおける第2エンコーダを第1エンコーダとして確定し、画像生成モデルにおける第2デコーダを第1デコーダとして確定することで、第1エンコーダおよび第1デコーダを第3段階に適用する。
図4は、第3段階の概略図である。図4に示すように、第3段階は以下を含む:
サンプリングステップ400:ラベルなしサンプルデータセット200における各画像を、基準画像、すなわち第1歩行者画像として順次サンプリングする。続いて、第1歩行者画像と同じクラスタに属していない画像を、第2歩行者画像としてサンプリングする。
特徴符号化ステップ401:画像生成モデルにおける第1エンコーダを用いて第1歩行者画像と第2歩行者画像をそれぞれ特徴抽出し、対応する画像特徴を得る。
融合特徴ステップ402:ステップ401で得られた画像を重み付け融合し、融合特徴を得る。
特徴復号ステップ403:画像生成モデルにおける第1デコーダを用いて融合特徴を復号し、第3歩行者画像406を得る。
真実度判別ステップ404:真実度判別器を利用して、第3歩行者画像406の真実度を確定する。
再構成および敵対的損失関数405:再構成損失関数を計算することに加えて、該ステップは、また敵対的損失関数を計算する。敵対的損失関数は、第3歩行者画像406と第1歩行者画像との類似度が第3歩行者画像406とラベルなしサンプルデータセット200におけるの他の画像との類似度よりも大きくなるように制約する。すなわち、生成された第3歩行者画像は、第1歩行者画像と外見的に一定の類似性を有する。
教師なしトレーニングステップ407:該ステップは第3歩行者画像を第1歩行者画像の負のサンプルとし、第1プリセットモデルに教師なしトレーニングを行う。第1段階における教師なしトレーニングステップでの損失関数の制約に加えて、本ステップにおける損失関数は、モデルがハードサンプルを区別する効果を有することができるように、第1歩行者画像および前記負のサンプル画像を特徴空間内においてできるだけプッシュようにさらに制約する。最終的に歩行者再識別モデル408に出力する。
本開示の実施例に係る方法によれば、第3歩行者画像は、第1サンプル画像の画像特徴と第2サンプル画像の画像特徴とに基づいて融合されているので、第3歩行者画像は、第1歩行者画像中の情報も含めば、第1歩行者画像とは一定の差異も有する。第1歩行者画像の負のサンプルとして第3歩行者画像を利用することにより、第1歩行者画像とその負のサンプルとの間の区別の難易度を向上させることができ、したがって、区別が困難なサンプルに基づいてトレーニングして歩行者再識別モデルを得て、モデルにより外見が似ているが身分が異なる歩行者を区別する効果を向上させる。
本開示の実施例はまた、上記の歩行者再識別モデルの適用方法を提供する。図5は本開示の一実施例によって提供される歩行者再識別方法を示し、
歩行者再識別モデルを利用して目標画像および候補歩行者画像をそれぞれ特徴抽出し、目標画像の歩行者特徴および候補歩行者画像の歩行者特徴を得て、ここでは、歩行者再識別モデルは本開示の任意の実施例によって提供されるモデルトレーニング方法によって得られるものであるステップS51と、
目標画像の歩行者特徴と候補歩行者画像の歩行者特徴に基づいて、目標画像と候補歩行者画像との類似度を確定するステップS52と、
類似度が予め設定された条件に合致する場合、候補歩行者画像を目標画像の関連画像として確定するステップS53とを含む。
ここで、プリセット条件とは、例えば、類似度がプリセット閾値未満であるか、類似度が最小であるかなどである。
本開示の実施例が提供するモデルトレーニング方法は区別が困難なサンプルに基づいてトレーニングして歩行者再識別モデルを得るので、歩行者再識別モデルを利用して各画像の歩行者特徴を正確に抽出し、各画像の歩行者特徴に基づいて類似度計算を行い、計算された類似度を利用して候補歩行者画像から目標画像の関連画像を正確に確定することができる。
上記各方法の実現として、本開示はさらにモデルトレーニング装置を提供する。図6に示すように、該装置は、
第1エンコーダを利用してサンプルデータセットにおける第1歩行者画像および第2歩行者画像を特徴抽出し、第1歩行者画像の画像特徴および第2歩行者画像の画像特徴を取得するために用いられる第1符号化モジュール610と、
第1歩行者画像の画像特徴と第2歩行者画像の画像特徴を融合し、融合特徴を得るために用いられる融合モジュール620と、
第1デコーダを利用して融合特徴を特徴復号し、第3歩行者画像を取得するために用いられる第1復号モジュール630と、
第3歩行者画像を第1歩行者画像の負のサンプル画像と確定し、かつ第1歩行者画像および負のサンプル画像を利用して第1プリセットモデルを収束までトレーニングし、歩行者再識別モデルを得るために用いられる第1トレーニングモジュール640とを含む。
例示的には、図7に示すように、該装置は、
第1歩行者画像と負のサンプル画像に基づいて、第1類似度を確定するために用いられる第1類似度モジュール710と、
サンプル画像セットの第1歩行者画像以外の少なくとも一つの歩行者画像に基づいて、少なくとも一つの歩行者画像にそれぞれ対応する少なくとも一つの第2類似度を確定するために用いられる第2類似度モジュール720と、
第1類似度、少なくとも1つの第2類似度、および敵対的損失関数に基づいて第1エンコーダおよび第1デコーダを更新するために用いられる第1更新モジュール730とをさらに含む。
例示的には、図7に示すように、該装置は、
第2エンコーダを利用してサンプルデータセットにおける1以上の正の整数であるi番目の歩行者画像を特徴抽出し、i番目の歩行者画像の画像特徴を得る第2符号化モジュール750と、
第2デコーダを利用してi番目の歩行者画像の画像特徴を特徴復号し、生成画像を得るために用いられる第2復号モジュール760と、
i番目の歩行者画像と生成画像との類似度および再構成損失関数に基づいて、第2エンコーダおよび第2デコーダを更新するために用いられる第2更新モジュール770と、
第2エンコーダおよび第2デコーダが収束条件に合致する場合、第2エンコーダを第1エンコーダとして確定して、第2デコーダを第1デコーダとして確定するために用いられる第1確定モジュール780とをさらに含む。
例示的に、第2更新モジュール770は、
i番目の歩行者画像と生成画像との類似度および再構成損失関数に基づいて、再構成損失関数の関数値を計算するために用いられる計算ユニット771と、
真実度判別器を利用して、生成画像の真実度を確定するために用いられる確定ユニット772と、
再構成損失関数の関数値および生成画像の真実度に基づいて、第2エンコーダおよび第2デコーダを更新するために用いられる更新ユニット773とを含む。
例示的には、図8に示すように、該装置は、
第2プリセットモデルを利用してサンプルデータセットにおける各歩行者画像を特徴抽出し、各歩行者画像の歩行者特徴を得るために用いられる第1抽出モジュール810と、
歩行者特徴に基づいてサンプルデータセットにおける各歩行者画像をクラスタリングし、少なくとも2つのクラスタラベルにそれぞれ対応する少なくとも2つのクラスタを得て、ここでは、少なくとも2つのクラスタの各クラスタはいずれも少なくとも1つの歩行者画像を含むクラスタリングモジュール820と、
サンプルデータセットにおける各歩行者画像および各歩行者画像に対応するクラスタラベルに基づいて、第2プリセットモデルを、収束までトレーニングし、第1プリセットモデルを得るために用いられる第2トレーニングモジュール830とをさらに含む。
例示的に、第1歩行者画像および第2歩行者画像は、少なくとも2つのクラスタのうちの異なるクラスタにおける歩行者画像である。
本開示の実施例はさらに歩行者再識別装置を提供し、図9に示すように、該装置は、
歩行者再識別モデルを利用して目標画像および候補歩行者画像をそれぞれ特徴抽出し、目標画像の歩行者特徴および候補歩行者画像の歩行者特徴を得るために用いられ、歩行者再識別モデルは上記のモデルトレーニング方法によって得られる第2抽出モジュール910と、
目標画像の歩行者特徴および候補歩行者画像の歩行者特徴に基づいて、目標画像と候補歩行者画像との類似度を確定するために用いられる第3類似度モジュール920と、
類似度が予め設定された条件に合致する場合に、候補歩行者画像を目標画像の関連画像として確定するために用いられる第2確定モジュール930とを含む。
本開示の実施例の各装置における各ユニット、モジュール、またはサブモジュールの機能は、上記の方法の実施例における対応説明を参照することができ、ここでは説明を省略する。
本開示の実施例によれば、本開示は、電子機器、可読記憶媒体およびコンピュータプログラム製品をさらに提供する。
図10は本開示の実施例を実施するための例示的な電子機器1000を示すブロック図である。電子機器は、様々な形態のデジタルコンピュータ、例えば、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ステージ、個人用デジタル補助装置、サーバ、ブレードサーバ、大型コンピュータ、その他の適切なコンピュータを示す。電子機器は更に、様々な形態の移動装置、例えば、個人デジタル処理、携帯電話、スマートフォン、着用可能な装置とその他の類似する計算装置を示してよい。本明細書に示される部品、これらの接続関係およびこれらの機能は例示的なものに過ぎず、本明細書に説明したおよび/又は請求した本開示の実現を制限しない。
図10に示すように、電子機器1000は、計算ユニット1001を含み、それはリードオンリーメモリ(ROM)1002に記憶されるコンピュータプログラムまた記憶ユニット1008からランダムアクセスメモリ(RAM)1003にロードされるコンピュータプログラムによって、種々の適当な操作と処理を実行することができる。RAM 1003において、更に電子機器1000を操作するために必要な様々なプログラムとデータを記憶してよい。計算ユニット1001、ROM 1002およびRAM 1003はバス1004によって互いに接続される。入力/出力(I/O)インターフェース1005もバス1004に接続される。
電子機器1000における複数の部品はI/Oインターフェース1005に接続され、例えばキーボード、マウスなどの入力ユニット1006、例えば様々なタイプのディスプレイ、スピーカーなどの出力ユニット1007、例えば磁気ディスク、光ディスクなどの記憶ユニット1008、および例えばネットワークカード、変調復調器、無線通信送受信機などの通信ユニット1009を含む。通信ユニット1009は、電子機器1000が例えばインターネットなどのコンピュータネットワークおよび/又は様々な電気通信ネットワークを介して他の装置と情報/データを交換することを可能にする。
計算ユニット1001は処理およびコンピューティング能力を有する様々な汎用および/または専用の処理コンポーネントであってもよい。計算ユニット1001の例には、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、様々な専用人工知能(AI)計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ(DSP)、および任意の適当なプロセッサ、コントローラ、マイクロコントローラなどが含まれるがこれらに限定されないことである。計算ユニット1001は、例えばモデルトレーニング方法または歩行者再識別方法などの以上に記載の各方法および処理を実行する。例えば、一部の実施例において、モデルトレーニング方法または歩行者再識別方法はコンピュータソフトウェアプログラムとして実現してよく、機械可読媒体、例えば、記憶ユニット1008に有形に含まれる。いくつかの実施例において、コンピュータプログラムの部分又は全てはROM 1002および/又は通信ユニット1009を経由して電子機器1000にロードおよび/又はインストールされてよい。コンピュータプログラムがRAM 1003にロードされて計算ユニット1001によって実行される場合、以上で説明されるモデルトレーニング方法または歩行者再識別方法の1つまたは複数のステップを実行することできる。代替的に、別の実施例において、計算ユニット1001は他のいかなる適切な方式で(例えば、ファームウェアにより)モデルトレーニング方法または歩行者再識別方法を実行するように構成されてよい。
本明細書で上述したシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、ロードプログラマブル論理デバイス(CPLD)、ソフトウェア・ハードウェア、ファームウェア、ソフトウェア、および/またはこれらの組み合わせにおいて実装することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムに実施され、この1つ又は複数のコンピュータプログラムは少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行しおよび/又は解釈してもよく、このプログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、少なくとも1つの出力装置からデータと命令を受信し、データと命令をこの記憶システム、この少なくとも1つの入力装置、この少なくとも1つの出力装置に送信してよいこと、を含んでもよい。
本開示の方法を実施するプログラムコードは1つ又は複数のプログラミング言語のいかなる組み合わせで書かれてよい。これらのプログラムコードを汎用コンピュータ、特殊目的のコンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供してよく、よってプログラムコードはプロセッサ又はコントローラにより実行される時にフローチャートおよび/又はブロック図に規定の機能/操作を実施する。プログラムコードは完全に機械で実行してよく、部分的に機械で実行してよく、独立ソフトウェアパッケージとして部分的に機械で実行しかつ部分的に遠隔機械で実行してよく、又は完全に遠隔機械又はサーバで実行してよい。
本開示の文脈において、機械可読媒体は有形の媒体であってもよく、命令実行システム、装置又はデバイスに使用される又は命令実行システム、装置又はデバイスに結合されて使用されるプログラムを具備又は記憶してよい。機械可読媒体は機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子、磁気、光学、電磁、赤外線、又は半導体システム、装置又はデバイス、又は上記内容のいかなる適切な組み合わせを含んでもよいが、これらに限定されない。機械可読記憶媒体のより具体的な例は、1つ又は複数のリード線による電気接続、ポータブルコンピュータディスク、ハードディスク、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、光記憶装置、磁気記憶装置、又は上記内容のいかなる適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、コンピュータにはここで説明したシステムと技術を実施してよく、このコンピュータは、ユーザに情報を表示する表示装置(例えば、CRT(陰極線管、Cathode Ray Tube)又はLCD(液晶ディスプレイ、Liquid Crystal Display)監視モニタ)およびキーボードとポインティング装置(例えば、マウスやトラックボール)を備え、ユーザはこのキーボードとこのポインティング装置を介してコンピュータに入力してよい。その他の種類の装置は更に、ユーザとのインタラクションを提供してよい。例えば、ユーザに提供するフィードバックはいかなる形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、いかなる形態(音入力、音声入力、又は触覚入力を含む)でユーザからの入力を受信してよい。
ここで述べたシステムや技術は、バックステージ部材を含む計算システム(例えば、データサーバとして)や、ミドルウェア部材を含む計算システム(例えば、アプリケーションサーバ)や、フロントエンド部材を含む計算システム(例えば、グラフィカルユーザインタフェースやウェブブラウザを有するユーザコンピュータ、ユーザが、そのグラフィカルユーザインタフェースやウェブブラウザを通じて、それらのシステムや技術の実施形態とのインタラクティブを実現できる)、あるいは、それらのバックステージ部材、ミドルウェア部材、あるいはフロントエンド部材の任意の組み合わせからなる計算システムには実施されてもよい。システムの部材は、任意の形式や媒体のデジタルデータ通信(例えば、通信ネットワーク)により相互に接続されてもよい。通信ネットワークの一例は、例えば、ローカルネットワーク(LAN)、広域ネットワーク(WAN)、インターネットを含む。
コンピュータシステムは、クライアントとサーバを含んでもよい。クライアントとサーバは、一般的に相互に遠く離れ、通常、通信ネットワークを介してインタラクションを行う。互にクライアント-サーバという関係を有するコンピュータプログラムを対応するコンピュータで実行することによってクライアントとサーバの関係を生成する。
理解すべきことは、前述した様々な形態のフローを用いて、改めて順位付け、ことを増加又削除してよいことである。例えば、本開示に記載された各ステップは、並列的に実行してもよいし、順次実行してもよいし、異なる順序で実行させてもよいし、本開示に開示された技術案が所望する結果を実現できれば、本明細書はこれに限定されないことである。
上述した具体的な実施形態は、本開示特許請求の範囲を限定するものではない。当業者が理解すべきことは、設計要求と他の要因に基づいて、様々な修正、組み合わせ、一部の組み合わせと置換を行うことができることである。本開示における精神および原則から逸脱することなく行われるいかなる修正、同等物による置換や改良等は、いずれも本開示の保護範囲に含まれるものである。

Claims (15)

  1. モデルトレーニング方法であって、
    第1エンコーダを利用してサンプルデータセットにおける第1歩行者画像と第2歩行者画像を特徴抽出し、前記第1歩行者画像の画像特徴と前記第2歩行者画像の画像特徴を得ることと、
    前記第1歩行者画像の画像特徴と前記第2歩行者画像の画像特徴を融合し、融合特徴を得ることと、
    第1デコーダを利用して前記融合特徴を特徴復号し、第3歩行者画像を得ることと、
    前記第3歩行者画像を前記第1歩行者画像の負のサンプル画像として確定し、前記第1歩行者画像および前記負のサンプル画像を用いて第1プリセットモデルを収束までトレーニングし、歩行者再識別モデルを得ることと
    を含み、
    前記第1エンコーダおよび前記第1デコーダを取得する方法が、
    第2エンコーダを利用して前記サンプルデータセットにおけるi番目の歩行者画像を特徴抽出し、前記i番目の歩行者画像の画像特徴を得て、iは1以上の正の整数であることと、
    第2デコーダを利用して前記i番目の歩行者画像の画像特徴を特徴復号し、生成画像を得ることと、
    前記i番目の歩行者画像と前記生成画像との類似度および再構成損失関数に基づいて、前記第2エンコーダおよび前記第2デコーダを更新することと、
    前記第2エンコーダおよび前記第2デコーダが収束条件に合致する場合、前記第2エンコーダを前記第1エンコーダとして確定して、前記第2デコーダを前記第1デコーダとして確定することとを含む、モデルトレーニング方法。
  2. 前記第1歩行者画像と前記負のサンプル画像に基づいて、第1類似度を確定することと、
    前記サンプル画像セットの前記第1歩行者画像以外の少なくとも一つの歩行者画像に基づいて、前記少なくとも一つの歩行者画像にそれぞれ対応する少なくとも一つの第2類似度を確定することと、
    前記第1類似度、前記少なくとも1つの第2類似度、および敵対的損失関数に基づいて、前記第1エンコーダおよび前記第1デコーダを更新することとをさらに含む請求項1に記載の方法。
  3. 前記の前記i番目の歩行者画像と前記生成画像との類似度および再構成損失関数に基づいて、前記第2エンコーダおよび前記第2デコーダを更新することは、
    前記i番目の歩行者画像と前記生成画像との類似度および前記再構成損失関数に基づいて、前記再構成損失関数の関数値を計算することと、
    真実度判別器を利用して、前記生成画像の真実度を確定することと、
    前記再構成損失関数の関数値および前記生成画像の真実度に基づいて、前記第2エンコーダおよび前記第2デコーダを更新することとを含む請求項に記載の方法。
  4. 前記第1プリセットモデルを取得する方法は、
    第2プリセットモデルを利用してサンプルデータセットにおける各歩行者画像を特徴抽出し、前記各歩行者画像の歩行者特徴を得ることと、
    前記歩行者特徴に基づいて前記サンプルデータセットにおける各歩行者画像をクラスタリングし、少なくとも2つのクラスタラベルにそれぞれ対応する少なくとも2つのクラスタを得て、前記少なくとも2つのクラスタの各クラスタはいずれも少なくとも1つの歩行者画像を含むことと、
    前記サンプルデータセットにおける各歩行者画像および前記各歩行者画像に対応するクラスタラベルに基づいて、前記第2プリセットモデルを、収束までトレーニングし、前記第1プリセットモデルを得ることとを含む請求項1~のいずれか一項に記載の方法。
  5. 前記第1歩行者画像および前記第2歩行者画像は、前記少なくとも2つのクラスタのうちの異なるクラスタにおける歩行者画像である請求項に記載の方法。
  6. 歩行者再識別方法であって、
    歩行者再識別モデルを利用して目標画像および候補歩行者画像をそれぞれ特徴抽出し、前記目標画像の歩行者特徴および前記候補歩行者画像の歩行者特徴を得て、前記歩行者再識別モデルは請求項1~のいずれか一項に記載のモデルトレーニング方法によって得られることと、
    前記目標画像の歩行者特徴と前記候補歩行者画像の歩行者特徴に基づいて、前記目標画像と前記候補歩行者画像との類似度を確定することと、
    前記類似度が予め設定された条件に合致する場合、前記候補歩行者画像を前記目標画像の関連画像として確定することとを含む歩行者再識別方法。
  7. モデルトレーニング装置であって、
    第2エンコーダを利用してサンプルデータセットにおける1以上の正の整数であるi番目の歩行者画像を特徴抽出し、前記i番目の歩行者画像の画像特徴を得る第2符号化モジュールと、
    第2デコーダを利用して前記i番目の歩行者画像の画像特徴を特徴復号し、生成画像を得るために用いられる第2復号モジュールと、
    前記i番目の歩行者画像と前記生成画像との類似度および再構成損失関数に基づいて、前記第2エンコーダおよび前記第2デコーダを更新するために用いられる第2更新モジュールと、
    前記第2エンコーダおよび前記第2デコーダが収束条件に合致する場合、前記第2エンコーダを第1エンコーダとして確定して、前記第2デコーダを第1デコーダとして確定するために用いられる第1確定モジュールと、
    前記第1エンコーダを利用して前記サンプルデータセットにおける第1歩行者画像および第2歩行者画像を特徴抽出し、前記第1歩行者画像の画像特徴および前記第2歩行者画像の画像特徴を取得するために用いられる第1符号化モジュールと、
    前記第1歩行者画像の画像特徴と前記第2歩行者画像の画像特徴を融合し、融合特徴を得るために用いられる融合モジュールと、
    前記第1デコーダを利用して前記融合特徴を特徴復号し、第3歩行者画像を取得するために用いられる第1復号モジュールと、
    前記第3歩行者画像を前記第1歩行者画像の負のサンプル画像と確定し、かつ前記第1歩行者画像および前記負のサンプル画像を利用して第1プリセットモデルを収束までトレーニングし、歩行者再識別モデルを得るために用いられる第1トレーニングモジュールと
    を含むモデルトレーニング装置。
  8. 前記第1歩行者画像と前記負のサンプル画像に基づいて、第1類似度を確定するために用いられる第1類似度モジュールと、
    前記サンプル画像セットの前記第1歩行者画像以外の少なくとも一つの歩行者画像に基づいて、前記少なくとも一つの歩行者画像にそれぞれ対応する少なくとも一つの第2類似度を確定するために用いられる第2類似度モジュールと、
    前記第1類似度、前記少なくとも1つの第2類似度、および敵対的損失関数に基づいて前記第1エンコーダおよび前記第1デコーダを更新するために用いられる第1更新モジュールとをさらに含む請求項に記載の装置。
  9. 前記第2更新モジュールは、
    前記i番目の歩行者画像と前記生成画像との類似度および前記再構成損失関数に基づいて、前記再構成損失関数の関数値を計算するために用いられる計算ユニットと、
    真実度判別器を利用して、前記生成画像の真実度を確定するために用いられる確定ユニットと、
    前記再構成損失関数の関数値および前記生成画像の真実度に基づいて、前記第2エンコーダおよび前記第2デコーダを更新するために用いられる更新ユニットとを含む請求項に記載の装置。
  10. 第2プリセットモデルを利用してサンプルデータセットにおける各歩行者画像を特徴抽出し、前記各歩行者画像の歩行者特徴を得るために用いられる第1抽出モジュールと、
    前記歩行者特徴に基づいて前記サンプルデータセットにおける各歩行者画像をクラスタリングし、少なくとも2つのクラスタラベルにそれぞれ対応する少なくとも2つのクラスタを得るために用いられ、前記少なくとも2つのクラスタの各クラスタはいずれも少なくとも1つの歩行者画像を含むクラスタリングモジュールと、
    前記サンプルデータセットにおける各歩行者画像および前記各歩行者画像に対応するクラスタラベルに基づいて、前記第2プリセットモデルを、収束までトレーニングし、前記第1プリセットモデルを得るために用いられる第2トレーニングモジュールとをさらに含む請求項7~9のいずれか一項に記載の装置。
  11. 前記第1歩行者画像および前記第2歩行者画像は、前記少なくとも2つのクラスタのうちの異なるクラスタにおける歩行者画像である請求項10に記載の装置。
  12. 歩行者再識別装置であって、
    歩行者再識別モデルを利用して目標画像および候補歩行者画像をそれぞれ特徴抽出し、前記目標画像の歩行者特徴および前記候補歩行者画像の歩行者特徴を得るために用いられ、前記歩行者再識別モデルは請求項1~のいずれか一項に記載のモデルトレーニング方法によって得られる第2抽出モジュールと、
    前記目標画像の歩行者特徴および前記候補歩行者画像の歩行者特徴に基づいて、前記目標画像と前記候補歩行者画像との類似度を確定するために用いられる第3類似度モジュールと、
    前記類似度が予め設定された条件に合致する場合に、前記候補歩行者画像を前記目標画像の関連画像として確定するために用いられる第2確定モジュールとを含む歩行者再識別装置。
  13. 電子機器であって、
    少なくとも1つのプロセッサ、および
    前記少なくとも1つのプロセッサに通信接続されたメモリを含み、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサにより実行され、当該少なくとも1つのプロセッサ請求項1~のいずれか一項に記載の方法を実行させる、電子機器。
  14. コンピュータに請求項1~のいずれか一項に記載の方法を実行させるためのコンピュータ命令を記憶した非一時的コンピュータ可読記憶媒体。
  15. プロセッサによって実行されると、請求項1~のいずれか一項に記載の方法を実現するコンピュータプログラム。
JP2022547887A 2021-04-07 2022-01-29 モデルトレーニング方法、歩行者再識別方法、装置および電子機器 Active JP7403673B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202110372249.5 2021-04-07
CN202110372249.5A CN112861825B (zh) 2021-04-07 2021-04-07 模型训练方法、行人再识别方法、装置和电子设备
PCT/CN2022/075112 WO2022213717A1 (zh) 2021-04-07 2022-01-29 模型训练方法、行人再识别方法、装置和电子设备

Publications (2)

Publication Number Publication Date
JP2023523502A JP2023523502A (ja) 2023-06-06
JP7403673B2 true JP7403673B2 (ja) 2023-12-22

Family

ID=83103561

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022547887A Active JP7403673B2 (ja) 2021-04-07 2022-01-29 モデルトレーニング方法、歩行者再識別方法、装置および電子機器

Country Status (3)

Country Link
US (1) US20240221346A1 (ja)
JP (1) JP7403673B2 (ja)
KR (1) KR20220116331A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117635973B (zh) * 2023-12-06 2024-05-10 南京信息工程大学 一种基于多层动态集中和局部金字塔聚合的换衣行人重识别方法
CN118692114B (zh) * 2024-08-23 2024-10-29 南京信息工程大学 一种基于Transformer和融合聚类的对比学习无监督行人重识别方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109934177A (zh) 2019-03-15 2019-06-25 艾特城信息科技有限公司 行人再识别方法、系统及计算机可读存储介质
CN111259720A (zh) 2019-10-30 2020-06-09 北京中科研究院 基于自监督代理特征学习的无监督行人重识别方法
WO2020155713A1 (zh) 2019-01-29 2020-08-06 北京市商汤科技开发有限公司 图像处理方法及装置、网络训练方法及装置
CN111553267A (zh) 2020-04-27 2020-08-18 腾讯科技(深圳)有限公司 图像处理方法、图像处理模型训练方法及设备
WO2020215644A1 (zh) 2019-04-22 2020-10-29 深圳市商汤科技有限公司 视频图像处理方法及装置
WO2020237937A1 (zh) 2019-05-24 2020-12-03 深圳市商汤科技有限公司 一种图像处理方法及装置、电子设备和存储介质
CN112131970A (zh) 2020-09-07 2020-12-25 浙江师范大学 一种基于多通道时空网络和联合优化损失的身份识别方法
CN112560604A (zh) 2020-12-04 2021-03-26 中南大学 一种基于局部特征关系融合的行人重识别方法
WO2021056770A1 (zh) 2019-09-27 2021-04-01 深圳市商汤科技有限公司 图像重建方法及装置、电子设备和存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020155713A1 (zh) 2019-01-29 2020-08-06 北京市商汤科技开发有限公司 图像处理方法及装置、网络训练方法及装置
CN109934177A (zh) 2019-03-15 2019-06-25 艾特城信息科技有限公司 行人再识别方法、系统及计算机可读存储介质
WO2020215644A1 (zh) 2019-04-22 2020-10-29 深圳市商汤科技有限公司 视频图像处理方法及装置
WO2020237937A1 (zh) 2019-05-24 2020-12-03 深圳市商汤科技有限公司 一种图像处理方法及装置、电子设备和存储介质
WO2021056770A1 (zh) 2019-09-27 2021-04-01 深圳市商汤科技有限公司 图像重建方法及装置、电子设备和存储介质
CN111259720A (zh) 2019-10-30 2020-06-09 北京中科研究院 基于自监督代理特征学习的无监督行人重识别方法
CN111553267A (zh) 2020-04-27 2020-08-18 腾讯科技(深圳)有限公司 图像处理方法、图像处理模型训练方法及设备
CN112131970A (zh) 2020-09-07 2020-12-25 浙江师范大学 一种基于多通道时空网络和联合优化损失的身份识别方法
CN112560604A (zh) 2020-12-04 2021-03-26 中南大学 一种基于局部特征关系融合的行人重识别方法

Also Published As

Publication number Publication date
US20240221346A1 (en) 2024-07-04
KR20220116331A (ko) 2022-08-22
JP2023523502A (ja) 2023-06-06

Similar Documents

Publication Publication Date Title
CN113222916B (zh) 采用目标检测模型检测图像的方法、装置、设备和介质
JP2023541532A (ja) テキスト検出モデルのトレーニング方法及び装置、テキスト検出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
WO2022213717A1 (zh) 模型训练方法、行人再识别方法、装置和电子设备
JP7331975B2 (ja) クロスモーダル検索モデルのトレーニング方法、装置、機器、および記憶媒体
JP2023541119A (ja) 文字認識モデルのトレーニング方法、文字認識方法、装置、電子機器、記憶媒体およびコンピュータプログラム
JP7346788B2 (ja) 音声認識モデルのトレーニング方法、装置、機器、および記憶媒体
KR20220125672A (ko) 비디오 분류 방법, 장치, 기기 및 기록 매체
CN114942984B (zh) 视觉场景文本融合模型的预训练和图文检索方法及装置
JP7403673B2 (ja) モデルトレーニング方法、歩行者再識別方法、装置および電子機器
CN113177449B (zh) 人脸识别的方法、装置、计算机设备及存储介质
CN112528658B (zh) 层次化分类方法、装置、电子设备和存储介质
US11036996B2 (en) Method and apparatus for determining (raw) video materials for news
CN114820871B (zh) 字体生成方法、模型的训练方法、装置、设备和介质
WO2023273173A1 (zh) 目标分割的方法、装置及电子设备
CN113627536B (zh) 模型训练、视频分类方法,装置,设备以及存储介质
CN112749300A (zh) 用于视频分类的方法、装置、设备、存储介质和程序产品
US20230215203A1 (en) Character recognition model training method and apparatus, character recognition method and apparatus, device and storage medium
US20230114673A1 (en) Method for recognizing token, electronic device and storage medium
JP2023133274A (ja) Roi検出モデルのトレーニング方法、検出方法、装置、機器および媒体
CN114863182A (zh) 图像分类方法、图像分类模型的训练方法及装置
CN113239799B (zh) 训练方法、识别方法、装置、电子设备和可读存储介质
CN113360683A (zh) 训练跨模态检索模型的方法以及跨模态检索方法和装置
CN113177483A (zh) 视频目标分割方法、装置、设备以及存储介质
CN116402914B (zh) 用于确定风格化图像生成模型的方法、装置及产品
CN112765377A (zh) 媒体流中的时段定位

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220805

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220805

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231212

R150 Certificate of patent or registration of utility model

Ref document number: 7403673

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150