JP7341962B2 - 学習データ収集装置、学習装置、学習データ収集方法およびプログラム - Google Patents
学習データ収集装置、学習装置、学習データ収集方法およびプログラム Download PDFInfo
- Publication number
- JP7341962B2 JP7341962B2 JP2020143678A JP2020143678A JP7341962B2 JP 7341962 B2 JP7341962 B2 JP 7341962B2 JP 2020143678 A JP2020143678 A JP 2020143678A JP 2020143678 A JP2020143678 A JP 2020143678A JP 7341962 B2 JP7341962 B2 JP 7341962B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- query
- learning data
- candidate
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/532—Query formulation, e.g. graphical querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2193—Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/09—Recognition of logos
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Library & Information Science (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
[第1の実施形態]
(1)構成
図1は、第1の実施形態に係る学習データ収集装置100の構成の一例を示す。
学習データ収集装置100は、物体検出モデルの学習に用いられる学習データを収集し出力する。学習データ収集装置100は、例えば、パーソナルコンピュータやサーバコンピュータ等のコンピュータであるが、これに限られない。
検出部133は、学習済みの検出器を用いて、候補画像ごとに物体領域の候補を抽出する機能を有する。検出器は、例えばラベル付きの大量の学習データで事前に学習されたものである。ここで、実施形態に係る学習データ収集装置100が収集しようとする学習データの対象物体は、検出器の学習に使用された学習データには含まれないカテゴリである可能性がある。そこで、検出部133は、検出結果の評価値の閾値を下げるなどの調整を行って物体領域の候補を抽出するように構成される。これにより、検出対象の物体以外の物体も含む多数の領域が抽出される。
領域特定部132の動作についてもさらに後述する。
次に、以上のように構成された学習データ収集装置100による情報処理動作の一例を説明する。
図2は、学習データ収集装置100の処理全体の概要を示すフローチャートである。
まずステップS10において、学習データ収集装置100は、クエリ取得部11により、検出対象の物体を特定するためのクエリ画像およびクエリテキストを取得する。クエリ画像およびクエリテキストは、例えば学習データ収集装置100のユーザにより入力デバイス等を介して入力される、画像データとテキストデータの組合せに基づいて取得される。ステップS10では、検出対象の物体を特定するために少なくとも1つのクエリ画像が取得されればよく、複数の画像が取得されてもよい。クエリ取得部11によって取得されるクエリ画像の数は、一般に物体検出器の学習に用いられる画像の数に比べてはるかに少数でよい。
図3は、図2のステップS20に示した、候補画像取得部12による候補画像群の取得処理の詳細を示すフローチャートである。
図4~図5は、図2のステップS30に示した、特定部13による正例画像と負例画像の特定処理の一例を示すフローチャートである。
図4は、図2のステップS30の処理のうち、分類部131による分類処理の一例を示すフローチャートである。
図5は、正例画像と負例画像の特定処理のうち、領域特定部132による領域特定処理の一例を示すフローチャートである。
まずステップS351において、領域特定部132は、分類部131から正例候補画像を取得する。
領域特定部132は、負例画像についても、正例画像の特定と同様の処理を行う。
以上詳述したように、第1の実施形態に係る学習データ収集装置100は、検出対象の物体に関するクエリ画像およびクエリテキストを取得し、クエリテキストを用いて検出対象の物体の候補画像を取得し、取得された候補画像からクエリ画像を用いて、クエリ画像との類似度が所定の閾値以上の領域を含む正例画像を特定するとともに、正例画像内の当該領域の位置を特定し、正例画像内の当該領域の位置を表す情報と、正例画像と、クエリテキストに基づく正解ラベルとを含む学習データを出力する。
第2の実施形態は、上述した学習データ収集装置100によって収集される学習データを用いて物体検出器(「物体検出モデル」とも言う)の学習を行う学習装置に関する。
図9は、第2の実施形態に係る学習装置1000の構成の一例を示す。
学習装置1000は、クエリ取得部11、候補画像取得部12、特定部13、学習データ出力部14、画像データベース15および学習部16を備える。図9に示した学習装置1000の構成のうち、クエリ取得部11、候補画像取得部12、特定部13、学習データ出力部14、および画像データベース15は、図1に関して説明した学習データ収集装置100のクエリ取得部11、候補画像取得部12、特定部13、学習データ出力部14、および画像データベース15と同じ構成を採用できるので、詳細な説明は省略する。
図10は、図9に示した学習装置1000の処理全体の概要を示すフローチャートである。図10に示すステップS10~S40は、図2に示したステップS10~S40と同様の処理を採用できるので、詳細な説明は省略する。
このように、第2の実施形態に係る学習装置1000は、クエリ取得部11、候補画像取得部12、特定部13および学習データ出力部14を備えることにより、学習データを自動的に収集できるようになることに加え、学習データ出力部14から直接出力される学習データを使用して学習を行う学習部16を備えるので、学習データの追加または修正や、他の検出方法との比較実験が容易になるという利点がある。
以上で説明した第1の実施形態に係る学習データ収集装置100および第2の実施形態に係る学習装置1000は、ハードウェアとソフトウェアであるプログラムとの協働によって実現され得る。
学習データ収集装置100または学習装置1000は、CPU(Central Processing Unit)101、RAM(Random Access Memory)102、ROM(Read Only Memory)103、補助記憶装置104、通信装置105、入力装置106、および出力装置107を備えており、これらがバス110を介して互いに接続される。
なお、この発明は上記実施形態に限定されるものではない。
例えば、学習データ収集装置100または学習装置1000において、特定部13により候補画像から検出対象の領域(物体領域)を見出す処理には、上述したように、画像の物体らしさ(Objectness)や顕著性(Saliency)に基づく技術を用いることもできるし、あらかじめ収集された検出対象の物体に関する少数の画像をクエリ入力とするテンプレートマッチングなどを用いることもできる。
Claims (8)
- 対象物体に関するクエリ画像およびクエリテキストを取得する第1取得部と、
前記クエリテキストを用いて前記対象物体の候補画像を取得する第2取得部と、
前記クエリ画像を用いて、前記候補画像から前記クエリ画像との類似度が閾値以上の領域を含む正例画像と、当該正例画像内の前記領域の位置とを特定する特定部と、
前記正例画像内の前記領域の位置を表す情報と、前記正例画像と、前記クエリテキストに基づく正解ラベルとを含む学習データを出力する、学習データ出力部と、
を備える学習データ収集装置。 - 前記候補画像は、第1の候補画像と第2の候補画像とを含み、
前記第2取得部は、画像群を蓄積するデータベースから、前記クエリテキストを用いて検索を行うことによって前記第1の候補画像を取得し、前記クエリテキスト以外のクエリを用いて検索を行うことによって前記第2の候補画像を取得する、
請求項1に記載の学習データ収集装置。 - 前記特定部は、前記候補画像から前記クエリ画像との類似度が閾値以上の領域を含まない負例画像をさらに特定し、
前記学習データ出力部は、前記負例画像と、前記正解ラベルとは異なるラベルとを含む負例データをさらに出力する、
請求項2に記載の学習データ収集装置。 - 前記特定部は、
前記候補画像を前記クエリ画像との類似度に応じて正例候補画像と負例候補画像とに分類する分類部と、
前記正例候補画像から、前記クエリ画像との類似度が閾値以上の領域を含む画像を前記正例画像として特定するとともに、当該正例画像内の前記領域の位置を特定し、前記負例候補画像から、前記クエリ画像との類似度が閾値以上の領域を含まない画像を前記負例画像として特定する、領域特定部と
を備える、請求項3に記載の学習データ収集装置。 - 前記第1取得部は、入力された文字、画像、音声、または前記クエリ画像のうちの少なくとも1つに基づいて前記クエリテキストを取得する、請求項1乃至4のいずれか一項に記載の学習データ収集装置。
- 対象物体に関するクエリ画像およびクエリテキストを取得する第1取得部と、
前記クエリテキストを用いて前記対象物体の候補画像を取得する第2取得部と、
前記クエリ画像を用いて、前記候補画像から前記クエリ画像との類似度が閾値以上の領域を含む正例画像と、当該正例画像内の前記領域の位置とを特定する特定部と、
前記正例画像内の前記領域の位置を表す情報と、前記正例画像と、前記クエリテキストに基づく正解ラベルとを含む学習データを出力する、学習データ出力部と、
前記学習データ出力部から出力される学習データを用いて、入力された画像から前記対象物体の位置を表す情報と前記正解ラベルとを出力する物体検出モデルの学習をする学習部と
を備える学習装置。 - 対象物体に関するクエリ画像およびクエリテキストを取得することと、
前記クエリテキストを用いて前記対象物体の候補画像を取得することと、
前記クエリ画像を用いて、前記候補画像から前記クエリ画像との類似度が閾値以上の領域を含む正例画像と、当該正例画像内の前記領域の位置とを特定することと、
前記正例画像内の前記領域の位置を表す情報と、前記正例画像と、前記クエリテキストに基づく正解ラベルとを含む学習データを出力することと、
を備える学習データ収集方法。 - 請求項1乃至6のいずれか一項に記載の装置の各部による処理をコンピュータに実行させるプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020143678A JP7341962B2 (ja) | 2020-08-27 | 2020-08-27 | 学習データ収集装置、学習装置、学習データ収集方法およびプログラム |
US17/249,359 US11741153B2 (en) | 2020-08-27 | 2021-02-26 | Training data acquisition apparatus, training apparatus, and training data acquiring method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020143678A JP7341962B2 (ja) | 2020-08-27 | 2020-08-27 | 学習データ収集装置、学習装置、学習データ収集方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022038941A JP2022038941A (ja) | 2022-03-10 |
JP7341962B2 true JP7341962B2 (ja) | 2023-09-11 |
Family
ID=80358583
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020143678A Active JP7341962B2 (ja) | 2020-08-27 | 2020-08-27 | 学習データ収集装置、学習装置、学習データ収集方法およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US11741153B2 (ja) |
JP (1) | JP7341962B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7019090B1 (ja) * | 2021-09-30 | 2022-02-14 | Kddi株式会社 | 情報出力装置、情報出力方法及びプログラム |
JP2023074873A (ja) * | 2021-11-18 | 2023-05-30 | キオクシア株式会社 | 情報処理方法、情報処理デバイス、及び計算機システム |
CN118038303A (zh) * | 2022-11-02 | 2024-05-14 | 腾讯科技(深圳)有限公司 | 身份识别图像处理方法、装置、计算机设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010092413A (ja) | 2008-10-10 | 2010-04-22 | Ricoh Co Ltd | 画像分類学習装置、画像分類学習方法、および画像分類学習システム |
JP2019200496A (ja) | 2018-05-14 | 2019-11-21 | 富士通株式会社 | データ収集方法、データ収集プログラムおよび情報処理装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8478052B1 (en) * | 2009-07-17 | 2013-07-02 | Google Inc. | Image classification |
JP2013025398A (ja) | 2011-07-15 | 2013-02-04 | Tokyo Institute Of Technology | 識別器生成装置、方法及びプログラム、並びにクラス認識器、方法及びプログラム |
US20130212094A1 (en) * | 2011-08-19 | 2013-08-15 | Qualcomm Incorporated | Visual signatures for indoor positioning |
JP7195085B2 (ja) | 2018-08-28 | 2022-12-23 | オリンパス株式会社 | アノテーション装置およびアノテーション方法 |
-
2020
- 2020-08-27 JP JP2020143678A patent/JP7341962B2/ja active Active
-
2021
- 2021-02-26 US US17/249,359 patent/US11741153B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010092413A (ja) | 2008-10-10 | 2010-04-22 | Ricoh Co Ltd | 画像分類学習装置、画像分類学習方法、および画像分類学習システム |
JP2019200496A (ja) | 2018-05-14 | 2019-11-21 | 富士通株式会社 | データ収集方法、データ収集プログラムおよび情報処理装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2022038941A (ja) | 2022-03-10 |
US11741153B2 (en) | 2023-08-29 |
US20220067081A1 (en) | 2022-03-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11816888B2 (en) | Accurate tag relevance prediction for image search | |
JP6144839B2 (ja) | 画像を検索するための方法およびシステム | |
WO2020221298A1 (zh) | 文本检测模型训练方法、文本区域、内容确定方法和装置 | |
WO2019158015A1 (zh) | 样本获取方法、目标检测模型生成方法、目标检测方法 | |
JP6397986B2 (ja) | 画像オブジェクト領域の認識方法及び装置 | |
US8649602B2 (en) | Systems and methods for tagging photos | |
CN107833213B (zh) | 一种基于伪真值自适应法的弱监督物体检测方法 | |
JP7341962B2 (ja) | 学習データ収集装置、学習装置、学習データ収集方法およびプログラム | |
US10002290B2 (en) | Learning device and learning method for object detection | |
JP5202148B2 (ja) | 画像処理装置、画像処理方法、及びコンピュータプログラム | |
WO2019200782A1 (zh) | 样本数据分类方法、模型训练方法、电子设备及存储介质 | |
US11126827B2 (en) | Method and system for image identification | |
KR101780676B1 (ko) | 트레이닝 이미지를 이용하여 분류 트리를 구성함으로써 rejector를 학습하고 상기 rejector를 이용하여 테스트 이미지 상의 객체를 검출하는 방법 | |
US20120287304A1 (en) | Image recognition system | |
JP6897749B2 (ja) | 学習方法、学習システム、および学習プログラム | |
US10423817B2 (en) | Latent fingerprint ridge flow map improvement | |
TW201546636A (zh) | 註解顯示器輔助裝置及輔助方法 | |
JP2012022419A (ja) | 学習データ作成装置、学習データ作成方法及びプログラム | |
US20190122020A1 (en) | Latent fingerprint pattern estimation | |
US20200394460A1 (en) | Image analysis device, image analysis method, and image analysis program | |
CN106557523B (zh) | 代表性图像选择方法和设备以及对象图像检索方法和设备 | |
WO2020232697A1 (zh) | 一种在线人脸聚类的方法及系统 | |
Yang et al. | Common action discovery and localization in unconstrained videos | |
CN112241470A (zh) | 一种视频分类方法及系统 | |
CN110059180B (zh) | 文章作者身份识别及评估模型训练方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220826 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20230105 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230801 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230830 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7341962 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |