JP7011146B2 - 画像処理装置、画像処理方法、画像処理プログラム、及び教師データ生成方法 - Google Patents
画像処理装置、画像処理方法、画像処理プログラム、及び教師データ生成方法 Download PDFInfo
- Publication number
- JP7011146B2 JP7011146B2 JP2017060876A JP2017060876A JP7011146B2 JP 7011146 B2 JP7011146 B2 JP 7011146B2 JP 2017060876 A JP2017060876 A JP 2017060876A JP 2017060876 A JP2017060876 A JP 2017060876A JP 7011146 B2 JP7011146 B2 JP 7011146B2
- Authority
- JP
- Japan
- Prior art keywords
- teacher data
- image processing
- model
- unit
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/50—Lighting effects
- G06T15/506—Illumination models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/20—Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
- G06V20/653—Three-dimensional objects by matching three-dimensional models, e.g. conformal mapping of Riemann surfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2219/00—Indexing scheme for manipulating 3D models or images for computer graphics
- G06T2219/20—Indexing scheme for editing of 3D models
- G06T2219/2016—Rotation, translation, scaling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2219/00—Indexing scheme for manipulating 3D models or images for computer graphics
- G06T2219/20—Indexing scheme for editing of 3D models
- G06T2219/2021—Shape modification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computer Graphics (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Architecture (AREA)
- Computer Hardware Design (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Description
また、カメラで撮影した画像から、3DCGでブレのある複数のデータを作成することで、画像検出用の教師データを複数作成することが提案されている(例えば、特許文献2参照)。
また、教師データを増強する方法として、三次元(3D)モデルを利用した方法が報告されている(例えば、非特許文献2参照)。この方法では、認識対象の3Dモデルをレンダリングした画像を教師データとして利用している。
また、3Dモデルを用いた従来の方法では、以下に説明するように、実写写真を用いた教師データに比べて、正しく認識できない教師データが得られてしまうという問題がある。
(1)見た目のバリエーションが3Dモデルの数に依存してしまう
ディープラーニングでは教師データのバリエーションを増やすことが重要であるが、従来の方法では、固定の材質及び形状の教師データしか生成できず、3Dモデルの数でバリエーションが決まってしまう。このように3Dモデルを多数収集することはコストが高くなり、現実的でない。
(2)認識対象が遮蔽された教師データを生成できない
画像を入力データとしたディープラーニングでは、認識対象が一部遮蔽された教師データを含む場合には、ディープラーニングによって認識対象が一部遮蔽された教師データを正しく認識できるという利点がある。しかし、従来の方法では、認識対象が一部遮蔽された教師データを生成できないため、認識対象が一部遮蔽された教師データを認識できない確率が高くなる。
認識対象の三次元モデルにおける描画パラメータを変化させて認識対象の教師データを生成する教師データ生成部を、有する画像処理装置である。
なお、本発明の「画像処理装置」におけるパラメータ変化部及び教師データ生成部が行う制御は、本発明の「画像処理方法」を実施することと同義であるので、本発明の「画像処理装置」の説明を通じて本発明の「画像処理方法」の詳細についても明らかにする。また、本発明の「画像処理プログラム」は、ハードウェア資源としてのコンピュータ等を用いることにより、本発明の「画像処理装置」として実現させることから、本発明の「画像処理装置」の説明を通じて本発明の「画像処理プログラム」の詳細についても明らかにする。
また、「教師データ生成装置」におけるパラメータ変化部及び教師データ生成部が行う制御は、本発明の「教師データ生成方法」を実施することと同義であるので、「教師データ生成装置」の説明を通じて本発明の「教師データ生成方法」の詳細についても明らかにする。また、「教師データ生成プログラム」は、ハードウェア資源としてのコンピュータ等を用いることにより、「教師データ生成装置」として実現させることから、「教師データ生成装置」の説明を通じて「教師データ生成プログラム」の詳細についても明らかにする。
認識対象の三次元モデルにおける描画パラメータを変化させるパラメータ変化部と、
パラメータ変化部が変化させた描画パラメータに基づき、認識対象の教師データを生成する教師データ生成部とを有し、学習部及び推論部を有することが好ましい。
描画パラメータは、例えば、乱数を使用してランダムに変化させることができる。
画像認識では、画像データから対象物となる輪郭を抽出し、背景から分離した上で、その対象物が何であるかを分析する。
画像認識を応用した技術としては、例えば、OCR(Optical Character Recognition)、顔認証、虹彩認証などが挙げられる。
画像認識では、ピクセルの集合である画像データから、ある種のパターンを取り出し、そこから意味を読み取るという処理を行う。パターンの分析によって対象物の意味を抽出することをパターン認識と呼ぶ。パターン認識は、画像認識だけでなく、音声認識や言語解析などにも用いられる。
三次元コンピュータグラフィックス(3DCG)は、コンピュータの演算によって三次元空間内の仮想的な立体物を二次元である平面上の情報に変換することで立体感のある画像を生成する手法である。
描画パラメータの他の一例としては、認識対象の三次元モデルの材質、認識対象の三次元モデルの形状、認識対象の三次元モデルの照明条件、背景三次元モデル、遮蔽率及び教師画像の保存条件等から少なくとも一つ選択される。
(画像処理装置)
以下、実施例1の画像処理装置について説明する。この画像処理装置は、認識対象の教師データを用いて画像認識を行う装置である。
ここで、図1は、画像処理装置100のハードウェア構成の一例を示す図である。画像処理装置100の後述するストレージ装置7には画像処理プログラムが記録されており、後述のCPU(Central Processing Unit)1及びGPU(Graphics Processing Unit)3が当該プログラムを読出して実行することにより、後述のパラメータ変化部10、教師データ生成部50、学習部200、及び推論部300として動作する。
パラメータ変化部10は、認識対象の三次元モデルにおける描画パラメータを変化させる。
教師データ生成部50は、パラメータ変化部10が変化させた描画パラメータに基づき、認識対象の教師データを生成する。
学習部200は、教師データ生成部50で生成した教師データを用いて学習を行う。
推論部300は、学習部200で求めた学習済み重みを用いて推論(テスト)を行う。
パラメータ変化部10は、認識対象3Dモデルにおける描画パラメータを変化させる。
教師データ生成部50は、認識対象3Dモデルにおける描画パラメータを変化させ、変化させた描画パラメータに基づいて、認識対象の教師データを生成する。
ここで、パラメータ変化部10及び教師データ生成部50の構成は、本発明に関する「教師データ生成装置」に該当し、パラメータ変化部10及び教師データ生成部50を実施する処理は、本発明の「教師データ生成方法」に該当し、パラメータ変化部10及び教師データ生成部50の処理をコンピュータに実行させるプログラムは、本発明に関する「教師データ生成プログラム」に該当する。
この実施例1では、様々な描画パラメータをランダムに生成している。これは、パラメータの組み合わせを一定の間隔で網羅すると教師データの数が爆発的に増加するためである。
生成対象ラベル・生成数11は、ユーザ入力による「生成対象ラベル」及び「生成数」であり、教師データ生成制御部12は、この「生成数」の分量の教師データを生成する。
「生成対象ラベル」は、生成対象物の種類を表し、例えば、車両(例えば、乗用車、トラック、バス、二輪車等)、動物(例えば、鳥、犬、猫、牛、馬、猿等)、植物(例えば、イチゴ、トマト、バラ等)など、人間が視覚により検知できるものが挙げられる。
「生成数」としては、教師データの生成数を表し、例えば、複数の「生成対象ラベル」について、それぞれ1,000枚ずつ生成する場合などが挙げられる。
教師データ生成制御部12が「生成数」に達していないと判定すると、処理をS203に戻し、「生成数」に達したと判定すると、処理をS207に移行する。
教師データ生成制御部12が「生成対象ラベル集合」の全ラベルについて「生成数」に達していないと判定すると、処理をS208に移行し、ステップS208では、教師データ生成制御部12が、教師データの生成が完了していない「生成対象ラベル」を選択すると、処理をS203に戻す。
一方、教師データ生成制御部12が「生成数」に達したと判定すると、本処理を終了する。
パラメータ変化部10は、認識対象3Dモデルバリエーション生成部15、カメラモデル生成部16、照明モデル生成部17、及び背景3Dモデル取得部18を有しており、これらにより、描画パラメータを変化させる。
教師データ生成部50は、教師画像生成部19を有しており、パラメータ変化部10が変化させた描画パラメータに基づき、教師データ生成制御部12の制御により、教師データ21を生成する。
教師データ生成制御部12により、パラメータ変化部10としての認識対象3Dモデルバリエーション生成部15、カメラモデル生成部16、照明モデル生成部17、及び背景3Dモデル取得部18が作動し、それぞれの出力を教師データ生成部50の教師画像生成部19に与え、教師画像20が得られる。
なお、背景3Dモデルとカメラモデルの組み合わせ次第では、教師画像の生成に失敗する場合がある。教師画像の生成に失敗した場合には、カメラモデルを再計算する。
認識対象3Dモデルバリエーション生成部15は、教師画像の描画に用いる3Dモデルについて、材質及び形状の少なくともいずれかを変化させる。3Dモデルの材質及び形状の少なくともいずれかを変化させることにより、認識率を向上させることができる。
図8は、認識対象3Dモデルバリエーション生成部15のブロック図である。この図8の認識対象3Dモデルバリエーション生成部15は、ユーザからの生成対象ラベル11を入力とし、認識対象3Dモデルバリエーション159を出力する。
認識対象3Dモデルバリエーション159とは、認識対象3Dモデル153を、認識対象3Dモデルバリエーション生成部15で加工したものである。
認識対象3Dモデルの変形は、以下のそれぞれを実施する。
(1)シアー:ランダムなベクトルに沿って、形状変換強度パラメータテーブル155の範囲内でランダムな大きさをシアーする。
(2)膨張・縮退:形状変換強度パラメータテーブル155の範囲内で膨張及び縮退の少なくともいずれかを行う。
カメラモデル生成部16は、認識対象の三次元モデルのカメラの位置、カメラの向き及びカメラの画角の少なくともいずれかを変化させてカメラモデルを生成する。
図10は、カメラモデル生成部16の一例を示すブロック図である。この図10のカメラモデル生成部16において、ディープラーニングに適した教師データを生成するため、生成された教師データが正しく分類できるようにレンダリングされることを保証する必要がある。そのために、認識対象3Dモデルが適切な大きさでレンダリングされることを考慮してカメラモデルを生成する。
カメラの位置、カメラの向きについては、単純なベクトル計算によりカメラが認識対象3Dモデルを確実にとらえられるように決定できる。
カメラ画角については、以下に説明するように特別な考慮が必要である。
図11に示すように、カメラ画角が大きすぎると、教師画像の中で認識対象3Dモデルが小さく描画されてしまう。一方、図12に示すように、カメラ画角が小さすぎると、教師画像中に認識対象3Dモデルが大きく描画されてしまい、認識対象3Dモデルの一部しか描画されない。
(1)ユーザが指定したカメラ位置範囲テーブル161(バウンディングボックス・距離指定)内のランダムな位置を計算することにより、カメラ位置を決定する。
(2)仮のカメラ位置から認識対象3Dモデルのバウンディングボックスの中心を向く向きを計算することにより、カメラ向きを決定する。したがって、カメラの視線のベクトルは認識対象3Dモデルの中心を通る。
(3)カメラの視線ベクトルと、カメラから認識対象3Dモデルの各頂点へのベクトルの角度を求め、最大の角度をカメラ画角とする。
照明モデル生成部17は、三次元(3D)空間上に光源を設定することにより、認識対象3Dモデルの照明モデルを生成する。光源の設定によって3Dモデルは可視物となる。光源としては、例えば、並行光源、点光源、環境光などが挙げられる。
並行光源としては、例えば、角度、強さ、色(ユーザ指定の色温度(4,000K~6,000K等))、数(0又は1)をランダムに定める。
点光源としては、例えば、位置、強さ、色(RGBのそれぞれ8bit整数で幅を指定、0~255が最大)、数(0からユーザ指定数)をランダムに定める。
環境光HDRマップ格納部は、認識対象以外、つまり背景のうち空(空の色、雲、明るさ)を格納する。環境光HDRマップとは、360度全方位からの光の強さを表すビットマップファイルである。
背景3Dモデル取得部18は、背景3Dモデル格納部から、ランダムな背景3Dモデルを取得する。背景3Dモデルとしては、例えば、町並み、ビル街、道路等の都市景観;海、木立、川、山等の自然風景などが挙げられる。
背景3Dモデル格納部は、認識対象以外、つまり背景のうち空(例えば、空の色、雲、明るさ)を除く部分の背景3Dモデルを格納する。なお、空は、環境光を用いることにより空が形成されるので指定しない。
ディープラーニングが背景3Dモデルを学習することを避けるため、十分なバリエーション、又は生成機構を備えることが必要となる。また、画像認識を堅牢にするために認識対象3Dモデルが一部隠れるような背景3Dモデルを用いることが好ましい。
図15に示すように、教師画像生成部19は、教師画像生成制御部192により制御され、3D空間レンダラ195、遮蔽率計算部198、及び保存パラメータ生成部199を有している。
教師画像生成制御部192へ、遮蔽率閾値191、認識対象3Dモデルバリエーション159、背景3Dモデル193、照明モデル194、及びカメラモデル162を入力すると、教師画像生成制御部192は、教師画像20、又は「エラー」を出力する。
教師画像20は、教師データの入力データに相当する画像である。
「エラー」は、遮蔽率が高すぎ、教師データとして用いる教師画像の生成に失敗したことを意味し、この場合は、上位でリトライする。
(1)認識対象3Dモデルのみのレンダリング結果(0、1の2値画像、レンダリング対象が1、それ以外が0;図16のA参照)
(2)認識対象3Dモデルと背景3Dモデル両方を含む、遮蔽を考慮したレンダリング結果(0、1の2値画像、レンダリング対象が1、それ以外が0;図16のB参照)
したがって、認識対象3Dモデルがカメラに十分写っているか否かを判定し、遮蔽率閾値以下のものを教師データとして用いる。
遮蔽率は、図16に示すように、3D空間レンダラ195の中間データ196から、遮蔽率計算部198により、下記数式により算出することができる。
(1)保存フォーマット・・・「jpg」、「png」
(2)画質・・・「jpg」では保存品質を設定することができる。「png」では1ピクセル当たりに使用する色数を、決定するビット深度を指定することができる。
遮蔽率が遮蔽率閾値を超えると判定すると、処理をS607に移行し、教師画像の生成が失敗し、上位へエラーを返す。一方、遮蔽率が遮蔽率閾値以下であると判定すると、処理をS606に移行する。
学習部200は、教師データ生成部50で生成した教師データを用いて学習を行う。
図18は、学習部全体の一例を示すブロック図であり、図19は、学習部全体の他の一例を示すブロック図である。
教師データ生成部50で生成した教師データを用いて行う学習は、通常のディープラーニング学習と同様にして行うことができる。
学習の終了条件は、学習回数がハイパーパラメータの指定値に達しているか、又は損失関数208が閾値を下回ったかで決定される。
学習済み重み202を有していないと判定すると、ディープラーニング学習部204が、構築したニューラルネットワークにニューラルネットワーク定義201で指定されたアルゴリズムに従い、初期値を設定すると(S705)、処理をS706に移行する。一方、学習済み重み202を有していると判定すると、ディープラーニング学習部204が、構築したニューラルネットワークに学習済み重み202を設定すると(S704)、処理をS706に移行する。なお、初期値は、ニューラルネットワーク定義201に記載されている。
推論部300は、学習部200で求めた学習済み重みを用いて推論(テスト)を行う。
図21は、推論部全体の一例を示すブロック図であり、図22は、推論部全体の他の一例を示すブロック図である。
テストデータ格納部301を用いた推論は、通常のディープラーニング推論と同様にして行うことができる。
テストデータ格納部301は、推論用のテストデータを格納した。テストデータは入力データ(画像)のみである。
ニューラルネットワーク定義302は、学習部200のニューラルネットワーク定義201と基本的な構造は共通する。
学習済み重み303は、推論は学習した成果を評価するため、必ず与える。
ディープラーニング推論部304は、学習部200のディープラーニング学習部204に対応する。
上記車種分類では、市販されている12車種についての分類を実施した。テストデータとして、12車種それぞれについて実写画像100枚、計1,200枚の実写画像を用いた。教師データは本実施例により生成したもののみを用いた。正答率は、1,200枚の実写画像を正しく分類できた割合である。
上記正答率が得られた理由は、認識対象3Dモデルについて見た目にかかわる描画パラメータ(例えば、材質、形状、照明、カメラ)を複合的に変化させることにより、ディープラーニングに適したバリエーションの増強が行えること、また、従来は生成できなかった遮蔽を考慮した教師データを生成できる点が挙げられる。認識対象の見た目に関するパラメータを組み合わせることで、イレギュラーな状態(市販の色以外の塗料で着色された車両、照明による白とび、レンズ歪みによる実写画像上の形状の歪み)を認識することができ、また、教師データが遮蔽されたものを含むことで遮蔽された実写画像を認識することが可能となる。
実施例2の画像処理装置は、実施例1の画像処理装置において、教師データを永続化しないこと以外は、実施例1と同様であるため、既に説明した同一の構成については、同じ参照符号を付してその説明を省略する。
パラメータ変化部10及び教師データ生成部50は、実施例1と同様である。
教師データバッファ32は、教師データ生成部50で生成された教師データを指定されたバッチサイズの数に一時的に格納する。
ディープラーニング学習部204は、教師データバッファ32に格納されたバッチを用い、指定された回数の学習を実施する。実施例1のディープラーニング学習部204と同様である。
学習制御部31は、教師データ生成の制御、及びディープラーニング学習部204へのミニバッチの入力を行う。
ディープラーニング推論部304は、実施例1のディープラーニング推論部304と同様である。
教師データ数がバッチサイズ未満であると判定すると、処理をS902に戻し、教師データ数がバッチサイズ以上であると判定すると、処理をS905に移行する。
学習回数がユーザの指定値に到達していないと判定すると、処理をS910に移行し、ミニバッチの入力を待ち合わせて、処理をS906に移行する。一方、学習回数がユーザの指定値に到達したと判定すると、本処理を終了する。
(付記1)
認識対象の教師データを用いて画像認識を行う画像処理装置において、
前記認識対象の三次元モデルにおける描画パラメータを変化させるパラメータ変化部と、
前記パラメータ変化部が変化させた前記描画パラメータに基づき、前記認識対象の教師データを生成する教師データ生成部と、
を有することを特徴とする画像処理装置。
(付記2)
前記画像処理装置において、
前記描画パラメータが、前記認識対象の三次元モデルの材質、前記認識対象の三次元モデルの形状、前記認識対象の三次元モデルのカメラの位置、前記認識対象の三次元モデルのカメラの向き、前記認識対象の三次元モデルのカメラの画角、前記認識対象の三次元モデルの照明条件、背景三次元モデル、遮蔽率及び教師画像の保存条件から選択される少なくとも一つ又はこれらの組み合わせである付記1に記載の画像処理装置。
(付記3)
前記画像処理装置はさらに、
前記認識対象の三次元モデルのカメラの位置、カメラの向き及びカメラの画角の少なくともいずれかを変化させてカメラモデルを生成するカメラモデル生成部を有する付記2に記載の画像処理装置。
(付記4)
前記画像処理装置はさらに、
前記認識対象の三次元モデルの照明条件を変化させて照明モデルを生成する照明モデル生成部を有する付記2から3のいずれか一項に記載の画像処理装置。
(付記5)
前記画像処理装置はさらに、
背景三次元モデル格納部から前記背景三次元モデルを取得する背景三次元モデル取得部を有する付記2から4のいずれか一項に記載の画像処理装置。
(付記6)
前記画像処理装置はさらに、
前記遮蔽率が遮蔽率閾値以下である教師画像を生成する教師画像生成部を有する付記2から5のいずれか一項に記載の画像処理装置。
(付記7)
前記画像処理装置において、
前記遮蔽率閾値が、前記認識対象の三次元モデルの分類毎に設定される付記6に記載の画像処理装置。
(付記8)
前記画像処理装置はさらに、
前記教師データ生成部で生成した教師データを用いて学習を行う学習部を有する付記1から7のいずれか一項に記載の画像処理装置。
(付記9)
前記画像処理装置はさらに、
前記学習部で求めた学習済み重みを用いて推論を行う推論部を有する付記8に記載の画像処理装置。
(付記10)
前記画像処理装置において、
前記画像認識は、ディープラーニングの手法により行われる付記1から9のいずれか一項に記載の画像処理装置。
(付記11)
認識対象の教師データを用いて画像認識を行う画像処理装置の画像処理方法において、
前記画像処理装置が有するパラメータ変化部が、前記認識対象の三次元モデルにおける描画パラメータを変化させ、
前記画像処理装置が有する教師データ生成部が、前記認識対象の教師データを生成する画像処理方法。
(付記12)
認識対象の教師データを用いて画像認識を行う画像処理装置の画像処理プログラムにおいて、
前記画像処理装置が有するパラメータ変化部に、前記認識対象の三次元モデルにおける描画パラメータを変化させ、
前記画像処理装置が有する教師データ生成部に、前記認識対象の教師データを生成させる画像処理プログラム。
(付記13)
認識対象の画像認識を行うための教師データを生成する教師データ生成装置を用いた教師データ生成方法において、
前記教師データ生成装置が有するパラメータ変化部が、前記認識対象の三次元モデルにおける描画パラメータを変化させ、
前記教師データ生成装置が有する教師データ生成部が、前記パラメータ変化部が変化させた前記描画パラメータに基づき、前記認識対象の教師データを生成する教師データ生成方法。
(付記14)
前記教師データ生成方法において、
前記描画パラメータが、前記認識対象の三次元モデルの材質、前記認識対象の三次元モデルの形状、前記認識対象の三次元モデルのカメラの位置、前記認識対象の三次元モデルのカメラの向き、前記認識対象の三次元モデルのカメラの画角、前記認識対象の三次元モデルの照明条件、背景三次元モデル、遮蔽率及び教師画像の保存条件から選択される少なくとも一つ又はこれらの組み合わせである付記13に記載の教師データ生成方法。
(付記15)
前記教師データ生成装置はさらに、
前記認識対象の三次元モデルのカメラの位置、カメラの向き及びカメラの画角の少なくともいずれかを変化させてカメラモデルを生成するカメラモデル生成部を有する付記14に記載の教師データ生成方法。
(付記16)
前記教師データ生成装置はさらに、
前記認識対象の三次元モデルの照明条件を変化させて照明モデルを生成する照明モデル生成部を有する付記14から15のいずれか一項に記載の教師データ生成方法。
(付記17)
前記教師データ生成装置はさらに、
背景三次元モデル格納部から背景三次元モデルを取得する背景三次元モデル取得部を有する付記14から16のいずれか一項に記載の教師データ生成方法。
(付記18)
前記教師データ生成装置はさらに、
前記遮蔽率が遮蔽率閾値以下である教師画像を生成する教師画像生成部を有する付記14から17のいずれか一項に記載の教師データ生成方法。
(付記19)
前記教師データ生成装置において、
前記遮蔽率閾値が、前記認識対象の三次元モデルの分類毎に設定される付記18に記載の教師データ生成方法。
(付記20)
認識対象の画像認識を行うための教師データを生成する教師データ生成装置において、
前記認識対象の三次元モデルにおける描画パラメータを変化させるパラメータ変化部と、
前記パラメータ変化部が変化させた描画パラメータに基づき、前記認識対象の教師データを生成する教師データ生成部と、を有する教師データ生成装置。
(付記21)
認識対象の画像認識を行うための教師データを生成する教師データ生成装置を用いた教師データ生成プログラムにおいて、
前記画像処理装置が有するパラメータ変化部に、前記認識対象の三次元モデルにおける描画パラメータを変化させ、
前記画像処理装置が有する教師データ生成部に、前記認識対象の教師データを生成させる教師データ生成プログラム。
12 教師データ生成制御部
15 認識対象3Dモデルバリエーション生成部
16 カメラモデル生成部
17 照明モデル生成部
18 背景3Dモデル取得部
19 教師画像生成部
20 教師画像
21 教師データ
50 教師データ生成部
100 画像処理装置
200 学習部
300 推論部
Claims (12)
- 画像を教師データとして出力する画像処理装置であり、
前記画像において認識対象の一部が遮蔽されている場合、遮蔽された部分を含む前記認識対象の全領域の第一の面積と、前記全領域のうち前記認識対象が遮蔽された前記部分を除外した領域の第二の面積と、に基づいて前記認識対象が遮蔽されている割合を示す遮蔽率を算出する遮蔽率計算部と、
算出した前記遮蔽率が閾値以下である場合に前記画像を前記教師データとすることを決定する教師データ生成部と、
を有することを特徴とする画像処理装置。 - 前記画像処理装置において、
描画パラメータが、前記認識対象の材質、形状、カメラの位置、カメラの向き、カメラの画角、照明条件と、背景モデルと、前記遮蔽率と、教師画像の保存条件とから選択される少なくとも一つ又はこれらの組み合わせであり、
一つ又は組み合わせた前記描画パラメータを変化させ前記教師データを生成する前記教師データ生成部を有する請求項1に記載の画像処理装置。 - 前記画像処理装置はさらに、
前記認識対象の前記カメラの位置、前記カメラの向き及び前記カメラの画角の少なくともいずれかを変化させてカメラモデルを生成するカメラモデル生成部を有する請求項2に記載の画像処理装置。 - 前記画像処理装置はさらに、
前記認識対象の前記照明条件を変化させて照明モデルを生成する照明モデル生成部を有する請求項2または3に記載の画像処理装置。 - 前記画像処理装置はさらに、
背景モデル格納部から前記背景モデルを取得する背景モデル取得部を有する請求項2から4のいずれか一項に記載の画像処理装置。 - 前記画像処理装置において、
前記遮蔽率の前記閾値が、前記認識対象の分類毎に設定される請求項1から5のいずれか一項に記載の画像処理装置。 - 前記画像処理装置はさらに、
前記教師データ生成部で生成した前記教師データを用いて学習を行う学習部を有する請求項1から6のいずれか一項に記載の画像処理装置。 - 前記画像処理装置はさらに、
前記学習部で求めた学習済み重みを用いて推論を行う推論部を有する請求項7に記載の画像処理装置。 - 前記画像処理装置は前記教師データを用いた機械学習の結果を用いて画像認識を行い、
前記画像認識は、ディープラーニングの手法により行われる請求項1から8のいずれか一項に記載の画像処理装置。 - 画像を教師データとして出力する画像処理装置の画像処理方法において、
前記画像処理装置が有する遮蔽率計算部が、前記画像において認識対象の一部が遮蔽されている場合、遮蔽された部分を含む前記認識対象の全領域の第一の面積と、前記全領域のうち前記認識対象が遮蔽された前記部分を除外した領域の第二の面積と、に基づいて前記認識対象が遮蔽されている割合を示す遮蔽率を算出し、
前記画像処理装置が有する教師データ生成部が、算出した前記遮蔽率が閾値以下である場合に前記画像を前記教師データとすることを決定する、
処理をコンピュータが実行することを特徴とする画像処理方法。 - 画像を教師データとして出力する画像処理装置の画像処理プログラムにおいて、
前記画像処理装置が有する遮蔽率計算部に、前記画像において認識対象の一部が遮蔽されている場合、遮蔽された部分を含む前記認識対象の全領域の第一の面積と、前記全領域のうち前記認識対象が遮蔽された前記部分を除外した領域の第二の面積と、に基づいて前記認識対象が遮蔽されている割合を示す遮蔽率を算出させ、
前記画像処理装置が有する教師データ生成部に、算出された前記遮蔽率が閾値以下である場合に前記画像を前記教師データとすることを決定させる画像処理プログラム。 - 画像を教師データとして出力する教師データ生成装置を用いた教師データ生成方法において、
前記教師データ生成装置が有する遮蔽率計算部が、前記画像において認識対象の一部が遮蔽されている場合、遮蔽された部分を含む前記認識対象の全領域の第一の面積と、前記全領域のうち前記認識対象が遮蔽された前記部分を除外した領域の第二の面積と、に基づいて前記認識対象が遮蔽されている割合を示す遮蔽率を算出し、
前記教師データ生成装置が有する教師データ生成部が、算出した前記遮蔽率が閾値以下である場合に前記画像を前記教師データとすることを決定する処理をコンピュータが実行することを特徴とする教師データ生成方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017060876A JP7011146B2 (ja) | 2017-03-27 | 2017-03-27 | 画像処理装置、画像処理方法、画像処理プログラム、及び教師データ生成方法 |
US15/920,576 US10803352B2 (en) | 2017-03-27 | 2018-03-14 | Image processing apparatus, image processing method, and image processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017060876A JP7011146B2 (ja) | 2017-03-27 | 2017-03-27 | 画像処理装置、画像処理方法、画像処理プログラム、及び教師データ生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018163554A JP2018163554A (ja) | 2018-10-18 |
JP7011146B2 true JP7011146B2 (ja) | 2022-01-26 |
Family
ID=63583450
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017060876A Active JP7011146B2 (ja) | 2017-03-27 | 2017-03-27 | 画像処理装置、画像処理方法、画像処理プログラム、及び教師データ生成方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10803352B2 (ja) |
JP (1) | JP7011146B2 (ja) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180357819A1 (en) * | 2017-06-13 | 2018-12-13 | Fotonation Limited | Method for generating a set of annotated images |
EP3416103A1 (en) * | 2017-06-16 | 2018-12-19 | Dassault Systèmes | Dataset for learning a function taking images as inputs |
WO2020112188A1 (en) * | 2018-11-27 | 2020-06-04 | Raytheon Company | Computer architecture for artificial image generation |
JP7096360B2 (ja) * | 2018-12-14 | 2022-07-05 | 富士フイルム株式会社 | ミニバッチ学習装置とその作動プログラムおよび作動方法 |
EP3674870A1 (en) * | 2018-12-29 | 2020-07-01 | Dassault Systèmes | Learning a neural network for inference of editable feature trees |
JP7200713B2 (ja) * | 2019-02-04 | 2023-01-10 | 株式会社島津製作所 | 機械学習用教師データ作成支援方法、及び機械学習用教師データ作成支援プログラム |
JP7267068B2 (ja) * | 2019-03-29 | 2023-05-01 | 三井情報株式会社 | 学習済みモデル生成装置、プログラム及び学習済みモデル生成システム |
JP7340353B2 (ja) * | 2019-05-22 | 2023-09-07 | 東芝テック株式会社 | 情報処理装置、物品識別装置、及び物品識別システム |
CN110175579A (zh) * | 2019-05-29 | 2019-08-27 | 北京百度网讯科技有限公司 | 姿态确定方法、场景图像的展示方法、装置、设备及介质 |
JP6967041B2 (ja) * | 2019-08-20 | 2021-11-17 | 株式会社Cygames | 画像認識モデルを用いた識別子情報推論のための電子装置、方法、プログラム及びシステム |
JP7335221B2 (ja) * | 2019-08-20 | 2023-08-29 | 株式会社Cygames | 画像認識モデルを用いた識別子情報推論のための電子装置、方法、プログラム及びシステム |
JP7426602B2 (ja) * | 2019-11-06 | 2024-02-02 | パナソニックIpマネジメント株式会社 | 映像生成装置、映像生成方法およびプログラム |
US11416707B2 (en) | 2019-12-04 | 2022-08-16 | Panasonic Intellectual Property Corporation Of America | Information processing method, information processing system, and information processing apparatus |
CN113128531B (zh) * | 2019-12-30 | 2024-03-26 | 上海商汤智能科技有限公司 | 一种数据处理方法及装置 |
CN114830107A (zh) * | 2020-03-10 | 2022-07-29 | 奥林巴斯株式会社 | 图像处理系统、图像处理装置、内窥镜系统、接口以及图像处理方法 |
JP7459713B2 (ja) | 2020-07-31 | 2024-04-02 | 富士通株式会社 | 選別プログラム、選別方法、および情報処理装置 |
WO2022044311A1 (ja) | 2020-08-31 | 2022-03-03 | 富士通フロンテック株式会社 | データ生成装置、データ生成方法およびデータ生成プログラム |
CN112508027B (zh) * | 2020-11-30 | 2024-03-26 | 北京百度网讯科技有限公司 | 用于实例分割的头部模型、实例分割模型、图像分割方法及装置 |
US20240084528A1 (en) | 2021-02-04 | 2024-03-14 | Nec Corporation | Training data generation device, trainig data generation method, and medium |
US20230209003A1 (en) * | 2021-12-28 | 2023-06-29 | At&T Intellectual Property I, L.P. | Virtual production sets for video content creation |
JP2023172115A (ja) * | 2022-05-23 | 2023-12-06 | 株式会社日立製作所 | 物体検知モデル学習装置、物体検知装置及び物体検知モデル学習方法 |
JP2023183255A (ja) * | 2022-06-15 | 2023-12-27 | 株式会社日立製作所 | 学習用データ生成装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010211468A (ja) | 2009-03-10 | 2010-09-24 | Toyota Central R&D Labs Inc | 学習モデル生成装置、対象物検出システム、及びプログラム |
JP2014123362A (ja) | 2012-12-21 | 2014-07-03 | Honda Motor Co Ltd | 合成訓練データを用いてリアルタイムで自転車運転者を検知する方法、記憶媒体及びコンピュータ |
WO2016157499A1 (ja) | 2015-04-02 | 2016-10-06 | 株式会社日立製作所 | 画像処理装置、物体検知装置、画像処理方法 |
JP2016218999A (ja) | 2015-05-21 | 2016-12-22 | 三菱電機株式会社 | ターゲット環境の画像内に表現されたオブジェクトを検出するように分類器をトレーニングする方法およびシステム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010211732A (ja) | 2009-03-12 | 2010-09-24 | Nippon Telegr & Teleph Corp <Ntt> | 物体認識装置および方法 |
WO2015035229A2 (en) * | 2013-09-05 | 2015-03-12 | Cellscope, Inc. | Apparatuses and methods for mobile imaging and analysis |
JP6409433B2 (ja) | 2014-09-17 | 2018-10-24 | 大日本印刷株式会社 | 画像生成装置、画像検出システム及び画像生成方法 |
-
2017
- 2017-03-27 JP JP2017060876A patent/JP7011146B2/ja active Active
-
2018
- 2018-03-14 US US15/920,576 patent/US10803352B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010211468A (ja) | 2009-03-10 | 2010-09-24 | Toyota Central R&D Labs Inc | 学習モデル生成装置、対象物検出システム、及びプログラム |
JP2014123362A (ja) | 2012-12-21 | 2014-07-03 | Honda Motor Co Ltd | 合成訓練データを用いてリアルタイムで自転車運転者を検知する方法、記憶媒体及びコンピュータ |
WO2016157499A1 (ja) | 2015-04-02 | 2016-10-06 | 株式会社日立製作所 | 画像処理装置、物体検知装置、画像処理方法 |
JP2016218999A (ja) | 2015-05-21 | 2016-12-22 | 三菱電機株式会社 | ターゲット環境の画像内に表現されたオブジェクトを検出するように分類器をトレーニングする方法およびシステム |
Also Published As
Publication number | Publication date |
---|---|
US10803352B2 (en) | 2020-10-13 |
US20180276500A1 (en) | 2018-09-27 |
JP2018163554A (ja) | 2018-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7011146B2 (ja) | 画像処理装置、画像処理方法、画像処理プログラム、及び教師データ生成方法 | |
CN111199531B (zh) | 基于泊松图像融合及图像风格化的交互式数据扩展方法 | |
JP7082535B2 (ja) | データ生成装置、画像識別装置、データ生成方法及びプログラム | |
JP6929322B2 (ja) | データ拡張システム、データ拡張方法、及びプログラム | |
WO2022095721A1 (zh) | 参数估算模型的训练方法、装置、设备和存储介质 | |
CN111160085A (zh) | 一种人体图像关键点姿态估计方法 | |
CN111445488B (zh) | 一种弱监督学习自动识别和分割盐体的方法 | |
CN108491776B (zh) | 基于像素分类的装配体零件识别方法、装置及监测系统 | |
WO2017096758A1 (zh) | 图像分类方法、电子设备和存储介质 | |
CN106096542B (zh) | 基于距离预测信息的图像视频场景识别方法 | |
US11915362B2 (en) | UV mapping on 3D objects with the use of artificial intelligence | |
US10943352B2 (en) | Object shape regression using wasserstein distance | |
CN108564103A (zh) | 数据处理方法与装置 | |
CN111563563B (zh) | 一种手写体识别的联合数据的增强方法 | |
Montserrat et al. | Logo detection and recognition with synthetic images | |
US11403491B2 (en) | Object recognition from images using cad models as prior | |
KR20200019297A (ko) | 표정 인식 모델 생성 장치 및 방법, 및 이를 이용한 표정 인식 장치 및 방법 | |
CN117422884A (zh) | 三维目标检测方法、系统、电子设备及存储介质 | |
CN112132164B (zh) | 目标检测方法、系统、计算机装置及存储介质 | |
CN117237542B (zh) | 基于文本的三维人体模型生成方法和装置 | |
CN118262034A (zh) | 从图像重建可动画化的三维人类头部模型的系统和方法 | |
JP7433849B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
Boroujerdi et al. | Deep interactive region segmentation and captioning | |
Lin et al. | Structure-aware roadview synthesis for testing autonomous perception | |
KR102627659B1 (ko) | 후면 영상정보 생성 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191212 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210302 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210427 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211005 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211129 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211214 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211227 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7011146 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |