JP6695454B1

JP6695454B1 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP6695454B1
Application number: JP2019006893A
Authority: JP
Inventors: 重人斉藤
Original assignee: 株式会社パン・パシフィック・インターナショナルホールディングス
Priority date: 2019-01-18
Filing date: 2019-01-18
Publication date: 2020-05-20
Anticipated expiration: 2039-01-18
Also published as: JP2020119001A

Abstract

【課題】商品画像から商品を認識する場合の認識精度を向上させる。【解決手段】各商品の商品識別情報がラベル付けされた複数の商品画像を用いる学習によって生成された第１モデルと、複数の類似商品を含むグループのグループ識別情報とに基づき、商品の認識処理を行う第１認識処理部と、複数の類似商品の商品画像を用いる学習によって生成された第２モデルに基づき、類似商品の認識処理を行う第２認識処理部と、第１商品画像を取得する画像取得部と、認識された商品が類似商品であれば、類似商品を含むグループのグループ識別情報を取得し、認識された商品が類似商品でなければ、認識された商品の商品識別情報を取得する第１取得部と、グループ識別情報が取得された場合、第２認識処理部から、認識された商品の商品識別情報を取得する第２取得部と、商品識別情報を出力する出力部と、を備える。【選択図】図５

Description

本開示は、情報処理装置、情報処理方法、及びプログラムに関する。

近年、商品画像を用いて商品の認識を行うシステムの開発が行われている。例えば、特許文献１には、商品画像に商品識別コードが付与されているか否かを認識し、商品識別コードが付与されていなければ商品の認識を保留する技術が開示されている。

特開２０１８−４５４９４号公報

しかしながら、商品識別コードが全商品に付与されているとしても、例えば大量の商品が扱われる場合、商品画像の撮像角度や障害物（例えば背景色や手）などに起因して、認識精度が下がってしまうという課題がある。

本発明は、以上説明した事情を鑑みてなされたものであり、商品画像から商品を認識する場合の認識精度を向上させることが可能な情報処理装置、情報処理方法、及びプログラムを提供することを目的の一つとする。

本開示の一実施形態に係る情報処理装置は、各商品の商品識別情報がラベル付けされた複数の商品画像を用いる学習によって生成された商品認識のための第１モデルと、複数の類似商品を含むグループのグループ識別情報とに基づき、商品の認識処理を行う第１認識部を１又は複数有する第１認識処理部と、前記複数の類似商品の商品画像を用いる学習によって生成された類似商品認識のための第２モデルに基づき、類似商品の認識処理を行う第２認識部を１又は複数有する第２認識処理部と、認識対象の第１商品画像を取得する画像取得部と、前記第１モデルを用いて前記第１商品画像の商品を認識した前記第１認識処理部から、認識された商品が前記類似商品であれば、前記類似商品を含むグループのグループ識別情報を取得し、認識された商品が前記類似商品でなければ、前記認識された商品の商品識別情報を取得する第１取得部と、前記グループ識別情報が取得された場合、前記第２モデルを用いて前記第１商品画像の商品を認識した前記第２認識処理部から、認識された商品の商品識別情報を取得する第２取得部と、前記第１取得部、又は前記第２取得部により取得された前記商品識別情報を出力する出力部と、を備える。

開示の技術によれば、商品画像から商品を認識する場合の認識精度を向上させることが可能となる。

本実施形態に係る認識システム１の概略構成を示す図である。本実施形態に係る情報処理装置２０のハードウェア構成の一例を示す図である。本実施形態に係る学習装置１０４の機能構成の一例を示す図である。画像補正の一例を示す図である。本実施形態における認識装置１０６の機能構成の一例を示す図である。類似商品の学習対象部分を示すための図である。実施形態におけるシステムの全体処理の一例を示すフローチャートである。実施形態における学習処理の一例を示すフローチャートである。実施形態における認識処理の一例を示すフローチャートである。

以下、本発明の実施形態について図面を参照しつつ詳細に説明する。なお、同一の要素には同一の符号を付し、重複する説明を省略する。

Ａ．本実施形態
本実施形態では、大型量販店やスーパーマーケットなどにおいて、商品画像から商品を認識するシステムを想定するが、商品を販売するあらゆる店舗（コンビニエンスストアや専門店など）にも適用可能である。また、商品の認識に限らず、撮像画像に含まれる物体を認識する場合にも適用可能である。以下、物体は、商品を例にして説明するが、これに限られるものではない。

（１）構成
＜システム構成＞
図１は、本実施形態に係る認識システム１の概略構成を示す図である。図１に示すように、認識システム１は、第１撮像装置１０２と、学習装置１０４と、認識装置１０６と、第２撮像装置１０８とを有する。また、上述した装置の全部又は一部は、通信ネットワークを介して相互通信可能に接続されている。通信ネットワークは、例えば、インターネット、ＬＡＮ、専用線、電話回線、企業内ネットワーク、移動体通信網、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＷｉＦｉ（Wireless Fidelity）、その他の通信回線、それらの組み合わせ等のいずれであってもよく、有線であるか無線であるかを問わない。なお、認識システム１は、第１撮像装置１０２と学習装置１０４とを学習フェーズの第１システム、認識装置１０６と第２撮像装置１０８とを認識フェーズの第２システムとして構成してもよい。

第１撮像装置１０２は、任意の角度から商品を撮像可能な装置である。撮像された商品画像は、学習装置１０４に送信される。また、第１撮像装置１０２は、任意の角度から撮像できなくても、ユーザが任意の角度から撮像するようにしてもよい。第１撮像装置１０２は、学習装置１０４が、任意の角度から商品を認識可能な三次元モデルを作成することができるように、様々な角度から商品を撮像し、大量の撮像画像を取得するようにしてもよい。例えば、学習装置１０４により三次元モデルが生成される場合、一例として、一商品につき約５００枚の撮像画像が撮像される。

学習装置１０４は、第１撮像装置１０２から複数の商品の撮像画像（商品画像）を取得し、例えば複数の撮像画像に対して学習を行い、商品認識を行うための学習モデルを生成する。本実施形態の学習では、例えば、大量の商品を精度よく学習するため、ディープラーニング（深層学習）を用いることが好適であるが、これに限られない。学習装置１０４は、所定の商品数を単位にして学習モデルを生成する学習部を有する。例えば、１つの学習部で１万個の商品に対する学習モデルが生成される。学習部は、ＧＰＵ（Graphics Processing Unit）などにより構成されうる。また、学習される商品画像には、商品ごとに商品識別情報（以下、「商品ＩＤ」とも称す。）が正解としてラベル付けされ、必要に応じて画像の補正が行われる。商品ＩＤは、例えばＪＡＮコードである。

また、学習装置１０４は、類似する商品をグループ化した類似商品リストを作成する。類似商品リストについて、類似する商品の商品ＩＤがグループ化され、グループごとにグループ識別情報（以下、「グループＩＤ」とも称す。）が付与される。類似する商品は、例えば、商品同士の画像の類似度が閾値以上であることを用いて自動で特定することが可能である。学習装置１０４は、学習した単位ごとに、生成された学習モデルと、類似商品リストとを、認識装置１０６に出力する。また、学習装置１０４は、類似する商品の類似部分に対して機械学習、好ましくは深層学習を行い、類似商品用の学習モデルを生成する。学習装置１０４の詳細な機能については、図３を用いて説明する。

認識装置１０６は、学習装置１０４の学習単位ごとに認識部を有しており、各認識部は、学習モデルと、類似商品リストとを記憶する。例えば、認識部は、ＧＰＵとＣＰＵ（Central Processing Unit）との組み合わせにより構成されうる。認識装置１０６は、第２撮像装置１０８から取得した対象商品の商品画像に対して、一次認識処理を行う。認識装置１０６は、複数の認識部を用いて認識された商品の商品ＩＤを取得する。認識装置１０６は、取得した商品ＩＤが類似商品リストに含まれていれば、類似商品用の二次認識処理を行い、より精度の高い商品認識を行う。認識装置１０６の詳細な機能については、図５を用いて説明する。

第２撮像装置１０８は、例えばカメラであり、商品を撮像し、撮像画像を認識装置１０６に出力する。第２撮像装置１０８は、例えばレジにおいて商品を撮像するために用いられたり、棚に陳列された商品を管理するために用いられたりする。

＜ハード構成＞
図２は、本実施形態に係る情報処理装置２０のハードウェア構成の一例を示す図である。情報処理装置２０は、学習装置１０４又は認識装置１０６のハードウェアとして実装可能である。図２に示すように、情報処理装置２０は、プロセッサ２０２と、メモリ２０４と、ストレージ２０６と、入出力インタフェース（入出力Ｉ／Ｆ）２０８と、通信インタフェース（通信Ｉ／Ｆ）２１０とを含む。情報処理装置２００のＨＷの各構成要素は、例えばバスＢを介して相互に接続される。

情報処理装置２０は、プロセッサ２０２と、メモリ２０４と、ストレージ２０６と、入出力Ｉ／Ｆ２０８と、通信Ｉ／Ｆ２１０との協働により、本実施形態に記載される機能、及び／又は方法を実現する。

プロセッサ２０２は、ストレージ２０６に記憶されるプログラムに含まれるコードまたは命令によって実現する機能、および／または、方法を実行する。プロセッサ２０２は、例えば、中央処理装置（ＣＰＵ）、ＭＰＵ（Micro Processing Unit）、ＧＰＵ、マイクロプロセッサ（microprocessor）、プロセッサコア（processor core）、マルチプロセッサ（multiprocessor）、ＡＳＩＣ（Application-Specific Integrated Circuit）、ＦＰＧＡ（Field Programmable Gate Array）等を含む。

メモリ２０４は、ストレージ２０６からロードしたプログラムを一時的に記憶し、プロセッサ２０２に対して作業領域を提供する。メモリ２０４には、プロセッサ２０２がプログラムを実行している間に生成される各種データも一時的に格納される。メモリ２０４は、例えば、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）などを含む。

ストレージ２０６は、プロセッサ２０２により実行されるプログラム等を記憶する。ストレージ２０６は、例えば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、フラッシュメモリなどを含む。

入出力Ｉ／Ｆ２０８は、情報処理装置２０に対する各種操作を入力する入力装置、および、情報処理装置２０で処理された処理結果を出力する出力装置を含む。入出力Ｉ／Ｆ２０８は、入力装置と出力装置が一体化していてもよいし、入力装置と出力装置とに分離していてもよい。

入力装置は、ユーザからの入力を受け付けて、当該入力に係る情報をプロセッサ２０２に伝達できる全ての種類の装置のいずれか、または、その組み合わせにより実現される。入力装置は、例えば、タッチパネル、タッチディスプレイ、キーボード等のハードウェアキーや、マウス等のポインティングデバイス、カメラ（画像を介した操作入力）、マイク（音声による操作入力）を含む。

出力装置は、プロセッサ２０２で処理された処理結果を出力することができる全ての種類の装置のいずれか、または、その組み合わせにより実現される。当該処理結果を映像、および／または、動画像として出力する場合、出力装置は、フレームバッファに書き込まれた表示データに従って、当該表示データを表示することができる全ての種類の装置のいずれかまたはその組み合わせにより実現される。出力装置は、例えば、タッチパネル、タッチディスプレイ、モニタ（例えば、液晶ディスプレイ、ＯＥＬＤ（Organic Electroluminescence Display）など）などに画像やテキスト情報等を表示可能な装置、スピーカ（音声出力）などを含む。

通信Ｉ／Ｆ２１０は、ネットワークを介して各種データの送受信を行う。当該通信は、有線、無線のいずれで実行されてもよく、互いの通信が実行できるのであれば、どのような通信プロトコルを用いてもよい。通信Ｉ／Ｆ２１０は、ネットワークを介して、他の情報処理装置との通信を実行する機能を有する。通信Ｉ／Ｆ２１０は、各種データをプロセッサ２０２からの指示に従って、他の情報処理装置に送信する。また、通信Ｉ／Ｆ２１０は、他の情報処理装置から送信された各種データを受信し、プロセッサ２０２に伝達する。

本実施形態のプログラムは、コンピュータに読み取り可能な記憶媒体に記憶された状態で提供されてもよい。記憶媒体は、「一時的でない有形の媒体」に、プログラムを記憶可能である。プログラムは、例えば、ソフトウェアプログラムやコンピュータプログラムを含む。

情報処理装置２０における処理の少なくとも一部は、１以上のコンピュータにより構成されるクラウドコンピューティングにより実現されていてもよい。情報処理装置２０における処理の少なくとも一部を、他の情報処理装置により行う構成としてもよい。この場合、プロセッサ２０２により実現される各機能部の処理のうち少なくとも一部の処理を、他の情報処理装置で行う構成としてもよい。

＜学習装置の機能構成＞
図３は、本実施形態に係る学習装置１０４の機能構成の一例を示す図である。図３に示す例では、学習装置１０４は、画像補正部３０２と、深層学習部３０４とを有する。画像補正部３０２及び深層学習部３０４は、例えば図２に示すプロセッサ２０２や作業領域としてのメモリ２０４などにより実現されうる。

画像補正部３０２は、必要に応じて、第１撮像装置１０２から取得した商品画像に対し、補正処理を行う。補正処理は、商品画像から、商品部分の画像を切り出し、商品の部分画像にＪＡＮコードなどの商品識別情報を学習の正解としてラベル付けすることを含む。また、補正処理は、背景を補正すること、手の画像を付与すること、他の商品と組み合わせることなどを含んでもよい。画像補正部３０２は、補正後の画像を深層学習部３０４に出力する。

（画像補正の例）
ここで、本実施形態における画像補正の例について説明する。図４は、画像補正の一例を示す図である。商品画像Ａ１は、撮像された商品画像から商品部分が切り出された部分画像（以下、「部分画像Ａ１」とも称す。）である。

画像Ｃ１〜Ｃ３は、部分画像Ａ１に異なる背景色を組み合わせた商品画像である。例えば、画像Ｃ１は、部分画像Ａ１に黒の背景色を組みあわせた例である。画像Ｃ２は、部分画像Ａ１に赤の背景色を組み合わせた例である。画像Ｃ３は、部分画像Ａ１に緑の背景色を組み合わせた例である。これにより、撮像された商品画像の背景が任意の色であったとしても、適切に商品を認識させることができ、認識精度の向上を図ることができる。

画像Ｈ１〜Ｈ３は、部分画像Ａ１に手の画像を組み合わせた商品画像である。例えば、画像Ｈ１は、部分画像Ａ１の下部を手が保持している例である。画像Ｈ２は、部分画像Ａ１の中間を手が保持している例である。画像Ｈ３は、部分画像Ａ１の上部を手が保持している例である。これにより、撮像された商品画像に手の画像を組み合わせることで、ユーザが手に商品を持っている状態で商品が撮像されても、適切に商品を認識させることができ、認識精度の向上を図ることができる。

画像Ｐ１〜Ｐ３は、部分画像Ａ１に他の商品画像を組み合わせた商品画像である。例えば、画像Ｐ１は、部分画像Ａ１に他の商品（例えば、「商品Ｍ」とする。）２つを組み合わせた例である。画像Ｐ２は、部分画像Ａ１に他の商品（以下、「商品Ｎ」とする。）２つを組み合わせた例である。画像Ｐ３は、部分画像Ａ１に商品Ｍ１つと商品Ｎ１つとを組み合わせた例である。これにより、撮像された商品画像に他の商品画像が含まれていたとしても、適切に商品を認識させることができ、認識精度の向上を図ることができる。

上述したとおり、画像補正部３０２により画像の補正が行われることで、事前に様々な撮像時の場面を想定して学習モデルを作成しておくことができる。これにより、異なる場面で商品が撮像された場合でも、商品の認識精度の向上を図ることができる。

図３に戻り、深層学習部３０４は、画像補正部３０２から取得した商品画像に対して、ディープラーニング（深層学習）を行い、商品認識のための学習モデルを生成する。深層学習部３０４は、例えば、ＧＰＵ制御部３１０と、複数の学習部（１，２，３，…）を含む学習処理部３１２とを有する。各学習部は、例えばＧＰＵにより実現されうる。

ＧＰＵ制御部３１０は、各学習部の学習を制御する。上述したように、各学習部は、例えば１万個の商品の商品画像が入力され、学習モデル（以下、「第１モデル」とも称す。
）をそれぞれ生成する。生成された学習モデルには、類似商品リストが付与される。類似商品リストは、深層学習部３０４が、商品画像同士の類似度などを用いて類似商品を判別し、類似商品をグループ化し、グループにグループＩＤを付与することで生成可能である。

また、ＧＰＵ制御部３１０は、類似商品の商品画像のうち、他の商品と類似する部分を用いて、学習部に深層学習を実行させる。学習処理部３１２は、類似商品の部分画像を用いて、類似商品用の学習モデル（以下、「第２モデル」とも称す。）を生成する。類似商品の部分画像には商品ＩＤがラベル付けされている。ＧＰＵ制御部３１０は、各学習部により生成された各第１モデル、又は学習処理部３１２により生成された第２モデルを、認識装置１０６に出力する。

＜認識装置の機能構成＞
図５は、本実施形態における認識装置１０６の機能構成の一例を示す図である。図５に示す例では、認識装置１０６は、第１制御部５０２と、第１認識処理部５０４と、第２認識処理部５０６とを有する。第１制御部５０２と、第１認識処理部５０４と、第２認識処理部５０６とは、例えば図２に示すプロセッサ２０２や作業領域としてのメモリ２０４などにより実現されうる。

第１制御部５０２は、画像取得部５１２と、第１取得部５１４と、判定部５１６と、第２取得部５１８と、出力部５２０とを有する。画像取得部５１２は、第２撮像装置１０８から認識対象の第１商品画像を取得する。画像取得部５１２は、取得した第１商品画像を第１認識処理部５０４に出力する。

第１認識処理部５０４は、各商品の商品識別情報がラベル付けされた複数の商品画像を複数用いる学習によって生成された商品認識のための第１モデルと、複数の類似商品を含むグループのグループＩＤとに基づき、商品の認識処理を行う認識部を複数有する。各認識部は、ＧＰＵとＣＰＵとの組み合わせにより実現されてもよい。また、各認識部は、ソフトウエア上で実現されてもよく、この場合、１つのＧＰＵに複数の認識部を実行させることが可能であり、ＧＰＵを増加することで、処理能力を拡張することができる。また、実行させる認識部の数が制御可能になる。

なお、各認識部は、取得した第１商品画像に対し、自身が保持する第１モデルを用いて認識処理（一次認識処理）を行う。各認識部は、認識結果として、第１商品画像に一番近い商品の商品ＩＤと、その類似度とを取得する。このとき、商品ＩＤが類似商品リストに含まれる場合、商品ＩＤを含むグループのグループＩＤが認識結果に含まれる。類似度は、例えば画像同士の二乗誤差などの公知の類似度が用いられればよい。第１認識処理部５０４は、類似度が一番大きい商品ＩＤ又はグループＩＤを第１取得部５１４に出力する。

第１取得部５１４は、第１認識処理部５０４から、認識された商品が類似商品であれば、類似商品のグループＩＤを取得し、認識された商品が類似商品でなければ、認識された商品の商品ＩＤを取得する。例えば、第１取得部５１４は、各認識部により出力された認識結果内で、類似度が一番大きい商品ＩＤ又はグループＩＤを第１認識処理部５０４から取得する。

判定部５１６は、第１取得部５１４により取得されたＩＤは、商品ＩＤであるかグループＩＤであるかを判定する。判定部５１６は、判定結果が商品ＩＤであれば、出力部５２０に商品ＩＤを出力する。また、判定部５１６は、判定結果がグループＩＤであれば、商品画像を第２認識処理部５０６に出力する。

第２認識処理部５０６は、複数の類似商品の商品画像を用いる学習によって生成された類似商品認識のための第２モデルに基づき、類似商品の認識処理（二次認識処理）を行う第２認識部５３４（認識部Ｘ１，Ｘ２，・・・）を１又は複数有する。また、第２認識処理部５０６は、類似商品用の認識部を制御する第２制御部５３２を有する。第２制御部５３２は、各認識部から認識結果を取得する。認識結果は、商品ＩＤや、商品認識が適切に行われなかったときのエラーを示す情報（以下、「エラー情報」とも称す。）を含む。

（類似商品用の学習対象）
ここで、図６は、類似商品の学習対象部分を示すための図である。図６に示す例では、各商品Ｓ１〜Ｓ３は、各部分画像Ｒ１０２，Ｒ１０４，Ｒ１０６以外はほぼ同じである。これらの商品Ｓ１〜Ｓ３は、類似商品として、１つのグループに割り当てられ、グループＩＤが付与される。第２認識部５３４は、例えば各部分画像Ｒ１０２，Ｒ１０４，Ｒ１０６を用いて学習された学習モデルを有する。

このとき、第２制御部５３２は、認識対象の第１商品画像について、グループＩＤなどから商品のどの部分が類似するかを特定し、類似する部分の部分画像を切り出す。第２認識部５３４は、認識対象の部分画像と、第２モデルとを用いて商品認識を行い、類似度が一番大きい商品の商品ＩＤと、類似度とを認識結果に含める。これにより、類似商品用の第２認識部５３４は、部分画像を用いて認識処理を行うことができ、すなわち、特徴が表れる部分を用いて認識処理を行うことができ、認識精度をさらに向上させることができる。

図５に戻り、第２制御部５３２は、類似度が所定の閾値未満であれば、エラー情報を第２取得部５１８に出力し、類似度が所定の閾値以上であれば、一致している商品ＩＤを第２取得部５１８に出力する。例えば、類似度が所定の閾値未満になる場合とは、部分画像が手などによって隠されており、適切な認識処理が実行されずに類似度が低下する場合などである。このとき、適切な認識処理が実行されないので、第２制御部５３２は、エラー情報を返すようにする。

第２取得部５１８は、第２認識処理部５０６から、類似商品の認識結果を取得する。認識結果には、商品ＩＤ又はエラー情報が含まれる。第２取得部５１８は、商品ＩＤ又はエラー情報を出力部５２０に出力する。

出力部５２０は、第１取得部５１４、又は第２取得部５１８により取得された商品ＩＤ又はエラー情報を出力する。例えば、出力部５２０は、認識装置１０６をレジ装置とした場合、精算部（不図示）に商品ＩＤを出力することで、商品ＩＤに対応する金額が表示されたり、利用者の支払金額に加算されたりする。また、出力部５２０は、出力装置にエラー情報を出力し、アテンダントを呼ぶようにしてもよい。これにより、認識できなかった商品については、アテンダントが通常通りスキャン装置等を用いて商品を認識することができるようになる。

（２）動作説明
次に、実施形態に係る認識システム１の動作について説明する。
＜システムの全体処理＞
図７は、実施形態におけるシステムの全体処理の一例を示すフローチャートである。図７に示す例では、認識システム１において、ステップＳ１０２で、第１撮像装置１０２は、学習対象の商品の商品画像を撮像する。後段の処理である学習において３次元モデルが作成できるように、様々な角度から商品が大量に撮像されるとよい。

ステップＳ１０４で、学習装置１０４は、第１撮像装置１０２から取得した多くの商品画像に対して、学習処理、例えば深層学習を実行する。

ステップＳ１０６で、認識装置１０６は、第２撮像装置１０８により撮像された商品画像に対して、学習装置１０４により学習されたモデルを用いて、商品を認識するための認識処理を実行する。これにより、撮像された商品画像から、深層学習を用いて生成されたモデルを用いて、商品を特定することができるようになる。

＜学習処理＞
次に、本実施形態における学習装置１０４の学習処理について説明する。図８は、実施形態における学習処理の一例を示すフローチャートである。

ステップＳ２０２で、画像補正部３０２は、第１撮像装置１０２から商品画像を取得する。

ステップＳ２０４で、画像補正部３０２は、取得した商品画像に対し、補正処理を行う。補正処理は、例えば、商品画像から、商品部分の画像を切り出し、商品の部分画像にＪＡＮコードなどの商品識別情報をラベル付けすることを含む。また、補正処理は、背景を補正すること、手の画像を付与すること、他の商品と組み合わせることなどを含んでもよい。

ステップＳ２０６で、深層学習部３０４は、画像補正部３０２から取得した商品画像に対して、ディープラーニング（深層学習）を行い、商品認識のための学習モデルを生成する。深層学習部３０４は、補正画像に対する一次学習と、類似商品の部分画像に対する二次学習とを実行する。

ステップＳ２０７で、深層学習部３０４は、学習されたモデルに、類似商品をグループ化した類似商品リストを含める。

これにより、補正後の画像に対して深層学習を行うことで、様々な撮像場面にも対応することができ、認識精度を向上させることができる。また、類似商品に対しては、特徴が表れる部分画像を切り出して、その部分画像を用いて深層学習を行うことで、異なる部分を重点的に用いた学習モデルを生成することができ、認識精度を向上させることができる。

＜認識処理＞
次に、本実施形態における認識装置１０６の認識処理について説明する。図９は、実施形態における認識処理の一例を示すフローチャートである。

ステップＳ３０２で、第２撮像装置１０８は、認識対象の商品を撮像し、第１商品画像を生成する。

ステップＳ３０４で、画像取得部５１２は、第２撮像装置１０８から認識対象の第１商品画像を取得する。

ステップＳ３０６で、第１認識処理部５０４は、各認識部（１、２、３、…）に第１商品画像を出力し、各認識部から認識結果を取得する。認識結果には、類似度が一番大きい商品の商品ＩＤと、その類似度とが含まれる。また、各認識部は、類似度が一番大きい商品の商品ＩＤが類似のグループ内に含まれる場合、このグループのグループＩＤを認識結果に含める。また、第１認識処理部５０４は、各認識結果に含まれる類似度の中で、一番大きい類似度を有する商品ＩＤ又はグループＩＤを特定する。

ステップＳ３０８で、第１取得部５１４は、第１認識処理部５０４からの認識結果を取得する。認識結果は、商品ＩＤ又はグループＩＤを含む。

ステップＳ３１０で、判定部５１６は、第１取得部５１４により取得されたＩＤが、商品ＩＤであるかグループＩＤであるかを判定する。判定結果が商品ＩＤであれば（ステップＳ３１０−ＮＯ）、処理はステップＳ３１８に進む。また、判定結果がグループＩＤであれば（ステップＳ３１０−ＹＥＳ）、処理はステップＳ３１２に進む。

ステップＳ３１２で、第２認識処理部５０６は、複数の類似商品の商品画像から商品を識別するための第２モデルを用いて、類似商品の認識処理を行う。このとき、第１商品画像から、特徴が表れる部分が部分画像として切り出されてもよい。特徴が表れる部分は、グループＩＤに関連付けて第２認識処理部５０６に保持されていてもよい。

ステップＳ３１４で、第２取得部５１８は、第２認識処理部５０６から、類似商品の認識結果を取得する。

ステップＳ３１６で、第２取得部５１８は、取得した認識結果に含まれる情報は、商品ＩＤかエラー情報かを判定する。取得した情報が商品ＩＤであれば（ステップＳ３１６−ＹＥＳ）、処理はステップＳ３１８に進み、取得した情報がエラー情報であれば（ステップＳ３１６−ＮＯ）、処理はステップＳ３２０に進む。

ステップＳ３１８で、出力部５２０は、第１取得部５１４、又は第２取得部５１８により取得された商品ＩＤを出力する。

ステップＳ３２０で、出力部５２０は、エラー情報を出力する。

これにより、通常の商品認識処理と、特徴部分が表れる部分画像を用いての商品認識処理とを含む２段階の認識処理を実行することが可能になり、商品の認識精度を向上させることができる。

以上説明したように、本実施形態に係る認識システム１によれば、学習段階では、予め商品画像が類似する商品についてはグループ分けをしておき、特徴が表れる部分画像を用いての学習処理を実行しておくことができる。認識段階では、商品画像を用いての一次認識処理と、一次認識処理では適切に商品を認識できない場合に、類似商品における部分画像を用いての二次認識処理とを行うことで、認識精度を向上させることができる。

また、学習段階において、商品画像に対して商品部分の部分画像を切り出し、この部分画像に様々な背景を組み合わせて学習をさせることで、認識対象の商品が様々な状況で撮像された場合でも、適切に商品認識を行うことができる。

Ｂ．その他
なお、本発明は、上述した実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内において、他の様々な形で実施することができる。このため、上記実施形態はあらゆる点で単なる例示にすぎず、限定的に解釈されるものではない。例えば、上述した各処理ステップは処理内容に矛盾を生じない範囲で任意に順番を変更し、または並列に実行することができる。

また、上述した本実施形態では、商品を認識するシステムを例にして説明したが、撮像された画像から物体を識別するシステムにも同様に適用することができる。例えば、顔認証や、指紋認証などの生態認証にも適用可能である。

また、上述した本実施形態では、認識システム１は、リアルタイムのレジシステムに適用可能である。例えば、第２撮像装置１０８で撮像された商品画像を、認識装置１０６は、各認識部で並列処理して商品を認識する。認識された商品の商品ＩＤを用いて商品の価格を特定することが可能である。また、各学習部により生成された学習モデルは、必要なものだけを、認識装置１０６に送信することができる。これにより、或る店舗では品数が少ない場合、不必要なモデルの送付を防止し、処理負荷を減らすことができる。

また、上述した本実施形態では、認識装置１０６を店舗に１つ備え、第２撮像装置１０８を備えるレジ装置を複数備える場合でも適用でき、認識装置１０６は、各レジ装置から商品画像を取得して、商品ＩＤ、又は商品ＩＤに関連付けられた価格をレジ装置に返す。これにより、認識システム１が店舗に導入される際の導入コストを減らすことができる。

また、上述した本実施形態では、認識装置１０６は、店舗内の装置であることを例にしたが、認識装置１０６をクラウドサーバ側に設置し、クライアント側では、第２撮像装置１０８をレジ装置などに実装しても上述した処理を実行することができる。

１…認識システム、２０…情報処理装置、１０２…第１撮像装置、１０４…学習装置、１０６…認識装置、１０８…第２撮像装置、２０２…プロセッサ、２０４…メモリ、２０６…ストレージ、２０８…入出力Ｉ／Ｆ、２１０…通信Ｉ／Ｆ、３０２…画像補正部、３０４…深層学習部、３１０…ＧＰＵ制御部、３１２…学習処理部、５０２…第１制御部、５０４…第１認識処理部、５０６…第２認識処理部、５１２…画像取得部、５１４…第１取得部、５１６…判定部、５１８…第２取得部、５２０…出力部、５３２…第２制御部、５３４…第２認識部。

Claims

各商品の商品識別情報がラベル付けされた複数の商品画像を用いる学習によって生成された商品認識のための第１モデルと、複数の類似商品を含むグループのグループ識別情報とに基づき、商品の認識処理を行う第１認識部を１又は複数有する第１認識処理部と、
前記複数の類似商品の商品画像を用いる学習によって生成された類似商品認識のための第２モデルに基づき、類似商品の認識処理を行う第２認識部を１又は複数有する第２認識処理部と、
認識対象の第１商品画像を取得する画像取得部と、
前記第１モデルを用いて前記第１商品画像の商品を認識した前記第１認識処理部から、認識された商品が前記類似商品であれば、前記類似商品を含むグループのグループ識別情報を取得し、認識された商品が前記類似商品でなければ、前記認識された商品の商品識別情報を取得する第１取得部と、
前記グループ識別情報が取得された場合、前記第２モデルを用いて前記第１商品画像の商品を認識した前記第２認識処理部から、認識された商品の商品識別情報を取得する第２取得部と、
前記第１取得部、又は前記第２取得部により取得された前記商品識別情報を出力する出力部と、
を備える情報処理装置。
前記第１モデルは、前記商品画像内の商品部分の画像と、複数の背景画像のうちの任意の背景画像との組み合わせで学習されたモデルである、請求項１に記載の情報処理装置。
前記複数の背景画像は、色が異なる背景画像、手の画像、及び他の商品の画像のうち少なくとも１つを含む、請求項２に記載の情報処理装置。
前記第２モデルは、前記類似商品の商品画像内で、他の商品と類似する部分画像を用いて学習されたモデルである、請求項１から３のいずれか一項に記載の情報処理装置。
前記第１モデルは、任意の角度から商品を認識可能な３次元モデルを含む、請求項１から４のいずれか一項に記載の情報処理装置。
各商品の商品識別情報がラベル付けされた複数の商品画像を用いる学習によって生成された商品認識のための第１モデルと、複数の類似商品を含むグループのグループ識別情報とに基づき、商品の認識処理を行う第１認識部を１又は複数有する第１認識処理部と、
前記複数の類似商品の商品画像を用いる学習によって生成された類似商品認識のための第２モデルに基づき、類似商品の認識処理を行う第２認識部を１又は複数有する第２認識処理部と、
制御部と、を有する情報処理装置が実行する情報処理方法であって、
前記制御部は、
認識対象の第１商品画像を取得し、
前記第１モデルを用いて前記第１商品画像の商品を認識した前記第１認識処理部から、認識された商品が前記類似商品であれば、前記類似商品を含むグループのグループ識別情報を取得し、認識された商品が前記類似商品でなければ、前記認識された商品の商品識別情報を取得し、
前記グループ識別情報が取得された場合、前記第２モデルを用いて前記第１商品画像の商品を認識した前記第２認識処理部から、認識された商品の商品識別情報を取得し、
取得された前記商品識別情報を出力する、情報処理方法。
各商品の商品識別情報がラベル付けされた複数の商品画像を用いる学習によって生成された商品認識のための第１モデルと、複数の類似商品を含むグループのグループ識別情報とに基づき、商品の認識処理を行う第１認識部を１又は複数有する第１認識処理部と、
前記複数の類似商品の商品画像を用いる学習によって生成された類似商品認識のための第２モデルに基づき、類似商品の認識処理を行う第２認識部を１又は複数有する第２認識処理部と、
制御部と、を有する情報処理装置に実行させるためのプログラムであって、
前記制御部に、
認識対象の第１商品画像を取得し、
前記第１モデルを用いて前記第１商品画像の商品を認識した前記第１認識処理部から、認識された商品が前記類似商品であれば、前記類似商品を含むグループのグループ識別情報を取得し、認識された商品が前記類似商品でなければ、前記認識された商品の商品識別情報を取得し、
前記グループ識別情報が取得された場合、前記第２モデルを用いて前記第１商品画像の商品を認識した前記第２認識処理部から、認識された商品の商品識別情報を取得し、
取得された前記商品識別情報を出力する、処理を実行させるプログラム。