[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP6695454B1 - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
JP6695454B1
JP6695454B1 JP2019006893A JP2019006893A JP6695454B1 JP 6695454 B1 JP6695454 B1 JP 6695454B1 JP 2019006893 A JP2019006893 A JP 2019006893A JP 2019006893 A JP2019006893 A JP 2019006893A JP 6695454 B1 JP6695454 B1 JP 6695454B1
Authority
JP
Japan
Prior art keywords
product
recognition
image
recognized
identification information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2019006893A
Other languages
English (en)
Other versions
JP2020119001A (ja
Inventor
重人 斉藤
重人 斉藤
Original Assignee
株式会社パン・パシフィック・インターナショナルホールディングス
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社パン・パシフィック・インターナショナルホールディングス filed Critical 株式会社パン・パシフィック・インターナショナルホールディングス
Priority to JP2019006893A priority Critical patent/JP6695454B1/ja
Application granted granted Critical
Publication of JP6695454B1 publication Critical patent/JP6695454B1/ja
Publication of JP2020119001A publication Critical patent/JP2020119001A/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Cash Registers Or Receiving Machines (AREA)

Abstract

【課題】商品画像から商品を認識する場合の認識精度を向上させる。【解決手段】各商品の商品識別情報がラベル付けされた複数の商品画像を用いる学習によって生成された第1モデルと、複数の類似商品を含むグループのグループ識別情報とに基づき、商品の認識処理を行う第1認識処理部と、複数の類似商品の商品画像を用いる学習によって生成された第2モデルに基づき、類似商品の認識処理を行う第2認識処理部と、第1商品画像を取得する画像取得部と、認識された商品が類似商品であれば、類似商品を含むグループのグループ識別情報を取得し、認識された商品が類似商品でなければ、認識された商品の商品識別情報を取得する第1取得部と、グループ識別情報が取得された場合、第2認識処理部から、認識された商品の商品識別情報を取得する第2取得部と、商品識別情報を出力する出力部と、を備える。【選択図】図5

Description

本開示は、情報処理装置、情報処理方法、及びプログラムに関する。
近年、商品画像を用いて商品の認識を行うシステムの開発が行われている。例えば、特許文献1には、商品画像に商品識別コードが付与されているか否かを認識し、商品識別コードが付与されていなければ商品の認識を保留する技術が開示されている。
特開2018−45494号公報
しかしながら、商品識別コードが全商品に付与されているとしても、例えば大量の商品が扱われる場合、商品画像の撮像角度や障害物(例えば背景色や手)などに起因して、認識精度が下がってしまうという課題がある。
本発明は、以上説明した事情を鑑みてなされたものであり、商品画像から商品を認識する場合の認識精度を向上させることが可能な情報処理装置、情報処理方法、及びプログラムを提供することを目的の一つとする。
本開示の一実施形態に係る情報処理装置は、各商品の商品識別情報がラベル付けされた複数の商品画像を用いる学習によって生成された商品認識のための第1モデルと、複数の類似商品を含むグループのグループ識別情報とに基づき、商品の認識処理を行う第1認識部を1又は複数有する第1認識処理部と、前記複数の類似商品の商品画像を用いる学習によって生成された類似商品認識のための第2モデルに基づき、類似商品の認識処理を行う第2認識部を1又は複数有する第2認識処理部と、認識対象の第1商品画像を取得する画像取得部と、前記第1モデルを用いて前記第1商品画像の商品を認識した前記第1認識処理部から、認識された商品が前記類似商品であれば、前記類似商品を含むグループのグループ識別情報を取得し、認識された商品が前記類似商品でなければ、前記認識された商品の商品識別情報を取得する第1取得部と、前記グループ識別情報が取得された場合、前記第2モデルを用いて前記第1商品画像の商品を認識した前記第2認識処理部から、認識された商品の商品識別情報を取得する第2取得部と、前記第1取得部、又は前記第2取得部により取得された前記商品識別情報を出力する出力部と、を備える。
開示の技術によれば、商品画像から商品を認識する場合の認識精度を向上させることが可能となる。
本実施形態に係る認識システム1の概略構成を示す図である。 本実施形態に係る情報処理装置20のハードウェア構成の一例を示す図である。 本実施形態に係る学習装置104の機能構成の一例を示す図である。 画像補正の一例を示す図である。 本実施形態における認識装置106の機能構成の一例を示す図である。 類似商品の学習対象部分を示すための図である。 実施形態におけるシステムの全体処理の一例を示すフローチャートである。 実施形態における学習処理の一例を示すフローチャートである。 実施形態における認識処理の一例を示すフローチャートである。
以下、本発明の実施形態について図面を参照しつつ詳細に説明する。なお、同一の要素には同一の符号を付し、重複する説明を省略する。
A.本実施形態
本実施形態では、大型量販店やスーパーマーケットなどにおいて、商品画像から商品を認識するシステムを想定するが、商品を販売するあらゆる店舗(コンビニエンスストアや専門店など)にも適用可能である。また、商品の認識に限らず、撮像画像に含まれる物体を認識する場合にも適用可能である。以下、物体は、商品を例にして説明するが、これに限られるものではない。
(1)構成
<システム構成>
図1は、本実施形態に係る認識システム1の概略構成を示す図である。図1に示すように、認識システム1は、第1撮像装置102と、学習装置104と、認識装置106と、第2撮像装置108とを有する。また、上述した装置の全部又は一部は、通信ネットワークを介して相互通信可能に接続されている。通信ネットワークは、例えば、インターネット、LAN、専用線、電話回線、企業内ネットワーク、移動体通信網、Bluetooth(登録商標)、WiFi(Wireless Fidelity)、その他の通信回線、それらの組み合わせ等のいずれであってもよく、有線であるか無線であるかを問わない。なお、認識システム1は、第1撮像装置102と学習装置104とを学習フェーズの第1システム、認識装置106と第2撮像装置108とを認識フェーズの第2システムとして構成してもよい。
第1撮像装置102は、任意の角度から商品を撮像可能な装置である。撮像された商品画像は、学習装置104に送信される。また、第1撮像装置102は、任意の角度から撮像できなくても、ユーザが任意の角度から撮像するようにしてもよい。第1撮像装置102は、学習装置104が、任意の角度から商品を認識可能な三次元モデルを作成することができるように、様々な角度から商品を撮像し、大量の撮像画像を取得するようにしてもよい。例えば、学習装置104により三次元モデルが生成される場合、一例として、一商品につき約500枚の撮像画像が撮像される。
学習装置104は、第1撮像装置102から複数の商品の撮像画像(商品画像)を取得し、例えば複数の撮像画像に対して学習を行い、商品認識を行うための学習モデルを生成する。本実施形態の学習では、例えば、大量の商品を精度よく学習するため、ディープラーニング(深層学習)を用いることが好適であるが、これに限られない。学習装置104は、所定の商品数を単位にして学習モデルを生成する学習部を有する。例えば、1つの学習部で1万個の商品に対する学習モデルが生成される。学習部は、GPU(Graphics Processing Unit)などにより構成されうる。また、学習される商品画像には、商品ごとに商品識別情報(以下、「商品ID」とも称す。)が正解としてラベル付けされ、必要に応じて画像の補正が行われる。商品IDは、例えばJANコードである。
また、学習装置104は、類似する商品をグループ化した類似商品リストを作成する。類似商品リストについて、類似する商品の商品IDがグループ化され、グループごとにグループ識別情報(以下、「グループID」とも称す。)が付与される。類似する商品は、例えば、商品同士の画像の類似度が閾値以上であることを用いて自動で特定することが可能である。学習装置104は、学習した単位ごとに、生成された学習モデルと、類似商品リストとを、認識装置106に出力する。また、学習装置104は、類似する商品の類似部分に対して機械学習、好ましくは深層学習を行い、類似商品用の学習モデルを生成する。学習装置104の詳細な機能については、図3を用いて説明する。
認識装置106は、学習装置104の学習単位ごとに認識部を有しており、各認識部は、学習モデルと、類似商品リストとを記憶する。例えば、認識部は、GPUとCPU(Central Processing Unit)との組み合わせにより構成されうる。認識装置106は、第2撮像装置108から取得した対象商品の商品画像に対して、一次認識処理を行う。認識装置106は、複数の認識部を用いて認識された商品の商品IDを取得する。認識装置106は、取得した商品IDが類似商品リストに含まれていれば、類似商品用の二次認識処理を行い、より精度の高い商品認識を行う。認識装置106の詳細な機能については、図5を用いて説明する。
第2撮像装置108は、例えばカメラであり、商品を撮像し、撮像画像を認識装置106に出力する。第2撮像装置108は、例えばレジにおいて商品を撮像するために用いられたり、棚に陳列された商品を管理するために用いられたりする。
<ハード構成>
図2は、本実施形態に係る情報処理装置20のハードウェア構成の一例を示す図である。情報処理装置20は、学習装置104又は認識装置106のハードウェアとして実装可能である。図2に示すように、情報処理装置20は、プロセッサ202と、メモリ204と、ストレージ206と、入出力インタフェース(入出力I/F)208と、通信インタフェース(通信I/F)210とを含む。情報処理装置200のHWの各構成要素は、例えばバスBを介して相互に接続される。
情報処理装置20は、プロセッサ202と、メモリ204と、ストレージ206と、入出力I/F208と、通信I/F210との協働により、本実施形態に記載される機能、及び/又は方法を実現する。
プロセッサ202は、ストレージ206に記憶されるプログラムに含まれるコードまたは命令によって実現する機能、および/または、方法を実行する。プロセッサ202は、例えば、中央処理装置(CPU)、MPU(Micro Processing Unit)、GPU、マイクロプロセッサ(microprocessor)、プロセッサコア(processor core)、マルチプロセッサ(multiprocessor)、ASIC(Application-Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等を含む。
メモリ204は、ストレージ206からロードしたプログラムを一時的に記憶し、プロセッサ202に対して作業領域を提供する。メモリ204には、プロセッサ202がプログラムを実行している間に生成される各種データも一時的に格納される。メモリ204は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)などを含む。
ストレージ206は、プロセッサ202により実行されるプログラム等を記憶する。ストレージ206は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、 フラッシュメモリなどを含む。
入出力I/F208は、情報処理装置20に対する各種操作を入力する入力装置、および、情報処理装置20で処理された処理結果を出力する出力装置を含む。入出力I/F208は、入力装置と出力装置が一体化していてもよいし、入力装置と出力装置とに分離していてもよい。
入力装置は、ユーザからの入力を受け付けて、当該入力に係る情報をプロセッサ202に伝達できる全ての種類の装置のいずれか、または、その組み合わせにより実現される。入力装置は、例えば、タッチパネル、タッチディスプレイ、キーボード等のハードウェアキーや、マウス等のポインティングデバイス、カメラ(画像を介した操作入力)、マイク(音声による操作入力)を含む。
出力装置は、プロセッサ202で処理された処理結果を出力することができる全ての種類の装置のいずれか、または、その組み合わせにより実現される。当該処理結果を映像、および/または、動画像として出力する場合、出力装置は、フレームバッファに書き込まれた表示データに従って、当該表示データを表示することができる全ての種類の装置のいずれかまたはその組み合わせにより実現される。出力装置は、例えば、タッチパネル、タッチディスプレイ、モニタ(例えば、液晶ディスプレイ、OELD(Organic Electroluminescence Display)など)などに画像やテキスト情報等を表示可能な装置、スピーカ(音声出力)などを含む。
通信I/F210は、ネットワークを介して各種データの送受信を行う。当該通信は、有線、無線のいずれで実行されてもよく、互いの通信が実行できるのであれば、どのような通信プロトコルを用いてもよい。通信I/F210は、ネットワークを介して、他の情報処理装置との通信を実行する機能を有する。通信I/F210は、各種データをプロセッサ202からの指示に従って、他の情報処理装置に送信する。また、通信I/F210は、他の情報処理装置から送信された各種データを受信し、プロセッサ202に伝達する。
本実施形態のプログラムは、コンピュータに読み取り可能な記憶媒体に記憶された状態で提供されてもよい。 記憶媒体は、「一時的でない有形の媒体」に、プログラムを記憶可能である。プログラムは、例えば、ソフトウェアプログラムやコンピュータプログラムを含む。
情報処理装置20における処理の少なくとも一部は、1以上のコンピュータにより構成されるクラウドコンピューティングにより実現されていてもよい。情報処理装置20における処理の少なくとも一部を、他の情報処理装置により行う構成としてもよい。この場合、プロセッサ202により実現される各機能部の処理のうち少なくとも一部の処理を、他の情報処理装置で行う構成としてもよい。
<学習装置の機能構成>
図3は、本実施形態に係る学習装置104の機能構成の一例を示す図である。図3に示す例では、学習装置104は、画像補正部302と、深層学習部304とを有する。画像補正部302及び深層学習部304は、例えば図2に示すプロセッサ202や作業領域としてのメモリ204などにより実現されうる。
画像補正部302は、必要に応じて、第1撮像装置102から取得した商品画像に対し、補正処理を行う。補正処理は、商品画像から、商品部分の画像を切り出し、商品の部分画像にJANコードなどの商品識別情報を学習の正解としてラベル付けすることを含む。また、補正処理は、背景を補正すること、手の画像を付与すること、他の商品と組み合わせることなどを含んでもよい。画像補正部302は、補正後の画像を深層学習部304に出力する。
(画像補正の例)
ここで、本実施形態における画像補正の例について説明する。図4は、画像補正の一例を示す図である。商品画像A1は、撮像された商品画像から商品部分が切り出された部分画像(以下、「部分画像A1」とも称す。)である。
画像C1〜C3は、部分画像A1に異なる背景色を組み合わせた商品画像である。例えば、画像C1は、部分画像A1に黒の背景色を組みあわせた例である。画像C2は、部分画像A1に赤の背景色を組み合わせた例である。画像C3は、部分画像A1に緑の背景色を組み合わせた例である。これにより、撮像された商品画像の背景が任意の色であったとしても、適切に商品を認識させることができ、認識精度の向上を図ることができる。
画像H1〜H3は、部分画像A1に手の画像を組み合わせた商品画像である。例えば、画像H1は、部分画像A1の下部を手が保持している例である。画像H2は、部分画像A1の中間を手が保持している例である。画像H3は、部分画像A1の上部を手が保持している例である。これにより、撮像された商品画像に手の画像を組み合わせることで、ユーザが手に商品を持っている状態で商品が撮像されても、適切に商品を認識させることができ、認識精度の向上を図ることができる。
画像P1〜P3は、部分画像A1に他の商品画像を組み合わせた商品画像である。例えば、画像P1は、部分画像A1に他の商品(例えば、「商品M」とする。)2つを組み合わせた例である。画像P2は、部分画像A1に他の商品(以下、「商品N」とする。)2つを組み合わせた例である。画像P3は、部分画像A1に商品M1つと商品N1つとを組み合わせた例である。これにより、撮像された商品画像に他の商品画像が含まれていたとしても、適切に商品を認識させることができ、認識精度の向上を図ることができる。
上述したとおり、画像補正部302により画像の補正が行われることで、事前に様々な撮像時の場面を想定して学習モデルを作成しておくことができる。これにより、異なる場面で商品が撮像された場合でも、商品の認識精度の向上を図ることができる。
図3に戻り、深層学習部304は、画像補正部302から取得した商品画像に対して、ディープラーニング(深層学習)を行い、商品認識のための学習モデルを生成する。深層学習部304は、例えば、GPU制御部310と、複数の学習部(1,2,3,…)を含む学習処理部312とを有する。各学習部は、例えばGPUにより実現されうる。
GPU制御部310は、各学習部の学習を制御する。上述したように、各学習部は、例えば1万個の商品の商品画像が入力され、学習モデル(以下、「第1モデル」とも称す。
)をそれぞれ生成する。生成された学習モデルには、類似商品リストが付与される。類似商品リストは、深層学習部304が、商品画像同士の類似度などを用いて類似商品を判別し、類似商品をグループ化し、グループにグループIDを付与することで生成可能である。
また、GPU制御部310は、類似商品の商品画像のうち、他の商品と類似する部分を用いて、学習部に深層学習を実行させる。学習処理部312は、類似商品の部分画像を用いて、類似商品用の学習モデル(以下、「第2モデル」とも称す。)を生成する。類似商品の部分画像には商品IDがラベル付けされている。GPU制御部310は、各学習部により生成された各第1モデル、又は学習処理部312により生成された第2モデルを、認識装置106に出力する。
<認識装置の機能構成>
図5は、本実施形態における認識装置106の機能構成の一例を示す図である。図5に示す例では、認識装置106は、第1制御部502と、第1認識処理部504と、第2認識処理部506とを有する。第1制御部502と、第1認識処理部504と、第2認識処理部506とは、例えば図2に示すプロセッサ202や作業領域としてのメモリ204などにより実現されうる。
第1制御部502は、画像取得部512と、第1取得部514と、判定部516と、第2取得部518と、出力部520とを有する。画像取得部512は、第2撮像装置108から認識対象の第1商品画像を取得する。画像取得部512は、取得した第1商品画像を第1認識処理部504に出力する。
第1認識処理部504は、各商品の商品識別情報がラベル付けされた複数の商品画像を複数用いる学習によって生成された商品認識のための第1モデルと、複数の類似商品を含むグループのグループIDとに基づき、商品の認識処理を行う認識部を複数有する。各認識部は、GPUとCPUとの組み合わせにより実現されてもよい。また、各認識部は、ソフトウエア上で実現されてもよく、この場合、1つのGPUに複数の認識部を実行させることが可能であり、GPUを増加することで、処理能力を拡張することができる。また、実行させる認識部の数が制御可能になる。
なお、各認識部は、取得した第1商品画像に対し、自身が保持する第1モデルを用いて認識処理(一次認識処理)を行う。各認識部は、認識結果として、第1商品画像に一番近い商品の商品IDと、その類似度とを取得する。このとき、商品IDが類似商品リストに含まれる場合、商品IDを含むグループのグループIDが認識結果に含まれる。類似度は、例えば画像同士の二乗誤差などの公知の類似度が用いられればよい。第1認識処理部504は、類似度が一番大きい商品ID又はグループIDを第1取得部514に出力する。
第1取得部514は、第1認識処理部504から、認識された商品が類似商品であれば、類似商品のグループIDを取得し、認識された商品が類似商品でなければ、認識された商品の商品IDを取得する。例えば、第1取得部514は、各認識部により出力された認識結果内で、類似度が一番大きい商品ID又はグループIDを第1認識処理部504から取得する。
判定部516は、第1取得部514により取得されたIDは、商品IDであるかグループIDであるかを判定する。判定部516は、判定結果が商品IDであれば、出力部520に商品IDを出力する。また、判定部516は、判定結果がグループIDであれば、商品画像を第2認識処理部506に出力する。
第2認識処理部506は、複数の類似商品の商品画像を用いる学習によって生成された類似商品認識のための第2モデルに基づき、類似商品の認識処理(二次認識処理)を行う第2認識部534(認識部X1,X2,・・・)を1又は複数有する。また、第2認識処理部506は、類似商品用の認識部を制御する第2制御部532を有する。第2制御部532は、各認識部から認識結果を取得する。認識結果は、商品IDや、商品認識が適切に行われなかったときのエラーを示す情報(以下、「エラー情報」とも称す。)を含む。
(類似商品用の学習対象)
ここで、図6は、類似商品の学習対象部分を示すための図である。図6に示す例では、各商品S1〜S3は、各部分画像R102,R104,R106以外はほぼ同じである。これらの商品S1〜S3は、類似商品として、1つのグループに割り当てられ、グループIDが付与される。第2認識部534は、例えば各部分画像R102,R104,R106を用いて学習された学習モデルを有する。
このとき、第2制御部532は、認識対象の第1商品画像について、グループIDなどから商品のどの部分が類似するかを特定し、類似する部分の部分画像を切り出す。第2認識部534は、認識対象の部分画像と、第2モデルとを用いて商品認識を行い、類似度が一番大きい商品の商品IDと、類似度とを認識結果に含める。これにより、類似商品用の第2認識部534は、部分画像を用いて認識処理を行うことができ、すなわち、特徴が表れる部分を用いて認識処理を行うことができ、認識精度をさらに向上させることができる。
図5に戻り、第2制御部532は、類似度が所定の閾値未満であれば、エラー情報を第2取得部518に出力し、類似度が所定の閾値以上であれば、一致している商品IDを第2取得部518に出力する。例えば、類似度が所定の閾値未満になる場合とは、部分画像が手などによって隠されており、適切な認識処理が実行されずに類似度が低下する場合などである。このとき、適切な認識処理が実行されないので、第2制御部532は、エラー情報を返すようにする。
第2取得部518は、第2認識処理部506から、類似商品の認識結果を取得する。認識結果には、商品ID又はエラー情報が含まれる。第2取得部518は、商品ID又はエラー情報を出力部520に出力する。
出力部520は、第1取得部514、又は第2取得部518により取得された商品ID又はエラー情報を出力する。例えば、出力部520は、認識装置106をレジ装置とした場合、精算部(不図示)に商品IDを出力することで、商品IDに対応する金額が表示されたり、利用者の支払金額に加算されたりする。また、出力部520は、出力装置にエラー情報を出力し、アテンダントを呼ぶようにしてもよい。これにより、認識できなかった商品については、アテンダントが通常通りスキャン装置等を用いて商品を認識することができるようになる。
(2)動作説明
次に、実施形態に係る認識システム1の動作について説明する。
<システムの全体処理>
図7は、実施形態におけるシステムの全体処理の一例を示すフローチャートである。図7に示す例では、認識システム1において、ステップS102で、第1撮像装置102は、学習対象の商品の商品画像を撮像する。後段の処理である学習において3次元モデルが作成できるように、様々な角度から商品が大量に撮像されるとよい。
ステップS104で、学習装置104は、第1撮像装置102から取得した多くの商品画像に対して、学習処理、例えば深層学習を実行する。
ステップS106で、認識装置106は、第2撮像装置108により撮像された商品画像に対して、学習装置104により学習されたモデルを用いて、商品を認識するための認識処理を実行する。これにより、撮像された商品画像から、深層学習を用いて生成されたモデルを用いて、商品を特定することができるようになる。
<学習処理>
次に、本実施形態における学習装置104の学習処理について説明する。図8は、実施形態における学習処理の一例を示すフローチャートである。
ステップS202で、画像補正部302は、第1撮像装置102から商品画像を取得する。
ステップS204で、画像補正部302は、取得した商品画像に対し、補正処理を行う。補正処理は、例えば、商品画像から、商品部分の画像を切り出し、商品の部分画像にJANコードなどの商品識別情報をラベル付けすることを含む。また、補正処理は、背景を補正すること、手の画像を付与すること、他の商品と組み合わせることなどを含んでもよい。
ステップS206で、深層学習部304は、画像補正部302から取得した商品画像に対して、ディープラーニング(深層学習)を行い、商品認識のための学習モデルを生成する。深層学習部304は、補正画像に対する一次学習と、類似商品の部分画像に対する二次学習とを実行する。
ステップS207で、深層学習部304は、学習されたモデルに、類似商品をグループ化した類似商品リストを含める。
これにより、補正後の画像に対して深層学習を行うことで、様々な撮像場面にも対応することができ、認識精度を向上させることができる。また、類似商品に対しては、特徴が表れる部分画像を切り出して、その部分画像を用いて深層学習を行うことで、異なる部分を重点的に用いた学習モデルを生成することができ、認識精度を向上させることができる。
<認識処理>
次に、本実施形態における認識装置106の認識処理について説明する。図9は、実施形態における認識処理の一例を示すフローチャートである。
ステップS302で、第2撮像装置108は、認識対象の商品を撮像し、第1商品画像を生成する。
ステップS304で、画像取得部512は、第2撮像装置108から認識対象の第1商品画像を取得する。
ステップS306で、第1認識処理部504は、各認識部(1、2、3、…)に第1商品画像を出力し、各認識部から認識結果を取得する。認識結果には、類似度が一番大きい商品の商品IDと、その類似度とが含まれる。また、各認識部は、類似度が一番大きい商品の商品IDが類似のグループ内に含まれる場合、このグループのグループIDを認識結果に含める。また、第1認識処理部504は、各認識結果に含まれる類似度の中で、一番大きい類似度を有する商品ID又はグループIDを特定する。
ステップS308で、第1取得部514は、第1認識処理部504からの認識結果を取得する。認識結果は、商品ID又はグループIDを含む。
ステップS310で、判定部516は、第1取得部514により取得されたIDが、商品IDであるかグループIDであるかを判定する。判定結果が商品IDであれば(ステップS310−NO)、処理はステップS318に進む。また、判定結果がグループIDであれば(ステップS310−YES)、処理はステップS312に進む。
ステップS312で、第2認識処理部506は、複数の類似商品の商品画像から商品を識別するための第2モデルを用いて、類似商品の認識処理を行う。このとき、第1商品画像から、特徴が表れる部分が部分画像として切り出されてもよい。特徴が表れる部分は、グループIDに関連付けて第2認識処理部506に保持されていてもよい。
ステップS314で、第2取得部518は、第2認識処理部506から、類似商品の認識結果を取得する。
ステップS316で、第2取得部518は、取得した認識結果に含まれる情報は、商品IDかエラー情報かを判定する。取得した情報が商品IDであれば(ステップS316−YES)、処理はステップS318に進み、取得した情報がエラー情報であれば(ステップS316−NO)、処理はステップS320に進む。
ステップS318で、出力部520は、第1取得部514、又は第2取得部518により取得された商品IDを出力する。
ステップS320で、出力部520は、エラー情報を出力する。
これにより、通常の商品認識処理と、特徴部分が表れる部分画像を用いての商品認識処理とを含む2段階の認識処理を実行することが可能になり、商品の認識精度を向上させることができる。
以上説明したように、本実施形態に係る認識システム1によれば、学習段階では、予め商品画像が類似する商品についてはグループ分けをしておき、特徴が表れる部分画像を用いての学習処理を実行しておくことができる。認識段階では、商品画像を用いての一次認識処理と、一次認識処理では適切に商品を認識できない場合に、類似商品における部分画像を用いての二次認識処理とを行うことで、認識精度を向上させることができる。
また、学習段階において、商品画像に対して商品部分の部分画像を切り出し、この部分画像に様々な背景を組み合わせて学習をさせることで、認識対象の商品が様々な状況で撮像された場合でも、適切に商品認識を行うことができる。
B.その他
なお、本発明は、上述した実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内において、他の様々な形で実施することができる。このため、上記実施形態はあらゆる点で単なる例示にすぎず、限定的に解釈されるものではない。例えば、上述した各処理ステップは処理内容に矛盾を生じない範囲で任意に順番を変更し、または並列に実行することができる。
また、上述した本実施形態では、商品を認識するシステムを例にして説明したが、撮像された画像から物体を識別するシステムにも同様に適用することができる。例えば、顔認証や、指紋認証などの生態認証にも適用可能である。
また、上述した本実施形態では、認識システム1は、リアルタイムのレジシステムに適用可能である。例えば、第2撮像装置108で撮像された商品画像を、認識装置106は、各認識部で並列処理して商品を認識する。認識された商品の商品IDを用いて商品の価格を特定することが可能である。また、各学習部により生成された学習モデルは、必要なものだけを、認識装置106に送信することができる。これにより、或る店舗では品数が少ない場合、不必要なモデルの送付を防止し、処理負荷を減らすことができる。
また、上述した本実施形態では、認識装置106を店舗に1つ備え、第2撮像装置108を備えるレジ装置を複数備える場合でも適用でき、認識装置106は、各レジ装置から商品画像を取得して、商品ID、又は商品IDに関連付けられた価格をレジ装置に返す。これにより、認識システム1が店舗に導入される際の導入コストを減らすことができる。
また、上述した本実施形態では、認識装置106は、店舗内の装置であることを例にしたが、認識装置106をクラウドサーバ側に設置し、クライアント側では、第2撮像装置108をレジ装置などに実装しても上述した処理を実行することができる。
1…認識システム、20…情報処理装置、102…第1撮像装置、104…学習装置、106…認識装置、108…第2撮像装置、202…プロセッサ、204…メモリ、206…ストレージ、208…入出力I/F、210…通信I/F、302…画像補正部、304…深層学習部、310…GPU制御部、312…学習処理部、502…第1制御部、504…第1認識処理部、506…第2認識処理部、512…画像取得部、514…第1取得部、516…判定部、518…第2取得部、520…出力部、532…第2制御部、534…第2認識部。

Claims (7)

  1. 各商品の商品識別情報がラベル付けされた複数の商品画像を用いる学習によって生成された商品認識のための第1モデルと、複数の類似商品を含むグループのグループ識別情報とに基づき、商品の認識処理を行う第1認識部を1又は複数有する第1認識処理部と、
    前記複数の類似商品の商品画像を用いる学習によって生成された類似商品認識のための第2モデルに基づき、類似商品の認識処理を行う第2認識部を1又は複数有する第2認識処理部と、
    認識対象の第1商品画像を取得する画像取得部と、
    前記第1モデルを用いて前記第1商品画像の商品を認識した前記第1認識処理部から、認識された商品が前記類似商品であれば、前記類似商品を含むグループのグループ識別情報を取得し、認識された商品が前記類似商品でなければ、前記認識された商品の商品識別情報を取得する第1取得部と、
    前記グループ識別情報が取得された場合、前記第2モデルを用いて前記第1商品画像の商品を認識した前記第2認識処理部から、認識された商品の商品識別情報を取得する第2取得部と、
    前記第1取得部、又は前記第2取得部により取得された前記商品識別情報を出力する出力部と、
    を備える情報処理装置。
  2. 前記第1モデルは、前記商品画像内の商品部分の画像と、複数の背景画像のうちの任意の背景画像との組み合わせで学習されたモデルである、請求項1に記載の情報処理装置。
  3. 前記複数の背景画像は、色が異なる背景画像、手の画像、及び他の商品の画像のうち少なくとも1つを含む、請求項2に記載の情報処理装置。
  4. 前記第2モデルは、前記類似商品の商品画像内で、他の商品と類似する部分画像を用いて学習されたモデルである、請求項1から3のいずれか一項に記載の情報処理装置。
  5. 前記第1モデルは、任意の角度から商品を認識可能な3次元モデルを含む、請求項1から4のいずれか一項に記載の情報処理装置。
  6. 各商品の商品識別情報がラベル付けされた複数の商品画像を用いる学習によって生成された商品認識のための第1モデルと、複数の類似商品を含むグループのグループ識別情報とに基づき、商品の認識処理を行う第1認識部を1又は複数有する第1認識処理部と、
    前記複数の類似商品の商品画像を用いる学習によって生成された類似商品認識のための第2モデルに基づき、類似商品の認識処理を行う第2認識部を1又は複数有する第2認識処理部と、
    制御部と、を有する情報処理装置が実行する情報処理方法であって、
    前記制御部は、
    認識対象の第1商品画像を取得し、
    前記第1モデルを用いて前記第1商品画像の商品を認識した前記第1認識処理部から、認識された商品が前記類似商品であれば、前記類似商品を含むグループのグループ識別情報を取得し、認識された商品が前記類似商品でなければ、前記認識された商品の商品識別情報を取得し、
    前記グループ識別情報が取得された場合、前記第2モデルを用いて前記第1商品画像の商品を認識した前記第2認識処理部から、認識された商品の商品識別情報を取得し、
    取得された前記商品識別情報を出力する、情報処理方法。
  7. 各商品の商品識別情報がラベル付けされた複数の商品画像を用いる学習によって生成された商品認識のための第1モデルと、複数の類似商品を含むグループのグループ識別情報とに基づき、商品の認識処理を行う第1認識部を1又は複数有する第1認識処理部と、
    前記複数の類似商品の商品画像を用いる学習によって生成された類似商品認識のための第2モデルに基づき、類似商品の認識処理を行う第2認識部を1又は複数有する第2認識処理部と、
    制御部と、を有する情報処理装置に実行させるためのプログラムであって、
    前記制御部に、
    認識対象の第1商品画像を取得し、
    前記第1モデルを用いて前記第1商品画像の商品を認識した前記第1認識処理部から、認識された商品が前記類似商品であれば、前記類似商品を含むグループのグループ識別情報を取得し、認識された商品が前記類似商品でなければ、前記認識された商品の商品識別情報を取得し、
    前記グループ識別情報が取得された場合、前記第2モデルを用いて前記第1商品画像の商品を認識した前記第2認識処理部から、認識された商品の商品識別情報を取得し、
    取得された前記商品識別情報を出力する、処理を実行させるプログラム。
JP2019006893A 2019-01-18 2019-01-18 情報処理装置、情報処理方法、及びプログラム Expired - Fee Related JP6695454B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019006893A JP6695454B1 (ja) 2019-01-18 2019-01-18 情報処理装置、情報処理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019006893A JP6695454B1 (ja) 2019-01-18 2019-01-18 情報処理装置、情報処理方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP6695454B1 true JP6695454B1 (ja) 2020-05-20
JP2020119001A JP2020119001A (ja) 2020-08-06

Family

ID=70682338

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019006893A Expired - Fee Related JP6695454B1 (ja) 2019-01-18 2019-01-18 情報処理装置、情報処理方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6695454B1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2022009782A1 (ja) 2020-07-10 2022-01-13

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5869988B2 (ja) * 2012-08-24 2016-02-24 富士フイルム株式会社 物品照合装置および方法並びにプログラム
JP6541226B2 (ja) * 2015-09-18 2019-07-10 Kddi株式会社 情報端末装置及びプログラム

Also Published As

Publication number Publication date
JP2020119001A (ja) 2020-08-06

Similar Documents

Publication Publication Date Title
US10936911B2 (en) Logo detection
US10650495B2 (en) High resolution style transfer
CN108229343B (zh) 目标对象关键点检测方法、深度学习神经网络及装置
US20190043216A1 (en) Information processing apparatus and estimating method for estimating line-of-sight direction of person, and learning apparatus and learning method
US10943363B2 (en) Image processing apparatus, and image processing method
US20130258198A1 (en) Video search system and method
US20170278057A1 (en) Information processing apparatus, shelf label management system, control method, and program
JP2016194834A (ja) 整合判定方法、整合判定プログラム、及び整合判定装置
US9305227B1 (en) Hybrid optical character recognition
US8958634B2 (en) Image processing device that displays retrieved image similar to target image
US10866633B2 (en) Signing with your eyes
US20160110909A1 (en) Method and apparatus for creating texture map and method of creating database
JP6695454B1 (ja) 情報処理装置、情報処理方法、及びプログラム
US11527067B2 (en) Electronic device, action instance generation method, and recording medium
US20230237687A1 (en) Product identification apparatus, product identification method, and non-transitory computer-readable medium
JP6623565B2 (ja) 棚割情報生成装置、棚割情報生成システム、棚割情報生成方法、撮像装置、およびプログラム
WO2018033952A1 (ja) パノラマ画像合成解析システム、パノラマ画像合成解析方法及びプログラム
JP7406878B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN113167568B (zh) 坐标计算装置、坐标计算方法和计算机可读记录介质
US9036874B2 (en) Image processing and recording system preidentifying and prestoring images with predetermined features and method thereof
US10706315B2 (en) Image processing device, image processing method, and computer program product
CN109313506B (zh) 信息处理装置、信息处理方法和程序
JP2017058657A (ja) 情報処理装置、制御方法、コンピュータプログラム及び記憶媒体
US12148023B2 (en) Processing apparatus, processing method, and non-transitory storage medium
WO2024166536A1 (ja) 推定プログラム、機械学習方法、推定装置、及び非一時的記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190405

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200319

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200330

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200421

R150 Certificate of patent or registration of utility model

Ref document number: 6695454

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees