JP7460633B2

JP7460633B2 - コンピュータビジョンを使用する複合視覚検査タスクの連携学習のためのシステムと方法

Info

Publication number: JP7460633B2
Application number: JP2021535943A
Authority: JP
Inventors: ダルムットーカルロ; ペルッチフランチェスコ; オーアレクサンダー; ヘイズロバート
Original assignee: パックサイズリミティドライアビリティカンパニー
Priority date: 2018-12-19
Filing date: 2019-12-19
Publication date: 2024-04-02
Anticipated expiration: 2039-12-19
Also published as: EP3899784A4; WO2020132322A1; US11868863B2; US20230177400A1; CN113454638A; JP2022515768A; EP3899784A1; US11508050B2; US20200372625A1

Description

［関連出願へのクロス・リファレンス］
本出願は、２０１８年１２月１９日に米国特許商標庁において出願された米国仮特許出願第６２／７８２，１６３号の利益を主張し、その開示全体は、ここにおいて参照により組み込まれる。

本発明の実施形態の態様は、視覚検査タスクを自動化するためのコンピュータビジョン技術の使用を含む、視覚対象物検査の分野に関する。

視覚情報からの複合検査タスクは、製造および物流総合管理においては非常に一般的である。複合検査タスクは、多数（２つ以上）の単純検査タスクから構成されており、単純検査タスクは幾つかの論理で組み合わされる。例えば、製造環境において、製造された対象物を品質監視または品質制御のために検査するときは、対象物の幾つかの異なる特性を測定することができ、結果としての測定値は、対象物が全体として品質標準を満たしているかどうかを決定するためにそれらの品質標準と比較できる。例えば、靴製造の場合においては、特別な製造された靴を容認するか却下するかについての全体的な決定は、縫い目の一様性、縫い目の位置、ロゴや他のデザイン要素の整列、材質における欠陥（例えば穴および裂け目）などのような、靴の外部から見える態様を考慮する単純検査タスクの組み合わせに依存することができる。靴が品質制御をパスするか不合格となるかの複合的且つ全体的な決定は、靴がすべての単純検査タスクをパスすることを要求することなどのような、基盤となる単純検査タスクの組み合わせに依存する。

一般的には、そのような複合検査タスクは、人間の検査員により手動で行われ、検査員は製造された対象物を、特別な手順に従って評価する。

本発明の実施形態の態様は、対象物の視覚検査を自動的に実行し、検査結果を自動的に計算するためのシステムと方法に関する。

本発明の１つの実施形態によれば、自動視覚検査を実行するための方法は、複数のカメラを含んでいる走査システムを使用して、対象物の視覚情報を取り込むことと、プロセッサとメモリを含んでいるコンピューティングシステムにより、１つ又は複数の特徴抽出器を使用して、視覚情報から１つ又は複数の特徴マップを抽出することと、コンピューティングシステムにより、対象物の分類を計算するために、１つ又は複数の特徴マップを、それぞれが、対象物の特性を表現する出力を計算するように構成されている複数の単純分類子と、対象物の分類を計算するために、単純分類子の出力を組み合わせるように構成されている１つ又は複数の論理演算子を含んでいる複合分類子に供給することにより、対象物を分類することと、コンピューティングシステムにより、対象物の分類を、自動視覚検査の結果として出力することを含んでいる。

１つ又は複数の特徴抽出器は、１つ又は複数の畳み込みニューラルネットワークを含むことができる。

複数の単純分類子は、１つ又は複数のニューラルネットワークを含むことができる。

複数の単純分類子は、１つ又は複数のサポートベクトルマシンを含むことができ、少なくとも１つの論理演算は、１つ又は複数のニューラルネットワークの出力と、１つ又は複数のサポートベクトルマシンの出力を組み合わせるように構成できる。

複数の単純分類子は、回帰モデルを含むことができる。

複数の単純分類子は、テキスト検出を実行するように構成されている、ラベルに基づく分類子を含むことができる。

複数の単純分類子のそれぞれの単純分類子は、連携して訓練されている複数の閾値パラメータの対応する閾値パラメータにより構成できる。

閾値パラメータは、単純分類子を構成するために、複数の閾値パラメータのセットを選択するためにパラメータ空間をサンプリングすることと、複数の閾値パラメータのセットのそれぞれの閾値パラメータのセットに対して、真陽性率（ＴｒｕｅＰｏｓｉｔｉｖｅｒａｔｅ（ＴＰｒ））と偽陽性率（ＦａｌｓｅＰｏｓｉｔｉｖｅｒａｔｅ（ＦＰｒ））を、閾値パラメータのセットに基づいて単純分類子を構成することにより、複合分類子を構成し、構成された複合分類子にデータの検証セットを供給することにより、構成に対するＴＰｒとＦＰｒを計算することにより計算することと、構成パラメータのセットのそれぞれのセットに対して、ＴＰｒとＦＰｒに従って、構成パラメータの最も良好な実行セットを含んでいるパレートフロント（Ｐａｔｅｔｏｆｒｏｎｔ）（パレート最適（効率性）結果のセット）を識別することと、ドメインに従うルールセットに従って、パレートフロントから構成パラメータのセットを選択することにより連携して訓練できる。

視覚情報は、カラー画像、グレースケール画像、または深度マップを含むことができる。

視覚情報は、少なくとも１つの深度マップを含むことができる。

少なくとも１つの深度マップは、複数のカメラの深度カメラシステムにより撮像できる。

深度カメラシステムは、飛行時間型（ｔｉｍｅ－ｏｆ－ｆｌｉｇｈｔ）深度カメラと、構造化光深度カメラと、少なくとも２台のカラーカメラを含んでいるステレオ深度カメラ、少なくとも２台のカラーカメラとカラープロジェクタを含んでいるステレオ深度カメラ、少なくとも２台の赤外線カメラを含んでいるステレオ深度カメラ、または少なくとも２台の赤外線カメラ、赤外線プロジェクタ、およびカラーカメラを含んでいるステレオ深度カメラを含むことができる。

複数の単純分類子は、深度マップの数学的モデル化に基づく分類子を含むことができる。

１つ又は複数の特徴マップの特徴マップは、複数の単純分類子の少なくとも２つへの入力として提供できる。

対象物の分類は、複数の対象物のカテゴリの中の１つのカテゴリの識別を含むことができる。

対象物の分類は、視覚情報に基づく、対象物の１つ又は複数の特質の識別を含むことができる。

本発明の１つの実施形態によれば、視覚検査システムは、プロセッサとメモリを含んでおり、プロセッサは、上記の方法のステップを実行するように構成されている。

本発明の１つの実施形態によれば、コンピュータプログラムは、コンピュータにより実行されると、コンピュータに上記の方法のステップを実行させる命令を含んでいる。

本発明の１つの実施形態によれば、視覚検査システムは、複数のカメラを含んでいるスキャナシステムと、コンピュータネットワーク上でスキャナシステムに接続されているコンピューティングシステムを含んでおり、コンピューティングシステムは、プロセッサと、命令を格納しているメモリを含んでおり、命令は、プロセッサにより実行されると、プロセッサに、対象物の視覚情報を取り込むようにスキャナシステムを制御させ、１つ又は複数の特徴抽出器を使用して、視覚情報から１つ又は複数の特徴マップを抽出させ、コンピューティングシステムにより、対象物の分類を計算するために、１つ又は複数の特徴マップを、それぞれが、対象物の特性を表現する出力を計算するように構成されている複数の単純分類子と、対象物の分類を計算するために、単純分類子の出力を組み合わせるように構成されている１つ又は複数の論理演算子を含んでいる複合分類子に供給することにより、対象物を分類させ、コンピューティングシステムにより、対象物の分類を、対象物の自動視覚検査の結果として出力させる。

視覚検査システムは、段落［０００７］～［００２１］の上記の方法のステップを実行するように構成できる。

スキャナシステムは、少なくとも１台のカラーカメラを含むことができる。

スキャナシステムは、少なくとも１台の深度カメラを含むことができる。

視覚検査システムは更に、表示装置を含んでいるユーザ装置を含むことができ、ユーザ装置は、対象物の分類と、複数の単純分類子の少なくとも１つの単純分類子により計算された、対象物の少なくとも１つの特性を表示するように構成されている。

コンピューティングシステムは、分類に従って、対象物の動きの方向を変えるために搬送器システムを制御するように構成できる。

特許または出願ファイルは、カラーで作成された少なくとも１つの図面を含んでいる。カラー図面を有しているこの特許または特許出願の刊行物のコピーは、要求および必要な費用の支払いにより米国特許商標庁から提供される。

付随する図面は、明細書と共に、本発明の例としての実施形態を示しており、記述と共に、本発明の原理を説明する役割を果たしている。

本発明の１つの実施形態に係る、対象物を自動的に走査および検査するためのシステムの模式ブロックを示す図である。本発明の１つの実施形態に係る、対象物を走査し、検査結果を表示するための方法のフローチャートを示す図である。本発明の１つの実施形態に係る、深度カメラシステムのブロックを示す図である。アクティブステレオおよび少なくとも１台のカラーカメラを含む深度カメラにより取得される深度マップとカラー画像を含んでいるフレームのシーケンスの例を示す図である。三次元点群モデルの例の二次元ビューを示す図である。１台以上の深度カメラを使用して撮像された三次元メッシュモデルの例の二次元ビューを示す図である。本発明の１つの実施形態に係る、搬送器のベルト上の対象物を走査するように構成されている走査システムの模式図である。静止対象物（例えば、テーブル上の静止対象物）を走査するように構成されている、本発明の１つの実施形態に係る走査システムの模式図である。本発明の１つの実施形態に係る、２つの部分を有している搬送器のベルト上を移動している対象物（一足の靴として示されている）の模式図であり、２つの部分の第１部分は、対象物を第１方向に沿って移動し、第２部分は、対象物を、第１方向と直交する第２方向に沿って移動する。本発明の１つの実施形態に係る、目標対象物の画像を撮像し、目標対象物に対する記述子を生成するためのプロセスを例示している模式ブロック図である。本発明の１つの実施形態に係る解析システムのブロックを示す図である。本発明の１つの実施形態に係る、解析システムを使用して対象物の三次元モデルを解析することにより検査タスクを実行するための方法のフローチャートを示す図である。靴の縫い目を検査する複合検査タスクの例としての決定ツリーを示す図である。所与のパレットはＮＳＰ（ＮｏｎＳｔａｃｋａｂｌｅＰａｌｌｅｔ：積み重ね不可パレット）かどうかを決定するための、本発明の１つの実施形態に係る複合分類子の模式図である。本開示の１つの実施形態に係る、複合分類子の単純分類子の閾値の構成に対するＦＲｒとＴＰｒ値のパーレントフロントの視覚表現を示す図である。本発明の１つの実施形態に係る、複合分類子を訓練するための方法のフローチャートを示す図である。

下記の詳細な記述においては、本発明のある例としての実施形態のみが例として示され記述される。当業者であれば認識するように、発明は多くの異なる形状で具現化でき、ここにおいて記述される実施形態に制限されるとは解釈されるべきではない。明細書を通して、類似の参照番号は類似の要素を示している。

本発明の実施形態の態様は、視覚情報に基づく複合検査タスクを実行することに向けられている。視覚情報は、視覚取得システム（例えば、１つ又は複数のカメラ）を使用して取得でき、そのようなシステムにより収集された情報は、単純決定の組み合わせにより特徴付けられる検査タスクを解決するために処理される。

より詳細には、本発明の実施形態の態様は、視覚情報を取得し、複合視覚検査タスクを解決するために取得された視覚情報を処理するための自動システムと方法に関する。本発明の実施形態の幾つかの態様は、複合視覚検査タスクを解決するために視覚情報を処理することを連携して学習するように、機械学習システムを自動的に訓練するための機械学習技術のためのシステムと方法に向けられている。

ここにおいて使用されているように、「複合検査タスク」という用語は、複数（２つ以上）の単純検査タスクの組み合わせである検査タスクのことを指し示すために使用され、ここにおいて単純検査タスクは、幾つかの論理（例えば、ブールまたはバイナリ論理、演算、ファジー、．．．）（例えば、Ｋｌｉｒ，Ｇ．，＆Ｙｕａｎ，Ｂ．（１９９５）．ＦｕｚｚｙＳｅｔｓａｎｄｆｕｚｚｙｌｏｇｉｃ（ファジーセットとファジー論理）（Ｖｏｌ．４）．ＮｅｗＪｅｒｓｅｙ：ＰｒｅｎｔｉｃｅＨａｌｌ．参照）で組み合わされている。「視覚検査タスク」という用語は、ここにおいては、視覚情報を使用して評価される検査タスクを指し示すために使用され、複合視覚検査タスクは、視覚情報を使用して評価される複合タスクを指し示すことができる。ここにおいて使用されているように、「単純検査タスク」という用語は、人間が一貫性を持って、および高い信頼性を有して客観的且つ明確に評価できる検査タスク（例えば、曖昧さのほとんどない、またはまったくない検査タスク）を指し示すために使用されている。加えて、そのような「単純検査タスク」はまた「単純分類子」により評価または実行でき、ここにおいては、入力の予期される範囲において、入力の１つの特性を高精度且つ強固に記述する分類を出力するために、単純検査タスクを実行できる訓練された機械学習アルゴリズムを指し示すために使用されている。多数の単純分類子を、複合検査タスクを自動的に実行または評価するための「複合分類子」を作成するために論理演算子と組み合わせることができる。

１つの例は、製造された靴における縫い目の品質の検査である。そのような例としての検査タスクの出力は、パス（ＰＡＳＳ）値または失敗（ＦＡＩＬ）値であり、それは、縫い目の品質が容認できるか否かに依存し得る。そのようなタスクを実行する１つの方法は、靴のメーカーまたはブランド（１）、靴のモデル（２）、靴の色（３）、そして靴のサイズ（４）を特定し、そのようなパラメータ（造り、モデル、色、およびサイズ）を有するアイテムの予期される外観を検索し、縫い目の予期される外観を、視覚情報（５）からの実際の撮像された外観と比較することである。複合タスクのこの例は５つの単純タスクを含んでおり、それらは、製造された靴における縫い目の品質を検査する複合タスクに対するソリューションを得るために連携して解決される。靴ひもの穴の品質を検査することや、靴の甲革の表面の品質を検査することなどのような、追加的な検査タスクを追加することもできる。他の例としては、複合タスクは更に、解析されている対象物のカテゴリを識別することも含むことができ、それは、実質的に異種の環境の場合に有益であり得る。例えば、異種の製造ライン、または物流総合管理設備は、靴、ブーツ、スポーツ用品、衣類、食物、飲料などのような異なるタイプの品物の広い範囲を処理できる。

複合検査タスクの他の例は、物流総合管理の分野における積み重ね不可パレット荷物（ＮＳＰ）の複合検査タスクである。この場合、パレットに載せられた荷物は、その荷物がパレット上にあり（１）、下記の条件、つまり、（２）荷物の上部は安定していない、（３）荷物の外部にそれはＮＳＰであると特定する標識またはラベルがある、または（４）荷物の中身は壊れ易い（例えば、テレビ）の少なくとも１つが満たされればＮＳＰと呼ばれる。この複合タスクは４つの単純タスクを含んでおり、それらは、靴の例と同様に、複合タスクに対するソリューションを得るために連携して解決される。

これら２つの上記の例から推論できるように、複合検査タスクは、物流総合管理と製造分野の両者において非常に一般的である。

従来は、人間のオペレータに、そのような複合検査タスクに対するソリューションを決定する業務が課せられていたが、複合検査タスクに対するソリューションの自動計算のためのシステムと方法は、コストを削減すると共に、一貫性および信頼性を向上できる。

上記に注記したように、本発明の幾つかの実施形態は、コンピュータビジョン技術を視覚情報に適用することにより視覚検査タスクを実行することに関連し、ここにおいて視覚情報は、画像（例えば、二次元画像）、ビデオ（例えば、二次元画像のシーケンス）、または、三次元モデル（例えば、二次元画像から撮像または再構成される）などのような、より複合的な表現を含むことができる。

「視覚取得システム」という用語は、ここにおいては、視覚情報を取得するために使用されるシステムを指し示すために使用され、視覚取得システムは、１台以上のカメラ、照明システム、処理構成要素、および幾つかの入出力（Ｉ／Ｏ）構成要素を含むことができる。

本発明の幾つかの実施形態によれば、視覚情報が取得されると、視覚情報は、取得された視覚情報に基づいて複合検査タスクを評価するように訓練されている訓練済み機械学習モジュールを含むことができる解析エージェントにより自動的に処理される。解析エージェントはまた、複合検査タスクを実行するために、幾つかの手作業による（例えば、人間によりプログラムされる）発見的方法も使用できる。

複合タスク検査システム

図１Ａは、本発明の１つの実施形態に係る、対象物を自動的に走査および検査するためのシステムの模式ブロック図である。図１Ｂは、本発明の１つの実施形態に係る、対象物を走査し、検査結果を表示するための方法のフローチャートである。

図１Ａと１Ｂにおいて示されているように、１つの実施形態によれば、検査システム１は、三次元スキャナまたは走査システム９９を含んでおり、それは、動作５２０において、走査システム９９により取り込まれた対象物１０の画像を取り込むように構成されている。解析システム３００は、動作５３０において、取り込まれた視覚情報に基づいて対象物１０を検査する。視覚情報は、走査システムにより取り込まれた画像（例えば、モノクロまたはグレースケール、カラー、および深度マップ画像）を含むことができ、また、走査システム９９による対象物の取り込まれた画像に基づいて、三次元モデル生成モジュール２００により生成された三次元モデルも含むことができる。

そして、解析システム３００により生成された解析結果は、動作５４０においてユーザ装置４００に出力できる。本発明の幾つかの実施形態においては、ユーザ装置４００はプロセッサ４１０とメモリ４３０を含んでおり、メモリ４３０は、プロセッサ４１０を、対象物のアイデンティティや、解析結果または検査結果（例えば、対象物は複合検査タスクをパスしたかまたは失敗したか）などのような、走査された特別な対象物に関する情報（例えば、リスト）を維持するように制御する命令を格納している。ユーザ装置４００はまた、対象物１０は検査をパスしたかどうかを含む解析結果や、パスしなかった場合に、失敗の性質についての情報などのような情報をユーザに表示できる表示装置４５０を制御するためにも使用できる。

本発明の幾つかの実施形態においては、解析結果は、動作５４０において、環境における機械を制御するために出力される。例えば、製造環境において実現される幾つかの実施形態においては、特別な対象物が解析エージェント３００により検査されて、欠陥があると検出されると、出力は、製造環境内の搬送器システムまたは他のアクチュエータを、その欠陥アイテムを製造された品物の流れから除去する（例えば、その欠陥アイテムの向きを変えるように方向変更器を操作する）ように制御するために使用される。

視覚取得システム

本発明の実施形態の態様は、下記に制限されないが、解析されるアイテムが、それらの表面の色（または「テクスチャ」）と、対象物のサイズを含む幾何学的形状（同じアイテムまたは品物の異なる個体間にはあるばらつきがあり得るが）により特徴付けることができる状況に良好に適合している。本発明の多くの実施形態においては、情報のこのタイプの色と形状は、異なるアイテムの識別（例えば、同じ製造ラインにおいて存在し得る靴の異なるモードを識別すること）、および対象物の分類（例えば、検査を「パスした」、または「失敗した」、または、「積み重ね不可荷物」または「積み重ね可能荷物」などのような）を自動化するために使用できる。自動化された対象物識別システムの１つの構成要素は、幾何学的形状と色情報を取得できる三次元走査システムである。通常の品物の体積測定に関する性質のため、幾つかの実施形態においては、三次元走査が、異なる有利な視点における多数の三次元スキャナ１００からの情報を集積することにより実行される。従って、走査システム９９は、１台以上の三次元スキャナまたは深度カメラ１００を含むことができる。

本発明の実施形態の幾つかの態様は、対象物自身についての幾何学（形状）および／または色情報を収集することに関し、それは、対象物に関する多数の異なる有利な視点（姿勢）から可能である。対象物のこれらのビューを収集することは、基盤となっている対象物の包括的な検査を実行するためのデータを提供できる。対象物のビューを撮像するこの手順は、三次元走査または三次元モデル化と称されることもあり、それぞれが１台以上の深度カメラを含むことができる１台以上の三次元スキャナを含むことができる三次元モデル化システムを使用して効果的に達成できる。

三次元スキャナは、シーンの三次元モデルを、画像の１つ又は複数のストリームの形状における視覚情報から取得できるシステムである。１つの実施形態においては、三次元スキャナは対象物についての色情報を取得する１台以上のカラーカメラを含むことができる１台以上の深度カメラと、対象物についての幾何学的形状情報を取り込むための赤外線構造化光照明機と連携して使用できる１台以上の赤外線（ＩＲ）カメラを含んでいる。２台のＩＲカメラと１台のＩＲ構造化光照明機がある特別なケースは、アクティブステレオを呼ばれており、重なった視野を有する多数の深度カメラからの同時走査を可能にする。カラーおよび赤外線カメラは同期され、幾何学的に較正され、これらのカメラが、幾何学的整列を提供できる、カラー画像と深度マップから構成されるフレームのシーケンスを撮像することを可能にする。２台のＩＲカメラと、１台のＩＲ構造化光照明機と、１台以上のカラーカメラを含んでいる深度カメラの１つの例は、２０１７年６月６日に米国特許商標庁により発行された米国特許第９，６７４，５０４号の「ＤＥＰＴＨＰＥＲＣＥＰＴＩＶＥＴＲＩＮＯＣＵＬＡＲＣＡＭＥＲＡＳＹＳＴＥＭ（深度知覚三眼顕微鏡カメラシステム）」に記述されており、その開示の全体は、ここにおいて参照により組み込まれる。

本発明の幾つかの実施形態においては、「深度カメラ」としても知られている距離カメラ１００は、重なる視野を有している少なくとも２台の標準二次元カメラを含んでいる。より詳細には、これらの二次元カメラはそれぞれ、相補型金属酸化膜半導体（ＣＭＯＳ）イメージセンサ、または電荷結合素子（ＣＣＤ）イメージセンサなどのようなデジタルイメージセンサ、および光をイメージセンサ上に焦点を合わせるように構成されている光学システム（例えば、１つ又は複数のレンズ）を含むことができる。二次元カメラの光学システムの光軸は、わずかに異なる視点からであるが、２台のカメラが実質的に同じシーンの画像を取得するように実質的に平行であってよい。従って、視差により、カメラからより遠いシーンの部分は、２台のカメラで撮像された画像においては実質的に同じ場所に現れ、カメラにより近いシーンの部分は、異なる場所に現れる。

幾何学的に較正された深度カメラを使用すると、基準座標系（例えば、その原点を深度カメラの位置に有する座標系）に関して、対象物の表面上のすべての見える点の三次元位置を識別することが可能である。そのため、距離カメラ１００により撮像された距離画像または深度画像は、三次元点の「クラウド（群）」として表現でき、対象物の表面の部分を（深度カメラの視野内の他の表面と共に）記述するために使用できる。

図２は、本発明の１つの実施形態に係るステレオ深度カメラシステムのブロック図である。図２において示されている深度カメラシステム１００は、第１カメラ１０２、第２カメラ１０４、投影源１０６（または、照明源またはアクティブ投影システム）、およびホストプロセッサ１０８とメモリ１１０を含んでおり、ホストプロセッサは、例えば、グラフィックス処理ユニット（ＧＰＵ）、より汎用的なプロセッサ（ＣＰＵ）、適切に構成されたフィールドプログラマブルゲートアレイ（ＦＰＧＡ）、または特定用途向け集積回路（ＡＳＩＣ）であってよい。第１カメラ１０２と第２カメラ１０４は、それらの相対的位置と向きが実質的に固定されるように、例えばフレーム上に強固に取り付けることができる。第１カメラ１０２と第２カメラ１０４は、共に「深度カメラ」と称することができる。第１カメラ１０２と第２カメラ１０４は、対応するイメージセンサ１０２ａと１０４ａを含んでおり、対応する画像信号プロセッサ（ＩＳＰ）１０２ｂと１０４ｂもまた含むことができる。種々の構成要素は、システムバス１１２上で互いに通信できる。深度カメラシステム１００は、他の装置と通信するためのネットワークアダプタ１１６、深度カメラ１００の加速度を検出（例えば、向きを決定するために、重力の方向を検出）するためのジャイロスコープなどのような慣性測定ユニット（ＩＭＵ）１１８、および深度カメラシステム１００により収集且つ処理されたデータを格納するためのＮＡＮＤフラッシュメモリなどのような持続性メモリ１２０などのような追加的構成要素を含むことができる。ＩＭＵ１１８は、多くの現代のスマートフォンにおいて一般的に見出されるタイプのものであってよい。画像撮像システムはまた、ユニバーサルシリアルバス（ＵSＢ）インタフェースコントローラなどのような他の通信構成要素も含むことができる。

図２において示されているブロック図は、深度カメラ１００を、ホストプロセッサ１０８、メモリ１１０、ネットワークアダプタ１１６、ＩＭＵ１１８、および持続性メモリ１２０に結合されている２台のカメラ１０２と１０４を含んでいるように示しているが、本発明の実施形態はそれに制限されない。例えば、図６において示されている３台の深度カメラ１００（下記に、より詳細に記述される）がそれぞれ、カメラ１０２と１０４、投影源１０６、および通信構成要素（例えば、ＵＳＢ接続部またはネットワークアダプタ１１６）を単に含むことができ、３台の深度カメラ１００のカメラ１０２と１０４により撮像された二次元画像の処理は、それぞれの通信構成要素またはネットワークアダプタ１１６を使用して深度カメラ１００と通信状態にある共有プロセッサまたは共有されているプロセッサの集合体により実行できる。

幾つかの実施形態においては、カメラ１０２と１０４のイメージセンサ１０２ａと１０４ａは、ＲＧＢ－ＩＲイメージセンサである。可視光（例えば、赤－緑－青、またはＲＧＢ）と不可視光（例えば、赤外線またはＩＲ）情報を検出できるイメージセンサは、例えば、電荷結合素子（ＣＣＤ）または相補型金属酸化膜半導体（ＣＭＯＳ）センサであってよい。一般的に、従来のＲＧＢカメラセンサは、５０％の緑、２５％の赤、そして２５％の青の「ベイヤレイアウト」または「ＧＲＢＧレイアウト」で配置されている画素を含んでいる。帯域通過フィルタ（または「マイクロフィルタ」）が、ベイヤレイアウトに従って、緑、赤、および青の波長のそれぞれに対して、個々のフォトダイオードの前方（例えば、フォトダイオードと、カメラと関連付けられている光学機器との間）に置かれる。一般的には、従来のＲＧＢカメラセンサはまた、電磁スペクトルのＩＲ部分における信号を更に遮断する赤外線（ＩＲ）フィルタまたはＩＲカットオフフィルタ（例えば、レンズの一部として、または、イメージセンサチップ全体上のコーティングとして形成される）も含んでいる。

ＲＧＢ－ＩＲセンサは、従来のＲＧＢセンサに実質的に類似しているが、異なるカラーフィルタを含むことができる。例えば、ＲＧＢ－ＩＲセンサにおいては、４つのフォトダイオードのすべてのグループにおける緑フィルタの１つは、赤外線画素が可視光画素の中に混入されている、２５％の緑、２５％の赤、２５％の青、そして２５％の赤外線であるレイアウトを作成するために、ＩＲ帯域通過フィルタ（またはマイクロフィルタ）と置き換えられている。加えて、ＩＲカットオフフィルタをＲＧＢ－ＩＲセンサから省略することができ、ＩＲカットオフフィルタを、赤、緑、および青の光を検出する画素上のみに位置させることができ、またはＩＲフィルタを、特別な波長区間（例えば、８４０～８６０ｎｍ）における光と共に、可視光を通過させるように設計できる。電磁スペクトル（例えば、赤、青、緑、および赤外線の光）の多数の部分、または帯域、またはスペクトル帯域における光を捕捉できるイメージセンサは、ここにおいては、「マルチチャネルイメージセンサ」と称する。

本発明の幾つかの実施形態においては、イメージセンサ１０２ａと１０４ａは、従来の可視光センサである。本発明の幾つかの実施形態においては、システムは、１台以上の可視光カメラ（例えば、ＲＧＢカメラ）を含んでおり、それとは別個に、１台以上の不可視光カメラ（例えば、赤外線カメラであって、ＩＲ帯域通過フィルタが画素全体上にわたり位置している）を含んでいる。本発明の他の実施形態においては、イメージセンサ１０２ａと１０４ａは赤外線（ＩＲ）光センサである。

深度カメラ１００がカラーイメージセンサ（例えば、ＲＧＢセンサまたはＲＧＢ－ＩＲセンサ）を含んでいる幾つかの実施形態においては、深度カメラ１００により収集されたカラー画像データは、カラーカメラ１５０により取り込まれたカラー画像データを補完できる。加えて、深度カメラ１００がカラーイメージセンサ（例えば、ＲＧＢセンサまたはＲＧＢ－ＩＲセンサ）を含んでいる幾つかの実施形態においては、カラーカメラ１５０をシステムから省略できる。

一般的に言えば、ステレオ深度カメラシステムは、互いに間隔を空けて配置され、剛性フレームなどのような共有構造体に強固に搭載されている少なくとも２台のカメラを含んでいる。カメラは実質的に同じ方向（例えば、カメラの光軸は実質的に平行であってよい）を向いており、重なる視野を有している。これらの個々のカメラは、例えば、光をイメージセンサに向ける、またはそこに焦点を合わせるように構成されている光学システム（例えば、１つ又は複数のレンズを含んでいる）を有する相補型金属酸化膜半導体（ＣＭＯＳ）または電荷結合素子（ＣＣＤ）イメージセンサを使用して実現できる。光学システムは、例えば、光学システムが「広角レンズ」または「望遠レンズ」またはその間のレンズとして実現されているかどうかに基づいて、カメラの視野を決定できる。

下記の検討においては、深度カメラシステムの画像取得システムは、「マスタ」カメラと１台以上の「スレーブ」カメラと称することができる少なくとも2台のカメラを有していると称することができる。一般的に言えば、推定された深度または視差マップはマスタカメラの視点から計算されるが、何れのカメラもマスタカメラとして使用できる。ここにおいて使用されているように、マスタ／スレーブ、左／右、上方／下方、第１／第２、およびＣＡＭ１／ＣＡＭ２などのような用語は、注記しない限り、交換可能に使用される。言い換えれば、何れのカメラもマスタまたはスレーブカメラであることができ、右側のカメラに関してその左側にあるカメラに対する考察はまた、対称性により、他の方向においても適用できる。加えて、下記に提示される考察は、種々の数のカメラに対して有効であるが、便宜上、それらは、２台のカメラを含んでいるシステムの環境において一般的に記述される。例えば、深度カメラシステムは、３台のカメラを含むことができる。そのようなシステムにおいては、カメラの内の２台は不可視光（赤外線）カメラであってよく、３番目のカメラは可視光カメラ（例えば、赤／青／緑のカラーカメラ）であってよい。３台のカメラはすべて互いに対して光学的に位置合わせ（例えば、較正）できる。３台のカメラを含む深度カメラシステムの１つの例は、２０１６年５月５日に米国特許商標庁において出願された米国特許出願第１５／１４７，８７９号の「ＤｅｐｔｈＰｅｒｃｅｐｔｉｖｅＴｒｉｎｏｃｕｌａｒＣａｍｅｒａＳｙｓｔｅｍ（深度知覚三眼顕微鏡カメラシステム）」において記述されており、その開示の全体は、ここにおいて参照により組み込まれる。

カメラにより画像が取得されたシーンにおける特徴の深度を検出するために、深度カメラシステムは、カメラにより撮像された画像にそれぞれにおける特徴の画素位置を決定する。２つの画像における特徴間の距離は視差と称され、それは対象物の距離または深度と反比例関係にある。（これは、対象物を一度に片目で見るときに、対象物がどのくらい「シフト」するかを比較するときの現象であり、シフトの大きさは、対象物がそれを見る人の目からどのくらい遠くにあるかに依存し、より近い対象物はより大きくシフトし、より遠い対象物はより小さくシフトし、遠くにある対象物は、検出可能なシフトがほとんどないかまったくない）。視差を使用して深度を計算するための技術は、例えば、Ｒ．Ｓｚｅｌｉｓｋｉ．の「ＣｏｍｐｕｔｅｒＶｉｓｏｎ：ＡｌｇｏｒｉｔｈｍｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓ（コンピュータビジョン：アルゴリズムと適用）」，Ｓｐｒｉｎｇｅｒ，２０１０ｐｐ．４６７（以下参照）において記述されている。

マスタとスレーブカメラとの間の視差の大きさは、カメラの画素解像度、カメラ間の距離、およびカメラの視野などのような深度カメラシステムの物理特性に依存する。従って、精度の良い深度測定値を生成するために、深度カメラシステム（または深度知覚深度カメラシステム）は、これらの物理特性に基づいて較正される。

幾つかの深度カメラシステムにおいては、カメラを、カメラのイメージセンサの画素の水平方向の列が実質的に平行になるように配置できる。画像修正技術を、カメラのレンズの形状およびカメラの向きのばらつきによる画像の歪みを吸収するために使用できる。

より詳細には、カメラ較正情報は、等価カメラシステムのエピポーラ線が、修正された画像の走査線と整列するように入力画像を修正するための情報を提供できる。そのような場合においては、シーンにおける三次元点は、マスタおよびスレーブ画像における同じ走査線指標上に投影される。ｕ_ｍとｕ_ｓを、マスタおよびスレーブ等価カメラそれぞれにおける同じ三次元点ｐの画像の走査線上の座標とし、各カメラにおいては、これらの座標は、主要点（光軸と焦点面が交差する点）に中心が置かれた軸システムを指し示しており、水平軸は、修正された画像の走査線に平行であるとする。差ｕ_ｓ－ｕ_ｍは視差と呼ばれ、ｄで示され、それは、修正されたカメラに関する三次元点の直交距離（つまり、点の、何れかのカメラの光軸上への直交投影の長さ）に反比例する。

ステレオアルゴリズムは、視差のこの特質を利用する。これらのアルゴリズムは、左および右側のビューにおいて検出された点（または特徴）をマッチングすることにより三次元再構成を達成し、それは、視差を推定することと等価である。ブロックマッチング（ＢＭ）は、通常使用されるステレオアルゴリズムである。マスタカメラ画像における画素が与えられると、アルゴリズムは、この画素を、スレーブカメラ画像における任意の他の画素とマッチングさせるためのコストを計算する。このコスト関数は、マスタ画像における画素とスレーブ画像における画素を取り囲む小さなウィンドウ内の画像の内容間の非類似性として定義される。点における最適視差は、最終的には最小マッチングコストの引数として推定される。この手順は、普通は、ウィナー・テイクス・オール（Ｗｉｎｎｅｒ－Ｔａｋｅｓ－Ａｌｌ（ＷＴＡ））として対処される。これらの技術は、例えば、Ｒ．Ｓｚｅｌｉｓｋｉ．の「ＣｏｍｐｕｔｅｒＶｉｓｏｎ：ＡｌｇｏｒｉｔｈｍｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓ（コンピュータビジョン：アルゴリズムと適用）」，Ｓｐｒｉｎｇｅｒ，２０１０．おいてより詳細に記述されている。ＢＭのようなステレオアルゴリズムは、外観の類似性に依存しているので、スレーブ画像における２つ以上の画素が同じ局所的外観を有していると、これらの画素はすべてマスタ画像における同じ画素に類似する可能性があり、不明瞭な視差推定という結果になるので、視差の計算は難しくなる。これが起こり得る典型的な状況は、平坦な壁などのような、一定の明るさを有するシーンを視覚化するときである。

その開示の全体が、ここにおいて参照により組み込まれる、２０１６年７月１２日に発行された米国特許第９，３９２，２６２号の「ＳｙｓｔｅｍａｎｄＭｅｔｈｏｄｆｏｒ３－ＤＲｅｃｏｎｓｔｒｕｃｔｉｏｎＵｓｉｎｇＭｕｌｔｉｐｌｅＭｕｌｔｉ-ＣｈａｎｎｅｌＣａｍｅｒａｓ（多数のマルチチャネルカメラを使用する三次元再構築のためのシステムと方法）」に記述されているような、小さな三次元詳細を捕捉できるブロックマッチングアルゴリズムの性能を向上または最適化するために設計されているパターンを投影することにより追加的照明を提供する方法が存在する。他のアプローチは、シーンに対してテクスチャを提供し、特には、そうでなければ同じに見えるシーンの部分を明確にすることによりテクスチャのない領域の深度推定を向上するために単に使用されるパターンを投影する。

本発明の実施形態に係る投影源１０６は、可視光（例えば、人間および／または他の動物に見えるスペクトル内の光）または不可視光（例えば、赤外線光）を、カメラ１０２と１０４によりその画像が取得されるシーンに向けて出射するように構成できる。言い換えると、投影源は、カメラ１０２と１０４の光軸と実質的に平行な光軸を有することができ、カメラ１０２と１０４の視野の方向に光を出射するように構成できる。幾つかの実施形態においては、投影源１０６は、多数の別個の照明機を含むことができ、それぞれは、他の照明機（または複数の照明機）の光軸（または複数の光軸）から間隔をおいて配置され、およびカメラ１０２と１０４の光軸から間隔をおいて配置されている光軸を有している。

可視光投影源は、被写体の目の中に入り込んで、不快感を与えるように照らす可能性があり、または、シーンにパターンを追加することにより被写体の体験に望ましくない影響を与える可能性があるが、不可視光は、被写体の見る能力に干渉することはないので、不可視光投影源は、被写体が人間である状況（テレビ会議などのような）に対しては、より良好に適切であり得る。不可視光投影源を含んでいるシステムの例は、例えば、２０１５年６月３０日に米国特許商標庁において出願された米国特許出願第１４／７８８，０７８号の「ＳｙｓｔｅｍａｎｄＭｅｔｈｏｄｓｆｏｒＭｕｌｔｉ－ＣｈａｎｎｅｌＩｍａｇｉｎｇＢａｓｅｄｏｎＭｕｌｔｉｐｌｅＥｘｐｏｓｅＳｅｔｔｉｇｓ（多数の露光環境に基づくマルチチャネル画像取得のためのシステムと方法）」に記述されており、その開示の全体は、ここにおいて参照により組み込まれる。

アクティブ投影源はまた、例えば、時間の経過と共に変化しないパターンである静的パターン、および、例えば、時間の経過と共に変化するパターンである動的パターンを投影するものとして分類できる。両者の場合においては、パターンの１つの態様は、投影されたパターンの照明レベルである。これは、深度カメラシステムの深度ダイナミックレンジに影響を与え得るので適切であり得る。例えば、光学的照明が高いレベルの場合、深度測定を遠くの対象物に対して実行でき（例えば、距離の二乗に反比例する係数で、対象物までの距離に対して光学的照明が減少していくことを克服して）、および明るい周囲の光の条件において実行できる。しかし、高い光学的照明レベルは、クローズアップされたシーンの部分の飽和を引き起こし得る。一方、低い光学的照明レベルは、近くの対象物の測定を可能にできるが、遠くの対象物に対しては測定を可能にできない。

本発明の実施形態は、ステレオ深度カメラシステムに関してここにおいて記述されているが、本発明の実施形態は、それに制限されず、構造化光カメラ、飛行時間型カメラ、およびライダーカメラなどのような他の深度カメラシステムと共に使用することもできる。

カメラの選択により、三次元モデルを生成するために、異なる技術を使用できる。例えば、ＤｅｎｓｅＴｒａｃｋｉｎｇａｎｄＭａｐｐｉｎｇｉｎＲｅａｌＴｉｍｅ（ＤＴＡＭ）（リアルタイムの稠密追尾と環境地図作成）は、走査のためにカラーキューを使用し、ＳｉｍｕｌｔａｎｅｏｕｓＬｏｃａｌｉｚａｔｉｏｎａｎｄＭａｐｐｉｎｇ（ＳＬＡＭ）（自己位置推定と環境地図作成の同時実行）は、三次元モデルを生成するために深度データ（または、深度とカラーデータの組み合わせ）を使用する。

図３は、アクティブステレオと少なくとも１台のカラーカメラを含んでいる深度カメラにより取得された深度マップとカラー画像を含んでいるフレームのシーケンスの例である。図３において示されているように、上段の列は、テーブル上のブーツの４つのカラー画像を示しており、一方、下段の列は、カラー画像に対応する（例えば、カラー画像と同時に、またはほぼ同時に撮像された）深度マップを示している。下段の列において示されているように、深度カメラにより近いシーンの部分は黄色で示されており、より遠くのシーンの部分は青で示されている。従って、ブーツとテーブルは全体的に黄色で示されており、一方、背景において立っている人間を含む背景は青の色合いで示されている。注目対象物は、閾値よりも大きな深度を有する画素を除去する（例えば、図３の下段の列において示されている画像における青い画素を除去する）ことにより、そして、残っているモデルの底部の平坦表面も除去することにより背景から分離できる。

種々の角度で撮像された深度画像（例えば、図３の異なる列）は、ｉｔｅｒａｔｉｖｅｃｌｏｓｅｓｔｐｏｉｎｔ（ＩＣＰ）（反復最近接点）やｓｔｒｕｃｔｕｒｅｆｒｏｍｍｏｔｉｏｎ（ＳｆＭ）（運動からの構造復元）などのような技術により、対象物の三次元モデルを生成するために組み合わせることができる。三次元モデルは、点群（例えば、ｘ、ｙ、およびｚ座標を有する三次元点の集合）および／またはメッシュ（例えば、三角形の集合）として表現できる。

図４Ａは、三次元点群モデルの例の二次元ビューであり、図４Ｂは、１台以上の深度カメラを使用して撮像した三次元メッシュモデルの例の二次元ビューである。走査のためのシステムと方法の例は、例えば、２０１６年１２月１６日に米国特許商標庁において出願された米国特許出願第１５／３８２，２１０号の「３ＤＳＣＡＮＮＩＮＧＡＰＰＡＲＡＴＵＳＩＮＣＬＵＤＩＮＧＳＣＡＮＮＩＮＧＳＥＮＳＯＲＤＥＴＡＣＨＡＢＬＥＦＲＯＭＳＣＲＥＥＮ（画面から取り外し可能な走査センサを含む三次元走査装置）」、２０１７年２月２８日に米国特許商標庁において出願された米国特許出願第１５／４４５，７３５号の「ＡＳＳＩＳＴＥＤＳＣＡＮＮＩＮＧ（支援された走査）」、および２０１７年６月２２日に米国特許商標庁において出願された米国特許出願第１５／６３０，７１５号の「ＳＹＳＴＥＭＡＮＤＭＥＴＨＯＤＳＦＯＲＡＣＯＭＰＬＥＴＥ３ＤＯＢＪＥＣＴＳＣＡＮ（完全な三次元対象物走査のためのシステムと方法）」に記述されており、それらの開示の全体は、ここにおいて参照により組み込まれる

対象物の全三次元モデル（例えば、対象物のほぼすべての表面が遮蔽されていないモデル）を撮像するためには、走査されている対象物の表面上のすべての位置が、フレームの少なくとも１つで囲まれるように、そのようなフレームを異なる有利な視点の全体から取得する必要がある。幾つかの状況においては、対象物の底部の表面の画像を撮像することは実行不可であり得るので（例えば、搬送器のベルトなどのような支持体上にある対象物の表面）、従って、それに制限されることはないが、「全三次元モデル」という用語は、対象物の底部の表面が撮像されない状況も含むと仮定される。そのような情報を、視点の全体から取り込むことは、一般的には三次元モデル化システムのボトルネックであり、製造ライン上の搬送器のベルト上で移動している対象物の場合は特にそうである。そのような大量のデータを単一のスキャナから収集することは、一般的には、相対的に長い時間と、搬送器のベルトの動きを考慮するために、スキャナを移動可能な、動いている構成要素の利用が要求される。従って、本発明の幾つかの実施形態は、図５Ａ、５Ｂ、および６において示されているように、多数の深度カメラ（または、多数の三次元スキャナ）からのデータを収集することに関する。

図５Ａは、本発明の１つの実施形態に係る、搬送器のベルト上の対象物を走査するように構成されている走査システム９９の模式図である。図５Ｂは、静止している対象物（例えば、テーブル上の静止物）を走査するように構成されている、本発明の１つの実施形態に係る走査システムの模式図である。

図５Ａ、５Ｂ、および６において示されているように、走査システム９９は、多数の深度カメラ１００を含むことができる。深度カメラ１００のそれぞれは製造時に較正されており、それ自身の（二次元）カメラセンサの固有パラメータの推定値と、スキャナ内の付帯的なパラメータ（例えば、図２のイメージセンサ１０２ａと１０４ａなどのようなすべてのセンサ間の、および単一の深度カメラ１００のすべてのセンサ間の回転と平行移動）の推定値を得る。標準的なマルチカメラ較正手順の概観は、Ｚａｎｕｔｔｉｇｈ，Ｐ．らによるＴｉｍｅ－ｏｆ－ＦｌｉｇｈｔａｎｄＳｔｒｕｃｔｕｒｅｄＬｉｇｈｔＤｅｐｔｈＣａｍｅｒａ（飛行時間型および構造化光深度カメラ）．２０１６，Ｓｐｒｉｎｇｅｒにおいて見出すことができる。

カメラの配置の１つの例として、図６は、本発明の１つの実施形態に係る、２つの部分を有する搬送器のベルト１２上を移動する対象物１０（一足の靴として示されている）の模式図であり、搬送器のベルト１２の第１部分は対象物１０を第１方向に沿って移動し、第２部分は対象物１０を、第１方向とは直交する第２方向に沿って移動する。対象物１０が搬送器のベルト１２の第１部分１２ａに沿って移動するときに、第１カメラ１００ａは、上方から対象物１０の上部表面の画像を取得し、一方、第２および第３カメラ１００ｂと１００ｃは、対象物１０の側部の画像を取得する。この配置においては、対象物１０の端部の画像を取得することは、カメラを搬送器のベルトの動きの方向に沿っておく必要があり、そのため対象物１０の動きを妨害し得るので困難である可能性がある。そのため、対象物１０は、搬送器のベルト１２の第２部分１２ｂに移動でき、移動後はそこにおいて、対象物１０の端部が、搬送器のベルト１２の第２部分１２ｂの側部に位置しているカメラ１００ｄと１００ｅから見えるようになる。そのため、図６は、対象物１０の見える表面全体をカバーすることを可能にするカメラの配置の例を示している。

幾つかの実施形態においては、深度カメラ１００の付帯的なパラメータ（例えば、相対的な姿勢）は、他の較正ステップにおいて推定され、そのステップにおいては、較正目標（例えば、白黒の二次元チェッカーボードなどのような、識別可能且つ正確に検出可能な特徴を有する既知のサイズの対象物)が、三次元モデル化システムを構成するスキャナのそれぞれの間の相対的な回転と平行移動を検出するために、すべての深度カメラにより取得される。従って、付帯的パラメータは、対象物の撮像された三次元モデルを生成するように深度マップを融合するために、異なる深度カメラにより撮像された別個の深度マップ（例えば、三次元点群）に加えられ得る変形を計算または推定するために使用できる。

三次元走査のためのシステムと方法の例は、２０１８年１月９日に米国特許商標庁において出願された米国特許出願第１５／８６６、２１７号の「ＳＹＳＴＥＭＳＡＮＤＭＥＴＨＯＤＳＦＯＲＤＥＦＥＣＴＤＥＴＥＣＴＩＯＮ（欠陥検出のためのシステムと方法）」と、２０１８年５月８日に米国特許商標庁において出願された米国特許出願第１５／９７４、５９５号の「ＳＹＳＴＥＭＳＡＮＤＭＥＴＨＯＤＳＦＯＲＩＮＳ（登録商標）ＰＥＣＴＩＯＮＡＮＤＤＥＦＥＣＴＤＥＴＥＣＴＩＯＮＵＳＩＮＧ３－ＤＳＣＡＮＮＩＮＧ（三次元走査を使用する検査および欠陥検出のためのシステムと方法）」においてより詳細に記述されており、それらの開示の全体は、ここにおいて参照により組み込まれる。

三次元モデルの生成

深度画像が、異なる姿勢（例えば、目標対象物１０に関して異なる位置）で深度カメラ１００により撮像されると、別個の深度画像（点群として表わされている）１４を融合点群２２０に融合する、三次元モデル生成モジュール２００の点群融合モジュール２１０（図７参照）により単一の深度カメラにより取得され得る、目標対象物１０の表面のより大きな部分の形状に関するデータを取得することが可能である。例えば、対象物の反対側の表面（例えば、図７において示されているブーツの中央面と側面）の両者を取得でき、一方、単一姿勢の単一カメラは、一度に目標対象物の１つの面の深度画像を取得できるのみである。多数の深度画像は、単一の深度カメラを多数の異なる姿勢となるように動かすことにより、または、異なる場所に位置している多数の深度カメラを使用することにより撮像できる。深度画像（または点群）を融合することは追加的な計算を必要とし、特別な整列測定基準を最適化（例えば、最小化）することにより深度カメラの相対的姿勢を自動的に計算できる、ＩｔｅｒａｔｉｖｅＣｌｏｓｅｓｔＰｏｉｎｔ（ＩＣＰ）（反復最近接点）技術（例えば、Ｂｅｓｌ，ＰａｕｌＪ．，およびＮｅｉｌＤ．ＭｃＫａｙ．の「Ｍｅｔｈｏｄｆｏｒｒｅｇｉｓｔｒａｔｉｏｎｏｆ３－Ｄｓｈａｐｅｓ（三次元形状の位置合わせのための方法」．Ｒｏｂｏｔｉｃｓ－ＤＬｔｅｎｔａｔｉｖｅ．ＩｎｔｅｒｎａｔｉｏｎａｌＳｏｃｉｅｔｙｆｏｒＯｐｔｉｃｓａｎｄＰｈｏｔｏｎｉｃｓ，１９９２．参照）などのような技術を使用して達成できる。ＩＣＰプロセスは、カメラの近似初期相対姿勢を提供することにより加速化でき、それは、カメラが「位置合わせされている」場合（例えば、カメラの姿勢が既知であり、その姿勢が較正ステップとランタイム動作との間で変化しないとういう意味でほぼ固定されている場合）は利用可能である。対象物の見える表面のほぼすべてを撮像するためのシステムと方法は、例えば、２０１８年１月９日に米国特許商標庁において出願された米国特許出願第１５／８６６，２１７号の「ＳｙｓｔｅｍｓａｎｄＭｅｔｈｏｄｓｆｏｒＤｅｆｅｃｔＤｅｔｅｃｔｉｏｎ（欠陥検出のためのシステムと方法）」に記述されており、その開示の全体は、ここにおいて参照により組み込まれる。

多数の整列された個々の点群（個々の深度画像）を融合することにより得ることができる点群は、エラーのある測定値（例えば、測定ノイズ）による「外れ値」点を除去するために、または、背景の対象物に対応する表面などのような、関心のない構造物を（例えば、特別な閾値深度よりも大きな深度を有する点を除去することにより）除去するために、および対象物が位置している表面（または「基平面」）を（例えば、点の最も底部の平面を検出することにより）除去するために処理できる。

幾つかの実施形態においては、システムは更に、クエリ（検索が要求されている）対象物のテクスチャ（色）データ１６を取り込むように構成されている複数のカラーカメラ１５０を含んでいる。上記に注記したように、本発明の幾つかの実施形態においては、深度カメラは、深度カメラ１００が、別個のカラーカメラ１５０を使用する代わりに、カラーデータ１６６を提供するように、赤外線データとカラーカメラデータの両者を取り込むＲＢＧ－ＩＲセンサを使用できる。テクスチャデータは、対象物の物理形状において存在しない、または明白でない、対象物の表面上の色、濃淡、およびパターンを含むことができる。幾つかの状況においては、目標対象物の材料は光を反射する（例えば、光沢のある）材料である可能性がある。結果として、テクスチャ情報は、光のギラツキの存在のために失われる可能性があり、取り込まれた色情報は、シーン内の光源の反射などのような人工物を含む可能性がある。そのため、本発明の実施形態の幾つかの態様は、表面の実際の色データを取り込むために、光のギラツキを除去することに向けられている。幾つかの実施形態においては、これは、目標対象物の表面の同じ部分（または「パッチ（小さな箇所）」）の画像を多数の姿勢で取得することにより達成され、光のギラツキは、これらの姿勢の中の幾つかの少ない数の姿勢から見えるだけである。結果として、このパッチの実際の色は、カラーカメラのそれぞれに対してこのパッチと関連付けられているカラーベクトルを計算し、カラーベクトルの中で最小の大きさを有するカラーベクトルを計算することにより決定できる。この技術は、２０１７年８月１５日に米国特許商標庁において出願された米国特許出願第１５／６７９、０７５号の「ＳｙｓｔｅｍａｎｄＭｅｔｈｏｄｆｏｒＴｈｒｅｅ－ＤｉｍｅｎｓｉｏｎａｌＳｃａｎｎｉｎｇａｎｄｆｏｒＣａｐｔｕｒｉｎｇａＢｉｄｉｒｃｔｉｏｎａｌＲｅｆｌｅｃｔａｎｃｅＤｉｓｔｒｉｂｕｔｉｏｎＦｕｎｃｔｉｏｎ（三次元走査および双方向反射率分布関数を得るためのシステムと方法）」においてより詳細に記述されており、その開示の全体は、ここにおいて参照により組み込まれる。

幾つかの実施形態においては、点群は、三次元モデルを生成するために組み合わされる。図７は、本発明の１つの実施形態に係る、目標対象物の画像を撮像し、目標対象物に対する記述子を生成するためのプロセスを例示している模式ブロック図である。例えば、別個の点群１４は、融合された点群２２０を生成するために、点群融合モジュール２１０により融合される（例えば、点群を整列し融合するためにＩＣＰを使用することにより、また、ノイズを削減し、点群三次元モデルのサイズを管理するために、重要でない、または擬似の点を除去することにより）。幾つかの実施形態においては、メッシュ生成モジュール２３０は、ドロネー三角形分割（Ｄｅｌａｕｎａｙｔｒｉａｎｇｕｌａｔｉｏｎ）およびアルファシェイプなどのような技術と、ＭｅｓｈＬａｂ（例えば、Ｐ．Ｃｉｇｎｏｎｉ，Ｍ．Ｃａｌｌｉｅｒｉ，Ｍ．Ｃｏｒｓｉｎｉ，Ｍ．Ｄｅｌｌｅｐｉａｎｅ，Ｆ．Ｇａｎｏｖｅｌｌｉ，Ｇ．ＲａｎｚｕｇｌｉａＭｅｓｈＬａｂ：ａｎＯｐｅｎ－ＳｏｕｒｃｅＭｅｓｈＰｒｏｃｅｓｓｉｎｇＴｏｏｌ（オープンソースメッシュ処理ツール），ＳｉｘｔｈＥｕｒｏｇｒａｐｈｉｃｓＩｔａｌｉａｎＣｈａｐｔｅｒＣｏｎｆｅｒｅｎｃｅ，ｐａｇｅｓ１２９－１３６，２００８．参照）などのようなソフトウェアツールを使用して、融合された点群から三次元メッシュ２４０を計算する。三次元モデル（三次元点群モデル２２０または三次元メッシュモデル２４０）は、種々の点における対象物の表面に色についての、カラーカメラ１５０からの色情報１６と組み合わせることができ、この色情報は、テクスチャマップ（例えば、モデルの表面の色についての情報）として三次元点群または三次元メッシュモデルに適用できる。

解析エージェント

図１Ａのブロック図に戻って参照すると、本発明の幾つかの実施形態においては、１台以上の三次元スキャナ１００により取得された三次元モデルは、対象物自身についての１つ又は複数の特質を推定または計算するために、動作５３０において、入力データ（例えば、三次元モデルであり、幾つかの例においては、取得されたフレームのサブセット）を解析する、解析エージェントまたは検査システム３００に供給できる。対象物の特質の例としては、例えば、対象物は壊れ易いかどうか、対象物は危険な物質を含んでいるように見えるかどうかなどが含まれる。

一般的には、複合検査タスクは決定ツリーの形状において表現でき、決定ツリーにおいては、決定はバイナリかＫ値である。このことは、単純検査タスクは一般的には、バイナリ数（例えば、ゼロまたは１またはバイナリ分類子）、または、Ｋの異なるクラス（例えば、サイズＫの整数のセットにおける整数またはＫ値分類子）の中の決定、または、実数（例えば、［０，１］の区間における実数または浮動小数点値）の何れかである出力を生成するという事実に基づいている。第１の場合においては、単純検査タスクは、バイナリ分類タスクまたは決定タスクと言われ、第２の場合においては、単純検査タスクは、Ｋクラスの分類タスクであると言われ、第３の場合においては、単純検査タスクは、回帰タスクであると言われ、「回帰」という用語は、ここにおいては、出力が実数である数学的モデル化タスクに対する総称として非公式に使用されている。そのような「回帰」タスクの他の例としては、パラメトリック機能マッピング、機能的マッピング、およびファフィー論理が含まれる。

図８は、本発明の１つの実施形態に係る解析システムのブロック図である。図９は、本発明の１つの実施形態に係る解析システムを使用して、対象物の三次元モデルを解析することにより検査タスクを実行するための方法のフローチャートである。解析システム３００は、コンピュータシステムを使用して実現でき、コンピュータシステムはプロセッサとメモリを含むことができ、メモリは、プロセッサに、本発明の実施形態に係る方法の種々の部分を実行させる命令を格納している。

本発明の実施形態の種々のコンピュータ計算部分は、コンピュータシステムにより実行される特定目的のコンピュータ命令により実現できる。コンピュータシステムは、１つ又は複数の中央演算処理装置（ＣＰＵ）、１つ又は複数のグラフィックス処理ユニット（ＧＰＵ）、１つ又は複数のフィールドプログラマブルゲートアレイ（ＦＰＧＡ）、１つ又は複数のデジタル信号プロセッサ（ＤＳＰ）、および／または、ニューロモルフィックプロセッサなどのような１つ又は複数の特定用途向け集積回路（ＡＳＩＣ）、および「テンソル処理ユニット」（ＴＰＵ）、ベクトルプロセッサなどのようなニューラルネットワークを実現するように構成されている他の処理ユニットを含む、１つ又は複数のプロセッサを含むことができる。コンピュータシステムはまた、三次元走査システム、データ格納システム（例えば、データベース）、表示装置、および他のコンピュータシステムなどのような他の装置にデータを送信し、それらの装置からデータを受信するための通信装置（例えば、ネットワークアダプタ、シリアルまたはパラレルデータバスアダプタ、グラフィックスアダプタ）などのような周辺機器も含むことができる。コンピュータ計算は、多数の別個のコンピュータシステムにわたり分散でき、そのうちの幾つかは、クエリ対象物の走査に対して局所的（例えば、現場において、および深度とカラーカメラに直接接続されて、または、ローカルエリアネットワーク（ＬＡＮ）上で深度およびカラーカメラに接続されて）であることができ、そのうちの幾つかは、遠く離れていてもよい（例えば、インターネットなどのようなワイドエリアネットワークを通して、深度およびカラーカメラに接続されている、現場から離れている、「クラウド」に基づくコンピュータ計算リソース）。

本発明の幾つかの実施形態においては、処理はカメラにおいて（例えば、スキャナ１００の１つ又は複数のプロセッサとメモリにおいて）実行され、対象物解析結果（例えば、対象物分類）は、スキャナ１００により計算できる。本発明の幾つかの実施形態においては、異なるスキャナの個々の出力（例えば、異なる視覚情報）は、全体の対象物分類を計算するために一緒に組み合わせることができ、一緒に解析できる。本発明の幾つかの実施形態においては、カメラのグループは、グループの異なるスキャナ１００により撮像された画像に基づいて、解析結果を計算するために、１つ又は複数の局所プロセッサを共有できる。本発明の幾つかの実施形態においては、データ解析を局所的に実行することにより、ネットワークを介して送信されるデータ量が削減され（例えば、解析結果を送信することは、一般的には、深度マップまたは三次元モデルを送信するよりも帯域幅の負荷は少ない）、それにより、十分な帯域幅を提供するために機器をネットワークで繋ぐことにおいて大きな投資を必要とすることなく、環境を通して、より多数のカメラを分布することを可能にする。コンピュータ計算を局所処理装置と遠隔（または「オフライン」）処理装置との間で分布させるための幾つかの考察とシステムは、例えば、２０１７年１１月６日に米国特許商標庁において出願された米国特許出願第１５／８０５，１０７号の「ＳＹＳＴＥＭＡＮＤＭＥＴＨＯＤＦＯＲＰＯＲＴＡＢＬＥＡＣＴＩＶＥ３ＤＳＣＡＮＮＩＮＧ（携帯型アクティブ三次元走査のためのシステムと方法）」において記述されており、その開示の全体は、ここにおいて参照により組み込まれる。

便宜上、目標対象物の撮像された画像に基づいて、目標対象物を検査するために特定目的の動作を実行するための特別なコンピュータ命令を使用して構成されているコンピュータシステムは、ここにおいては、検査エージェントまたは検査システムの一部として称される。

図８において示されているように、解析システム３００は、特徴抽出器３１０、データ検索モジュール３３０、および三次元モデル解析モジュール３５０を含むことができる。動作９１０において、特徴抽出器３１０は、入力された三次元モデルから対象物特徴マップを生成し、データ検索モジュール３３０は、動作９３０において、対象物特徴マップに基づいて、対象物に対応するメタデータを検索する（例えば、データベースから）。三次元モデル解析モジュール３５０は、動作９５０において、入力された三次元モデルを解析（例えば、対象物特徴マップを解析）し、解析データを生成するために、検索されたデータを使用する。

図１０は、靴の縫い目を検査する複合検査タスクの例としての決定ツリー１０００を示したものである。本発明の種々の実施形態によれば、解析システム３００は、図１０において示されている例としての決定ツリー１０００などのような決定ツリーを、対象物に対して複合検査タスクを実行するためのプロセスの一部として実現できる。本開示の幾つかの実施形態においては、解析システムは、図８において示されている明確な別個のモジュールとステージの幾つかまたはすべての代わりに、そして、図９のフローチャートにおいて示されている動作の幾つかまたはすべての代わりに、図１０において示されている決定ツリーと類似する決定ツリーを実現する。

図１０において示されているように、所与の入力１００２（例えば、検査対象の特別な靴の視覚情報）に対して、例としての決定ツリー１０００の第１タスク１０１０は、靴の造りを識別することに関連している（例えば、Ｋ個の異なる造りの間のＫ値分類子）。造りのそれぞれは、対応する製造会社により生産された種々のモデルと関連付けることができる。従って、第２タスク１０２０は、特別なモデル（例えば、他のＫ値分類子）を識別することに関連し、第３タスク１０３０は、靴の色（例えば、他のＫ値分類子）を識別することに関連し、それに、第４タスク１０４０における靴のサイズを識別する（例えば、他のＫ値分類子、または有効靴サイズへの離散化を伴う回帰タスク）ことが続く、第５タスク１０５０において、下記により詳細に記述されるように、靴の容認できる縫い目の特性についてロードされた（例えば、データベースから）情報に基づいて、縫い目は容認できるかどうかを決定するために種々のステップからの情報が使用される。

図１０において示されているように、複合検査タスクの最終出力１０５２は、複合タスク１０００自身を構成するすべての単純検査タスク１０１０、１０２０、１０３０、１０４０、および１０５０の連携関数であり、従って、単に個々のタスク１０１０、１０２０、１０３０、１０４０、および１０５０を最適化することにより得ることができる非最適構成のリスクに陥ることなく、複合タスク１０００に対する最適ソリューションを得るための目標で、すべてのそのような単純タスク１０１０、１０２０、１０３０、１０４０、および１０５０の連携学習を実行することは望ましい。

一般性を失うことなく、且つ便宜上、下記の検討は、解析を、各単純タスクがバイナリ分類子であり、複合タスクの出力もまたバイナリ決定である場合に焦点を絞る。しかし、本開示の実施形態はそれに制限されない。（例えば、Ｋ値分類子は常にＫ個のバイナリ分類子の組み合わせとして表現できる）。バイナリ分類子の出力はＰＯＳＩＴＩＶＥ（検査対象の特徴が存在する）（以降、「陽性」と記述する）またはＮＥＧＡＴＩＶＥ（検査対象の特徴が存在しない）（以降、「陰性」と記述する）の何れかであり得る（あいにくこの用語は、検査対象の特徴が、実際は、欠陥の存在である欠陥検査タスクの場合は若干曖昧である。従って、この場合は、陽性結果は欠陥の存在の信号であり、陰性結果は、欠陥が存在しないことの信号である）。

バイナリ分類子の訓練は、通常は、教師有りの形式で実行され、つまり、テストの結果のグラウンドトゥルース値（例えば、人間の検査員により生成されたラベル）を入手可能なデータセット（訓練セット）が、推論または予測をどのように実行するかを学習するように分類子を訓練するために使用される。テストの結果のグラウンドトゥルース値を入手可能なデータを含む、ラベルが付けられたデータの互いに素のセット（テストセットと呼ばれる）が、訓練された分類子の性能を特徴付けるために使用される。

テストデータにおけるサンプルは、グラウンドトゥルース値と分類子の推定が共に特徴は存在するということで意見が一致した場合は、真陽性（ＴｒｕｅＰｏｓｉｔｉｖｅ（ＴＰ））と言われ、グラウンドトゥルース値と分類子の推定が共に特徴は存在しないということで意見が一致した場合は、真陰性（ＴｒｕｅＮｅｇａｔｉｖｅ（ＴＮ））と言われ、分類子は特徴が存在すると推定したが、特徴は実際には存在しない場合は、偽陽性（ＦａｌｓｅＰｏｓｉｔｉｖｅ（ＦＰ））と言われ、分類子は特徴が存在しないと推定したが、特徴は実際には存在する場合は、偽陰性（ＦａｌｓｅＮｅｇａｔｉｖｅ（ＦＮ））と言われる。

従って、下記の量を定義できる。真陽性率（ＴＲｒ）は、テストセットにおける、ＴＰの数と陽性の数との間の比であり、偽陽性率（ＦＲｒ）は、テストセットにおける、ＦＰの数と陰性の数との間の比である。理想的な分類子は、ＴＰｒ＝１とＦＰｒ＝０で特徴付けられる。

バイナリ分類子の性能は、受信者操作特性（ＲｅｃｅｉｖｅｒＯｐｅｒａｔｉｎｇＣｈａｒａｃｔｅｒｉｓｔｉｃ：ＲＯＣ）曲線（例えば、Ｓｃｈｌｅｇｌ，Ｔ．，Ｓｅｅｂｏｃｋ，Ｐ．，Ｗａｌｄｓｔｅｉｎ，Ｓ．Ｍ．，Ｓｃｈｍｉｄｔ－Ｅｒｆｕｒｔｈ，Ｕ．，＆Ｌａｎｇｓ，Ｇ．（２０１７，Ｊｕｎｅ）．Ｕｎｓｕｐｅｒｖｉｓｅｄａｎｏｍａｌｙｄｅｔｅｃｔｉｏｎｗｉｔｈｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋｓｔｏｇｕｉｄｅｍａｒｋｅｒｄｉｓｃｏｖｅｒｙ（製造会社発見に導くための敵対的生成ネットワークによる教師なし異常検出）．ＩｎＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇｉｎＭｅｄｉｃａｌＩｍａｇｉｎｇ（ｐｐ．１４６－１５７）．Ｓｐｒｉｎｇｅｒ，Ｃｈａｍ．参照）により効果的に解析できる。ＲＯＣ曲線のｘ軸はＦＰｒに対応し、ｙ軸はＴＰｒに対応している。ＲＯＣ曲線の曲線下面積（ＡｒｅａＵｎｄｅｒｔｈｅＣｕｒｖｅ（ＡＵＣ）ｏｆａＲＯＣｃｕｒｖｅ）は、分類子の品質の指標として使用できる。ＡＵＣが１に近ければ近いほど、分類子の品質は高い。

バイナリ分類子は、一般的には、ＴＰｒとＦＰｒ値により特徴付けられている（従って、ＲＯＣ曲線は、そのような（ＦＲｒ，ＴＰｒ）点である（０，０）と（１，１）を結合することにより構成される）が、ＲＯＣに対して上述したものに類似する曲線を得るために、分類子のパラメータを変える（例えば、回帰子（ｒｅｇｒｅｓｓｏｒ）の出力に対する閾値を変える）ことにより異なる（ＴＰｒ，ＦＰｒ）対を得ることが可能な分類子の同系統群もある。

ニューラルネットワークに基づく単純分類子

ニューラルネットワークは、単純分類子の１つの同系統群を構成する。ニューラルネットワークアーキテクチャは、バイナリ分類子として訓練されることに良好に適している。この場合、所与の入力サンプルに対して、ニューラルネットワークは、２つのクラス（ｘ_０，ｘ_１）のそれぞれのスコアを計算するように訓練されており、そして、ニューラルネットワークの最後の層は、最も大きいスコアのクラスを選択することによりバイナリ出力を推定する。この動作は、（ＴＰｒ，ＦＰｒ）対の異なる値を得るために修正できる。特に、ｘ_０とｘ_１の間の最も大きな値を取る代わりに、スコアを正規化することができ、正規化されたスコアｙ_０，ｙ_１を得ることができる。１つのアプローチは、
ｘ_０→ｙ_０＝（ｘ_０－ｍｉｎ（ｘ_０，ｘ_１））／（ｘ_０ ^２＋ｘ_１ ^２）
ｘ_１→ｙ_１＝（ｘ_１－ｍｉｎ（ｘ_０，ｘ_１））／（ｘ_０ ^２＋ｘ_１ ^２）
のように、出力が非負であり、それらの絶対値の合計が１となるようにマッピングを実行することである。そのようなアプローチでは、２つのスコアの１つのみが考慮され、閾値が適用される（例えば、ｘ_０＞ｔｈ）。閾値の異なる値を選択することにより、ＲＯＣ曲線を形成する異なる（ＴＰｒ，ＦＰｒ）対を得ることができる。

同じ特質を提供するニューラルネットワークの注目すべきサブ同系統群は、ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋｓ（ＤＮＮｓ）（ディープニューラルネットワーク（例えば、Ｇｏｏｄｆｅｌｌｏｗ，Ｉ．，Ｂｅｎｇｉｏ，Ｙ．，Ｃｏｕｒｖｉｌｌｅ，Ａ．，＆Ｂｅｎｇｉｏ，Ｙ．（２０１６）．Ｄｅｅｐｌｅａｒｎｉｎｇ（ディープラーニング）（Ｖｏｌ．１）．Ｃａｍｂｒｉｄｇｅ：ＭＩＴＰｒｅｓｓ．参照）、ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓｆｏｒｉｍａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎｓ（ＣＮＮｓ）（画像分類のための畳み込みニューラルネットワーク）（例えば、Ｓｉｍｏｎｙａｎ，Ｋ．，＆Ｚｉｓｓｅｒｍａｎ，Ａ．（２０１４）．Ｖｅｒｙｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓｆｏｒｌａｒｇｅ－ｓｃａｌｅｉｍａｇｅｒｅｃｏｇｎｉｔｉｏｎ（大規模画像認識のための深層畳み込みネットワーク）．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１４０９．１５５６．参照）、Ｍｕｌｔｉ－ＶｉｅｗＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓｆｏｒ３Ｄｍｏｄｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎ（ＭＶＣＮＮｓ）（三次元モデル分類のためのマルチビュー畳み込みニューラルネットワーク）（例えば、Ｓｕ，Ｈ．，Ｍａｊｉ，Ｓ．，Ｋａｌｏｇｅｒａｋｉｓ，Ｅ．，＆Ｌｅａｒｎｅｄ－Ｍｉｌｌｅｒ，Ｅ．（２０１５）．Ｍｕｌｔｉ－ｖｉｅｗｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓｆｏｒ３ｄｓｈａｐｅｒｅｃｏｇｎｉｔｉｏｎ（三次元形状認識のためのマルチビュー畳み込みニューラルネットワーク）．ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥｉｎｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎｃｅｏｎｃｏｍｐｕｔｅｒｖｉｓｉｏｎ（ｐｐ．９４５－９５３）．参照）、およびＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅｓ（ＳＶＭｓ）（サポートベクトルマシン）である。

本開示の実施形態の幾つかの態様は、画像分類のために訓練されたＣＮＮの転送学習の使用に関する。（例えば、Ｃｈａｔｆｉｅｌｄ，Ｋ．，Ｓｉｍｏｎｙａｎ，Ｋ．，Ｖｅｄａｌｄｉ，Ａ．，＆Ｚｉｓｓｅｒｍａｎ，Ａ．（２０１４）．Ｒｅｔｕｒｎｏｆｔｈｅｄｅｖｉｌｉｎｔｈｅｄｅｔａｉｌｓ：Ｄｅｌｖｉｎｇｄｅｅｐｉｎｔｏｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｓ．（細部に宿る悪魔の帰還：畳み込みネットを深く掘り下げる）．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１４０５．３５３１．参照）。そのような状況においては、分類子に対する入力は、１つ又は複数の画像（例えば、カラー画像、グレースケール画像、および深度マップ）を含むことができ、ＣＮＮは、入力画像のそれぞれに適用され、中間表現（特徴空間における特徴ベクトルまたは特徴マップ）が、ＣＮＮの最後から２番目の層を評価することにより画像から抽出され、訓練セットにおける特徴ベクトルは、バイナリ分類を実行するために、サポートベクトルマシン（ＳＶＭ）（または他の分類子）を訓練するために使用される。

単純分類子の幾つかのタイプにより共有される１つの態様は、多数の異なる分類子が、特徴ベクトルまたは特徴マップを計算するために使用されるＣＮＮの一部を共有できるということである。この共有可能なＣＮＮは、それが典型的には、幾つかの畳み込みおよび完全に接続された層により構成されているので、一般的には、大きなメモリとコンピュータ計算のための占有面積で特徴付けられている。従って、そのような計算を共有することにより、要求される訓練サンプルの量を削減し、要求される計算リソースを減少することが可能である。従って、共有可能なＣＮＮを訓練することにより達成された学習は、他の単純タスクに「転送される」または「転送可能」である。そのため、図８において示されているように、本開示の実施形態の幾つかの態様は、種々の異なる単純分類子への入力として供給される対象物の特徴マップを抽出する、共有特徴抽出器３１０（例えば、共有ＣＮＮを含んでいる）の使用に関する。

特徴抽出器３１０の一部として使用できるＣＮＮの例としては、ＭｏｂｉｌｅＮｅｔＶ２（例えば、Ｓａｎｄｌｅｒ，Ｍａｒｋらによる「ＭｏｂｉｌｅＮｅｔＶ２：Ｉｎｖｅｒｔｅｄｒｅｓｉｄｕａｌｓａｎｄｌｉｎｅａｒｂｏｔｔｌｅｎｅｃｋｓ（逆残差と線形ボトルネック）」．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．２０１８．参照）、ＭｏｂｉｌｅＮｅｔＶ３（例えば、Ｈｏｗａｒｄ、Ａｎｄｒｅｗらによる「ＳｅａｒｃｈｉｎｇｆｏｒＭｏｂｉｌｅＮｅｔＶ３（ＭｏｂｉｌｅＮｅｔＶ３の検索）．」ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１９０５．０２２４４（２０１９）参照）、ＭｎａｓＮｅｔ（例えば、Ｔａｎ、Ｍｉｎｇｘｉｎｇらによる「ＭｎａｓＮｅｔ：Ｐｌａｔｆｏｒｍ－ａｗａｒｅｎｅｕｒａｌａｒｃｈｉｔｅｃｔｕｒｅｓｅａｒｃｈｆｏｒｍｏｂｉｌｅ（モバイルのプラットフォームを考慮したニューラルアーキテクチャ検索）」．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．２０１９参照）、およびＸｃｅｐｔｉｏｎ（例えば、Ｃｈｏｌｌｅｔ，Ｆｒａｎcｏｉｓ．「Ｘｃｅｐｔｉｏｎ：Ｄｅｅｐｌｅａｒｎｉｎｇｗｉｔｈｄｅｐｔｈｗｉｓｅｓｅｐａｒａｂｌｅｃｏｎｖｏｌｕｔｉｏｎｓ（深度方向に分離可能な畳み込みによるディープラーニング）．」ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥｃｏｎｆｅｒｅｎｃｅｏｎｃｏｍｐｕｔｅｒｖｉｓｉｏｎａｎｄｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎ．２０１７参照）がある。

欠陥解析を実行するためのニューラルネットワークであって、本発明の実施形態における単純分類子として使用できるニューラルネットワークの使用の追加的な例は、例えば、ＵＳ２０１８／０２１１３７３として、２０１８年７月２６日に発行された米国特許出願第１５／８６６、２１７号、ＵＳ２０１８／０３２２６２３として、２０１８年１１月８日に発行された米国特許出願第１５／９７４、５９５号、およびＵＳ２０１９／０１０８３９６として、２０１９年４月１１日に発行された米国特許出願第１６／１５８、２８０号に記述されており、それらの開示の全体は、ここにおいて参照により組み込まれる。

画像および深度マップ処理に基づく単純分類子

単純分類子の他の例としてのクラスは、画像処理、統計学、および数学的モデル化を含む技術を使用して、カラーカメラによる取得された画像と、深度カメラにより取得された深度マップを処理することに基づいている。この場合に使用できる共通の技術には、背景／前景分離（例えば、Ｋｉｍ，Ｋ．，Ｃｈａｌｉｄａｂｈｏｎｇｓｅ，Ｔ．Ｈ．，Ｈａｒｗｏｏｄ，Ｄ．，＆Ｄａｖｉｓ，Ｌ．（２００５）．Ｒｅａｌ－ｔｉｍｅｆｏｒｅｇｒｏｕｎｄ-ｂａｃｋｇｒｏｕｎｄｓｅｇｍｅｎｔａｔｉｏｎｕｓｉｎｇｃｏｄｅｂｏｏｋｍｏｄｅｌ（コードブックモデルを使用するリアルタイム前景／背景分離）．Ｒｅａｌ－ｔｉｍｅｉｍａｇｉｎｇ，１１（３），１７２－１８５．参照）、クラスタリングとグルーピング（例えば、Ｄｕｄａ，Ｒ．Ｏ．，Ｈａｒｔ，Ｐ．Ｅ．，＆Ｓｔｏｒｋ，Ｄ．Ｇ．（２０１２）．Ｐａｔｔｅｒｎｃｌａｓｓｉｆｉｃａｔｉｏｎ（パターン分類）．ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ．参照）、接続された構成要素解析（例えば、Ｂｒａｄｓｋｉ，Ｇ．，＆Ｋａｅｈｌｅｒ，Ａ．（２００８）．ＬｅａｒｎｉｎｇＯｐｅｎＣＶ：ＣｏｍｐｕｔｅｒｖｉｓｉｏｎｗｉｔｈｔｈｅＯｐｅｎＣＶｌｉｂｒａｒｙ（ＯｐｅｎＣの学習：ＯｐｅｎＣＶライブラリによるコンピュータビジョン），「Ｏ’ＲｅｉｌｌｙＭｅｄｉａ、Ｉｎｃ．」．参照）、頑強な統計（例えば、Ｈｕｂｅｒ，Ｐ．Ｊ．（２０１１）．Ｒｏｂｕｓｔｓｔａｔｉｓｔｉｃｓ（頑強な統計）．ＩｎＩｎｔｅｒｎａｔｉｏｎａｌＥｎｃｙｃｌｏｐｅｄｉａｏｆＳｔａｔｉｓｔｉｃａｌＳｃｉｅｎｃｅ（ｐｐ．１２４８－１２５１）．Ｓｐｒｉｎｇｅｒ、Ｂｅｒｌｉｎ、Ｈｅｉｄｅｌｂｅｒｇ．参照）、および三次元幾何学的処理が含まれる。

これらの画像処理技術は、一般的には、０と１の間の実数を出力すると考えることができ（または、０から１の範囲に正規化されたそれらの出力を有することができ）、１により近い値は、入力における特徴の存在を示し、０により近い値は、入力において特徴が存在しないことを示す。そして、実数値出力は、例えば、それが０または１により近いかに基づいて、バイナリ値（例えば、０または１）にマップすることができる（他の実施形態においては、例えば、０と１との間の閾値が設定または学習されて、それにより、閾値よりも大きな値は１として扱われ、閾値未満の値は０として扱われる）。この［０，１］へのマッピングは、典型的には、下記により詳細に記述されるように、複合分類子を連携して訓練することを支援するが、本発明の実施形態は、それに制限されない。出力値は、閾値に関してチェックでき、この閾値を変えることにより、ニューラルネットワークに基づく分類子の場合に類似して、異なる（ＴＰｒ，ＦＰｒ）対を得ることが可能である。

ラベルに基づく単純分類子

単純分類子の他の例としてのクラスは、テキスト（例えば、Ｓｍｉｔｈ，Ｒ．（２００７，Ｓｅｐｔｅｍｂｅｒ）．ＡｎｏｖｅｒｖｉｅｗｏｆｔｈｅＴｅｓｓｅｒａｃｔＯＣＲｅｎｇｉｎｅ（ＴｅｓｓｅｒａｃｔＯＣＲエンジンの概観）．ＩｎＤｏｃｕｍｅｎｔＡｎａｌｙｓｉｓａｎｄＲｅｃｏｇｎｉｔｉｏｎ，２００７．ＩＣＤＡＲ２００７．ＮｉｎｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎ（Ｖｏｌ．２，ｐｐ．６２９－６３３）．ＩＥＥＥ．参照）、アイコン（例えば、Ｒｅｄｍｏｎ，Ｊ．，Ｄｉｖｖａｌａ，Ｓ．，Ｇｉｒｓｈｉｃｋ，Ｒ．，＆Ｆａｒｈａｄｉ，Ａ．（２０１６）．Ｙｏｕｏｎｌｙｌｏｏｋｏｎｃｅ（一度見るだけ）：Ｕｎｉｆｉｅｄ，ｒｅａｌ－ｔｉｍｅｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ（統合されたリアルタイム対象物検出）．ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥｃｏｎｆｅｒｅｎｃｅｏｎｃｏｍｐｕｔｅｒｖｉｓｉｏｎａｎｄｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎ（ｐｐ．７７９－７８８）．参照）、およびコード（例えば、バーコード、ＱＲコード（登録商標））（例えば、Ｇａｌｌｏ，Ｏ．，Ｍａｎｄｕｃｈｉ，Ｒ．，＆Ｒａｆｉｉ，Ａ．（２０１１）．ＣＣ－ＲＡＮＳＡＣ：Ｆｉｔｔｉｎｇｐｌａｎｅｓｉｎｔｈｅｐｒｅｓｅｎｃｅｏｆｍｕｌｔｉｐｌｅｓｕｒｆａｃｅｓｉｎｒａｎｇｅｄａｔａ（範囲データにおける多数の表面の存在のもとでの平面の適合）．ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎＬｅｔｔｅｒｓ，３２（３），４０３－４１０．参照）を含む、ラベルのあるタイプの存在に基づいている。これらの分類子の出力は、一般的には、取得される情報の目的指向の性質を考慮すると、より高い推論レベルにある。従って、これらの分類子の出力は、一般的には、ある仕様（例えば、テキスト全体は取得された画像において検出される）を伴うバイナリ検出（例えば、「積み重ねない」または「積み重ね不可荷物」を示すテキストの存在を検出すること）の形式である。分類子のこのタイプに係る技術は、下記に制限されないが、注意モデル（例えば、Ｘｉａｏ，Ｔ．，Ｘｕ，Ｙ．，Ｙａｎｇ，Ｋ．，Ｚｈａｎｇ，Ｊ．，Ｐｅｎｇ，Ｙ．，＆Ｚｈａｎｇ，Ｚ．（２０１５）．Ｔｈｅａｐｐｌｉｃａｔｉｏｎｏｆｔｗｏ－ｌｅｖｅｌａｔｔｅｎｔｉｏｎｍｏｄｅｌｓｉｎｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｆｏｒｆｉｎｅ－ｇｒａｉｎｅｄｉｍａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎ（きめの細かい画像分類のためのディープ畳み込みニューラルネットワークにおける２レベル注意モデルの適用）．ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ｐｐ．８４２－８５０）．参照）、画像におけるテキスト識別および認識（例えば、上述したＳｍｉtｈ，Ｒ．，参照）、および長短期メモリ（ＬＳＴＭ）モデル（例えば、Ｇｏｏｄｆｅｌｌｏｗ，Ｉ．，Ｂｅｎｇｉｏ，Ｙ．，Ｃｏｕｒｖｉｌｌｅ，Ａ．，＆Ｂｅｎｇｉｏ，Ｙ．（２０１６）．Ｄｅｅｐｌｅａｒｎｉｎｇ（ディープラーニング）（Ｖｏｌ．１）．Ｃａｍｂｒｉｄｇｅ：ＭＩＴｐｒｅｓｓ．参照）を含んでいる。

複合分類子

図１０に関して上記に検討したように、複合検査タスクは、単純検査タスクに分解できる。そのため、本発明の実施形態の態様に係る複合分類子は、上述したような単純分類子（例えば、１つ又は複数のニューラルネットワークに基づく分類子、画像および深度マッププロセッサに基づく分類子、および／またはラベルに基づく分類子）の組み合わせであり、複合分類子は、対象物の三次元モデル、および／または、対象物の二次元画像（例えば、モノクロまたはグレースケール画像、カラー画像、および／または深度マップ）などのような、特別な入力に対する複合検査タスクの結果に関する予測または推論を計算できる。

単純分類子はより容易に訓練でき、解析を別個の決定ステップ（例えば、図１０において示されている決定ツリーなどのような決定ツリーにより表現されるような決定ステップ）に分解することなく、入力から直接に複合検査結果を計算するために単一分類子を訓練すること比べて、単純分類子間の相互依存性および冗長性は、より強固且つ容易に訓練される複合分類子（例えば、最適複合分類子）という結果になるので、複合分類子は、複合検査タスクを、対応する単純分類子により実現される単純決定に分解することから恩恵を受ける。

上記に検討したように、複数の異なる単純分類子は、ブール論理、演算、ファジー論理などのような種々の論理演算を使用して組み合わせることができる。例えば、所与のパレットが積み重ね不可パレット（ＮＳＰ）かどうかの評価は、ブール論理と組み合わされている単純分類タスクの例である。図１１は、所与のパレットがＮＳＰかどうかを決定するための、本発明の１つの実施形態に係る複合分類子の模式図である。上記に検討したように、パレットが積み重ね不可パレットであるかどうかを決定することは、（１）荷物がパレット上にあるかどうか、および、下記の（２）荷物の上部は安定していない、（３）それはＮＳＰであると特定する標識またはラベルが荷物の外側にある、または、（４）荷物の中身は壊れ易い（例えば、テレビ）の条件の少なくとも１つが満たされるかどうかを決定することを含んでいる。これは、（１）ＡＮＤ（（２）ＯＲ（３）ＯＲ（４））として表現できる。

従って、図１１において示されているように、本発明の１つの実施形態に係る複合分類子１１００は、４つの単純分類子（１１１０、１１２０、１１３０、および１１４０）を含んでおり、それらは、ブール出力（例えば、真／偽）を生成し、これらのブール値は、入力がＮＳＰを示しているか否かについての決定を計算するために、ブール論理（１１５０と１１６０）を使用して組み合わされる。上記に注記したように、入力は、１台以上のカメラにより撮像された１つ又は複数の画像を含むことができ、および／または、１つ又は複数の入力画像から計算された特徴マップを含むことができる。入力画像は、モノクロまたはグレースケール、カラー、および／または深度画像であってよく、特徴抽出器３１０（ＣＮＮを含むことができる）は、入力画像に基づいて特徴マップを計算できる。

上記の検討を続けると、第１単純分類子１１１０は、入力画像はパレット上にあるか否かについて決定するように構成または訓練されている。第１単純分類子１１１０は、ニューラルネットワークを、パレット上にある荷物と、パレット上にない荷物の代表的画像（例えば、倉庫環境において撮像された画像）を含む、ラベル付き訓練データに従って訓練することにより、その所与の入力（画像および／または特徴マップ）がパレット上に積み重ねられている荷物を示しているか否かを決定するように訓練できる。ニューラルネットワークの場合、訓練は、例えば、誤差逆伝播法アルゴリズムを使用して実行できる。従って、第１単純分類子１１１０は、所与の入力が、パレット上の１つ又は複数の荷物を示している、またはそれに対応しているときは真を出力し、そうでないときは偽を出力するように訓練できる。

第２単純分類子１１２０もほぼ同じ方法で訓練できる。例えば、第２単純分類子１１２０は、荷物の上部が安定している状況と、荷物の上部が不安定な状況を示す画像から計算された入力された特徴マップを、対応する「安定」および「不安定」ラベルと共に有する訓練データのセットに基づいて訓練されたそれ自身のニューラルネットワークを含むことができる。

第３単純分類子１１３０は、荷物に、それはＮＳＰであることを示す文言のラベルが付けられているかどうかを決定するために、上記で検討したラベルに基づく分類を適用できる。例えば、特徴マップは、テキストを含んでいる入力画像の部分（例えば、バウンディングボックス）を識別するために使用でき、光学式文字認識（ＯＣＲ）アルゴリズムを、走査システム９９により撮像されたカラー画像の対応する部分において示されているテキストを認識するために適用できる。そして、認識されたテキストは、「積み重ねないこと」および「積み重ね不可」および／または他の文言においてなどのような、ＮＳＰが荷物上で示される種々の標準的方法に対して照合できる。そして、第３単純分類子１１３０は、そのようなラベルが検出されると真を出力でき、そのようなラベルが検出されない場合は偽を出力できる。

第４単純分類子１１４０もまた、中身は壊れ易いことを示す、荷物上のテキストまたはアイコンの存在を検出するために、ラベルに基づく分類を適用できる。加えて、幾つかの実施形態においては、第４単純分類子１１４０は、現在の荷物は壊れ易いかどうかを決定するために、動作９３０においてデータベース（例えば、出荷目録および追尾データベース）から以前に検索された情報を使用できる。従って、第４単純分類子１１４０は、現在の荷物が壊れ易いか否かについての決定を出力できる。

上記に検討したように、該パレットはＮＳＰかどうかを決定することは、（１）ＡＮＤ（（２）ＯＲ（３）ＯＲ（４））の形式を取る。従って、ブールＯＲ演算１１５０は、第２、第３、および第４単純分類子１１２０、１１３０、および１１４０の出力のブールＯＲを計算する。第１単純分類子１１１０の出力と、ブールＯＲ演算１１５０の出力は、パレットはＮＳＰであるか否かについての最終決定を計算するために、ＡＮＤ演算１１６０に供給される。

図１１は、ブール演算を使用するバイナリ分類子の組み合わせを示しているが、本発明の実施形態はそれに制限されない。例えば、単純分類子の出力がＫ値のときは、特別な出力は、取るべき決定ツリーの特別な分岐を選択でき（靴の造りおよびモデルに基づく、図１０の決定ツリーの場合など）、決定ツリーの異なる分岐は、異なる訓練されたモデルと関連付けることができる。他の例として、単純構成要素が回帰子のときは、単純回帰子の実数値の出力は、演算的に組み合わせる（例えば、合計、平均、積、商などのような、標準数学関数の結果を計算する）ことができ、他の出力と組み合わせることができる出力を計算するために、活性化関数（例えば、ソフトマックス、ＲｅＬＵなど）で処理させることもできる。

加えて、実施形態は、アイテム（例えば、靴またはパレット）の特別なタイプまたはカテゴリの視覚検査を実行するための複合分類子に関して記述されているが、本発明の実施形態は、それらに制限されない。例えば、本発明の幾つかの実施形態においては、複合分類子は更に、解析されている対象物のカテゴリを識別でき、識別されたカテゴリは、対象物の既知のカテゴリの集合体からであってよい。これは、種類の異なる品物の状況の場合に有益であり得る。例えば、異種の製造ラインまたは物流総合管理設備は、靴、ブーツ、スポーツ用品、衣類、食物、飲料などのような、異なるタイプの品物の広い範囲を処理できる。幾つかの実施形態においては、対象物のカテゴリの識別を、それ自身のユーザに出力且つ表示できる。幾つかの実施形態においては、対象物のカテゴリの識別は更に、関連付けられているカテゴリに従って、対象物の更なる複合解析を実行するために、複合分類子の決定ツリー内で使用できる。例えば、靴であるアイテム（スポーツ用品の１つではなく）を検出することは、図１０において示されている決定ツリーなどのように、決定ツリーの分岐に追従するという結果になるか、または、靴についての複合検査タスクを実行することと関連付けられている決定ツリーを活性化するという結果になる。

本発明の幾つかの実施形態は、対象物が品質検査をパスするか失敗するかどうか、および、パレットは積む重ね不可か否かなどのような、対象物に対応する分類を計算することに関して検討されている。本発明の実施形態の幾つかの態様は、視覚情報に基づいて、対象物の１つ又は複数の特質を識別且つ計算することに関連している。これらの特質は、対象物は壊れ易い（例えば、対象物が、ガラスなどのような、既知の壊すことができる材料で構成されている可能性がある）か否か、または、液体を含んでいる、または危険な材料を保持している可能性のある対象物の検出を含むことができる。検出される特別な特質に基づいて、本発明の種々の実施形態は、特質を検出するために複合分類子を使用できる。例えば、物流総合管理の場合、荷物の中身の壊れ易さの検出は、中身は壊れ易いと特定する、対象物上のテキストを検出する（例えば、「壊れ易い」、「ガラス」、「ガラス製品」、「実験室用機器」などのような語句を検出する）ことに基づいて真の値を出力する単純分類子と、コンテナの中身を決定するために、対象物と関連付けられている出荷目録をデータベースから検索して、目録の中のキーワードを、壊れ易いと知られている材料のリストと照合する他の単純分類子を使用することを含むことができる。同様に、コンテナは危険な材料を保持しているかどうかを検出することは、毒、電離放射、生物災害、発がん性物資、「ファイヤダイアモンド」（ＮＦＰＡ７０４）などに対するアイコンなどのように、危険性を示す、荷物の外部上のラベルを識別することを含むことができる。「ファイヤダイアモンド」の場合、赤、青、および黄色の正方形に位置している個々の数値は、対象物において含まれている材料の危険性の性質を更に識別するために使用できる。

複合分類子の連携訓練

上記に検討したように、幾つかの実施形態においては、複合分類子はバイナリ出力によっても特徴付けることができ、従って、その性能は、ＲＯＣ曲線により測定および最適化できる。特定タスクに対する（ＴＰｒ，ＦＰｒ）対に関しての各単純分類子の性能は、複合分類子の訓練（または、複合分類子性能の最適化）のための自由変数を構成する閾値により決められる。

従って、本発明の１つ実施形態によれば、Ｎ個の単純分類子を含んでいる複合分類子の訓練は、Ｎ個の自由変数、つまり、Ｎ個の単純分類子に対する閾値に関する（ＴＰｒ，ＦＰｒ）対に関しての性能の最適化として組み立てることができる。

閾値の所与の構成に対して、単一の（ＴＰｒ，ＦＰｒ）対は、複合分類子自身を定義する集積論理を適用することにより、単純分類子のそれぞれの結果を集積することで得られる。それぞれの単純分類子の各閾値の値を独立して変えることにより、（ＴＰｒ，ＦＰｒ）結果のセットが得られる。

一般的に、探究された構成の大半は、幾つかの形状においては非最適であり、または、同じ（またはより大きい）ＴＰｒおよび同じ（またはより低い）ＦＰｒにより特徴付けられる（ＴＰｒ，ＦＰｒ）対がある。非最適対は関心の対象外なので破棄される。

最適またはより良好な実行閾値は、パレートフロント（またはフロンティア）（例えば、Ｋｉｍ，Ｉ．Ｙ．，＆ｄｅＷｅｃｋ，Ｏ．Ｌ．（２００５）．Ａｄａｐｔｉｖｅｗｅｉｇｈｔｅｄ－ｓｕｍｍｅｔｈｏｄｆｏｒｂｉ－ｏｂｊｅｃｔｉｖｅｏｐｔｉｍｉｚａｔｉｏｎ（二対象物最適化のための適応加重合計法）：Ｐａｒｅｔｏｆｒｏｎｔｇｅｎｅｒａｔｉｏｎ．Ｓｔｒｕｃｔｕｒａｌａｎｄｍｕｌｔｉｄｉｓｃｉｐｌｉｎａｒｙｏｐｔｉｍｉｚａｔｉｏｎ，２９（２），１４９－１５８．参照），つまり、同じまたはより低いＦＰｒを伴う、同じまたはより高いＴＰｒを有している他の対がない（ＴＰｒ，ＦＰｒ）対のセットとして公式化できる。

図１２は、本開示の１つの実施形態に係る、複合分類子の単純分類子の閾値の構成に対するＦＰｒとＴＰｒ値のパレートフロントの視覚表現である。図１２において示されているように、パレートフロントは円で示され、十字は非最適点、破棄すべき点に対応し、三角は理論的最適値である。

図１３は、本発明の１つの実施形態に係る、複合分類子を訓練するための方法１３００のフローチャートである。プロセッサと、複合検査タスクのためのラベルが付けられた訓練データを格納するメモリを有するコンピュータシステムなどのような訓練システムは、複合分類子の単純分類子のそれぞれと関連付けられている閾値を調整することにより、複合分類子を訓練するために使用される。図１３を参照すると、動作１３１０において、訓練システムは、閾値パラメータのＣ個の異なる構成またはセットを得るために、単純分類子のそれぞれに対する閾値をサンプリングする（例えば、ランダムに選択する）。動作１３３０において、訓練システムは、Ｃ個の単純分類子閾値構成のそれぞれに対して、複合分類子の（ＴＰｒ，ＦＰｒ）対を計算する。（ＴＰｒ，ＦＰｒ）対は、閾値のセットにより構成されているような複合分類子を、ラベルの付けられたデータの検証セット（例えば、訓練データセットとテストデータセットの両者と互いに素のデータのセット）に適用し、その検証セットのＴＰｒとＦＰｒ値を測定することにより、閾値の各セットに対して計算できる。動作１３５０において、訓練システムは、Ｃ個の異なる（ＴＰｒ，ＦＰｒ）対からパレートフロントを計算する。

従って、結果としてのパレートフロントは、複合システム全体としての（ＴＰｒ，ＦＰｒ）値に従う、「最良の実行」または「最適」モデルの集合体を識別する。動作１３７０において、訓練システムは、構成を、構成されたシステムによる使用のために、パレートフロントにおける点から選択するためのルールを適用する。幾つかの実施形態においては、パレートフロント上の点の特別な１つを選択するために使用される特別なルールは、ドメイン特有であってよく（例えば、システムが適用されるドメインにおける異なるタイプのエラーの容認性に従って）、ユーザにより特定されたルールまたは発見的方法に基づいて選択できる。例えば、１つの問題は、最大容認可能なＦＰｒは０．１より小さく、最小ＴＰｒは、０．９であることを要求する可能性がある。幾つかの実施形態においては、ＦＰとＴＰの「コスト」を考慮するより複合的なモデルが使用され、構成のセットの中から、ＦＰエラーまたはＴＰエラーを引き起こす経済またはビジネスに関連するコストに基づいて、パレートフロントに対する単純分類子閾値を選択できる。

本発明の実施形態の幾つかの態様は、例えば、匂配に基づく最適化方法（例えば、Ｎｏｃｅｄａｌ，Ｊ．，＆Ｗｒｉｇｈｔ，Ｓ．Ｊ．（２００６）．ＮｏｎｌｉｎｅａｒＥｑｕａｔｉｏｎｓ（非線形方程式）（ｐｐ．２７０－３０２）．ＳｐｒｉｎｇｅｒＮｅｗＹｏｒｋ．参照）、分岐および限定法（例えば、Ｌａｗｌｅｒ，Ｅ．Ｌ．，＆Ｗｏｏｄ，Ｄ．Ｅ．（１９６６）．Ｂｒａｎｃｈ－ａｎｄ－ｂｏｕｎｄｍｅｔｈｏｄｓ（分岐および限定法）：Ａｓｕｒｖｅｙ．Ｏｐｅｒａｔｉｏｎｓｒｅｓｅａｒｃｈ，１４（４），６９９－７１９．参照）、統計的サンプリング法（例えば、Ｈａｓｔｉｎｇｓ，Ｗ．Ｋ．（１９７０）．ＭｏｎｔｅＣａｒｌｏｓａｍｐｌｉｎｇｍｅｔｈｏｄｓｕｓｉｎｇＭａｒｋｏｖｃｈａｉｎｓａｎｄｔｈｅｉｒａｐｐｌｉｃａｔｉｏｎｓ（マルコフ鎖を使用するモンテカルロサンプリング法およびそれらの適用）．参照）、および単純分類子の部分的最適化を使用して、単純分類子に対する閾値構成を計算するための種々の代替としての技術に関する。

推論における複合分類子の使用

そして、結果としての構成された複合検査タスク分類子または複合分類子は、欠陥解析を実行するための製造設備などのような適切な状況、または、倉庫を通過する品物および荷物の解析を実行するための物流総合管理倉庫において展開できる。

上記に注記したように、本発明の実施形態は、プロセッサとメモリを含んでいる解析システム３００において実現でき、解析システム３００は、走査システム９９により取り込まれた視覚情報に基づいて（例えば、画像および／または３次元モデルに基づいて）複合分類タスクを実行するように構成されている。加えて、解析システム

図１Ａと１Ｂに戻って参照すると、動作５４０において、解析システム３００は、対象物の複合検査の結果を出力する。これらの結果は、対象物の最終分類（例えば、靴の縫い目は容認可能かどうかについての決定、または、アイテムはＮＳＰであるか否かについての決定）を含むことができる。

図１Ａにおいて示されている実施形態においては、結果は、ユーザ装置４００に提供され、検査結果（例えば、靴の縫い目が品質標準をパスすることに失敗）をユーザ装置４００の表示装置４５０上に表示するために使用できる。本発明の幾つかの実施形態によれば、ユーザ装置４００はまた、縫い目の予期される適切な外観の検索された例と共に、靴の検出された造り、モデル、色、およびサイズなどのような解析についての追加的情報も表示できる。これにより、ユーザ装置４００を使用する人間のオペレータは、決定ツリーにおける種々の単純分類子の出力もまたディスプレイに示されるので、複合分類子が分類に到達したプロセスを理解することが可能になる。

他の例として、積み重ねないパレットの場合、ユーザ装置４００は、複合分類子がその最終判断をしたときに、単純分類子によりなされた個々の別個の決定をユーザが理解できるように、個々の単純分類子１１１０、１１２０、１１３０、１１４０の出力を表示できる。これにより、システムがエラーを起こしたときに、システムによりなされた決定をユーザが覆すことが可能になる。例えば、パレットは、それを検出不可にする通常の色で塗られ、または着色される可能性があり、または、荷物上のテキストの幾つかが、積み重ね不可として誤って認識されたので、システムは、荷物はパレット上にないと誤って決定する可能性がある。

対照的に、単一且つ単独の分類子に基づいて（例えば、別個の分類子または回帰子の分類または回帰出力を結合するために論理的出力を適用することなく）分類を実行するように訓練されている比較対象の機械学習システムは、分類に対する基盤となる理由を不明確にする可能性があり、ユーザまたはオペレータが、システムは、ユーザが検出していない態様を検出したのかどうか、またはシステムは分類エラーを起こしたのかどうかを決定することが困難になる。

更に、上記に注記したように、本発明の実施形態の態様は、多数の異なる訓練された機械学習モデルが、共有されている畳み込みニューラルネットワークにより計算された入力特徴マップなどのような、入力特徴の共通のセットを共有することを可能にするために、転送学習を適用する。未処理入力データ（例えば、走査システム９９により撮像された画像）からの特徴マップまたは特徴ベクトルの計算をこのように共有することは、複合検査タスクを実行する処理必要条件を削減し、それにより、システムの電力消費および／または待時間を削減する。

そのため、本発明の実施形態の態様は、単純視覚分類タスクの結果を組み合わせるために論理的および／または数学的演算を適用することを含む複合視覚検査タスクを自動的に実行するためのシステムと方法を提供する。本発明の実施形態は、向上された計算効率を可能にし、モデルの結果の説明可能性を向上し、それにより、自動視覚検査システムによりなされたエラーをユーザが識別且つ覆す能力を向上する。

本発明は、ある例としての実施形態と関連して記述されてきたが、発明は開示された実施形態に制限されず、それとは反対に、付随する請求項の精神および範囲内に含まれる種々の修正および等価装置、およびその等価物をカバーすることが意図されているということは理解されるべきである。本発明の態様の一部を以下記載する。
［態様１］
自動視覚検査を実行するための方法であって、
複数のカメラを備えている走査システムを使用して、対象物の視覚情報を取り込むことと、
プロセッサとメモリを備えているコンピューティングシステムにより、１つ又は複数の特徴抽出器を使用して、前記視覚情報から１つ又は複数の特徴マップを抽出することと、
前記コンピューティングシステムにより、前記対象物の分類を計算するために、前記１つ又は複数の特徴マップを、それぞれが、前記対象物の特性を表現する出力を計算するように構成されている複数の単純分類子と、前記対象物の前記分類を計算するために、前記単純分類子の前記出力を組み合わせるように構成されている１つ又は複数の論理演算子を備えている複合分類子に供給することにより、前記対象物を分類することと
前記コンピューティングシステムにより、前記対象物の前記分類を、前記自動視覚検査の結果として出力することを備える方法。
［態様２］
前記１つ又は複数の特徴抽出器は、１つ又は複数の畳み込みニューラルネットワークを備える態様１に記載の方法。
［態様３］
前記複数の単純分類子は、１つ又は複数のニューラルネットワークを備える態様１に記載の方法。
［態様４］
前記複数の単純分類子は、１つ又は複数のサポートベクトルマシンを備えており、
少なくとも１つの論理演算は、前記ニューラルネットワークの出力と前記サポートベクトルマシンの出力を組み合わせるように構成されている態様３に記載の方法。
［態様５］
前記複数の単純分類子は、１つ又は複数の回帰モデルを備える態様１に記載の方法。
［態様６］
前記複数の単純分類子は、テキスト検出を実行するように構成されている、１つ又は複数のラベルに基づく分類子を備える態様１に記載の方法。
［態様７］
前記複数の単純分類子のそれぞれの単純分類子は、連携して訓練されている複数の閾値パラメータの対応する閾値パラメータにより構成されている態様１に記載の方法。
［態様８］
前記閾値パラメータは、
前記単純分類子を構成するために、複数の閾値パラメータのセットを選択するためにパラメータ空間をサンプリングすることと、
前記複数の閾値パラメータのセットのそれぞれの閾値パラメータのセットに対して、真陽性率（ＴＰｒ）と偽陽性率（ＦＰｒ）を、
前記閾値パラメータのセットに基づいて前記単純分類子を構成することにより、前記複合分類子を構成し、
前記構成された複合分類子にデータの検証セットを供給することにより、前記構成に対する前記ＴＰｒと前記ＦＰｒを計算することにより計算することと、
前記構成パラメータのセットのそれぞれのセットに対して、前記ＴＰｒとＦＰｒに従って、構成パラメータの最も良好な実行セットを備えているパレートフロントを識別することと、
ドメインに従うルールセットに従って、前記パレートフロントから構成パラメータのセットを選択することにより連携して訓練される態様７の方法。
［態様９］
前記視覚情報は、カラー画像、グレースケール画像、または深度マップを備える態様１の方法。
［態様１０］
前記視覚情報は、少なくとも１つの深度マップを備えており、
前記少なくとも１つの深度マップは、前記複数のカメラの深度カメラシステムにより撮像される態様９の方法。
［態様１１］
前記深度カメラシステムは、
飛行時間型深度カメラと、
構造化光深度カメラと、
少なくとも２台のカラーカメラを備えているステレオ深度カメラ、
少なくとも２台のカラーカメラとカラープロジェクタを備えているステレオ深度カメラ、
少なくとも２台の赤外線カメラを備えているステレオ深度カメラ、または
少なくとも２台の赤外線カメラ、赤外線プロジェクタ、およびカラーカメラを備えているステレオ深度カメラを備える態様１０の方法。
［態様１２］
前記複数の単純分類子は、前記深度マップの数学的モデル化に基づく分類子を備える態様１０の方法。
［態様１３］
前記１つ又は複数の特徴マップの特徴マップは、前記複数の単純分類子の少なくとも２つへの入力として提供される態様１の方法。
［態様１４］
前記対象物の前記分類は、複数の対象物のカテゴリの中の１つのカテゴリの識別を備える態様１の方法。
［態様１５］
前記対象物の前記分類は、前記視覚情報に基づく、前記対象物の１つ又は複数の特質の識別を備える態様１の方法。
［態様１６］
視覚検査システムであって、
複数のカメラを備えているスキャナシステムと、
コンピュータネットワーク上で前記スキャナシステムに接続されているコンピューティングシステムを備えており、前記コンピューティングシステムは、プロセッサと、命令を格納しているメモリを備えており、前記命令は、前記プロセッサにより実行されると、前記プロセッサに、
対象物の視覚情報を取り込むように前記スキャナシステムを制御させ、
１つ又は複数の特徴抽出器を使用して、前記視覚情報から１つ又は複数の特徴マップを抽出させ、
前記コンピューティングシステムにより、前記対象物の分類を計算するために、前記１つ又は複数の特徴マップを、それぞれが、前記対象物の特性を表現する出力を計算するように構成されている複数の単純分類子と、前記対象物の前記分類を計算するために、前記単純分類子の前記出力を組み合わせるように構成されている１つ又は複数の論理演算子を備えている複合分類子に供給することにより、前記対象物を分類させ、
前記コンピューティングシステムにより、前記対象物の前記分類を、前記対象物の自動視覚検査の結果として出力させる視覚検査システム。
［態様１７］
前記プロセッサは更に、態様２から１５の何れかの前記方法の前記ステップを実行するように構成されている態様１６に記載の視覚検査システム。
［態様１８］
前記スキャナシステムは、少なくとも１台のカラーカメラを備える態様１６または１７に記載の視覚検査システム。
［態様１９］
前記スキャナシステムは、少なくとも１台の深度カメラを備える態様１６または１７に記載の視覚検査システム。
［態様２０］
表示装置を備えているユーザ装置を更に備え、前記ユーザ装置は、
前記対象物の前記分類と、
前記複数の単純分類子の少なくとも１つの単純分類子により計算された、前記対象物の少なくとも１つの特性を表示するように構成されている態様１６から１９の何れか一項に記載の視覚検査システム。
［態様２１］
前記コンピューティングシステムは、前記分類に従って、前記対象物の動きの方向を変えるために搬送器システムを制御するように構成されている態様１６から２０の何れか一項に記載の視覚検査システム。
［態様２２］
プロセッサとメモリを備えている視覚検査システムであって、
前記プロセッサは、態様１から１５の何れか一項に記載の前記方法の前記ステップを実行するように構成されている視覚検査システム。
［態様２３］
命令を備えているコンピュータプログラムであって、前記プログラムは、コンピュータにより実行されると、前記コンピュータに、態様１から１５の何れか一項に記載の前記方法の前記ステップを実行させるコンピュータプログラム。

Claims

自動視覚検査を実行するための方法であって、
複数のカメラを備えている走査システムを使用して、対象物の視覚情報を取り込むことと、
プロセッサとメモリを備えているコンピューティングシステムにより、１つ又は複数の特徴抽出器を使用して、前記視覚情報から１つ又は複数の特徴マップを抽出することと、
前記コンピューティングシステムにより、前記対象物の分類を計算するために、前記１つ又は複数の特徴マップを、それぞれが、前記対象物の特性を表現する出力を計算するように構成されている複数の単純分類子と、前記対象物の前記分類を計算するために、前記単純分類子の前記出力を組み合わせるように構成されている１つ又は複数の論理演算子を備えている複合分類子に供給することにより、前記対象物を分類することと
前記コンピューティングシステムにより、前記対象物の前記分類を、前記自動視覚検査の結果として出力することを備え、
前記複数の単純分類子のそれぞれの単純分類子は、連携して訓練されている複数の閾値パラメータの対応する閾値パラメータにより構成されている方法。
前記１つ又は複数の特徴抽出器は、１つ又は複数の畳み込みニューラルネットワークを備える請求項１に記載の方法。
前記複数の単純分類子は、１つ又は複数のニューラルネットワークを備える請求項１に記載の方法。
前記複数の単純分類子は、１つ又は複数のサポートベクトルマシンを備えており、
少なくとも１つの論理演算は、前記ニューラルネットワークの出力と前記サポートベクトルマシンの出力を組み合わせるように構成されている請求項３に記載の方法。
前記複数の単純分類子は、１つ又は複数の回帰モデルを備える請求項１に記載の方法。
前記複数の単純分類子は、テキスト検出を実行するように構成されている、１つ又は複数のラベルに基づく分類子を備える請求項１に記載の方法。
前記閾値パラメータは、
前記単純分類子を構成するために、複数の閾値パラメータのセットを選択するためにパラメータ空間をサンプリングすることと、
前記複数の閾値パラメータのセットのそれぞれの閾値パラメータのセットに対して、真陽性率（ＴＰｒ）と偽陽性率（ＦＰｒ）を、
前記閾値パラメータのセットに基づいて前記単純分類子を構成することにより、前記複合分類子を構成し、
前記構成された複合分類子にデータの検証セットを供給することにより、前記構成に対する前記ＴＰｒと前記ＦＰｒを計算することにより計算することと、
構成パラメータのセットのそれぞれのセットに対して、前記ＴＰｒとＦＰｒに従って、構成パラメータの最も良好な実行セットを備えているパレートフロントを識別することと、
ドメインに従うルールセットに従って、前記パレートフロントから構成パラメータのセットを選択することにより連携して訓練される請求項１の方法。
前記視覚情報は、カラー画像、グレースケール画像、または深度マップを備える請求項１の方法。
前記視覚情報は、少なくとも１つの深度マップを備えており、
前記少なくとも１つの深度マップは、前記複数のカメラの深度カメラシステムにより撮像される請求項８の方法。
前記深度カメラシステムは、
飛行時間型深度カメラと、
構造化光深度カメラと、
少なくとも２台のカラーカメラを備えているステレオ深度カメラ、
少なくとも２台のカラーカメラとカラープロジェクタを備えているステレオ深度カメラ、
少なくとも２台の赤外線カメラを備えているステレオ深度カメラ、または
少なくとも２台の赤外線カメラ、赤外線プロジェクタ、およびカラーカメラを備えているステレオ深度カメラを備える請求項９の方法。
前記複数の単純分類子は、前記深度マップの数学的モデル化に基づく分類子を備える請求項９の方法。
前記１つ又は複数の特徴マップの特徴マップは、前記複数の単純分類子の少なくとも２つへの入力として提供される請求項１の方法。
前記対象物の前記分類は、複数の対象物のカテゴリの中の１つのカテゴリの識別を備える請求項１の方法。
前記対象物の前記分類は、前記視覚情報に基づく、前記対象物の１つ又は複数の特質の識別を備える請求項１の方法。
視覚検査システムであって、
複数のカメラを備えているスキャナシステムと、
コンピュータネットワーク上で前記スキャナシステムに接続されているコンピューティングシステムを備えており、前記コンピューティングシステムは、プロセッサと、命令を格納しているメモリを備えており、前記命令は、前記プロセッサにより実行されると、前記プロセッサに、
対象物の視覚情報を取り込むように前記スキャナシステムを制御させ、
１つ又は複数の特徴抽出器を使用して、前記視覚情報から１つ又は複数の特徴マップを抽出させ、
前記コンピューティングシステムにより、前記対象物の分類を計算するために、前記１つ又は複数の特徴マップを、それぞれが、前記対象物の特性を表現する出力を計算するように構成されている複数の単純分類子と、前記対象物の前記分類を計算するために、前記単純分類子の前記出力を組み合わせるように構成されている１つ又は複数の論理演算子を備えている複合分類子に供給することにより、前記対象物を分類させ、
前記コンピューティングシステムにより、前記対象物の前記分類を、前記対象物の自動視覚検査の結果として出力させ、
前記複数の単純分類子のそれぞれの単純分類子は、連携して訓練されている複数の閾値パラメータの対応する閾値パラメータにより構成されている視覚検査システム。
前記プロセッサは更に、請求項２から１４の何れかの前記方法の前記ステップを実行するように構成されている請求項１５に記載の視覚検査システム。
前記スキャナシステムは、少なくとも１台のカラーカメラを備える請求項１５または１６に記載の視覚検査システム。
前記スキャナシステムは、少なくとも１台の深度カメラを備える請求項１５または１６に記載の視覚検査システム。
表示装置を備えているユーザ装置を更に備え、前記ユーザ装置は、
前記対象物の前記分類と、
前記複数の単純分類子の少なくとも１つの単純分類子により計算された、前記対象物の少なくとも１つの特性を表示するように構成されている請求項１５から１８の何れか一項に記載の視覚検査システム。
前記コンピューティングシステムは、前記分類に従って、前記対象物の動きの方向を変えるために搬送器システムを制御するように構成されている請求項１５から１９の何れか一項に記載の視覚検査システム。
プロセッサとメモリを備えている視覚検査システムであって、
前記プロセッサは、請求項１から１４の何れか一項に記載の前記方法の前記ステップを実行するように構成されている視覚検査システム。
命令を備えているコンピュータプログラムであって、前記プログラムは、コンピュータにより実行されると、前記コンピュータに、請求項１から１４の何れか一項に記載の前記方法の前記ステップを実行させるコンピュータプログラム。