JP2020516897A

JP2020516897A - 検査方法及び検査設備

Info

Publication number: JP2020516897A
Application number: JP2019555877A
Authority: JP
Inventors: 健 ▲張▼; 占永 ▲趙▼; 建平 ▲顧▼; 耀▲紅▼ ▲劉▼; 自然 ▲趙▼
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2017-04-14
Filing date: 2018-04-13
Publication date: 2020-06-11
Also published as: WO2018188653A1; KR20190139254A; EP3611666A1; CN108734183A; EP3611666A4

Abstract

検査設備及び検査方法を提供する。被検査コンテナーに対してＸ線走査を行って透過画像を得た後、畳み込みニューラルネットワークを利用して透過画像から局所的な透過画像を表現する第１のベクトルを生成するとともに、循環ニューラルネットワークを利用してコンテナーにおける荷物の文字的な記述から単語ベクトルを生成して第２のベクトルとする。第１のベクトルと第２のベクトルとを統合して、透過画像及び文字的な記述を表現する第３のベクトルを得る。第３のベクトルに基づいて、コンテナーにおける荷物が属するカテゴリを判別する。本発明の実施例によれば、目標荷物の大体のカテゴリを初歩的に判断でき、画像検査者のさらなる判断を容易にすることができる。

Description

本発明の実施例は保安検査に関し、具体的には、画像情報及びテキスト情報によりコンテナーのような荷物を検査する方法及び設備に関する。

現在、放射保安検査システムは、主に荷物のＸ線画像に対する分析に集中している。例えば、イメージ理解に関する知識を活用して荷物の分類や認識を行う。しかし、現在、区別の難しい荷物に対しては、やはり主に人為的な認識により区別や判断を行っており、「人機協力」は、未だに実際の「協力」の程度には達していない。

本発明は、従来技術の上記の問題点に鑑みて提案されたものであり、その目的は、例えばコンテナーのような荷物を検査する方法及び設備を提供することにある。

本発明のある局面においては、被検査コンテナーに対してＸ線走査を行って透過画像を得るステップと、畳み込みニューラルネットワークを利用して透過画像から局所的な透過画像を表現する第１のベクトルを生成するステップと、循環ニューラルネットワークを利用してコンテナーにおける荷物の文字的な記述から単語ベクトルを生成して第２のベクトルとするステップと、前記第１のベクトルと前記第２のベクトルとを統合して、前記透過画像と前記文字的な記述とを表現する第３のベクトルを得るステップと、前記第３のベクトルに基づいて、前記コンテナーにおける荷物が属するカテゴリを判別するステップと、を含む、コンテナーを検査する方法を提供する。

本発明の実施例によれば、前記第３のベクトルに基づいて、前記コンテナーにおける荷物が属するカテゴリを判別するステップは、確率関数に基づいて、前記第３のベクトルからコンテナーにおける荷物があるカテゴリに属することを表す確率値を生成することと、最大確率値を持つカテゴリを前記荷物が属するカテゴリとすることと、をさらに含む。
本発明の実施例によれば、前記の方法は、判別されたカテゴリに応じて、ユーザーに前記カテゴリに関連する典型的な透過画像を表示することをさらに含む。

本発明の実施例によれば、単語ベクトルを生成するステップは、前記コンテナーにおける荷物の文字的な記述に対して単語分類操作を行うことと、単語分類操作を行った後の文字的な記述をベクトル化して、単語ベクトルを得ることと、を含む。

本発明の実施例によれば、前記の方法は、前記単語ベクトルに基づいて、典型的な透過画像データーベースから対応する典型的な透過画像を検索するステップと、ユーザーに検索された典型的な透過画像を表示するステップと、をさらに含む。

本発明の実施例によれば、前記の方法は、前記第１のベクトルに基づいて、典型的な透過画像データーベースから対応する典型的な透過画像を検索するステップと、ユーザーに検索された典型的な透過画像を表示するステップと、をさらに含む。

本発明の他の局面においては、被検査コンテナーに対してＸ線走査を行って透過画像を得るＸ線検査システムと、前記透過画像を記憶するメモリと、畳み込みニューラルネットワークを利用して透過画像から局所的な透過画像を表現する第１のベクトルを生成し、循環ニューラルネットワークを利用してコンテナーにおける荷物の文字的な記述から単語ベクトルを生成して第２のベクトルとし、前記第１のベクトルと前記第２のベクトルとを統合して、前記透過画像と前記文字的な記述とを表現する第３のベクトルを得て、前記第３のベクトルに基づいて、前記コンテナーにおける荷物が属するカテゴリを判別する、ように配置されたプロセッサーと、を含む検査設備を提供する。

本発明の実施例によれば、前記プロセッサーは、確率関数に基づいて、前記第３のベクトルからコンテナーにおける荷物があるカテゴリに属することを表す確率値を生成し、最大確率値を持つカテゴリを前記荷物が属するカテゴリとする、ように配置される。

本発明の実施例によれば、前記プロセッサーは、さらに、判別されたカテゴリに応じて、ユーザーに前記カテゴリに関連する典型的な透過画像を表示する、ように配置される。
本発明の実施例によれば、前記プロセッサーは、前記コンテナーにおける荷物の文字的な記述に対して単語分類操作を行い、単語分類操作を行った後の文字的な記述をベクトル化して、単語ベクトルを得る、ように配置される。

本発明の実施例によれば、前記プロセッサーは、さらに、前記単語ベクトルに基づいて、典型的な透過画像データーベースから対応する典型的な透過画像を検索し、ユーザーに検索された典型的な透過画像を表示する、ように配置される。
上記の実施例の技術案によると、目標荷物の大体のカテゴリを初歩的に判断でき、画像検査者のさらなる判断を容易にすることができる。

本発明を分かりやすくするために、以下の図面に基づいて本発明を詳細に記述する。
図１は、本発明の実施例による検査設備の構成模式図である。図２は、図１に示すような検査設備に含まれる計算手段の構成を示す模式図である。図３は、本発明の実施例による検査設備の模式的なブロック構成図である。図４は、本発明の実施例による検査方法の模式的なフローチャートである。図５は、本発明の実施例による荷物画像とカテゴリ情報とをマッチングさせる模式図である。図６は、本発明の実施例において、畳み込みニューラルネットワークを利用して荷物のカテゴリを判断する模式図である。図７は、本発明の他の実施例において、カテゴリ情報により典型的な透視画像を検索する模式図である。図８は、本発明の実施例による方法において用いられる単語ベクトル空間関係図である。図９は、本発明の実施例による方法において用いられる循環ニューラルネットワークの単位構成図である。図１０は、本発明の実施例において画像ベクトルと単語ベクトルとによりカテゴリ情報を生成する模式図である。

以下、本発明の具体的な実施例について詳細に説明する。なお、ここで説明する実施例は、例示的なものであり、本発明を限定するものではないことを指摘しておく。以下の説明において、本発明を分かりやすくするために、多数の特定の詳細について記述している。しかしながら、当業者にとって、必ずしもこれらの特定の詳細な構成を採用して本発明を実現しなくてもよいことは、言うまでもない。他の実施例においては、本発明を不要に不明瞭にしないように、周知の構成、材料又は方法に対する具体的な説明を省略する。

本明細書において、「一実施例」、「実施例」、「一例示」又は「例示」と記載される場合、当該実施例又は例示を用いて説明した特定の特徴、構造又は特性が、本発明の少なくとも一つの実施例に含まれることを意味する。したがって、本明細書全般にかけて記載されている「一実施例において」、「実施例において」、「一例示」又は「例示」とは、必ずしも同一の実施例又は例示を指すことではない。また、いずれの適宜な組み合わせ及び／又はサブ組み合わせによって、特定の特徴、構成又は特性を一つ又は複数の実施例又は例示に組み合わせることができる。また、当業者なら、ここで用いられる「及び／又は」という用語は、挙げられた一つ又は複数の関連するアイテムの任意の組み合わせ及び全ての組み合わせを含むことを理解できるはずである。

従来技術の問題点に鑑みて、本発明の実施例は、Ｘ線画像とテキストの記述に基づく「人機協力」検査技術を提案して、特定の領域（注目領域）の荷物に対する分類及び検査を行う知能的な分析ツールを完成する。実際の荷物検査過程において、より多くの場合、検査者は、画像の局所的な領域に対して判断を行っており、これは、「人機協力」にとって最も緊密で必要な部分でもある。この技術では、コンピューターのデーター分析と画像理解能力を利用して、目標荷物の大体のカテゴリを初歩的に判断する。また、人類検知情報、特に、局所的な突出領域の総合認知を導入して、より正確な分類結果を提供することで、検査アドバイスの有効性を向上させる。

図１は、本発明の実施例による検査設備の構成模式図である。図１に示されるように、本発明の実施例による検査設備１００は、Ｘ線ソース１１０、検出器１３０、データー採集装置１５０、コントローラー１４０、及び計算手段１６０を含み、コンテナー付きトラックのような被検査物１２０に対して保安検査を行い、例えば、中に銃／麻薬のような危険品及び／又は怪しいものが含まれていないのかを判断する。この実施例においては、検出器１３０とデーター採集装置１５０とを分けて説明しているが、当業者なら、これらを集積してＸ線検出・データー採集手段にしてもよいことを理解できるはずである。

一部の実施例によると、上記のＸ線ソース１１０は同位体であってもよく、Ｘ線機又は加速器等であってもよい。Ｘ線ソース１１０は、シングルエネルギー型であってもよく、ダブルエネルギー型であってもよい。こうして、Ｘ線ソース１１０と検出器１５０及びコントローラー１４０と計算手段１６０により被検査物１２０に対して透過走査を行い、検出データーを得る。例えば、被検査物１２０の行進中に、操作者は、計算手段１６０のＨＭＩ（Ｈｕｍａｎ−ＭａｃｈｉｎｅＩｎｔｅｒａｃｔｉｏｎ）インターフェースを利用して、コントローラー１４０から指令を出し、Ｘ線ソース１１０にＸ線を発するように命令し、被検査物１２０を透過したＸ線は検出器１３０及びデーター採集設備１５０により受けられるとともに、計算手段１６０によりデーターを処理して、透過画像を取得することができ、且つ、さらにトレーニングされた畳み込みニューラルネットワークを利用して、透過画像から局所的な透過画像を表現する画像ベクトル（第１のベクトル）を生成し、トレーニングされた循環ニューラルネットワークを利用してコンテナーにおける荷物の文字的な記述から単語ベクトル（第２のベクトル）を生成する。しかる後、計算手段１６０は、画像ベクトル及び単語ベクトルに基づいて、コンテナーにおける荷物が属するカテゴリを判断する。例えば、計算手段１６０は、第１のベクトルと第２のベクトルとを統合して、透過画像と文字的な記述とを表現する第３のベクトルを得て、第３のベクトルに基づいて前記コンテナーにおける荷物が属するカテゴリを判別する。

図２は、図１に示すような計算手段の構成模式図を示している。図２に示されるように、検出器１３０が検出した信号は、データー採集器により採集され、データーはインターフェースユニット１６７とバス１６３を通じてメモリ１６１に記憶される。ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１６２には、コンピューターデータープロセッサーの配置情報及びプログラムが記憶されている。ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１６３は、プロセッサー１６５の動作中において一時的に各種のデーターを記憶するためのものである。なお、メモリ１６１には、例えば、データー処理のための物質識別プログラムや画像処理プログラム等のようなコンピュータープログラムがさらに記憶されている。内部バス１６３は上記のメモリ１６１、ＲＯＭ１６２、ＲＡＭ１６３、入力装置１６４、プロセッサー１６５、表示装置１６６及びインターフェースユニット１６７を接続する。

ユーザーがキーボードやマウス等のような入力装置１６４により操作命令を入力した後、コンピュータープログラムの指令コードは、プロセッサー１６５に予定されたデーター処理アルゴリズムを実行するように命令し、データー処理結果を取得した後、それをＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）ディスプレイのような表示装置１６７に表示したり、又は、直接プリントのようなハードコピーの方式で処理結果を出力したりする。

図３は、本発明の実施例による検査設備の模式的なブロック構成図である。図３に示されるように、本発明の実施例によれば、検査設備の計算手段１６０には、ソフトウェアプログラムがインストールされており、コンテナーにおける荷物の透過画像及び当該荷物を説明する文字的な情報に基づいて、荷物のカテゴリ、例えば、ＨＳＣＯＤＥを特定する。例えば、畳み込みニューラルネットワークに基づく画像理解モジュール３１０は入力された透過画像を処理して、画像ベクトルを得る。循環ニューラルネットワークに基づくテキスト理解モジュール３２０は入力されたテキスト情報を処理して、単語ベクトルを得る。分析・ラーニングモジュール３３０は、画像ベクトル及び単語ベクトルに基づいて荷物が属するカテゴリを特定する。

図４は、本発明の実施例による検査方法の模式的なフローチャートである。図４に示されるように、ステップＳ４１０において、例えば図１に示すような検査設備により被検査コンテナーに対してＸ線走査を行って、透過画像を得る。

ステップＳ４２０において、畳み込みニューラルネットワークを利用して透過画像から局所的な透過画像を表現する第１のベクトルを生成する。例えば、コンテナー透過画像の局所的な領域を入力として畳み込みカーネルプーリング（Ｐｏｏｌｉｎｇ）操作を行った後、フル畳み込み操作を行い、当該透過画像のベクトル的表現を出力して、第１のベクトルとする。より具体的には、コンテナー透過画像の局所的な領域を入力として、５段の畳み込み、プーリング操作（各段のそれぞれは、一組の畳み込みカーネル及び一つのプーリングレイヤー（ＰｏｏｌｉｎｇＬａｙｅｒ）に対応しており、畳み込みカーネルの数とサイズはそれぞれ独立なものである）を行った後、さらに３レイヤーのフル畳み込み操作を行うと、ネットワークは一つの当該透過画像のベクトル的表現を出力することができる。上記の実施例においては、５段の畳み込みと３レイヤーのフル畳み込み操作を挙げて説明したが、当業者なら、他の畳み込みニューラルネットワークを用いることを想到できるはずである。

本発明の実施例によれば、畳み込みニューラルネットワークに基づく画像理解モジュール３１０はＸ線画像の荷物判別及び分析を担当する。実際の応用においては、当該モジュール３１０は、主に畳み込みネットワークを利用する荷物カテゴリ判断と典型的なテンプレートマッチングの２つの部分を含む。

Ｘ線荷物検査の目的に合わせて、局所的な敏感な領域の画像は、当該カテゴリの荷物の豊富なテクスチャー情報を含めている。主にテクスチャー分析に依頼するカテゴリ識別においては、当該領域の理解に注目するとよい。畳み込みニューラルネットワークの荷物カテゴリ判断においては、特定の局所的な領域画像を入力として、多段のマトリックス操作を行うことで、局所的な領域画像のベクトル的表現を生成することができ、また、このベクトルを利用して属するカテゴリの情報を推定することができる。図５に示されるように、当該情報は荷物種類のＨＳＣＯＤＥと、それに対応する信頼確率との形で表現される。
図６は、本発明の実施例において、畳み込みニューラルネットワークを用いて荷物のカテゴリを判断する模式図である。本発明の実施例によれば、畳み込みニューラルネットワークが採用するネットワーク構成は、ＶＧＧ（ＶｉｓｕａｌＧｅｏｍｅｔｒｙＧｒｏｕｐ）−Ｎｅｔであることが好ましいが、当業者なら、異なる実施例において、この構成に限られないことを理解できるはずである。畳み込みニューラルネットワークの入力は荷物のＸ線画像の局所的な領域であり、多段畳み込み、プーリング、フルコネクション（ＦｕｌｌＣｏｎｎｅｃｔｉｏｎ）等の操作を行うことで、最終的に当該画像の情報を表すための一つのベクトルを得ることができる。

畳み込み操作は、アナログフィルターが画像の情報を十分に抽出するために画像の特徴をラーニングする過程である。画像の畳み込み操作を行う際には、複数の互いに独立で異なる畳み込みカーネルを利用し、各畳み込みカーネルはそれぞれ入力に対して畳み込み操作を行い、全ての畳み込み結果を次の操作に伝送する。

プーリング操作は、マルチスケール問題に対するアルゴリズムの適応能力を効率的に向上させることができる。ここでは、最大プールサンプリング方法を採用することが望ましい。具体的には、畳み込みを行った後の出力マトリックスのそれぞれをｎ＊ｍ個のグリッドに区分してから、各グリッドについて、そのうちの最大値を当該グリッドの出力値とすることで、最終的には一つのサイズｎ＊ｍのマトリックスを得ることができる。このマトリックスは、プーリング操作の出力である。ここで、ｎ及びｍは、それぞれグリッドの行及び列の数を意味する。

フルコネクション過程は、マルチレイヤー畳み込み、プーリング操作を行った後の出力マトリックスに対してベクトル化を行うとともに、フルコネクションマトリックスを利用してデーターに対して一つのマッピング操作を追加する。これは、ラーニング性を向上させるとともに、出力マトリックスを一つのカテゴリ数に等しい長さを持つベクトルに変化して表現することができ、後の分類操作を便利にする。最後に、このベクトルに対して確率化処理を行うが、ここでは、Ｓｏｆｔｍａｘ関数を用いる。つまり、ベクトルの要素のそれぞれが一つの確率値を表すようにして、被測定目標があるカテゴリに属する確率の大きさにそれぞれ対応するようにする。Ｓｏｆｔｍａｘ関数の確率化公式は、以下のように表される。
ただし、ｖはフルコネクションを行った後の出力ベクトルを意味し、ｖ_ｉはｖのｉ番目の要素を意味し、ｋは当該ベクトルの長さを意味し、ｃ_ｉはｉ番目のカテゴリを意味し、ｐ（ｃ_ｉ｜ｖ）は入力からｉ番目のカテゴリに属すると予測される確率値である。対応的に、最大の確率値を持つカテゴリを第１の段階の予測結果とすることができる。

なお、検査者の経験の違いにより、あるカテゴリの荷物画像を覚える程度にも違いがあり得る。この場合、図７に示されるように、典型的なテンプレートマッチング機能は、畳み込みニューラルネットワークにより提供されたＨＳＣＯＤＥを利用して、視認できる当該カテゴリの荷物の典型的なテクスチャー画像ブロックデーターを提供することで、上記の推定情報を信頼できるかについてさらに確認することができる。

本発明の他の実施例によると、畳み込みニューラルネットワークにより提供された予測結果に応じて、対応するＨＳＣＯＤＥを持つ典型的な荷物画像を読み出して、碁盤の形で表示することができる。対応的に、検査者は被検査荷物の画像と典型的なデーターを比較することで、より正確に判断することができる。

ステップＳ４３０においては、循環ニューラルネットワークを利用してコンテナーにおける荷物の文字的な記述から単語ベクトルを生成して、第２のベクトルとする。例えば、コンテナーにおける荷物の文字的な記述をネットワークの入力として、単語分類操作を行って文字的な記述をリストに変換する。しかる後、辞書を調べることで、リストにおける各単語のベクトル的表現を得て、第２のベクトルとする。より具体的には、検査者の文字的な記述をネットワークの入力とする。基本的な単語分類操作を行って、一つのセンテンスの文字的な記述語句を対応する単語により構成されたリスト（ある実例においては、重複する単語を除去したり、又は単語に重みつけをしたりすることができる）に変換する。その後、予め用意した辞書を調べて、それを単語符号に変換し、リストにおける各単語のベクトル的表現を抽出する。そして、単語リストにおける単語を前後順序に応じて一つずつＬＳＴＭ（Ｌｏｎｇ−ＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ）ネットワークに入力して予測を行う。リストにおける全ての単語について循環ニューラルネットワーク処理を実行した後、テキスト理解の最終ベクトル表現を生成できる。

本発明の実施例によれば、循環ニューラルネットワークに基づくテキスト理解モジュール３２０は、文字的な記述を入力として、システム処理を行い、最後に文字的な記述に一致する典型的な画像を出力して、検査者のためにより人中心的な形で有効な情報を提供して、判断するようにする。当該モジュールは、単語分類操作部分、単語ベクトル生成部分、典型的な画像表示部分等を含む。

図８は、本発明の実施例による方法において用いられる単語ベクトル空間関係図である。文字理解モジュールの典型的な画像表示部分は、主に、従来の検査システムが基本的に画像を入力として、画像に対するコンピューターの理解能力のみに頼ることしかできなく、人類検知機能が十分に利用されていない事情に鑑みて導入されたものである。ある特定の条件において、検査者は、画像がどのカテゴリに属するか判断し難い場合があり、関連するテクスチャー、形状などの説明により荷物の特徴を表現することで、典型的な歴史画像を読み出して比較することしかできない。従来の検査システムを使用すると、キーワード情報を提供する必要があり、これは、間接的に検査者の負担となる。循環ニューラルネットワークにより記述に対応する単語ベクトルを生成すると、自然的に似ている単語に対してディスタンスラーニング（図８参照）を行う能力を持つことになり、その結果、実際の操作の際に、完全に正確な荷物の固定キーワードを入力しなくても、便利に、且つ正確に所望の画像を検索できる。

単語分類操作は、センテンス（中国語の場合、特に顕著になる）をデーターとして入力するシステムの前処理操作である。従来の属性又はキーワードを入力としてテンプレートデーター検索を行うことと違って、当該モジュールを利用することで、ユーザーは、センテンス全体の形でもっと柔軟に、且つ、もっと完全に所望の情報を入力することが可能になるが、センテンスを基本的な情報単位とする動作方式は複雑で効率が低いため、センテンスを適切に単位単語に分解する必要がある。単語分類操作は、言葉に対する人間の理解方式を模擬して、辞書に基づいて、センテンスを単語（語彙又はフレーズ）を要素とするアレイ（又はベクトル）に分解して表現し、コンピューターが理解し易くようにする。

テキスト理解は、自然言語処理の分野に属しており、単語分類技術はテキスト発掘の基礎である。特に、中国語の入力については、言語構造の特殊性により、中国語の表現においては、センテンス、段落等に対する明らかな標識のみがあり、個別の単語に対する明らかな標識は少ないため、文字的な記述に対する明らかな区分がテキスト理解の前提条件となる。ここでは、統計及びマシンラーニングに基づく方式で単語分類操作を行うことが好ましい。実際の応用の際には、従来の知識に基づいて一つの辞書を構築し、単語分類を行う時にも、先にあるルールに応じて文字列のマッチングを行い、意味の不明瞭な単語や辞書に収録されていない単語についてはＣＲＦ（ｃｏｎｄｉｔｉｏｎａｌｒａｎｄｏｍｆｉｅｌｄｓ）の方式で行う。具体的には、センテンスについて、単語位置（単語のヘット、ミドル、エンド及びサブワード）によりコメントを付けた後、ＣＲＦにより単語分類操作を行うとともに、辞書に収録されていない新規な単語を追加して、後のマッチングを便利にする。

単語ベクトルは、言語的な表現をコンピューターが理解及び操作しやすい特徴に変換する過程であり、この過程は全的に循環ニューラルネットワークにより実現される。循環ニューラルネットワークは、先天的に序列化された関連データーに対する処理及び分析能力を持っており、長い段落の情報を幾つかのコア要素にまとめることができ、互いに別に関連のない単語を人間が理解易い完全な情報に広がることができる。このシステムにおいて、単語分類を行った後のデーターはベクトルの形でネットワークの入力とされ、最後の単語の処理を完了するまで、毎回一つの単語について分析及びラーニングを行うことで、単語ベクトルと呼ばれる一つのベクトル的表現を生成することができる。このベクトルはセンテンス全体の情報を含んでおり、このベクトルを利用することで、それのニュアンスに合う典型的な画像を検索することができ、又は、後のカテゴリ判定を行うことができる。
単語ベクトルは、単語分類操作を行った文字的な記述をベクトル化する過程である。ここでは、ＬＳＴＭ（Ｌｏｎｇ−ＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ）循環ニューラルネットワークにより行うことが好ましい。具体的な動作としては、まず、文字的な記述における各単語を一つのベクトルに変換し、このとき、ｏｎｅ−ｈｏｔを利用してコーディングしてもよく、又は、行の数が辞書の単語の数であり、列の数が指定された大きさであるマッピングマトリックスを利用して変換してもよいが、ここでは、後者を利用するほうが好ましい。

図９は、本発明の実施例による方法において用いられる循環ニューラルネットワークの単位構成図である。全ての単語をベクトル化した後、これらを文字的な記述の前後順序に従って逆順操作を行い、その後、順序に毎回一つの単語の初期ベクトルを選び、順にＬＳＴＭのネットワークユニットに入力する。ＬＳＴＭユニットの計算過程は、以下のように表される。
ただし、ｘ_ｔはｔ番目の単語の初期ベクトルを意味し、ｈ_ｔ−１は前回のＬＳＴＭユニットの出力であり、Ｗは重みマトリックスであって、前のサンプルにより予めトレーニングされたパラメーターマトリックスであり、ｉ_ｔ、ｃ_ｔ、ｆ_ｔ及びｏ_ｔはｔ番目の単語のネットワーク中間状態であり、ｍ_ｔ−１は前の単語の中間状態の転送値であり、ｓｉｇｍｏｉｄ（）及びｔａｎｈ（）は活性化関数であり、ｍ_ｔはｔ番目の単語の状態転送値であり、ｈ_ｔは前のｔ個の単語から生成した単語ベクトルであり、入力された文字的な記述が合計ｋ個の単語を含むと仮定すると、ｋ回のＬＳＴＭユニットの処理を行って、最終的には、当該説明情報を含む一つの最終単語ベクトルｈ_ｋを生成することになる。

文字的な記述の典型的な画像表示部分は、従来システムにおいて画像理解を検査システムが結果を与えることと、類似する表示を行うこととの唯一の標準とすることを変更して、文字を利用して検査者の検知を具現化する。まず、典型的な画像テンプレートデーターに対して人為的にコメントを付けて情報を表現し、その後、ＢＯＷ（ＢａｇｏｆＷｏｒｄｓ）方法を利用してコメント付きの情報を分類することで、各カテゴリの画像の一つのＢＯＷ特徴を得ることができる。使用する際には、検査者により入力された文字的な記述をベクトル化して表現した後、このベクトルと典型的な画像のＢＯＷ特徴との関連性計算を行う。そして、関連性の一番高い３つのＢＯＷ特徴に対応するカテゴリを選び、当該カテゴリにおける典型的な画像を抽出して視認可能に表示する。

ステップＳ４４０においては、第１のベクトルと第２のベクトルとを統合して、透過画像及び文字的な記述を表現する第３のベクトルを得る。ステップＳ４５０においては、第３のベクトルに基づいて、コンテナーにおける荷物が属するカテゴリを判別する。例えば、確率関数（例えば、Ｓｏｆｔｍａｘ関数）に基づいて第３のベクトルからコンテナーにおける荷物があるカテゴリに属することを表す確率値を生成し、最大の確率値を持つカテゴリを荷物が属するカテゴリとする。

図１０は、本発明の実施例において画像ベクトルと単語ベクトルとによりカテゴリ情報を生成する模式図である。図１０に示されるように、分析・トレーニングモジュール３３０は、コンピューターの画像理解能力と人類検知能力とを組み合わせることにより、より正確に検査任務を完成する新規な手段である。畳み込みニューラルネットワークに基づく画像理解モジュール及び畳み込みニューラルネットワークに基づく文字理解モジュールは、個別に画像又は文字的な記述に対する分析を行って、対応する結果を与えることができ、総合分析・トレーニングモジュールは、両者の能力を組み合わせて、画像理解部分の画像ベクトルと文字理解部分の単語ベクトルを合併し、さらに、共同分析の過程を経ることで、互いにラーニングする過程を完成でき、出力はより正確な予測結果となる。

本発明の実施例によれば、畳み込みニューラルネットワークに基づく画像理解モジュール及び循環畳み込みネットワークに基づく文字理解モジュールは、ここまで、やはり個別に画像及び文字的な記述に対して荷物検査の機能を果たしているが、このシステムの総合分析・トレーニングモジュールは両者を効果的に組み合わせて、検査者を補助してより効率的に検査の目的を達成する。

例えば、画像理解のための畳み込みネットワーク及び文字理解のための循環ネットワークに対して個別にトレーニングをして、それらの損失をそれぞれ計算することで、２つのネットワークの初期のラーニングを行うことができ、その後は、畳み込みネットワークの画像で表現されるベクトルと循環ネットワークが出力した単語ベクトルを統合し、さらに、一つの投影マッピングを行った後、同様に、Ｓｏｆｔｍａｘ関数を利用して２つのネットワークを組み合わせて得られる予測カテゴリを得る。こうすると、２種類の情報を効果的に組み合わせることができ、且つ、トレーニング段階において、２つのネットワークは共同トレーニングの過程を経ることになるため、フィードバックして調整を行う際に、いずれのネットワークの調整にも他方のネットワークの干渉及び調整が存在することになり、システム全体のラーニング性を向上させる。

より具体的には、画像理解向きの畳み込みニューラルネットワークは、コンテナー透過画像の局所的な領域をＶＧＧネットワークの入力として、５段の畳み込み、プーリング操作（各段のそれぞれは、一組の畳み込みカーネル及び一つのプーリングレイヤー（ＰｏｏｌｉｎｇＬａｙｅｒ）に対応しており、畳み込みカーネルの数とサイズはそれぞれ独立なものである）を行った後、さらに３レイヤーフル畳み込み操作を行い、最後の畳み込みレイヤーの出力は、当該透過画像のベクトル的表現Ｉになる。テキスト理解向きの循環ニューラルネットワークは、検査者の文字的な記述をネットワークの入力として、基本的な単語分類操作を行って一つのセンテンスの文字的な記述語句を対応する単語により構成されたリスト（ここでは、重複する単語を除去したり、又は単語に重みつけをしたりすることができる）に変換し、その後、予め用意した辞書を調べる操作により、それを単語符号に変換し、リストにおける各単語のベクトル的表現を抽出した後、単語リストにおける単語を前後順序に応じて一つずつＬＳＴＭネットワークに入力し、リストにおける全ての単語について循環ニューラルネットワーク処理を実行した後、一つの最終的なテキスト理解のベクトル的表現Ｔを生成できる。続いて、画像のベクトル的表現Ｉとテキストのベクトル的表現Ｔとを一つのベクトルに合成し、さらに、２レイヤーフル畳み込みネットワークにより、Ｓｏｆｔｍａｘレイヤーを利用してカテゴリ予測を行い、こうすると、画像とテキスト情報を組み合わせたコンテナーにおける荷物のカテゴリ予測提示機能を実現できる。ネットワークトレーニング・ラーニング過程は、ＳＧＤ（ＳｔｏｃｈａｓｔｉｃＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ）、ＢＧＤ（ＳｔｏｃｈａｓｔｉｃＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ）等の方法を採用してラーニングネットワークのパラメーターを最適化することができる。ネットワーク構造全体は、それぞれ（画像、テキスト）の処理ネットワークを含み、２種類の情報を組み合わせた共同ラーニング過程も有し、各ネットワークの調整の際には、ある程度で他方のネットワークの干渉と調整を受けることになり、これはこのシステムの情報利用及びラーニング性を向上させる。

上記の実施例によると、コンピューターのデーター分析能力及び画像理解能力を利用して、目標荷物の大体のカテゴリを初歩的に判断する。また、人類検知情報、特に、局所的な突出領域の総合認知を導入して、より正確な分類結果を提供することで、検査アドバイスの有効性を向上させる。

以上の詳細な説明においては、模式図、フローチャット及び／又は例示によって、検査設備及び方法に係る多数の実施例を説明した。このような模式図、フローチャット及び／又は例示が、一つ又は複数の機能及び／又は操作を含む場合に、当業者なら、このような模式図、フローチャット又は例示における各機能及び／又は操作が、色々な構成、ハードウェア、ソフトウェア、ファームウェア又はこれらの実質的な任意の組み合わせによって、個別に及び／又は共同で実現可能であることを理解できるはずである。一実施例において、本発明の実施例に記載された主題の幾つかの部分は、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ−ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ）、又はその他の集積フォーマットで実現できる。しかしながら、当業者なら、ここで開示された実施例の一部の局面が、全体的に又は部分的に集積回路で等価的に実現されてもよいことを理解できるはずである。例えば、一つ又は複数のコンピューターで実行される一つ又は複数のコンピュータープログラム（例えば、一つ又は複数のコンピューターシステムで実行される一つ又は複数のプログラム）として実現されてもよく、一つ又は複数のプロセッサで実行される一つ又は複数のプログラム（例えば、一つ又は複数のマイクロプロセッサで実行される一つ又は複数のプログラム）として実現されてもよく、ファームウェアとして実現されてもよく、又は、実質的に上記形態の任意の組み合わせとして実現されてもよい。また、当業者は、本開示を元に、回路の設計及び／又はソフトウェア及び／又はファームウェアコードを書き込む能力を持つことになる。また、当業者は、本開示に記載されたメカニズムが、複数の形のプログラム製品として配布されてもよく、且つ、配布を実行する信号担体媒体の具体的な類型によらず、本開示の例示的な実施例は依然として適用可能であることを理解できるはずである。信号担体媒体の例示としては、例えば、ＦＤ（ＦｌｏｐｐｙＤｉｓｋ）、ＨＤＤ、ＣＤ（ＣｏｍｐａｃｔＤｉｓｃ）、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）、デジタルテープ、コンピューターメモリ等のような記録可能な記録媒体と、デジタル及び／又はアナログ通信媒体（例えば、ファイバーケーブル、ウェーブガイド、有線通信リンク、無線通信リンク等）のような搬送媒体とが含まれるが、これらに限定されない。

以上、本発明の幾つかの典型的な実施例を参照して本発明を説明したが、使用された用語は、説明および例示のためのものであり、本発明を限定するものではないことと理解すべきである。また、本発明は、発明の精神及び主旨を逸脱しない範囲で、いろんな形態で具体的に実施できるので、上記した実施例は、前述の詳細に限らず、特許請求の範囲により限定された精神及び範囲において広く解釈すべきである。特許請求の範囲又は均等の範囲内での全ての変更や改進は、特許請求の範囲に含まれる。

Claims

被検査コンテナーに対してＸ線走査を行って透過画像を得るステップと、
畳み込みニューラルネットワークを利用して透過画像から局所的な透過画像を表現する第１のベクトルを生成するステップと、
循環ニューラルネットワークを利用してコンテナーにおける荷物の文字的な記述から単語ベクトルを生成して第２のベクトルとするステップと、
前記第１のベクトルと前記第２のベクトルとを統合して、前記透過画像と前記文字的な記述とを表現する第３のベクトルを得るステップと、
前記第３のベクトルに基づいて、前記コンテナーにおける荷物が属するカテゴリを判別するステップと、
を含む、コンテナーを検査する方法。
前記第３のベクトルに基づいて、前記コンテナーにおける荷物が属するカテゴリを判別するステップは、
確率関数に基づいて、前記第３のベクトルからコンテナーにおける荷物があるカテゴリに属することを表す確率値を生成することと、
最大確率値を持つカテゴリを前記荷物が属するカテゴリとすることと、
をさらに含む、請求項１に記載の方法。
判別されたカテゴリに応じて、ユーザーに前記カテゴリに関連する典型的な透過画像を表示すること、
をさらに含む、請求項２に記載の方法。
単語ベクトルを生成するステップは、
前記コンテナーにおける荷物の文字的な記述に対して単語分類操作を行うことと、
単語分類操作を行った後の文字的な記述をベクトル化して、前記単語ベクトルを得ることと、
を含む、請求項１に記載の方法。
前記単語ベクトルに基づいて、典型的な透過画像データーベースから対応する典型的な透過画像を検索するステップと、
ユーザーに検索された典型的な透過画像を表示するステップと、
をさらに含む、請求項４に記載の方法。
前記第１のベクトルに基づいて、典型的な透過画像データーベースから対応する典型的な透過画像を検索するステップと、
ユーザーに検索された典型的な透過画像を表示するステップと、
をさらに含む、請求項１に記載の方法。
被検査コンテナーに対してＸ線走査を行って透過画像を得るＸ線検査システムと、
前記透過画像を記憶するメモリと、
畳み込みニューラルネットワークを利用して透過画像から局所的な透過画像を表現する第１のベクトルを生成し、
循環ニューラルネットワークを利用してコンテナーにおける荷物の文字的な記述から単語ベクトルを生成して第２のベクトルとし、
前記第１のベクトルと前記第２のベクトルとを統合して、前記透過画像と前記文字的な記述とを表現する第３のベクトルを得て、
前記第３のベクトルに基づいて、前記コンテナーにおける荷物が属するカテゴリを判別する、ように配置されたプロセッサーと、
を含む、検査設備。
前記プロセッサーは、
確率関数に基づいて、前記第３のベクトルからコンテナーにおける荷物があるカテゴリに属することを表す確率値を生成し、
最大確率値を持つカテゴリを前記荷物が属するカテゴリとする、ように配置される、
請求項７に記載の検査設備。
前記プロセッサーは、さらに、
判別されたカテゴリに応じて、ユーザーに前記カテゴリに関連する典型的な透過画像を表示する、ように配置される、
請求項８に記載の検査設備。
前記プロセッサーは、
前記コンテナーにおける荷物の文字的な記述に対して単語分類操作を行い、
単語分類操作を行った後の文字的な記述をベクトル化して、単語ベクトルを得る、ように配置される、
請求項７に記載の検査設備。
前記プロセッサーは、さらに、
前記単語ベクトルに基づいて、典型的な透過画像データーベースから対応する典型的な透過画像を検索し、
ユーザーに検索された典型的な透過画像を表示する、ように配置される、
請求項１０に記載の検査設備。