JP5946315B2

JP5946315B2 - 画像検索システム

Info

Publication number: JP5946315B2
Application number: JP2012095036A
Authority: JP
Inventors: 説男木村
Original assignee: 説男木村
Priority date: 2012-04-18
Filing date: 2012-04-18
Publication date: 2016-07-06
Anticipated expiration: 2032-04-18
Also published as: JP2013222406A

Description

携帯端末のカメラ機能により映し出された画像に対応する原画像をデータベースから取り出し、この原画像と関連する情報を提供する画像検索システム、画像検索装置およびコンピュータプログラムに関する。

携帯端末にはカメラ機能が付与されることが普通になり、撮影対象物に向けて携帯端末をかざすように移動させるとカメラレンズの映し出す範囲が携帯端末の所定のエリアに表示される。この映し出された画像に関連する情報に対してリアルタイムにアクセスできるならば、各種プレゼンテーションや教育など多方面に応用できる。
このような観点から、携帯電話で撮影した画像に類似する画像をデータベースから抽出するシステムとして例えば、特許文献１に開示された「情報処理装置および携帯端末」がある。

特開２０１０−２０５１２１号公報

上記の特許文献１では、ユーザは画像内の注目する領域を指定し、その領域を重視した特徴点抽出・照合によって検索の精度を高めようとしている。しかしこれには以下の欠点がある。１枚の画像の中から領域を指定するためには人間の目によって区分けが必要となり、撮影画像から瞬時に検索結果を得るという用途には不向きである。じっくり腰をすえて検索しようという場合なら領域指定も良いが、例えば営業先での商品検索などあわただしい状況下での利用には使いづらい。また領域指定が難しい場合もある。例えば用紙一面に文字が印刷されているパンフレットなどを撮影する場合である。
また、特許文献１では、「画像」に動画像が含まれるか否かが明示されていない。仮に動画像が含まれるとしてもどのような処理がなされるのか言及がない。もし動画像も検索対象に含めるように機能を拡張しようとすると、人間が領域を指定する点がネックとなる。
このような点に鑑み、本発明は撮影された画像全体を検索キーとしても検索の精度を落とさず、静止画像だけでなく動画像も対象とする動画検索サービスを提供することを目的とする。

上記の目的を達成するために、本発明は、画像検索システムであって、
ユーザの入力を受け付ける入力手段と、
撮像手段により得られた静止画像又は動画像（以下、「撮影画像」）を表示する出力手段と、
表示された撮影画像の特徴点を抽出する特徴点抽出手段と、
予め収集されている画像群の特徴点が格納されている原画像特徴点データベースと、
前記抽出された撮影画像の特徴点と前記原画像特徴点データベースから取り出した特徴点と照合し、条件に合う画像（以下、「当たり画像」）を特定する情報を取り出す特徴点照合手段と、
当たり画像を特定する情報に基づいて、その当たり画像に関連する情報を取得する画像関連情報取得手段と、
を備えを備え、前記特徴点抽出手段は、動画像を特徴点抽出対象とする場合、複数枚の静止画像をとり、各静止画像の特徴点を抽出し、一連の静止画像の特徴点を集めて動画像の特徴点とすることを特徴とする。
ここで、「撮像手段」とは、携帯端末に内蔵されているカメラ機能を想定している。このような構成による発明の目的は、携帯端末に映し出された画像と類似する画像を登録されている原画像群から探しだすことであり、さまざまな応用が考えられる。第２の実施形態で記載した営業担当者が客先で本システムを利用してプレゼンテーションをするのは応用例の一つである。
「当たり画像を特定する情報」とは、画像ＩＤあるいはｈａｓｈ文字列などをいう。
本発明では、検索対象が動画像である場合、複数枚の静止画像をとり、各静止画像の特徴点を集めて動画像の特徴点とする。これにより、本発明は静止画像だけでなく動画像にも対応できることになり、例えばテレビ画面を撮影し、この特徴点からどのテレビ局の何の番組の画面であるかを判定することも可能である。

上記の目的を達成するために、本発明の画像検索システムは次の態様をとることもできる。すなわち、サーバと携帯端末が通信ネットワークを介して接続され、
前記携帯端末は、
ユーザの入力を受け付ける入力手段と、
撮像手段により得られた撮影画像を表示する出力手段と、
表示された撮影画像の特徴点を抽出する特徴点抽出手段と、
抽出された撮影画像の特徴点を前記サーバに送信して当たり画像の特定を要求する画像検索要求送信手段と、
検索結果を受信する画像検索結果受信手段と
当たり画像に関連付けられて蓄積されている情報を取得する画像関連情報取得手段と、
を備え、前記特徴点抽出手段は、動画像を特徴点抽出対象とする場合、複数枚の静止画像をとり、各静止画像の特徴点を抽出し、一連の静止画像の特徴点を集めて動画像の特徴点とするとともに、
前記サーバは、
原画像の特徴点が格納されている原画像特徴点データベースと、
前記画像検索装置から受信した特徴点と前記原画像特徴点データベースから取り出した特徴点とを照合し、当たり画像を取り出す特徴点照合手段と、
を備えることを特徴とするものである。
このように、処理負荷のかかる特徴点の照合処理はサーバが担うので、大量の画像データも処理可能となり検索精度が高まる。

本発明は上記の目的を達するために、原画像の特徴点を抽出し、前記原画像特徴点データベースに登録する特徴点作成手段を備えることが好ましい。
つまり、予め特徴点集合を自動作成する機能を備えているのであるから、携帯端末の操作時にリアルタイムの特徴点照合が行えることになる。

本発明は上記の目的を達するために、前記特徴点照合手段は、撮影画像の特徴点とユークリッド距離が近い特徴点を多数もつ原画像を候補画像として抽出し、抽出した各候補画像について位置関係保存の判定処理を行い、位置関係が保存されていると判定された候補画像を当たり画像とみなすことが好ましい。
このように位置関係保存の判定処理を併用すれば、抽出結果の精度を高めることができる。撮影画像の特徴点と原画像の特徴点との距離の比較だけでは、抽出結果にノイズを含むおそれがあるからである。
「位置関係保存の判定」とは、距離的に近いと判定された撮影画像の特徴点の集合と候補画像側の特徴点の集合とのそれぞれから対応する１個の特徴点を取り出し、各集合の重心と取り出した特徴点とのベクトルを基準として他の特徴点が左右いずれの側にあるかを調べ、各集合から取り出した対応する特徴点が同じ側にあれば点数化し、点数が所定の値以上であれば位置関係が保存されていると判定することをいう。

画像の撮影から当たり画像の検索までが短時間で処理されるので、携帯端末でなんらかの画像を撮影するとただちに関連ある情報へのアクセスが可能となる。
そのため、本発明は営業支援ツールとして営業担当者が客先での商品検索及び関連情報入手に利用すると効果的である。例えば営業担当者が客先で本システムを利用してプレゼンテーションをするのも応用例の一つである。従来の画像とその関連情報とが混然一体となった営業用資料では分厚いカタログになってしまって手軽には持ち運べないし、また混乱・手落ちも発生しやすい。そこで情報を自分の携帯端末と簡単なパンフレットとに分割するわけである。この両者を相互補完的に使用することによって営業効率を上げることができる。
また本発明では、データベースには画像そのものではなくその特徴点が格納されている。その結果、著作権の問題が回避でき、またプライバシーに係わるような営業にも対応できる。

第１の実施形態のシステム構成および機能ブロックを示す図である。第１の実施形態の処理概要を示すフロー図である。第１の実施形態の原画像特徴点データベースに格納されるデータ構造を示す図である。第１の実施形態の特徴点照合処理を説明するフロー図である。第２の実施形態のシステム構成および機能ブロックを示す図である。第２の実施形態の処理概要を示すフロー図である。第２の実施形態の応用例である動画像検索処理を説明するための図である。第２の実施形態の応用例である動画像検索処理で参照される原画像関連情報記憶手段の格納データ例を示す図である。

《第１の実施形態》
以下、図面を参照しながら本発明の一実施の形態のシステム（以下、「本システム」）について説明する。

本システムは、図１に示すように、ユーザが使用する携帯端末１と画像検索サービスを提供するサーバ２と、適宜外部のＷｅｂサーバ３とから構成され、それぞれがインターネットＮなどの通信ネットワークを介して接続している。

携帯端末１は、スマートフォンのような可搬型の情報処理装置である。
携帯端末１は、入力手段４と、出力手段５と、撮像手段６と、記憶手段７と、処理手段８と、図示しない通信インターフェース手段を有する。

入力手段４には、出力手段５の画面に重ねて配置されるタッチパネルが含まれる。特徴点抽出プログラムの起動・終了の指示や、Ｗｅｂサーバ３へのアクセスなどはこの入力手段４を介して行われる。
出力手段５はディスプレイ画面が必須であり、適宜スピーカも含まれる。
撮像手段６は、カメラレンズ及び撮像素子であり、本システムで用いられる携帯端末はこのような画像撮影機能が必須である。

記憶手段７には、処理手段８による各種処理を実現するコンピュータプログラム、これらのプログラムの実行の際に必要となるパラメータ類や処理の中間結果などが格納される。本システムで使用される携帯端末は、撮影画像の特徴点を抽出するプログラムを実行するために必要なメモリを備えていることが必須である。

処理手段８は、特徴点抽出手段９、画像検索要求送信手段１０、画像検索結果受信手段１１、画像関連情報取得手段１２を有する。
特徴点抽出手段９は、撮像手段６によって画面５上に映し出された撮影画像から、特徴点を抽出する。
画像検索要求送信手段１０は、抽出された撮影画像の特徴点をサーバ２に送信する。この特徴点は画像検索のための検索キーとなるものである。検索キーとするのは特徴点であって撮影画像自体ではない。直接画像を送信すれば、著作権上の問題が発生したり、人物や人家が写ったりしているとプライバシー侵害のおそれも生ずるからである。
画像検索結果受信手段１１は、サーバ２において検索キーに相当すると判定された特徴点が抽出されたならば、その特徴点に対応する画像に関連する情報、つまりユーザが撮影した画像と関連あると考えられる情報が送信されてくるので、これを受信する。例えば、ある店の入り口を撮影した場合、その店のＷｅｂサイトのＵＲＬを受信する、といったことが考えられる。
画像関連情報取得手段１２は、サーバ２から送信された情報に基づいて、自分が撮影した画像に関連する情報にアクセスする手段である。例えば、サーバ２からＵＲＬが送信されたならば、そのＵＲＬに基づいて該当するＷｅｂサイトにアクセスする。

処理手段８に含まれる各手段９〜１２の分類は、説明の便宜のためであり、各手段が截然と分かれているわけではない。これらの手段は所定のプログラムを携帯端末１が実装することにより実現される。つまり、このシステムは携帯端末向けの応用ソフト（アプリ）として、例えばＡＰＫファイルなどの形式でユーザに提供されることを想定している。

サーバ２は、記憶手段１３と、処理手段１４と、図示しない入出力手段や通信インターフェース手段を有する情報処理装置である。

記憶手段１３は、検索対象となる情報を格納する原画像情報記憶手段１５と、各種処理の中間結果などを格納するメモリ（図示せず）やコンピュータプログラムの格納手段などから構成される。
原画像情報記憶手段１５には、原画像特徴点データベース（以下、「特徴点ＤＢ」）１６と特徴点インデックスデータベース（以下、「インデックスＤＢ」）１７と原画像関連情報データベース（以下、「関連情報ＤＢ」）１８が含まれる。これらのデータベースについては後で説明する。

サーバ２の処理手段１４は、特徴点作成手段１９と、検索キー受信手段２０と、特徴点照合手段２１と、当たり画像情報送信手段２２とを有する。
特徴点作成手段１９は、原画像の特徴点と、照合時探索用のインデックスを作成して特徴点ＤＢ１６とインデックスＤＢ１７に登録しておく。
検索キー受信手段２０は、携帯端末１から画像検索キーである特徴点情報を受信する。
特徴点照合手段２１は、受信した検索キーを、予め特徴点ＤＢ１６に登録された原画像の特徴点と照合し、最も近い特徴点を最も多く持つ原画像を、当たり画像とする。
当たり画像情報送信手段２２は、当たり画像に関する情報、例えばＵＲＬを関連情報ＤＢ１８から取り出して携帯端末１に送信する。

次に、本システムの動作について、図２に従い説明する。
サーバ２側で、原画像の特徴点と、照合時探索用のインデックスを作成しておく（ステップＳ１）。この処理は、ステップＳ２以降の処理とは独立に行われ、システム運用までに行われるとともに、システム運用開始後も適宜更新処理がなされる。
特徴点抽出には、たとえば公知のＯＲＢ（Oriented FAST and Rotated BRIEF）アルゴリズムを使用する。
（詳細は、http://www.willowgarage.com/papers/orb-efficient-alternative-sift-or-surfなどを参照）
数千〜数万の原画像の特徴点を取って特徴点ＤＢ１６及びインデックスＤＢ１７に格納する。このように特徴点の抽出をあらかじめ行っておくので特徴点照合処理が高速化できる。

特徴点ＤＢ１６には、原画像の個数分だけ特徴点情報が格納されている。データ構造は図３に示すように、原画像１個につき、特徴点が属する画像ID(intまたは原画像のhash文字列)、原画像から取得した特徴点の数（画像により巾がある）、特徴点ベクトルの値(３２個のint値)を有する。
さらに、縮小画像から取得した特徴点の数と特徴点ベクトルの値、および拡大画像から取得した特徴点の数と特徴点ベクトルの値も有する。
ここで注意することは原画像そのもののデータは持っていないことである。特徴点ベクトルは１６方向あり、それぞれ１組のＸ座標とＹ座標の値を持つので、特徴点ベクトルの値は各特徴点につき合計３２個ある。ベクトルを１６方向と細かくとったことと、特徴点ベクトルの値の型をintとしたことによって、検索のスピードと精度を高めることができる。
この実施形態ではORBアルゴリズムを使用するが、このアルゴリズムはサイズの変化に弱いという欠点がある。この欠点を補い精度を維持するために、原画像だけでなく縮小画像および拡大画像の特徴点も同時にデータベースに格納しておく。縮小画像および拡大画像の特徴点も必要なのは、被写体が同じであっても、解像度によって特徴点の個数や抽出される特徴点が異なってくるからである。

インデックスＤＢ１７の作成には、ｆｌａｎｎ（ＦａｓｔＬｉｂｒａｒｙｆｏｒＡｐｐｒｏｘｉｍａｔｅＮｅａｒｅｓｔＮｅｉｇｈｂｏｒｓ）アルゴリズムが用いられる。ｆｌａｎｎアルゴリズムは、高次元特徴量に関するK-近傍探索の高速な近似計算法であり、これに基づいてインデックスのツリーが作成され、このツリーに沿って照合が実行されていく。具体的にはＯｐｅｎＣＶ（ＯｐｅｎＳｏｕｒｃｅＣｏｍｐｕｔｅｒＶｉｓｉｏｎＬｉｂｒａｒｙ）を利用するわけであるが、公知であり且つ関数の利用レベルになるのでその詳細は省略する。

関連情報ＤＢ１８には、特徴点が属する画像ID（あるいはhash文字列）と対応づけて、その画像と関連のある情報が格納されている。

次に、携帯端末１が、カメラレンズをかざして画面上に映し出した画像から、特徴点を抽出する（ステップＳ２）。１画像につき特徴点の個数は数百になることもある。抽出のアルゴリズムはステップＳ１とまったく同じである。
抽出された特徴点は画像検索キーとしてサーバ２に送信される（ステップＳ３）。

サーバ２は受信した特徴点を、登録された原画像の特徴点と照合する（ステップＳ４）。
図４にしたがい、特徴点の照合処理を説明する。
原画像の個数をＪ個とし、ステップＳ１０１でループ変数ｊを１に初期化する。次に特徴点ＤＢ１６から原画像の特徴点データを取り出して（ステップＳ１０２）、検索キーの各特徴点にユークリッド距離が最も近い特徴点の個数を点数化し、記憶手段１３に中間処理結果として格納する（ステップＳ１０３）。格納する情報は、検索キーのどの特徴点がどの原画像のどの特徴点と対応するかであり、位置関係保存の判定処理で参照される。ステップＳ１０４では、ｊ＝Ｊであるかを判定し、ｊ＝Ｊでなければ、ループ変数ｊに１を加算し（ステップＳ１０５）、ステップＳ１０２へ戻って同様に処理を繰り返す。
ｊ＝Ｊであれば、中間処理結果から最も点数の高い原画像を候補画像としてＫ個抽出する（ステップＳ１０６）。ここまでは、ノイズ除去は考慮しない。つまり全データをシグナル（＝本来のデータ）とみなして処理するので候補画像は多めに採用されることになる。

以下の処理はノイズを除去することを主眼とする。ノイズ除去にも色々な手法があるが、本発明では位置関係が保存されているか否かを判定することにより行う。
この処理は、対応関係をよりグローバルにチェックする処理といえる。ノイズにはグローバルな法則性はないと考えられるから、ノイズがあるために採用されることになった画像はこの段階で排除されることになる。
先ずステップＳ１０７で、ループ変数ｋを１に初期化する。このｋは、前段で設定された採用候補画像数＝Ｋまで、後段でカウントアップされていくことになる。あわせてステップＳ１０７では、カウンタ変数ｉを０に初期化する。
次にステップＳ１０８で、抽出した原画像について、最も点数の高い順に位置関係の保存を調べる。即ち、携帯端末１で撮影された撮影画像の特徴点と特定の候補画像内の特徴点を1対1で対応付ける。ここで対応づけられた特徴点集合に於いて、撮影画像側の特徴点集合をサブセットＡとし、候補画像側の特徴点集合をサブセットＢとする。サブセットＡはステップＳ１０３において中間処理結果として格納された検索キーの特徴点の集合であり、サブセットＢはある原画像の特徴点の集合である。
サブセットＡおよびサブセットＢのそれぞれについて、特徴点の位置から重心Ｇａ，Ｇｂを計算する。
次に、サブセットＡ側から２点を取り、点1A、点2Aとする。点1A、点2Aに対応するサブセットＢ内の点を点1B、点2Bとする。重心Ｇａ―＞点1Aに対する点2Aの左右の位置と、重心Ｇｂ―＞点1Bに対する点2Bの左右の位置が同じかを調べる。これを全ての2点の組み合わせで調べ、一致している個数の全体に対する割合を計算する。この割合が予め設定してあった閾値以上であれば、位置関係が保存されていると判定する。つまりその候補画像は、ノイズチェックもパスしたことになる。

位置関係が保存されていれば（ステップＳ１０８でＹｅｓ）、カウンタ変数ｉをインクリメントし、この原画像を中間処理結果として保存しておく（ステップＳ１０９）。続いて、ｋ＝Ｋであるかを判定し（ステップＳ１１０）、ｋ＝Ｋでなければ、ループ変数ｋに１を加算し（ステップＳ１１１）、ステップＳ１０８へ戻って同様に処理を繰り返す。
ｋ＝Ｋであれば（ステップＳ１１０でＹｅｓ），位置関係保存のチェックにパスした原画像があるか否かを判定する（ステップＳ１１２）。パスした原画像があれば（ステップＳ１１２でＹｅｓ），ｉ個の原画像の中でステップＳ１０８における一致率が最も高いものを当たり画像とする（ステップＳ１１３）。
パスした原画像が一つもなければ（ステップＳ１１２でＮｏ）、当たり画像はないとみなしてもよいが、次のようにユーザに当たり画像を提示してもよい（ステップＳ１１４）。すなわち、Ｋ個の中から予め定めてある上限値Ｋ２までを当たり画像と見なす（Ｋ＞Ｋ２＞＝１）。Ｋ２個選ぶ基準については予めルールを決めておく。ステップＳ１０３で得られた点数を重視するか、あるいはステップＳ１０８で得られた一致率を重視するかなどである。

サーバ２は、当該当たり画像に関連する情報を関連情報ＤＢ１８から取り出して携帯端末１に送信する（ステップＳ５）。
携帯端末１は、サーバ２から受信した情報にもとづいて、撮影画像に関連する情報の提供を受ける（ステップＳ６）。例えば、提供を受けた情報がＵＲＬであれば、このＵＲＬに基づいてＷｅｂサーバ３にアクセスしてＷｅｂページを取得して画面に表示させる。
このように本システムは、携帯端末のカメラで撮影した画像について、関連する情報をその場で取得し表示させることができるので、ビジネス、教育、娯楽などさまざまな場面で活用することが期待される。

《第２の実施形態》
以下、本発明の第２の実施の形態のシステムについて説明する。
このシステムは第１の実施の形態と比べ、携帯端末において画像の撮影、特徴点の抽出、登録済原画像の特徴点との照合、当たり画像のＩＤ取り出しまでを行い、サーバには当たり画像に関する情報の問い合わせのみを行う点で第１の実施形態と相違する。
以下、図面を参照しながら主に第１の実施形態との相違点を説明する。図中、第１の実施形態と機能が同じものには同一の符号を付する。

《１．本システムの構成》
本システムは、図５に示すように、ユーザが使用する携帯端末１０１と画像検索を利用した情報提供サービスを行うサーバ１０２と、適宜外部のＷｅｂサーバ３とから構成され、それぞれがインターネットＮなどの通信ネットワークを介して接続している。

携帯端末１０１は、スマートフォンのような可搬型の情報処理装置である。
携帯端末１０１は、入力手段４と、出力手段５と、撮像手段６と、記憶手段１０３と、処理手段１０４と、図示しない通信インターフェース手段を有する。

記憶手段１０３は、検索対象となる情報を格納する原画像情報記憶手段１０５と、各種処理の中間結果などを格納するメモリ（図示せず）やコンピュータプログラムの格納手段などから構成される。本システムで使用される携帯端末は、撮影画像の特徴点を抽出するプログラムや特徴点同士を照合するプログラムを実行するために必要なメモリを備えていることが必須である。
原画像情報記憶手段１０５には、原画像特徴点データベース（以下、「特徴点ＤＢ」）１０６が含まれる。特徴点ＤＢ１０６については後で説明する。

処理手段１０４は、特徴点抽出手段１０７、特徴点照合手段１０８、当たり画像情報取得手段１０９、画像関連情報取得手段１１０を有する。
特徴点抽出手段１０７は、撮像手段６によって画面５上に映し出された撮影画像から、特徴点を抽出する。
特徴点照合手段１０８は、撮影画像から抽出した特徴点を、予め特徴点ＤＢ１０６に登録された原画像の特徴点と照合し、最も近い特徴点を最も多く持つ原画像を当たり画像とする。
当たり画像情報取得手段１０９は、当たり画像に関する情報をサーバ１０２に要求し、受信する。
画像関連情報取得手段１１０は、サーバ１０２から送信された情報に基づいて、自分が撮影した画像に関連する情報にアクセスする手段である。例えば、サーバ１０２からＵＲＬが送信されたならば、そのＵＲＬに基づいて該当するＷｅｂサーバ３にアクセスし、取得したＷｅｂページを画面５に表示させる。

処理手段１０４に含まれる各手段１０７〜１１０の分類は、説明の便宜のためであり、各手段が截然と分かれているわけではない。これらの手段はＡＰＫファイルの形式で提供されるプログラムを携帯端末１０１が実装することにより実現される。つまり、このシステムは携帯端末向けの応用ソフト（アプリ）としてユーザに提供されることを想定している。ただし、第１の実施形態と異なり、原画像の特徴点データもアプリとともに提供される。

サーバ１０２は、記憶手段１１１と、処理手段１１２と、図示しない入出力手段や通信インターフェース手段を有する情報処理装置である。

記憶手段１１１には、原画像に関連する情報を格納する原画像関連情報記憶手段１１３を有する。
処理手段１１２には、携帯端末１０１から要求された当たり画像に関する情報を送信する当たり画像情報送信手段１１４を有する。

次に、本システムの動作について、図６に従い説明する。
アプリとともに、原画像の特徴点を格納した特徴点ＤＢ１０６を記憶手段１０３に格納しておく（ステップＳ２０１）。特徴点ＤＢ１０６の格納は、ステップＳ２０２以降の処理とは独立に行われ、アプリの実装時に行われるとともに、適宜更新も可能である。このように、予め特徴点集合を準備しているので、リアルタイムに特徴点の照合が行える。

特徴点抽出のアルゴリズムは、第１の実施形態と同様である。
ただし原画像の個数は、携帯端末１０１のメモリ容量およびＣＰＵの能力を考慮すると、50〜60個くらいが適当である。
この実施形態では、第１の実施形態と異なりインデックスＤＢは予め作成しない。原画像の個数も５０個程度と少ないことから、撮影画像の特徴点と照合する際、原画像の特徴点データを読み込んだ時にインデックスを作成してメモリ上に持つようにする。

特徴点ＤＢ１０６には、原画像の個数分だけ特徴点情報が格納されている。データ構造は第１の実施形態と同様であって図３に示すように、原画像１個につき、特徴点が属する画像ID(intまたは原画像のhash文字列)、原画像から取得した特徴点の数、特徴点ベクトルの値(32個の整数値)を有する。さらに、縮小画像から取得した特徴点の数と特徴点ベクトルの値、および拡大画像から取得した特徴点の数と特徴点ベクトルの値も有する。

カメラレンズをかざして画面上に映し出した撮影画像から、特徴点を抽出する（ステップＳ２０２）。抽出のアルゴリズムはステップＳ２０１とまったく同じであり、特徴点の個数は数百個くらいである。
撮影画像の特徴点と登録された原画像の特徴点と照合する（ステップＳ２０３）。
各特徴点に対して、最も近い特徴点を多数持つ原画像データを候補画像として抽出した後、各候補画像について位置関係保存の判定を行い、当たり画像を決定する（ステップＳ２０４）のは、第１の実施形態と同様である。

サーバ１０２側に当たり画像のIDを送信する（ステップＳ２０５）。
サーバ１０２は受信したIDに応じた当たり画像の情報を原画像関連情報記憶手段１１３から取り出して送信する（ステップＳ２０６）。
サーバ１０２から受信した当たり画像の情報に応じて、コンテンツを表示する（ステップＳ２０７）。

この第２の実施形態の活用例として、営業担当の社員に本実施形態の携帯端末を持たせる場合について説明する。
普通、営業担当者は商品情報を載せたパンフレットを客先に持参するが、このパンフレットは客によって変わる。そうでなければ分厚いカタログになってしまう。また時間と共に変化する（値段、在庫の有無、情報用サイトのＵＲＬなど）。その度に新しいパンフレットを作成するわけにはいかない。そこで本発明を活用することになる。
先ずその客に関連のありそうな商品（５０個程度）を撮影して特徴点ＤＢ１０６を作成し、自分の携帯端末１０１に格納する。もちろん作成済みのものをそのまま利用してもよいし、
作成済みのものをコンパクト化してもよい。あるいは臨機応変に客先を訪問する直前に作成してもよい。このように本願発明のシステムを携帯端末に実装すると、極めてハンディーな営業支援ツールとなるのである。なお原画像を撮影する際は後の画像照合を考慮して、通常の画像・縮小画像・拡大画像の３種類を撮る。更に印刷してその客向けの当座のパンフレットを作成してもよい。商品のパンフレットを原画像にするのは、それが最も変化しにくいからである（パンフレットの更新は、新モデルが追加された時ぐらいで頻繁にはないと考えられる）。関連情報（例：ＷｅｂサイトのＵＲＬ）の変化などはパンフレットと無関係に自分の携帯端末だけで吸収しておけばよい。
営業担当者はそのパンフレットと携帯端末を客先に持参する。客先でパンフレットの説明をする際、そのパンフレットの上で携帯端末１０１のカメラレンズをかざすようにして撮影する。携帯端末１０１の処理手段１０４は特徴点の抽出および格納済の特徴点との照合を行い、撮影されたパンフレットはどれかを認識する。認識されたパンフレットに関連するさらに詳しい情報を画面に表示する。
このようにすれば、営業担当者は携帯端末１０１とせいぜい５０商品程度のパンフレットしか持参しなくても、客先で適切かつ詳細な説明をしたり、客の質問に答えたりすることが可能となる。

この第２の実施形態の他の活用例として、動画像の検索がある。
ここでは、図７の左側に示すような順で出現する静止画像Ｆ１、Ｆ２、Ｆ３及びＦ４を含む動画像を例に説明する。動画像の場合は、特徴点ＤＢ１０６には各静止画像の特徴点データを格納する。特徴点ＤＢ１０６にはこれら４画像の特徴点データが格納されるとともに、各画像には一意の画像ＩＤ（あるいはhash文字列）が対応づけられている。なお、特徴点ＤＢ１０６には静止画像か動画像かを区別する情報は設定されていない。携帯端末１０１の撮像手段６をこの動画像にかざすと静止画像Ｆ１〜Ｆ４のそれぞれと同一でなくとも類似した静止画像Ｕ１〜Ｕ４を取得でき、これら静止画像から抽出した特徴点を特徴点ＤＢ１０６中の特徴点データと照合する。その結果、当たり画像としてＦ１→Ｆ２→Ｆ３→Ｆ４の順で抽出される。携帯端末１０１は、サーバ１０２にこれらの当たり画像の画像ＩＤを送信する。
サーバ１０２は、図８にデータ格納例を示すような原画像関連情報記憶手段１１３を参照してＦ１〜Ｆ４に対応する動画像の関連情報を抽出し、携帯端末１０１に送信する。
図８に示すように携帯端末１０１の画面には動画像（Ｄ１）が表示されていたが、サーバ１０２から関連情報を受信すると、画面表示を関連情報（Ｄ２）に変更する。携帯端末１０１は画面表示されたＵＲＬをもとにＷｅｂサーバ３にアクセスなどして当該動画像と関連ある情報を収集することができる。
なお、図８で画像ＩＤ欄に１個のＩＤが登録されているのは原画像が静止画像の場合である。携帯端末１０１における特徴点抽出と特徴点照合の各処理では撮影画像が静止画像か動画像かは区別せず、サーバ１０２側で受信した画像ＩＤによって静止画像か動画像かが区別できる。

上記の第１〜第２の実施形態の処理フローやデータベースの構造は例示にすぎず、これらに限るものではない。たとえば、特徴点抽出のアルゴリズムとしてＯＲＢを用いていたが、これに限るものではない。
また、第２の実施形態では、当たり画像に関連する情報をサーバに問い合わせているが、携帯端末に原画像に対応付けて関連情報も格納しておき、当たり画像が見つかれば、この関連情報を参照して画面表示してもよい。
さらに、本願発明の動画検索機能を、例えば現在放送中のテレビ番組を特定するために用いることも可能である。サーバ側で各テレビ局の番組の画像から逐次特徴点を抽出しキューに格納する。一方、あるテレビ番組を見ているユーザは携帯端末のカメラ機能で撮影して特徴点を抽出し、サーバに送信する。サーバは受信した特徴点をキューに格納済の特徴点データと照合し、どのテレビ局が現在放送している番組であるかを特定する。このテレビ番組を特定する機能は、視聴率の推定をはじめ種々の分野での利用が考えうる。

携帯端末のカメラ機能で撮影した画像に関連する情報を、リアルタイムで画面表示などができるので、特に客先での営業支援ツールとして有効である。また、携帯端末に情報誌のような役割も持たせることにより携帯端末の可能性をさらに拡げることができる。

１：携帯端末、２：サーバ２、３：Ｗｅｂサーバ、
４：入力手段、５：出力手段６：撮像手段、７：記憶手段、８：処理手段、
９：特徴点抽出手段、１０：画像検索要求送信手段、１１：画像検索結果受信手段、
１２：画像関連情報取得手段、１３：記憶手段、１４：処理手段、
１５：原画像情報記憶手段、
１６：原画像特徴点データベース（特徴点ＤＢ）、
１７：特徴点インデックスデータベース（インデックスＤＢ）、
１８：原画像関連情報データベース（関連情報ＤＢ）、
１９：特徴点作成手段、２０：検索キー受信手段、２１：特徴点照合手段、
２２：当たり画像情報送信手段
１０１：携帯端末、１０２：サーバ、１０３：記憶手段、１０４：処理手段、
１０５：原画像情報記憶手段、１０６：原画像特徴点データベース（特徴点ＤＢ）、
１０７：特徴点抽出手段、１０８：特徴点照合手段、１０９：当たり画像情報取得手段、１１０：画像関連情報取得手段、１１１：記憶手段、１１２：処理手段、
１１３：原画像関連情報記憶手段、１１４：当たり画像情報送信手段、
Ｎ：インターネット

Claims

ユーザの入力を受け付ける入力手段と、
撮像手段により得られた静止画像又は動画像（以下、「撮影画像」）を表示する出力手段と、
表示された撮影画像の特徴点を抽出する特徴点抽出手段と、
予め収集されている画像群の特徴点が格納されている原画像特徴点データベースと、
前記抽出された撮影画像の特徴点と前記原画像特徴点データベースから取り出した特徴点と照合し、条件に合う画像（以下、「当たり画像」）を特定する情報を取り出す特徴点照合手段と、
当たり画像を特定する情報に基づいて、その当たり画像に関連する情報を取得する画像関連情報取得手段と、を備え、
前記特徴点抽出手段は、動画像を特徴点抽出対象とする場合、複数枚の静止画像をとり、各静止画像の特徴点を抽出し、一連の静止画像の特徴点を集めて動画像の特徴点とする、ことを特徴とする画像検索システム。
サーバと携帯端末が通信ネットワークを介して接続され、
前記携帯端末は、
ユーザの入力を受け付ける入力手段と、
撮像手段により得られた撮影画像を表示する出力手段と、
表示された撮影画像の特徴点を抽出する特徴点抽出手段と、
抽出された撮影画像の特徴点を前記サーバに送信して当たり画像の特定を要求する画像検索要求送信手段と、
検索結果を受信する画像検索結果受信手段と
当たり画像を特定する情報に基づいて、関連情報を取得する画像関連情報取得手段と、
を備え、前記特徴点抽出手段は、動画像を特徴点抽出対象とする場合、複数枚の静止画像をとり、各静止画像の特徴点を抽出し、一連の静止画像の特徴点を集めて動画像の特徴点とするとともに、
前記サーバは、
原画像の特徴点が格納されている原画像特徴点データベースと、
前記携帯端末から受信した特徴点と前記原画像特徴点データベースから取り出した特徴点とを照合し、当たり画像を特定する情報を取り出す特徴点照合手段と、
を備えることを特徴とする画像検索システム。