JP2014229063A

JP2014229063A - 画像検索装置、方法、及びプログラム

Info

Publication number: JP2014229063A
Application number: JP2013108047A
Authority: JP
Inventors: 眞哉村田; Shinya Murata; 永野　秀尚; Hidenao Nagano; 秀尚永野; 向井　良; Ryo Mukai; 良向井; 柏野　邦夫; Kunio Kashino; 邦夫柏野; 佐藤　真一; Shinichi Sato; 真一佐藤
Original assignee: Nippon Telegraph and Telephone Corp; Research Organization of Information and Systems
Current assignee: Nippon Telegraph and Telephone Corp; Research Organization of Information and Systems
Priority date: 2013-05-22
Filing date: 2013-05-22
Publication date: 2014-12-08
Anticipated expiration: 2033-05-22
Also published as: JP5979444B2

Abstract

【課題】より高精度にインスタンスを示す画像を検索する。【解決手段】特徴集約集計部１２が、インスタンス画像群から抽出された局所特徴を集約した集約特徴の出現回数を示すインスタンス特徴ＤＢ３２を作成し、第１特徴照合集計部１５が、インスタンス領域の局所特徴と集約特徴とを照合して、インスタンス領域における各集約特徴の出現回数を示すインスタンス領域特徴ＤＢ３３を作成し、第２特徴照合集計部１８が、映像群のフレーム画像の局所特徴と集約特徴とを照合して、各映像における各集約特徴の出現回数を示す映像特徴ＤＢ３４を作成し、識別性度合計算部１９が、各集約特徴の識別性度合を示す識別性度合ＤＢ３５を作成し、検索ランキング部２０が、各ＤＢから取得した値を用いて、インスタンス領域の局所特徴を考慮した映像毎の評価値ＢＭ２５Ｍに基づく検索結果を作成する。【選択図】図１

Description

本発明は、画像検索装置、方法、及びプログラムに関する。

従来、特定の人、物、場所等であるインスタンスを示す画像をクエリとして、大規模画像データベースからインスタンスを含む画像を検索することが行われている。例えば、データベースにある映像のフレーム画像群から局所画像特徴量を抽出し、大規模なbag-of-visual-words（ＢＯＶＷ）を構築し、クエリ画像及び映像をこのＢＯＶＷ上の高次元の特徴ベクトルで表現し、クエリ画像と映像との間の特徴ベクトル間の類似度に基づいて、インスタンスを含む映像を検索する技術、つまりクエリ画像と映像との類似尺度を使用した映像検索技術が提案されている（例えば、非特許文献１参照）。

Cai-Zhi Zhu et al., "Large Vocabulary Quantization for Searching Instances from Videos.", In Proc. of ICMR'12, 2012.

本発明は、従来技術とは異なるアプローチにより、より高精度にインスタンスを示す画像を検索することができる画像検索装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、本発明の画像検索装置は、クエリとなるインスタンスを含むインスタンス画像、前記インスタンス画像内の前記インスタンスを示す領域、及び検索対象となる複数のフレーム画像からなる画像群の各フレーム画像から複数の特徴を抽出する特徴抽出手段と、前記特徴抽出手段によりインスタンス画像から抽出された複数の特徴から、重複する特徴を集約した集約特徴の各々の前記インスタンス画像における前記インスタンス毎の第１出現頻度を集計する特徴集約集計手段と、前記集約特徴の各々と前記インスタンスを示す領域から抽出された複数の特徴とを照合し、前記集約特徴の各々の前記インスタンスを示す領域における第２出現頻度を集計する第１特徴照合集計手段と、前記集約特徴の各々と前記フレーム画像から抽出された複数の特徴とを照合し、前記集約特徴の各々の前記画像群における第３出現頻度を集計する第２特徴照合集計手段と、前記第３出現頻度に基づいて、前記画像群における該集約特徴の出現頻度が低いほど高くなる識別性度合を、前記集約特徴の各々について計算する識別性度合計算手段と、前記集約特徴の各々の前記識別性度合、前記第１出現頻度、前記第２出現頻度、及び前記第３出現頻度、前記画像群に含まれる集約特徴の数に関する画像群長、並びに前記インスタンスを示す領域に含まれる集約特徴の数に関する画像長に基づいて定まる各集約特徴の重要度の和で表される検索対象のインスタンスに対する各画像群の評価値を求め、前記評価値に基づく検索結果を作成する検索結果作成手段と、を含んで構成されている。

本発明の画像検索装置によれば、特徴抽出手段が、クエリとなるインスタンスを含むインスタンス画像から複数の特徴を抽出する。ここでは、一つのインスタンスまたは複数のインスタンスの各々を示す一つのインスタンス画像または複数のインスタンス画像の各々から複数の特徴を抽出する。そして、特徴集約集計手段が、特徴抽出手段によりインスタンス画像から抽出された複数の特徴から、重複する特徴を集約した集約特徴の各々のインスタンス画像におけるインスタンス毎の第１出現頻度を集計する。

また、特徴抽出手段が、インスタンス画像内のインスタンスを示す領域から複数の特徴を抽出する。そして、第１特徴照合集計手段が、集約特徴の各々とインスタンスを示す領域から抽出された複数の特徴とを照合し、集約特徴の各々のインスタンスを示す領域における第２出現頻度を集計する。また、特徴抽出手段が、検索対象となる複数のフレーム画像からなる画像群の各フレーム画像から複数の特徴を抽出する。そして、第２特徴照合集計手段が、集約特徴の各々とフレーム画像から抽出された複数の特徴とを照合し、集約特徴の各々の画像群における第３出現頻度を集計する。さらに、識別性度合計算手段が、第３出現頻度に基づいて、画像群における集約特徴の出現頻度が低いほど高くなる識別性度合を、集約特徴の各々について計算する。

そして、検索結果作成手段が、集約特徴の各々の識別性度合、第１出現頻度、第２出現頻度、及び第３出現頻度、画像群に含まれる集約特徴の数に関する画像群長、並びにインスタンスを示す領域に含まれる集約特徴の数に関する画像長に基づいて定まる各集約特徴の重要度の和で表される検索対象のインスタンスに対する各画像群の評価値を求め、評価値に基づく検索結果を作成する。

このように、インスタンス画像内のインスタンスを示す領域から抽出された特徴を、検索結果を作成するための評価値に考慮することにより、より高精度にインスタンスを示す映像を検索することができる。

また、前記特徴集約集計手段は、検索対象として新たに追加されたインスタンスを含むインスタンス画像から抽出された特徴のうち、前記集約特徴に含まれない追加特徴に基づいて、前記第１出現頻度の集計結果を更新し、前記第１特徴照合集計手段は、前記追加特徴と前記インスタンス領域から抽出された複数の特徴とを照合し、前記第２出現頻度を更新し、前記第２特徴照合集計手段は、前記追加特徴と前記フレーム画像から抽出された複数の特徴とを照合し、前記第３出現頻度を更新し、前記識別性度合計算手段は、更新された前記第３出現頻度に基づいて、前記識別性度合を再計算し、前記検索結果作成手段は、再計算された識別性度合、更新された前記第１出現頻度、更新された前記第２出現頻度、及び更新された前記第３出現頻度に基づいて、前記新たに追加されたインスタンスに対する検索結果を作成することができる。これにより、追加分の処理を行うだけで、追加されたインスタンスについても高精度にインスタンスを示す画像を検索することができる。

また、本発明の画像検索装置は、前記インスタンス画像に含まれるインスタンスを示す領域に対応したマスク画像を用いて、前記インスタンス画像をマスキングすることにより、前記インスタンスを示す領域を表す画像を作成するマスキング処理手段を含んで構成することができる。これにより、インスタンス画像から容易にインスタンスを示す領域を抽出することができる。

また、前記検索結果作成手段は、前記検索結果に前記画像群のファイル名、または前記画像群のファイル名と該画像群の評価値とを含めることができる。検索結果は評価値に基づいて作成されればよく、様々な形態の検索結果を作成可能である。

また、本発明の画像検索方法は、特徴抽出手段と、特徴集約集計手段と、第１特徴照合集計手段と、第２特徴照合集計手段と、識別性度合計算手段と、検索結果作成手段とを含む画像検索装置における画像検索方法であって、前記特徴抽出手段が、クエリとなるインスタンスを含むインスタンス画像、前記インスタンス画像内の前記インスタンスを示す領域、及び検索対象となる複数のフレーム画像からなる画像群の各フレーム画像から複数の特徴を抽出し、前記特徴集約集計手段が、前記特徴抽出手段によりインスタンス画像から抽出された複数の特徴から、重複する特徴を集約した集約特徴の各々の前記インスタンス画像における前記インスタンス毎の第１出現頻度を集計し、前記第１特徴照合集計手段が、前記集約特徴の各々と前記インスタンスを示す領域から抽出された複数の特徴とを照合し、前記集約特徴の各々の前記インスタンスを示す領域における第２出現頻度を集計し、前記第２特徴照合集計手段が、前記集約特徴の各々と前記フレーム画像から抽出された複数の特徴とを照合し、前記集約特徴の各々の前記画像群における第３出現頻度を集計し、前記識別性度合計算手段が、前記第３出現頻度に基づいて、前記画像群における該集約特徴の出現頻度が低いほど高くなる識別性度合を、前記集約特徴の各々について計算し、前記検索結果作成手段が、前記集約特徴の各々の前記識別性度合、前記第１出現頻度、前記第２出現頻度、及び前記第３出現頻度、前記画像群に含まれる集約特徴の数に関する画像群長、並びに前記インスタンスを示す領域に含まれる集約特徴の数に関する画像長に基づいて定まる各集約特徴の重要度の和で表される検索対象のインスタンスに対する各画像群の評価値を求め、前記評価値に基づく検索結果を作成する方法である。

また、本発明の画像検索プログラムは、コンピュータを、上記の画像検索装置を構成する各手段として機能させるためのプログラムである。

以上説明したように、本発明の画像検索装置、方法、及びプログラムによれば、インスタンス画像内のインスタンスを示す領域から抽出された特徴を、検索結果を作成するための評価値に考慮することにより、より高精度にインスタンスを示す映像を検索することができる、という効果が得られる。

第１の実施の形態に係る映像検索装置の構成を示す概略図である。インスタンス画像のデータ構造の一例を示す図である。局所特徴のデータ構造の一例を示す図である。集約特徴ＤＢのデータ構造の一例を示す図である。インスタンス特徴ＤＢのデータ構造の一例を示す図である。マスクされたインスタンス画像の作成方法を説明するためのイメージ図である。インスタンス領域特徴ＤＢのデータ構造の一例を示す図である。映像特徴ＤＢのデータ構造の一例を示す図である。識別性度合ＤＢのデータ構造の一例を示す図である。検索結果のデータ構造の一例を示す図である。第１の実施の形態における映像検索処理ルーチンの内容を示すフローチャートである。第２の実施の形態に係る映像検索装置の構成を示す概略図である。追加特徴ＤＢのデータ構造の一例を示す図である。更新された集約特徴ＤＢのデータ構造の一例を示す図である。更新されたインスタンス特徴ＤＢのデータ構造の一例を示す図である。評価結果を示す図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜各実施の形態の概要＞

各実施の形態では、インスタンス（実例）を示す画像（以下、「インスタンス画像」という）を入力とし、大規模映像データベースからインスタンスを含む映像を検索し、検索結果を出力する映像検索装置に、本発明の画像検索装置を適用した場合について説明する。各実施の形態に係る映像検索装置は、インスタンス画像またはインスタンス画像群の局所特徴、及び各インスタンス画像内におけるインスタンスを示す領域（以下、「インスタンス領域」という）の局所特徴に基づいて、インスタンスを含む映像の検索（以下、「インスタンス検索」ともいう）を高精度に行うインスタンス検索システムを実現するものである。

各実施の形態では、Ｗｅｂページのキーワード検索でよく用いられる確率的検索手法であるＢＭ２５（Best Match 25）と呼ばれるランキング手法を、インスタンス検索に応用する。ＢＭ２５を応用する際、インスタンス領域の局所特徴の効果をＢＭ２５に考慮することで、インスタンス検索の検索精度を向上させる。各実施の形態では、インスタンス領域を示す画像として、マスキング処理によりマスクされたインスタンス画像を作成することに由来して、インスタンス領域の局所特徴の効果を考慮したＢＭ２５を、「ＢＭ２５Ｍ（ＢＭ２５ with Masked query）」と呼ぶ。

また、各実施の形態では、局所特徴の識別性を表す指標に注目し、識別性を表す指標の低い局所特徴を枝刈り（ステミング）することで、ＢＭ２５本来の検索性能を引き出す。

＜第１の実施の形態＞
第１の実施の形態に係る映像検索装置１０は、ＣＰＵと、ＲＡＭと、後述する映像検索処理ルーチンを実行するためのプログラムを記憶したＲＯＭとを備えたコンピュータで構成されている。このコンピュータは、機能的には、図１に示すように、インスタンス画像特徴抽出部１１、特徴集約集計部１２、マスキング処理部１３、インスタンス領域特徴抽出部１４、第１特徴照合集計部１５、フレーム画像抽出部１６、フレーム画像特徴抽出部１７、第２特徴照合集計部１８、識別性度合計算部１９、検索ランキング部２０、及び検索結果出力部２１を含んだ構成で表すことができる。また、映像検索装置１０には、集約特徴データベース（ＤＢ）３１、インスタンス特徴ＤＢ３２、インスタンス領域特徴ＤＢ３３、映像特徴ＤＢ３４、及び識別性度合ＤＢ３５を記憶する所定の記憶領域が設けられている。

映像検索装置１０には、インスタンス検索のクエリとして、インスタンス画像が入力される。第１の実施の形態では、インスタンス特徴ＤＢ３２を作成するため、複数のインスタンスを対象とし、インスタンスのそれぞれについて、複数のインスタンス画像からなるインスタンス画像群が入力される。例えば、インスタンスの数がｑ個で、各インスタンスについてｈ枚のインスタンス画像が用意されている場合には、ｑ個のインスタンス画像群、総数ｑ×ｈ枚のインスタンス画像が入力されることとなる。ただし、入力されるインスタンス画像は、１つのインスタンスについて１枚以上であればよい。また、インスタンスを示す映像を入力とし、その映像の各フレームをインスタンス画像群として入力してもよい。なお、１つのインスタンスに対するインスタンス画像群に含まれるインスタンス画像の数が多いほど、インスタンス検索の検索精度が向上する。

図２に、インスタンス画像のデータ構造の一例を示す。図２は、インスタンス画像がｎ×ｍ画素で構成され、各画素の画素値としてＲＧＢ値を有する場合の例であり、画素毎の位置（ｘ_ｎ，ｙ_ｍ）とＲＧＢ値（ｒ_ｎｍ，ｇ_ｎｍ，ｂ_ｎｍ）とが対応付けられたデータ構造となっている。

また、映像検索装置１０には、各インスタンス画像からインスタンス領域を抽出するためのマスク画像が入力される。マスク画像は、例えば、各インスタンス画像内のインスタンス領域の画素の画素値を“１”、インスタンス領域以外の画素の画素値を“０”とした２値化画像とすることができる。また、映像検索装置１０には、複数のフレーム画像で構成された映像を複数含む映像群が入力される。

インスタンス画像特徴抽出部１１は、映像検索装置１０に入力されたインスタンス画像群を受け付け、各インスタンス画像から特徴点を検出し、検出した特徴点の特徴量を記述した特徴ベクトルを局所特徴として抽出する。インスタンス画像特徴抽出部１１は、例えば、インスタンス画像において輝度値の変化が激しい箇所をHarris-Laplace法（「C. Harris et al., “A combined corner and edge detector.”, 4th Alvey Vision Conf., 1988.」参照）により特徴点として検出する。そして、検出した各特徴点の特徴量をCompact Color SIFT（「K. Mikolajczyk et al., “Scale and affine invariant interest point detectors.”, IJCV, 2004.」参照）により記述する。Compact Color SIFTは輝度に関する１２８次元のＳＩＦＴ特徴量に色度を表す６４次元のベクトルを追加した局所特徴量である。

図３に局所特徴のデータ構造の一例を示す。図３は、上記のCompact Color SIFTを用いた例であり、抽出された各局所特徴の識別番号（特徴１，特徴２，・・・，特徴ｉ）と１９２次元のCompact Color SIFT特徴量（特徴ベクトル）とが対応付けられたデータ構造となっている。インスタンス画像特徴抽出部１１は、インスタンス画像から抽出した局所特徴を、特徴集約集計部１２に受け渡す。

特徴集約集計部１２は、インスタンス画像特徴抽出部１１から受け渡されたインスタンス画像の局所特徴のうち、重複している局所特徴を一つに集約する。「重複している局所特徴」とは、インスタンス画像群として映像の各フレームを用いた場合などのように、ほぼ同一のインスタンス画像から同一の局所特徴が抽出された場合に、その同一の局所特徴を「重複」とみなすものである。一枚のインスタンス画像を入力とする場合、「重複している局所特徴」とは、一枚のインスタンス画像から同一の局所特徴が複数個抽出された場合に、その同一の局所特徴を「重複」とみなすものである。特徴集約集計部１２は、集約した局所特徴を集約特徴とした集約特徴ＤＢ３１を作成し、所定の記憶領域に記憶する。図４に、集約特徴ＤＢ３１のデータ構造の一例を示す。図４の例では、各集約特徴の識別番号（特徴１，特徴２，・・・，特徴ｊ）と１９２次元のCompact Color SIFT特徴量（特徴ベクトル）とが対応付けられたデータ構造となっている。このデータ構造は、インスタンス画像特徴抽出部１１により抽出された局所特徴（例えば、図３）のデータ構造と同様であるが、特徴集約集計部１２により局所特徴の数がｉからｊに集約されたことを示している。

また、特徴集約集計部１２は、各インスタンスを示すインスタンス画像群における各集約特徴の出現回数を、インスタンスの特徴としてインスタンス毎に集計し、インスタンス特徴ＤＢ３２として作成し、所定の記憶領域に記憶する。図５に、インスタンス特徴ＤＢ３２のデータ構造の一例を示す。図５は、インスタンスの数がｑ個、集約特徴の総数がｊ個の例であり、各インスタンスの識別番号（インスタンス１，・・・，インスタンスｑ）と、各集約特徴の出現回数ｋｆ（keypoint frequency）とが対応付けられたデータ構造となっている。

なお、特徴集約集計部１２は、集約された局所特徴を、例えばk-means法等によりクラスタリングして次元数を下げることにより、さらに集約してもよい。

マスキング処理部１３は、映像検索装置１０に入力されたインスタンス画像群及びマスク画像群を受け付け、インスタンス画像の各々に、対応するマスク画像を適用して、マスク画像が示すインスタンス領域に対応した領域に含まれる画素の画素値を抽出した画像を作成する。以下では、マスキング処理部１３により作成された画像を「マスクされたインスタンス画像」という。マスキング処理部１３は、作成したマスクされたインスタンス画像群を、インスタンス領域特徴抽出部１４に受け渡す。

図６にマスクされたインスタンス画像の作成の一例を示す。図６（Ａ）は、インスタンス画像の一例であり、インスタンスであるタワーを含む風景の画像である。図６（Ｂ）は、マスク画像の一例であり、インスタンスであるタワーを示す領域を白の画素、それ以外の領域を色付きの画素とした画像である。図６（Ｂ）に示すマスク画像の白の画素に対応する図６（Ａ）に示すインスタンス画像の画素の画素値を抽出することにより、図６（Ｃ）に示すようなマスクされたインスタンス画像を作成することができる。

インスタンス領域特徴抽出部１４は、局所特徴を抽出する対象がインスタンス画像ではなく、マスキング処理部１３から受け渡されたマスクされたインスタンス画像であるという点が、インスタンス画像特徴抽出部１１と異なるだけである。また、抽出される局所特徴のデータ構造も、インスタンス画像特徴抽出部１１で抽出される局所特徴のデータ構造（例えば、図３）と同様である。そのため、詳細な説明は省略する。なお、マスクされたインスタンス画像は、インスタンス領域に対応する画素の画素値のみを有する画像であるため、マスクされたインスタンス画像から抽出された局所特徴は、インスタンス領域から抽出した局所特徴ということができる。インスタンス領域特徴抽出部１４は、インスタンス領域から抽出した局所特徴を第１特徴照合集計部１５に受け渡す。

第１特徴照合集計部１５は、インスタンス領域特徴抽出部１４から受け渡されたインスタンス領域から抽出された局所特徴と、集約特徴ＤＢ３１に記憶されている各集約特徴との照合を行う。上記のCompact Color SIFTの場合、例えば、１９２次元の特徴ベクトル間のコサイン類似度（０〜１の範囲の値を取り、同一の特徴ベクトルの場合は１）を用いて、コサイン類似度が所定値以上（例えば、０．９５）の局所特徴と集約特徴とを一致する特徴と判定する。局所特徴に対して、コサイン類似度が所定値以上となる集約特徴が集約特徴ＤＢ３１に複数存在する場合には、コサイン類似度が最も大きい集約特徴をその局所特徴に一致する集約特徴と判定する。

なお、局所特徴と集約特徴との間の照合は、コサイン類似度を用いる場合に限定されず、各特徴ベクトル間の距離や類似度を測る尺度であれば、どのようなものを用いてもよい。また、特徴集約集計部１２によりクラスタリングにより局所特徴が集約されている場合には、第１特徴照合集計部１５は、集約特徴ＤＢ３１における各クラスタの重心を用いて、インスタンス領域から抽出した局所特徴との照合を行うことができる。

第１特徴照合集計部１５は、インスタンス領域から抽出された局所特徴と集約特徴ＤＢ３１に記憶されている集約特徴との照合結果に基づいて、マスクされたインスタンス画像における各集約特徴の出現回数を、インスタンスごとに集計し、インスタンス領域特徴ＤＢ３３として作成し、所定の記憶領域に記憶する。図７に、インスタンス領域特徴ＤＢ３３のデータ構造の一例を示す。図７の例では、各インスタンスの識別番号（インスタンス１，・・・，インスタンスｑ）と、マスクされたインスタンス画像における各集約特徴の出現回数ｍｋｆとが対応付けられたデータ構造になっている。

フレーム画像抽出部１６は、映像検索装置１０に入力された映像群を受け付け、例えば１ｆｐｓ（１秒間に１フレーム）のレートで各映像からフレーム画像を抽出する。フレーム画像のデータ構造は、インスタンス画像のデータ構造（例えば、図２）と同様であるため、詳細な説明は省略する。

フレーム画像特徴抽出部１７は、局所特徴を抽出する対象がインスタンス画像ではなくフレーム画像抽出部１６で抽出されたフレーム画像であるという点が、インスタンス画像特徴抽出部１１と異なるだけである。また、抽出される局所特徴のデータ構造も、インスタンス画像特徴抽出部１１で抽出される局所特徴のデータ構造（例えば、図３）と同様である。そのため、詳細な説明は省略する。

第２特徴照合集計部１８は、フレーム画像特徴抽出部１７で抽出された各局所特徴と、集約特徴ＤＢ３１に記憶されている各集約特徴との照合を行う。局所特徴と集約特徴との照合方法は、集約特徴と照合する対象が、インスタンス領域の局所特徴ではなく、フレーム画像の局所特徴であるという点が、第１特徴照合集計部１５と異なるだけであるため、詳細な説明は省略する。

また、第２特徴照合集計部１８は、フレーム画像から抽出された局所特徴と集約特徴ＤＢ３１に記憶されている集約特徴との照合結果に基づいて、各映像における各集約特徴の出現回数を集計し、映像特徴ＤＢ３４として作成し、所定の記憶領域に記憶する。図８に、映像特徴ＤＢ３４のデータ構造の一例を示す。図８の例では、映像の識別番号（映像１，・・・，映像ｖ）と、各映像における各集約特徴の出現回数ＫＦとが対応付けられたデータ構造となっている。

識別性度合計算部１９は、映像特徴ＤＢ３４を参照し、各集約特徴ｊの映像の識別性度合を示す指標ＩＤＦ_ｊ（γ）（Inverse Document Frequency）を、下記（１）式に基づいて計算する。

ここで、Ｎは映像特徴ＤＢ３４内の全映像数、ｎ_ｊは映像特徴ＤＢ３４内の全映像の中で集約特徴ｊを含む映像数であり、映像特徴ＤＢ３４において、集約特徴ｊの出現回数ＫＦ_ｊが１以上となっている映像をカウントすることにより求めることができる。集約特徴ｊが映像特徴ＤＢ３４において高い頻度で出現している場合には、集約特徴ｊはインスタンスに対する識別能力が低い集約特徴であるとみなせるため、ＩＤＦ_ｊ（γ）は小さくなる。逆に、集約特徴ｊの映像特徴ＤＢ３４における出現頻度が低い場合には、集約特徴ｊはインスタンスに対する識別能力が高い集約特徴であるとみなせるため、ＩＤＦ_ｊ（γ）は大きくなる。

γは正の整数値のパラメータで、γが大きいほど識別性の評価が厳しくなる。γ≧２の場合、（１）式内のｌｏｇの中が負になる可能性があるが、その場合のＩＤＦ_ｊ（γ）は０とする。また、ＩＤＦ_ｊ（γ）が負になる場合もＩＤＦ_ｊ（γ）＝０とする。理論的観点から言うと、識別性の低い集約特徴（局所特徴）は確率的検索モデルの背後にある仮定に反する性質を持つ事が多い。また実験からこの様な集約特徴（局所特徴）を排除する事が検索精度の向上に不可欠である事がわかっている。そこで、例えばγ＝３とすることにより、インスタンスに対する識別性の低い集約特徴を排除する。このように、識別性の低い集約特徴を排除することを、集約特徴の枝刈り（ステミング）と呼ぶ。

識別性度合計算部１９は、集約特徴ＤＢ３１に記憶されている集約特徴（特徴１，・・・，特徴ｊ）の全てについてＩＤＦ_ｊ（γ）を計算し、計算結果を識別性度合ＤＢ３５として作成し、所定の記憶領域に記憶する。図９に、識別性度合ＤＢ３５のデータ構造の一例を示す。図９の例では、集約特徴の識別番号（特徴１，・・・，特徴ｊ）と、計算されたとＩＤＦ_ｊ（γ）とが対応付けられたデータ構造になっている。

検索ランキング部２０は、各インスタンスに対してそのインスタンスが含まれている可能性のある映像候補を、入力された映像群の中から検索し、映像候補をランキングする。具体的には、まず、検索ランキング部２０は、インスタンス特徴ＤＢ３２からインスタンスｑのインスタンス画像における各集約特徴の出現回数ｋｆ_１，・・・，ｋｆ_ｊを取得する。また、検索ランキング部２０は、インスタンス領域特徴ＤＢ３３からインスタンスｑのマスクされたインスタンス画像ｍにおける各集約特徴の出現回数ｍｋｆ_１，・・・，ｍｋｆ_ｊを取得する。また、検索ランキング部２０は、映像特徴ＤＢ３４から映像ｖにおける各集約特徴の出現回数ＫＦ_１，・・・，ＫＦ_ｊを取得する。さらに、検索ランキング部２０は、識別性度合ＤＢ３５から各集約特徴の識別性度合ＩＤＦ_１（γ），・・・，ＩＤＦ_ｊ（γ）を取得する。そして、検索ランキング部２０は、下記（２）式に示すような、マスクされたインスタンス画像ｍの効果を考慮したインスタンスｑに対する映像ｖの評価値ＢＭ２５Ｍ（ｑ，ｍ，ｖ）を計算する。

ここで、ｋ_１、ｋ_２、ｂ_１、ｂ_２、及びαは設定パラメータで、例えば、ｋ_１＝２、ｋ_２＝０．５、ｂ_１＝ｂ_２＝０．７５、α＝２とすることができる。またｖｌは映像長（video length）、ａｖｖｌは平均映像長（average video length）を意味し、ｖｌは映像ｖに対応付けられた各集約特徴の出現回数ＫＦの和、ａｖｖｌは映像特徴ＤＢ３４内における各映像のｖｌの平均である。またｍｌはマスクされたインスタンス画像長（masked length）、ａｖｍｌはその平均長（average masked length）を意味し、ｍｌはマスクされたインスタンス画像ｍ内における各集約特徴の出現回数ｍｋｆの和、ａｖｍｌはインスタンス領域特徴ＤＢ３３内のマスクされたインスタンス画像全てにおけるｍｌの平均である。また、Σ_{ｑｊ，ＫＦｊ＞０}はインスタンスｑの集約特徴（ｋｆ＞０の集約特徴）の内、映像ｖに出現している集約特徴に関する和を意味する。

（２）式に示す評価値ＢＭ２５Ｍは、テキスト検索分野でよく用いられるＢＭ２５（「S. E. Robertson et al., “Some Simple Effective Approximations to the 2-Poisson Model for Probabilistic Weighted Retrieval.”, In Proc. of SIGIR'04, 1994.」参照）に、マスクされたインスタンス画像の効果を考慮したランキング手法であり、クエリを構成する特徴のある部分を強調し、その重みを検索に反映している。ＢＭ２５ＭはＢＭ２５の効果に加え、目的のインスタンスに対する重要度が高い集約特徴として、インスタンス領域から抽出された局所特徴を多く含む映像にハイスコアを与える。

検索ランキング部２０は、マスクされたインスタンス画像ｍの効果を考慮したインスタンスｑに対する各映像（映像１，・・・，映像ｖ）の評価値ＢＭ２５Ｍをそれぞれ計算し、評価値ＢＭ２５Ｍの降順で映像をランキングした検索結果を作成する。検索結果は、インスタンスの各々（インスタンス１，・・・，インスタンスｑ）について作成する。図１０に、検索結果のデータ構造の一例を示す。図１０では、各インスタンスの識別番号（インスタンス１，・・・，インスタンスｑ）と、評価値ＢＭ２５Ｍの降順で並べられた映像とが対応付けられたデータ構造となっている。

なお、検索結果は、上記のようにランキング形式にする場合に限定されず、評価値が最大となる映像のみを検索結果としてもよいし、評価値が所定値以上となる映像をランダムに並べた検索結果としてもよい。また、検索結果を、映像のファイル名としてもよいし、映像のファイル名とＢＭ２５Ｍの値としてもよい。検索結果は、ＢＭ２５Ｍの値に基づくものであれば、様々な形態をとることが可能である。

検索結果出力部２１は、検索ランキング部２０で作成された検索結果を出力する。

次に、第１の実施の形態に係る映像検索装置１０の作用について説明する。映像検索装置１０に、複数のインスタンスを示す複数のインスタンス画像群が入力されると、映像検索装置１０において、図１１に示す映像検索処理ルーチンが実行される。

ステップ１００で、インスタンス画像特徴抽出部１１が、映像検索装置１０に入力されたインスタンス画像群を受け付け、各インスタンス画像から特徴点を検出し、検出した特徴点の特徴量を記述した特徴ベクトルを局所特徴として抽出する。

次に、ステップ１０２で、特徴集約集計部１２が、上記ステップ１００で抽出された局所特徴から、重複している局所特徴を一つに集約し、集約した局所特徴を集約特徴とした集約特徴ＤＢ３１を作成し、所定の記憶領域に記憶する。また、特徴集約集計部１２が、集約特徴に基づいて、各インスタンスの特徴として、各インスタンス画像群における各集約特徴の出現回数ｋｆを示すインスタンス特徴ＤＢ３２を作成し、所定の記憶領域に記憶する。

次に、ステップ１０４で、マスキング処理部１３が、映像検索装置１０に入力されたマスク画像群を受け付け、上記ステップ１００で受け付けたインスタンス画像の各々に、対応するマスク画像を適用して、マスクされたインスタンス画像を作成する。次に、ステップ１０６で、インスタンス領域特徴抽出部１４が、上記ステップ１０４で作成された各マスクされたインスタンス画像から局所特徴を抽出する。

次に、ステップ１０８で、第１特徴照合集計部１５が、上記ステップ１０６でマスクされたインスタンス画像から抽出された各局所特徴と、上記ステップ１０２で記憶された集約特徴ＤＢ３１内の各集約特徴とを、特徴ベクトル間の類似度に基づいて照合する。そして、第１特徴照合集計部１５が、照合結果に基づいて、マスクされたインスタンス画像における各集約特徴の出現回数ｍｋｆを示すインスタンス領域特徴ＤＢ３３を作成し、所定の記憶領域に記憶する。

次に、ステップ１１０で、フレーム画像抽出部１６が、映像検索装置１０に入力された映像群を受け付け、各映像からフレーム画像を抽出する。次に、ステップ１１２で、フレーム画像特徴抽出部１７が、上記ステップ１１０で抽出された各フレーム画像から局所特徴を抽出する。

次に、ステップ１１４で、第２特徴照合集計部１８が、上記ステップ１１２でフレーム画像から抽出された各局所特徴と、上記ステップ１０２で記憶された集約特徴ＤＢ３１内の各集約特徴とを、特徴ベクトル間の類似度に基づいて照合する。そして、第２特徴照合集計部１８が、照合結果に基づいて、各映像における各集約特徴の出現回数ＫＦを示す映像特徴ＤＢ３４を作成し、所定の記憶領域に記憶する。

次に、ステップ１１６で、識別性度合計算部１９が、映像特徴ＤＢ３４を参照し、集約特徴ｊの識別性度合ＩＤＦ_ｊ（γ）を、集約特徴ＤＢ３１に記憶されている集約特徴（特徴１，・・・，特徴ｊ）の全てについて計算し、各集約特徴の識別性度合を示す識別性度合ＤＢ３５を作成し、所定の記憶領域に記憶する。

次に、ステップ１１８で、検索ランキング部２０が、インスタンス特徴ＤＢ３２からインスタンスｑのインスタンス画像における各集約特徴の出現回数ｋｆ_１，・・・，ｋｆ_ｊを取得し、インスタンス領域特徴ＤＢ３３からインスタンスｑのマスクされたインスタンス画像ｍにおける各集約特徴の出現回数ｍｋｆ_１，・・・，ｍｋｆ_ｊを取得し、映像特徴ＤＢ３４から映像ｖにおける各集約特徴の出現回数ＫＦ_１，・・・，ＫＦ_ｊを取得し、識別性度合ＤＢ３５から各集約特徴の識別性度合ＩＤＦ_１（γ），・・・，ＩＤＦ_ｊ（γ）を取得する。そして、検索ランキング部２０が、マスクされたインスタンス画像ｍの効果を考慮したインスタンスｑに対する各映像の評価値ＢＭ２５Ｍを計算し、評価値ＢＭ２５Ｍの降順で映像をランキングした検索結果を作成する。検索結果は、各インスタンスについて作成する。

次に、ステップ１２０で、検索結果出力部２１が、上記ステップ１１８で作成された検索結果を出力して、映像検索処理ルーチンを終了する。

以上説明したように、第１の実施の形態に係る映像検索装置によれば、マスクされたインスタンス画像、すなわちインスタンス領域から抽出された特徴を、目的のインスタンスに対する重要度が高い特徴としたＢＭ２５Ｍを評価値として用いることにより、より高精度にインスタンスを示す映像を検索することができる。

＜第２の実施の形態＞
第２の実施の形態では、既にインスタンス特徴ＤＢ３２に所定数のデータが蓄積されている状態で、新しく追加されたインスタンス画像をクエリとして映像を検索する場合について説明する。なお、第２の実施の形態に係る映像検索装置について、第１の実施の形態に係る映像検索装置１０と同一の構成については、同一符号を付して詳細な説明を省略する。

第２の実施の形態に係る映像検索装置２１０は、ＣＰＵと、ＲＡＭと、後述する映像検索処理ルーチンを実行するためのプログラムを記憶したＲＯＭとを備えたコンピュータで構成されている。このコンピュータは、機能的には、図１２に示すように、インスタンス画像特徴抽出部１１、特徴集約集計部２１２、マスキング処理部１３、インスタンス領域特徴抽出部１４、第１特徴照合集計部２１５、フレーム画像抽出部１６、フレーム画像特徴抽出部１７、第２特徴照合集計部２１８、識別性度合計算部２１９、検索ランキング部２０、及び検索結果出力部２１を含んだ構成で表すことができる。また、映像検索装置２１０には、集約特徴ＤＢ３１、インスタンス特徴ＤＢ３２、インスタンス領域特徴ＤＢ３３、映像特徴ＤＢ３４、識別性度合ＤＢ３５、及び追加特徴ＤＢ３６を記憶する所定の記憶領域が設けられている。

特徴集約集計部２１２は、インスタンス画像特徴抽出部１１で抽出された新しいインスタンス画像の局所特徴を受け取り、集約特徴ＤＢ３１を参照して、重複している局所特徴を排除し、新たに追加された追加特徴を抽出する。ここでは、インスタンスｑ＋１を示すインスタンス画像群が新たに入力され、追加特徴ｊ＋１が追加された場合について説明する。特徴集約集計部２１２は、追加特徴ｊ＋１を、集約特徴ＤＢ３１と同じデータ構造の追加特徴ＤＢ３６に記憶すると共に、集約特徴ＤＢ３１を追加特徴ｊ＋１の追加分だけ更新する。図１３に、追加特徴ＤＢ３６の一例を、図１４に、更新された集約特徴ＤＢ３１の一例を示す。

また、特徴集約集計部２１２は、追加されたインスタンスｑ＋１及び追加特徴ｊ＋１により、インスタンス特徴ＤＢ３２を更新する。図１５に、更新されたインスタンス特徴ＤＢ３２の一例を示す。図１５の例では、更新前のインスタンス特徴ＤＢ３２（図５）に、追加特徴ｊ＋１の列及びインスタンスｑ＋１の行が追加されている。なお、追加特徴ｊ＋１は新たに追加された集約特徴であるため、インスタンス１，・・・，インスタンスｑについての出現回数ｋｆ_ｊ＋１は０である。

第１特徴照合集計部２１５は、マスクされたインスタンス画像から抽出された局所特徴と追加特徴ＤＢ３６に記憶されている追加特徴との照合結果に基づいて、インスタンス領域特徴ＤＢ３３を更新する。局所特徴と追加特徴との照合方法は、第１の実施の形態の第１特徴照合集計部１５における局所特徴と集約特徴との照合方法と同様である。インスタンス領域特徴ＤＢ３３の更新では、各マスクされたインスタンス画像における追加特徴ｊ＋１の出現回数ｍｋｆ_ｊ＋１を集計し、追加特徴ｊ＋１の列をインスタンス領域特徴ＤＢ３３に追加する。

第２特徴照合集計部２１８は、フレーム画像から抽出された局所特徴と追加特徴ＤＢ３６に記憶されている追加特徴との照合結果に基づいて、映像特徴ＤＢ３４を更新する。局所特徴と追加特徴との照合方法は、第１の実施の形態の第２特徴照合集計部１８における局所特徴と集約特徴との照合方法と同様である。映像特徴ＤＢ３４の更新では、各映像における追加特徴ｊ＋１の出現回数ＫＦ_ｊ＋１を集計し、追加特徴ｊ＋１の列を映像特徴ＤＢ３４に追加する。

識別性度合計算部２１９は、映像特徴ＤＢ３４に追加された追加特徴ｊ＋１の出現回数ＫＦ_ｊ＋１を用いて、追加特徴ｊ＋１の識別性度合ＩＤＦ_ｊ＋１（γ）を計算し、追加特徴ｊ＋１の列を識別性度合ＤＢ３５に追加する。

次に、第２の実施の形態に係る映像検索装置２１０の作用について、第１の実施の形態と異なる点について説明する。

図１１の映像検索処理ルーチンのステップ１０２では、特徴集約集計部２１２が、ステップ１００で抽出された新しいインスタンス画像の局所特徴から、集約特徴ＤＢ３１を参照して追加特徴を抽出し、追加特徴ＤＢ３６に記憶すると共に、集約特徴ＤＢ３１を新たな追加特徴の追加分だけ更新する。また、特徴集約集計部２１２が、新たなインスタンス及び追加特徴の追加分だけ、インスタンス特徴ＤＢ３２を更新する。

ステップ１０８では、第１特徴照合集計部２１５が、ステップ１０６でマスクされたインスタンス画像から抽出された局所特徴と、上記ステップ１０２で追加特徴ＤＢ３６に記憶された追加特徴との照合結果に基づいて、追加特徴の追加分だけ、インスタンス領域特徴ＤＢ３３を更新する。

ステップ１１４では、第２特徴照合集計部２１８が、ステップ１１２でフレーム画像から抽出された局所特徴と、上記ステップ１０２で追加特徴ＤＢ３６に記憶された追加特徴との照合結果に基づいて、追加特徴の追加分だけ、映像特徴ＤＢ３４を更新する。

ステップ１１６では、識別性度合計算部２１９が、ステップ１１４で映像特徴ＤＢ３４に追加された追加特徴の識別性度合を計算し、追加特徴の追加分だけ、識別性度合ＤＢ３５を更新する。

後段の処理では、上記のように更新された各データベースを参照して、第１の実施の形態と同様に評価値ＢＭ２５Ｍを計算して、検索結果を作成すればよい。

以上説明したように、第２の実施の形態に係る映像検索装置によれば、インスタンス特徴ＤＢに所定数以上のデータが蓄積されている場合には、新たに追加されたインスタンス画像について処理するだけで、第１の実施の形態と同様に、より高精度にインスタンスを示す映像を検索することができる。

＜評価結果＞

ここで、ＴＲＥＣＶＩＤ２０１２のインスタンス検索タスクのデータセットを使用した検索精度の評価結果について説明する。ＴＲＥＣＶＩＤは毎年行われている映像検索分野のコンペティションで、アメリカのＮＩＳＴ（National Institute of Standards and Technology）が主催している。ＴＲＥＣＶＩＤ２０１２のインスタンス検索タスクでは２１個のインスタンスが用意され、それぞれに平均約５枚のインスタンス画像及びマスク画像が付与されている。そして約７万７千本の映像データベース（Ｗｅｂ上のConsumer Generated Media（ＣＧＭ））が検索対象になる。検索結果ランキングの精度は、Precision@10,20,100及びMean Average Precision（ＭＡＰ）という指標で評価した。ＭＡＰは下記（３）式で定義される。

ここで｜Ｑ｜は全インスタンス数、｜Ｒ_ｑ｜はインスタンスｑの正解映像数、ｊは映像の検索結果ランク、ｒｅｌ（ｑ，ｊ）はランクｊの映像がｑに対して正解であれば１を、不正解であれば０を返す関数である。ｃ（ｑ，ｊ）はランク１からランクｊまでに存在した正解映像の数である。全てのインスタンスに対する検索結果において、ランク１から順に正解映像が並んでいる場合、そのシステムの検索精度はＭＡＰ＝１（最高値）である。

図１６に検索精度の評価結果を示す。ＫＦ−ＩＤＦは識別性が高い集約特徴が多く含まれている映像を正解とする手法（テキスト検索におけるＴＦ−ＩＤＦによるランキング手法に対応）、ＶＳＭは集約特徴のＫＦ−ＩＤＦを重みとする、ｑとｖとの特徴ベクトル間のコサイン類似度の降順で映像をランキングする手法（テキスト検索におけるＴＦ−ＩＤＦで重み付けされたベクトル空間法に対応）である。ＢＭ２５はマスクされたインスタンス画像の局所特徴、すなわちインスタンス領域の局所特徴を考慮しない確率的検索手法であり、ＢＭ２５Ｍが本実施の形態の手法である。マスクされたインスタンス画像の局所特徴を考慮することで、ランキングの精度が改善されることがわかる。ＢＭ２５とＢＭ２５ＭとのＭＡＰの差は危険度５％水準で有意であることを確認している。

今後、映像メディアは録画や記録デバイス、ソーシャルネットワーキングサービス等の発達により爆発的に増加することが予想され、その様な状況に対処しうるロバストな映像検索技術が求められているが、本実施の形態の手法を使用することで、大規模映像データベースからの高精度なインスタンス検索を実現することが可能になる。

例えば、旅先で目にした、名前がわからない物体を検索したい場合、従来のテキスト検索ではそもそも名前がわからないためユーザの検索要求を満たすことができなかった。しかしながら、デジタルカメラやスマートフォンでその物体の写真を取り、物体の場所を指し示す情報と共にインスタンス検索システムに投入すれば、そのインスタンスが映る様々なシチュエーション下での映像を検索することが可能になる。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、上記各実施の形態では、インスタンスの検索対象の画像を映像とする場合について説明したが、検索対象の画像を静止画像とした場合にも、本発明を適用可能である。この場合、例えば１００００枚の静止画像を検索対象として入力した場合、映像中の集約特徴の出現回数ＫＦを静止画像中の集約特徴の出現回数ＫＦ’に、映像中のＫＦの総和であるｖｌを静止画像中の集約特徴の出現回数の総和であるｖｌ’に、ｖｌの平均値であるａｖｄｌをｖｌ’の平均値であるａｖｄｌ’に置き換え、上記のＢＭ２５Ｍを適用すればよい。ＩＤＦ_ｊ（γ）は１００００枚の静止画像集合の中で（１）式により計算される。

また、検索対象を静止画像とした場合には、検索結果として、静止画像のファイル名や、静止画像のファイル名とＢＭ２５Ｍの値など、ＢＭ２５Ｍの値に基づく様々な形態の検索結果を出力することができる。さらに、検索対象を映像及び静止画像の両方とした場合、検索結果として、映像と静止画像とが混在したものを出力してもよい。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

１０、２１０映像検索装置
１１インスタンス画像特徴抽出部
１２、２１２特徴集約集計部
１３マスキング処理部
１４インスタンス領域特徴抽出部
１５、２１５第１特徴照合集計部
１６フレーム画像抽出部
１７フレーム画像特徴抽出部
１８、２１８第２特徴照合集計部
１９、２１９識別性度合計算部
２０検索ランキング部
２１検索結果出力部
３１集約特徴ＤＢ
３２インスタンス特徴ＤＢ
３３インスタンス領域特徴ＤＢ
３４映像特徴ＤＢ
３５識別性度合ＤＢ
３６追加特徴ＤＢ

Claims

クエリとなるインスタンスを含むインスタンス画像、前記インスタンス画像内の前記インスタンスを示す領域、及び検索対象となる複数のフレーム画像からなる画像群の各フレーム画像から複数の特徴を抽出する特徴抽出手段と、
前記特徴抽出手段によりインスタンス画像から抽出された複数の特徴から、重複する特徴を集約した集約特徴の各々の前記複数のインスタンス画像における前記インスタンス毎の第１出現頻度を集計する特徴集約集計手段と、
前記集約特徴の各々と前記インスタンスを示す領域から抽出された複数の特徴とを照合し、前記集約特徴の各々の前記インスタンスを示す領域における第２出現頻度を集計する第１特徴照合集計手段と、
前記集約特徴の各々と前記フレーム画像から抽出された複数の特徴とを照合し、前記集約特徴の各々の前記画像群における第３出現頻度を集計する第２特徴照合集計手段と、
前記第３出現頻度に基づいて、前記画像群における該集約特徴の出現頻度が低いほど高くなる識別性度合を、前記集約特徴の各々について計算する識別性度合計算手段と、
前記集約特徴の各々の前記識別性度合、前記第１出現頻度、前記第２出現頻度、及び前記第３出現頻度、前記画像群に含まれる集約特徴の数に関する画像群長、並びに前記インスタンスを示す領域に含まれる集約特徴の数に関する画像長に基づいて定まる各集約特徴の重要度の和で表される検索対象のインスタンスに対する各画像群の評価値を求め、前記評価値に基づく検索結果を作成する検索結果作成手段と、
を含む画像検索装置。
前記特徴集約集計手段は、検索対象として新たに追加されたインスタンスを含むインスタンス画像から抽出された特徴のうち、前記集約特徴に含まれない追加特徴に基づいて、前記第１出現頻度の集計結果を更新し、
前記第１特徴照合集計手段は、前記追加特徴と前記インスタンス領域から抽出された複数の特徴とを照合し、前記第２出現頻度を更新し、
前記第２特徴照合集計手段は、前記追加特徴と前記フレーム画像から抽出された複数の特徴とを照合し、前記第３出現頻度を更新し、
前記識別性度合計算手段は、更新された前記第３出現頻度に基づいて、前記識別性度合を再計算し、
前記検索結果作成手段は、再計算された識別性度合、更新された前記第１出現頻度、更新された前記第２出現頻度、及び更新された前記第３出現頻度に基づいて、前記新たに追加されたインスタンスに対する検索結果を作成する
請求項１記載の画像検索装置。
前記インスタンス画像に含まれるインスタンスを示す領域に対応したマスク画像を用いて、前記インスタンス画像をマスキングすることにより、前記インスタンスを示す領域を表す画像を作成するマスキング処理手段を含む請求項１または請求項２記載の画像検索装置。
前記検索結果作成手段は、前記検索結果に前記画像群のファイル名、または前記画像群のファイル名と該画像群の評価値とを含める請求項１〜請求項３のいずれか１項記載の画像検索装置。
特徴抽出手段と、特徴集約集計手段と、第１特徴照合集計手段と、第２特徴照合集計手段と、識別性度合計算手段と、検索結果作成手段とを含む画像検索装置における画像検索方法であって、
前記特徴抽出手段が、クエリとなるインスタンスを含むインスタンス画像、前記インスタンス画像内の前記インスタンスを示す領域、及び検索対象となる複数のフレーム画像からなる画像群の各フレーム画像から複数の特徴を抽出し、
前記特徴集約集計手段が、前記特徴抽出手段によりインスタンス画像から抽出された複数の特徴から、重複する特徴を集約した集約特徴の各々の前記インスタンス画像における前記インスタンス毎の第１出現頻度を集計し、
前記第１特徴照合集計手段が、前記集約特徴の各々と前記インスタンスを示す領域から抽出された複数の特徴とを照合し、前記集約特徴の各々の前記インスタンスを示す領域における第２出現頻度を集計し、
前記第２特徴照合集計手段が、前記集約特徴の各々と前記フレーム画像から抽出された複数の特徴とを照合し、前記集約特徴の各々の前記画像群における第３出現頻度を集計し、
前記識別性度合計算手段が、前記第３出現頻度に基づいて、前記画像群における該集約特徴の出現頻度が低いほど高くなる識別性度合を、前記集約特徴の各々について計算し、
前記検索結果作成手段が、前記集約特徴の各々の前記識別性度合、前記第１出現頻度、前記第２出現頻度、及び前記第３出現頻度、前記画像群に含まれる集約特徴の数に関する画像群長、並びに前記インスタンスを示す領域に含まれる集約特徴の数に関する画像長に基づいて定まる各集約特徴の重要度の和で表される検索対象のインスタンスに対する各画像群の評価値を求め、前記評価値に基づく検索結果を作成する
画像検索方法。
コンピュータを、請求項１〜請求項４のいずれか１項記載の画像検索装置を構成する各手段として機能させるための画像検索プログラム。