[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP4302799B2 - 文書検索装置、方法および記録媒体 - Google Patents

文書検索装置、方法および記録媒体 Download PDF

Info

Publication number
JP4302799B2
JP4302799B2 JP26199798A JP26199798A JP4302799B2 JP 4302799 B2 JP4302799 B2 JP 4302799B2 JP 26199798 A JP26199798 A JP 26199798A JP 26199798 A JP26199798 A JP 26199798A JP 4302799 B2 JP4302799 B2 JP 4302799B2
Authority
JP
Japan
Prior art keywords
documents
document
image
similarity
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP26199798A
Other languages
English (en)
Other versions
JP2000090113A (ja
Inventor
裕信 高橋
嶐一 岡
靖英 森
理朗 向井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP26199798A priority Critical patent/JP4302799B2/ja
Publication of JP2000090113A publication Critical patent/JP2000090113A/ja
Application granted granted Critical
Publication of JP4302799B2 publication Critical patent/JP4302799B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Social Psychology (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Psychiatry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、文書および画像の検索、認識のために画像をクラスタリング(分類分け)する文書検索装置、方法および記録媒体に関する。
【0002】
【従来の技術】
(従来技術1)
パターン認識の過程を一般化すると、それは3つの過程から構成されている。
【0003】
情報の入力から認識や分類の出力までのパターン認識の過程にそって考えると、1番目の過程は入力情報から認識に適した特徴量への変換過程(特徴抽出)である。例えば画像に対するものであれば、KL展開、Wavelet変換、DCT変換等多くの特徴抽出の研究がなされている。
【0004】
2番目の過程は特徴量から判別空間への写像である。固有空間法等がその例である。
【0005】
3番目は判別空間での識別や検索である。最近傍法、k−Means法、識別関数の構成がその例である。
【0006】
またニューラルネットワークの研究について考えてみると、バックプロバケーション型の学習では、カテゴリーが出力ノードごとに対応しているので、出力層はこの判別空間であると同時に識別関数の構成にもなっている。
【0007】
同様にKohonen map(T.Kohonen: Self-Organization maps: Springer-Verlarg,(1995)やLVQなども特徴量から判別空間への写像時に識別関数を構成しており、2と3の過程が同時に行われているものもある。
【0008】
(従来技術2)
このようなパターン認識技術を使用して画像認識を行うために、類似している画像等のデータを類似するデータ同志に分類する装置を本願発明者は提案している(特願平10−139001号)。
【0009】
(従来技術3)
画像情報を含むマルチメディアデータのネットワーク上での流通量の増大に伴い、画像情報とテキスト情報を関連付ける技術の必要性が増している。
【0010】
しかしながら、一般画像情報の認識技術の困難性もあって、この機能は満足のいくレベルに達していない。従来の画像認識技術では、画像に付加される情報はないが限定したドメインの画像情報を扱うものか、あるいは付加情報があっても、ごく限られたものが用いられるのが通例である。
【0011】
例えば栗田多喜夫、加藤俊一、福田郁美、板倉あゆみ:“印象語による絵画データベースの検索”情処論、Vol.33,No.11,pp.1373-1383,1922. では形容詞で表現される感性語との関連付け、小野敦史、天野督士、斗谷充宏、佐藤隆、坂内正夫:“状態遷移モデルとシーン記述言語による自動キーワード付与機能をもつ画像データベースとその評価”、信学論、J79-D11,No.4,pp.476-483,1996. ではシーンを記述するためのキーワードの自動付与、などが提案されているが、扱う画像の範囲、あるいはテキスト情報の範囲が限定されている。またFlickner,M.,et al.:"Query by Image and Video Content: The QBIC System," IEEE Computer, 28-9, pp.23-32,1995. などのいわゆる内容ベースの画像検索技術においては、主にパターン間の類似性が使われ、パターンとテキスト間の関連付けは十分には行なわれていない。
【0012】
【発明が解決しようとする課題】
(課題1)
従来技術1では、ジェスチャー内容が判別している画像と認識したい画像の類似度を評価する場合、標本分布空間での距離の2乗を評価にしているので、全く類似していない画像間の評価値と類似している画像間の評価値との間の差が大きくないので、類似するもの同志の画像との区別が難しいという点において、さらに難しいという解決すべき課題があった。
【0013】
また、従来技術2では画像間の類似度が入力されなければ分類できないという課題があった。
【0014】
(課題2)
従来技術3では、たとえば、画像をクエリー(検索に使用する情報)としてその画像と類似する画像を画像データベースから取り出すことは可能になっている。また、画像データベースに保存しておく画像にその説明を記した文書を付帯させておくことによりクエリーとした画像に関連する文書を取り出すことも可能である。しかしながら、検索により複数枚の類似画像たとえば100枚の画像が見つかった場合、検索者は100枚の画像に付帯する100組の文書をも見なければならずその労力は大変となる。
【0015】
さらに、従来技術1で述べた画像の類似度の評価方法を使用した画像検索システムでは、類似画像についての区別がつきにくいので、多数枚の類似画像が得られるという特徴がある。
【0017】
そこで、本発明の目的は、文書の付帯した画像データベースから画像をクエリーとして適切な文書を抽出することの可能な文書検索装置、方法および記録媒体を提供することにある。
【0021】
【課題を解決するための手段】
このような目的を達成するために、請求項の発明は、画像に説明用の文書を付帯させて記憶したデータベースを有し、クエリーとして入力した画像に関連する文書を前記データベースから抽出する文書検索装置において、
前記クエリーとして入力した画像の特徴量と前記データベースに記憶された各画像の特徴量との間の類似度を計算することにより、類似度が許容範囲にある、前記クエリーとして入力した画像に類似する複数の画像を検出し、当該検出された複数の画像に付帯された文書を前記データベースから抽出する抽出手段と、
当該抽出された複数の文書の中の任意の2つの文書を組み合わせ、当該組み合わされた文書に記載された単語の親和度を計算することにより当該組み合わされた2つの文書の類似度を計算し、類似度が許容範囲内にある、類似する文書を検出する類似文書検出手段と、
当該検出された文書のいずれか1つを出力する出力手段と
を具えたことを特徴とする。
【0022】
請求項の発明は、請求項に記載の文書検索装置において、前記出力手段は、検出された文書の中の許容範囲以下の距離的に近い部分を文書として出力することを特徴とする。
【0023】
請求項の発明は、請求項に記載の文書検索装置において、前記抽出手段は類似度を予め定めた評価式に従って計算し、前記文書検索装置は、さらに学習用としての複数の類似する画像を入力する入力手段と、当該入力された複数の類似する画像についての類似度の計算を予め定めた評価式を使用して行い、計算結果が最小となるような前記評価式の関数を見つけることにより前記抽出手段が使用する評価式を作成する情報処理手段とを有することを特徴とする。
【0024】
請求項の発明は、請求項に記載の文書検索装置において、前記検出手段は前記親和度を予め定めた評価式に従って計算し、前記文書検索装置はさらに学習用としての複数の類似する文書を入力する入力手段と、当該入力された複数の類似する文書についての親和度の計算を予め定めた評価式を使用して行い、計算結果が最小となるような前記評価式のパラメータを見つけることにより前記抽出手段が使用する前記評価式を作成する情報処理手段とを有することを特徴とする。
【0028】
請求項の発明は、画像に説明用の文書を付帯させて記憶したデータベースを有し、クエリーとして入力した画像に関連する文書を前記データベースから抽出する文書検索装置の文書検索方法において、情報処理手段および出力手段をさらに有し、前記情報処理手段が、
前記クエリーとして入力した画像の特徴量と前記データベースに記憶された各画像の特徴量との間の類似度を計算することにより、類似度が許容範囲にある、前記クエリーとして入力した画像に類似する複数の画像を検出し、当該検出された複数の画像に付帯された文書を前記データベースから抽出する抽出ステップと、
当該抽出された複数の文書の中の任意の2つの文書を組み合わせ、当該組み合わされた文書に記載された単語の親和度を計算することにより当該組み合わされた2つの文書の類似度を計算し、類似度が許容範囲内にある、類似する文書を検出する類似文書検出ステップとを実行し
前記出力手段が当該検出された文書のいずれか1つを出力する出力ステップを実行することを特徴とする。
【0033】
請求項の発明は、画像に説明用の文書を付帯させて記憶したデータベース、コンピュータおよび出力手段を有し、クエリーとして入力した画像に関連する文書を前記データベースから抽出する文書検索装置のための記録媒体を記録した記録媒体において、前記記録媒体はコンピュータに
前記クエリーとして入力した画像の特徴量と前記データベースに記憶された各画像の特徴量との間の類似度を計算することにより、類似度が許容範囲にある、前記クエリーとして入力した画像に類似する複数の画像を検出し、当該検出された複数の画像に付帯された文書を前記データベースから抽出する抽出手段と、
当該抽出された複数の文書の中の任意の2つの文書を組み合わせ、当該組み合わされた文書に記載された単語の親和度を計算することにより当該組み合わされた2つの文書の類似度を計算し、類似度が許容範囲内にある、類似する文書を検出する類似文書検出手段と、
当該検出された文書のいずれか1つを前記出力手段から出力させる手段と
して機能させることを特徴とする。
【0034】
【実施例】
以下、図面を参照して本発明の実施形態を詳細に説明する。
【0035】
(第1実施形態)
最初に第1実施形態におけるクラスタリング方法を説明する。
【0036】
(1−a)定義
パターン認識問題を次のように定式化する。学習すべきパターンデータの各データを番号付けしiとする。標本は有限次元の特徴量xi を持ち、それぞれはクラスCi に属している。それぞれは判別写像により判別空間上のzi に写像される。
【0037】
この時、データi,jが同じクラスに所属する、すなわちCi =Cj のとき、zi ,zj 間の距離を小さくする判別写像を求める問題として定義する。
【0038】
(1−b)非線型評価
判別空間上での判別に使われるN−近傍法等では、近傍のN個のデータより遠い点がどのような分布をしていても、判別結果に影響しない。その点では、最適な判別写像を与えるための、判別空間での学習データの分布の評価でもN番目以上に離れた離れた点の間については評価を変える必要はない。
【0039】
そこでCalaxy Clustering で用いた手法と同じように、判別の近傍として使用するN番目までの点が入ると期待できる近傍までは2乗に比例した評価値を与え、その外側では2乗より弱い評価値となるような数2式の非線形関数Fを用いる。これはロバスト統計でしばしば利用されてきた手法であり、類推から広義のロバスト化と見ることもできる。
【0040】
【数1】
Figure 0004302799
【0041】
Fは近傍(<a)については2次関数であり、その外側では1次関数となる次の式を使用する。
【0042】
【数2】
Figure 0004302799
【0043】
閾値aは判別空間でのN−点は入ると期待できる近傍範囲であり、目的とする効果が得られる。
【0044】
(1−c)判別空間での分散の一様化
判別関数のモデルに依存するが、上記の非線形評価を行なう場合の必要として、学習データを判別空間内に分散させる必要がある。仮にすべての標本が判別空間の原点に写像されるような関数を選べば、クラス内分散の最小化はこれによって満たされてしまうが、判別は全く不可能になる。そのため判別空間での分散を規定する必要がある。
【0045】
もっとも簡単な方法は分散は一定にする方法だが、上記のような非線形評価を行うと特定のデータの像だけを無限遠に置くことで最大化式が満たされてしまう。写像として用いる判別関数にもよるが、判別関数を求めるの計算自体が収束しない可能性が出てくる。
【0046】
これ以外にも各学習データの特徴量のかたよりや、判別写像の性質によって、判別空間内で局所的にデータが集中することが考えられ、その付近での判別が困難になる。
【0047】
判別空間での局所的なデータの集中を防ぎ、判別可能な分散を与えるために、判別空間での学習データzi を一定の半径の超球内に閉じ込めて、その超球内での分布が一様になるように以下の条件を満す超球一様化関数を考える。
【0048】
1.像の分布の中心は原点である。
【0049】
2.像の分布について主成分分析をしても分布にかたよりが見られない。
【0050】
3.一定半径の球殻内にすべての像が存在し、中心から半径方向への分布の空間内での体積に比例した分布となっている。
【0051】
(1−d)特徴ベクトルの線型変換
まず学習データの特徴量xi から前記の非線型評価を行うzi に変換する中間段階としてyi を導入する。
【0052】
まずある写像Aによってxi はyi に変換される。なお本報告ではAを線型のアフィン変換としているが任意の関数が考えられる。
【0053】
次に超球一様分布化関数Gによって、yi の分布から一様化分布するように変換し、zi が得られるようにする。
【0054】
以下にGを構成する各過程について述べる。
【0055】
(1−f)原点への移動
原点が分布の中心となるように平行移動する。
【0056】
【数3】
Figure 0004302799
【0057】
(1−g)特定方向へのかたよりの解消
次に統計における主成分分析と同様に、共分散行列を求めて固有値分解によりどの方向に対する分散も同じ値となるようにする。
【0058】
i (t+1)'の分布から共分散行列Rを次のように求める。
【0059】
【数4】
Figure 0004302799
【0060】
(添字m,nはそれぞれyi のm,n成分)
これを固有値分解する。
【0061】
【数5】
Figure 0004302799
【0062】
【数6】
Figure 0004302799
【0063】
得られた固有値σ1 ,σ2 ,・・・σN に対して次のような逆変換行列を作る。
【0064】
【数7】
Figure 0004302799
【0065】
以下の変換を行う。
【0066】
【数8】
Figure 0004302799
【0067】
(1−h)半径方向の一般化
次に球の半径方向の標本の分布について統計をとる。
【0068】
図1に示したように超球の一定半径r内に存在する標本の数を、標本の総数で割って規格化した値を求める。これをrに対する関数と見てU(r)とする。なお数値処理のためにあらかじめ標本の分布している半径の範囲を定めて100段階に分割し、折線近似関数で代用している。
【0069】
理想的にデータが一様に分布していれば、半径方向に対して体積に比例した密度で分布することが期待でき、この場合の原点から各データまでの距離をr' とする。閉じ込める超球の半径を1とすると、空間の次元がNなのでU(r' )はr´N に一致する。
【0070】
【数9】
Figure 0004302799
【0071】
そこですべての標本yi (t+1)'' について次の変換を行なう。
【0072】
【数10】
Figure 0004302799
【0073】
ここでyi (t+1) の分布が与えられれば、一意にyi (t+1)'''を与えることができるので、この関数の超球一様化関数Gとすると、
【0074】
【数11】
Figure 0004302799
【0075】
と記述できる。
【0076】
(1−i)最小化関数
次の式で得られる評価値を最小化するような、関数Aを求めればこれらの条件が満たされることになる。与える判別写像Aの一例およびその解法については次節で考える。
【0077】
【数12】
Figure 0004302799
【0078】
【外1】
Figure 0004302799
【0079】
【数13】
Figure 0004302799
【0080】
(1−j)ジェスチャー認識への適用と解法
人物のジェスチャーを撮影して得られた動画像から、それぞれのジェスチャーを識別する問題に本手法を適用する。
【0081】
図2のようにカメラの前の着座姿勢の人物があらかじめ決められたジェスチャーを行う。ジェスチャーの種類は、「両手を前に」、「両手を後ろに」、「両手を上げる」、「両手を開く」、「両手を閉じる」、「両手を叩く」、「両手で丸を作る」、「両手を交差」、「左手上げ」、「左手水平」、「左手横へ」、「右手上げ」、「右手水平」、「右手横へ」、「右手をふる」の15種とする。これらを複数回行い連続してディジタルビデオカメラで記録する。
【0082】
それぞれを学習用データとして2回、認識検証のデータとして1回収集し、45回のデータを収集した。これを30フレーム/秒で320×240ピクセル、濃度値を階調8ビットの白黒画像として量子化し記録する。
【0083】
各画像を画面を縦横4×4の16領域に分割し、連続したフレーム間で20以上の変化があるピクセルを求め、それぞれの領域ごとにこのピクセルの占める比率を求める。その結果フレーム間の変化は16次元のベクトルで表現できる。
【0084】
各ジェスチャーに要する時間が異なるため、それぞれの動作時間により70から120フレームで構成される。それより一つ少ない回数の連続する16次元のベクトルとして記述されるので、これを特徴量とした。
【0085】
すべてのフレーム間に順序に付け(i=1,2,・・・n)とし、その特徴量をxi とする。また、各フレーム間が所属する15種のジェスチャーに1−15の番号付けをし、各フレーム間が表わすジェスチャーをCi とする。
【0086】
(1−k)繰り返し法による解法
ここでは判別空間を2次元空間とした。またここでは線型写像による最もシンプルな写像とした。16次元から2次元への写像なので次のように表現できる。
【0087】
【数14】
Figure 0004302799
【0088】
このAを次の手順で繰り返し法により求める。Gが順序を含む関数であるために、Aの各要素の変化に対してEが不連続に変化する。このため乱数による近傍探索法による山登り法により最適なAを求める。
【0089】
1.初期化
【0090】
【外2】
Figure 0004302799
【0091】
2.評価
数12式に代入しA(k) の評価値E(k) を求める。
【0092】
【数15】
Figure 0004302799
【0093】
3.探索
最適値の近傍探索のためにA(k) の各要素に[−α(k) ,α(k) ]の一様乱数を加えたA(k) を与える。
【0094】
【数16】
Figure 0004302799
【0095】
繰り返し回数に従って徐々に探索範囲をせばめるためにα(t) は次のようにおく。
【0096】
【数17】
Figure 0004302799
【0097】
【外3】
Figure 0004302799
【0098】
4.選択
より小さなEを与えるほど最適値に近いと考えられるので、比較して小さいものを与えたものを次の値とする。
【0099】
【数18】
Figure 0004302799
【0100】
5.tに1を加えて手順2に戻る。
【0101】
(実験結果)
15種のジェスチャーごとに2回のジェスチャーに相当する動画像を選択し、合計30回分の動作を学習データとして使用する。学習がうまくいけば、ジェスチャーごとに分離した判別空間が形成できる。
【0102】
図3に初期状態を示した、左からジェスチャー全体、「右手上げ」,「左手上げ」,「両手を前に」のジェスチャーの分布を示している。乱数で初期化したA(o) および球内一様化関数Gを経由した2次元の判別空間をそれぞれ表示している。ジェスチャーを連続するフレームごとに直線で結んである。図3のジェスチャー全体の左上付近の集積は主にジェスチャーを開始と終了に代表されるまったく動いていない状態である。乱数で写像を選んでいるために、それ以外の部分でもジェスチャーごとにまったく分離できていないことがわかる。
【0103】
繰り返し法によりEの値を最小化する。その過程を図7に示した。横軸が繰り返し回数、縦軸がE(k) である。3000回でほぼ収束し、10000回まで行なった。
【0104】
各繰り返し演算後の分布について、図4に100回目、図5に10000回目の結果を示してある。ジェスチャーごとに分離できてくる様子がわかる。
【0105】
なお計算はSGI ONYX上で行い、10000回の演算に5220秒を要した。
【0106】
次に認識を想定して、学習データとは別のジェスチャー画像を未知データとして与え、それぞれのジェスチャーがどの程度想起できるかを調べた。クラスCk の学習データの特徴量をxCki、未知動画像の各フレーム間の特徴量をxu,i とし、10000回後繰り返しによって得られたA(10000) とGによって超球一様空間に変換する。
【0107】
【数19】
Figure 0004302799
【0108】
図8のように、超球一様空間内での未知データの各フレーム間に対応する点zu,i に対し、各学習データzCkmの描く経路との距離di を求める。
【0109】
【数20】
Figure 0004302799
【0110】
最も小さなdi を与える学習データのジェスチャーCk をその点での類似したジェスチャーとする。
【0111】
して類似度が最大のジェスチャーを太字で示した。
【0112】
時系列データとしての順序性は見ていないので動作の最初や最後の不動部分では識別が困難になっている。しかし15ジェスチャー中に12ジェスチャーで同一ジェスチャーを意味する対角部分が最大となっており、他のものでも対角部分が最大値に近くなっている。
【0113】
固有空間法との対照実験を行なった。ジェスチャーの特徴量の分布を主成分分析し、第2主成分までを求め、得られる2次元の空間内で判別をする。その分布を図6に示す。本手法と比較して、分布がジェスチャー毎に分離できず密集しているため、15ジェスチャー中最大となっているのは8ジェスチャーに過ぎず、本手法の有効性が確かめられた。
【0114】
以上述べたクラスタリング方法を使用してジェスチャー認識を行うマルチメディア・クラスタリング装置を説明する。
【0115】
マルチメディア・クラスタリング装置は汎用コンピュータにより実現することができる。汎用コンピュータはクラスタリング処理を規定したプログラムをハードディスクに記憶し、CPUにより実行する。プログラムはCDROM,フロッピーディスク等の記録媒体を介してハードディスクに実装する。
【0116】
従来と同様のプログラムについての説明は省略し、本発明に関わる処理を図9を参照して説明する。
【0117】
類似度の評価を行うための評価式が従来(特願平10−139001号の高橋裕信,新田義貴,岡 隆一:“非線形クラスタリングによるパターンの分類−Galaxy Clustaving Methodの提案−、”信学技報PRMU98−13(1998))では固定化されていたのに対し、本実施形態では学習により可変設定するようにしたことに第1の特徴がある。
【0118】
このために、予め類似していることが予め判明している複数枚のイメージを汎用コンピュータに対して入力する(図9のステップS10)。画像入力はスキャナー等の画像読み取り装置から行ってもよいし、他の装置から通信ケーブルを介して入力してもよい。
【0119】
汎用コンピュータは、入力した画像を使用して(1−k)の項で述べた繰り返し処理を実行し、評価式[数12]の中の写像Aについての最適値を取得することにより評価式を作成する(図9のステップS20)。
【0120】
取得された最適値はハードディスクに保存される(図9のステップS30)。
【0121】
このようにして認識すべきジェスチャー画像に対して標準パターンとして使用する画像を学習パターンの形態で与え、類似する画像相互の関係を評価式の形態で記憶する。これにより、認識すべきジェスチャー画像を汎用コンピュータに入力すると、汎用コンピュータは認識すべきジェスチャー画像を上記最適化された評価式を使用して分類することでジェスチャー認識を行う。ジェスチャー認識処理自体は評価式が異なる点を除けば従来と同様である。評価式が本実施形態の第2の特徴であるので、ここで評価式の従来との相違点を説明しておく。[数12]の評価式では数2式で定義される関数Fを含んでいる。この関数Fをパラメータとして評価式内に含むことにより、類似しているイメージについての評価値が小さく(類似度大)なり、類似していないイメージについての評価値が大きく(類似度小)なるように値が強調される。
【0122】
(実施形態2)
本実施形態は、データ学習(自己組織化)過程と認識過程からなる画像検索であり、入力イメージ(画像)に類似する画像を画像データベース検索すると共に、画像に付帯する文書から類似文をも抽出することに特徴がある。
【0123】
図10に本実施形態の概要を示す。
【0124】
データ学習過程では、画像に対してリンクを持つ大量の文書データに対して、単語の出現頻度に基づいて単語空間の非線形クラスタリングを行なう。その結果得られた文章間の距離関係を、画像へのリンクをたどって伝搬させ、画像データの非線形クラスタリングに用いる。文章の距離関係を画像データのクラスタリングに用いることによって、近い文書に対応するリンク先の画像を近くに集まるようにすることが狙いである(図10(a))。
【0125】
認識過程では、画像入力が与えられると、前記両クラスタリング結果を用いて、距離の近さに基づいて近傍の画像が複数検索され、今度はそれらの画像から文書へのリンク情報に基づいて、対応する文章が複数呼び出される。最後に、それらの文章が互いに近接している部分の文を取り出して、出力とする(図10(b))。もし、学習過程で文書の近さ関係が、画像側にうまく埋め込まれていたとすると、出力された文は質問画像に対する説明文の役割を果たすことが期待される。
【0126】
(2−a)クラスタリング手法
今回、画像・文書に共通して用いた空間クラスタリング手法(以下単にクラスタリング手法)は、Galaxy Clusteringをベースにした方法である。Galaxy Clustering手法のポイントは以下の2点である。
【0127】
1.クラスタリングを縮小された次元(以下埋込み次元と言う)にて行なう。
【0128】
2.非線形な「折点」を持つポテンシャルを用いる。
【0129】
【外4】
Figure 0004302799
【0130】
【数21】
Figure 0004302799
【0131】
【外5】
Figure 0004302799
【0132】
【数22】
Figure 0004302799
【0133】
となる。このようなポテンシャル関数を用いる理由は、クラスタリング過程において、遠距離の作用に比べて近距離の効果を強めるためである。
【0134】
この関数を用いて、クラスタリングデータ全体の評価関数を
【0135】
【数23】
Figure 0004302799
【0136】
と定める。この値を最小化することがGalaxy Clusteringの基本方針である。ここで、xi ,xj は、それぞれデータi,jの埋め込み次元の空間での位置である。また、wijはデータxi とデータxj の親和度である。
【0137】
クラスタリングの実行にあたっては、上記評価関数に加えて、全て同じ点に落ち込むという自明な解を避けるため、何らかの拘束条件を課する必要があり、後述するように、クラスタリング課題によって適当な条件を用いる。
【0138】
また、入力データの違いにより、クラスタリング手法は目的とする学習形態が2種類にわかれる。1つは、親和度が与えられて、クラスタリングによって空間中の各データの位置を画像学習型と呼ぶ、後述する各手法の詳細から明らかなように、今回行なった手法中、文書クラスタリングは、位置探索型であり、画像クラスタリングは写像学習型である。
【0139】
(2−b)類似文書検索手法
文章データに対して、上記に説明したクラスタリング手法を適用する方法はいろいろ考えられるが、今回は単語ベースのクラスタリングを行なった。
【0140】
その手順は、まず、各文書を形態素解析にかけ、単語に分割する。今回は、形態素解析のツールとしてはChasenを用いた。
【0141】
次に、この単語全てを統計処理すべき標本とみなして、単語間の共起情報から各単語間の親和度wijを算出し、Galaxy Clusteringにより、空間に配置する。今回用いた親和度wijについては、各単語の組(i,j)が、記事中の前後5単語以内に何度共起したかをカウントし(Nijと書く)、各出現頻度Ni で規格化したものを用いた。
【0142】
【数24】
Figure 0004302799
【0143】
このように親和度を与え、前述した評価関数を用いてクラスタリングを行なうことによって、各単語の空間配置が決まる。
【0144】
最適化計算では、
1.非線形最適化
2.分散規格化(球内一様化)
3.半径方向の一様化
を繰り返し行ない、データの配置を変更していく。分散規格化(球内一様化)、および、半径方向の一様化がこの場合の拘束条件となっている。
【0145】
次に、与えられた単語の空間配置から、文章間の距離を求める。与えられた文章間の距離は、各文書を同じ形態素解析にかけて、単語列に分解し、上記クラスタリングによって得られた単語距離から文書間距離を算出する。
【0146】
今回は、以下のような文書間距離を用いた。すなわち、2文章D1 ,D2 が与えられた時、その距離dC (D1 ,D2 )は、
【0147】
【数25】
Figure 0004302799
【0148】
ここで、i∈D1 ,j∈D2 はそれぞれ、文章D1 ,D2 に含まれる単語を示し、d2 (i,j)はそれらのクラスタリング空間におけるユークリッド2乗距離である。また、N1 ,N2 はそれぞれの文章中の単語数である。
【0149】
この距離は、文章中の各単語に対して最短距離を与える相手文章中の単語との距離を、単語全てに対して平均した量を、2文に対して対称化したもので、2文が単語空間中で描く経路の一致している部分の寄与はゼロにしつつ、不一致の部分の隔たりを積算できるものとなっている。
【0150】
(2−c)類似画像検索手法
類似画像検索では、画像特徴量ベースの類似画像検索手法を用いた(武者義則,森 靖英,広 池敦:“大量画像を対象とする特徴量空間の可視化,”第3回知能情報メディアシンポジウム,pp.253-258,1997)。
【0151】
今回は、画像から抽出する特徴量として、表1にまとめたものを用いた。
【0152】
【表1】
Figure 0004302799
【0153】
合計504次元である。表1で、ビン8ヒストグラムとは、各頻度分布をビン数8のヒストグラムに表現した値であり、8方向強度とは、円周を8等分してビンとして、それぞれに対応する強度を和したものである。また、構図3×3とは、画像を縦3横3の9つの区画に均等分割して、9区画各々についてそれぞれ処理を行なうという意味である。輝度Y,色差I,Qという特徴量は、YIQ表色系である。微分特徴量に関しては、x方向、y方向の微分フィルタ(Sobel)による強度dx ,dy から、
【0154】
【数26】
Figure 0004302799
【0155】
を求めて、これから、前述の8方向強度を算出した。
【0156】
その後、特徴量ベクトルを主成分分析などを用いて、埋め込み次元への写像を適当に設定し、それを初期値として前述したクラスタリングを行なう。
【0157】
画像側のクラスタリングでは、文書検索結果による近傍情報をリンクする画像の近傍情報として用い、それを反映した評価関数にてクラスタリングを行なう。リンク情報を反映させる方法として、今回は、近傍文書を表すフラグl(i,j)を以下のように定義して、それを親和度として用いた。
【0158】
【数27】
Figure 0004302799
【0159】
ここで、T(i) は、画像iにリンクしているテキストを示す。また、データT(i) の最近傍がT(j) であっても、T(j) の最近傍がT(i) であるとは限らないので、一般にl(i,j)≠l(j,i)である。
【0160】
クラスタリングにおける、繰り返し計算手順は、最急降下法を用いて行なった。すなわち、
(1)最急降下法で評価関数を減少する方向に写像を変更、
(2)分散共分散行列を求めて規格化、を繰り返して行なった。
【0161】
最急降下法のための評価関数Eは、
【0162】
【数28】
Figure 0004302799
【0163】
【外6】
Figure 0004302799
【0164】
従って、交換行列Aのpq成分apqに対する最急降下法による1ステップ(t→t+1)での変更量は、
【0165】
【数29】
Figure 0004302799
【0166】
【外7】
Figure 0004302799
【0167】
画像クラスタリングにおいては、テキストのクラスタリングにおいて有効であった半径方向一様化は用いなかった。その理由は、特徴量をベースとした画像のクラスタリングは、上述のように、写像学習型であり、最終的には、写像を学習しなくてはならないが、今回はその学習写像のクラスとして線形変換に限ったため、一様化を行なうと、最適化と競合して収束が進まない現象が見られたからである。
【0168】
類似画像検索は、上記クラスタリングによって得られた写像を用いて写像後の空間中での距離を類似度とすることによって行なった。
【0169】
(2−d)画像認識手法
画像から関連文を出力する手順は、質問画像が入力されると、上述した類似画像検索手順によって、複数の学習画像(文書データとリンク付けされている)を見つける。次に、それらの文書へのリンクをたどり、複数文書を得る。次に、それらの複数の文書の「近接部分」(後述)を取り出して認識結果とする。
【0170】
今回は、近接部分の定義として、図10に示したように、2文章中の各文(句点「。」で区切られている単語列を文とした)の全てのペアの中で、最も文間の距離の近い1ペアを近接部分とした。従って、1画像から2文章を見つけ、各々の文章中から1文、計2文が出力されることになる。また、ここでの文間の距離は、各文に対する[数25]式の距離dC を用いる。
【0171】
(実験の結果)
(3−a)使用データ
今回の実験では、大量の文書・画像間のリンク情報をもつデータとして、マルチメディア百科事典である、マイペディア(日立デジタル平凡社刊)の画像・文書データを用いた。
【0172】
使用した画像は、本文テキストへのリンクを持つ画像の大半である9,681枚を用いた。画像サイズは大小さまざまであるが、平均400×280ピクセル程度の大きさであり、256階調、カラー・モノクロ両方がある。内容は百科事典の資料画像であるから、肖像,動植物,文化遺産,建築物,風景等多岐に渡るが、写真画像が中心であり、イラストも含む。
【0173】
一方、文書データとしては、本文の大半である62,934項目を用いた。おのおのの項目は平均5個程度の文(句点で区切られた文字列を文とした)から成っている。また、それらの文章からChasenによる形態素解析で抽出された全単語数は、119,870個であった。
【0174】
画像・文書間のリンクについては、上記9,681枚の各画像が、全て文書の項目へのリンク両が張られているのでそれを用いた。その対応関係は、殆んどが1対1であるが、僅かに多対多となっている。今回は、その中から出現順の速いものだけ残すなどの適当な技刈りを行なって、8,875対の1対1の文書・画像対を得て、それを最終的な総リンク情報として用いた。なお、上記のように、文書総項目数のほうがはるかに多く、画像からのリンクのない文書項目は多数存在する。
【0175】
(3−b)実験手順
上記データを用いて、全節で説明した手順に従って、文書・画像各学習データのクラスタリングを行なう。その際の諸パラメータは表2のとおりである。
【0176】
【表2】
Figure 0004302799
【0177】
ただし、今回はテキストのクラスタリングにおいても一様化を行なわず、また、分散の和一定の拘束条件のみ用いてクラスタリングを行なった。これは今回の実験上の都合からであり、一般に文書クラスタリングにおいて一様化計算を用いることは容易である。
【0178】
文書から画像への近傍情報のフィードバックは、今回は計算時間の関係上、上記利用リンク対8,875の約半数の4,400項目を用いた。各4,400項目を文書検索して、類似と判断された上位2位(自分自身を含まず)の文書を「関連あり」として、その関連情報をそのまま対応する画像中に移して、前節に示したとおり、それを用いた評価関数を用いて画像側のクラスタリングを行なった。
【0179】
クラスタリングが終了した後、その結果を用いて、与えた未知画像に対して、全節で説明した2個の近傍画像特徴抽出から、リンクを文書側にたどって、近接の2文を出力する処理を行ない出力の状況をみる。また、学習データ間の類似性がテキストから画像間にどの程度伝播したかを見るために、上記関連データ間の距離が、画像クラスタリングの前と後で、どの程度小さくなったかを、学習データの自己検索を行ない、上位の検索結果とのペアに対してそれぞれ調べた。
【0180】
(3−c)実験結果
単語クラスタリングの結果を図11に、画像クラスタリングの結果を図13に示す。
【0181】
図11は単語クラスタリングによる単語分布の変化を示す。左部は初期分布(ランダム)、右部はクラスタリング結果を示す。左右部共に10次元中の2軸で表示(どの軸も概形は同様)している。
【0182】
図12はクラスタリングによる画像特徴量分布の変化を示す。右部は上位2主成分の初期分布を示す。クラスタリングの初期値は上位10主成分である。左部はクラスタリング結果を示す。10次元中の2軸(どの軸も概形は同様)を示す。
【0183】
数28式の評価関数の値は、画像クラスタリング後には、クラスタリング前の主成分分析での値と比べて16%減少した。また、リンクデータ間距離を、同じく主成分分析と比較した結果、それらの距離の比の平均は、0.94と、平均的に小さくなったことがわかる。これら結果は、主成分分析を単独で用いた場合と比較して、テキストのクラスタリングの状況を、僅かではあるが画像のクラスタリングに反映させることができたことを示している。
【0184】
未知画像を用いた認識結果では、検索印象として、無関係と思われる出力が多数を占めたが、その中に、やや関係があると思われるものも出力された。図13にいくつかの認識結果を示す。
【0185】
以上、述べた検索処理を汎用コンピュータにおいて実行するための処理手順を図14を参照して説明する。図14の処理手順はCPUが実行可能なプログラムの形態でハードディスク等に記憶される。また、CDROMやフロッピーディスクからハードディスクに対して実装することが可能である。なお、予め画像とその画像の説明文が画像データベースに登録されているものとする。
【0186】
このプログラムが起動されると、ユーザは学習モードか検索モードの選択を行う。学習モードは、類似している画像同士を汎用コンピュータに対して指示し、学習するモードである。検索モードは与えた画像に対する文を作成するモードである。
【0187】
(学習モード)
上記画像データベースを構築する際に、予め類似していることが判明しており、同一のクラスに分類したいもの同士の画像を汎用コンピュータに対して入力する。
【0188】
汎用コンピュータでは、入力された文書および画像およびそれらの間のリンク情報を用いて、文書のクラスタリングを行ない、その結果wij(数28式ではl(i,j))が定まる。上述した数28式の値が最小となるようのようなAの関数を算出する(評価式の作成)。取得したAの値がハードディスクに保存される(ステップS100→S101→S102→S103)。後述の検索モードでの画像の類似度の計算を数28式を使用して行うときに、保存したAの値が使用される。学習に使用する類似画像は、画像データベースに登録してある画像同士を指定してもよいし、スキャナーから汎用コンピュータに入力してもよい。
【0189】
(検索モード)
上述のような学習を行って、数28式のAの値を保存した後、画像をクエリーとして画像検索を行う場合、ユーザはメニュー画面で検索モードを指定した後、スキャナーにより画像入力する。記録媒体に記憶された画像を汎用コンピュータに入力してもよい(ステップS110→S111)。
【0190】
汎用コンピュータは、保存してあるAの値を使用して数28の評価式により入力した画像と画像データベース(ハードディスク上)の個々の画像との間の類似度を計算する。評価値が許容範囲にあるものが類似していると判定される。類似していると判定された画像データベース上の画像は付帯の説明文(文書ファイル形態)とともには汎用コンピュータ上のメモリに抽出される(ステップS112→S113)。たとえば、100枚の類似画像が得られたものとする。
【0191】
次に,汎用コンピュータは上述した類似文書検索方法にしたがって、抽出した文書の中の任意の2つを組み合わせて類似度を数25式により計算する。汎用コンピュータは組み合わせを変更して抽出した100枚の画像全ての組み合わせについて説明文の類似度の計算を行う。類似度が許容範囲内にある説明文がクエリーとして入力された画像の説明として出力される。説明文が複数見つかった場合は、たとえば、先頭の画像の説明文が選択されてディスプレイに出力される(図13参照、ステップS114→S115)。
【0192】
このような検索では、画像のみを与えると、その画像に関する説明を画像データベースから抽出するという新規な検索手法を提供することができる。この検索方法を使用すると、人間の目では内容が理解できないような写真等の説明文を入手することができる。
【0193】
上述の実施形態の他に次の形態を実施できる。
【0194】
1)上述の実施形態では画像のクラスタリングに本発明を適用した事例を説明したが画像に限らず、文書のクラスタリングにも本発明を適用できる。この場合には、類似度の計算において、計算にしたがって、上述の第2に実施形態で行った類似文書(説明文)の抽出処理においても予め類似文書を学習データとして汎用コンピュータに与え、数23式におけるwijを最小化する値を求める。この得られたwijを使用した評価式により文書間の類似度を計算する。
【0195】
2)上述の第1実施形態ではジェスチャー認識、第2実施形態では画像検索に本発明を適用する事例を説明したが、さらには多数の画像データ、音声データ、音響データの類似性を判別したり、分類する処理に本発明を適用できる。
【0196】
3)上述の第2実施形態では、説明文のみを出力させているが、類似画像やその説明文を全て表示させてもよく、この場合は単一の説明文を出力するモードと類似画像を全て出力するモードを選択する。
【0197】
4)上述の第2実施形態では、類似度が許容範囲内にある文書から表示する文書を選択したが、最も類似度が高くなった2つの文書の中の許容範囲、以下の距離的に近い部分を汎用コンピュータにより抽出してもよいこと勿論である。なお、このとき、一致する部分の単語数の下限を設定しておき、完全一致の単語数が少ないときには、2つの文書のいずれか1つを選択する。
【0201】
【発明の効果】
請求項1、5、6の発明では、クエリーの画像から類似画像をデータベースから抽出し、その抽出した画像に付帯する文書の中で類似する文書を検出することにより、クエリーの画像に関連する単一の文書をデータベースから自動で見つけることができ、操作者の検索操作を低減することができる。
【0202】
請求項の発明では、類似文書の中の距離的に許容範囲内にある一致部分,類似部分を出力することで、操作者は、クエリーの画像と抽出された類似画像の一致部分,類似部分を知ることができる。
【0203】
請求項3、4の発明では、類似画像の検出あるいは類似文書の検出に使用する評価式を、予め類似関係が判明している情報(画像,文書)から学習することにより、より精度よく類似関係を分析することができる。
【図面の簡単な説明】
【図1】本発明第1実施形態のクラスタリング処理を説明するための説明図である。
【図2】ジェスチャーの一例を説明する説明図である。
【図3】初期化後の学習データの分布を示す説明図である。
【図4】繰り返し100回目の学習データの分布を示す説明図である。
【図5】繰り返し10000回目の学習データの分布を示す説明図である。
【図6】従来法のデータ分布を示す説明図である。
【図7】E(k)の繰り返しによる収束を示す説明図である。
【図8】超球一様空間における時系列パターン間の距離計算を説明するための説明図である。
【図9】第1実施形態の処理手順を示すフローチャートである。
【図10】(a)はテキスト間距離情報による画像クラスタリングを説明するための説明図、(b)はクエリー画像からの関連文の出力を説明するための説明図である。
【図11】単語クラスタリングによる単語分布の変化を示す説明図である。
【図12】単語クラスタリングによる単語分布の変化を示す説明図である。
【図13】入力画像と出力結果の例を示す説明図である。
【図14】第2実施形態の処理手順を示すフローチャートである。

Claims (6)

  1. 画像に説明用の文書を付帯させて記憶したデータベースを有し、クエリーとして入力した画像に関連する文書を前記データベースから抽出する文書検索装置において、
    前記クエリーとして入力した画像の特徴量と前記データベースに記憶された各画像の特徴量との間の類似度を計算することにより、類似度が許容範囲にある、前記クエリーとして入力した画像に類似する複数の画像を検出し、当該検出された複数の画像に付帯された文書を前記データベースから抽出する抽出手段と、
    当該抽出された複数の文書の中の任意の2つの文書を組み合わせ、当該組み合わされた文書に記載された単語の親和度を計算することにより当該組み合わされた2つの文書の類似度を計算し、類似度が許容範囲内にある、類似する文書を検出する類似文書検出手段と、
    当該検出された文書のいずれか1つを出力する出力手段と
    を具えたことを特徴とする文書検索装置
  2. 請求項に記載の文書検索装置において、前記出力手段は、検出された文書の中の許容範囲以下の距離的に近い部分を文書として出力する
    ことを特徴とする文書検索装置
  3. 請求項1に記載の文書検索装置において、前記抽出手段は類似度を予め定めた評価式に従って計算し、前記文書検索装置は、さらに学習用としての複数の類似する画像を入力する入力手段と、当該入力された複数の類似する画像についての類似度の計算を予め定めた評価式を使用して行い、計算結果が最小となるような前記評価式の関数を見つけることにより前記抽出手段が使用する評価式を作成する情報処理手段とを有することを特徴とする文書検索装置
  4. 請求項1に記載の文書検索装置において、前記検出手段は前記親和度を予め定めた評価式に従って計算し、前記文書検索装置はさらに学習用としての複数の類似する文書を入力する入力手段と、当該入力された複数の類似する文書についての親和度の計算を予め定めた評価式を使用して行い、計算結果が最小となるような前記評価式のパラメータを見つけることにより前記抽出手段が使用する前記評価式を作成する情報処理手段とを有することを特徴とする文書検索装置
  5. 画像に説明用の文書を付帯させて記憶したデータベースを有し、クエリーとして入力した画像に関連する文書を前記データベースから抽出する文書検索装置の文書検索方法において、情報処理手段および出力手段をさらに有し、前記情報処理手段が、
    前記クエリーとして入力した画像の特徴量と前記データベースに記憶された各画像の特徴量との間の類似度を計算することにより、類似度が許容範囲にある、前記クエリーとして入力した画像に類似する複数の画像を検出し、当該検出された複数の画像に付帯された文書を前記データベースから抽出する抽出ステップと、
    当該抽出された複数の文書の中の任意の2つの文書を組み合わせ、当該組み合わされた文書に記載された単語の親和度を計算することにより当該組み合わされた2つの文書の類似度を計算し、類似度が許容範囲内にある、類似する文書を検出する類似文書検出ステップとを実行し
    前記出力手段が当該検出された文書のいずれか1つを出力する出力ステップを実行することを特徴とする文書検索装置の文書検索方法
  6. 画像に説明用の文書を付帯させて記憶したデータベース、コンピュータおよび出力手段を有し、クエリーとして入力した画像に関連する文書を前記データベースから抽出する文書検索装置のための記録媒体を記録した記録媒体において、前記記録媒体はコンピュータに
    前記クエリーとして入力した画像の特徴量と前記データベースに記憶された各画像の特徴量との間の類似度を計算することにより、類似度が許容範囲にある、前記クエリーとして入力した画像に類似する複数の画像を検出し、当該検出された複数の画像に付帯された文書を前記データベースから抽出する抽出手段と、
    当該抽出された複数の文書の中の任意の2つの文書を組み合わせ、当該組み合わされた文書に記載された単語の親和度を計算することにより当該組み合わされた2つの文書の類似度を計算し、類似度が許容範囲内にある、類似する文書を検出する類似文書検出手段と、
    当該検出された文書のいずれか1つを前記出力手段から出力させる手段と
    して機能させることを特徴とする記録媒体
JP26199798A 1998-09-16 1998-09-16 文書検索装置、方法および記録媒体 Expired - Fee Related JP4302799B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP26199798A JP4302799B2 (ja) 1998-09-16 1998-09-16 文書検索装置、方法および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP26199798A JP4302799B2 (ja) 1998-09-16 1998-09-16 文書検索装置、方法および記録媒体

Publications (2)

Publication Number Publication Date
JP2000090113A JP2000090113A (ja) 2000-03-31
JP4302799B2 true JP4302799B2 (ja) 2009-07-29

Family

ID=17369588

Family Applications (1)

Application Number Title Priority Date Filing Date
JP26199798A Expired - Fee Related JP4302799B2 (ja) 1998-09-16 1998-09-16 文書検索装置、方法および記録媒体

Country Status (1)

Country Link
JP (1) JP4302799B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11829406B1 (en) * 2023-06-30 2023-11-28 Intuit, Inc. Image-based document search using machine learning

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6785421B1 (en) * 2000-05-22 2004-08-31 Eastman Kodak Company Analyzing images to determine if one or more sets of materials correspond to the analyzed images
JP2007257465A (ja) 2006-03-24 2007-10-04 Fujifilm Corp 画像表示装置および方法並びにプログラム
JP4274221B2 (ja) 2006-10-02 2009-06-03 ソニー株式会社 情報処理装置および方法、プログラム、並びに記録媒体
KR100842310B1 (ko) 2007-06-21 2008-06-30 (주)엔써즈 동영상 데이터들을 서로 동일성이 있는 동영상데이터들끼리 클러스터링하는 방법 및 시스템
JP5212007B2 (ja) * 2008-10-10 2013-06-19 株式会社リコー 画像分類学習装置、画像分類学習方法、および画像分類学習システム
KR101660271B1 (ko) 2009-08-21 2016-10-11 삼성전자주식회사 메타데이터 태깅 시스템, 이미지 검색 방법, 디바이스 및 이에 적용되는 제스처 태깅방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11829406B1 (en) * 2023-06-30 2023-11-28 Intuit, Inc. Image-based document search using machine learning
US12124500B1 (en) 2023-06-30 2024-10-22 Intuit Inc. Image-based document search using machine learning

Also Published As

Publication number Publication date
JP2000090113A (ja) 2000-03-31

Similar Documents

Publication Publication Date Title
CN107679250B (zh) 一种基于深度自编码卷积神经网络的多任务分层图像检索方法
Alzu’bi et al. Semantic content-based image retrieval: A comprehensive study
CN107066559B (zh) 一种基于深度学习的三维模型检索方法
CN101551823B (zh) 一种综合多特征图像检索方法
US7039239B2 (en) Method for image region classification using unsupervised and supervised learning
Ghrabat et al. Greedy learning of deep Boltzmann machine (GDBM)’s variance and search algorithm for efficient image retrieval
Moghaddam et al. Regions-of-interest and spatial layout for content-based image retrieval
Subramanian et al. Content‐Based Image Retrieval Using Colour, Gray, Advanced Texture, Shape Features, and Random Forest Classifier with Optimized Particle Swarm Optimization
Su et al. Relevance feedback using a bayesian classifier in content-based image retrieval
JP4302799B2 (ja) 文書検索装置、方法および記録媒体
Johansson A survey on: Contents based search in image databases
Bishnu et al. Euler vector for search and retrieval of gray-tone images
Indu et al. Survey on sketch based image retrieval methods
AbdElrazek A comparative study of image retrieval algorithms for enhancing a content-based image retrieval system
Hamroun et al. A new method of combining colour, texture and shape features using the genetic algorithm for image retrieval
Huang et al. Automatic image annotation using multi-object identification
Neelakandan et al. Fuzzy adaptive learning control network (FALCN) for image clustering and content-based image retrieval on noisy dataset
Myneni et al. Comparative analysis on scene image classification using selected hybrid features
Li et al. Saliency detection: Multi-level combination approach via graph-based manifold ranking
Dharani et al. An appraisal of content based image retrieval by means of unlabelled images
RajaSenbagam et al. A survey on content based image retrieval for reducing semantic gap
Zheng Automated feature extraction and content-based retrieval of pathology microscopic images using k-means clustering and code run-length probability distribution
Alluri et al. Effective Use of Convolutional Neural Networks for Deep Learning in CBIR
Srivastava et al. On Visual Information Retrieval Using Multiresolution Techniques for Web Usage Mining Applications
Shinde et al. Content based image retrieval and classification using support vector machine

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050909

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080926

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081125

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20090130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20090130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090421

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090423

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120501

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees