[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP4261988B2 - 画像処理装置及び方法 - Google Patents

画像処理装置及び方法 Download PDF

Info

Publication number
JP4261988B2
JP4261988B2 JP2003158105A JP2003158105A JP4261988B2 JP 4261988 B2 JP4261988 B2 JP 4261988B2 JP 2003158105 A JP2003158105 A JP 2003158105A JP 2003158105 A JP2003158105 A JP 2003158105A JP 4261988 B2 JP4261988 B2 JP 4261988B2
Authority
JP
Japan
Prior art keywords
similarity
image
block
input
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003158105A
Other languages
English (en)
Other versions
JP2004363786A (ja
JP2004363786A5 (ja
Inventor
朋紀 工藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2003158105A priority Critical patent/JP4261988B2/ja
Publication of JP2004363786A publication Critical patent/JP2004363786A/ja
Publication of JP2004363786A5 publication Critical patent/JP2004363786A5/ja
Application granted granted Critical
Publication of JP4261988B2 publication Critical patent/JP4261988B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storing Facsimile Image Data (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Description

【0001】
【発明の属する技術分野】
本願発明は、スキャナ等の入力装置で読み取られた画像と類似する画像データを、データベースから検索して出力する画像処理装置に関するものである。
【0002】
【従来の技術】
近年、バインダー等で蓄積された紙文書や配付資料等をスキャナで読み取り、オリジナルの電子データを検索するような画像処理装置が提案されている。特許文献1はデータベース内の電子文書をラスター画像に展開してスキャン画像と比較して検索結果を絞り込み、類似度の最も高い文書と予め定められた基準値と比較して、基準値を超えていたら該文書を表示部に出力し、その後印刷や送信を行うものである。
【0003】
【特許文献1】
特開2001−256256
【0004】
【発明が解決しようとする課題】
特許文献1では、オリジナル文書を検索して印刷したい場合に、類似度が十分大きくても一度検索結果を表示部に表示し、印刷や送信を選択する構成のため、余計な手間がかかっていた。
【0005】
【課題を解決するための手段】
上記課題を解決するために、本発明の請求項1に記載の画像処理装置は、入力される文書画像に類似する画像を登録データから検索する画像処理装置において、文書画像を入力する入力手段と、前記入力手段によって入力された文書画像と登録データの類似度を算出する類似度算出手段と、前記類似度算出手段による算出の結果、前記文書画像との類似度がも高い登録データの類似度と次に類似度が高い登録データの類似度との差が所定の値より大きいと判定された登録データのアドレス自動的に通知する通知手段と、前記通知手段によってアドレスが通知された登録データを印刷するよう制御する印刷制御手段と、
を有することを特徴とする。
【0006】
また、上記課題を解決するために、本発明の請求項4に記載の画像処理方法は、入力される文書画像に類似する画像を登録データから検索する画像処理方法において、文書画像を入力手段によって入力する入力ステップと、前記入力手段によって入力された文書画像と登録データの類似度を類似度算出手段が算出する類似度算出ステップと、前記類似度算出ステップによる算出の結果、前記文書画像との類似度が最も高い登録データの類似度と次に類似度が高い登録データの類似度との差が所定の値より大きいと判定された登録データのアドレス自動的に通知手段が通知する通知ステップと、前記通知ステップでアドレスが通知された登録データを印刷するよう印刷制御手段が制御する印刷制御ステップと、を有することを特徴とする。
【0010】
【発明の実施の形態】
本願発明の実施の形態について説明する。図1は本願発明にかかる画像処理装置の構成例を示すブロック図である。本実施例では、オフィス10とオフィス20とがインターネット104で接続された環境をあげる。オフィス10内に構築されたLAN107には、MFP100、MFP100を制御するマネージメントPC101、クライアントPC(外部記憶手段)102文書管理サーバ106、そのデータベース105、およびプロキシサーバ103が接続されている。LAN107及びオフィス20内のLAN108はプロキシサーバ13を介してインターネット104に接続される。MFP100は本発明において紙文書の画像読み取り部と読み取った画像信号に対する画像処理の一部を担当し、画像信号はLAN109を用いてマネージメントPC101に入力する。マネージメントPCは通常のPCであり、内部に画像記憶手段、画像処理手段、表示手段、入力手段を有するが、その一部をMFP100に一体化して構成されている。
【0011】
図2はMFP100の構成図である。図2においてオートドキュメントフィーダー(以降ADFと記す)を含む画像読み取り部110は束状の或いは1枚の原稿画像を図示しない光源で照射し、原稿反射像をレンズで固体撮像素子上に結像し、固体撮像素子からラスター状の画像読み取り信号をイメージ情報として得る。通常の複写機能はこの画像信号をデータ処理部115で記録信号へ画像処理し、複数毎複写の場合は記録部111に一旦一ページ分の記録データを記憶保持した後、記録部112に順次出力して紙上に画像を形成する。
【0012】
一方クライアントPC102から出力されるプリントデータはLAN107からネットワークIF114を経てデータ処理部115で記録可能なラスターデータに変換した後、前記記録部で紙上に記録画像として形成される。
【0013】
MFP100への操作者の指示はMFPに装備されたキー操作部とマネージメントPCに入力されるキーボード及びマウスからなる入力部113から行われ、これら一連の動作はデータ処理部115内の図示しない制御部で制御される。
【0014】
一方、操作入力の状態表示及び処理中の画像データの表示は表示部116で行われる。なお記憶部111はマネージメントPCからも制御され、これらMFPとマネージメントPCとのデータの授受及び制御はネットワークIF117および直結したLAN109を用いて行われる。
【0015】
〔処理概要〕
次に本発明による画像処理の概要を、図5を用いて説明する。
【0016】
原稿を入力する原稿入力処理(2001)ではMFP100の画像読み取り部110を動作させ1枚の原稿をラスター状に走査し画像信号を得る。次にあらかじめ処理設定で設定された処理を判定する判定処理(2002)で図6のようなユーザインタフェースで設定された設定を判定する。原稿出力が設定されていた場合、2001で入力した画像をそのまま、画像の印刷/編集/蓄積/伝達/記録に出力する(2004)。また、原本を検索する原本出力が設定された場合、原本処理(2003)を行い、画像の印刷/編集/蓄積/伝達/記録に出力する(2004)。
【0017】
〔原本処理概要〕
次に本発明による画像処理の原本処理概要を、図3を用いて説明する。
【0018】
原稿入力処理で入力した画像信号をデータ処理部115で前処理を施し記憶部111に1ページ分の画像データとして保存する。マネージメントPC101のCPUは該格納された画像信号から先ず、文字/線画部分とハーフトーンの画像部分とに領域を分離し、文字部は更に段落で塊として纏まっているブロック毎に、或いは、線で構成された表、図形に分離し各々セグメント化する。一方ハーフトーンで表現される画像部分は、矩形に分離されたブロックの画像部分、背景部等、所謂ブロック毎に独立したオブジェクトに分割する(ステップ121)。
【0019】
このとき原稿画像中に付加情報として記録された2次元バーコード、或いはURLに該当するオブジェクトを検出しURLはOCRで文字認識し、或いは2次元バーコードなら該マークを解読して(ステップ122)該原稿のオリジナル電子ファイルが格納されている記憶部内のポインター情報を検出する(ステップ123)。なお、ポインター情報を付加する手段は他に文字と文字の間隔に情報を埋め込む方法、ハーフトーンの画像に埋め込む方法等直接可視化されない所謂電子透かしによる方法も有り、それに対応できる構成としてもよい。
【0020】
ステップ124でポインター情報が検出された場合、ステップ125に分岐し、ポインターで示されたアドレスから元の電子ファイルを検索する。電子ファイルとはスキャンして登録された文書や、アプリケーションで作成された文書等であり、図1におけるクライアントPC内のハードディスク内、或いはオフィス10或いは20のLANに接続された文書管理サーバ105内のデータベース105内、或いはMFP100自体が有する記憶部111のいずれかに格納されている。ステップ125で電子ファイルが見つからなかった場合、見つかったがPDFあるいはTIFFに代表される所謂イメージファイルであった場合、或いはステップ124でポインター情報自体が存在しなかった場合はステップ126に分岐する。
【0021】
ステップ126ではデータベース上のオリジナル電子ファイルを検索するため、まず入力画像をベクトルデータへ変換する。先ず、ステップ122でOCRされた文字ブロックに対しては、更に文字のサイズ、スタイル、字体を認識し、原稿を走査して得られた文字に可視的に忠実なフォントデータに変換する。一方線で構成される表、図形ブロックに対してはアウトライン化し、表など図形形状が認識できるものは、その形状を認識する。画像ブロックに対してはイメージデータとして個別の画像ファイルとして処理する。これらのベクトル化処理はオブジェクト毎に行う。データベース上のファイルベクトルデータへ変換されたイメージは、ステップ127でデータベース上の各ファイルと類似度を調べ、オリジナルを検索する。本実施例では、ステップ126により変換されたベクトルデータを用いて忠実にオリジナルファイルを検索する。オブジェクト毎に類似度を求め、オブジェクト毎の類似度をそのオブジェクトのファイル内占有率に応じてファイル全体の類似度へ反映させる。ファイル内で占めている割合の大きいオブジェクトの類似度が、ファイル全体の類似度へより大きく反映されるため、いかなるフォーマットのファイルにも適応的に対応することが可能である。
【0022】
ステップ128で類似度と閾値を比較した結果、候補が1ファイルの場合はそのファイルの類似度を、候補が複数の場合は類似度の1番高いファイルの類似度を予め定められた閾値と比較し、閾値より高い場合は、自動的にステップ134に分岐し、格納アドレスを通知する。なお、この分岐判定は閾値との比較をするのではなく、1番高い類似度と2番目に高い類似度の差が予め定められたある設定値以上であれば、134に分岐する分岐条件としてもよいし、分岐を設定しないで無条件に類似度の1番高いファイルを選択してステップ134に進むよう構成することもできる。このようにスキャンしてから印刷などの出力を受けるまでの間にユーザの選択操作を挟まないことで、操作性を大幅に向上させることが可能となる。
【0023】
ステップ128で類似度が閾値を超えているファイルがない場合、図7に示すようにサムネイル等を類似度順に表示(ステップ129)し、操作者の選択が必要なら操作者の入力操作よって複数のファイルの中からファイルの特定を行う。ステップ130ではステップ129で表示したファイル中にユーザ所望の電子ファイルがあり、それが選択された場合にステップ134に分岐して該ファイルの格納アドレスを通知し、選択されなかった場合は、ステップ131に分岐する。
【0024】
ステップ131では入力されたデータを登録するために、ベクトル化処理を行う。ベクトル化処理はオブジェクト毎に行い、更に各オブジェクトのレイアウト情報を保存して例えば、rtfに変換(ステップ131)して電子ファイルとして記憶部111に格納(ステップ132)する。
【0025】
今ベクトル化した原稿画像は以降同様の処理を行う際に直接電子ファイルとして検索出来るように、先ずステップ133において検索の為のインデックス情報を生成して検索用インデックスファイルに追加する。ステップ134では記憶部に格納した際の格納アドレスを操作者に通知する。
【0026】
以上本発明によって得られた電子ファイル自体を用いて、例えば文書の印刷、伝送、加工、蓄積、記録をステップ135で行う事が可能になる。なお、上記実施例では操作者に格納アドレスを通知する構成としているが、通知せずに文書の印刷、伝送、加工、蓄積、記録をする構成としても構わない。
【0027】
以下、各処理ブロックに対して詳細に説明する。
【0028】
先ずステップ121で示すブロックセレクション処理について説明する。
【0029】
〔ブロックセレクション処理〕
ブロックセレクション処理とは、図4に示すように、文書画像をオブジェクト毎の塊として認識し、該ブロック各々を文字/図画/写真/線/表等の属性に判定し、異なる属性を持つ領域に分割する処理である。
【0030】
ブロックセレクション処理の実施例を以下に説明する。
【0031】
先ず、入力画像を白黒に二値化し、輪郭線追跡をおこなって黒画素輪郭で囲まれる画素の塊を抽出する。面積の大きい黒画素の塊については、内部にある白画素に対しても輪郭線追跡をおこない白画素の塊を抽出、さらに一定面積以上の白画素の塊の内部からは再帰的に黒画素の塊を抽出する。
【0032】
このようにして得られた黒画素の塊を、大きさおよび形状で分類し、異なる属性を持つ領域へ分類していく。たとえば、縦横比が1に近く、大きさが一定の範囲のものを文字相当の画素塊とし、さらに近接する文字が整列良くグループ化可能な部分を文字領域、扁平な画素塊を線領域、一定大きさ以上でかつ四角系の白画素塊を整列よく内包する黒画素塊の占める範囲を表領域、不定形の画素塊が散在している領域を写真領域、それ以外の任意形状の画素塊を図画領域、などとする。
【0033】
ブロックセレクション処理で得られた各ブロックに対するブロック情報を図4に示す。
【0034】
これらのブロック毎の情報は以降に説明するベクトル化、或いは検索の為の情報として用いる。
【0035】
〔文字認識〕
文字認識部では、文字単位で切り出された画像に対し、パターンマッチの一手法を用いて認識を行い、対応する文字コードを得る。この認識処理は、文字画像から得られる特徴を数十次元の数値列に変換した観測特徴ベクトルと、あらかじめ字種毎に求められている辞書特徴ベクトルと比較し、最も距離の近い字種を認識結果とする処理である。特徴ベクトルの抽出には種々の公知手法があり、たとえば、文字をメッシュ状に分割し、各メッシュ内の文字線を方向別に線素としてカウントしたメッシュ数次元ベクトルを特徴とする方法がある。
【0036】
ブロックセレクション(ステップ121)で抽出された文字領域に対して文字認識を行う場合は、まず該当領域に対し横書き、縦書きの判定をおこない、各々対応する方向に行を切り出し、その後文字を切り出して文字画像を得る。横書き、縦書きの判定は、該当領域内で画素値に対する水平/垂直の射影を取り、水平射影の分散が大きい場合は横書き領域、垂直射影の分散が大きい場合は縦書き領域と判断すればよい。文字列および文字への分解は、横書きならば水平方向の射影を利用して行を切り出し、さらに切り出された行に対する垂直方向の射影から、文字を切り出すことでおこなう。縦書きの文字領域に対しては、水平と垂直を逆にすればよい。なお、この時文字のサイズが検出出来る。
【0037】
〔ファイル検索〕
次に、図3のステップ127で示すファイル検索処理の詳細について図11乃至図13を使用して説明を行う。
【0038】
本実施例では、前述したブロックセレクション処理により分割しベクトル化された各ブロック情報を利用し検索を行う。具合的に検索は、各ブロックの属性とファイル中のブロック座標情報との比較、すなわちレイアウトによる比較と、ファイル内の各ブロックの属性により異なる比較方法が適用されるブロック毎の内部情報比較とを複合した複合検索を用いる。
【0039】
図11は、図3のステップ126でベクトル化されたスキャン画像データ(入力ファイル)の例であり、ブロックB’1〜B’9に分割されかつそれぞれがベクトル化処理されている。
【0040】
図12は、入力ファイルを既にベクトル化されデータベース上に保存されてある画像データ(データベースファイル)と順次比較し、類似度を算出するフローチャートである。まず、データベースよりデータベースファイルへアクセスする(ステップ501)。入力ファイルの各ブロックとデータベースファイルの各ブロックを比較し、入力ファイルのブロック毎にデータベースファイルのブロックとの類似度を求める(ステップ502)。
【0041】
ここで、ブロック毎に類似度を算出する際、図13に示すフローチャートに従い、まず入力ファイルの該ブロックとレイアウト上一致すると推定されるデータベースファイルの対象ブロックを選出する。この処理においては、入力ファイルの複数のブロックに対し、データベースファイルの対象ブロックが重複されて選出されてもよい。次に該ブロックと対象ブロックとのレイアウト情報の類似度を求める。ブロックの位置、サイズ、属性を比較し(ステップ512、513、514)、その誤差からレイアウトの類似度を求める。次にブロック内部の比較を行うが、ブロック内部を比較する際は同じ属性として比較するため、属性が異なる場合は片方のブロックを一致する属性へ再ベクトル化するなど前処理を行う。前処理により同じ属性として扱われる入力ファイルのブロックとデータベースファイルの対象ブロックは、ブロックの内部比較を行う(ステップ515)。
【0042】
ブロック内部比較では、ブロックの属性に最適な比較手法をとるため、属性によりその比較手法は異なる。例えば、前述したブロックセレクション処理により、ブロックはテキスト、写真、表、線画などの属性に分割される。テキストブロックを比較する場合は、ベクトル化処理により文字コード、フォントが判別されているため、各文字の一致度からその文章の類似度を算出し、ブロック内部の類似度が算出される。写真画像ブロックでは、画像より抽出される特徴ベクトルを特徴空間上の誤差より類似度が算出される。ここでいう特徴ベクトルとは、色ヒストグラムや色モーメントのような色に関する特徴量、共起行列、コントラスト、エントロピ、Gabor変換等で表現されるテクスチャ特徴量、フーリエ記述子等の形状特徴量など複数挙げられ、このような複数の特徴量のうち最適な組み合わせを用いる。また、線画ブロックでは、線画ブロックはベクトル化処理によりアウトライン線、もしくは罫線、曲線の集合として表現されるため、各線の始点、終点の位置、曲率などの誤差を算出することにより線画の類似度が算出される。また、表ブロックでは、表の格子数、各枠子のサイズ、各格子内のテキスト類似度などを算出することにより、表ブロック全体の類似度が算出できる。
【0043】
以上より、ブロック位置、サイズ、属性、ブロック内部の類似度を算出し、各類似度を合計することで入力ファイルの該ブロックに対しその類似度を算出することが可能であり、該ブロック類似度を記録する。入力ファイルのブロック全てについて、一連の処理を繰り返す。求められたブロック類似度は、全て統合することで、入力ファイルの類似度を求める(ステップ503)。統合処理について説明する。図11の入力ファイルのブロックB1’〜B9’に対し、ブロック毎の類似度がn1〜n9と算出されたとする。このときファイル全体の総合類似度Nは、以下の式で表現される。
N=w1*n1+w2*n2+w3*n3+….+w9*n9+γ ・・・(1)
【0044】
ここで、w1〜w9は、各ブロックの類似度を評価する重み係数である。γは補正項であり、例えば、データベースファイルの入力ファイルに対する対象ブロックとして選出されなかったブロックの評価値などとする。重み係数w1〜w9は、ブロックのファイル内占有率により求める。例えばブロック1〜9のサイズをS1〜S9とすると、ブロック1の占有率w1は、
w1=S1/(S1+S2+….+S9) ・・・(2)
として算出できる。このような占有率を用いた重み付け処理により、ファイル内で大きな領域を占めるブロックの類似度がよりファイル全体の類似度に反映されるようになる。
【0045】
〔ファイル検索におけるテキスト検索の類似度算出〕
文書は登録される段階で、登録文書に含まれる単語を取得する。次に、文書内に出現する単語から基本ベクトル辞書を用いて算出される。図9は基本ベクトル辞書の構成を示したものである。基本ベクトル辞書は単語毎にベクトル表現時のそれぞれの次元(Dim.)に応対した特徴量が格納されている。次元はその単語本来の意味によって分類された基準や、その単語の使用分野に応じて分類された基準等が採用される。単語1のDim.1の特徴量は0であり、Dim.2の特徴量は23であることがわかる。このように辞書から一つの単語におけるそれぞれの次元(Dim.)の特徴量を得ることが可能となる。特徴量はその単語が使用されることにより、その文書がその分類基準(=次元)をどれぐらい特徴付ける可能性があるかを示す値と解釈することが可能である。文書を構成するすべての単語から得られた分類基準別(次元別)の特徴量から、文書全体の特徴量を分類基準を次元とするベクトルで表現する。得られたベクトルをノルム=1で正規化した値を文書ベクトルとして格納する。文書ベクトルを図10のようなインデックスに格納する。文書ID=6947の文書ベクトルのDim.1の特徴量は0.183であり、Dim.2の特徴量は0.214であることがわかる。
【0046】
〔アプリデータへの変換処理〕
ところで、一頁分のイメージデータをブロックセレクション処理(ステップ121)し、ベクトル化処理(ステップ126)した結果は図14に示す様な中間データ形式のファイルとして変換されているが、このようなデータ形式はドキュメント・アナリシス・アウトプット・フォーマット(DAOF)と呼ばれる。
【0047】
図14はDAOFのデータ構造を示す図である。
【0048】
図14において、791はHeaderであり、処理対象の文書画像データに関する情報が保持される。レイアウト記述データ部792では、文書画像データ中のTEXT(文字)、TITLE(タイトル)、CAPTION(キャプション)、LINEART(線画)、EPICTURE(自然画)、FRAME(枠)、TABLE(表)等の属性毎に認識された各ブロックの属性情報とその矩形アドレス情報を保持する。文字認識記述データ部793では、TEXT、TITLE、CAPTION等のTEXTブロックを文字認識して得られる文字認識結果を保持する。表記述データ部794では、TABLEブロックの構造の詳細を格納する。画像記述データ部795は、PICTUREやLINEART等のブロックのイメージデータを文書画像データから切り出して保持する。
【0049】
このようなDAOFは、中間データとしてのみならず、それ自体がファイル化されて保存される場合もあるが、このファイルの状態では、所謂一般の文書作成アプリケーションで個々のオブジェクトを再利用する事は出来ない。そこで次に、このDAOFからアプリデータに変換する処理(ステップ131)について詳説する。
【0050】
図15は、アプリデータ変換の概略フローである。
8000は、DAOFデータの入力を行う。
8002は、アプリデータの元となる文書構造ツリー生成を行う。
8004は、文書構造ツリーを元に、DAOF内の実データを流し込み、実際のアプリデータを生成する。
【0051】
図16は、8002文書構造ツリー生成部の詳細フロー、図17は、文書構造ツリーの説明図である。全体制御の基本ルールとして、処理の流れはミクロブロック(単一ブロック)からマクロブロック(ブロックの集合体)へ移行する。
【0052】
以後ブロックとは、ミクロブロック、及びマクロブロック全体を指す。
【0053】
8100は、ブロック単位で縦方向の関連性を元に再グループ化する。スタート直後はミクロブロック単位での判定となる。
【0054】
ここで、関連性とは、距離が近い、ブロック幅(横方向の場合は高さ)がほぼ同一であることなどで定義することができる。
【0055】
また、距離、幅、高さなどの情報はDAOFを参照し、抽出する。
【0056】
図17(a)は実際のページ構成、(b)はその文書構造ツリーである。8100の結果、T3、T4、T5が一つのグループV1、T6、T7が一つのグループV2が同じ階層のグループとしてまず生成される。
【0057】
8102は、縦方向のセパレータの有無をチェックする。セパレータは、例えば物理的にはDAOF中でライン属性を持つオブジェクトである。また論理的な意味としては、アプリ中で明示的にブロックを分割する要素である。ここでセパレータを検出した場合は、同じ階層で再分割する。
【0058】
8104は、分割がこれ以上存在し得ないか否かをグループ長を利用して判定する。
【0059】
ここで、縦方向のグループ長がページ高さとなっている場合は、文書構造ツリー生成は終了する。
【0060】
図17の場合は、セパレータもなく、グループ高さはページ高さではないので、8106に進む。
【0061】
8106は、ブロック単位で横方向の関連性を元に再グループ化する。ここもスタート直後の第一回目はミクロブロック単位で判定を行うことになる。
【0062】
関連性、及びその判定情報の定義は、縦方向の場合と同じである。
【0063】
図17の場合は、T1,T2でH1、V1,V2でH2、がV1,V2の1つ上の同じ階層のグループとして生成される。
【0064】
8108は、横方向セパレータの有無をチェックする。
【0065】
図17では、S1があるので、これをツリーに登録し、H1、S1、H2という階層が生成される。
【0066】
8110は、分割がこれ以上存在し得ないか否かをグループ長を利用して判定する。
【0067】
ここで、横方向のグループ長がページ幅となっている場合は、文書構造ツリー生成は終了する。
【0068】
そうでない場合は、8102に戻り、再びもう一段上の階層で、縦方向の関連性チェックから繰り返す。
【0069】
図17の場合は、分割幅がページ幅になっているので、ここで終了し、最後にページ全体を表す最上位階層のV0が文書構造ツリーに付加される。
【0070】
文書構造ツリーが完成した後、その情報を元に8006においてアプリデータの生成を行う。
【0071】
図17の場合は、具体的には、以下のようになる。
【0072】
すなわち、H1は横方向に2つのブロックT1とT2があるので、2カラムとし、T1の内部情報(DAOFを参照、文字認識結果の文章、画像など)を出力後、カラムを変え、T2の内部情報出力、その後S1を出力となる。
【0073】
H2は横方向に2つのブロックV1とV2があるので、2カラムとして出力、V1はT3、T4、T5の順にその内部情報を出力、その後カラムを変え、V2のT6、T7の内部情報を出力する。
【0074】
以上によりアプリデータへの変換処理が行える。
【0075】
〔ファイル検索における別実施例1〕
上記の実施例では、ファイル検索において、入力ファイルとデータベースファイルを比較する際、全ての入力ファイルの全てのブロックについて、レイアウト情報とブロックの内部情報の比較を行った。しかし、ブロック内部情報の比較を行わずともレイアウトの情報を比較した段階である程度ファイルを選別することが可能である。すなわち、入力ファイルとレイアウトが全く異なるデータベースファイルはブロック内部情報の比較処理を省くことが可能である。図19にレイアウト情報によるファイル選別を実施した際のフローチャートである。まず、入力ファイルの全てのブロックに対し、位置、サイズ、属性の比較を行い、その類似度を求め、ファイル全体のレイアウト類似度を求める(ステップ522)。レイアウト類似度が閾値より低い場合は、ブロック内部情報比較は行わない(ステップ523)。閾値より高い場合、つまりレイアウトが似ている場合のみ、ブロック内部情報の比較(ステップ524)を行い、先に求めたレイアウト類似度とブロック内部の類似度より、ファイル全体の総合類似度が求まる(ステップ525)。ブロック毎の類似度からの総合類似度の求める手法は、図12のステップ503と同様の処理であり、説明を省略する。該類似度が閾値以上のファイルに関しては候補として保存する。ブロック内部情報の類似度を求める処理は特に写真ブロックの一致を調べるときなど、一般的に重い処理となる。よって、レイアウトである程度ファイルを絞り込むことで、検索処理量の軽減、処理の高速化が行え、効率よく所望のファイルを検索できる。
【0076】
〔ファイル検索における別実施例2〕
上記の実施例は全て、ファイル検索時、ユーザが何も指定せずに検索を施した場合の検索処理実施例である。しかし、ユーザに文書内の特徴となる部分(ブロックセレクションより求められるブロック)を指定させる、もしくは無駄なブロックを省く、または文書内の特徴を指定させることで、ファイル検索をより最適化することが可能になる。
【0077】
図8は検索時、ユーザによる検索オプション指定のユーザインタフェース画面(1001)の例である。入力ファイルはブロックセレクション処理により、複数のブロックに分割されており、入力画面にはファイル上のテキスト、写真、表、線画など各ブロックがサムネイルとなり表示される(1011〜1017)。ユーザは表示されたブロック中から、特徴となるブロックを選択する。このとき選択するブロックは複数であってもよい。例として、ブロック1014を選択したとする。ブロック1014が選択された状態で、ボタン「優先」(1003)を押したとき、よりブロック1014を重視した検索処理を行うようにする。重視した検索とは、例えば、ブロック毎の類似度からファイル全体の類似度を求める演算式(1)の指定されたブロック1014の重み係数を大きくし、選択外のブロックの重み係数を小さくするようにするということで実現できる。複数回「優先」ボタン(1004)を押せば、選択されたブロックの重み係数を大きくし、よりブロックを重視した検索が行える。また、除外ボタン(1004)を押せば、選択されたブロック1014を省いた状態で検索処理を施す。ブロックが誤って認識された場合などには、無駄な検索処理を省略し、かつ誤った検索処理を防止できる。また、詳細設定(1005)によりブロックの属性の変更を実現可能とし、ブロックセレクション(ステップ121)での誤って属性を認識した場合でもユーザが修正することで、正確な検索できる。また、詳細設定1005では、ユーザにより、ブロックの検索優先する重みを細かく調節可能とする。このように、検索する際、ユーザが特徴となるブロックを指定、設定させることで、検索の最適化が行える。
【0078】
一方、ファイルによっては、レイアウトが特殊な場合も考えられる。このようなファイルに関しては、図8のレイアウト優先ボタン(1005)を選択することにより、レイアウトを重視したファイル検索を可能とする。この場合、レイアウトの類似度の結果をより重視するように、重み付けすることで実現する。また、テキスト優先ボタン(1006)では、テキストブロックのみの検索を実行し、処理の軽減を図れる。
【0079】
このように、ユーザに画像の特徴を選択させることで、ファイルの特徴を重視した検索が行える。また、ユーザという人為的手段を信頼する、すなわちユーザ指定により重みを変更する際に、それに伴い変更された重みが閾値以下になる選択外ブロックを検索処理しないなどの制限を加えれば、ユーザの簡単な操作で、無駄なブロックの検索処理を大幅に削減できることも可能である。
【0080】
(他の実施例)
上記実施例では、図6に示すように原本出力、原稿出力から処理を選択して実行していたが、本発明はこれに限られるものではない。図20に示すように、原本出力、原本登録、原稿出力(原本登録しない)、原稿出力(原本登録する)から処理を選択してもよい。原本登録が選択された場合は画像入力後、図3で示すステップ131から処理が始まり、画像の印刷は行わない。原稿出力(原本登録しない)が選択された場合は画像入力後、ステップ135にとび、画像の印刷が行われる。原稿出力(原本登録する)が選択された場合は画像入力後、ステップ131から処理が始まり、登録するとともに画像印刷が行われる。
【0081】
また、上記実施例では、ステップ128で比較する閾値や設定値は予め定められたものとしていたが、これを設定する手段を備えても構わない。その場合例えば、図18に示すようなインタフェースで設定するよう構成すればよい。
【0082】
【発明の効果】
以上詳述したように本発明によれば、画像処理装置において、入力画像と登録データの類似度が大きい登録データを、ユーザの選択操作を介さずに印刷することにより、ユーザの操作性を大幅に向上させることが可能になる。
【図面の簡単な説明】
【図1】本発明の実施形態に係るシステムの構成を示すブロック図である。
【図2】本発明の実施形態に係るMFPの構成を示すブロック図である。
【図3】本発明の実施形態に係る原本処理手順を示すフローチャートである。
【図4】本発明の実施形態に係るブロックセレクション処理の実施例である。
【図5】概略処理手順を示すフローチャートである。
【図6】ユーザインタフェース画面の例を示す図である。
【図7】一覧選択ユーザインタフェース画面の例を示す図である。
【図8】ユーザインタフェース画面の例を示す図である。
【図9】テキスト検索の基本ベクトル辞書の例である。
【図10】テキストの文書ベクトルインデックスの例である。
【図11】ブロック例を示す図である。
【図12】ファイル検索処理の処理手順を示すフローチャートである。
【図13】ファイル検索処理のブロック比較処理手順を示すフローチャートである。
【図14】DAOF例を示す図である。
【図15】アプリデータ変換処理手順を示すフローチャートである。
【図16】文書構造ツリー生成処理手順を示すフローチャートである。
【図17】文書構造ツリー説明図である。
【図18】閾値設定ユーザインタフェース画面の例を示す図である。
【図19】レイアウト情報によるファイル選別処理手順を示すフローチャートである。
【図20】ユーザインタフェース画面の例を示す図である。

Claims (5)

  1. 入力される文書画像に類似する画像を登録データから検索する画像処理装置において、
    文書画像を入力する入力手段と、
    前記入力手段によって入力された文書画像と登録データの類似度を算出する類似度算出手段と、
    前記類似度算出手段による算出の結果、前記文書画像との類似度がも高い登録データの類似度と次に類似度が高い登録データの類似度との差が所定の値より大きいと判定された登録データのアドレス自動的に通知する通知手段と、
    前記通知手段によってアドレスが通知された登録データを印刷するよう制御する印刷制御手段と、
    を有することを特徴とする画像処理装置。
  2. 前記文書画像との類似度が最も高い登録データの類似度と次に類似度が高い登録データの類似度との差が前記所定の値よりも大きくない場合に、複数の登録データを類似度に基づいて一覧表示する一覧表示手段を更に有することを特徴とする請求項1記載の画像処理装置。
  3. 前記所定の値を設定する値設定手段を更に有することを特徴とする請求項1に記載の画像処理装置。
  4. 入力される文書画像に類似する画像を登録データから検索する画像処理方法において、
    文書画像を入力手段によって入力する入力ステップと、
    前記入力手段によって入力された文書画像と登録データの類似度を類似度算出手段が算出する類似度算出ステップと、
    前記類似度算出ステップによる算出の結果、前記文書画像との類似度が最も高い登録データの類似度と次に類似度が高い登録データの類似度との差が所定の値より大きいと判定された登録データのアドレス自動的に通知手段が通知する通知ステップと、
    前記通知ステップでアドレスが通知された登録データを印刷するよう印刷制御手段が制御する印刷制御ステップと、
    を有することを特徴とする画像処理方法。
  5. 請求項4に記載の画像処理方法に記載の各ステップをコンピュータに実行させるためのプログラムコードからなるコンピュータプログラム。
JP2003158105A 2003-06-03 2003-06-03 画像処理装置及び方法 Expired - Fee Related JP4261988B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003158105A JP4261988B2 (ja) 2003-06-03 2003-06-03 画像処理装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003158105A JP4261988B2 (ja) 2003-06-03 2003-06-03 画像処理装置及び方法

Publications (3)

Publication Number Publication Date
JP2004363786A JP2004363786A (ja) 2004-12-24
JP2004363786A5 JP2004363786A5 (ja) 2006-05-11
JP4261988B2 true JP4261988B2 (ja) 2009-05-13

Family

ID=34051626

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003158105A Expired - Fee Related JP4261988B2 (ja) 2003-06-03 2003-06-03 画像処理装置及び方法

Country Status (1)

Country Link
JP (1) JP4261988B2 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4569162B2 (ja) * 2004-04-30 2010-10-27 コニカミノルタビジネステクノロジーズ株式会社 画像処理方法、画像処理プログラムおよび画像処理装置
JP2006209353A (ja) * 2005-01-26 2006-08-10 Sharp Corp 画像判断装置、画像形成装置、画像判断方法、画像判断プログラム、画像形成プログラムおよびコンピュータ読取り可能な記録媒体
JP4859025B2 (ja) * 2005-12-16 2012-01-18 株式会社リコー 類似画像検索装置、類似画像検索処理方法、プログラム及び情報記録媒体
US9767354B2 (en) 2009-02-10 2017-09-19 Kofax, Inc. Global geographic information retrieval, validation, and normalization
US10146795B2 (en) 2012-01-12 2018-12-04 Kofax, Inc. Systems and methods for mobile image capture and processing
US9165188B2 (en) 2012-01-12 2015-10-20 Kofax, Inc. Systems and methods for mobile image capture and processing
US9208536B2 (en) 2013-09-27 2015-12-08 Kofax, Inc. Systems and methods for three dimensional geometric reconstruction of captured image data
US9355312B2 (en) 2013-03-13 2016-05-31 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
US20140316841A1 (en) 2013-04-23 2014-10-23 Kofax, Inc. Location-based workflows and services
DE202014011407U1 (de) 2013-05-03 2020-04-20 Kofax, Inc. Systeme zum Erkennen und Klassifizieren von Objekten in durch Mobilgeräte aufgenommenen Videos
US9386235B2 (en) 2013-11-15 2016-07-05 Kofax, Inc. Systems and methods for generating composite images of long documents using mobile video data
US9760788B2 (en) 2014-10-30 2017-09-12 Kofax, Inc. Mobile document detection and orientation based on reference object characteristics
US10242285B2 (en) 2015-07-20 2019-03-26 Kofax, Inc. Iterative recognition-guided thresholding and data extraction
US11062176B2 (en) 2017-11-30 2021-07-13 Kofax, Inc. Object detection and image cropping using a multi-detector approach

Also Published As

Publication number Publication date
JP2004363786A (ja) 2004-12-24

Similar Documents

Publication Publication Date Title
US7593961B2 (en) Information processing apparatus for retrieving image data similar to an entered image
JP4181892B2 (ja) 画像処理方法
JP4859025B2 (ja) 類似画像検索装置、類似画像検索処理方法、プログラム及び情報記録媒体
JP4350414B2 (ja) 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム
JP4251629B2 (ja) 画像処理システム及び情報処理装置、並びに制御方法及びコンピュータプログラム及びコンピュータ可読記憶媒体
JP4895340B2 (ja) 情報処理装置およびその方法
JP5063422B2 (ja) 画像処理装置、画像処理方法、コンピュータプログラム
JP4502385B2 (ja) 画像処理装置およびその制御方法
US20040220962A1 (en) Image processing apparatus, method, storage medium and program
US20040213458A1 (en) Image processing method and system
JP4261988B2 (ja) 画像処理装置及び方法
JP4533273B2 (ja) 画像処理装置及び画像処理方法、プログラム
JP4227432B2 (ja) 画像処理方法
JP4338189B2 (ja) 画像処理システム及び画像処理方法
JP4811133B2 (ja) 画像形成装置及び画像処理装置
JP2009211554A (ja) 画像処理装置、画像処理方法、コンピュータプログラム、および記憶媒体
JP2004348467A (ja) 画像検索装置及びその制御方法、プログラム
JP2004334340A (ja) 画像処理方法及び装置
JP2007048057A (ja) 画像処理装置
JP2006134042A (ja) 画像処理システム
JP6012700B2 (ja) 情報処理装置、情報処理方法、情報処理システム、コンピュータプログラム
JP2005208872A (ja) 画像処理システム
JP2006146486A (ja) 画像処理装置
JP2008084127A (ja) 画像形成装置
JP2006165783A (ja) 画像処理システム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060315

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060315

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081014

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081021

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090120

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090206

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120220

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130220

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140220

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees