[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP5036430B2 - 画像処理装置及びその制御方法 - Google Patents

画像処理装置及びその制御方法 Download PDF

Info

Publication number
JP5036430B2
JP5036430B2 JP2007181446A JP2007181446A JP5036430B2 JP 5036430 B2 JP5036430 B2 JP 5036430B2 JP 2007181446 A JP2007181446 A JP 2007181446A JP 2007181446 A JP2007181446 A JP 2007181446A JP 5036430 B2 JP5036430 B2 JP 5036430B2
Authority
JP
Japan
Prior art keywords
region
area
image
joining
regions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007181446A
Other languages
English (en)
Other versions
JP2009021712A (ja
Inventor
淳 ▲濱▼口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2007181446A priority Critical patent/JP5036430B2/ja
Priority to US12/169,901 priority patent/US8244035B2/en
Publication of JP2009021712A publication Critical patent/JP2009021712A/ja
Application granted granted Critical
Publication of JP5036430B2 publication Critical patent/JP5036430B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/387Composing, repositioning or otherwise geometrically modifying originals
    • H04N1/3872Repositioning or masking
    • H04N1/3873Repositioning or masking defined only by a limited number of coordinate points or parameters, e.g. corners, centre; for trimming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00204Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a digital computer or a digital computer system, e.g. an internet server

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)
  • Facsimile Image Signal Circuits (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Character Input (AREA)
  • Facsimiles In General (AREA)

Description

本発明は、画像を複数の領域に分割し、接合条件を満たす2つ以上の領域を接合する画像処理装置及びその制御方法に関する。
原稿を読み取り、その読み取った画像を複数の要素に分割し、各要素毎のデータを管理する文書画像処理装置が特許文献1に記載されている。この特許文献1には、複数ページの文書から、ページを跨って記事を抽出する技術が開示されている。また特許文献2には、ブロックに分割された文書を入力してブロック同士を結合し、1つのブロックに再構成する文書解析装置が記載されている。
特開平10−247237公報 特開平11−15826公報
しかしながら上記特許文献1,2では、文字以外の要素を結合できないという問題があった。即ち、図表や写真等のブロック同士を結合することができないため、これら図表や写真は、別の画像のコンテンツとして管理されてしまう。そのため、画像データを再編集して印刷する際に、複数のコンテンツを編集する必要がある。また文字領域を結合する際、特許文献1では、文字領域でタイトルやセパレータを検出するまで文字領域同士を結合している。このため段組等のレイアウトを指定した文字領域同士を結合するのが難しい。また文字領域が再編集されて、その領域のサイズが増減した後に、それら文字領域を含む文書を印刷すると、その文書に対して元々設定されているレイアウトが崩れてしまうといった問題もあった。
本発明の一態様によれば、上記従来の問題点を解決することを目的としている。
また本願発明の他の態様によれば、複数ページに亘る画像データの各ページの画像をその画像に含まれる部分画像の種別に応じた複数の領域に分割し、それら複数の領域の内、接合対象の領域を検索する方向を含む結合条件を設定する。そしてその接合条件に従って2つ以上の領域を接合する画像処理装置及びその制御方法を提供する。また、その接合された領域を含む画像をページ単位の画像に展開して出力することができる画像処理装置及びその制御方法を提供する。
上記目的を達成するために本発明の一態様に係る画像処理装置は以下のような構成を備える。即ち、
複数ページにわたる画像データの各ページの画像を当該画像に含まれる部分画像の種別に応じた複数の領域に分割する分割手段と、
前記複数の領域のそれぞれの少なくとも座標、サイズ及び前記種別に関する属性情報を保持する保持手段と、
前記分割手段により分割された複数の領域の1つである第1の領域を、当該複数の領域の1つである第2の領域と接合する際に、ユーザの指示に基づいて前記第2の領域を特定するための方向を設定する設定手段と、
前記複数の領域において前記第1の領域に隣接する複数の隣接領域のうち、前記第1の領域の属性情報が示す前記種別と同一の種別の部分画像に対応する領域であってかつ前記設定手段により設定された方向に隣接する領域が存在すると該領域を前記第2の領域として特定し、該特定された第2の領域を前記第1の領域と接合して1つの領域とする領域接合手段と、
前記領域接合手段により接合された領域を含む前記画像データの領域に関する情報を記憶する記憶手段と、
を有することを特徴とする。
上記目的を達成するために本発明の一態様に係る画像処理装置の制御方法は以下のような工程を備える。即ち、
画像を複数の領域に分割する画像処理装置の制御方法であって、
複数ページにわたる画像データの各ページの画像を当該画像に含まれる部分画像の種別に応じた複数の領域に分割する分割工程と、
前記複数の領域のそれぞれの少なくとも座標、サイズ及び前記種別に関する属性情報を保持する保持工程と、
前記分割工程で分割された複数の領域の1つである第1の領域を、当該複数の領域の1つである第2の領域と接合する際に、ユーザの指示に基づいて前記第2の領域を特定するための方向を設定する設定工程と、
前記複数の領域において前記第1の領域に隣接する複数の隣接領域のうち、前記第1の領域の属性情報が示す前記種別と同一の種別の部分画像に対応する領域であってかつ前記設定工程で設定された方向に隣接する領域が存在すると該領域を前記第2の領域として特定し、該特定された第2の領域を前記第1の領域と接合して1つの領域とする領域接合工程と、
前記領域接合工程により接合された領域を含む前記画像データの領域に関する情報を記憶する記憶工程と、
を有することを特徴とする。
本発明によれば、複数ページに亘る画像データの各ページの画像をその画像に含まれる部分画像の種別に応じた複数の領域に分割し、それら複数の領域の内、接合対象の領域を検索する方向を含む結合条件を設定する。そして、その接合条件に従って2つ以上の領域を接合できる。また、その接合された領域を含む画像をページ単位の画像に展開して出力することができる。
以下、添付図面を参照して本発明の好適な実施の形態を詳しく説明する。尚、以下の実施の形態は特許請求の範囲に係る本発明を限定するものでなく、また本実施の形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。
図1は、本発明の実施の形態に係る画像処理システムの構成例を示すブロック図である。
この実施の形態に係る画像処理装置は、多機能装置(以下、MFP)100であり、LAN110に接続された環境で動作している。LAN110には、MFP100に印刷指示を行うクライアントPC102が接続されている。またMFP100には、コンテンツを管理するためのデータベース105が接続されている。更にLAN110にはサーバ103も接続されており、このサーバ103に接続されたデータベース104からコンテンツをLAN110に出力したり、またデータベース104に格納することができる。またクライアントPC102は、サーバ103にコンテンツを要求して取得し、そのコンテンツを表示及び修正して再びデータベース104に保存できる。
図2は、本実施の形態に係るMFP100の構成を説明するブロック図である。
制御部2000は、画像情報やデバイス情報等を入出力するとともに、このMFP100全体の動作を制御している。この制御部2000は、画像入力デバイスであるカラースキャナ2015や画像出力デバイスであるカラープリンタ2017と接続し、一方ではLAN110や公衆回線(WAN)2051と接続している。CPU2001は、この制御部2000を制御している。RAM2002は、CPU2001が動作するためのプログラムやデータを格納するシステムワークメモリであり、画像データを一時記憶するための画像メモリでもある。ROM2003はブートROMであり、システムのブートプログラムを格納している。HDD2004はハードディスクドライブで、ここにはOSや各種プログラムがインストールされており、これらプログラムは電源オン時にブートプログラムによってRAM2002にロードされ、CPU2001の制御の下に実行される。
操作部I/F2005は、操作部(UI)2006のインタフェース部で、操作部2006に表示する画像データを操作部2006に出力したり、操作部2006でユーザが入力した情報をCPU2001に伝える役割をする。ネットワークI/F2007は、LAN110と接続し、LAN110との間でデータの入出力を行う。モデム2050は公衆回線2051と接続して画像情報の入出力を行う。2値画像回転部2052及び2値画像圧縮・伸張部2053は、モデム2050を介して2値画像を送信する前に画像の方向を変換したり、所定の解像度、或は相手能力に合わせた解像度に変換する。尚、この2値画像圧縮・伸張部2053は、JBIG,MMR,MR,MH等の符号化/復号化をサポートしている。DMAC2009はDMAコントローラであり、RAM2002に格納されている画像データをDMAでイメージバスI/F2011に転送する。またイメージバスI/F2011から受取った画像データをDMAでRAM2002に書き込む。以上のデバイスがシステムバス2008に接続されている。
イメージバスI/F2011は、イメージバス2010を介して画像データの入出力を高速に行うことができる。圧縮器2012は、イメージバス2010に画像データを送出する前に32画素×32画素の単位でJPEG圧縮する。伸張器2013は、イメージバスI/F2011を介して送られた符号化された画像データを伸張する。
ラスタイメージプロセッサ(RIP)2018は、PC102からのPDLコードをLAN110を介して受け取ってシステムバス2008に出力する。これによりCPU2001は、そのPDLコードをRAM2002に格納する。CPU2001は、そのPDLコードを中間コードに変換し、再度システムバス2008を介してRIP2018に供給してビットマップイメージ(多値)に展開させる。スキャナ画像処理部2014は、スキャナ2015から入力したカラー画像や白黒画像に対して、適切な各種画像処理(例えば補正、加工、編集)を行い、その結果としての画像データ(多値)を圧縮器2012に出力する。同様にプリンタ画像処理部2016は、プリンタ2017に対して適切な各種画像処理(例えば補正、加工、編集)を行ってプリンタ2017に出力する。尚、プリント時は伸張器2013で2値データから多値データへの変換を行うので、2値及び多値データのデータ出力が可能である。
画像変換部2030は、RAM2002に記憶されている画像データを変換し、再度、RAM2002に書き戻すときに使われる各種画像変換機能を有する。回転器2019は32画素×32画素単位の画像データを、指定された角度で回転でき、2値及び多値データの入出力に対応している。変倍器2020は、画像データの解像度を変換(例えば600dpiから200dpi)したり、変倍する機能(例えば25%から400%まで)を有する。ここで変倍前には、32×32画素の画像データを32ライン単位の画像データに並び替える。色空間変換器2021は、多値で入力された画像データをマトリクス演算及びLUTにより、例えばYUV画像データからLab画像データに変換する。また、この色空間変換器2021は、3×8のマトリクス演算及び、一次元LUTを有し、公知の下地とばしや裏写り防止を行うことができる。こうして変換された画像データは多値で出力される。2値多値変換部2022は、2値データを多値の8ビット(256階調)の画像データに変換する。逆に多値2値変換部2026は、例えば8ビット(256階調)の画像データを、誤差拡散処理などにより2値データに変換する。合成部2023は、RAM2002の2つの多値画像データ同士を合成して1つの多値画像データにする機能を有する。例えば、会社ロゴの画像と原稿画像とを合成して、原稿画像に会社ロゴをつけることができる。間引き部2024は、多値画像データの画素を間引いて解像度変換を行う。ここでは1/2,1/4,1/8の多値画像データを出力可能である。この間引き部2024と変倍器2020とを合わせて使うことで、より広範囲な画像データの拡大、縮小を行うことができる。移動部2025は、2値画像データ或は多値画像データに余白部分をつけたり、余白部分を削除して出力する。回転器2019、変倍器2020、色空間変換器2021、2値多値変換部2022、合成部2023、間引き部2024、移動部2025、多値2値部2026はそれぞれ連結して動作することが可能である。例えばRAM2002の多値画像データを回転、解像度変換する場合は、これら処理をRAM2002を介さずに、回転器2019、変倍器2020を連結して行うことができる。尚、本実施の形態に係るアルゴリズムのプログラムコードは、HDD2004上のシステムソフトウェアの一部に格納されている。
図3は、本実施の形態に係るスキャナ画像処理部2014の構成を説明するブロック図である。
スキャナ2015から入力されたRGB各8ビットの輝度信号は、マスキング部2501によりCCDのフィルタ色に依存しない標準的なRGB色信号に変換される。フィルタ2502は、例えば9×9のマトリクスを使用し、画像をぼかしたり、メリハリをつける処理を行う。ヒストグラム作成部2503は、入力した画像信号をサンプリングをする処理部で、入力画像の下地レベルの判定に使用される。このヒストグラム作成部2503は、主走査方向及び副走査方向にそれぞれ指定した開始点と終了点とで囲まれた矩形領域内のRGBデータを、主走査方向及び副走査方向に一定のピッチでサンプリングしてヒストグラムを作成する。ここで主走査方向はラスタ展開した場合の画像のラスタ方向を指し、副走査方向は、その主走査方向に直交する方向を指す。こうして得られたヒストグラムは、下地とばしや裏写り防止が指定されたときに読み出される。そして、このヒストグラムから原稿の下地を推測し、下地とばしレベルとして画像データとともにRAM2002やHDD2004に保存され、その画像データの印刷や送信時の画像処理に使用される。ガンマ補正部2504は、画像全体の濃度を濃く或は薄くするような処理を行う。例えば入力画像の色空間を任意の色空間に変換したり、入力系の色味に関する補正処理を行う。
色空間変換2505は、原稿がカラーか白黒かを判断するために、変倍前の画像信号をLabに変換する。このうちa,bは色信号成分を表している。比較器2506は、これら色信号成分を入力し、所定レベル以上であれば有彩色、そうでなければ無彩色として1ビットの判定信号を出力する。カウンタ2507は、この比較器2506から出力される1ビットの判定信号の数を計数する。文字/写真判定部2508は、画像データから文字エッジを抽出して文字領域と写真領域とを判定し、文字写真判定信号2510を出力する。この判定信号2510も画像データとともにRAM2002或はHDD2004に格納されて印刷時に使用される。特定原稿判定器2509は、入力した画像信号と、この特定原稿判定器2509が有している特定のパターンとを比較して、特定原稿に一致しているか、不一致であるかを示す判定信号2511を出力する。この判定信号2511に応じて画像データを加工し、紙幣や有価証券などの偽造を防止することができる。
図4は、本実施の形態に係るMFP100の操作部2006の構成を示す外観図である。
表示部3001は、表示画面上にタッチパネルシート3002が貼られている。この画面上には、システムの操作画面及びソフトキーが表示されており、表示されているキーが押されると、その位置情報がCPU2001に伝えられる。スタートキー3003は原稿の読み取り動作や,FAX送信の開始等を指示する場合などに用いる。このスタートキー3003の中央部には、緑と赤の2色LED3004が配置されており、その発光色によってスタートキー3003が使える状態にあるかどうかを示す。ストップキー3005は、稼働中の動作を止める働きをする。IDキー3006は、使用者のユーザIDを入力する時に用いる。リセットキー3007は操作部2006における設定を初期化する時に用いる。
[処理概要]
次に本発明の実施の形態に係るMFP100における、画像を領域に分割し、各領域に含まれる文字や罫線、図形、写真等のコンテンツ(領域コンテンツ)を取得する処理全体の概要について図5を用いて説明する。
図5は、本実施の形態に係るMFP100において、文書を表す画像データの各ページの画像を画像に含まれる部分画像の種別に応じた複数の領域に分割し、それら領域を接合しコンテンツを生成して出力する処理を説明するフローチャートである。
まずステップS101で、オペレータにより操作部2006を通じて、待機画面から本実施の形態に係る画像処理方法(各領域に対応するコンテンツの入力モード)の操作指示が入力される。次にステップS102に進み、入力される各ページの領域の接合条件が選択される。ここでは同一種別と認識されるコンテンツを、主走査方向或は副走査方向のいずれを優先して、接合対象の領域を検索して選択する。
表示部3001に表示されたUI画面上で、500は第1の方向としての主走査方向を優先させる(主走査優先)指示を行うボタン、501は、第1の方向に直行する第2の方向としての副走査方向を優先させる(副走査優先)指示を行うボタンである。また502は、接合対象の種別が文字領域のみであるように指示するボタンである。また或は、その他の種別の画像、図表領域同士も接合するかを選択できる。また503で示す詳細設定を指示すると、領域判定する対象のエリア(トリミング)、領域を大きくとるか細かく取るかの度合い、領域の接合判定の条件等が設定できる。この領域の接合判定の条件には、以下のものが含まれる。例えば、白黒/カラーを考慮しないで接合するか。フォント種別を考慮せずに接合するか。領域間の距離が主走査或は副走査方向で何ミリ以内のものを接合対象とするか。接合対象の2つの領域の主走査幅の差が何ミリ以内のものを接合対象とするか等を含む。こうして接合条件が選択されて指示されるとステップS103に進む。
ステップS103で入力する文書を選択する。ここではスキャナ2015で読み取った文書の画像データを基に生成するか(「読み取って生成」ボタン504で指示)、RAM2002等に保存された文書の画像データを選択して生成する(「保存文書から生成」ボタン505で指示)かが選択される。そしてステップS104に進む。
ステップS104では、「読み取って生成」504が指示されたときは、スキャナ2015により1枚の原稿を走査して解像度600dpiで1画素が8ビットの画像信号を得る。そして、この画像信号に対しては、スキャナ画像処理部2014で前処理を施し、更に画像変換部2030を通してHDD2004に1ページ分の画像データを保存する。またスキャナ2015が、自動ページめくり機構を有するフィーダ付きスキャナである場合は、原稿束分の画像データを読み取って蓄積しても良い。一方、「保存文書から作成」505が指示された場合は、保存されている文書の一覧を表示部3001に表示して、その中からオペレータが所望の文書を選択する。こうして処理対象の文書の画像データが蓄積或は選択されるとステップS105に進む。
ステップS105では、CPU2001は、その格納された画像データから先ず、文字/線画部分とハーフトーンの画像部分とに領域を分離する。文字部分は更に段落で部分画像として纏まっているブロック毎に、或いは、線で構成された表、図形という部分画像に分離して各々セグメント化する。一方ハーフトーンで表現される画像部分は、矩形に分離されたブロックの画像部分、背景部等、所謂ブロック毎に独立したオブジェクトに分割するブロックセレクション処理を行う。このブロックセレクション処理は後述する。
次にステップS106に進み、蓄積した各ページの画像データが、オペレータが意図した領域として正しく認識されているかをオペレータに確認させるために、プレビュー表示する。ここでは領域の並び順、領域の削除、領域の接合や、領域のサイズの微調整等を行うことができる。
次にステップS107に進み、領域の接合及び出力のための処理を開始するか否かを問い合わせる。ここで更に入力する原稿を追加する場合はステップS104に戻り、原稿の追加が無い場合はステップS108の領域の接合処理に進む。この接合処理については後述する。ステップS108で、領域の接合処理を実行するとステップS109に進み、接合された後の領域を再度確認するために表示部3001に表示する。そして必要であれば領域を再調整する。こうして領域が確定されるとステップS110に進み、各領域の種別に応じてコンテンツの生成処理を実行する。尚、図5において、506は、ステップS106或はステップS109で表示部3001に表示される領域分割の確認画面例を示している。
ステップS110では、その領域のコンテンツが図或は表であれば、PNGやGIFといった可逆符号化画像データに変換する。またその領域のコンテンツが写真であればJPEGやJPEG2000といった非可逆符号化画像データに変換する。またその領域のコンテンツの種別が文字であれば、接合部の文字内容を連結して、SJISやUTF8の文字符号データに変換する。また各領域の画像データ上の位置(座標)やサイズ、フォント種別、色属性、種別などのメタ情報(属性情報)を表示部3001に表示する。次にステップS111に進み、こうして得られたコンテンツを、データベース105に蓄積し、その蓄積先をメタ情報として保持する。こうすることにより、例えば文書が選択されて印刷が指示された際に、そのメタ情報を基に対応するコンテンツを読み出し、それらをラスタイメージに形成し直すことが可能となる。
[ブロックセレクション処理の説明]
このブロックセレクション処理とは、1ページの画像をその画像に含まれる部分画像の種別に応じた複数の領域に分割する処理のことである。
図6(A)(B)は、このブロックセレクション(像域分離)処理の具体例を説明する図である。図6(A)は、ステップS104で、スキャナ2015が読み取った、或はメモリから読み出した原稿画像のイメージを示している。図6(B)は、ステップS105のブロックセレクション処理で、その原稿画像を複数の部分画像(領域)に分割した状態を示している。ここではブロック#1〜#3,#5,#6,#8,#10,#11,#14,#16が文字領域、ブロック#4,#7,#13が線領域、そしてブロック#15が図形領域となっている。
このブロックセレクション処理の具体例を以下に説明する。
先ず、その原稿の画像データを白黒に2値化し、輪郭線追跡を行って黒画素輪郭で囲まれる画素の塊を抽出する。ここで面積の大きい黒画素の塊については、内部にある白画素に対しても輪郭線追跡を行って白画素の塊を抽出し、更に、一定面積以上の白画素の塊の内部から再帰的に黒画素の塊を抽出する。
このようにして得られた黒画素の塊を、大きさ及び形状で分類し、異なる種別を持つ領域へ分類する。例えば、縦横比が「1」に近く、大きさが一定の範囲のものを文字相当の画素塊とし、更に、近接する文字が整列良くグループ化可能な部分を文字領域とする。また扁平な画素塊を線領域とする。更に、一定の大きさ以上でかつ四角系の白画素塊を整列よく内包する黒画素塊の占める範囲を表領域とする。また不定形の画素塊が散在している領域を写真領域、それ以外の任意形状の画素塊を図画領域などとする。
[文字認識処理]
図7(A)(B)は、図6(B)に示す各領域の種別及び座標、更にはテキスト領域に対してOCR処理がなされたことを示すOCR情報を記憶したテーブル(A)及び、そのページ情報(B)を示す。尚、図7(A)のブロック番号1−n(n=1〜16)は、1ページ目のブロック#nであることを示している。また種別「1」は文字領域、「2」は図形、「3」は表、「4」は写真をそれぞれ示している。座標(X,Y)は、ブロックを示す矩形の左上の角の座標を示す。そして幅Wと高さHで、そのブロックの形状を特定できる。また図7(B)により、1ページ目の画像には16個のブロックが存在していることがわかる。
OCR処理に際しては、文字単位で切り出された画像に対し、パターンマッチングの一手法を用いて文字認識を行って、対応する文字コードを得る。この文字認識処理は、文字画像から得られる特徴を数十次元の数値列に変換した観測特徴ベクトルと、予め字種毎に求められている辞書特徴ベクトルと比較し、最も距離の近い字種を認識結果とする処理である。特徴ベクトルの抽出には種々の公知手法があり、例えば、文字をメッシュ状に分割し、各メッシュ内の文字線を方向別に線素としてカウントしたメッシュ数次元ベクトルを特徴とする方法がある。
このブロックセレクション処理で抽出された文字領域に対して文字認識を行う場合は、まず該当領域に対し横書き、縦書きかを判定し、各々対応する方向に行を切り出し、その後、文字を切り出して文字画像を得る。横書き、縦書きの判定は、その領域内で画素値に対する水平/垂直の射影を取り、水平射影の分散が大きい場合は横書き領域、垂直射影の分散が大きい場合は縦書き領域と判断する。また文字列及び文字への分解は、横書きであれば水平方向の射影を利用して行を切り出し、更に、その切り出された行に対する垂直方向の射影から文字を切り出して行う。また縦書きの文字領域に対しては、前述の水平方向と垂直方向を逆にすればよい。尚、このときに文字サイズが検出できる。
[フォント認識]
文字認識の際に用いる、字種の数分の辞書特徴ベクトルを文字の形状種、即ち、フォント種に対して複数用意しておく。そして、照合する際に、文字コードとともにフォント種を出力することにより、その文字のフォントを識別できる。
[文字のカラー判定]
尚、原稿がカラーの場合は、カラー画像から各文字の色を抽出して後述するメタ情報に記憶する。
以上の処理により、文字領域に属する文字コードと、その文字の形状、大きさ、色といった特徴情報を保持できる。これにより文字の配置が変更されても、ほぼ忠実に元の文字を再現できる。このように、各ページ単位で、領域コンテンツの候補となるブロック情報を作成して登録しておく。尚、ここで「領域コンテンツの候補」としたのは、後述する領域同士の接合により、その領域のコンテンツが変動する可能性があるためである。
[領域コンテンツ接合処理概要]
次に、ページ単位でブロックセレクション処理した領域コンテンツ候補に対して、領域同士を接合する領域接合処理について説明する。
図8(A)(B)は、本実施の形態に係るMFP100による領域接合処理を説明する図である。
この領域接合処理は、図8(A)に示すような、前述のステップS104で読み取り、或は選択された複数ページの領域コンテンツ候補のブロックを、必要に応じて図8(B)のようにまとめる処理である。例としては、文字/図画/写真/線/表といった画像種別、開始位置/幅といった位置属性、及び前述の接合条件に応じて、図8(B)に示す様に接合条件を満足する領域同士を接合する。この処理は、ある領域をコンテンツとして登録する前処理として実行される。そして接合した領域の高さ、色情報、フォント情報等のパラメータと、その領域に含まれる文字が更新される。
以下、図8(A)(B)を参照して、領域接合処理の具体例を説明する。
先ず、読み取った画像8001の中で、接合対象とする範囲8002を設定する。この接合対象とする範囲8002は、図8(B)の範囲8005で示すように、副走査方向に接合される。従って、図8(A)の範囲8003のようなフッタの情報は接合対象外となる。
次に、この範囲8005の中に存在する、ブロック#1〜#19に相当する各領域に対して近接する領域に画像種別が等しいものがあるか判定する。画像種別が等しい場合は、幅情報の差分を検出する。ここで図8(A)の8004で示す領域(ブロック#16〜#18)のように、画像種別も幅も等しい領域があれば、図8(B)の8007で示すように、1つの領域(ブロック番号#16)として接合する。即ち、この新たなブロック#16(図8(B)の8007)は、図8(A)のブロック#16〜#18を一つに纏めたものである。またこの際に、ブロック番号#19(8008)のように、そのブロック番号が下位のブロックは、図8(B)のブロック8009のように、ブロック番号が振り直されてブロック#17となる。
このようにして、全てのページに含まれる領域(ブロック)を検証し、領域同士の接合及び、その番号を更新する。こうして更新した結果の領域に対してコンテンツ生成処理を実行する。即ち、その領域の種別が文字領域であれば、再度、その領域の文字認識、文字フォントの認識、カラー判定処理を行う。こうして、その領域における、コード化された文字情報及び文字の属性を得る。
図9は、図8に示す領域接合処理の結果得られるメタ情報の具体例を示す図である。図において、要素IDは、ブロックの番号#に該当している。
各領域の中味である文字情報はデータベース105に蓄積され、その蓄積先を保持する。また表及び線画の領域に関しては、PNGやGIFといった可逆符号化画像データに変換してデータベース105に格納し、その格納先をブロック情報として保持する。また写真と判定された領域に対しては、JPEGのような非可逆符号化を行ってデータベース105に格納し、その格納先をブロック情報として保持する。ここで文字情報と、可逆符号化画像データと非可逆画像データは、それぞれ異なるデータベースに保持しても良い。更に、好適な実施の形態においては、並び順として、前のコンテンツの保存先情報と、次のコンテンツの保存先情報とを関連付けて保存してもよい。このように文書データを意味のある固まり(領域)の単位でコンテンツ化して、分散保存する。
[領域コンテンツ接合処理のバリエーション]
領域を接合するバリエーションを図10(A)(B)及び図11(A)(B)を参照して説明する。
図10(A)(B)は、文字領域の接合を説明する図である。
図において、領域1001〜1003のそれぞれは文字領域であり、その領域の主走査幅、高さは全て同じである。また領域1001と領域1002の距離と、領域1001と領域1003の距離は共に、接合の条件に適合する距離であるとする。
まず図10(A)に示す主走査方向を優先させる主走査優先を設定した場合で説明する。
領域1001〜1003は、共に接合条件{画像種別:同一/幅:同一/距離:近傍/文字フォント種別:同一/カラー属性:同一/接合対象画像種別:文字}を満たしているとする。そこで、前述のステップS102で、オペレータが指定した接合条件が必要となる。主走査優先で接合する場合は、図10(A)で示すように、領域1001と、主走査方向に隣接する領域1002とが主走査方向に並ぶように接合される。次に領域1001と領域1002とが接合された領域1004と領域1003とが前述の接合条件を満たすため、更に、その領域1003を主走査方向に並べるように接合される。この場合、図9のメタ情報としては、領域1002と領域1003の領域情報が削除され、一塊のコード化された文字情報が登録される。また必要に応じて、それ以降の領域の主査方向の相対位置も更新される。
一方図10(B)の場合は、副走査方向を優先させる副走査優先が設定される。ここで領域1001〜1003は共に接合条件を満たす。そこで、前述のステップS102で、オペレータが副走査優先を設定すると、図10(B)に示すように、領域1001は領域1003と副走査方向に並ぶように接合される。次にこの領域1001と領域1003とが接合された領域と領域1002とが前述の接合条件をさらに満たすため、更に、副走査方向に並ぶように領域1001,1002,1003からなる領域が決定される。即ち、領域1001、領域1003及び領域1002の順に、3つの領域が副走査方向に配列されて接合された領域が得られる。
図11(A)〜(D)では、領域1101〜1103は、主走査方向の幅が同一で、高さは領域1102、1102'が小さく、領域1101と1102,1102'の距離は、主・副走査方向ともに近接している。また境域1102と1103の距離は、副走査方向に離れている。
先ず図11(A)に示す主走査優先を設定した場合で説明する。
領域1101と1102は、接合条件{画像種別:同一/幅:同一/距離:近傍/フォント種別:同一/カラー属性:同一/接合対象画像種別:文字}を満たす。主走査方向に優先的に接合する場合は、領域1101は領域1102と主走査方向に並ぶように接合される。次に、こうして得られた領域1104と領域1103とは副走査方向に離れている。このため接合されない。従って、領域1104と領域1103とが副走査方向に並ぶように配列され、それぞれ別のコンテンツとなるよう決定される。
これに対して副走査優先が設定された場合を、図11(B)を参照して説明する。
領域1101と領域1103は、接合条件{画像種別:同一/幅:同一/距離:近傍/フォント種別:同一/カラー属性:同一/接合対象画像種別:文字}を満たす。ここで副走査方向に優先であるため、領域1101は領域1103と副走査方向に並ぶように接合される。次に、この領域1101と1103とが接合された領域と、領域1102とは近接しており前記条件を満たす。このため接合されるよう決定される。従って、領域1101,1103,1102が副走査方向に並んだ領域となり、この領域に対してコンテンツが決定される。
一方、図11(C)(D)では、領域1101,1102',1103は、主走査方向の幅が同一で、高さは領域1102'が小さく、領域1101と領域1102'とは主走査方向には近接していて、副走査方向には近接していない。また領域1102'と1103とは副走査方向に近接している。図11(C)の主走査優先が設定された場合で説明する。
領域1101と1102'は接合条件を満さない。よって、主走査優先で接合する場合は、領域1101と領域1102'とが接合されないことが決定される。次に領域1102'と領域1103とは副走査方向に近接している。このため、これら領域1102'と1103とは接合されるように決定される。
従って、副走査方向に並ぶように、領域1101と、領域1102'と1103とが接合された領域とが決定され、2つの領域がそれぞれ別のコンテンツを含むように決定される。
次に図11(D)に示す副走査優先を設定した場合について説明する。
領域1101と領域1103は副走査方向の接合条件を満たす。副走査方向を優先して接合する場合は、領域1101は領域1103と副走査方向に並ぶように接合される。次に、この領域1101と1103とを接合した新たな領域と領域1102'とは副走査方向に離れている。このため、領域1101と領域1103を接合した領域は、領域1102'と接合されないことが決定される。従って、主走査方向に並ぶように、領域1101と領域1103とが接合された領域と、領域1102'が決定され、2つの領域がそれぞれ別のコンテンツを含むように決定される。尚、図11では、文字領域の例を説明したが、その領域の種別が線、画像或は図表同士であっても同様に領域同士が接合される。
[領域コンテンツ接合処理の詳細]
図12及び図13は、本実施の形態に係るMFP100において領域を接合する処理を説明するフローチャートである。尚、この処理を実行するプログラムは、実行時にはHDD2004からRAM2002にロードされて、CPU2001の制御の下に実行される。この処理の開始前には、図5に示すフローチャートに従って、接合処理判定のパラメータの全てが決定されている。ここでは、前述のステップS105で作成された図7に示すテーブルを用いる。ここでは、1ページに含まれる領域の数をN、各領域毎の画像種別をZ、領域の主走査方向の開始位置をX、領域の副走査方向の開始位置をY、領域の主走査方向の画素数をW、副走査方向の領域の画素数をHとする。また図示しない読み取り或は、蓄積された際の主走査及び副走査方向の読み取り解像度をRX,RYとする。またステップS102で入力された、主走査方向を優先にするか、副走査方向を優先にするかを示すフラグをFS(オンで主走査優先)とする。また文字領域のみを接合するか、その他の画像・図表領域同士も接合するかを示すフラグをFTとする。また領域判定する対象のエリアの開始位置及び終了位置を、それぞれTSX,TSY,TEX,TEYとする。また白黒・カラーを考慮しないで接合するか否かを示すフラグをFC、フォント種別を考慮しないで接合するか否かを示すフラグをFFとする。また領域間の距離として、主走査及び副走査で何ミリ以内のものを接合対象とするかをそれぞれDX,DYで示す。更に、2つの領域の主走査幅の差が何ミリ以内のものを接合対象とするかを示す値をDHとする。以上の前提に従って、以下、本実施の形態に係る領域接合処理を詳しく説明する。
こうして領域接合処理を開始するとステップS21に進み、1ページ内の領域の数(N−1)分の領域の評価処理を開始する。ここで現在評価中の領域をI(初期値I=1)とし、I番目の領域の各パラメータを(I)と表記する。次にステップS22に進み、I番目の領域(領域I)の主走査方向の範囲が接合対象に入っているかを判定する。即ち、領域Iの主走査方向の位置及び幅(X(I),X(I)+W(I))が、領域判定する対象エリアの主走査方向の幅を示すTSXからTEX間での間に含まれるかを判定する。ここで、範囲に入らない場合はステップS48でIに1を加算してステップS21に戻り、次の領域を評価する。範囲内に入っている場合はステップS22からステップS23に進み、この領域Iの副走査方向の範囲が接合対象に入っているかを判定する。即ち、領域Iの副走査方向の位置及び幅(Y(I),Y(I)+H(I))が、領域判定する対象エリアの副走査方向の幅を示すTSYからTEY間での間に含まれるかを判定する。ここで範囲に入らない場合はステップS48でIに1を加算してステップS21に戻り、次の領域を評価する。
ステップS23で、範囲に入ると判定した場合はステップS24に進み、領域Iの種別(Z(I))と合致する、それ以降の領域、即ち、{(I+1)〜N}}}}}番目の領域があるか否かを判定する。ここで種別が合致する他の領域がない場合はステップS48でIに1を加算してステップS21に戻り、次の領域を評価する。
ステップS24で種別が合致する領域があると判定するとステップS25に進み、接合条件に合致する領域のIDの集合を集合S1として保存してステップS26に進む。ステップS26では、領域間の主走査方向の幅の誤差範囲をミリメートルから、画素数に変換する計算を行う。以下の計算式が用いられる。ここでは、領域間の主走査方向の幅の差として何ミリ以内のものを接合対象とするかの度合を示すDH(I)と、この領域の主走査方向の解像度RXとに基づいて計算する。
画素数=[与えられる長さ(ミリメートル)]×[解像度(dpi)]/25.4
次にステップS27に進み、集合S1内に、領域Iの主走査方向幅に略等しい領域があるかを判定する。即ち、領域Iの主走査方向の画素数W(I)に対して誤差が許容される範囲DH(I)の主走査方向の幅を有する領域が、前述の集合S1にあるかを判定する。ここで、そのような領域がない場合はステップS48でIに1を加算してステップS21に戻り、次の領域を評価する。
ステップS27で、該当する領域があればステップS28に進む。ステップS28では、接合条件に合致する領域のIDの集合を集合S2として保存してステップS29に進む。即ち、ステップS28では、集合S1に含まれる領域の内、種別及び主走査方向の幅が条件を満たしている領域の集合S2を求める。ステップS29では、領域間の主走査方向の距離が接合条件を満たしているかを判定するために、ミリメートルから画素数に変換する前述の計算を行う。ここでは、領域間の主走査方向の距離として何ミリ以内のものを接合対象とするかの度合を示すDX(I)と、主走査方向の解像度RXとに基づいて画素数を計算する。次にステップS30に進む。ステップS30では、集合S2内に、領域Iの主走査方向位置から、指定範囲に収まる主走査位置を持つ領域があるか判定する。即ち、領域Iの主走査方向位置{(X(I)+W(I)±DX(I)}に収まる領域があるかを判定する。ここでそのような領域がない場合はステップS48に進み、Iに1を加算してステップS21に戻り、次の領域を評価する。
一方、ステップS30で、領域Iの範囲に入る領域があればステップS31に進む。ステップS31では、集合S2の内、接合条件に合致する領域のIDの集合を集合S3として保存してステップS32に進む。ステップS32では、領域間の副走査方向の距離を、ミリメートルから画素数に変換する前述の計算を行ってステップS33に進む。即ち、ここでは領域間の副走査方向の距離として何ミリ以内のものを接合対象とするかの度合を示すDY(I)と、副走査方向の解像度RYとに基づいて画素数を計算する。
ステップS33では、集合S3内に、領域Iの副走査方向位置から指定範囲に収まる副走査位置を持つ領域があるか判定する。即ち、領域Iの副走査方向位置{(Y(I)+H(I)±DY(I)}に収まる領域があるかを判定する。ここでそのような領域がない場合はステップS48に進み、Iに1を加算してステップS21に戻り、次の領域を評価する。
一方、ステップS33で、領域Iから副走査方向の範囲に入る領域があればステップS34に進む。ステップS34では、集合S3の内、接合条件に合致する領域のIDの集合を集合S4として保存してステップS35(図13)に進む。ステップS35では、評価対象の領域が、接合対象である文字領域であるか、或は、文字領域以外も接合する設定(FTが真)となっており、かつ文字以外の領域であるか判定する。ここで、評価対象の領域が文字領域以外で、かつ文字領域のみを接合対象とする設定(FTが偽)である場合はステップS48でIに1を加算してステップS21に戻り、次の領域を評価する。
一方、ステップS35で、評価対象の領域が文字以外であればステップS36に進み、集合S6に集合S4を代入してステップS41に進む。また文字領域である場合はステップS37に進み、色属性を考慮する設定(FCが偽)であり、且つ評価対象の文字領域が示す色属性と合致する色属性を持つものが集合S4内にあるか判定する。ここで、評価対象の領域と同一の色属性を持つ領域が集合S4内に存在せず、かつカラー属性を考慮して接合する設定である場合はステップS48でIに1を加算してステップS21に戻り、次の領域を評価する。
一方、ステップS37でカラー属性を考慮しない設定或は、評価対象の領域の色属性に合致する領域が集合S4にあればステップS38に進み、接合条件に合致する領域のIDの集合を集合S5として保存してステップS39に進む。ステップS39では、フォント種別属性を考慮する設定(FFが偽)であり、且つ評価対象の文字領域が示すフォント種別属性と合致するフォント種別属性を持つものが集合S5内にあるか判定する。ここで、評価対象の領域と同一のフォント種別属性を持つ領域が集合S5内に存在せず、かつフォント種別属性を考慮して接合する設定である場合はステップS48でIに1を加算してステップS21に戻り、次の領域を評価する。
一方、ステップS39で、フォント種別属性を考慮しない設定或は、評価対象の領域のフォント種別属性に合致する領域が集合S5にあればステップS40に進む。ステップS40では、接合条件に合致する領域のIDの集合を集合S6として保存してステップS41に進む。
ステップS41では、主走査方向を優先して接合するか(FSが真)、或は副走査方向を優先して接合するか(FSが偽)を判定する。主走査方向優先である場合はステップS42に進み、集合S6内で、主走査距離が最小で、かつ最も若い番号の領域を1つ選択し、これを集合S7として保存する。
一方、副走査方向優先である場合はステップS43に進み、集合S6内で副走査距離が最小で、かつ最も若い番号の領域を1つ選択し、これを集合S7として保存する。こうしてステップS42或はステップS43を実行した後ステップS44に進み、集合S7の領域と評価対象の領域とを副走査方向に接合した際の新しい高さを、それぞれの高さの和として求める。即ち、ここでは領域Iの高さH(I)に、その集合S7の領域の高さH(S7)を加算して、新たな接合領域の高さH(I')を求める。
次にステップS45に進み、接合対象として選択された集合S7に含まれる領域を、削除対象として集合S8に保存する。この際、評価対象の領域が集合S8にあれば、その評価対象の領域の各属性を保持するレコードを削除する。
次にステップS46に進み、評価対象である領域の数が全数Nに達したか判定する。まだ全数Nの領域を評価していない場合は、ステップS48でIに1を加算してステップS21に戻り、次の領域を評価する。そして、全ての領域の評価が終了するとステップS47に進み、削除されたレコードの番号を詰めるために、1から順にふり直す。また、ついでに最後の領域がレコード削除対象の集合に残っていれば、最後の領域の各属性を保持するレコードを削除する。こうして、全数の領域接合の判定がなされ、各領域の番号のふり直しが完了すると、この処理を終了する。
[領域コンテンツ印刷処理概要]
図14は、本実施の形態に係るMFP100において、領域コンテンツを印刷する際の処理の概要を説明するフローチャートである。
ステップS51で、オペレータにより操作部2006を通じて、待機画面を操作して本実施の形態に係る画像処理方法(領域コンテンツ出力モード)の操作指示を行う。次にステップS52に進み、印刷対象の文書を選択する。1400は、表示部3001に表示される文書の選択画面例を示す。文書情報としてアイコン表示されるメタ情報は、MFP100に記憶されている。文書が選択されるとステップS53に進み、メタ情報の保存先から、SQL等のデータベース操作言語によりデータを取得する。取得されたデータは、画像領域であれば復号化処理を行い、元の領域に対してラスタイメージを作成する。一方、文字領域であれば、フォント種別、色属性を加味して、レンダリング処理を行い、元の領域に対してラスタイメージを作成する。次にステップS54に進み、副走査方向でページ単位に区切ってページ画像に展開し、各ページの印刷用イメージデータを生成して印刷処理を行う。
[領域コンテンツ画像形成処理概要]
図15(A)〜(C)は、本実施の形態に係るMFP100において、領域コンテンツがデータベースで編集され、そのデータ量が変更された場合に印刷用イメージデータを得る処理の概要を説明する図である。
図15(A)は、MFP100が保持している画像のメタ情報の一例を示し、コミット先のDBから領域#16のメタ情報が更新されたことを検出した例を示している。図15(A)において、各領域のY座標(副走査方向の座標)は、前の領域のY座標に対する相対座標で記憶されている。
図15(B)は、領域(ここでは#16)のテキスト量が増大した場合、主走査方向のサイズは固定である。そのため、高さ(副走査)方向に領域が拡大される。この場合、各領域の位置が固定であると、その領域の拡大により他の領域との重なりが発生し、レイアウトが崩れる。
しかしながら本実施の形態では、領域間の副走査方向の位置は相対座標で保持している。こうして図15(B)に示すように領域と、その領域のコンテンツが決定される。その後、図15(C)に示すように、ページ単位にレイアウトして印刷する際に、領域間の重なりが発生せず、大きくレイアウトを崩さずに出力結果を得ることができる。図示しないが、写真や線画、表の場合は、副走査方向に領域を拡張せずに、更新前と同じサイズの領域に、その写真や画像をはめ込み合成を行っても良い。
こうして各領域の位置やサイズが決定されると、データベース105から、その領域のコンテンツを読み出してコンテンツを取得し、文字情報であれば、保持していたメタ情報から、文字フォント種別及び文字サイズ、色属性などを参照してレンダリングを行う。この際、文字領域は、主走査方向は変えずに、副走査方向に延びるようにデータを配置する。こうしてレンダリングして作成されたラスタイメージをRAM2002にコピーし、次の領域の副走査開始位置を計算する。また写真、線画、表の場合は復号処理を行い、ラスタイメージとして領域サイズに合うように変倍して、RAM2002にコピーする。次の領域の副走査方向の開始位置を計算する。こうして、RAM2002にイメージデータを作成すると、そのイメージデータをページ単位に区切って印刷用のイメージデータを作成する(図15(C)参照)。尚、図中の領域#17のように、ページ単位に区切った際に、ページの上部に余白が発生する場合は、その余白を詰めてから画像処理を施しても良い。
(他の実施形態)
以上、本発明の実施形態について詳述したが、本発明は、複数の機器から構成されるシステムに適用しても良いし、また一つの機器からなる装置に適用しても良い。
なお本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムを、システム或いは装置に直接或いは遠隔から供給し、そのシステム或いは装置のコンピュータが該供給されたプログラムを読み出して実行することによっても達成され得る。その場合、プログラムの機能を有していれば、形態は、プログラムである必要はない。
従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明のクレームでは、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等、プログラムの形態を問わない。
プログラムを供給するための記録媒体としては、様々なものが使用できる。例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM,DVD−R)などである。
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページからハードディスク等の記録媒体にダウンロードすることによっても供給できる。その場合、ダウンロードされるのは、本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルであってもよい。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明のクレームに含まれるものである。
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布する形態としても良い。その場合、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムが実行可能な形式でコンピュータにインストールされるようにする。
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される形態以外の形態でも実現可能である。例えば、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現され得る。
更に、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれるようにしてもよい。この場合、その後で、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行ない、その処理によって前述した実施形態の機能が実現される。
本発明の実施の形態に係る画像処理システムの構成例を示すブロック図である。 本実施の形態に係るMFPの構成を説明するブロック図である。 本実施の形態に係るスキャナ画像処理部の構成を説明するブロック図である。 本実施の形態に係るMFPの操作部の構成を示す外観図である。 本実施の形態に係るMFPにおいて、文書を表す画像データの各ページの画像を複数の領域に分割し、それら領域を接合しコンテンツを生成して出力する処理を説明するフローチャートである。 本実施の形態に係るブロックセレクション処理の具体例を説明する図である。 図6(B)に示す各領域の種別及び座標、更にはテキスト領域に対してOCR処理がなされたことを示すOCR情報を記憶したテーブル(図7(A))及び、そのページ情報(図7(B))を示す図である。 本実施の形態に係るMFPによる領域接合処理を説明する図である。 図8に示す領域接合処理の結果として得られるメタ情報の具体例を示す図である。 文字領域の接合を説明する図である。 本実施の形態に係る主走査優先及び副走査優先で領域を接合する例を示す図である。 本実施の形態に係るMFPにおいて領域を接合する処理を説明するフローチャートである。 本実施の形態に係るMFPにおいて、領域コンテンツを印刷する際の処理の概要を説明するフローチャートである。 本実施の形態に係るMFPにおいて、領域コンテンツがデータベースで編集され、そのデータ量が変更された場合に印刷用イメージデータを得る処理の概要を説明する図である。

Claims (9)

  1. 複数ページにわたる画像データの各ページの画像を当該画像に含まれる部分画像の種別に応じた複数の領域に分割する分割手段と、
    前記複数の領域のそれぞれの少なくとも座標、サイズ及び前記種別に関する属性情報を保持する保持手段と、
    前記分割手段により分割された複数の領域の1つである第1の領域を、当該複数の領域の1つである第2の領域と接合する際に、ユーザの指示に基づいて前記第2の領域を特定するための方向を設定する設定手段と、
    前記複数の領域において前記第1の領域に隣接する複数の隣接領域のうち、前記第1の領域の属性情報が示す前記種別と同一の種別の部分画像に対応する領域であってかつ前記設定手段により設定された方向に隣接する領域が存在すると該領域を前記第2の領域として特定し、該特定された第2の領域を前記第1の領域と接合して1つの領域とする領域接合手段と、
    前記領域接合手段により接合された領域を含む前記画像データの領域に関する情報を記憶する記憶手段と、
    を有することを特徴とする画像処理装置。
  2. 前記設定手段は、前記第2の領域を特定するための方向に加えて、領域同士の距離、領域の種別、各ページの画像における領域の座標の少なくともいずれかを更に設定することを特徴とする請求項1に記載の画像処理装置。
  3. 前記領域接合手段は、複数ページにまたがる2つ以上の領域同士をも接合して1つの領域とすることを特徴とする請求項1又は2に記載の画像処理装置。
  4. 原稿を読み取って前記画像データを入力する画像入力手段を更に有することを特徴とする請求項1に記載の画像処理装置。
  5. 前記記憶手段は、領域の種別が文字領域であること示している場合、少なくとも当該領域の文字フォント、文字サイズ、文字の色情報を記憶することを特徴とする請求項1に記載の画像処理装置。
  6. 前記記憶手段は、各領域の座標を特定の領域に対する相対座標で記憶することを特徴とする請求項1に記載の画像処理装置。
  7. 前記領域接合手段により接合された領域を含む画像データを、前記記憶手段に記憶された情報に基づいて前記画像データの各ページの画像に展開する展開手段を更に有することを特徴とする請求項1に記載の画像処理装置。
  8. 前記領域接合手段は、複数ページにまたがる2つ以上の領域同士を接合する場合、第1のページに隣接する第2のページの複数の領域のうち、前記属性情報に基づいて特定された領域であってかつ前記設定手段により設定された方向に隣接する前記第2のページの領域を、前記第1のページの領域と接合して1つの領域とすることを特徴とする請求項1ないし7のいずれか1項に記載の画像処理装置。
  9. 画像を複数の領域に分割する画像処理装置の制御方法であって、
    複数ページにわたる画像データの各ページの画像を当該画像に含まれる部分画像の種別に応じた複数の領域に分割する分割工程と、
    前記複数の領域のそれぞれの少なくとも座標、サイズ及び前記種別に関する属性情報を保持する保持工程と、
    前記分割工程で分割された複数の領域の1つである第1の領域を、当該複数の領域の1つである第2の領域と接合する際に、ユーザの指示に基づいて前記第2の領域を特定するための方向を設定する設定工程と、
    前記複数の領域において前記第1の領域に隣接する複数の隣接領域のうち、前記第1の領域の属性情報が示す前記種別と同一の種別の部分画像に対応する領域であってかつ前記設定工程で設定された方向に隣接する領域が存在すると該領域を前記第2の領域として特定し、該特定された第2の領域を前記第1の領域と接合して1つの領域とする領域接合工程と、
    前記領域接合工程により接合された領域を含む前記画像データの領域に関する情報を記憶する記憶工程と、
    を有することを特徴とする画像処理装置の制御方法。
JP2007181446A 2007-07-10 2007-07-10 画像処理装置及びその制御方法 Expired - Fee Related JP5036430B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007181446A JP5036430B2 (ja) 2007-07-10 2007-07-10 画像処理装置及びその制御方法
US12/169,901 US8244035B2 (en) 2007-07-10 2008-07-09 Image processing apparatus and control method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007181446A JP5036430B2 (ja) 2007-07-10 2007-07-10 画像処理装置及びその制御方法

Publications (2)

Publication Number Publication Date
JP2009021712A JP2009021712A (ja) 2009-01-29
JP5036430B2 true JP5036430B2 (ja) 2012-09-26

Family

ID=40253179

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007181446A Expired - Fee Related JP5036430B2 (ja) 2007-07-10 2007-07-10 画像処理装置及びその制御方法

Country Status (2)

Country Link
US (1) US8244035B2 (ja)
JP (1) JP5036430B2 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5287384B2 (ja) * 2009-03-13 2013-09-11 株式会社リコー 画像処理方法、画像処理装置、プログラムおよび記憶媒体
US8559755B2 (en) * 2009-04-07 2013-10-15 Citrix Systems, Inc. Methods and systems for prioritizing dirty regions within an image
EP2504765A4 (en) * 2009-11-25 2014-09-03 Hewlett Packard Development Co PRINTED INFORMATION DEVICE
JP5423405B2 (ja) * 2010-01-08 2014-02-19 株式会社リコー 画像処理システムおよび画像処理方法
JP5347981B2 (ja) * 2010-01-15 2013-11-20 富士ゼロックス株式会社 情報表示装置及びプログラム
JP5769015B2 (ja) * 2011-09-20 2015-08-26 カシオ計算機株式会社 印字装置、印字方法、及びプログラム
US8937743B1 (en) * 2012-01-30 2015-01-20 Glory Ltd. Paper sheet processing apparatus and paper sheet processing method
US20150070373A1 (en) * 2012-08-23 2015-03-12 Google Inc. Clarification of Zoomed Text Embedded in Images
CN104376317B (zh) * 2013-08-12 2018-12-14 福建福昕软件开发股份有限公司北京分公司 一种将纸质文件转换为电子文件的方法
WO2015159941A1 (ja) * 2014-04-16 2015-10-22 グローリー株式会社 カラー画像における文字背景除去方法及び装置、並びにラインカメラの設置調整方法及び設置調整用チャート
JP6344064B2 (ja) * 2014-05-30 2018-06-20 ブラザー工業株式会社 画像処理装置およびコンピュータプログラム
JP6702198B2 (ja) * 2017-01-11 2020-05-27 京セラドキュメントソリューションズ株式会社 情報処理装置及びプログラム
JP6953957B2 (ja) 2017-09-27 2021-10-27 富士フイルムビジネスイノベーション株式会社 画像処理装置及びプログラム
US11593552B2 (en) 2018-03-21 2023-02-28 Adobe Inc. Performing semantic segmentation of form images using deep learning
CN109933756B (zh) * 2019-03-22 2022-04-15 腾讯科技(深圳)有限公司 基于ocr的图像转档方法、装置、设备及可读存储介质
US11042734B2 (en) * 2019-08-13 2021-06-22 Adobe Inc. Electronic document segmentation using deep learning

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0743718B2 (ja) * 1989-10-13 1995-05-15 株式会社日立製作所 マルチメディア文書構造化方式
JP2579397B2 (ja) * 1991-12-18 1997-02-05 インターナショナル・ビジネス・マシーンズ・コーポレイション 文書画像のレイアウトモデルを作成する方法及び装置
JPH08320914A (ja) * 1995-05-24 1996-12-03 Hitachi Ltd 表認識方法および装置
JPH10247237A (ja) 1996-12-30 1998-09-14 Ricoh Co Ltd 文書画像処理装置および文書画像処理方法および情報記録媒体
US6289121B1 (en) * 1996-12-30 2001-09-11 Ricoh Company, Ltd. Method and system for automatically inputting text image
JPH1115826A (ja) 1997-06-25 1999-01-22 Toshiba Corp 文書解析装置及び方法
JP4400560B2 (ja) * 2005-12-20 2010-01-20 セイコーエプソン株式会社 デジタルコンテンツ作成システム、プログラムおよび記憶媒体

Also Published As

Publication number Publication date
US8244035B2 (en) 2012-08-14
US20090016647A1 (en) 2009-01-15
JP2009021712A (ja) 2009-01-29

Similar Documents

Publication Publication Date Title
JP5036430B2 (ja) 画像処理装置及びその制御方法
JP4012140B2 (ja) 画像処理装置、情報処理装置及びそれらの制御方法、プログラム
EP1588293B1 (en) Image processing method, system, program, program storage medium and information processing apparatus
US7532757B2 (en) Image processing apparatus, control method therefor, and program
US7593120B2 (en) Image processing apparatus, control method therefor, and program
US8339619B2 (en) System and image processing method and apparatus for re-using and re-editing images
JP4227569B2 (ja) 画像処理システム、画像処理装置の制御方法、プログラム及び記録媒体
US8331671B2 (en) Image processing apparatus and image encoding method related to non-photo image regions
US7551753B2 (en) Image processing apparatus and method therefor
EP1538564B1 (en) Image processing system and image processing method
US20070030519A1 (en) Image processing apparatus and control method thereof, and program
JP4208780B2 (ja) 画像処理システム及び画像処理装置の制御方法並びにプログラム
US7508547B2 (en) Image processing apparatus, control method therefor, and program
JP5178490B2 (ja) 画像処理装置、画像処理方法、コンピュータプログラム
JP4541770B2 (ja) 画像処理装置及びその制御方法、プログラム
JP2005151455A (ja) 画像処理装置、情報処理装置及びそれらの制御方法、プログラム
JP2008092419A (ja) 画像処理装置、画像処理方法
JP2008152353A (ja) 画像処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100712

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111003

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111007

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120319

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120516

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120604

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120703

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150713

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 5036430

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150713

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees