JP3727971B2 - 文書処理装置、及び文書処理方法 - Google Patents
文書処理装置、及び文書処理方法 Download PDFInfo
- Publication number
- JP3727971B2 JP3727971B2 JP03607995A JP3607995A JP3727971B2 JP 3727971 B2 JP3727971 B2 JP 3727971B2 JP 03607995 A JP03607995 A JP 03607995A JP 3607995 A JP3607995 A JP 3607995A JP 3727971 B2 JP3727971 B2 JP 3727971B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- document
- document image
- character recognition
- area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1463—Orientation detection or correction, e.g. rotation of multiples of 90 degrees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
Description
【産業上の利用分野】
本発明は、CCD等の光電変換素子により読取られた文書(文書画像)の方向を自動的に判別する文書処理装置、及び文書処理方法に関する。
【0002】
【従来の技術】
従来、情報処理装置では、一般に、スキャナなどの光学的読取装置により読取られた原稿情報(画像データ)の中から文字を認識することが行われているが、文字認識は、あくまでも文字が正方向を向いている場合の特徴から文字候補を選び出してくるため、画像データが90°,180°等で回転されて読取られた場合は、文字認識を正しく行うことができず、全く異なる文字コードが出力されていた。
【0003】
例えば、図10に示した「高」という文字の場合、図10(a)のように文字が正方向を向いているときは、正しく「高」と認識するが、図10(b)のように270°回転で「打」と誤認識し、図10(c)のように180°回転で「字」と誤認識し、図10(d)のように90°回転で認識不可能となってしまう(なお、この認識結果は、あくまで説明の便宜上のものであり、実際の結果とは異なる)。
【0004】
そこで、正しく文字認識を行うために、文書の方向が正しくない場合、原稿の方向を人手により直して、再度、原稿読取り、文字認識を行っていた。
【0005】
しかしながら、スキャナの処理スピードが向上し、オートフィーダと呼ばれる原稿自動給紙機能が附属され始めてから、大量の原稿を処理することが増えてきて、人手によりいちいち原稿の方向を補正することが困難になってきた。
【0006】
また、原稿上の文書内容は、縦書き、横書き等の各種のパターンで表現される。すなわち、A4縦置きで横書きの文書(図11(a)参照:日本語の横書き文書や英語の文書等でよく用いられる)、A4横置きで横書きの文書(図11(b)参照:センテンスが長い文書や、OHP用の文書、A3,B4などの文書を縮小コピーした場合などでよく用いられる)、A4横置きで真中で段組が切替わった横書きの文書(図11(c)参照:A4文書を2枚を連続して縮小コピーした場合に良く用いられる)、A4縦置きで縦書きの文書(図11(d)参照)等の各種のパターンがある。
【0007】
一方、モニタに表示される画像の方向は、画像入力する際のスキャナの走査方向(画像読取方向)により決まってしまう。このため、スキャナの走査方向と文書の文字列の方向とが一致するような姿勢で原稿を読取った場合は、図12(a)に示したように、文書が本来の姿勢で表示される。
【0008】
しかし、A4のスキャナの場合は、原稿の方向は一義的に決められているため、スキャナの走査方向と文書の文字列の方向とを一致させた姿勢で原稿を読取ることができず、例えば図12(b)に示したように、文書が本来の姿勢から90°回転された状態で表示され、非常に読み難くなる場合があった。
【0009】
上記のような文字の誤認識やモニタ上での読み難さを解消するため、従来、文書画像方向自動判別/回転機能を備えた情報処理装置が実現されている。
【0010】
従来の文書画像方向自動判別手法の代表的なものは、図13に示したように、領域分離結果に基づいて表のような線のある部分の方向性を見て、横方向に長い線で文字領域を分割している方向を(図13(a)の“a”参照)、その文書画像の方向として判別する方式、文書の縦方向と横方向の射影(ヒストグラム)を検出して、その区切れ具合を見て判断したり(図13(b)の“b”参照)、領域を分離して文字領域の特徴にマッチした矩形領域の横長、縦長といった特徴(図13(b)の“c”参照)から判別していた。
【0011】
そして、これらの手法により判別した文書画像方向に基づいて、文書画像データを回転処理し、その回転された画像に対して文字認識処理を行っていた。このような文書方向に基づく正しい文字認識への期待は、近年大量の文書を整理したいというため、電子ファイリングなどの応用やDTPの発展、複写機等の大量に文書を処理する機器の発展と共に非常に高まってきた。
【0012】
【発明が解決しようとする課題】
しかし、従来の文書方向判別方式は、方向判別の精度が低かった。すなわち、文書中の表の線を用いる判別方式の場合は、表の線がない文書や縦横混在する線を含んだ文書の場合は、方向判別を誤る可能性があった。
【0013】
また、縦横の斜影を検出する方式の場合は、文字のみで行や段落がしっかり分かれている文書では、比較的精度は高いが、文書中に図や自然画が含まれている文書の場合は、方向判別を誤る可能性があった。
【0014】
さらに、表の線を用いる方式、縦横の斜影を検出する方式、文字領域の横長、縦長の特徴に基づく方式のいずれにおいても、0°と180°の回転、90°と180°の回転等を区別することは困難であり、方向判別の精度は低かった。
【0015】
本発明は、このような背景の下になされたもので、その第1の目的は、文書(文書画像)の方向を自動的に高精度に判別できるようにすることにある。
【0016】
本発明の第2の目的は、文書(文書画像)の方向を自動的に高精度に判別して補正できるようにすることにある。
【0017】
【課題を解決するための手段】
上記第1の目的を達成するため、請求項1記載の文書処理装置は、文字認識に用いる文字認識辞書と、入力された文書画像データを保存する保存手段と、前記文書画像データの中から複数の文字を含む文字領域を分離する文字領域分離手段と、前記文字領域分離手段で分離された文字領域に含まれる複数の文字それぞれに対応する文字矩形領域を判別する文字矩形領域判別手段と、前記文字矩形領域判別手段で判別された文字矩形領域に対応するデータについて前記文書画像データが保存されている前記保存手段からの読み出し方を変更して得られる各データと前記文字認識辞書とを用いることにより、前記文字矩形領域に関する複数の方向からの文字認識処理を行い、該文字認識処理の結果として方向別に得られる当該文字矩形領域の方向別文字認識精度に基づいて該文書画像の文書方向を判別する判別手段と、を備え、前記判別手段は、前記分離した各文字領域に含まれる複数の文字矩形領域それぞれに対する前記文字認識処理で得た方向別文字認識精度の平均を取ることにより、各文字領域における方向別平均値を求め、更に、前記文書画像に含まれる複数の文字領域それぞれにおいて求めた方向別平均値の平均を取ることにより、前記文書画像における方向別平均値を求め、当該求めた文書画像における方向別平均値が最も大きい方向を前記文書画像の文書方向として判別することを特徴とする。
【0022】
上記第2の目的を達成するため、請求項2記載の文書処理装置は、更に、請求項1記載の前記判別手段により該文書画像の文書方向が正方向でないと判別された場合、前記判別手段により判別された文書方向が正方向となるように補正する補正手段を備えている。
【0023】
上記第2の目的を達成するため、請求項3記載の文書処理装置では、請求項2記載の前記補正手段は、前記入力された文書画像データを全体的に回転することにより、該文書画像データが正方向となるように補正している。
【0026】
上記第2の目的を達成するため、請求項4記載の文書処理装置では、更に、請求項2記載の前記補正手段により補正された文書画像に対して文字認識処理を行う文字認識処理手段を備えている。
【0027】
上記第1の目的を達成するため、請求項5記載の文書処理装置では、更に、請求項1記載の前記判別手段における文字認識処理は、前記文字認識辞書に格納されている文字の特徴ベクトルと、前記読み出し方を変更して得られる各データに基づいて抽出された特徴ベクトルとを用いて行われるように構成されている。
【0028】
上記第1の目的を達成するため、請求項6記載の文書処理方法は、文書画像データの中から複数の文字を含む文字領域を分離する文字領域分離ステップと、前記文字領域分離ステップで分離された文字領域に含まれる複数の文字それぞれに対応する文字矩形領域を判別する文字矩形領域判別ステップと、前記文字矩形領域判別ステップで判別された文字矩形領域に対応するデータについて前記文書画像データが保存されている前記保存手段からの読み出し方を変更して得られる各データと文字認識辞書とを用いることにより、前記文字矩形領域に関する複数の方向からの文字認識処理を行い、該文字認識処理の結果として方向別に得られる当該文字矩形領域の方向別文字認識精度に基づいて該文書画像の文書方向を判別する判別ステップと、を有し、前記判別ステップでは、前記分離した各文字領域に含まれる複数の文字矩形領域それぞれに対する前記文字認識処理で得た方向別文字認識精度の平均を取ることにより、各文字領域における方向別平均値を求め、更に、前記文書画像に含まれる複数の文字領域それぞれにおいて求めた方向別平均値の平均を取ることにより、前記文書画像における方向別平均値を求め、当該求めた文書画像における方向別平均値が最も大きい方向を前記文書画像の文書方向として判別するように構成されている。
【0029】
上記第2の目的を達成するため、請求項7記載の文書処理方法は、更に、請求項6記載の前記判別ステップで該文書画像の文書方向が正方向でないと判別された場合、前記判別手段により判別された文書方向が正方向となるように補正する補正ステップを備えている。
【0030】
【作用】
請求項1記載の文書処理装置では、前記判別手段は、前記文字矩形領域判別手段で判別された文字矩形領域に対応するデータについて前記文書画像データが保存されている前記保存手段からの読み出し方を変更して得られる各データと前記文字認識辞書とを用いることにより、前記文字矩形領域に関する複数の方向からの文字認識処理を行い、該文字認識処理の結果として方向別に得られる当該文字矩形領域の方向別文字認識精度に基づいて該文書画像の文書方向を判別する場合に、前記分離した各文字領域に含まれる複数の文字矩形領域それぞれに対する前記文字認識処理で得た方向別文字認識精度の平均を取ることにより、各文字領域における方向別平均値を求め、更に、前記文書画像に含まれる複数の文字領域それぞれにおいて求めた方向別平均値の平均を取ることにより、前記文書画像における方向別平均値を求め、当該求めた文書画像における方向別平均値が最も大きい方向を前記文書画像の文書方向として判別することにより、文書(文書画像)の方向を自動的に高精度に判別する。
【0035】
請求項2記載の文書処理装置では、前記補正手段は、請求項1記載の前記判別手段により該文書画像の文書方向が正方向でないと判別された場合、前記判別手段により判別された文書方向が正方向となるように補正することにより、文書(文書画像)の方向を自動的に高精度に判別して補正する。
【0036】
請求項3記載の文書処理装置では、請求項2記載の前記補正手段は、前記入力された文書画像データを全体的に回転することにより、該文書画像データが正方向となるように補正し、請求項2と同様の作用・効果が得られるようにする。
【0039】
請求項4記載の文書処理装置では、更に、請求項2記載の前記補正手段により補正された文書画像に対して文字認識処理を行う文字認識処理手段を備えることにより、請求項2と同様の作用・効果が得られるようにする。
【0040】
請求項5記載の文書処理装置では、請求項1記載の前記判別手段における文字認識処理は、前記文字認識辞書に格納されている文字の特徴ベクトルと、前記読み出し方を変更して得られる各データに基づいて抽出された特徴ベクトルとを用いて行われるように構成され、請求項1と同様の作用・効果が得られるようにする。
【0041】
請求項6記載の文書処理方法では、前記判別ステップは、前記文字矩形領域判別ステップで判別された文字矩形領域に対応するデータについて前記文書画像データが保存されている前記保存手段からの読み出し方を変更して得られる各データと文字認識辞書とを用いることにより、前記文字矩形領域に関する複数の方向からの文字認識処理を行い、該文字認識処理の結果として方向別に得られる当該文字矩形領域の方向別文字認識精度に基づいて該文書画像の文書方向を判別する場合に、前記分離した各文字領域に含まれる複数の文字矩形領域それぞれに対する前記文字認識処理で得た方向別文字認識精度の平均を取ることにより、各文字領域における方向別平均値を求め、更に、前記文書画像に含まれる複数の文字領域それぞれにおいて求めた方向別平均値の平均を取ることにより、前記文書画像における方向別平均値を求め、当該求めた文書画像における方向別平均値が最も大きい方向を前記文書画像の文書方向として判別することにより、請求項1と同様の作用・効果が得られるようにする。
【0042】
請求項7記載の文書処理方法は、更に、請求項6記載の前記判別ステップで該文書画像の文書方向が正方向でないと判別された場合、前記判別手段により判別された文書方向が正方向となるように補正する補正ステップを備え、請求項2と同様の作用・効果が得られるようにする。
【0043】
【実施例】
以下、本発明の実施例を図面を参照しながら説明する。
【0044】
図1は、本発明の実施例による文書方向自動判別装置、および文書方向自動補正装置を適用したデータ処理システムのシステム構成図であり、本システムは、画像の入力部と画像処理部を持ち、スキャナー装置、或いは複写機などに、インテリジェント入力装置、または単独の入力装置がI/Fを介してコンピュータと接続されてインテリジェント化されたシステムである。
【0045】
スキャナ部1は、文書原稿を光学的に読取り、光電変換してデジタルの画像データとして入力する手段である。このスキャナ部1にオートフィーダを取り付ければ、複数枚の原稿を連続入力することが可能である。CPU/メモリ部2は、各種制御を行うと共に、画像データを一時的に保存するためにある。
【0046】
文字認識/方向判別部3は、文書の方向を一番正確に現しているのは文字であることに着目し、文書中の数種類の文字領域を0°、90°、180°、270°の方向から文字認識を行い、それら各方向における文字認識の精度(文字認識の自信度:文字の特徴分布に対する距離)の中で一番精度の高い方向を文書方向とする。
【0047】
領域分離部4は、文字認識/方向判別部3による文字認識・方向判別処理を行うための前処理として、文書画像データより、文字部、図形部、自然画部、表部などを矩形の領域に分離して、各領域の属性(文字部など)を付加する処理を行うブロックである。
【0048】
記憶装置5は、例えば、ハードディスクや光磁気ディスクなどにより構成され、各種処理結果(画像データ、領域分離結果、文字認識結果など)を保存するために利用される。I/F部6は、SCSIやRS232Cなどにより構成され、外部へデータを伝送するために設けられている。コンピュータ7は、I/F部6を介して情報を得たり、光磁気ディスク等の移動可能の記憶装置よりデータを得て利用する。プリンタ部8は、スキャナ部1から入力された画像データに対して、領域分離情報と文字認識情報に基づいて各種加工された画像データ等を印刷出力する。
【0049】
次に、本実施例における文書方向自動判別・補正、および文字認識処理の概要を図2のフローチャートに従って説明する。
【0050】
スキャナ部1により入力された画像データ(2値画像あるいは多値画像)は、まず領域分離部4により、文字部、図形部、自然画部、表部などの属性別に矩形の領域に分離される(ステップS1,S2)。ここでは、実際には、矩形で囲まれた領域情報を作成する。
【0051】
次に、各属性より文字領域の矩形情報を抽出する(ステップS3)。ここで、文字領域とは、文章部、タイトル部、表中の文字、図のキャプション部などである。例えば、図3(a),(c)の文書の場合は、それぞれ図3(b),(d)に示したような文字領域の矩形情報が抽出される。そして、これらの中の数ブロックを用いて、文書方向判別を行う(ステップS4)。その結果、文書方向が正方向であれば、引続き画像中の文字ブロックに対して文字認識処理を行う(ステップS7)。
【0052】
一方、文書方向が不正方向であれば、画像データを正しい方向に回転させる
(ステップS5)。そして、回転画像に対して領域分離を行い、領域分離情報の補正処理を行う(ステップS6)。これは、画像回転に伴う領域分離情報の相違を補正するもので、一つの方法としては、全回転画像データに対して再び領域分離処理を行う方法。もう一つは、アドレス変換を領域分離結果にかける方法がある。領域分離処理は、一般に画像が正方向を想定しているため、初期の段階で行った領域分離処理と回転画像データに対して行った領域分離処理は、結果が異なることが多い。それゆえ、前者の方法がとられるのが望ましい。
【0053】
次に、ステップS7に進んで、回転画像データ中の文字領域ブロックは、文字認識処理系で文字認識される。この結果、最終的に、回転なし/回転ありの両方の場合とも、領域分離情報と文字認識情報が得られる(ステップS8)。
【0054】
この処理結果は、I/F部6を介してコンピュータ7に伝送され、コンピュータ7上のファイリングのアプリケーションソフト等で利用される。また、記憶装置5に転送する系では、連続的に画像情報を入力して、次に、その情報をまとめて読出すといったバッチ処理的に使用する方式に利用される。さらにプリンタ8に転送する系では、プリンタ8にページ記述言語を解釈する機能がある場合には、文字認識と領域分離の処理により逆PDL(画像データよりページ記述言語を作成する方法)で文書を再構成したり清書したりするのに利用される。
【0055】
次に、文字認識処理を用いた文書方向判別の手法について説明する。
【0056】
[領域分離処理]
文書画像データの黒画素を検出してゆき、輪郭線追跡、またはラベリング方式により、黒画素ブロックの矩形枠を作成する。次に、その矩形のなかの黒画素密度、隣接矩形ブロックの有無、矩形の縦横比率などを判断基準にして、文字領域(タイトル、本分、キャプションなど)、図形領域、自然画領域、表領域などを判別する。この処理結果より、文字領域の矩形情報が判別される。
【0057】
[文字認識処理]
文字認識処理の一つの方法として、特徴ベクトル抽出、比較方式がある。例えば図4(a)に示したように、「本」という文字を含む文字領域が判別されたとする。第一段階として、この文字領域について文字切り出し処理を行う(図4(b)参照)。これは、一つの文字の矩形を切り出す処理で、黒画素連続性の状態を検出していけば求められる。第二段階として、一文字をm×n(例えば64×64)の画素ブロックに切り出す(図4(c)参照)。そして、その中から3×3画素のウィンドウを用いて、黒画素の分布方向を抽出する(方向ベクトル情報:図4(d)参照)。
【0058】
なお、図4(d)は、方向ベクトル情報の一部を例示したものであり、上記3×3画素のウィンドウをずらしてゆき、方向ベクトル情報を数十個得る。このベクトル情報が文字の特徴となる。この特徴ベクトルと予め記憶されている文字認識辞書の内容とを比較して、特徴ベクトルに特徴が一番近い文字から順番に文字を抽出する。この場合、特徴ベクトルに特徴が近い順番にが第1候補、第2候補、第2候補、…となる。この特徴ベクトルに対する特徴の近さが、その文字に対する距離の近さ、すなわち文字認識の自信度(精度)という数値となる。
【0059】
[文字方向判別処理]
このようにして文字認識の自信度が求められるが、その自信度に基づいた文字方向判別処理を、図5に示した「本発明の名称」という文例を用いて説明する。
【0060】
図5(a)は正方向の文、図5(b)は270°回転した文である。ここで「本」に注目すると、文字方向を判別する場合は、図5(c)に示したように、1つの文字「本」について0°、90°、180°、270°の4方向から文字認識を行ってみる。各回転角度は、文字矩形の領域の読出し方を変更すればよく、特に原稿を回転する必要はない。
【0061】
各回転角度における文字認識結果は、図5(c)に示したように、互いに異なっている。なお、図5(c)には、説明用の仮の文字認識結果および自信度が示されており、現実にこの通りになるとは限らない。
【0062】
図5(c)において、正方向(0°)から文字認識を行った場合は、「本」と正しく認識され、自信度も0.90と高い値となる。90°回転した方向から文字認識を行った場合は、「町」と誤認識され、自信度も0.40と低下する。このように誤認識が発生し、自信度も低下するのは、回転した方向から見た場合の特徴ベクトルに基づいて文字認識を行ったからである。同様に180°、270°回転した方向から文字認識を行った場合も、誤認識が発生し、自信度も低下する。なお、文字認識の方向別の自信度は、複雑な文字であればある程、その差が顕著に現れてくる。
【0063】
図5(c)の結果は、正方向の場合に自信度が1番高いため、文書は正方向に向いている可能性が高いと判断される。文字方向判別の精度を向上させるため、同一ブロック内の複数の文字について、同様に4方向から文字認識を行ってみる。さらに、1つのブロックだけで文字方向を判別した場合、特殊な文字列について文字方向を誤まって判別する虞があるので、複数のブロックについて同様の文字認識を行ってみる。
【0064】
そして、各ブロックについて、当該ブロック内の各認識対象文字の4方向別の自信度の平均値を求め、さらに、各ブロックでの4方向別の自信度の平均値に対する平均値を求め、この平均値が最も高い方向を文字方向(文書方向)として認定する。
【0065】
このように、1文字だけの自信度で文字方向を認定することなく、同一ブロック内の複数文字、さらには同一ブロック内の複数文字の自信度で文字方向を認定することにより、文字(文書)方向を高精度に判別することが可能となる。ただし、1文字だけの自信度で文字方向を判別したり、或いは同一ブロック内の複数文字の自信度で文字方向を判別しても、従来よりも高精度に文字方向を判別できることは言うまでもない。
【0066】
次に、文字方向(文書方向)の判別結果が、正方向以外の方向であるときは、文字方向が正方向になるように原画像を回転する。この回転は、図1のCPU/メモリ2を用いて公知の技術により簡単に行うことが可能であり、その説明は省略する。
【0067】
以上のような、処理により、図6(a)に示した原画像データ、図6(b)に示した領域分離データ、図6(c)に示した文字認識情報を得ることができる。これらの情報は、前述のように、電子ファイリング、文書整形、DTPなどのアプリケーションにより使用される。
【0068】
領域分離データの形式は、図6(b)に示したように、領域分離データである旨を示す「header」と、分離した領域の識別子「rect1」〜「rectn4」により構成され、この識別子で区別された各領域(ブロック)の情報は、ブロックの番号「order」、ブロックの属性(文字部、図形部など)「att」、ブロックの左上の座標値「x1」および「y1」、ブロックの幅「w」、ブロックの高さ「h」、縦書き、または横書きを示す「direction」、当該ブロックのIDである「SelfID」、当該ブロックを包含する親ブロックのIDである「upperID」、親ブロックの属性「upperAtt」、予備領域「reserve」により構成されている。
【0069】
また、文字認識情報は、図6(c)に示したように、文字認識情報である旨を示す「header」を有し、例えば「本」等の単一の文字に関する文字認識情報「OCR1」等と、当該文字が含まれているブロックを示す上記rect1等に相当する「blk header」との組合わせ情報により構成されている。
【0070】
そして、「OCR1」等の各文字認識情報は、文字であるか或いは空白であるかを示す「type」、前述の文字認識の自信度に従った第1〜第5候補文字「文字1」〜「文字5」、当該文字の切出し位置「x1」および「y1」、当該文字の幅「w」、当該文字の高さ「h」、予備領域「reserve」により構成されている。
【0071】
[他の実施例]
なお、上記実施例では、文書方向を判別した結果、正方向を向いておらず回転すべき場合には、原画像データ全体を回転させて文字認識を行っていたが、原画像データを回転させずに文字認識を行うことも可能である。
【0072】
この場合には、文字領域の矩形情報を得たら、図7に示したように、文字矩形データのみを別メモリ上に回転してコピーさせ、その矩形画像データに対して文字認識を行えばよい。
【0073】
また、図8に示したように、画像データは回転させずに、文字矩形領域に対して文字切りを行い、各文字を読出す際に読出方向を回転させた状態で読出して文字認識を行ってもよい(図9のステップS9参照)。なお、図9のフローチャートは、他のステップは、図1とほぼ同様なので、同一のステップ番号を付つけるだけで、その説明は省略する。
【0074】
なお、本発明は上記各実施例に限定されることなく、例えば、日本語だけでなく、他の言語に係る文書にも適用可能である。特に、英語等に係る文書は、縦書き文書がないため、文書方向をより高精度に判別することが可能である。
【0075】
【発明の効果】
以上、詳細に説明したように、本発明によれば、文書の方向を一番正確に現しているのは文字であることに着目して、同一文字について複数の方向から文字認識を行い、文字認識精度の一番高い方向を文書方向として判別し、その判別結果に基づいて必要に応じて文書方向を補正するようにしたので、文書(文書画像)の方向を自動的に高精度に判別し、また文書方向を補正することができ、人手を介さずに高精度な文字認識結果を得ることが可能となる。
【図面の簡単な説明】
【図1】本発明の実施例による文書方向自動判別装置および文書方向自動補正装置を適用したデータ処理システムのシステム構成図である。
【図2】本発明の実施例による文書方向自動判別・補正、および文字認識処理を示すフローチャートである。
【図3】領域分離状態を示した図である。
【図4】文字認識処理の処理過程を説明するための説明図である。
【図5】文書(文字)方向判別処理を説明するための説明図である。
【図6】領域分離および文字認識情報のデータ形式を示した図である。
【図7】他の実施例を説明するための説明図である。
【図8】図7とは異なる他の実施例を説明するための説明図である。
【図9】図8の他の実施例に係る文書方向自動判別・補正、および文字認識処理を示すフローチャートである。
【図10】同一文字に対する方向別の文字認識結果を例示した図である。
【図11】各種文書の文字方向等の形式を例示した図である。
【図12】文書をモニタ表示した場合の問題点をせつめいするための説明図である。
【図13】従来の文書方向判別手法を説明するための説明図である。
【符号の説明】
1…スキャナ部
2…CPU/メモリ部
3…文字認識/方向判別部
4…領域分離部
5…記憶装置
6…I/F部
7…コンピュータ
8…プリンタ部
Claims (7)
- 文字認識に用いる文字認識辞書と、
入力された文書画像データを保存する保存手段と、
前記文書画像データの中から複数の文字を含む文字領域を分離する文字領域分離手段と、
前記文字領域分離手段で分離された文字領域に含まれる複数の文字それぞれに対応する文字矩形領域を判別する文字矩形領域判別手段と、
前記文字矩形領域判別手段で判別された文字矩形領域に対応するデータについて前記文書画像データが保存されている前記保存手段からの読み出し方を変更して得られる各データと前記文字認識辞書とを用いることにより、前記文字矩形領域に関する複数の方向からの文字認識処理を行い、該文字認識処理の結果として方向別に得られる当該文字矩形領域の方向別文字認識精度に基づいて該文書画像の文書方向を判別する判別手段と、を備え、
前記判別手段は、前記分離した各文字領域に含まれる複数の文字矩形領域それぞれに対する前記文字認識処理で得た方向別文字認識精度の平均を取ることにより、各文字領域における方向別平均値を求め、更に、前記文書画像に含まれる複数の文字領域それぞれにおいて求めた方向別平均値の平均を取ることにより、前記文書画像における方向別平均値を求め、当該求めた文書画像における方向別平均値が最も大きい方向を前記文書画像の文書方向として判別することを特徴とする文書処理装置。 - 更に、前記判別手段により該文書画像の文書方向が正方向でないと判別された場合、前記判別手段により判別された文書方向が正方向となるように補正する補正手段を備えたことを特徴とする請求項1記載の文書処理装置。
- 前記補正手段は、前記入力された文書画像データを全体的に回転することにより、該文書画像データが正方向となるように補正することを特徴とする請求項2記載の文書処理装置。
- 更に、前記補正手段により補正された文書画像に対して文字認識処理を行う文字認識処理手段を備えることを特徴とする請求項2記載の文書処理装置。
- 前記判別手段における文字認識処理は、前記文字認識辞書に格納されている文字の特徴ベクトルと、前記読み出し方を変更して得られる各データに基づいて抽出された特徴ベクトルとを用いて行われることを特徴とする請求項1記載の文書処理装置。
- 文書画像データの中から複数の文字を含む文字領域を分離する文字領域分離ステップと、
前記文字領域分離ステップで分離された文字領域に含まれる複数の文字それぞれに対応する文字矩形領域を判別する文字矩形領域判別ステップと、
前記文字矩形領域判別ステップで判別された文字矩形領域に対応するデータについて前記文書画像データが保存されている前記保存手段からの読み出し方を変更して得られる各データと文字認識辞書とを用いることにより、前記文字矩形領域に関する複数の方向からの文字認識処理を行い、該文字認識処理の結果として方向別に得られる当該文字矩形領域の方向別文字認識精度に基づいて該文書画像の文書方向を判別する判別ステップと、を有し、
前記判別ステップでは、前記分離した各文字領域に含まれる複数の文字矩形領域それぞれに対する前記文字認識処理で得た方向別文字認識精度の平均を取ることにより、各文字領域における方向別平均値を求め、更に、前記文書画像に含まれる複数の文字領域それぞれにおいて求めた方向別平均値の平均を取ることにより、前記文書画像における方向別平均値を求め、当該求めた文書画像における方向別平均値が最も大きい方向を前記文書画像の文書方向として判別することを特徴とする文書処理方法。 - 更に、前記判別ステップで該文書画像の文書方向が正方向でないと判別された場合、前記判別手段により判別された文書方向が正方向となるように補正する補正ステップを備えたことを特徴とする請求項6記載の文書処理方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP03607995A JP3727971B2 (ja) | 1995-02-01 | 1995-02-01 | 文書処理装置、及び文書処理方法 |
DE69610230T DE69610230T2 (de) | 1995-02-01 | 1996-01-30 | Verfahren und Gerät zur Bildverarbeitung |
EP96300642A EP0725359B1 (en) | 1995-02-01 | 1996-01-30 | Image processing method and apparatus |
US08/594,798 US6148119A (en) | 1995-02-01 | 1996-01-31 | Character recognition in input images divided into areas |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP03607995A JP3727971B2 (ja) | 1995-02-01 | 1995-02-01 | 文書処理装置、及び文書処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08212298A JPH08212298A (ja) | 1996-08-20 |
JP3727971B2 true JP3727971B2 (ja) | 2005-12-21 |
Family
ID=12459742
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP03607995A Expired - Fee Related JP3727971B2 (ja) | 1995-02-01 | 1995-02-01 | 文書処理装置、及び文書処理方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US6148119A (ja) |
EP (1) | EP0725359B1 (ja) |
JP (1) | JP3727971B2 (ja) |
DE (1) | DE69610230T2 (ja) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3728040B2 (ja) * | 1996-12-27 | 2005-12-21 | キヤノン株式会社 | 画像形成装置及び方法 |
JPH10289288A (ja) * | 1997-04-16 | 1998-10-27 | Canon Inc | 画像処理方法及び装置 |
KR100247970B1 (ko) | 1997-07-15 | 2000-03-15 | 윤종용 | 문서 영상의 방향 교정방법 |
JP3884845B2 (ja) * | 1997-11-18 | 2007-02-21 | キヤノン株式会社 | 情報処理装置及び方法 |
US6151423A (en) * | 1998-03-04 | 2000-11-21 | Canon Kabushiki Kaisha | Character recognition with document orientation determination |
US6804414B1 (en) * | 1998-05-01 | 2004-10-12 | Fujitsu Limited | Image status detecting apparatus and document image correcting apparatus |
JPH11341229A (ja) * | 1998-05-29 | 1999-12-10 | Canon Inc | 画像処理装置及び画像処理方法 |
JP2001043310A (ja) | 1999-07-30 | 2001-02-16 | Fujitsu Ltd | 文書画像補正装置および補正方法 |
JP3907439B2 (ja) * | 2001-10-26 | 2007-04-18 | キヤノン株式会社 | 携帯端末システム及び携帯端末及び画像処理装置及びその動作方法 |
RU2003108433A (ru) * | 2003-03-28 | 2004-09-27 | Аби Софтвер Лтд. (Cy) | Способ предварительной обработки изображения машиночитаемой формы |
US20110188759A1 (en) * | 2003-06-26 | 2011-08-04 | Irina Filimonova | Method and System of Pre-Analysis and Automated Classification of Documents |
RU2635259C1 (ru) | 2016-06-22 | 2017-11-09 | Общество с ограниченной ответственностью "Аби Девелопмент" | Способ и устройство для определения типа цифрового документа |
US7805003B1 (en) | 2003-11-18 | 2010-09-28 | Adobe Systems Incorporated | Identifying one or more objects within an image |
US7286718B2 (en) * | 2004-01-26 | 2007-10-23 | Sri International | Method and apparatus for determination of text orientation |
IL162878A0 (en) * | 2004-07-06 | 2005-11-20 | Hi Tech Solutions Ltd | Multi-level neural network based characters identification method and system |
KR100741368B1 (ko) | 2005-03-21 | 2007-07-20 | 유니챌(주) | 문자자동인식장치 및 방법 |
US8203763B2 (en) * | 2008-02-15 | 2012-06-19 | Kabushiki Kaisha Toshiba | Image scanning apparatus and method for aligning a stack of scanned images using the stack orientation indicated by a user and an automatically determined image orientation |
JP5142858B2 (ja) * | 2008-07-03 | 2013-02-13 | キヤノン株式会社 | 画像処理装置および画像処理方法 |
KR101035739B1 (ko) * | 2009-02-13 | 2011-05-20 | 전남대학교산학협력단 | 문자 인식의 왜곡을 보정하는 방법 |
CN102855477B (zh) | 2011-06-29 | 2014-12-17 | 富士通株式会社 | 识别图像块中文字的方向的方法和装置 |
CN102890783B (zh) * | 2011-07-20 | 2015-07-29 | 富士通株式会社 | 识别图像块中文字的方向的方法和装置 |
CN102890784B (zh) * | 2011-07-20 | 2016-03-30 | 富士通株式会社 | 识别图像块中文字的方向的方法和装置 |
US9092667B2 (en) | 2012-08-27 | 2015-07-28 | Symbol Technologies, Llc | Arrangement for and method of reading forms in correct orientation by image capture |
US20140258852A1 (en) * | 2013-03-11 | 2014-09-11 | Microsoft Corporation | Detection and Reconstruction of Right-to-Left Text Direction, Ligatures and Diacritics in a Fixed Format Document |
RU2640322C2 (ru) | 2014-01-30 | 2017-12-27 | Общество с ограниченной ответственностью "Аби Девелопмент" | Способы и системы эффективного автоматического распознавания символов |
US9589185B2 (en) | 2014-12-10 | 2017-03-07 | Abbyy Development Llc | Symbol recognition using decision forests |
US9552527B1 (en) | 2015-08-27 | 2017-01-24 | Lead Technologies, Inc. | Apparatus, method, and computer-readable storage medium for determining a rotation angle of text |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0325233B1 (en) * | 1988-01-18 | 1994-07-27 | Kabushiki Kaisha Toshiba | Character string recognition system |
US5060276A (en) * | 1989-05-31 | 1991-10-22 | At&T Bell Laboratories | Technique for object orientation detection using a feed-forward neural network |
US5077811A (en) * | 1990-10-10 | 1991-12-31 | Fuji Xerox Co., Ltd. | Character and picture image data processing system |
US5359677A (en) * | 1990-12-11 | 1994-10-25 | Sharp Kabushiki Kaisha | Image reader and facsimile machine using such image reader |
JP3170299B2 (ja) * | 1991-01-31 | 2001-05-28 | 株式会社リコー | 画像読取処理装置 |
DE69232345T2 (de) * | 1991-07-16 | 2002-07-04 | Sharp Kk | Verfahren zur Bestimmung der Neigung eines Schriftzeichen enthaltenden Bildes |
US5235651A (en) * | 1991-08-06 | 1993-08-10 | Caere Corporation | Rotation of images for optical character recognition |
US5452374A (en) * | 1992-04-06 | 1995-09-19 | Ricoh Corporation | Skew detection and correction of a document image representation |
US5301036A (en) * | 1992-04-06 | 1994-04-05 | Xerox Corporation | Image orientation control |
US5335290A (en) * | 1992-04-06 | 1994-08-02 | Ricoh Corporation | Segmentation of text, picture and lines of a document image |
CA2097095A1 (en) * | 1992-07-29 | 1994-01-30 | Frank William Sinden | Method of normalizing handwritten symbols |
JPH06103410A (ja) * | 1992-09-18 | 1994-04-15 | Minolta Camera Co Ltd | 画像処理装置 |
JP3630705B2 (ja) * | 1993-08-02 | 2005-03-23 | コニカミノルタビジネステクノロジーズ株式会社 | デジタル複写装置 |
US5625466A (en) * | 1994-03-04 | 1997-04-29 | Minolta Co., Ltd. | Image forming apparatus providing landscape or portrait image format based on detected size of original |
US5517587A (en) * | 1994-09-23 | 1996-05-14 | International Business Machines Corporation | Positioning method and apparatus for line scanned images |
-
1995
- 1995-02-01 JP JP03607995A patent/JP3727971B2/ja not_active Expired - Fee Related
-
1996
- 1996-01-30 DE DE69610230T patent/DE69610230T2/de not_active Expired - Lifetime
- 1996-01-30 EP EP96300642A patent/EP0725359B1/en not_active Expired - Lifetime
- 1996-01-31 US US08/594,798 patent/US6148119A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH08212298A (ja) | 1996-08-20 |
DE69610230T2 (de) | 2001-02-22 |
US6148119A (en) | 2000-11-14 |
EP0725359B1 (en) | 2000-09-13 |
EP0725359A1 (en) | 1996-08-07 |
DE69610230D1 (de) | 2000-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3727971B2 (ja) | 文書処理装置、及び文書処理方法 | |
US5664027A (en) | Methods and apparatus for inferring orientation of lines of text | |
US5528732A (en) | Reprographic device for making copies with multi-spaced lines | |
JP3302147B2 (ja) | 文書画像処理方法 | |
US7321688B2 (en) | Image processor for character recognition | |
US5642473A (en) | Paper saving reprographic device | |
US8391607B2 (en) | Image processor and computer readable medium | |
JP5262493B2 (ja) | 画像処理装置、画像処理方法、プログラムおよびコンピュータ読み取り可能な記憶媒体 | |
JP4780184B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP3787377B2 (ja) | 文書方向判定方法及び装置及び文字認識方法及び装置 | |
JP4396710B2 (ja) | 画像処理装置、画像処理装置の制御方法、および画像処理装置の制御プログラム | |
JP4281236B2 (ja) | 画像認識装置、画像認識方法、および、画像認識プログラムを記憶したコンピュータ読取り可能な記録媒体 | |
JP3604909B2 (ja) | 画像間位置合わせ方法 | |
JP7342518B2 (ja) | 画像処理装置及び画像処理プログラム | |
JPH11213089A (ja) | 画像処理装置及びその方法 | |
JP4159948B2 (ja) | 2次元コード読み取り装置、2次元コード読み取り方法及び2次元コード読み取りプログラム、記憶媒体 | |
US20100134849A1 (en) | Image processing apparatus, image processing method and computer readable medium | |
JP7532124B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JPH04276888A (ja) | 文字読取装置 | |
JP4974367B2 (ja) | 領域分割方法及び装置、並びにプログラム | |
JPH11250179A (ja) | 文字認識装置および文字認識方法 | |
JP3027232B2 (ja) | 文字認識装置 | |
JP2001312697A (ja) | 画像方向判別方法及び装置 | |
JPS5831028B2 (ja) | 文字認識装置 | |
JP2005208979A (ja) | 特徴量抽出装置および特徴量抽出方法、ならびに文書ファイリング装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040512 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050111 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050314 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050621 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050721 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20050829 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050927 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050930 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091007 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091007 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101007 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101007 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111007 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111007 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121007 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131007 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |