[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2005346419A - Method for processing character and character recognition processor - Google Patents

Method for processing character and character recognition processor Download PDF

Info

Publication number
JP2005346419A
JP2005346419A JP2004165381A JP2004165381A JP2005346419A JP 2005346419 A JP2005346419 A JP 2005346419A JP 2004165381 A JP2004165381 A JP 2004165381A JP 2004165381 A JP2004165381 A JP 2004165381A JP 2005346419 A JP2005346419 A JP 2005346419A
Authority
JP
Japan
Prior art keywords
character recognition
image data
character
region
recognition processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2004165381A
Other languages
Japanese (ja)
Inventor
Keiko Nakanishi
恵子 中西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2004165381A priority Critical patent/JP2005346419A/en
Publication of JP2005346419A publication Critical patent/JP2005346419A/en
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To speed up character recognition processing even when image data are not directed to a normal direction. <P>SOLUTION: An area identification result from an area identification part (12a) is inputted to a direction discrimination part (12b), and the direction discrimination part (12b) successively turns characters to four directions, 0°, 90°, 180° and 270°. A character recognition part (12e) performs character recognition processing for the prescribed number of character patterns in a text area in each direction. The direction discrimination part (12b) judges the direction having the highest recognition rate out of the recognition rates of respective directions as a normal direction and outputs the rotational angle of the normal direction to an image rotation part (12c). At the time of judging that the image data are not directed to the normal direction as the direction discrimination result of the direction discrimination part (12b), the image rotation part (12c) rotates the image data and an area information rotation part (12d) rotates area information (15b). <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

本発明は、画像データ中の文字を処理するための文字処理方法及び文字処理装置に関する。   The present invention relates to a character processing method and a character processing apparatus for processing characters in image data.

コンピュータの高性能化に伴い文字認識装置や電子ファイリング装置など、文書電子化装置の実用化が進んでいる。文書電子化装置では、原稿画像をスキャナ等で読み取って得た画像データを文字認識処理し、文字データを抽出する。   As computers become more sophisticated, document digitization devices such as character recognition devices and electronic filing devices have been put into practical use. In the document digitizing apparatus, image data obtained by reading a document image with a scanner or the like is subjected to character recognition processing, and character data is extracted.

文字認識処理においては、読み取り時の原稿画像の方向、すなわち、画像データの方向が重要であり、例えば、原稿画像が逆向きのとき、画像データから切り出される文字も逆向きになるため、文字認識が困難となる。従って、画像データの文字認識処理に際しては、画像データを正方向に設定する必要がある。   In the character recognition process, the direction of the original image at the time of reading, that is, the direction of the image data is important. For example, when the original image is in the reverse direction, the characters cut out from the image data are also in the reverse direction. It becomes difficult. Therefore, in the character recognition processing of image data, it is necessary to set the image data in the forward direction.

そこで、特許文献1、2の画像処理装置では、画像データの正しい方向を自動的に判別する方向判別手法が提案されている。これら手法では、画像データを領域識別して、テキスト領域内の文字を0、90、180、270度の4方向で文字認識処理することにより、最も文字の認識度が高い方向を原稿の正方向とし、方向判別結果に基づいて画像データを回転して、領域識別、文字認識処理を実行する。   Therefore, in the image processing apparatuses disclosed in Patent Documents 1 and 2, a direction determination method for automatically determining the correct direction of image data has been proposed. In these methods, the image data is identified, and the characters in the text region are subjected to character recognition processing in four directions of 0, 90, 180, and 270 degrees, so that the direction with the highest character recognition degree is the normal direction of the document. The image data is rotated based on the direction discrimination result, and the area identification and character recognition processing is executed.

特開平8−212298号公報JP-A-8-212298

特開2002−024759号公報Japanese Patent Laid-Open No. 2002-024759

しかし、特許文献1、2の文字認識処理では、画像データが正方向でないときには、画像データを回転補正した後に、再び領域識別するので、正確な領域識別結果が取得できるが、その代わり、2度の領域識別が必要となるため、処理速度を充分に高めることができない。   However, in the character recognition processing of Patent Documents 1 and 2, when the image data is not in the normal direction, the region is identified again after the image data is rotationally corrected, so that an accurate region identification result can be obtained. Therefore, the processing speed cannot be sufficiently increased.

一方、画像データに対して文字認識処理を行い、文字認識結果の文字コードを不可視な状態で該画像データに埋め込むことにより、文字コードによる検索すると、検索された文字コードに対応する画像データが表示されるような文字コード埋め込み画像データを作成する技術(例えば画像データに文字認識結果の文字コードを埋め込んでPDFデータ形式のファイルを作成する技術)が考えられている。このようにオリジナルの画像データが表示される場合、正確な領域識別結果よりもむしろ処理速度向上に対する要求が極めて高い。   On the other hand, by performing character recognition processing on the image data and embedding the character code of the character recognition result in the image data in an invisible state, when searching by the character code, the image data corresponding to the searched character code is displayed. A technique for creating such character code embedded image data (for example, a technique for creating a PDF data format file by embedding a character code of a character recognition result in image data) is considered. When original image data is displayed in this way, there is an extremely high demand for an improvement in processing speed rather than an accurate region identification result.

特に、オートドキュメントフィーダーを備えたスキャナで大量の原稿を一度に画像データに変換し、この画像データを文字認識処理して文字コード埋め込み画像データを作成する等、大量の原稿を一括処理する場合には、処理速度が作業効率に大きな影響を与える。   In particular, when processing a large amount of documents at once, such as converting a large amount of documents to image data at once with a scanner equipped with an auto document feeder and creating character code embedded image data by character recognition processing of this image data The processing speed greatly affects the work efficiency.

本発明は、このような従来の問題点を解消すべく創案されたもので、領域識別の精度よりも処理速度を優先させることを目的とする。   The present invention was devised to solve such a conventional problem, and an object of the present invention is to prioritize the processing speed over the accuracy of area identification.

本発明によれば、画像データが正方向でない場合でも、領域識別処理を一度行うだけなので、文字認識処理を高速化し得る。   According to the present invention, even if the image data is not in the normal direction, the area recognition process is performed only once, so that the character recognition process can be speeded up.

本発明は、画像データに対して文字認識処理を実行する文字処理装置であって、画像データを入力する画像入力手段と、前記画像データを属性に基づいて領域分割するとともに、各領域の領域情報を生成する領域識別手段と、前記領域分割された領域のうち、文字を含む一部の領域を、所定の複数の回転角度で回転して、文字認識処理し、該文字認識処理の結果に基いて、前記画像データの方向を判断する方向判別手段と、前記方向判別手段の判断結果に基いて、必要に応じて、前記画像データを、前記回転角度のうちのいずれかの回転角度に回転補正する画像補正手段と、前記方向判別手段の判断結果に基いて、必要に応じて、前記領域情報を、前記回転角度のうちのいずれかの回転角度に回転補正する領域情報補正手段と、前記領域情報に基いて、文字を含む領域を文字認識処理する文字認識手段とを有する。これによって、画像データが正方向でない場合でも、領域識別処理を一度行うだけなので、文字認識処理を高速化し得る。   The present invention is a character processing device that performs character recognition processing on image data, and includes image input means for inputting image data, region division of the image data based on attributes, and region information of each region A region identification means for generating a character, and a portion of the region divided region including a character is rotated at a plurality of predetermined rotation angles to perform character recognition processing, and based on the result of the character recognition processing And direction correction means for determining the direction of the image data, and based on the determination result of the direction determination means, the image data is rotationally corrected to any one of the rotation angles as necessary. An image correction unit that performs rotation correction of the region information to any one of the rotation angles, if necessary, based on the determination result of the direction determination unit, and the region information Based in, and a character recognition means for character recognition processing region including the characters. As a result, even when the image data is not in the forward direction, the area recognition process is performed once, so that the character recognition process can be speeded up.

本発明は、画像データに対して文字認識処理を実行する文字処理方法であって、画像データを入力する画像入力ステップと、前記画像データを属性に基づいて領域分割するとともに、各領域の領域情報を生成する領域識別ステップと、前記領域分割された領域のうち、文字を含む一部の領域を、所定の複数の回転角度で回転して、文字認識処理し、該文字認識処理の結果に基いて、前記画像データの方向を判断する方向判別ステップと、前記方向判別ステップの判断結果に基いて、必要に応じて、前記画像データを、前記回転角度のうちのいずれかの回転角度に回転補正する画像補正ステップと、前記方向判別手段の判断結果に基いて、必要に応じて、前記領域情報を、前記回転角度のうちのいずれかの回転角度に回転補正する領域情報補正ステップと、前記領域情報に基いて、文字を含む領域を文字認識処理する文字認識ステップとを有する。これによって、画像データが正方向でない場合でも、領域識別処理を一度行うだけなので、文字認識処理を高速化し得る。   The present invention relates to a character processing method for performing character recognition processing on image data, an image input step for inputting image data, region division of the image data based on attributes, and region information of each region A region identification step for generating a character, and a portion of the region divided region including a character is rotated at a predetermined plurality of rotation angles to perform character recognition processing, and based on the result of the character recognition processing And a direction determination step for determining the direction of the image data, and based on the determination result of the direction determination step, the image data is rotationally corrected to any one of the rotation angles as necessary. Region correction for correcting the rotation of the region information to any one of the rotation angles, if necessary, based on the image correction step to be performed and the determination result of the direction determination unit And step, based on the region information, and a character recognition step of character recognition processing region including the characters. As a result, even when the image data is not in the forward direction, the area recognition process is performed once, so that the character recognition process can be speeded up.

次に本発明に係る文字認識処理装置および文字認識処理方法の好適な実施例を図面に基づいて説明する。   Next, preferred embodiments of a character recognition processing apparatus and a character recognition processing method according to the present invention will be described with reference to the drawings.

図1において、文字認識処理装置は、スキャナ、ファイル読み込み装置などの画像入力部11を有し、この画像入力部11から原稿を画像データとして入力する。   In FIG. 1, the character recognition processing apparatus includes an image input unit 11 such as a scanner or a file reading apparatus, and inputs a document as image data from the image input unit 11.

画像入力部11はバス17に接続され、バス17を介して文字認識処理を実行するプロセッサ12に接続されている。   The image input unit 11 is connected to the bus 17, and is connected to the processor 12 that executes character recognition processing via the bus 17.

バス17にはさらにキーボード13、ディスク14、メモリ15、出力部16が接続されている。   A keyboard 13, a disk 14, a memory 15, and an output unit 16 are further connected to the bus 17.

メモリ15は、プロセッサ12において処理制御情報を作成する際の一時データ記憶、あるいは画像入力部11で読み込んだ画像データ15aを蓄積する。また、後述するフローチャートに対応するような処理をコンピュータに実行させるための制御プログラム15cが格納される。   The memory 15 stores temporary data when the processor 12 creates processing control information, or stores image data 15 a read by the image input unit 11. In addition, a control program 15c for causing a computer to execute processing corresponding to a flowchart described later is stored.

プロセッサ12は、メモリ15に格納された制御プログラム15cを実行することにより、領域識別部12a、方向判別部12b、画像回転部12c、領域情報回転部12d、文字認識部12e、文字認識結果出力部12fとして機能する。   The processor 12 executes a control program 15c stored in the memory 15 to thereby execute an area identification unit 12a, a direction determination unit 12b, an image rotation unit 12c, an area information rotation unit 12d, a character recognition unit 12e, and a character recognition result output unit. It functions as 12f.

領域識別部12aは画像データ15aを領域識別して領域情報15bを抽出する。領域情報15bはメモリ15に格納される。
キーボード13は、ユーザからの指示を入力するためのユーザインターフェースであり、キーボード、タッチパネル、マウスなどユーザからの指示操作を入力するための装置であればよい。このキーボード13を用いて、領域識別精度優先とするか処理速度優先とするかユーザにより指示可能とし、領域識別精度優先と指示された場合は従来技術の項で説明したように文書方向を識別した後、再度領域識別処理を行なうようにする。一方、処理速度優先が指示された場合は、下記に説明するように、文書方向を識別する前に行なった領域識別処理結果を回転補正することにより領域識別処理を省略する。なお、入力された文書を自動的に文字コード埋め込み画像に変換する処理がユーザにより指示された場合は、自動的に処理速度優先が選択されるものとする。ディスク14は、補助記憶装置として機能する。
The area identifying unit 12a identifies the area of the image data 15a and extracts area information 15b. The area information 15b is stored in the memory 15.
The keyboard 13 is a user interface for inputting an instruction from the user and may be any device for inputting an instruction operation from the user, such as a keyboard, a touch panel, or a mouse. Using this keyboard 13, the user can instruct whether to give priority to area identification accuracy or processing speed, and when directed to give priority to area identification accuracy, the document orientation is identified as described in the section of the prior art. Thereafter, the area identification process is performed again. On the other hand, when processing speed priority is instructed, the area identification process is omitted by rotationally correcting the area identification process result performed before identifying the document direction, as described below. Note that when the user instructs the process of automatically converting the input document into the character code embedded image, the processing speed priority is automatically selected. The disk 14 functions as an auxiliary storage device.

出力部16は、ディスプレイ、プリンタ、ネットワーク、認識結果等の各種情報等を出力し、あるいは他の記憶装置等に格納する処理を行う。また出力部16において、出力先の形式に対応したデータ変換を可能としてもよい。   The output unit 16 performs processing of outputting various information such as a display, a printer, a network, a recognition result, and the like, or storing it in another storage device or the like. Further, the output unit 16 may enable data conversion corresponding to the format of the output destination.

画像入力部11で読み取った文書は、画像データ15bとしてメモリ15に格納される。画像データ15bはプロセッサ12に設けられた画像処理部(図示せず。)等により2値化処理されて、領域識別部12aに送られ、ヒストグラム法や輪郭線追跡などの手法により、テキスト、図、表などの領域に領域分割されて分類される。   The document read by the image input unit 11 is stored in the memory 15 as image data 15b. The image data 15b is binarized by an image processing unit (not shown) or the like provided in the processor 12 and sent to the region identification unit 12a. The image data 15b is converted to text or graphics by a method such as a histogram method or contour tracking. And is divided into areas such as tables.

領域識別部12aの領域識別結果は方向判別部12bに入力され、方向判別部12bはテキスト領域のいずれかについて、文字を0度、90度、180度、270度の4方向に順次回転する。ここで文字認識部12eは、各方向について、テキスト領域内の所定数の文字パターンについてのみ文字認識処理する。   The area identification result of the area identification unit 12a is input to the direction determination unit 12b, and the direction determination unit 12b sequentially rotates the characters in four directions of 0 degrees, 90 degrees, 180 degrees, and 270 degrees for any of the text areas. Here, the character recognition unit 12e performs character recognition processing only for a predetermined number of character patterns in the text area in each direction.

方向判別部12bは、各方向の認識率から、最も認識率が高い方向を原稿の正方向と判断し、正方向の回転角度を画像回転部12cに出力する。   The direction determination unit 12b determines the direction with the highest recognition rate from the recognition rates in each direction as the positive direction of the document, and outputs the rotation angle in the positive direction to the image rotation unit 12c.

方向判別部12bによる方向判別の結果、画像データが正立していないと判断された場合は、画像回転部12cで画像データを回転するとともに、領域情報回転部12dによって領域情報15bを回転する。   As a result of the direction determination by the direction determination unit 12b, when it is determined that the image data is not upright, the image data is rotated by the image rotation unit 12c, and the region information 15b is rotated by the region information rotation unit 12d.

図3は、領域識別部12aによる図2の画像データを領域識別処理した例を示す。図2の画像データは、上端にタイトルA21、タイトルA21の下にテキスト領域A22、テキスト領域A22の下の左右にテキスト領域A23、図領域A24、これら領域A23、A24の下に表タイトル領域A25、表タイトルA25の下に表領域A26が存在する。   FIG. 3 shows an example in which region identification processing is performed on the image data of FIG. 2 by the region identification unit 12a. 2 includes a title A21 at the top, a text area A22 below the title A21, a text area A23 on the left and right below the text area A22, a figure area A24, a table title area A25 below these areas A23 and A24, A table area A26 exists under the table title A25.

図3においては、領域識別処理により、領域A21〜A26に対応したブロックB31〜B36が抽出され、ブロックB31はテキスト領域であって始点(X31,Y31)、ブロックB32はテキスト領域であって始点(X32,Y32)、ブロックB33はテキスト領域であって始点(X33,Y33)、ブロックB34は図領域であって始点(X34,Y34)、ブロックB35はテキスト領域であって始点(X35,Y35)、ブロックB36は表領域であって始点(X36,Y36)とされている。ブロックB31〜B36は水平辺、垂直辺よりなる長方形であり、始点はその左上角の座標である。   In FIG. 3, the blocks B31 to B36 corresponding to the areas A21 to A26 are extracted by the area identification process, the block B31 is a text area with a start point (X31, Y31), and the block B32 is a text area with a start point ( X32, Y32), block B33 is a text area, starting point (X33, Y33), block B34 is a drawing area, starting point (X34, Y34), block B35 is a text area, starting point (X35, Y35), The block B36 is a table area and has a start point (X36, Y36). The blocks B31 to B36 are rectangles composed of a horizontal side and a vertical side, and the start point is the coordinates of the upper left corner.

図3の領域識別結果は方向判別部12bに入力され、方向判別部12bはテキスト領域B31、B32、B33、B35いずれかについて、文字を0度、90度、180度、270度の4方向に順次回転し、各方向において、文字認識部12eによる文字認識処理を実行して、認識率を判定する。文字認識処理はテキスト領域内の所定数の文字パターンについてのみ実行され、処理の迅速化が図られている。   The region identification result of FIG. 3 is input to the direction discriminating unit 12b, and the direction discriminating unit 12b sets the characters in four directions of 0 degrees, 90 degrees, 180 degrees, and 270 degrees for any of the text areas B31, B32, B33, and B35. The character recognition unit 12e performs character recognition processing in each direction to determine the recognition rate. The character recognition process is executed only for a predetermined number of character patterns in the text area, thereby speeding up the process.

方向判別部12bは、各方向の認識率から、最も認識率が高い方向を原稿の正方向と判断し、正方向の回転角度を画像回転部12cに出力する。   The direction determination unit 12b determines the direction with the highest recognition rate from the recognition rates in each direction as the positive direction of the document, and outputs the rotation angle in the positive direction to the image rotation unit 12c.

方向判別部12bによる方向判別の結果、画像データが正立していないと判断された場合は、画像回転部12cで画像データを回転するとともに、領域情報回転部12dによって領域情報15bを回転する。   As a result of the direction determination by the direction determination unit 12b, when it is determined that the image data is not upright, the image data is rotated by the image rotation unit 12c, and the region information 15b is rotated by the region information rotation unit 12d.

以上の処理で得られた正方向の画像データ15aおよび領域情報15bについて、文字認識部12eによって文字認識処理を実行し、文字認識結果出力部12fから、文字認識した結果の文字データを出力する。   Character recognition processing is executed by the character recognition unit 12e on the forward image data 15a and area information 15b obtained by the above processing, and character data resulting from character recognition is output from the character recognition result output unit 12f.

図4は図2の画像データが正方向から180度回転して入力された画像データを示す図であり、図5は、図4の画像データを正しく領域識別した結果を示す。図5において、ブロックB51、B52、B53、B54、B55、B56は図3のB36、B35、B34、B33、B32、B31にそれぞれ対応する。ブロックB51、B52、B53、B54、B55、B56の始点は、それぞれ(X51,Y51)、(X52,Y52)、(X53,Y53)、(X54,Y54)、(X55,Y55)、(X56,Y56)であり、図3の対応ブロックB36〜B31における右下角の座標を180度回転した座標である。   FIG. 4 is a diagram showing image data inputted by rotating the image data of FIG. 2 by 180 degrees from the normal direction, and FIG. 5 shows a result of correctly identifying the region of the image data of FIG. In FIG. 5, blocks B51, B52, B53, B54, B55, and B56 correspond to B36, B35, B34, B33, B32, and B31 of FIG. The starting points of the blocks B51, B52, B53, B54, B55, B56 are (X51, Y51), (X52, Y52), (X53, Y53), (X54, Y54), (X55, Y55), (X56, Y56), and is the coordinates obtained by rotating the coordinates of the lower right corner in the corresponding blocks B36 to B31 in FIG. 3 by 180 degrees.

図5の領域情報を領域情報回転部12dによって正方向に回転すると、図6の領域情報が得られる。図6では、領域情報の位置情報のみを回転補正し、図5のブロック番号、始点座標がそのまま適用されている。   When the area information in FIG. 5 is rotated in the forward direction by the area information rotating unit 12d, the area information in FIG. 6 is obtained. In FIG. 6, only the position information of the area information is rotationally corrected, and the block number and start point coordinates of FIG. 5 are applied as they are.

このように位置情報のみを回転補正した状態においても、充分高精度の文字認識が可能である。   Thus, even in a state in which only position information is rotationally corrected, sufficiently high-precision character recognition is possible.

さらに領域情報回転部12dは、図6の領域情報におけるブロック番号を修正するとともに、始点座標を正方向の状態に合致させ、図7の領域情報を生成する。   Further, the area information rotating unit 12d corrects the block number in the area information of FIG. 6 and matches the start point coordinates with the state in the positive direction to generate the area information of FIG.

このように、位置情報に加え、ブロック番号、始点座標を修正すれば、文字認識処理を効率化し得る。   Thus, if the block number and the starting point coordinates are corrected in addition to the position information, the character recognition process can be made more efficient.

図7では、ブロックB51、B52、B53、B54、B55、B56をブロックB56、B55、B54、B53、B52、B51に修正し、始点座標を正方向の左上角の座標(X71,Y71)、(X72,Y72)、(X73,Y73)、(X74,Y74)、(X75,Y75)、(X76,Y76)に修正する。   In FIG. 7, the blocks B51, B52, B53, B54, B55, and B56 are corrected to blocks B56, B55, B54, B53, B52, and B51, and the start point coordinates are the coordinates (X71, Y71) of the upper left corner in the positive direction ( X72, Y72), (X73, Y73), (X74, Y74), (X75, Y75), (X76, Y76).

図4の180度回転画像が、画像方向の不正により、正しく領域識別されなかったときの領域情報を図8に示す。   FIG. 8 shows the area information when the 180-degree rotated image in FIG. 4 is not correctly identified due to the image orientation being incorrect.

図8の領域情報では、図3のブロックB33、B35が分離されずブロックB83とされ、ブロックB31、B32、B34、B36に対応するブロックB85、B84、B82、B81がそれぞれ抽出されている。   In the area information shown in FIG. 8, the blocks B33 and B35 shown in FIG.

しかし、ブロック83に含まれる2つの領域(ブロックB33、B35)はいずれもテキスト領域であるので、文字データに影響はない。すなわち方向判別においては、同一属性の領域を厳密に分離する必要はなく、比較的簡略な処理で足りる。この点においても処理の迅速化が図られている。   However, since the two areas (blocks B33 and B35) included in the block 83 are both text areas, the character data is not affected. That is, in the direction determination, it is not necessary to strictly separate regions having the same attribute, and a relatively simple process is sufficient. In this respect as well, the processing is speeded up.

図8の領域情報を方向判別した結果に基き、位置情報のみを回転補正した結果を図9に示す。図9におけるテキスト領域B83〜B85および表領域B81を文字認識し、文字データを生成すれば、全ての文字データを正しく取得し得る。   FIG. 9 shows the result of rotational correction of only the position information based on the result of the direction determination of the region information in FIG. If character regions are recognized in the text regions B83 to B85 and the table region B81 in FIG. 9 and character data is generated, all character data can be acquired correctly.

図10は文字認識処理装置の以上の処理を示すフローチャートであり、ユーザにより文字コード埋め込み画像データの作成が指示された場合など、処理速度優先が指示された場合に実行される処理を示す。文字認識処理装置によって実施される文字認識処理方法の実施例はこのフローチャートによる。   FIG. 10 is a flowchart showing the above processing of the character recognition processing apparatus, and shows processing executed when processing speed priority is instructed, such as when the user instructs creation of character code embedded image data. An example of the character recognition processing method implemented by the character recognition processing apparatus is based on this flowchart.

文字認識処理装置の処理および文字認識処理方法は以下の各ステップによって実行される。   The processing of the character recognition processing device and the character recognition processing method are executed by the following steps.

ステップS101:まず、画像入力部11から原稿を読み込み、画像データ15aとしてメモリ15に転送する。   Step S101: First, a document is read from the image input unit 11 and transferred to the memory 15 as image data 15a.

ステップS102:ステップS101に続いて、画像データ15aの方向を判別するために、領域識別部12aによって領域識別処理を行い、画像データの領域をテキスト領域、図領域、表領域等の、性質(属性)の異なる小領域に分割する。なお、領域識別処理に際しては、二値化や傾斜補正等の前処理も実行される。   Step S102: Subsequent to step S101, in order to determine the direction of the image data 15a, an area identification process is performed by the area identification unit 12a, and the areas (image attributes) of the image data are defined as text areas, figure areas, table areas, and the like. ) Is divided into different small areas. In the area identification process, preprocessing such as binarization and inclination correction is also performed.

領域識別部12aは、領域識別処理により得られた各領域に関する領域情報15b(ブロック番号、属性、始点位置、大きさ等の情報)をメモリ15に保存する。   The area identification unit 12 a stores area information 15 b (information such as a block number, an attribute, a starting point position, and a size) regarding each area obtained by the area identification processing in the memory 15.

ステップS103:ステップS102に続いて、方向判別部12bによって、領域識別結果のテキスト領域に含まれる文字パターンを0度、90度、180度、270度の4方向に回転させ、それぞれの回転方向について所定数の文字パターンのみについて文字認識する。これによって処理が迅速化される。   Step S103: Subsequent to step S102, the direction determination unit 12b rotates the character pattern included in the text region of the region identification result in four directions of 0 degrees, 90 degrees, 180 degrees, and 270 degrees, and for each rotation direction. Character recognition is performed only for a predetermined number of character patterns. This speeds up the process.

文字認識の結果から得た平均類似度(認識率)の最も高い方向を正方向と判断し、その正方向の回転角度を画像回転部12cに出力する。   The direction with the highest average similarity (recognition rate) obtained from the result of character recognition is determined as the positive direction, and the rotation angle in the positive direction is output to the image rotation unit 12c.

ステップS104:ステップS103の方向判別の結果、画像データが正方向であったかどうかを判断する。正方向であったときはステップS107にジャンプし、正方向でないときはステップS105に進む。   Step S104: It is determined whether or not the image data is in the positive direction as a result of the direction determination in step S103. If it is the positive direction, the process jumps to step S107, and if it is not the positive direction, the process proceeds to step S105.

ステップS105:方向判別の判別結果より得た正方向の回転角度に基づいて、画像回転部12cによって、画像データ15aが正方向になるように、画像データ15aを回転補正処理する。回転補正された画像データ15aはメモリ15に保存する。   Step S105: Based on the rotation angle in the positive direction obtained from the determination result of the direction determination, the image rotation unit 12c performs rotation correction processing on the image data 15a so that the image data 15a is in the positive direction. The rotation-corrected image data 15 a is stored in the memory 15.

ステップS106:方向判別の判別結果より得た正方向の回転角度に基づいて、領域情報15bが正方向になるように、領域情報15bを回転補正処理する。回転補正された領域情報15bはメモリ15に保存する。このとき、回転補正した各ブロックの位置情報のみを回転補正し、あるいは、ブロック番号や始点座標も併せて補正する。   Step S106: Based on the rotation angle in the positive direction obtained from the determination result of the direction determination, the region information 15b is rotationally corrected so that the region information 15b is in the positive direction. The rotation-corrected area information 15 b is stored in the memory 15. At this time, only the position information of each block whose rotation has been corrected is corrected for rotation, or the block number and start point coordinates are also corrected.

ステップS107:正方向、あるいいは正方向に回転補正されたの画像データ15aにおいて、正方向、あるいいは正方向に回転補正された領域情報15bに基いてテキスト領域を抽出し、各テキスト領域を文字認識処理する。   Step S107: In the image data 15a that has been rotationally corrected in the forward direction or in the forward direction, a text region is extracted based on the area information 15b that has been rotationally corrected in the forward direction or in the forward direction, and each text region is extracted. Character recognition processing.

これによって、文字認識結果としての文字データが得られる。   Thereby, character data as a character recognition result is obtained.

ステップS108:ステップS107の文字認識結果の文字データを所定の形式に変換して出力する。   Step S108: Character data obtained as a result of character recognition in step S107 is converted into a predetermined format and output.

以上の実施例に示したように、画像データが正方向でない場合も、領域識別処理を1度だけ行うので、処理時間を短縮することができる。   As shown in the above embodiments, even when the image data is not in the forward direction, the processing time can be shortened because the area identification process is performed only once.

なお、文書認識処理装置は図1の構成に限定されるものではなく、汎用コンピュータを文書認識処理装置として適用することも可能である。   The document recognition processing apparatus is not limited to the configuration shown in FIG. 1, and a general-purpose computer can be applied as the document recognition processing apparatus.

汎用コンピュータによって本発明の文書認識処理装置を構成する際には、ユーザが文字認識処理を実行するためのプログラムの各ステップを汎用コンピュータに実行させるためプログラムコードを含むコンピュータ実行可能なプログラムを、汎用コンピュータに読み込ませる。   When the document recognition processing device of the present invention is configured by a general-purpose computer, a computer-executable program including a program code for causing the general-purpose computer to execute each step of the program for the user to execute the character recognition processing is Load it into the computer.

汎用コンピュータが文書認識処理を実行するためのプログラムは、汎用コンピュータに内蔵されたROMや、汎用コンピュータが読み取り得る記憶媒体から読み込まれ、あるいはネットワークを通じてサーバ等から読み込まれる。
A program for the general-purpose computer to execute document recognition processing is read from a ROM built in the general-purpose computer, a storage medium readable by the general-purpose computer, or read from a server or the like through a network.

本発明に係る文字認識処理装置の実施例を示すブロック図である。(実施例)It is a block diagram which shows the Example of the character recognition processing apparatus which concerns on this invention. (Example) 図1の文字認識処理装置の処理対象である画像データの例を示す図である。(実施例)It is a figure which shows the example of the image data which is a process target of the character recognition processing apparatus of FIG. (Example) 図2の画像データを領域識別した結果を示す図である。(実施例)It is a figure which shows the result of area | region identification of the image data of FIG. (Example) 図2の画像データが180度回転して入力された画像データを示す図である。(実施例)It is a figure which shows the image data input by rotating the image data of FIG. 2 180 degree | times. (Example) 図4の画像データを領域識別した結果を示す図である。(実施例)It is a figure which shows the result of area | region identification of the image data of FIG. (Example) 図5の領域情報を正方向に回転補正した図である。(実施例)It is the figure which carried out the rotation correction | amendment of the area | region information of FIG. 5 to the positive direction. (Example) 図6の領域情報におけるブロック番号を正方向に回転補正した図である。(実施例)It is the figure which carried out the rotation correction | amendment of the block number in the area | region information of FIG. (Example) 図4の画像データが正しく領域識別されなかった例を示す図である。(実施例)FIG. 5 is a diagram illustrating an example in which the image data in FIG. 4 is not correctly identified in a region. (Example) 図8の領域情報を正方向に回転補正した図である。(実施例)It is the figure which carried out the rotation correction | amendment of the area | region information of FIG. 8 to the positive direction. (Example) 図1の文字認識処理装置の処理および本発明に係る文字認識処理方法の実施例を示すフローチャートである。(実施例)It is a flowchart which shows the Example of the process of the character recognition processing apparatus of FIG. 1, and the character recognition processing method concerning this invention. (Example)

符号の説明Explanation of symbols

11 スキャナ、カメラ等の画像入力部
12 プロセッサ
12a 領域識別部
12b 方向判別部
12c 画像回転部
12d 領域情報回転部
12e 文字認識部
12f 文字認識結果出力部
13 キーボード
14 ディスク
15 メモリ
15a 画像データ
15b 領域情報
15c 制御プログラム
16 ディスプレイ、プリンタ、ネットワーク等の出力部
DESCRIPTION OF SYMBOLS 11 Image input part, such as a scanner and a camera 12 Processor 12a Area identification part 12b Direction determination part 12c Image rotation part 12d Area information rotation part 12e Character recognition part 12f Character recognition result output part 13 Keyboard 14 Disk 15 Memory 15a Image data 15b Area information 15c Control program 16 Output unit for display, printer, network, etc.

Claims (8)

画像データに対して文字認識処理を実行する文字処理装置であって、
画像データを入力する画像入力手段と、
前記画像データを属性に基づいて領域分割するとともに、各領域の領域情報を生成する領域識別手段と、
前記領域分割された領域のうち、文字を含む一部の領域を、所定の複数の回転角度で回転して、文字認識処理し、該文字認識処理の結果に基いて、前記画像データの方向を判断する方向判別手段と、
前記方向判別手段の判断結果に基いて、必要に応じて、前記画像データを、前記回転角度のうちのいずれかの回転角度に回転補正する画像補正手段と、
前記方向判別手段の判断結果に基いて、必要に応じて、前記領域情報を、前記回転角度のうちのいずれかの回転角度に回転補正する領域情報補正手段と、
前記領域情報に基いて、文字を含む領域を文字認識処理する文字認識手段と、
を有することを特徴とする文字認識処理装置。
A character processing device that executes character recognition processing on image data,
Image input means for inputting image data;
A region identification unit that divides the image data based on attributes and generates region information of each region;
Among the divided areas, a part of the area including the character is rotated at a predetermined plurality of rotation angles, character recognition processing is performed, and the direction of the image data is determined based on the result of the character recognition processing. Direction discriminating means for judging;
Based on the determination result of the direction determination means, the image correction means for rotationally correcting the image data to any one of the rotation angles, if necessary,
Based on the determination result of the direction determination means, area information correction means for correcting the rotation of the area information to any one of the rotation angles, if necessary,
Character recognition means for performing character recognition processing on an area including characters based on the area information;
A character recognition processing device characterized by comprising:
前記回転角度は0度、90度、180度および270度であることを特徴とする請求項1に記載の文字認識処理装置。 The character recognition processing apparatus according to claim 1, wherein the rotation angles are 0 degree, 90 degrees, 180 degrees, and 270 degrees. 前記領域情報補正手段によって回転補正する領域情報は位置情報であることを特徴とする請求項1または2に記載の文字処理装置。 The character processing apparatus according to claim 1, wherein the area information whose rotation is corrected by the area information correcting unit is position information. 前記領域識別手段は各領域に番号を付し、前記領域情報補正手段は、領域情報を回転補正したときは、前記番号を修正することを特徴とする請求項3に記載の文字処理装置。 4. The character processing apparatus according to claim 3, wherein the area identification means assigns a number to each area, and the area information correction means corrects the number when the area information is rotationally corrected. 更に、ユーザの指示に基づいて、領域識別精度を優先するか、処理速度を優先するか選択する選択手段と、
前記選択手段により前記領域識別精度の優先が選択された場合は、前記画像補正手段により回転補正された画像データに対して、属性に基づいて領域分割するとともに、各領域の領域情報を生成する第2領域識別手段と、を有し、
前記文字認識手段は、前記第2領域識別手段で生成された領域情報に基づいて、文字を含む領域を文字認識処理することを特徴とする請求項1に記載の文字処理装置。
Furthermore, a selection means for selecting whether to prioritize area identification accuracy or processing speed based on a user instruction;
When the priority of the region identification accuracy is selected by the selection unit, the image data that has been rotationally corrected by the image correction unit is divided into regions based on attributes, and region information for each region is generated. Two-region identification means,
The character processing device according to claim 1, wherein the character recognition unit performs character recognition processing on a region including a character based on the region information generated by the second region identification unit.
画像データに対して文字認識処理を実行する文字処理方法であって、
画像データを入力する画像入力ステップと、
前記画像データを属性に基づいて領域分割するとともに、各領域の領域情報を生成する領域識別ステップと、
前記領域分割された領域のうち、文字を含む一部の領域を、所定の複数の回転角度で回転して、文字認識処理し、該文字認識処理の結果に基いて、前記画像データの方向を判断する方向判別ステップと、
前記方向判別ステップの判断結果に基いて、必要に応じて、前記画像データを、前記回転角度のうちのいずれかの回転角度に回転補正する画像補正ステップと、
前記方向判別手段の判断結果に基いて、必要に応じて、前記領域情報を、前記回転角度のうちのいずれかの回転角度に回転補正する領域情報補正ステップと、
前記領域情報に基いて、文字を含む領域を文字認識処理する文字認識ステップと、
を有することを特徴とする文字認識処理方法。
A character processing method for executing character recognition processing on image data,
An image input step for inputting image data;
A region identifying step for dividing the image data based on attributes and generating region information for each region;
Among the divided areas, a part of the area including the character is rotated at a predetermined plurality of rotation angles, character recognition processing is performed, and the direction of the image data is determined based on the result of the character recognition processing. A direction determining step for determining;
Based on the determination result of the direction determination step, if necessary, the image correction step for rotationally correcting the image data to any one of the rotation angles;
An area information correction step for correcting the rotation of the area information to any one of the rotation angles, if necessary, based on the determination result of the direction determination means;
A character recognition step of performing character recognition processing on a region including characters based on the region information;
A character recognition processing method characterized by comprising:
請求項6記載の文字認識処理方法をコンピュータによって実現させるためのコンピュータ実行可能プログラム。 A computer-executable program for realizing the character recognition processing method according to claim 6 by a computer. 請求項6記載の文字認識処理方法をコンピュータによって実現させるためのコンピュータ読取可能なプログラムを格納する記憶媒体。 A storage medium for storing a computer-readable program for realizing the character recognition processing method according to claim 6 by a computer.
JP2004165381A 2004-06-03 2004-06-03 Method for processing character and character recognition processor Withdrawn JP2005346419A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004165381A JP2005346419A (en) 2004-06-03 2004-06-03 Method for processing character and character recognition processor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004165381A JP2005346419A (en) 2004-06-03 2004-06-03 Method for processing character and character recognition processor

Publications (1)

Publication Number Publication Date
JP2005346419A true JP2005346419A (en) 2005-12-15

Family

ID=35498733

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004165381A Withdrawn JP2005346419A (en) 2004-06-03 2004-06-03 Method for processing character and character recognition processor

Country Status (1)

Country Link
JP (1) JP2005346419A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110443239A (en) * 2019-06-28 2019-11-12 平安科技(深圳)有限公司 The recognition methods of character image and its device
CN111985469A (en) * 2019-05-22 2020-11-24 珠海金山办公软件有限公司 Method and device for recognizing characters in image and electronic equipment

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985469A (en) * 2019-05-22 2020-11-24 珠海金山办公软件有限公司 Method and device for recognizing characters in image and electronic equipment
CN111985469B (en) * 2019-05-22 2024-03-19 珠海金山办公软件有限公司 Method and device for recognizing characters in image and electronic equipment
CN110443239A (en) * 2019-06-28 2019-11-12 平安科技(深圳)有限公司 The recognition methods of character image and its device

Similar Documents

Publication Publication Date Title
JP4607633B2 (en) Character direction identification device, image forming apparatus, program, storage medium, and character direction identification method
US8041113B2 (en) Image processing device, image processing method, and computer program product
JP2003308480A (en) On-line handwritten character pattern recognizing editing device and method, and computer-aided program to realize method
JPH0196771A (en) Recognizing system for circular arc part
US7796817B2 (en) Character recognition method, character recognition device, and computer product
JP6000992B2 (en) Document file generation apparatus and document file generation method
JP5906788B2 (en) Character cutout method, and character recognition apparatus and program using this method
JP4565396B2 (en) Image processing apparatus and image processing program
JPH07220026A (en) Method and device for picture processing
JP2005346419A (en) Method for processing character and character recognition processor
JP5964078B2 (en) Character recognition device, character recognition method and program
JP2000187705A (en) Document reader, document reading method and storage medium
JP4221960B2 (en) Form identification device and identification method thereof
JP2007295210A (en) Image processing apparatus, image processing method, image processing program, and recording medium recording the program
JP2004241827A (en) Image processing apparatus, image processing method, image processing program, and storage medium
JPH0746363B2 (en) Drawing reader
JP2007328652A (en) Image processing device and image processing program
JP2755299B2 (en) Image processing method
JP2840355B2 (en) Document processing device
JP2003263642A (en) Image processor and image processing method
JPH06131466A (en) Method and device for recognizing pattern
JP6127685B2 (en) Information processing apparatus, program, and shape recognition method
JPH11250179A (en) Character reocognition device and its method
JP2001266070A (en) Device and method for recognizing character and storage medium
JP2005275820A (en) Device, method and program for recognizing business form, and recoding medium

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060606

A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20070807