JPH07262322A - Method and device for recognizing character - Google Patents
Method and device for recognizing characterInfo
- Publication number
- JPH07262322A JPH07262322A JP6050865A JP5086594A JPH07262322A JP H07262322 A JPH07262322 A JP H07262322A JP 6050865 A JP6050865 A JP 6050865A JP 5086594 A JP5086594 A JP 5086594A JP H07262322 A JPH07262322 A JP H07262322A
- Authority
- JP
- Japan
- Prior art keywords
- character
- candidate
- word
- area
- string image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000011156 evaluation Methods 0.000 claims description 78
- 150000001875 compounds Chemical class 0.000 claims description 25
- 238000001514 detection method Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 238000004364 calculation method Methods 0.000 description 7
- 230000001186 cumulative effect Effects 0.000 description 4
- 241000981595 Zoysia japonica Species 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
Landscapes
- Character Discrimination (AREA)
- Character Input (AREA)
Abstract
Description
【0001】[0001]
【産業上の利用分野】本発明は文字認識技術に関し、特
に認識結果を修正する技術に関する。より詳細には、光
学式文字読み取り装置(OCR)等によって文字認識を
行う際に、各種申請書類、売上伝票、配送伝票等の帳票
に記入される文字列の文字認識結果について、認識誤り
を修正する技術に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character recognition technique, and more particularly to a technique for correcting a recognition result. More specifically, when character recognition is performed by an optical character reader (OCR), etc., the recognition error of the character recognition result of the character string entered in various application documents, sales slips, delivery slips, and other forms is corrected. Technology.
【0002】[0002]
【従来の技術】文字認識技術は多くの分野で必要とされ
ており、特に認識精度を向上するために文字の認識結果
を修正する技術等が研究されている。例えば、特開昭6
3−103393号公報(単語認識装置)、特開昭63
−121989号公報(単語読み取り方式)等には、文
字ピッチが一定でない文書画像を対象として文字認識結
果を修正する方式が開示されている。2. Description of the Related Art Character recognition techniques are required in many fields, and in particular, techniques for correcting character recognition results in order to improve recognition accuracy are being studied. For example, JP-A-6
3-103393 (word recognition device), JP-A-63-63
Japanese Patent Laid-Open No. 121989 (word reading method) and the like disclose a method of correcting a character recognition result for a document image whose character pitch is not constant.
【0003】これらの方式では、まず文字の外接矩形の
形状的特徴等から1文字単位への切り出しを行い、もっ
とも確からしい文字パタンを選択して文字を認識する。
次に、文字認識の結果得られた候補文字列における文字
位置のずれ及び文字の誤りを許容して単語辞書から該当
する単語を検索し、検索された単語毎に文字認識結果候
補文字との比較を行う。更に、誤って文字切り出しが行
われた部分を検出し、再度、文字切り出し・文字認識を
行って、候補文字が一致する単語を抽出し、最後に文字
認識の評価値を累積した値の大きさに従って候補単語を
決定している。In these methods, first, a character is cut out in units of one character based on a shape feature of a circumscribing rectangle of the character, and the most probable character pattern is selected to recognize the character.
Next, search for the corresponding word from the word dictionary by allowing the character position deviation and the character error in the candidate character string obtained as a result of the character recognition, and compare each searched word with the character recognition result candidate character. I do. In addition, the part where the character is cut out by mistake is detected, the character is cut out and the character is recognized again, the words that match the candidate characters are extracted, and the size of the value obtained by finally accumulating the evaluation value of the character recognition is calculated. The candidate word is decided according to.
【0004】[0004]
【発明が解決しようとする課題】上記従来技術によれば
一応の認識精度を得ることができる。しかし、このよう
な方式では、最初の文字切り出しにおいて、一通りの文
字パタンだけを作成して文字認識・単語検索を行い、単
語検索で得られた結果の中から最適の単語を選択してい
るので、最初の文字切り出しが誤っていて、単語検索の
結果得られた単語の中に正解単語が含まれていない場合
は、修正誤りとなっていた。According to the above prior art, it is possible to obtain a certain degree of recognition accuracy. However, in such a method, in the first character segmentation, only one character pattern is created, character recognition and word search are performed, and the optimum word is selected from the results obtained by the word search. Therefore, if the first character segmentation is incorrect and the correct word is not included in the words obtained as a result of the word search, there was a correction error.
【0005】また、読み取り対象の文字列については、
文字列が住所地名のように単語辞書に全て網羅できる場
合は、それらを単語辞書に登録しておくことで、単語照
合を行うことができた。これに対して、不特定多数の企
業名・建物名などを読み取る場合には、出現する全ての
文字列を登録することはできないので、辞書未登録語を
認識する場合には、従来手法ではその文字列全体が照合
不能または修正誤りとなってしまうという課題が残され
ていた。Regarding the character string to be read,
When the character strings can be covered in the word dictionary like address place names, it was possible to perform word matching by registering them in the word dictionary. On the other hand, when reading an unspecified number of company names, building names, etc., it is not possible to register all the character strings that appear, so when recognizing unregistered words in the dictionary, the conventional method There was a problem that the entire character string could not be collated or could be erroneously corrected.
【0006】本発明は上記背景の下になされたものであ
り、認識率が高く、また辞書登録されていない単語に対
しても正しい文字認識が可能な文字認識方法及びこの方
法を実現する文字認識装置を提供することを目的とす
る。The present invention has been made in view of the above background, and has a high recognition rate and is capable of performing correct character recognition even for a word that is not registered in a dictionary, and a character recognition that realizes this method. The purpose is to provide a device.
【0007】[0007]
【課題を解決するための手段】本発明が提供する第1発
明の文字認識方法は、文字列画像を単位領域毎に分割す
る段階と、分割された単位領域又は隣接領域の組み合わ
せから少なくとも1文字として認識し得る1以上の領域
組み合わせを検出し、更に、検出された領域組み合わせ
に対応する文字パタン及び該領域組み合わせに含まれる
単位領域にそれぞれ対応する文字パタンを検出する段階
と、検出された各文字パタン毎に、認識対象単語内で各
文字パタンがそれぞれ何文字目の位置にとり得るかを検
出する段階と、各文字パタン毎に認識し得る候補文字を
特定する段階と、各候補文字毎に、もとの文字パタンが
とり得る位置に該候補文字と一致する文字が存在する単
語を候補単語として特定する段階と、所定の評価基準に
従って各候補単語から前記文字列画像が表す単語を決定
する段階と、を有する。The character recognition method of the first invention provided by the present invention is a method of dividing a character string image into unit areas and at least one character from a combination of the divided unit areas or adjacent areas. Detecting one or more area combinations that can be recognized as, and detecting character patterns corresponding to the detected area combinations and character patterns respectively corresponding to the unit areas included in the area combination; For each character pattern, a step of detecting at which character position each character pattern can be placed in the recognition target word, a step of identifying candidate characters that can be recognized for each character pattern, and a step of specifying each candidate character , A step of identifying a word having a character that matches the candidate character at a position that the original character pattern can take as a candidate word, and each candidate word according to a predetermined evaluation criterion A determining a word represented by al the character string image.
【0008】本発明が提供する第2発明の文字認識方法
は、上記第1発明の文字認識方法において、各文字パタ
ンと、それぞれに対応する前記候補文字との近似度を表
す文字評価値を生成する段階と、前記候補単語を構成す
る文字と前記候補文字とを比較して該候補単語内の文字
の位置に適合する候補文字を検出するとともに、検出さ
れた候補文字に対応する文字評価値からそれぞれの単語
評価値を生成する段階と、生成された単語評価値に基づ
き各候補単語を評価して前記文字列画像が表す単語を決
定する段階と、を有する。なお、候補単語の評価を行う
際に、好ましくは、文字列長に対する一致文字数及び一
致文字の評価値の累積値によって最適の単語を決定す
る。A character recognition method of a second invention provided by the present invention is the character recognition method of the first invention, wherein a character evaluation value representing a degree of approximation between each character pattern and the corresponding candidate character is generated. And a candidate character that matches the position of the character in the candidate word is detected by comparing the character forming the candidate word with the candidate character, and from the character evaluation value corresponding to the detected candidate character. The method includes the steps of generating respective word evaluation values, and evaluating each candidate word based on the generated word evaluation value to determine the word represented by the character string image. When the candidate word is evaluated, the optimum word is preferably determined by the number of matching characters with respect to the character string length and the cumulative value of the matching character evaluation values.
【0009】また、第3発明の文字認識方法は、文字列
画像を単位領域毎に分割する段階と、前記単位領域を最
小単位として前記文字列画像から所定位置の認識対象領
域を切り出す段階と、前記切り出された認識対象領域毎
に文字認識処理を行ってそれぞれ候補単語を決定する段
階と、決定された候補単語それぞれについて、元の文字
列画像における対応領域を検出する段階と、前記決定さ
れた候補単語を組み合わせ、各組み合わせのうち、前記
文字列画像において前記決定された対応領域同士の重な
り部及び対応領域間の間隙部が最小となる組み合わせを
選択する段階と、選択された組み合わせに対応する候補
単語の組み合わせを前記文字列画像が表す文字として決
定する段階と、を有する。In the character recognition method of the third invention, a step of dividing the character string image into unit areas, and a step of cutting out a recognition target area at a predetermined position from the character string image using the unit area as a minimum unit, The step of performing character recognition processing for each of the cut-out recognition target areas to determine a candidate word, the step of detecting a corresponding area in the original character string image for each of the determined candidate words, Corresponding to the combination of candidate words, selecting a combination that minimizes the overlapping portion between the determined corresponding areas and the gap portion between the corresponding areas in the character string image among the combinations, and the selected combination Determining a combination of candidate words as a character represented by the character string image.
【0010】第4発明の文字認識方法は、上記第3発明
の文字認識方法の好適な例として、所定位置の認識対象
領域を切り出す段階が、前記分割された複数の単位領域
の各々を先頭とする複数の隣接単位領域の結合領域をそ
れぞれ認識対象領域として切り出すことを特徴とする。In the character recognition method of the fourth aspect of the invention, as a preferred example of the character recognition method of the third aspect of the invention, the step of cutting out the recognition target area at a predetermined position is such that each of the plurality of divided unit areas is set as the head. It is characterized in that a combined area of a plurality of adjacent unit areas is cut out as a recognition target area.
【0011】更に、本発明が提供する第5発明の文字認
識装置は、認識対象となる文字列画像を格納した第1の
メモリと、認識候補文字群を格納した第2のメモリと、
認識候補単語群を格納した第3のメモリとを備え、更
に、前記第1のメモリに格納された文字列画像を単位領
域毎に分割する画像領域分割手段と、分割された単位領
域又は隣接領域の組み合わせから少なくとも1文字とし
て認識し得る領域組み合わせを検出する領域特徴検出手
段と、検出された領域組み合わせに対応する文字パタン
及び該領域組み合わせに含まれる単位領域に対応する文
字パタンをそれぞれの領域特徴に基づいて生成する文字
パタン生成手段と、生成された各文字パタンが、認識対
象単語の何文字目の位置をとり得るかを検出する文字位
置範囲検出手段と、前記各文字パタンに対応する候補文
字を前記第2のメモリから選択する候補文字選択手段
と、選択された候補文字のとり得る位置範囲内に一致す
る文字がある全ての候補単語を前記第3のメモリから選
択する第1の候補単語選択手段と、所定の評価基準に従
って前記選択された候補単語から前記文字列画像が表す
単語を決定する単語決定手段と、を有することを特徴と
する。Further, the character recognition device of the fifth invention provided by the present invention comprises: a first memory storing a character string image to be recognized; a second memory storing a recognition candidate character group;
An image area dividing means for dividing the character string image stored in the first memory into unit areas, and a divided unit area or an adjacent area. Area feature detection means for detecting an area combination that can be recognized as at least one character from the combination of the character combinations, and a character pattern corresponding to the detected area combination and a character pattern corresponding to a unit area included in the area combination. A character pattern generation means for generating the character pattern, a character position range detection means for detecting which character position of the recognition target word the generated character pattern can take, and a candidate corresponding to each of the character patterns. Candidate character selecting means for selecting a character from the second memory, and all characters having matching characters within the possible position range of the selected candidate character A first candidate word selecting means for selecting a word from the third memory; and a word determining means for determining a word represented by the character string image from the selected candidate word according to a predetermined evaluation criterion. Characterize.
【0012】更に第6発明に係る文字認識装置は、認識
対象となる文字列画像を格納した第1のメモリと、認識
候補単語群を格納した第3のメモリとを少なくとも備
え、更に、前記第1のメモリ内の文字列画像を単位領域
毎に分割する画像領域分割手段と、前記単位領域を最小
単位として前記文字列画像から所定の認識対象領域を切
り出す画像領域切出し手段と、前記切り出された認識対
象領域毎に文字認識処理を行って前記第2のメモリから
全ての候補単語を選択する第2の候補単語選択手段と、
選択された各候補単語それぞれについて元の文字列画像
における対応領域を検出して複数の領域組み合わせを生
成するとともに、検出された対応領域同士の重なり部及
び対応領域間の間隙部が最小となる領域組み合わせを特
定する領域組み合わせ特定手段と、この特定された組み
合わせに対応する候補単語の組み合わせを前記文字列画
像が表す単語の組み合わせとして決定する複合単語決定
手段と、を有することを特徴とする。Further, the character recognition device according to the sixth aspect of the present invention includes at least a first memory storing a character string image to be recognized and a third memory storing a recognition candidate word group, and further, the third memory. An image area dividing unit that divides a character string image in one memory into unit areas, an image area cutting unit that cuts out a predetermined recognition target area from the character string image with the unit area as a minimum unit, and the cut-out unit. Second candidate word selecting means for performing character recognition processing for each recognition target area and selecting all candidate words from the second memory;
A region in which the corresponding region in the original character string image is detected for each of the selected candidate words to generate a plurality of region combinations, and the overlap between detected corresponding regions and the gap between the corresponding regions are minimized. It is characterized by comprising area combination specifying means for specifying a combination, and compound word determining means for determining a combination of candidate words corresponding to the specified combination as a combination of words represented by the character string image.
【0013】なお、対応領域同士の重なり部及び対応領
域間の間隙部が最小となる領域組み合わせは、例えば以
下のようにして特定する。まず、もとの文字列画像に対
して座標を設定するとともに、各候補単語の先頭文字及
び終端文字に対応する文字パタンの座標位置を参照する
ことによって各単語同士の距離を導出する。次に、各単
語に対応する文字パタンの重複部の距離及び間隙部の距
離を調べ、この距離の値が許容範囲内であれば単語の接
続を認める。この方式によって接続できる単語を組合せ
て複合語とする。特に、所定の単語評価値を用いた認識
処理を行う場合には、複合語の文字列長に対する一致文
字数及び一致文字の評価値の累積値によって最適の複合
語を決定する。The region combination in which the overlapping portions of the corresponding regions and the gap portion between the corresponding regions are minimized is specified as follows, for example. First, the coordinates are set for the original character string image, and the distances between the words are derived by referring to the coordinate positions of the character patterns corresponding to the first character and the terminal character of each candidate word. Next, the distance of the overlapping portion and the distance of the gap portion of the character pattern corresponding to each word are examined, and if the value of this distance is within the allowable range, the word connection is recognized. The words that can be connected by this method are combined into a compound word. In particular, when performing recognition processing using a predetermined word evaluation value, the optimum compound word is determined by the number of matching characters with respect to the character string length of the compound word and the cumulative value of the matching character evaluation values.
【0014】[0014]
【作用】第1発明の文字認識方法では、文字列画像から
文字パタンを切り出す際に、各単位領域に対応する文字
パタンと、少なくとも1文字と見做し得る単位領域の組
み合わせに対応する文字パタンとを生成するので、もと
の文字列から生成可能な文字パタンを全て生成してお
り、認識すべき正しい文字パタンもこの生成された文字
パタン内に含まれる。このように正しい文字パタンを取
り逃さないので、選択する候補文字として認識すべき文
字が選択される確率が高くなり、従って文字認識精度が
高まる。特に、第2発明のように各文字パタンと対応す
る候補文字とがどれだけ近似しているかを示す文字評価
値を生成し、この文字評価値を用いて各候補単語の評価
値を生成することで、各候補単語と原文字列画像との類
似度が客観的な数値として表現される。According to the character recognition method of the first aspect of the present invention, when a character pattern is cut out from a character string image, a character pattern corresponding to each unit area and a character pattern corresponding to a combination of unit areas that can be regarded as at least one character. Since and are generated, all the character patterns that can be generated from the original character string are generated, and the correct character pattern to be recognized is also included in this generated character pattern. Since the correct character pattern is not missed in this way, the probability of selecting a character to be recognized as a candidate character to be selected is increased, and therefore the character recognition accuracy is increased. In particular, as in the second invention, generating a character evaluation value indicating how close each character pattern and the corresponding candidate character are, and using this character evaluation value to generate an evaluation value of each candidate word. Then, the similarity between each candidate word and the original character string image is expressed as an objective numerical value.
【0015】第3発明の文字認識方法では、元の文字列
画像から複数の認識対象領域を生成し、それぞれの認識
対象領域に対して選択された候補単語を組み合わせてい
るので、文字列画像が複数の単語の組み合わせとして認
識される。これにより、従来は文字列画像を単一の単語
として認識することしかできなかったのに対し、文字列
画像を複数の単語からなる複合語として認識することが
可能となる。In the character recognition method of the third invention, a plurality of recognition target areas are generated from the original character string image, and the candidate words selected for each recognition target area are combined, so that the character string image is Recognized as a combination of multiple words. This allows the character string image to be recognized as a compound word composed of a plurality of words, whereas the character string image can only be recognized as a single word in the past.
【0016】特に、第4発明のように、分割された複数
の単位領域の各々を先頭領域とする複数の隣接単位領域
の結合領域をそれぞれ認識対象領域として切り出すこと
により、この文字列画像を構成する可能性のある単語が
全て検出される。また、文字パタンの重複部の距離及び
間隙部の距離を調べ、この距離の値が許容範囲内であれ
ば単語の接続を認めることで、同一文字を2つ以上の単
語に重複して用いるような、論理的に矛盾のある組み合
わせが排除される。In particular, as in the fourth aspect of the present invention, this character string image is constructed by cutting out a combined area of a plurality of adjacent unit areas each having a plurality of divided unit areas as a head area as a recognition target area. All possible words are detected. In addition, by checking the distance between overlapping portions and the distance between gaps in the character pattern, and if the value of this distance is within the allowable range, it is possible to connect words so that the same character is used in duplicate for two or more words. , Logically contradictory combinations are eliminated.
【0017】また、第5発明の文字認識装置では、上記
第1発明の文字認識方法を実施するために、認識対象と
なる文字列画像を1のメモリ、認識候補文字群を2のメ
モリ、認識候補単語群を第3のメモリに格納しておき、
画像分割手段で第1のメモリ内の文字列画像を単位領域
毎に分割し、分割された単位領域又は隣接領域の組み合
わせから少なくとも1文字として認識し得る領域組み合
わせを領域特徴検出手段で検出する。そして各領域組み
合わせに対応する文字パタン及び該領域組み合わせに含
まれる単位領域に対応する文字パタンをそれぞれの領域
特徴に基づいて生成し、各文字パタンが、認識対象単語
の何文字目の位置をとり得るかを文字位置範囲検出手段
で検出する。その後、各文字パタンに対応する候補文字
を候補文字選択手段が第2のメモリから選択し、選択さ
れた候補文字のとり得る位置範囲内に一致する文字があ
る全ての候補単語を第1の候補単語選択手段が第3のメ
モリから選択する。そして、単語決定手段が、これら候
補単語から所定の評価基準に従って文字列画像が表す単
語を決定する。Further, in the character recognition device of the fifth invention, in order to carry out the character recognition method of the first invention, the character string image to be recognized is in one memory, the recognition candidate character group is in two memory, and the recognition candidate character group is recognized. The candidate word group is stored in the third memory,
The image dividing unit divides the character string image in the first memory into unit regions, and the region feature detecting unit detects a region combination that can be recognized as at least one character from the divided unit regions or combinations of adjacent regions. Then, a character pattern corresponding to each area combination and a character pattern corresponding to a unit area included in the area combination are generated based on each area feature, and each character pattern determines the position of the character of the recognition target word. The character position range detecting means detects whether or not to obtain. After that, the candidate character selecting means selects a candidate character corresponding to each character pattern from the second memory, and selects all candidate words having a matching character within the possible position range of the selected candidate character as the first candidate. The word selecting means selects from the third memory. Then, the word determining means determines the word represented by the character string image from these candidate words according to a predetermined evaluation criterion.
【0018】第6発明の文字認識装置は、上記第3発明
の文字認識方法を実施するために、認識対象となる文字
列画像を第1のメモリ、認識候補単語群を第2のメモリ
に格納しておき、第1のメモリ内の文字列画像を画像領
域分割手段で単位領域毎に分割する。そして単位領域を
最小単位として文字列画像から所定の認識対象領域を切
り出し、更に第2の候補単語選択手段が、認識対象領域
毎に文字認識処理を行って第2のメモリから全ての候補
単語を選択する。領域特定手段は、選択された各候補単
語それぞれについて元の文字列画像における対応領域を
検出して複数の領域組み合わせを生成する。そして対応
領域同士の重なり部及び対応領域間の間隙部が最小とな
る領域組み合わせを特定する。複合単語決定手段は、こ
の特定された組み合わせに対応する候補単語の組み合わ
せを文字列画像が表す単語の組み合わせとして決定す
る。In order to carry out the character recognition method of the third invention, the character recognition device of the sixth invention stores the character string image to be recognized in the first memory and the recognition candidate word group in the second memory. The character string image in the first memory is divided into unit areas by the image area dividing means. Then, a predetermined recognition target area is cut out from the character string image using the unit area as a minimum unit, and further, the second candidate word selection means performs character recognition processing for each recognition target area to extract all candidate words from the second memory. select. The area specifying unit detects a corresponding area in the original character string image for each of the selected candidate words and generates a plurality of area combinations. Then, an area combination that minimizes the overlap between corresponding areas and the gap between corresponding areas is specified. The compound word determining means determines a combination of candidate words corresponding to the specified combination as a combination of words represented by the character string image.
【0019】[0019]
【実施例】以下、図面を参照して本発明の実施例を詳細
に説明する。Embodiments of the present invention will now be described in detail with reference to the drawings.
【0020】(第1実施例)図1は本発明の一実施例に
係る文字認識装置の機能ブロック図である。図中、10
1は、イメージスキャナ等から入力される文字列画像
(文書行画像)を格納する文字列画像格納部(第1のメ
モリ)、102は、文字列画像を最小の単位領域に分割
する文字列分割部(画像領域分割手段)、103は、隣
接する単位領域の組み合わせのうち、1文字として認識
できる組み合わせを全て検出するとともに、画像特徴を
用いて、検出された単位領域の組み合わせに対応する文
字パタン及び各単位領域に対応する文字パタンを生成す
る文字パタン生成部(領域特徴検出手段、文字パタン生
成手段)、104は、各文字パタンが認識結果となる単
語内で何文字目から何文字目までの位置をとり得るかを
全て検出する位置範囲検出部(文字位置検出手段)、1
05は、認識候補文字とその標準パタンとを格納する候
補文字格納部(第2のメモリ)である。(First Embodiment) FIG. 1 is a functional block diagram of a character recognition apparatus according to an embodiment of the present invention. 10 in the figure
Reference numeral 1 is a character string image storage unit (first memory) that stores a character string image (document line image) input from an image scanner or the like, and 102 is a character string division that divides the character string image into minimum unit areas. A unit (image area dividing unit) 103 detects all combinations of adjacent unit areas that can be recognized as one character, and uses image features to detect a character pattern corresponding to the detected combination of unit areas. And a character pattern generation unit (region characteristic detection means, character pattern generation means) for generating a character pattern corresponding to each unit area. Position range detecting section (character position detecting means) for detecting all possible positions
Reference numeral 05 denotes a candidate character storage unit (second memory) for storing the recognition candidate character and its standard pattern.
【0021】また、106は、位置範囲検出部104で
検出された位置範囲内の各文字パタンを候補文字格納部
105内の標準パタンとそれぞれ比較し、文字パタン毎
に候補文字を選択する候補文字選択部(候補文字選択手
段)であり、選択した各候補文字毎に、文字パタンと標
準パタンとがどれだけ近似しているかの指標となる文字
評価値を生成する。このように選択された候補文字とそ
のとり得る位置範囲、及び対応する文字評価値を出力す
る。なお、本実施例では文字パタンと標準パタンとが近
くなるにつれて文字評価値の値が大きくなるようにし
た。Reference numeral 106 is a candidate character for comparing each character pattern in the position range detected by the position range detecting unit 104 with a standard pattern in the candidate character storage unit 105 and selecting a candidate character for each character pattern. The selection unit (candidate character selection means) generates a character evaluation value that is an index of how close the character pattern and the standard pattern are to each other for each selected candidate character. The candidate character selected in this way, the possible position range thereof, and the corresponding character evaluation value are output. In this embodiment, the character evaluation value is set to increase as the character pattern and the standard pattern become closer to each other.
【0022】107は、認識候補単語群及び文字位置毎
に文字コードと単語辞書(図示省略)に登録された単語
とを対応させた単語テーブルを格納する候補単語格納部
(第3のメモリ)、108は、候補文字選択部106か
ら得られる候補文字に対応する文字コードを検出する候
補単語選択部(候補単語選択手段)であり、上記単語テ
ーブルを用いて、候補単語選択部107内の各候補単語
から、候補文字のとり得る位置範囲内に一致する文字が
ある全ての単語を候補単語として選択する。Reference numeral 107 denotes a candidate word storage unit (third memory) for storing a word table in which character codes are associated with the recognition candidate word groups and character positions for words registered in a word dictionary (not shown). Reference numeral 108 denotes a candidate word selection unit (candidate word selection unit) that detects a character code corresponding to a candidate character obtained from the candidate character selection unit 106. Each candidate in the candidate word selection unit 107 using the word table. From the words, all words having matching characters within the possible position range of the candidate character are selected as candidate words.
【0023】109は、選択された各候補単語内の各文
字に対して、上記候補文字と一致する文字を検出すると
ともに、検出された文字がもとの候補文字の位置範囲内
にあるかどうかを検出する単語評価値算出部であり、各
候補単語に対してこれらの条件を満たす文字を検出する
とともに、対応する候補文字における評価値をその単語
の得点として加算していき、得られる総和値を単語評価
値とする。110は、上記単語評価値をもとにして、選
択された候補単語から好適な単語を選択する好適単語決
定部である(以上単語決定手段)。109 detects a character matching each of the above candidate characters for each character in each selected candidate word, and whether the detected character is within the position range of the original candidate character. Is a word evaluation value calculation unit that detects a character satisfying these conditions for each candidate word, and adds the evaluation value of the corresponding candidate character as the score of the word, and obtains the total sum value. Is the word evaluation value. Reference numeral 110 denotes a suitable word determination unit that selects a suitable word from the selected candidate words based on the word evaluation value (above word determination means).
【0024】ここで、単語評価値算出部109では、単
語候補に対して、検出された文字がもとの候補文字の位
置範囲内にあるかどうかを検出しているだけなので、1
つの文字位置に対して複数の文字候補が割り当てられて
いる可能性もある。また、候補単語の文字順がもとの切
り出しパタンの文字順と逆転している可能性もある。こ
のように、上記単語評価値には、論理的に矛盾のある候
補文字の分の評価値も加算されている可能性があるの
で、検索された各単語候補に対して、再度、文字位置の
重複や逆転がなく一致文字数が最も多くなる切り出しパ
タンの組合せを決める。そして、一致した候補文字の評
価値を合計して真の単語評価値とし、その値に基づいて
好適単語を選択する。この実施例では、その値が最も高
得点となる候補単語を1つ選択して好適単語とした。Here, since the word evaluation value calculation unit 109 only detects whether or not the detected character is within the position range of the original candidate character for the word candidate, 1
Multiple character candidates may be assigned to one character position. In addition, the character order of the candidate words may be reversed from the character order of the original cut-out pattern. As described above, since there is a possibility that the evaluation value of the candidate character having a logical contradiction may be added to the word evaluation value, the character position of the searched word candidate is again determined. Decide the combination of cut-out patterns that gives the largest number of matching characters without duplication or inversion. Then, the evaluation values of the matched candidate characters are summed to obtain a true word evaluation value, and a suitable word is selected based on that value. In this embodiment, one candidate word having the highest score is selected as a suitable word.
【0025】この際、全ての候補単語に対して真の単語
評価値を求めてもよいが、この実施例では、処理を簡略
化するために、もとの単語評価値の得点の高いものから
順に所定の数だけ選択し、選択された候補単語に対して
真の単語評価値を求めた。At this time, the true word evaluation values may be obtained for all the candidate words, but in this embodiment, in order to simplify the processing, the original word evaluation values having a high score are selected. A predetermined number was selected in order, and a true word evaluation value was obtained for the selected candidate words.
【0026】次に「川口市芝樋ノ爪」という文字列画像
の認識処理例を具体的に説明する。文字列分割部102
でこの文字列画像を単位領域に分割した状態を図2に示
す。なお、この例では単位領域として最小の外接矩形領
域を用いている。文字パタン生成部103では、図2の
単位領域から文字パタンを生成する。各文字パタンは上
記説明のように位置範囲を検出されるとともに、候補文
字及び文字評価値が検出される。図3は、このようにし
て生成された各文字パタン、対応する候補文字、及びそ
の文字評価値の例である。Next, a specific example of recognition processing of the character string image "Kawaguchi City Shiba Hinosame" will be described. Character string dividing unit 102
2 shows a state in which the character string image is divided into unit areas. In this example, the smallest circumscribed rectangular area is used as the unit area. The character pattern generation unit 103 generates a character pattern from the unit area shown in FIG. The position range of each character pattern is detected as described above, and the candidate character and the character evaluation value are detected. FIG. 3 is an example of each character pattern generated in this way, the corresponding candidate character, and its character evaluation value.
【0027】図3に示されるように、各文字パタンに
は、各単位領域が重複している。例えば、「樋」におけ
る'木'(木偏)は図3の切り出しパタン13、14、15
に重複して用いられている。そして、候補文字及びその
位置範囲に従って、候補単語選択部108、単語評価値
算出部109で候補単語及び単語評価値が求められる。
求められた単語及び単語評価値の例を図4に示す。As shown in FIG. 3, each unit pattern overlaps each character pattern. For example, the “tree” (tree bias) in the “gutter” is the cutting pattern 13, 14, 15 in FIG.
Is used in duplicate. Then, according to the candidate character and its position range, the candidate word selection unit 108 and the word evaluation value calculation unit 109 obtain the candidate word and the word evaluation value.
An example of the obtained word and word evaluation value is shown in FIG.
【0028】図5は、好適単語決定部110における真
の単語評価値の生成過程の説明図である。この図では、
単語評価値が高い候補単語を所定の数だけ選択した状態
を示しており、各候補単語の文字毎に一致する候補文字
を持つ文字パタンが番号で示されている。FIG. 5 is an explanatory diagram of a process of generating a true word evaluation value in the suitable word determining unit 110. In this figure,
It shows a state in which a predetermined number of candidate words having a high word evaluation value are selected, and character patterns having candidate characters that match each character of each candidate word are indicated by numbers.
【0029】候補単語「川口市芝樋ノ爪」については、
パタン18とパタン21を用いる組み合わせが得られて
いる。しかし、パタン21にはパタン18に対応する単
位領域が用いられているので、両パタンが重複してしま
う。そこで、これを避ける切り出しパタンの組み合わせ
として「3,11,12,15,18,24」の組合せ
を得る。次に、各切り出しパタンに対応する候補文字の
評価値を合計する。Regarding the candidate word “Kawaguchi City Shiba Hinotsume”,
A combination using pattern 18 and pattern 21 has been obtained. However, since the unit area corresponding to the pattern 18 is used for the pattern 21, both patterns overlap. Therefore, a combination of “3, 11, 12, 15, 18, 24” is obtained as a combination of cut-out patterns that avoids this. Next, the evaluation values of the candidate characters corresponding to each cutout pattern are summed.
【0030】図3を参照すると、パタン3における
「川」の文字評価値は676、パタン11における
「市」の文字評価値は757、パタン12に対応する
「芝」の文字評価値は639、パタン15における
「樋」の文字評価値は628、パタン18における
「ノ」の文字評価値は629、パタン24に対応する
「爪」の文字評価値は622なので、これら各文字評価
値の値を合計して単語評価値3996を得る。Referring to FIG. 3, the character evaluation value of "kawa" in pattern 3 is 676, the character evaluation value of "city" in pattern 11 is 757, and the character evaluation value of "shiba" corresponding to pattern 12 is 639. Since the character evaluation value of “Grain” in pattern 15 is 628, the character evaluation value of “No” in pattern 18 is 629, and the character evaluation value of “nail” corresponding to pattern 24 is 622, the values of these character evaluation values are The word evaluation value 3996 is obtained by summing.
【0031】このようにして、各候補単語に対して、最
適な文字パタンの組合せを求めて単語の得点を求め直
す。図6に各候補単語における真の単語評価を示す。最
後に、その中で最高得点の候補単語「川口市芝樋ノ爪」
を好適単語として選択する。In this way, for each candidate word, the optimum combination of character patterns is found and the score of the word is found again. FIG. 6 shows the true word evaluation for each candidate word. Finally, the candidate word with the highest score among them, "Kawaguchi City Shiba Hinotsume"
Is selected as the preferred word.
【0032】このように本実施例によれば、複数の文字
パタンが生成されるので認識精度が高くなる。また、全
ての候補単語に対して真の単語評価値を求める場合には
処理データ量が非常に大きくなって大きなメモリが必要
になったり演算時間が長時間になる虞があるが、本実施
例では、もとの単語評価値の得点の高いものから順に所
定の数だけ選択し、選択された候補単語に対して真の単
語評価値を求めているので、簡素な構成で短時間に文字
認識を行うことができるうえ、全ての候補単語に対して
真の単語評価値を求めた場合とほぼ同様の結果が得られ
る。As described above, according to this embodiment, a plurality of character patterns are generated, so that the recognition accuracy is improved. Further, when the true word evaluation value is obtained for all the candidate words, the amount of processed data becomes very large, a large memory may be required, and the calculation time may be long. In this case, since a predetermined number of original word evaluation values are selected in order, and the true word evaluation value is calculated for the selected candidate words, character recognition is performed in a short time with a simple configuration. In addition to the above, it is possible to obtain almost the same result as when the true word evaluation value is obtained for all candidate words.
【0033】なお、上記のように単語評価値及び真の単
語評価値を求めた場合、文字数が多い候補単語は、候補
単語内の文字評価値が低くても単語評価値が高くなる傾
向がある。従って、文字評価値の合計をその候補単語の
文字数で割った値を単語評価値、あるいは真の単語評価
値として用いてもよい。このような評価をした場合に
は、候補単語内の文字のうち、候補文字に一致する文字
の比率が少ない単語の評価値が低くなる。When the word evaluation value and the true word evaluation value are obtained as described above, a candidate word having a large number of characters tends to have a high word evaluation value even if the character evaluation value in the candidate word is low. . Therefore, a value obtained by dividing the sum of the character evaluation values by the number of characters of the candidate word may be used as the word evaluation value or the true word evaluation value. When such an evaluation is performed, the evaluation value of the word in which the ratio of the characters matching the candidate character is small among the characters in the candidate word is low.
【0034】(第2実施例)上記第1実施例のように、
地名等を表す単語は、予め辞書登録しておくことがで
き、文字列画像全体に対応する単語を容易に選択するこ
とができるが、複合語を認識する場合には、文字列画像
の最初の数文字分に対応する単語しか得られない場合が
ある。例えば、「第2川島ビル」という「第2」「川
島」「ビル」という単語がそれぞれ別々に辞書登録され
ている場合、「第2川島ビル」という複合語の文字列画
像を認識すると、文字列画像のうち「第2」という単語
までは認識できても、それ以降の「川島ビル」に相当す
る文字列画像に対しては認識不能となってしまう。第2
実施例においては、このような複合語も認識可能となる
文字認識装置を説明する。(Second Embodiment) As in the first embodiment,
A word representing a place name or the like can be registered in a dictionary in advance, and a word corresponding to the entire character string image can be easily selected. However, when recognizing a compound word, the first word of the character string image can be selected. Sometimes you can only get words that correspond to a few letters. For example, if the words "2nd", "Kawashima" and "Bill" called "2nd Kawashima Building" are registered separately in the dictionary, the character string image of the compound word "2nd Kawashima Building" will be recognized. Even if the word “second” can be recognized in the row image, it cannot be recognized with respect to the character string image corresponding to the subsequent “Kawashima Building”. Second
In the embodiment, a character recognition device capable of recognizing such a compound word will be described.
【0035】図7にこの第2実施例に係る文字認識装置
の機能ブロック図を示す。図7において、図1と同一機
能ブロック又は相当部には同符号を付してある。文字列
画像格納部101、文字列分割部102、文字パタン生
成部103は第1実施例と同様の処理を行うブロックで
ある。FIG. 7 shows a functional block diagram of the character recognition apparatus in the second embodiment. In FIG. 7, the same functional blocks or corresponding portions as those in FIG. 1 are designated by the same reference numerals. The character string image storage unit 101, the character string dividing unit 102, and the character pattern generating unit 103 are blocks that perform the same processing as in the first embodiment.
【0036】701は照合開始位置設定部であり、単位
領域の各々を開始位置として文字列画像における認識対
象領域を設定し、もとの文字列画像及び各認識対象領域
に対して文字認識処理を行う(画像領域切出し手段)。A collation start position setting unit 701 sets a recognition target area in the character string image with each unit area as a start position, and performs character recognition processing on the original character string image and each recognition target area. Perform (image area cutting means).
【0037】具体的には、最初に先頭の単位領域を開始
位置として、位置範囲検出部104以降の処理を行う。
従ってもとの文字列画像がそのまま認識処理される。次
に開始位置を先頭から2番目の切り出しパタンに設定し
て、先頭の切り出しパタン以外の切り出しパタンを全て
位置範囲検出部104に出力する。従って、もとの文字
列画像から先頭の単位領域に相当する領域を除去した画
像が認識対象領域となる。以下、同様にして順次照合開
始位置をずらしていき、全ての切り出し位置を照合開始
位置に設定する。More specifically, the processing of the position range detection unit 104 and thereafter is performed with the first unit area as the start position.
Therefore, the original character string image is directly processed for recognition. Next, the start position is set to the second cutout pattern from the top, and all cutout patterns other than the top cutout pattern are output to the position range detection unit 104. Therefore, the image obtained by removing the area corresponding to the first unit area from the original character string image becomes the recognition target area. Hereinafter, similarly, the collation start position is sequentially shifted, and all the cutout positions are set as the collation start positions.
【0038】その後、位置範囲検出部104から単語評
価値算出部109の処理にて、各認識対象領域それぞれ
に対して第1実施例と同様の処理を行う。好適単語決定
部110では、第1実施例と同様の処理を行って真の単
語評価値を生成する。ただし、第1実施例では好適単語
を1つだけ選択したが、この実施例では、所定の評価基
準を満たした場合には複数の単語を好適単語として選択
することも許容する。従って、好適単語として1つの単
語が選択される場合もあるが、複数の単語が選択される
場合もある。このように、各照合開始位置それぞれに対
して好適単語を決定する。After that, the position range detection unit 104 to the word evaluation value calculation unit 109 perform the same processing as that of the first embodiment on each recognition target area. The preferred word determination unit 110 performs the same processing as in the first embodiment to generate a true word evaluation value. However, although only one preferred word is selected in the first embodiment, this embodiment also allows a plurality of words to be selected as preferred words when a predetermined evaluation criterion is satisfied. Therefore, although one word may be selected as a suitable word, a plurality of words may be selected. In this way, a suitable word is determined for each matching start position.
【0039】702は、複合単語決定部であり、上記選
択された各好適単語の先頭文字及び終端文字に対応する
文字パタンの座標位置を参照し、各候補単語同士の距離
を求める。そしてその結果から、各単語に対応する文字
パタンの重複及び間隔を調査し、この距離の値が許容範
囲内であれば単語の接続を認める。この方式によって接
続できる単語を組合せて複合語とし、複合語の文字列長
に対する一致文字数及び一致文字の評価値の累積値によ
って好適の複合単語を決定する(複合単語決定手段)。Reference numeral 702 is a compound word determining unit which refers to the coordinate positions of the character patterns corresponding to the leading character and the terminal character of each of the selected preferred words and calculates the distance between the candidate words. Then, based on the result, the overlap and spacing of the character patterns corresponding to each word are investigated, and if the value of this distance is within the allowable range, the word connection is recognized. By combining words that can be connected by this method into a compound word, a suitable compound word is determined based on the number of matching characters with respect to the character string length of the compound word and the cumulative value of the evaluation values of the matching characters (compound word determining means).
【0040】次に「第2川島ビル」という文字列画像の
認識処理例を説明する。文字列分割部102でこの文字
列画像を単位領域に分割した状態を図8に示す。この例
では、単位領域として最小の外接矩形領域を用いてい
る。Next, an example of the recognition processing of the character string image "2nd Kawashima Building" will be described. FIG. 8 shows a state in which the character string dividing unit 102 divides the character string image into unit areas. In this example, the smallest circumscribed rectangular area is used as the unit area.
【0041】文字パタン生成部103では、図8の単位
領域から第1実施例と同様に文字パタンを生成する。こ
の生成された各文字パタン、対応する候補文字、及びそ
の文字評価値を図8に示す。各文字パタンは、上記説明
のように位置範囲を検出されるとともに、候補文字及び
文字評価値が検出される。The character pattern generator 103 generates a character pattern from the unit area shown in FIG. 8 as in the first embodiment. FIG. 8 shows each of the generated character patterns, the corresponding candidate characters, and their character evaluation values. The position range of each character pattern is detected as described above, and the candidate character and the character evaluation value are detected.
【0042】照合開始位置設定部701において、最初
に先頭の切り出しパタン801を開始位置として、すな
わち切り出しパタン全体に対して、位置範囲検出部10
4から単語評価値算出部109までの処理、及び好適単
語決定部110での処理を行う。その結果好適単語「第
2」、「芳川」が得られる。次に、照合開始位置を先頭
から2番目の切り出しパタン802に設定して、同様の
処理を行い、「川島」「川長」「小橋」を得る。以下、
同様にして他の切り出しパタン803〜806まで照合
開始位置を進めていき、複数の候補単語を得る。In the collation start position setting unit 701, the position range detecting unit 10 first sets the leading cutout pattern 801 as the start position, that is, with respect to the entire cutout pattern.
4 to the word evaluation value calculation unit 109 and the suitable word determination unit 110. As a result, the suitable words “second” and “Yoshikawa” are obtained. Next, the collation start position is set in the second cutout pattern 802 from the beginning, and the same processing is performed to obtain "Kawashima", "Kawacho", and "Kobashi". Less than,
Similarly, the collation start position is advanced to other cutout patterns 803 to 806 to obtain a plurality of candidate words.
【0043】複合単語決定部702は、候補単語の先頭
文字及び終端文字に対応する文字パタンの座標位置を参
照して単語同士の距離を求め、単語の接続性を調べてそ
の単語同士を接続するかどうかを決定する。この例で
は、ある単語Aと単語Bが接続できる条件を以下のよう
に求めた。まず、Aの左端のx座標≦Bの左端のx座標
となるように単語A、Bを選択して以下のようにGapを
定める。 Gap=Bの左端のx座標−Aの右端のx座標 そして、下式が成立する場合に、単語Aと単語Bとを接
続するものとする。 −(切り出しパタンの重複の限界)<Gap<切り出しパタ
ンの余りの限界The compound word determining unit 702 refers to the coordinate positions of the character patterns corresponding to the first character and the last character of the candidate word to find the distance between the words, checks the connectivity of the words, and connects the words. Decide whether or not In this example, the conditions under which a certain word A and a certain word B can be connected were obtained as follows. First, the words A and B are selected so that the leftmost x coordinate of A ≦ the leftmost x coordinate of B, and Gap is determined as follows. The left end x-coordinate of Gap = B-the right end x-coordinate of A Then, when the following formula is materialized, the word A and the word B shall be connected. -(Limit of overlap of cutout pattern) <Gap <Remaining limit of cutout pattern
【0044】例えば図10では、「第2」と「芳川」で
は重なる部分が大きすぎるので接続することはできな
い。また、「第2」と「ビル」では間隔が開きすぎて接
続することができないが、「第2」と「川島」では接続
することができる。「川島」の部分は、2つの好適単語
があるが、得点により「川島」が選択される。この結果
「第2」「川島」「ビル」が選択される。このようにし
て、接続できる単語の組合せて複合語を作成し、一致文
字数及び評価値の累積値によって、好適の複合語を求め
る。For example, in FIG. 10, "second" and "yoshikawa" cannot be connected because the overlapping portion is too large. Further, the “second” and “building” cannot be connected because the gap is too wide, but the “second” and “Kawashima” can be connected. The "Kawashima" part has two suitable words, but "Kawashima" is selected according to the score. As a result, “second”, “Kawashima” and “building” are selected. In this way, a compound word is created by combining the connectable words, and a suitable compound word is obtained from the number of matching characters and the cumulative value of the evaluation values.
【0045】[0045]
【発明の効果】以上の説明から明らかなように、本発明
によれば、もとの文字列から生成可能な文字パタンを全
て生成しているので、認識すべき文字パタンがこの中に
含まれる確率が高くなる。従って、文字認識精度が高ま
る効果がある。As is apparent from the above description, according to the present invention, since all the character patterns that can be generated from the original character string are generated, the character patterns to be recognized are included therein. The probability increases. Therefore, the character recognition accuracy is increased.
【0046】特に、各文字パタンと対応する候補文字と
がどれだけ近似しているかを示す文字評価値に基づいて
各候補単語の評価値を生成することで、各候補単語と原
文字列画像との類似度を客観的な数値として表現するこ
とができる。更に、最も類似度が高い単語を選択するこ
とで、認識精度を高くすることが可能となる。In particular, by generating the evaluation value of each candidate word based on the character evaluation value showing how close each character pattern and the corresponding candidate character are, it is possible to obtain each candidate word and the original character string image. Can be expressed as an objective numerical value. Furthermore, by selecting the word with the highest degree of similarity, it is possible to increase the recognition accuracy.
【0047】また、文字列画像を複数の単語の組み合わ
せてなる複合語として認識することが可能となるので、
複合語全体は辞書に登録されていなくても、個々の構成
単語が辞書に登録されていれば、複合語全体の認識を行
うことができる。字列画像を構成する可能性のある単語
が全て検出される。更に、複合語を構成する単語同士の
境界が不明で、また各文字の切り出し位置も明確でなく
ても、記入された複合語を認識することができる。Since the character string image can be recognized as a compound word formed by combining a plurality of words,
Even if the entire compound word is not registered in the dictionary, if the individual constituent words are registered in the dictionary, the entire compound word can be recognized. All words that may make up the string image are detected. Further, the written compound word can be recognized even if the boundaries between the words forming the compound word are unknown and the cut-out position of each character is not clear.
【図1】第1実施例に係る文字認識装置の機能ブロック
図。FIG. 1 is a functional block diagram of a character recognition device according to a first embodiment.
【図2】文字列画像を単位領域に分割した状態の説明図FIG. 2 is an explanatory diagram showing a state in which a character string image is divided into unit areas.
【図3】生成された文字パタンの説明図。FIG. 3 is an explanatory diagram of generated character patterns.
【図4】候補単語とその評価値の説明図。FIG. 4 is an explanatory diagram of candidate words and their evaluation values.
【図5】真の単語評価値の算出方法の説明図。FIG. 5 is an explanatory diagram of a method of calculating a true word evaluation value.
【図6】候補単語としの真の評価値の説明図。FIG. 6 is an explanatory diagram of a true evaluation value as a candidate word.
【図7】第2実施例に係る文字認識装置の機能ブロック
図。FIG. 7 is a functional block diagram of a character recognition device in a second embodiment.
【図8】文字列画像を単位領域に分割した状態の説明
図。FIG. 8 is an explanatory diagram of a state in which a character string image is divided into unit areas.
【図9】文字パタンの説明図。FIG. 9 is an explanatory diagram of character patterns.
【図10】複合単語決定部における処理の説明図。FIG. 10 is an explanatory diagram of processing in a compound word determination unit.
101 文字列画像格納部 102 文字列分割部 103 文字パタン生成部 104 位置範囲検出部 105 候補文字格納部 106 候補文字選択部 107 候補単語格納部 108 候補単語選択部 109 単語評価値算出部 110 好適単語決定部 701 照合開始位置設定部 702 複合単語決定部 101 character string image storage unit 102 character string division unit 103 character pattern generation unit 104 position range detection unit 105 candidate character storage unit 106 candidate character selection unit 107 candidate word storage unit 108 candidate word selection unit 109 word evaluation value calculation unit 110 suitable words Determining unit 701 Matching start position setting unit 702 Compound word determining unit
Claims (6)
と、 分割された単位領域又は隣接領域の組み合わせから少な
くとも1文字として認識し得る1以上の領域組み合わせ
を検出し、更に、検出された領域組み合わせに対応する
文字パタン及び該領域組み合わせに含まれる単位領域に
それぞれ対応する文字パタンを検出する段階と、 検出された各文字パタン毎に、認識対象単語内で各文字
パタンがそれぞれ何文字目の位置にとり得るかを検出す
る段階と、 各文字パタン毎に認識し得る候補文字を特定する段階
と、 各候補文字毎に、もとの文字パタンがとり得る位置に該
候補文字と一致する文字が存在する単語を候補単語とし
て特定する段階と、 所定の評価基準に従って各候補単語から前記文字列画像
が表す単語を決定する段階と、を有することを特徴とす
る文字認識方法。1. A step of dividing a character string image into unit areas, and one or more area combinations that can be recognized as at least one character are detected from a combination of the divided unit areas or adjacent areas, and further detected. The step of detecting the character pattern corresponding to the area combination and the character patterns corresponding to the unit areas included in the area combination, and the character number of each character pattern in the recognition target word for each detected character pattern. , The step of detecting the candidate character that can be recognized for each character pattern, and the step of identifying the candidate character that can be recognized for each character pattern and the character that matches the candidate character at the position that the original character pattern can take. Is specified as a candidate word, and a word represented by the character string image is determined from each candidate word according to a predetermined evaluation criterion. Character recognition method which is characterized the door.
近似度を表す文字評価値を生成する段階と、 前記候補単語を構成する文字と前記候補文字とを比較し
て該候補単語内の文字の位置に適合する候補文字を検出
するとともに、検出された候補文字に対応する文字評価
値からそれぞれの単語評価値を生成する段階と、 生成された単語評価値に基づき各候補単語を評価して前
記文字列画像が表す単語を決定する段階と、を有するこ
とを特徴とする文字認識方法。2. The character recognition method according to claim 1, wherein each character pattern and a character evaluation value representing a degree of approximation of the candidate character corresponding to each character pattern are generated; and a character forming the candidate word. Generating a word evaluation value from a character evaluation value corresponding to the detected candidate character by comparing the candidate character with a candidate character matching the position of the character in the candidate word; And evaluating each candidate word based on the evaluated word evaluation value to determine the word represented by the character string image.
と、 前記単位領域を最小単位として前記文字列画像から所定
位置の認識対象領域を切り出す段階と、 前記切り出された認識対象領域毎に文字認識処理を行っ
てそれぞれ候補単語を決定する段階と、 決定された候補単語それぞれについて、元の文字列画像
における対応領域を検出する段階と、 前記決定された候補単語を組み合わせ、各組み合わせの
うち、前記文字列画像において前記決定された対応領域
同士の重なり部及び対応領域間の間隙部が最小となる組
み合わせを選択する段階と、 選択された組み合わせに対応する候補単語の組み合わせ
を前記文字列画像が表す文字として決定する段階と、を
有することを特徴とする文字認識方法。3. A step of dividing a character string image into unit areas, a step of cutting out a recognition target area at a predetermined position from the character string image with the unit area as a minimum unit, and a step of cutting out each of the cut recognition target areas. Performing a character recognition process to determine each candidate word; detecting each corresponding candidate region in the original character string image for each of the determined candidate words; combining the determined candidate words; Selecting a combination that minimizes the overlap between the determined corresponding areas and the gap between the corresponding areas in the character string image, and the combination of candidate words corresponding to the selected combination is the character string image. And a step of determining as a character represented by.
割された複数の単位領域の各々を先頭領域とする複数の
隣接単位領域の結合領域をそれぞれ認識対象領域として
切り出すことを特徴とする文字認識方法。4. The character recognition method according to claim 3, wherein the step of cutting out the recognition target area at the predetermined position is a combined area of a plurality of adjacent unit areas each having a plurality of divided unit areas as a head area. A character recognition method characterized by cutting out each as a recognition target area.
1のメモリと、認識候補文字群を格納した第2のメモリ
と、認識候補単語群を格納した第3のメモリとを備え、
更に、 前記第1のメモリに格納された文字列画像を単位領域毎
に分割する画像領域分割手段と、 分割された単位領域又は隣接領域の組み合わせから少な
くとも1文字として認識し得る領域組み合わせを検出す
る領域特徴検出手段と、 検出された領域組み合わせに対応する文字パタン及び該
領域組み合わせに含まれる単位領域に対応する文字パタ
ンをそれぞれの領域特徴に基づいて生成する文字パタン
生成手段と、 生成された各文字パタンが、認識対象単語の何文字目の
位置をとり得るかを検出する文字位置範囲検出手段と、 前記各文字パタンに対応する候補文字を前記第2のメモ
リから選択する候補文字選択手段と、 選択された候補文字のとり得る位置範囲内に一致する文
字が存在する全ての候補単語を前記第3のメモリから選
択する第1の候補単語選択手段と、 所定の評価基準に従って前記選択された候補単語から前
記文字列画像が表す単語を決定する単語決定手段と、を
有することを特徴とする文字認識装置。5. A first memory storing a character string image to be recognized, a second memory storing a recognition candidate character group, and a third memory storing a recognition candidate word group,
Further, an image area dividing unit that divides the character string image stored in the first memory into unit areas, and an area combination that can be recognized as at least one character is detected from a combination of the divided unit areas or adjacent areas. Area characteristic detection means, character pattern generation means for generating a character pattern corresponding to the detected area combination and a character pattern corresponding to a unit area included in the area combination based on the respective area characteristics, and A character position range detecting means for detecting which character position of the recognition target word the character pattern can take, and a candidate character selecting means for selecting a candidate character corresponding to each of the character patterns from the second memory. , Selecting, from the third memory, all candidate words having a matching character within the possible position range of the selected candidate character A candidate word selection means, a character recognition apparatus characterized by having a word determining means for determining a word represented by the character string image from the candidate words said selected according to a predetermined criterion.
1のメモリと、認識候補単語群を格納した第3のメモリ
とを少なくとも備え、更に、 前記第1のメモリ内の文字列画像を単位領域毎に分割す
る画像領域分割手段と、 前記単位領域を最小単位として前記文字列画像から所定
の認識対象領域を切り出す画像領域切出し手段と、 前記切り出された認識対象領域毎に文字認識処理を行っ
て前記第3のメモリから全ての候補単語を選択する第2
の候補単語選択手段と、 選択された各候補単語それぞれについて元の文字列画像
における対応領域を検出して複数の領域組み合わせを生
成するとともに、検出された対応領域同士の重なり部及
び対応領域間の間隙部が最小となる領域組み合わせを特
定する領域組み合わせ特定手段と、 この特定された組み合わせに対応する候補単語の組み合
わせを前記文字列画像が表す単語の組み合わせとして決
定する複合単語決定手段と、を有することを特徴とする
文字認識装置。6. A first memory that stores a character string image to be recognized, and a third memory that stores a recognition candidate word group, and further, a character string image in the first memory. An image area dividing unit that divides each unit area, an image area cutting unit that cuts out a predetermined recognition target area from the character string image with the unit area as a minimum unit, and a character recognition process for each cut recognition target area. Second to go and select all candidate words from the third memory
Of the candidate words and the corresponding regions in the original character string image for each of the selected candidate words are detected to generate a plurality of region combinations, and the overlapping portions of the detected corresponding regions and the corresponding regions Area combination specifying means for specifying an area combination with a minimum gap, and compound word determining means for determining a combination of candidate words corresponding to the specified combination as a combination of words represented by the character string image. A character recognition device characterized by the above.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6050865A JP2998054B2 (en) | 1994-03-22 | 1994-03-22 | Character recognition method and character recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6050865A JP2998054B2 (en) | 1994-03-22 | 1994-03-22 | Character recognition method and character recognition device |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH07262322A true JPH07262322A (en) | 1995-10-13 |
JP2998054B2 JP2998054B2 (en) | 2000-01-11 |
Family
ID=12870629
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP6050865A Expired - Fee Related JP2998054B2 (en) | 1994-03-22 | 1994-03-22 | Character recognition method and character recognition device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2998054B2 (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103995816A (en) * | 2013-02-14 | 2014-08-20 | 富士施乐株式会社 | Information processing apparatus, information processing method |
CN104094288A (en) * | 2012-02-17 | 2014-10-08 | 欧姆龙株式会社 | Character-recognition method and character-recognition device and program using said method |
JP2021096800A (en) * | 2019-12-19 | 2021-06-24 | 富士フイルムビジネスイノベーション株式会社 | Image processing apparatus and image processing program |
WO2022254560A1 (en) * | 2021-05-31 | 2022-12-08 | 株式会社KPMG Ignition Tokyo | Data matching using text data generated by optical character recognition |
WO2024013864A1 (en) * | 2022-07-13 | 2024-01-18 | 株式会社東芝 | Character recognition device, character recognition method, and program |
-
1994
- 1994-03-22 JP JP6050865A patent/JP2998054B2/en not_active Expired - Fee Related
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104094288A (en) * | 2012-02-17 | 2014-10-08 | 欧姆龙株式会社 | Character-recognition method and character-recognition device and program using said method |
EP2816506A4 (en) * | 2012-02-17 | 2016-12-21 | Omron Tateisi Electronics Co | Character-recognition method and character-recognition device and program using said method |
CN103995816A (en) * | 2013-02-14 | 2014-08-20 | 富士施乐株式会社 | Information processing apparatus, information processing method |
KR20140102589A (en) * | 2013-02-14 | 2014-08-22 | 후지제롯쿠스 가부시끼가이샤 | Information processing device, information processing method and storage medium |
JP2014157409A (en) * | 2013-02-14 | 2014-08-28 | Fuji Xerox Co Ltd | Information processor and information processing program |
CN103995816B (en) * | 2013-02-14 | 2018-10-02 | 富士施乐株式会社 | Information processing equipment and information processing method |
JP2021096800A (en) * | 2019-12-19 | 2021-06-24 | 富士フイルムビジネスイノベーション株式会社 | Image processing apparatus and image processing program |
WO2022254560A1 (en) * | 2021-05-31 | 2022-12-08 | 株式会社KPMG Ignition Tokyo | Data matching using text data generated by optical character recognition |
WO2024013864A1 (en) * | 2022-07-13 | 2024-01-18 | 株式会社東芝 | Character recognition device, character recognition method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP2998054B2 (en) | 2000-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2637344B2 (en) | Symbol recognition method and device | |
US5577249A (en) | Method for finding a reference token sequence in an original token string within a database of token strings using appended non-contiguous substrings | |
CA2222590C (en) | System and method for reducing the search scope in a lexicon | |
JP2734386B2 (en) | String reader | |
US6978044B2 (en) | Pattern string matching apparatus and pattern string matching method | |
JPS6120038B2 (en) | ||
JP2998054B2 (en) | Character recognition method and character recognition device | |
Lu et al. | Word searching in document images using word portion matching | |
JP3179280B2 (en) | Form processing device including tables | |
JPS6262388B2 (en) | ||
US9224040B2 (en) | Method for object recognition and describing structure of graphical objects | |
JP3361258B2 (en) | Character reader | |
JP2918380B2 (en) | Post-processing method of character recognition result | |
JP2002207960A (en) | Method and program for recognized character correction | |
JP3444561B2 (en) | Character recognition method and character recognition device | |
JPS6111886A (en) | Character recognition system | |
JPH08227427A (en) | Character recognition device | |
JP3138665B2 (en) | Handwritten character recognition method and recording medium | |
JPS5953986A (en) | Character recognizing device | |
JP2935533B2 (en) | Character processing method | |
JPH0474756B2 (en) | ||
JPH0540854A (en) | Post-processing method for character recognizing result | |
JPS60138689A (en) | Character recognizing method | |
JPH04111186A (en) | Character recognition result correction method for address character string | |
JPH0652367A (en) | Post-processing method for character recognition result |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071105 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081105 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091105 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091105 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101105 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111105 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121105 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121105 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131105 Year of fee payment: 14 |
|
LAPS | Cancellation because of no payment of annual fees |