JP4244692B2

JP4244692B2 - 文字認識装置及び文字認識プログラム

Info

Publication number: JP4244692B2
Application number: JP2003128637A
Authority: JP
Inventors: 景泰宮原; 康裕岡田
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2003-05-07
Filing date: 2003-05-07
Publication date: 2009-03-25
Anticipated expiration: 2023-05-07
Also published as: JP2004334461A

Description

【０００１】
【発明の属する技術分野】
この発明は、画像中の文字を認識する文字認識装置及び文字認識プログラムに係るものであり、特に画像中に異なる大きさの文字からなる文字列が存在する場合に、この画像から文字列領域を効率的に抽出する技術に関する。
【０００２】
【従来の技術】
従来の画像中の文字を認識する文字認識装置は、文字パターンの大きさを推測して文字列の存在する領域（文字列領域）を切り出して、この文字列領域内に存在する画素パターンと文字パターンとを照合するものであった。このような文字認識装置では、切り出す文字列領域の大きさの基礎となる文字パターンの大きさの推測方法が重要となる。
【０００３】
このような文字パターンの大きさを推測する方法としては、画像中の特定位置にある部分領域において、文字を構成する画素の分布状況を取得し、この分布状況から文字サイズを推測する技術がある（例えば特許文献１）。
【０００４】
【特許文献１】
特開昭６３−２９２３８１「文字行検出装置」（第１図、第３頁−第５頁）
【０００５】
【発明が解決しようとする課題】
上記のとおり、従来の文字認識装置は入力画像の一部の領域から文字サイズと行間隔を推定している。したがって、このような領域から、基準となる文字の情報を得ても、この文字とは異なる大きさの文字が別の領域に存在している場合には、正しく認識することができないという課題があった。
【０００６】
この発明は、このような課題を解決するためになされたものであり、大きさの異なる複数の文字列が存在する場合であっても、適切に文字列を検出し、認識を行う文字認識装置を提供することを目的とする。
【０００７】
【課題を解決するための手段】
この発明に係る文字認識装置は、入力画像を所定の大きさの文字に適合する第１分割形態の領域に分割するとともに、前記大きさとは異なる大きさの文字に適合する第２分割形態の領域に分割し、さらに前記第１分割形態の各領域と前記第２分割形態の各領域に対して、前記入力画像を分割した方向の画素の列ごとに投影をとった投影値と所定の閾値とを比較し、前記投影値が前記所定の閾値以上となる列が連続する領域を黒区画として抽出する黒区画抽出手段と、
前記第１分割形態に対応する文字の大きさとの差が予め定めた範囲内にある前記黒区画を前記第１分割形態に適合する文字列領域候補とし、隣接する前記第１分割形態に適合する文字列領域候補間の境界線の長さが所定値以上の場合に、前記第１分割形態に適合する文字列領域候補を併合して前記第１分割形態に適合する文字列領域を形成するとともに、前記第２分割形態に対応する文字の大きさとの差が予め定めた範囲内にある前記黒区画を前記第２分割形態に適合する文字列領域候補とし、隣接する前記第２分割形態に適合する文字列領域候補間の境界線の長さが所定値以上の場合に、前記第２分割形態に適合する文字列領域候補を併合して前記第２分割形態に適合する文字列領域を形成する文字列領域抽出手段と、
前記文字列領域から文字切り出し対象領域を定め、各文字領域を切り出す文字切り出し手段と、
前記文字領域の文字パターンを認識する文字認識手段と、を備えたものである。
【０００８】
【発明の実施の形態】
以下、この発明による実施の形態について説明する。
実施の形態１．
図１はこの発明の実施の形態１による文字認識装置の構成を示したブロック図である。図において、領域区画部１と領域区画部２はそれぞれ、図示せぬカメラなどの画像入力手段によって撮像された入力画像を複数の領域に分割するものである。領域区画部１が分割する領域の大きさと領域区画部２が分割する領域の大きさは異なっている。投影区画抽出部３は、入力画像中の領域の画素の値に基づいて、黒画素の存在する領域（黒区画）を抽出するようになっている。文字列領域抽出部４は、投影区画抽出部３によって抽出された黒区画を併合して、文字列が存在する可能性のある領域である文字列領域候補を形成し、さらに文字列領域候補の大きさから文字列領域か否かを決定する部位である。文字切り出し部５は、文字列領域抽出部４によって形成された文字列領域から各文字の領域を切り出すようになっている。そして、文字認識部６は、文字切り出し部５によって切り出された各文字の領域を文字認識する部位である。ここで、領域区画部１と領域区画部２、投影区画抽出部３は黒区画抽出手段を構成するものであり、文字列領域抽出部４と文字切り出し部５は文字領域抽出手段を構成するものである。また文字認識部６は、文字認識手段に対応する。
【０００９】
次にこの文字認識装置の動作を説明する。図２はこの文字認識装置の動作を示すフローチャートである。本処理の前提として、図３に示すような入力画像７が撮像されているものとする。入力画像７は、白と黒の画素からなる２値画像であって、図に示すように、入力画像７には文字列ではない模様８と文字列９〜文字列１１からなる３個の横書きの文字列が存在している。
【００１０】
まず、領域区画部１と領域区画部２は入力画像７全体を部分領域に分割する（ステップＳ１）。領域区画部１は、入力画像７を互いに等しい面積を有する部分領域に分割する。入力画像７を領域区画部１によって分割した状態を、第１の分割形態と呼ぶこととする。また領域区画部２は、同じ入力画像７を第１の分割形態による部分領域とは異なる面積を有する部分領域であって、互いに等しい面積を有する部分領域に分割する。領域区画部２によるこのような分割状態を、第２の分割形態と呼ぶこととする。
【００１１】
図４は領域区画部１による部分領域設定（第１の分割形態）の例を示す図であって、図５は領域区画部２による部分領域設定（第２の分割形態）の例を示す図である。第２の分割形態に比べて、第１の分割形態では幅狭の部分領域に分割されている。
【００１２】
一般に、画像中の文字を認識するためには、画像を複数の部分領域に分割して、各部分領域毎に画素の分布を求めることが基本となる。精度のよい文字認識を行うには、この部分領域を適切に設定することが要求される。ところで、多くの場合画像中には、文字列以外の物体やその影が画像中に撮像されたり、文字列が回転する（画像の水平あるいは垂直座標軸に対して文字列が斜めに撮像される）ことによって、ノイズ（文字を構成しない画素）が混在する。そこでなるべく大きな部分領域を設定すれば、このようなノイズによる画素分布の影響を相対的に小さくすることができる。しかし画像中に小さな文字が存在する場合には、この小さな文字までもノイズとして排除されてしまうおそれがある。
【００１３】
そこで、実施の形態１による文字認識装置では、小さな文字を認識することを目的とする領域分割も行うこととした。小さな文字用の領域分割によって、大きな文字用の領域分割ではノイズとして排除されてしまうような画素の分布に対しても文字認識が可能となるからである。
【００１４】
図４に示した第１の分割形態は、比較的小さな文字を認識することを目的とする部分領域に分割した状態を指している。また図５に示した第２の分割形態は、第１の分割形態に対応する文字よりも大きな文字を認識することを目的とする部分領域に分割した状態を指している。
【００１５】
さらに画像を分割する方向については、横書き文字列を認識する場合には、縦長の短冊状に入力画像を分割する方がよい。部分領域の幅単位でノイズを棄却するためである。一方、縦書き文字列を認識するには、横長の短冊状に入力画像を分割すればよいし、横書きか縦書きか想定できない場合には正方形に近い部分領域に分割する。図４及び図５は縦長の短冊状の部分領域に入力画像を分割したものである。
【００１６】
また、第１及び第２の分割形態の部分領域は、説明を簡単にするために、想定される入力画像中の文字の大きさに基づいて定められるものとする。文字の大きさと大きさが極端に異なる部分領域に分割すると、正しくノイズの棄却が行えなかったり、文字の一部が欠けた状態で検出してしまったりするためである。この例とは異なり、入力画像中の文字の大きさを予測できない場合には、何段階かの文字の大きさに対応した分割形態とその分割形態に対応した領域区画部を準備しておけばよい。したがって当然に、３以上の分割形態に分割するようにしてもよい。
【００１７】
次に、投影区画抽出部３は、第１の分割形態と第２の分割形態の双方に対して、入力画像を分割した方向の画素の列ごとに、投影をとって投影値を算出する（ステップＳ２）。投影値とは、ある領域の一定方向（水平方向、又は垂直方向）の画素の列について、その列上の画素値の総和をいう。この例では、入力画像を水平方向（部分領域が縦長の短冊状をなすように）分割したので、各部分領域を水平方向の画素の列ごとに、画素値の総和を算出する。
【００１８】
続いて、ステップＳ２で算出された投影値に基づいて、黒区画を抽出する（ステップＳ３）。具体的には、各投影値と所定の閾値とを比較し、所定の閾値以上となる場合には１、所定の閾値未満となる場合には０に２値化する。ついで２値化された投影値として１が連続する領域を黒区画、０が連続する領域を白区画とする。その結果として、第１の分割形態から抽出された黒区画の例が図６である。幅狭な第１の分割形態の黒区画１４では、大きな文字列９の領域は分断されている。また第２の分割形態から抽出された黒区画の例が図７である。幅広な第２の分割形態の黒区画１５では、小さくかつ近接位置にある文字列１０と１１の領域が一つの黒区画になっている。また、図３の入力画像７の模様８の領域については、第１の分割形態の黒区画１４では分かれているが、第２の分割形態の黒区画１５では全体が一つの区画となり、その大きさ（高さ）は文字列９や１０とほぼ同じになっている。
【００１９】
次に文字列領域抽出部４は、投影区画抽出部３によって抽出された第１の分割形態と第２の分割形態の各黒区画から、文字列領域を構成する黒区画を抽出する（ステップＳ４）。すなわち、次のような処理を行う。まず第１の分割形態について、図示せぬ記憶装置に記憶されている文字の大きさ（第１の文字の大きさと呼ぶ）を取得する。ここでは、第１の文字の大きさとして、文字の標準高さを取得する。次に第１の分割形態の各黒区画の高さと第１の文字の大きさとして取得した文字の標準高さとを比較する。ここでは例えば許容最小倍率は９０％、許容最大倍率は１１０％を許容範囲として設定しておき、黒区画の高さが文字の標準高さの９０％以上でかつ１１０％以内の値となる場合に、その黒区画を文字列領域を構成する黒区画として採用する。また第２の分割形態についても同様に第２の文字の大きさを取得して比較する。第２の分割形態は第１の分割形態よりも大きいので、第２の文字の大きさも第１の文字の大きさよりも大きく設定される。
【００２０】
この結果、図６及び図７の左下に存在した模様８に対応する黒区画については、選択されない。その理由は、第１の分割形態において、これらの黒区画は第１の文字の大きさの許容範囲を超えて小さいものであり、さらに、第２の分割形態において、これらの黒区画は第１の文字の大きさに近い高さを有しているが、第２の文字の大きさの許容範囲を超えていることを理由とする。このようにして、異なる大きさの文字が混在する入力画像であっても、文字を構成しない画素を原因とするノイズを除去し、誤検出を防止する。
【００２１】
なお、上記の例では横書き文字列を検出するために、縦方向に分割した領域に存在する黒区画の高さと文字の標準高さとを比較した。これに対して縦書き文字列を認識する場合には横方向に領域分割するが、この場合には各領域に存在する黒区画の幅と文字の標準幅とを比較すればよい。縦書き文字列と横書き文字列が混在した入力画像を文字認識の対象とするために、正方形状に部分領域に分割した場合には、高さと幅の双方を比較すればよい。
【００２２】
その結果、文字列領域抽出部４は、当該許容範囲に入っている黒区画を文字列領域候補とする（ステップＳ５）。その後、文字列領域抽出部４は、文字列領域候補を併合して文字列領域を形成する（ステップＳ６）。すなわち、隣接する部分領域に存在する文字列領域候補であって、相互の垂直座標の差が所定の閾値以下の文字列領域候補を一つの文字列領域とする。一方、隣接する部分領域に上端・下端が近接した文字列領域候補が存在しない場合、この文字列領域候補は文字列領域として形成されない。図１０は、第１の分割形態の黒区画から形成された文字列領域の例であり、図３の文字列１０〜１１に対応した文字列領域２１〜２２が形成されている。また図１１は、第２の分割形態の黒区画から形成された文字列領域の例であり、図３の文字列９に対応した文字列領域２４が得られている。
【００２３】
文字切り出し部５は、文字列領域抽出手段５の抽出した文字列領域それぞれに対して、文字切り出し対象領域を定め、従来と同様の手順で文字切り出しを行う（ステップＳ７）。文字切り出し対象領域は、当該領域からはみ出る文字パターンが発生しないよう、例えば文字列領域の上下左右を所定値だけ広げた範囲とする。図１１の文字列領域２４に対して設定した例が図１２の文字切り出し対象領域２５である。その後、文字認識部６が、従来と同様の手順で文字認識を行う（ステップＳ８）。
【００２４】
なお、画像分布の状態から、大きな文字を処理対象とする第２の分割形態の文字列領域と、小さな文字を処理対象とする第１の分割形態の文字列領域が重なることも考えられる。例えば漢字「知」は偏「矢」と旁「口」から構成されているが、偏と旁それぞれのみで単独の漢字と扱うことも可能である。このような場合に第１の分割形態による処理結果からは「矢」と「口」が検出され、第２の分割形態による処理結果からは「知」が検出されることになるので、両者の処理結果は矛盾することになる。
【００２５】
そこで、このような場合には、大きな文字を処理対象とする第２の分割形態の算出結果を優先することとする。これによって、複数の分割形態による処理結果は統合される。なお、このような統合処理は文字切り出し部５あるいは文字認識部６のいずれかで行うようにする。
【００２６】
以上から明らかなように、実施の形態１の文字認識装置によれば、部分領域の大きさと対応付けて抽出すべき文字列の大きさを定め、この大きさと抽出した黒区画の大きさとを比較して文字列領域を抽出するようにし、さらに異なる大きさの部分領域に分割して、それぞれの大きさの部分領域ごとにこのような処理を行うこととしたので、異なる大きさの文字を含む入力画像に対しても、誤認識を防止して適切に文字認識を行うことができる。
【００２７】
さらに、入力画面全体を部分領域に分割したので、文字列の表示位置やその大きさによらず、文字列を適切に検出して認識することができる。
【００２８】
なお、以上の処理では、各分割形態の黒区画の大きさと文字の標準大きさとを比較し、適合する黒区画のみを選択した後に、選択された黒区画から文字列領域を形成することとした。しかしこの方法以外にも、まず隣接する黒区画を併合して文字列領域候補を形成した後に、この文字列領域候補が文字列領域であるかどうかを調べる方法も考えられる。この場合には、上述の説明のように文字列が横書きの場合には文字の標準高さを基準として文字列領域候補を選択する方法（文字列が縦書きの場合には文字の幅、縦書きと横書きが混在するには双方）の他に、次のような文字列領域候補選択方法を採ってもよい。
【００２９】
すなわち、文字列領域候補の幅（文字列が横書きの場合）をこの分割形態に対応する文字の標準幅で除算し、この除算結果が整数値（離散値）に近い値になる場合に、この文字列領域候補を文字列領域であると判定するというものである。文字列が縦書きの場合には、文字の標準高さで除算するようにする。また混在する場合には、いずれか文字の標準高さか標準幅のいずれか一方を選択して除算する。さらに標準幅と標準高さとを乗算して得た標準面積を基準としてもよい。
【００３０】
また、本実施の形態では黒い文字を検出・認識するため、入力画像の投影値から黒区画を求めたが、最初に入力画像を白黒反転させることで、白い文字の検出・認識も可能である。
【００３１】
また、実施の形態１による文字認識装置が果たす文字認識機能をコンピュータに実行させるコンピュータプログラムとして実現することも当然に可能である。この場合には、領域区画部１、領域区画部２、投影区画抽出部３、文字列領域抽出部４、文字切り出し部５、文字認識部６のそれぞれの部位の機能に相当する機能を実行するコンピュータプログラムを順次実行するコンピュータプログラムとすればよい。
【００３２】
実施の形態２．
なお、実施の形態１では、入力画像全体を複数通りの分割形態によって部分領域に分割した。これに対して、図２のフローチャートのステップＳ１において、一つの入力画像を複数の分割形態を組み合わせて分割するようにしてもよい。
【００３３】
例えば、図１３に示すように入力画像を撮像するカメラ２６ａが支柱２６ｂの上端に設置されており、自動車などのナンバープレート２７や２８上に印字されたナンバーを読みとる場合、撮像された入力画像中の文字列は図１４のようになる。図１４において、入力画像２９の上部にはナンバープレート２８上の文字列３０が相対的に小さく表示されている。また入力画像２９の下部にはナンバープレート２７上の文字列３１が相対的に大きく表示されている。このように、ナンバープレート２７と２８上の文字の大きさはもともとほぼ同じ大きさであるが、カメラ２６ａから遠い位置にあるナンバープレート２７上の文字列３０は入力画像２９の上部に小さく、かつ、カメラ２６ａから近い位置にあるナンバープレート２８上の文字列３１は入力画像２９の下部に大きく表示されることになる。
【００３４】
このような場合に、例えば入力画像２９の上半分を第１の分割形態によって領域分割し、下半分を第２の分割形態によって領域分割するようにすれば、実施の形態１と同様に文字列を構成する文字の大きさに適した文字列領域の分割が行える。
【００３５】
以上から明らかなように、実施の形態２による文字認識装置によれば、カメラの撮像位置と文字列が表示されている物体の位置との関係から、入力画像中の文字列の大きさが予め予測できる場合に、入力画像の分割形態を最適に組み合わせて検出・認識することができる。
【００３６】
また実施の形態１のように入力画像全体を単一の分割形態による部分領域に分割する処理を複数回行う方法に比べて、同一の入力画像を複数の分割形態を組み合わせて部分的に分割することによって、大量の画素を処理する手間が省けるので、性能も向上し、さらに計算機資源の節約を図ることも可能となる。
【００３７】
なお、カメラの位置と文字列を表示する物体の位置関係に応じて、入力画像の分割の仕方を変更してもよいことはいうまでもない。例えば、左側に設置されたカメラから右方向に設置されているナンバープレートを撮像するような場合、部分領域の大きな分割形態の対象範囲を入力画像の左側に、部分領域の小さな分割形態の対象範囲を入力画像の右側に設定すればよい。
【００３８】
実施の形態３．
次に、この発明の実施の形態３による文字認識装置について説明する。実施の形態１による文字認識装置は入力画像を白と黒の画素からなる２値画像としたが、実施の形態３による文字認識装置は、多値画像あるいは多階調画像を入力画像とする点で異なる。
【００３９】
図１５は、実施の形態３による文字認識装置の構成を示すブロック図である。図において微分画像抽出部１０１は、多階層画像から微分画像を作成する部位である。その他、実施の形態１による文字認識装置と同一の符号を付した構成要素については、実施の形態１と同様であるので説明を省略する。
【００４０】
次に実施の形態３による文字認識装置の動作について説明する。この文字認識装置の処理を示すフローチャートは実施の形態１と同じく図２を用いる。まず実施の形態１と同じように図示せぬ画像入力手段によって、多階層画像が撮像されて取り込まれる。例えば、この画像は１画素８ビットの濃淡画像であるものとする。図１６はこのような入力画像の例を示す図であって、入力画像３６の中には、白色の文字列３７と黒色の文字列３８が混在しており、さらに文字列３８の両脇には柱３９と柱４０が表示されている。
【００４１】
まず、実施の形態１と同様にステップＳ１において、領域区画部１および２が第１の分割形態及び第２の分割形態による領域に分割する（ステップＳ１）。続いて、入力画像３６の投影値を算出する（ステップＳ２）。実施の形態１による文字認識装置とは異なり、この文字認識装置の入力画像は多階層画像である。そこで、このステップにおいては、まず微分画像抽出部１０１が微分画像を作成し、次にこの微分画像を２値化して投影値を算出する。画像の微分は、例えば総研出版発行「コンピュータ画像処理入門」ｐｐ．１１９〜１２２に記載の各種方法が使用できるが、ここでは、その中のＳｏｂｅｌオペレータによる方法を用いることとする。また、微分値の２値化には、例えば固定の閾値を適用する方法を用いることができる。その結果、図１７に示すように表示されている物体と文字の輪郭部分だけが残った画像が得られる。この微分２値画像から投影値を算出することで、黒文字だけでなく白色の文字列からも黒区画が抽出される。
【００４２】
なお図１７では、図を見やすくするために領域区画部１および２によって分割された分割の境界線を割愛している。またステップＳ１とステップＳ２の処理順序を逆にして、先に微分２値画像を求めてから領域分割を行うようにしてもよい。
【００４３】
次に実施の形態１と同様の手順で、ステップＳ２で算出された投影値に基づいて、第１の分割形態と第２の分割形態のそれぞれについて黒区画を抽出する（ステップＳ３）。微分２値画像の場合、濃度の変化の少ない領域は黒画素の分布が小さいので、黒区画は濃度の変化の大きい文字や物体の輪郭部分に多く検出される。図１８は、第１の分割形態から抽出された黒区画の例を示す図であり、幅狭な第１の分割形態の黒区画４４では、大きな文字列３７の領域は分断されている。また図１９は、第１の分割形態から抽出された黒区画の例を示す図であり、幅広な第２の分割形態の黒区画４５では、文字列３８の領域が隣接した柱３９と柱４０の影響で極度に大きな黒区画となっている。
【００４４】
次に、抽出された黒区画から文字列領域を構成しうる文字列領域候補を選択し（ステップＳ４とステップＳ５）、次に文字列領域候補を併合して文字列領域を形成する（ステップＳ６）。これらの処理は実施の形態１と同様であるので、説明を省略する。
【００４５】
続いて文字列切り出し部５は、実施の形態１と同様に文字パターンの切り出しを行う（ステップＳ７）。但し、実施の形態３における入力画像は多階層画像なので、最初に各文字列領域に含まれる文字が黒文字か白文字かを判定する。そのために、文字列領域の位置を基準に判定対象領域を設定し、入力画像における判定対象領域を２値化して文字列方向への投影を行い、この投影値に基づいて判定を行う。
【００４６】
なお「文字列方向」という語は、文字列を構成する文字の並んでいる方向（縦または垂直・横または水平など）を意味する語であるものとし、「文字列方向への投影を行う」とは、例えば、横書き文字列であれば、水平方向の各画素列について投影データを算出するものである。したがって、例えば画素数が２０（垂直）×１２８（水平）の文字列領域に横書き文字が表示されている場合、同一の垂直座標を有する１２８個の画素からなる水平方向の画素列が２０個存在することになる。このような場合、文字列方向への投影を行う、とは、２０個の水平方向画素列のそれぞれについて投影データを算出することを意味する。
【００４７】
また、判定領域とは文字列領域を含む領域であって、例えば、文字の端が確実に判定領域内に含まれるように、文字列領域を文字列方向と垂直な方向に所定量広げた範囲の領域である。図２０は、このような判定領域を概念的に示すための図であって、白文字列３７についての判定領域４８と黒文字列３８についての判定領域４９を示している。
【００４８】
以下に、判定領域４８を例にとって、この領域に表示されている文字が黒文字であるか白文字であるかを判定する処理（黒文字・白文字判定）について説明する。図２１は判定領域４８について算出した投影値の分布を示すものである。図において、投影値分布５０はこの領域全体の水平方向の投影値を示している。５１は文字列領域３７の中央位置であって、５２と５３はそれぞれ予め設定された投影値の下限値と上限値である。この下限値５２・上限値５３の値は、例えば、判定対象領域の文字列方向の長さに所定の比率を掛けた値とする。
【００４９】
この場合において、まず文字列領域の中央位置５１の投影値から開始して、次に上方向（縦書き文字列の場合は左方向）、および下方向（縦書き文字列の場合は右方向）に一画素分ずつ順次投影値を取得していき、そして各投影値が下限値を下回らないか、さらに上限値を上回らないかを調べる。この結果、初めて下限値を下回るか上限値を上回る画素の位置を文字列の端とみなす。さらに下限値を先に下回った場合には、この文字列を黒色の文字列とみなし、上限値を先に上回った場合には、この文字列を白色の文字列とみなす。
【００５０】
図２１の例でいえば、上下どちらの方向についても下限値５２を下回る前に上限値５３を上回ることになるので、この文字列が白色の文字列であると判断される。一方、図２２に示した例では、投影値５４を文字列領域の中央から参照して行くと、上限値５６を上回る前に下限値５５を下回り、黒色の文字列と判定される。
【００５１】
その後、文字切り出し部５は、実施の形態１と同様の手順で文字切り出し対象領域を定めた後、当該領域の入力画像を２値化して文字切り出し用の２値画像を作成する。さらに黒文字・白文字判定の結果、判定結果が白文字であれば、当該２値画像を白黒反転させた画像を文字切り出しに用いる。以後の処理については、実施の形態１と同様であるので説明を省略する。
【００５２】
以上から明らかなように、実施の形態３の文字認識装置によれば、多階層画像に対しても微分２値画像化したのちに、黒区画を抽出して文字列の大きさと比較し、文字列領域を選択することとしたので、白色・黒色の文字列が混在した画像からでも、処理量を大きく増やすことなく、個々の文字を正しく抽出して認識できる。
【００５３】
なお上述の説明では、領域分割を行った後に、それぞれの分割形態ごとに微分２値化を行うこととしたが、微分２値化は黒区画を抽出するステップＳ３以前に行っておけばよく、例えば入力画像を微分２値化し、その微分２値化後の画像に対して領域分割を行うようにしてもよい。
【００５４】
実施の形態４．
次に実施の形態４による文字認識装置について説明する。実施の形態４の文字認識装置は、第２の分割形態の部分領域を形成する方法に特徴を有するものである。また、実施の形態３の文字認識装置と比して、多階調画像を取扱う方法が異なり、さらに入力画像中には回転を生じた文字列を含むものとする。
【００５５】
実施の形態４による文字認識装置の構成を示すブロック図として図１５を用いる。但し実施の形態４の文字認識装置では、領域区画部２及び投影区画抽出部３、文字列領域抽出部４が実施の形態３と異なっている。領域区画部２は領域区画部１が分割した第１の分割形態による部分領域を併合することによって第２の分割形態による部分領域を形成するようになっている。投影区画抽出部３は、第１の分割形態の部分領域から抽出した黒区画を併合して第２の分割形態の部分領域の黒区画を形成するようになっている。文字列領域抽出部４は、文字列の回転によって生じた黒区画間のずれの影響を排除して文字列領域を形成するようになっている。他の構成要素については、実施の形態３と同様であるので説明を省略する。
【００５６】
図２３は実施の形態４の文字認識装置が文字認識を行う入力画像の例である。図の入力画像５８において、５９は黒地に白色で表示された文字列である。また６２は文字又は文字列でない楕円状の図形であり、さらに文字列６０および６１は回転が生じている文字列である。
【００５７】
次に実施の形態４による文字認識装置の動作を説明する。実施の形態４による文字認識装置における処理は実施の形態１乃至３と同様にフローチャート図２によって示される。まず領域区画部１は、入力画像５８を第１の分割形態による部分領域に分割した後、領域区画部２は、これらの部分領域に基づいて第２の分割形態による部分領域を形成する（ステップＳ１）。すなわち、最初に領域区画部１は、入力画像５８を小さい部分領域に分割する。領域区画部１が分割した部分領域は第１の分割形態としてメモリに記憶させておく。次に領域区画部２は、この小さな部分領域のうち、隣接する２個の部分領域同士を併合して大きな部分領域を形成する。実施の形態１及び３では、領域区画部１と２は独立して入力画像を部分領域に分割したが、実施の形態４では第１の分割形態を利用して第２の分割形態による部分領域を形成する点で異なるものである。
【００５８】
なお、この説明では簡単のために、第１の分割形態による部分領域のうち、隣接する部分領域を２個ずつ併合して、第２の分割形態による部分領域を形成することとするが、第２の分割形態による部分領域を形成する方法はこの限りではない。例えば隣接する部分領域を３個ずつ併合する方法を採用してもよいし、また隣接する３個の部分領域を併合した後に、２等分するような方法で部分領域を形成してもよい。
【００５９】
次に第１の分割形態による部分領域と第２の分割形態による部分領域から投影値を算出して、黒区画を抽出する（ステップＳ２及びステップＳ３）。実施の形態４における入力画像は多階調画像であるので、実施の形態３と同様に微分２値化を行ってから黒区画を抽出する。ただし実施の形態４は、次のような点で実施の形態３とは異なる。すなわち、第１の分割形態による部分領域に対して微分２値化を行い、さらに黒区画の抽出を行った後に、この黒区画を併合して第２の分割形態による黒区画を形成する点である。
【００６０】
具体的には、次のような処理を行う。まず第１の分割形態に対して実施の形態３と同様に微分２値画像や投影値の算出、黒区画の抽出を行う。図２４は、ここで得られた微分２値画像の例である。但し部分領域間の境界線の表示を省略している。さらに図２５は、第１の分割形態に基づいて得られた黒区画の例である。
【００６１】
さらに、すでに第２の分割形態の部分領域を形成するために併合された第１の分割形態の部分領域間で、黒区画が隣接している場合に、これらの黒区画の併合処理を行う。この併合処理は例えば次のいずれかの方法によって行われる。
【００６２】
（１）隣接する第１の分割形態による黒区画を囲む最小の矩形を算出し、この矩形によって囲まれた黒区画の面積の和とこの矩形の面積との比をとって、この比が所定値以上となる場合に、この最小矩形全体を第２の分割形態による黒区画とする。
（２）隣接する第１の分割形態による黒区画の境界線の長さが所定値以上である場合に、これらの黒区画を囲む最小の矩形全体を第２の分割形態による黒区画とする。
【００６３】
図２６は、このような黒区画の併合処理を示す説明図である。図は、第１の分割形態による黒区画１１１と１１２が第２の分割形態による黒区画１１３に併合される様子を示すものである。また第１の分割形態による黒区画１１６は同じ部分領域に属する黒区画１１４と１１５の双方に隣接している。このような場合には、黒区画１１４、１１５、１１６のすべてを囲む最小の矩形が一つの黒区画１１７となる。
【００６４】
一方、第１の分割形態による黒区画１１８と１１９も隣接しているが、このような場合には、上記（１）と（２）のいずれの方法によっても第２の分割形態による黒区画には形成されない。このように、文字列の回転を吸収するために、黒区画のずれを許容しようとすると文字列の回転によって生じた黒区画のずれではない黒区画のずれまで含んでしまうことがある。しかし、上記（１）と（２）の基準に基づいて隣接する黒区画を併合するようにすれば、そのようなケースを排除することが可能となる。
【００６５】
このように第１の分割形態による黒区画を併合して第２の分割形態の黒区画を形成することによって、第２の分割形態に対して微分２値画像や投影値の算出、黒区画の抽出を行う処理を行わなくて済むので、処理を高速に行うことができるようになる。
【００６６】
次に文字列領域抽出部４は、黒区画を併合して文字列領域を形成する（ステップＳ４）。実施の形態４では、文字の標準大きさによって黒区画を選択する代わりに、各黒区画の領域における入力画像の画素濃度に基づいて黒区画を選択することとする。例えば、第１の分割形態の黒区画については黒文字・白文字双方を許容し、第２の分割形態の部分領域に対しては白文字のみを許容するようにする。
【００６７】
黒区画を選択する処理は次のように行う。すなわち、まず黒区画の領域における入力画像の最大画素値と最小画素値との平均値を２値化閾値として算出する。次に、２値化閾値より値の小さい画素の数と２値化閾値以上の値を持つ画素の数とを比較し、前者が大きければ（２値化閾値より黒い画素が多ければ）黒文字と判定し、逆に後者が大きければ白文字と判定する。黒文字・白文字の判定結果が、その黒区画の分割形態で定められた文字の色（黒色・白色）に一致すれば、この黒区画は選択される。一致しない場合は、その黒区画は棄却される。文字列領域の形成（ステップＳ５）は、選択された黒区画だけを併合することによって行われる。
【００６８】
一般的な文字列の画像領域では、文字の画素よりも背景の画素の方が多いため、上記の方法によれば、２値化閾値を適正に設定することで黒文字・白文字が判定できる。実施の形態３で説明した方法では文字列方向の投影を用いるため、文字列の回転角度が非常に大きいと正しく判定できない場合もあるが、この方法では、濃淡分布を使用しているため、回転角度に制約を受けずに判定できる。
【００６９】
ステップＳ５以降の処理については実施の形態３と同様であるので、説明を省略する。
【００７０】
以上から明らかなように、実施の形態４の文字認識装置によれば、第１の分割形態に基づいて第２の分割形態を求めるので、演算量を大幅に削減できる。また上記（１）と（２）の基準により黒区画を併合するので、文字列の回転に強い文字認識が可能となる。
【００７１】
【発明の効果】
この発明による文字認識装置は、入力画像を第１の分割形態の領域に分割するとともに、第１の分割形態の領域とは異なる大きさを有する第２の分割形態の領域にも分割し、さらに双方の分割形態の領域から抽出された黒区画から、それぞれの分割形態に適合する文字列領域を形成するようにしたので、大きさの異なる複数の文字列が存在する場合であっても、適切に文字列を検出し、認識を行うことができるという極めて優れた効果を有するものである。
【図面の簡単な説明】
【図１】この発明の実施の形態１の文字認識装置の構成を示すブロック図である。
【図２】この発明の実施の形態１の文字認識装置のフローチャートである。
【図３】この発明の実施の形態１の入力画像の例を示す図である。
【図４】この発明の実施の形態１の第１の分割形態を示す図である。
【図５】この発明の実施の形態１の第２の分割形態を示す図である。
【図６】この発明の実施の形態１の第１の分割形態から抽出された黒区画の例を示す図である。
【図７】この発明の実施の形態１の第２の分割形態から抽出された黒区画の例を示す図である。
【図８】この発明の実施の形態１の第１の分割形態から抽出された文字列領域を構成する黒区画の例を示す図である。
【図９】この発明の実施の形態１の第２の分割形態から抽出された文字列領域を構成する黒区画の例を示す図である。
【図１０】この発明の実施の形態１の第１の分割形態から抽出された文字列領域候補の例を示す図である。
【図１１】この発明の実施の形態１の第２の分割形態から抽出された文字列領域候補の例を示す図である。
【図１２】この発明の実施の形態１の文字列切り出し領域の例を示す図である。
【図１３】この発明の実施の形態２の入力画像を撮像するカメラとナンバープレートの位置関係を示す説明図である。
【図１４】この発明の実施の形態２の入力画像の例を示す図である。
【図１５】この発明の実施の形態３の文字認識装置の構成を示すブロック図である。
【図１６】この発明の実施の形態３の入力画像の例を示す図である。
【図１７】この発明の実施の形態３の微分２値画像の例を示す図である。
【図１８】この発明の実施の形態３の第１の分割形態から抽出された黒区画の例を示す図である。
【図１９】この発明の実施の形態３の第２の分割形態から抽出された黒区画の例を示す図である。
【図２０】この発明の実施の形態３の判定領域の説明図である。
【図２１】この発明の実施の形態３の白文字についての判定領域の投影値の分布を示す図である。
【図２２】この発明の実施の形態３の黒文字についての判定領域の投影値の分布を示す図である。
【図２３】この発明の実施の形態４の入力画像の例を示す図である。
【図２４】この発明の実施の形態４の微分２値画像の例を示す図である。
【図２５】この発明の実施の形態４の第１の分割形態から抽出された黒区画の例を示す図である。
【図２６】この発明の実施の形態４の黒区画の併合処理を示す説明図である。
【符号の説明】
１、２領域区画部
３投影区画抽出部
４文字列領域抽出部
５文字切り出し部
６文字認識部
１０１微分画像抽出部

Claims

入力画像を所定の大きさの文字に適合する第１分割形態の領域に分割するとともに、前記大きさとは異なる大きさの文字に適合する第２分割形態の領域に分割し、さらに前記第１分割形態の各領域と前記第２分割形態の各領域に対して、前記入力画像を分割した方向の画素の列ごとに投影をとった投影値と所定の閾値とを比較し、前記投影値が前記所定の閾値以上となる列が連続する領域を黒区画として抽出する黒区画抽出手段と、
前記第１分割形態に対応する文字の大きさとの差が予め定めた範囲内にある前記黒区画を前記第１分割形態に適合する文字列領域候補とし、隣接する前記第１分割形態に適合する文字列領域候補間の境界線の長さが所定値以上の場合に、前記第１分割形態に適合する文字列領域候補を併合して前記第１分割形態に適合する文字列領域を形成するとともに、前記第２分割形態に対応する文字の大きさとの差が予め定めた範囲内にある前記黒区画を前記第２分割形態に適合する文字列領域候補とし、隣接する前記第２分割形態に適合する文字列領域候補間の境界線の長さが所定値以上の場合に、前記第２分割形態に適合する文字列領域候補を併合して前記第２分割形態に適合する文字列領域を形成する文字列領域抽出手段と、
前記文字列領域から文字切り出し対象領域を定め、各文字領域を切り出す文字切り出し手段と、
前記文字領域の文字パターンを認識する文字認識手段と、を備えたことを特徴とする文字認識装置。
前記黒区画抽出手段は、前記入力画像の所定部分を前記第１分割形態による領域に分割し、前記入力画像のうち前記所定部分を除いた部分を前記第２分割形態による領域に分割することを特徴とする請求項１に記載の文字認識装置。
前記黒区画抽出手段は、隣接する複数の前記第１分割形態の領域を併合し、前記第２分割形態の領域を形成することを特徴とする請求項１に記載の文字認識装置。
前記黒区画抽出手段は、前記第１分割形態の領域から前記黒区画を抽出した後に、互いに隣接する複数の前記第１分割形態の領域とその黒区画とを併合して、前記第２分割形態の各領域とその黒区画を形成することを特徴とする請求項１に記載の文字認識装置。
前記黒区画抽出手段は、前記入力画像に代えて、前記入力画像を微分２値化した画像を第１分割形態の領域と第２分割形態の領域とに分割することを特徴とする請求項１乃至４のいずれか一に記載の文字認識装置。
前記黒区画抽出手段は、前記第１分割形態の領域と前記第２分割形態の領域とを微分２値化し、該微分２値化された領域から前記黒区画を抽出することを特徴とする請求項１乃至４のいずれか一に記載の文字認識装置。
入力画像を所定の大きさの文字に適合する第１分割形態の領域に分割するとともに、前記大きさとは異なる大きさの文字に適合する第２分割形態の領域に分割し、さらに前記第１分割形態の各領域と前記第２分割形態の各領域に対して、前記入力画像を分割した方向の画素の列ごとに投影をとった投影値と所定の閾値とを比較し、前記投影値が前記所定の閾値以上となる列が連続する領域を黒区画として抽出する黒区画抽出手順と、
前記第１分割形態に対応する文字の大きさとの差が予め定めた範囲内にある前記黒区画を前記第１分割形態に適合する文字列領域候補とし、隣接する前記第１分割形態に適合する文字列領域候補間の境界線の長さが所定値以上の場合に、前記第１分割形態に適合する文字列領域候補を併合して前記第１分割形態に適合する文字列領域を形成するとともに、前記第２分割形態に対応する文字の大きさとの差が予め定めた範囲内にある前記黒区画を前記第２分割形態に適合する文字列領域候補とし、隣接する前記第２分割形態に適合する文字列領域候補間の境界線の長さが所定値以上の場合に、前記第２分割形態に適合する文字列領域候補を併合して前記第２分割形態に適合する文字列領域を形成する文字列領域抽出手順と、
前記文字列領域から文字切り出し対象領域を定め、各文字領域を切り出す文字切り出し手順と、
前記文字領域の文字パターンを認識する文字認識手順と、を逐次コンピュータに実行させることを特徴とする文字認識プログラム。