WO2006080568A1

WO2006080568A1 - 文字読取り装置、文字読取り方法及び該文字読取り装置に用いられる文字読取り制御プログラム

Info

Publication number: WO2006080568A1
Application number: PCT/JP2006/301898
Authority: WO
Inventors: Eiki Ishidera
Original assignee: Nec Corporation
Priority date: 2005-01-31
Filing date: 2006-01-30
Publication date: 2006-08-03
Also published as: JPWO2006080568A1; JP4919171B2

Abstract

部分文字列抽出部４で、ラベリングで得られた矩形の任意の２つから射影変換やアフィン変換に対して安定な特徴量が求められ、この特徴量を辞書と比較することにより、部分文字列が抽出される。文字列候補抽出部５では、部分文字列が直線的に連続し、かつ定められたピッチになっているか否かの評価も射影変換に安定な特徴量に基づいて行われ、斜めから撮影されたナンバープレートに対して、一連番号に対応する文字列が抽出される。周辺情報抽出部６では、一連番号の文字列に関する情報を用いて射影変換やアフィン変換に対して安定な特徴量が求められ、この特徴量を辞書と比較することにより、斜めから撮影されたナンバープレートに対しても、文字列が高速かつ精度良く抽出される。

Description

明細書文字読取り装置、文字読取り方法及び該文字読取り装置に用いられる文字読取り制御プログラム技術分野

この発明は、文字読取り装置、文字読取り方法及び該文字読取り装置に用いられる文字読取り制御プログラムに係り、特に、自動車のナンバープレートなどのような文字を含む画像を斜め方向から撮影した入力画像の文字を読み取る場合に用いて好適な文字読取り装置、文字読取り方法及び該文字読取り装置に用いられる文字読取り制御プログラムに関する。背景技術

自動車のナンパ一プレートなどのような文字を含む画像を C C D (電荷結合素子）カメラなどで斜め方向から撮影した入力画像の文字を読み取る文字読取り装置は、従来から多く提案されている。このような文字読取り装置は、正面から撮影されずに斜め方向から撮影されたことに起因する幾何学変形を受けたナンバープレートの画像を補正して認識するようになっている。

従来、この種の技術としては、たとえば、次のような文献に記載されたものがある。

特開平 0 7— 1 1 4 6 8 9号公報（以下、文献 1 ) に記載された車両登録番号認識方法では、ナンバープレートの文字部の外接四辺形を正面から見た場合の形状が標準四辺形として記憶され、車両走行路がビデオカメラで撮像され、車両検出に対応して走行車両の前景又は後景を含む画像が取り込まれる。

そして、ナンバープレート部の文字が切り出され、切り出された文字部の外接四辺形が求められ、この外接四辺形が上標準四辺形と相似形状となるような座標変換パラメ一夕セットが決定され、この座標変換パラメ一タセットを用いて座標変換が行われ、ナンバープレート部の正対画像を得て、同正対画像から各文字が認識される。これにより、ナンバープレートと車体の色が同系色の場合にエッジ検出が困難あるいは処理が複雑で時間がかかるという問題点が解決する。

特開 2 0 0 2— 0 0 7 9 6 1号公報（以下、文献 2 ) に記載されたナンバープレート認識装置では、ナンバープレートを含む車両の画像が撮像装置により斜め方向から撮像されて画像記憶装置に記憶される場合、画像切り出し装置により撮像画像からナンバープレート画像が抽出及び切り出された後、画像補正装置により、同ナンバープレート画像の大きさやナンバープレート上の一連番号数字の位置や大きさに基づいて、同ナンバープレート画像を斜め方向から撮像したことによる歪みが補正されると共に、画像正規化装置により同補正後のナンバープレート画像が一定の大きさに正規化される。この後、文字認識装置により、ナンバープレート画像に対して文字認識処理が行われる。これにより、様々な距離や角度で撮影される車両の画像から簡易かつ正確なナンバープレートの認識が行われる。ところが、上記各文献に記載された技術では、先ず始めにナンバープレート部の一連番号の文字が切り出されてからナンバープレートの画像を補正するようになっているが、幾何学変形が大きくなると、ナンバープレートから文字を切り出すこと自体が困難になるという問題点がある。この問題に対処する技術として、江浪他著、第 1 0回画像センシングシンポジウム講演論文集 B— 1 0、「マッチドフィルタを用いたナンバープレート位置認識法、一距離 '向きの影響排除—」 P. 69-74 (以下、文献 3 ) に記載されたものがある。

この文献 3に記載されたナンバープレート位置認識法では、幾何学変形を受けた多数のナンバープレート画像が参照画像として予め用意され、マッチドフィル夕を用いて全ての参照画像と入力画像との間でマッチドフィルタリング（相関）が行われる。

しかしながら、上記従来の技術では、次のような問題点があった。

すなわち、文献 3に記載されたナンバープレート位置認識法では、全ての参照画像と入力画像との間でマッチドフィルタリングが行われるため、非常に多くの計算量を必要とし、処理時間が長くなるという問題点がある。

この発明は、上述の事情に鑑みてなされたもので、文字を含む画像を斜め方向から撮影した入力画像の文字を読み取る場合でも、幾何学的な変形に頑健で高速かつ高精度で文字を読み取ることが可能な文字読取り装置を提供することを目的としている。発明の開示

上記課題を解決するために、請求項 1記載の発明は、文字を含む入力画像から前記文字として認識される候補となる文字候補領域を抽出する文字候補領域抽出手段と、前記文字候補領域から連続する複数の文字の集合である部分文字列を抽出する部分文字列抽出手段と、前記部分文字列の組合せから文字列候補を抽出する文字列候補抽出手段と、前記文字列候補に対して文字認識を行う文字認識手段とを備えてなることを特徴としている。

請求項 2記載の発明は、前記部分文字列抽出手段が、前記文字候補領域の任意の組合せから前記入力画像に対する射影変換又はァフィン変換に対して安定な特徴量を求め、この特徴量を用いて前記文字候補領域の位置関係の評価を行い、この評価結果に基づいて前記部分文字列を抽出する構成であることを特徴としている。

請求項 3記載の発明は、前記特徴量が、任意の 2つの文字候補領域の高さ、幅及び距離から求められる複比であることを特徴としている。

請求項 4記載の発明は、前記部分文字列抽出手段は、前記特徴量を予め作成された辞書のデータと比較し、この比較結果に基づいて前記部分文字列を抽出する構成とされていることを特徴としている。

請求項 5記載の発明は、前記辞書には、前記特徴量の取り得る値の範囲がデー夕として記憶されることを特徴としている。

請求項 6記載の発明は、前記文字列候補の周辺に記載されている情報を表す周辺情報を抽出する周辺情報抽出手段が設けられ、前記文字認識手段は、前記文字列候補に加え、前記周辺情報を認識する構成であることを特徴としている。

請求項 7記載の発明は、前記周辺情報抽出手段は、前記文字列候補から基底べクトルを求め、前記文字候補領域の位置関係を前記基底べクトルの係数で表し、該係数を用いて前記位置関係の評価を行い、この評価結果に基づいて前記文字列候補の周辺情報を抽出する構成であることを特徴としている。

請求項 8記載の発明は、前記周辺情報抽出手段が、前記係数を、予め作成された辞書のデータと比較し、この比較結果に基づいて前記文字列候補の周辺情報を抽出する構成であることを特徴としている。

請求項 9記載の発明による文字読取り方法は、文字を含む入力画像から前記文字として認識される候補となる文字候補領域を抽出する文字候補領域抽出処理と、前記文字候補領域から連続する複数の文字の集合である部分文字列を抽出する部分文字列抽出処理と、前記部分文字列の組合せから文字列候補を抽出する文字列候補抽出処理と、前記文字列候補に対して文字認識を施す文字認識処理とを行うことを特徴としている。

請求項 1 0記載の発明は、前記部分文字列抽出処理において、前記文字候補領域の任意の組合せから前記入力画像に対する射影変換又はァフィン変換に対して安定な特徴量を求め、当該特徴量を用いて前記文字候補領域の位置関係の評価を行い、この評価結果に基づいて前記部分文字列を抽出することを特徴としている。請求項 1 1記載の発明は、前記特徴量を、任意の 2つの前記文字候補領域の高さ、幅及び距離から求められる複比とすることを特徴としている。

請求項 1 2記載の発明は、コンピュータ上で実行され、前記コンピュータを文字読取り装置として制御させるための文字読取り制御プログラムであって、前記コンピュータに、文字を含む入力画像から前記文字として認識される候補となる文字候補領域を抽出する文字候補領域抽出機能と、前記文字候補領域から連続する複数の文字の集合である部分文字列を抽出する部分文字列抽出機能と、前記部分文字列の組合せから文字列候補を抽出する文字列候補抽出機能と、前記文字列候補に対して文字認識を行う文字認識機能を実行させることを特徴としている。請求項 1 3記載の発明は、前記部分文字列抽出機能において、前記文字候補領域の任意の組合せから前記入力画像に対する射影変換又はァフィン変換に対して安定な特徴量を求め、当該特徴量を用いて前記文字候補領域の位置関係の評価を行い、この評価結果に基づいて前記部分文字列を抽出する処理を実行することを特徴としている。

この発明の構成によれば、文字候補領域抽出手段で、文字を含む入力画像から文字として認識される候補となる文字候補領域が抽出され、部分文字列抽出手段で、同文字候補領域から連続する複数の文字の集合である部分文字列が抽出され、文字列候補抽出手段で、同部分文字列の組合せから文字列候補が抽出され、文字認識手段で、同文字列候補に対して文字認識が行われるので、文字を含む画像を斜め方向から撮影した入力画像の文字を読み取る場合でも、幾何学的な変形に頑健で高速かつ高精度で文字を読み取ることができる。

また、部分文字列抽出手段は、文字候補領域の任意の組合せから入力画像に対する射影変換又はァフィン変換に対して安定な特徴量を求め、この特徴量を用いて同文字候補領域の位置関係の評価を行い、この評価結果に基づいて部分文字列を抽出するので、文字を含む画像を斜め方向から撮影した入力画像の文字を読み取る場合でも、幾何学的な変形に頑健で高速かつ高精度で文字を読み取る文字読取り装置を実現できる。また、周辺情報抽出手段は、文字列候補の周辺に記載されている情報を表す周辺情報を抽出するので、文字を含む画像を斜め方向から撮影した入力画像の文字を読み取る場合でも、幾何学的な変形に頑健で高速かつ高精度で文字を読み取る文字読取り装置を実現できる。図面の簡単な説明

図 1は、この発明の実施例である文字読取り装置の電気的構成を示すブロック図である。

図 2は、図 1の文字読取り装置の動作を説明するフローチャートである。

図 3は、部分文字列作成時に用いる特徴量の例を説明する図である。

図 4は、文字列候補の評価に用いる複比の例を示す図である。

図 5は、ひらがなを抽出する際に用いる複比の例を示す図である。

図 6は、分類番号を抽出する際に用いる基底べクトルの例を示す図である。図 7は、碁準矩形に隣接する矩形を抽出する際の例を示す図である。

図 8は、陸運局名の構成要素を抽出する例を示す図である。

図 9は、陸運局名の部分の左端検出に用いる基底べクトルの例を示す図である。図 1 0は、複数の切り出し候補から認識結果を抽出する例を示す図である。 1：画像入力部（画像入力手段）、 2：文字候補色抽出部（文字候補色抽出手段）、 3 ：文字候補領域抽出部（文字候補領域抽出手段）、 4：部分文字列抽出部（部分文字列抽出手段)、 5 ：文字列候補抽出部（文字列候補抽出手段）、 6 ：周辺情報抽出部（周辺情報抽出手段)、 7 ：文字認識部（文字認識手段）発明を実施するための最良の形態

文字候補領域の任意の組合せから入力画像に対する射影変換又はァフィン変換に対して安定な特徴量を求め、この特徴量を用いて文字候補領域の位置関係の評価を行い、この評価結果に基づいて部分文字列を抽出し、同部分文字列の組合せから文字列候補を抽出し、同文字列候補に対して文字認識を行う文字読取り装置を提供する。 (実施例）

この例の文字読取り装置は、同図に示すように、画像入力部 1と、文字候補色抽出部 2と、文字候補領域抽出部 3と、部分文字列抽出部 4と、文字列候補抽出部 5と、周辺情報抽出部 6と、文字認識部 7と、制御部 8とから構成されている。画像入力部 1は、たとえば C C D (電荷結合素子）カメラなどで構成され、撮影の対象となる物体の画像を入力画像として取り込む。文字候補色抽出部 2は、画像入力部 1で取り込まれた入力画像から文字に対応する色成分を文字候補色として抽出する。

文字候補領域抽出部 3は、文字候補色抽出部 2で抽出された文字候補色をラベリングして、文字として認識される候補となる文字候補領域を抽出する。このラベリングとは、互いに連結している画素に対して同じラベル（番号）を付け、非連結の画素には異なるラベルを与える処理である。これにより、独立している画素集塊の計数を行ったり、連結している成分の形状解析が容易に行われる。

部分文字列抽出部 4は、文字候補領域抽出部 3で抽出された文字候補領域から同一文字列中で連続する複数の文字の集合である部分文字列を抽出する。

特に、この実施例では、部分文字列抽出部 4は、字候補領域の任意の組合せから、画像入力部 1で取り込まれた画像に対する射影変換又はァフィン変換に対して安定な特徴量を求め、この特徴量を用いて同文字候補領域の位置関係の評価を行い、この評価結果に基づいて部分文字列を抽出する。上記特徴量は、任意の 2 つの文字候補領域の高さ、幅及び距離から求められる複比である。そして、部分文字列抽出部 4は、上記特徴量を予め作成された辞書と比較し、この比較結果に基づいて部分文字列を抽出する。

文字列候補抽出部 5は、部分文字列抽出部 4で抽出された部分文字列の組合せから文字列候補を抽出する。

周辺情報抽出部 6は、文字列候補抽出部 5で抽出された文字列候補の周辺に記載されている情報を表す周辺情報を抽出する。特に、この実施例では、周辺情報抽出部 6は、文字列候補から基底ベクトルを求め、文字候補領域の位置関係を同基底ベクトルの係数で表し、同係数を用いて同位置関係の評価を行い、この評価結果に基づいて同文字列候補の周辺情報を抽出する。この場合、周辺情報抽出部

6は、上記係数を、予め作成された辞書と比較し、この比較結果に基づいて上記文字列候補の周辺情報を抽出する。

文字認識部 7は、文字列候補抽出部 5で抽出された文字列候補、及び周辺情報抽出部 6で抽出された周辺情報に対して文字認識を行う。制御部 8は、この文字読取り装置全体を制御する C P U (中央処理装置） 8 a及び同 C P U 8 aを動作させるための文字読取り制御プログラムが記録された R OM (リード ·オンリ · メモリ） 8 bを有している。

図 2は、図 1の文字読取り装置の動作を説明するフローチヤ一ト、図 3が、部分文字列作成時に用いる特徴量の例を説明する図、図 4は、文字列候補の評価に用いる複比の例を示す図、図 5が、ひらがなを抽出する際に用いる複比の例を示す図、図 6は、分類番号を抽出する際に用いる基底ベクトルの例を示す図、図 7 が、基準矩形に隣接する矩形を抽出する際の例を示す図、図 8は、陸運局名の構成要素を抽出する例を示す図、図 9が、陸運局名の部分の左端検出に用いる基底ベクトルの例を示す図、及び図 1 0が、複数の切り出し候補から認識結果を抽出する例を示す図である。

これらの図を参照して、この例の文字読取り装置に用いられる文字読取り方法の処理内容について説明する。

この文字読取り装置では、撮影の対象となる物体の画像が画像入力部 1により入力画像として取り込まれる（ステップ A 1、画像入力処理）。入力画像は、文字候補色抽出部 2で文字に対応する色成分が文字候補色として抽出される（ステツプ A 2、文字候補色抽出処理)。この場合、たとえば、入力画像中の出現頻度の高い色成分が主要色として抽出され、同入力画像が、抽出された主要色毎の画像に分解され、分解された画像のうちの主要色が所定の関係にある複数の画像が組み合わされ、これらの組合せ画像がそれぞれ文字候補色とされる。文字候補領域抽出部 3では、文字候補色をラベリングすることにより文字候補領域が抽出される (ステップ A 3、文字候補領域抽出処理）。この文字候補領域は、たとえば、文字候補色の画素の連結成分の情報及び同連結成分の外接矩形情報からなる。

部分文字列抽出部 4では、入力された文字候補領域の外接矩形情報から、文字列中の連続する複数文字の集合になる可能性の高い矩形が部分文字列として抽出される（ステップ A4、部分文字列抽出処理)。

この部分文字列抽出処理におけるアルゴリズムについて説明する。

カメラで撮影された看板などの画像は、幾何学的な変形を受けているが、その変形過程は、射影変換で表現される。幾何学的な変形は、 CCDなどの画像センザの姿勢（速度、方向、距離）と、撮影対象物から同画像センサの投影中心までの距離によって表現されるが、この射影変換に対して不変な量として複比がある。たとえば、図 3に示すように、連結成分の外接矩形に対して、ある 2つの外接矩形から、 X軸上に点 A， B, P, Qを取ると、次式（1) で表される特徴量 1として複比が求められる。また、その他の特徴量として、次式（2) 乃至（5) で表される特徴量 2乃至特徴量 5が求められる。

特徴量 1= (APZPB) / (AQ/QB)

特徴量 2= (Wl /HI ) / (W2 ZH2 )

特徴量 3=W1 /HI

特徴量 4=D12/ (Wl +W2 +H1 +H2

特徴量 5 =D 12 (Wl +W2 )

特徴量 1 (複比）は、文字幅及び文字間隔が一定の場合、比較的安定な量となるが、文字を外接矩形で近似しているため、射影変換に対しては、完全に不変な量とはならない。そこで、特徴量 1を部分文字列特徴評価用辞書と比較し、この比較結果に基づいて上記 2つの矩形が部分文字列であると判定される。この部分文字列特徴評価用辞書には、たとえば、特徴量 1の取り得る値の範囲がデ一夕として記憶されている。部分文字列特徴評価用辞書は、たとえば、幾何学的変形を受けている看板やナンバープレートの画像を複数枚準備し、これらの画像から連続する 2文字の外接矩形を取り出しておき、それらの特徴量 1を求め、同特徴量 1の最大値と最小値をデータとして記憶することにより作成される。

また、部分文字列特徴評価用辞書は、特徴量 1の平均値を記憶したり、特徴量

1の平均値及び分散を記憶したりすることにより作成される。また、部分文字列特徴評価用辞書は、部分文字列の種類毎に作成することも可能であり、たとえば、ナンバープレートの一連番号（2行目に記載の 4桁の数字）に使われる文字は、

「 ·」、「―」、「 1 J、「2」〜「0」の 1 2種類であるが、これを、「 ·」、「一」、

「1」、「N] (Nは 1以外の数字）の 4種類に大別すると、部分文字列として可能な組合せは、「· ·」、「· 1」、「· Ν」、「1 1」、「 1 Ν]、「 1一」、「Ν 1」、「Ν Ν」、

「Ν—」、「― 1」、「― Ν」の 1 1通りになり、これらの 1 1種類毎に特徴量 1の範囲（最大値及び最小値）を記憶したり、特徴量 1の平均値を記憶したり、特徴量 1の平均値と分散を記憶したりすることにより作成される。

また、ある 2つの矩形が部分文字列になるか否かを評価する場合、特徴量 1以外の特徴量を用いることも可能であり、たとえば、特徴量 2として 2つの矩形の縦横比の比率を求め、この量によって、ある 2文字が同じような縦横比になっているか否かの評価を行うことにより、部分文字列の抽出が行われる。また、たとえば「1一」のように、縦横比が異なる部分文字列の場合にも、その比率を部分文字列特徴評価用辞書と比較することにより、部分文字列として判定される。また、特徴量 3として、ある部分文字列の先頭の文字の縦横比を求め、特徴量 3及び特徴量 2を同時に用いることにより、部分文字列が「1一」であるとか、

「 · 1」であるといったことが大略的に判定される。このような判定が行われると、たとえばナンバープレートの場合、「 '一」という組合せや「8 ·」という部分文字列は有り得ないので、これらの部分文字列を抽出しないようにすることが可能になる。また、特徴量 3を用いると、 1文字目の縦横比が大きすぎたり小さすぎると判定された場合、「 ·」、「一」、「1」及び「N] の 4種類に大別された文字のいずれにも分類されないとして、このような文字を 1文字目とする部分文字列を作成しないようにすることもできる。

また、特徴量 4又は特徴量 5を用いることも可能である。すなわち、ナンバープレートの文字に使われる文字の「 ·」と「1」の関係を評価する場合、文字幅が同じであるので、特徴量 5は比較的安定している。一方、文字の「5」と「1」のような場合は、両者の文字幅が大きく異なるため、特徴量 5では安定にならないが、文字高さが同じになるので、特徴量 4は比較的安定になる。

これらの特徴量 2から特徴量 5も、特徴量 1と同様に、部分文字列特徴評価用辞書を作成することが可能であり、各特徴量の範囲（最大値と最小値）を記憶したり、各特徴量の平均値を記憶したり、各特徴の平均値及び分散を記憶することもできる。また、特徴量 1から特徴量 5までを 5次元の特徴量と考え、平均べクトル及び共分散行列を記憶することにより部分文字列特徴評価用辞書が作成される。

そして、ある 2つの外接矩形の組合せに対して、式（1 ) 乃至式（5 ) に示す特徴量を計算によって求め、これらの特徴量を予め部分文字列特徴評価用辞書に格納されたデータと比較することによって、今着目している 2つの外接矩形が文字列中の連続する 2文字（部分文字列）であるか否かが判定される。この判定処理を、あらゆる 2つの外接矩形の組合せに対して行うことにより、画像中から複数の部分文字列が抽出される。部分文字列の情報としては、部分文字列の構成要素である 1文字目の矩形と 2文字目の矩形情報が格納され、たとえば、ナンバープレートの一連番号の場合には、どのような部分文字列であるかを表す情報（たとえば、「 · ·」や「1 N」、「N—」など）も同時に格納される。

部分文字列抽出部 4で抽出された部分文字列は、文字列候補抽出部 5で連結され、同文字列候補抽出部 5から文字列候補として出力される（ステップ A 5、文字列候補抽出処理）。この文字列候補抽出処理におけるアルゴリズムについて説明する。たとえば、部分文字列が 2つの文字候補矩形から成っている場合、部分文字列を連結することにより文字列候補を作成する際に、ある 2つの部分文字列が連結するためには、一方の部分文字列の 2文字目が他方の部分文字列の 1文字目になっていることが条件となる。この条件により、入力された部分文字列情報から複数の文字列候補が抽出されることもある。

また、この条件だけでなく、文法的により詳しい評価を行うこともできる。たとえば、ナンバープレートの一連番号の場合、「· 1」という部分文字列と「1一」という部分文字列が連結することは文法的に有り得ないので、このような部分文字列は作成しないようにすることもできる。

また、抽出したい文字列候補が一連番号だった場合には、文字列に含まれる文字の数が 4文字又は 5文字に限られているので、 3つか 4つの部分文字列から成る文字列候補のみが一連番号の候補として抽出される。

また、上記のような文法的な評価を行った後、連結された部分文字列の各要素となる矩形の中心点の配置を評価し、直線的に並んでいるか否かを判定して、直線的に並んでいる文字列候補だけを一連番号の候補とする。直線的に並んでいるか否かの評価には、各矩形の中心点の座標を用いて、たとえば、回帰分析や最小自乗法などから残差を求め、これが予め決められた閾値以下であれば直線的であると判定したり、主成分分析による第一主成分の寄与度が予め決められた閾値以上であれば、直線的であると判定される。

また、一連番号の候補を抽出する場合、図 4に示すように、点 A s， B s， P s， Q sを取り、複比（A s P s Z P s B s ) / (A s Q s /Q s B s ) を計算し、この値が予め定められた一定の範囲内に入っている文字列候補のみを一連番号の候補とする。ここで、複比（A s P s Z P s B s ) / (A s Q s /Q s B s ) の範囲を予め決めるには、たとえば、幾何学的変形を受けているナンバープレートの画像を複数枚準備し、これらの画像から一連番号のハイフン以外の外接矩形を取り出しておき、それらの矩形中心の X座標から、それぞれ複比を求めて最大値及び最小値を記憶することにより範囲を決めることができ、また、複比の平均値を記憶したり、同平均値及び分散を記憶することにより、範囲を決めることも可能である。

図 4のように点 A s , B s , P s , Q sを取る意義について説明する。ハイフンの有無は記載されている文字に依存するが、八ィフン以外の文字の中心点の配置は全ての場合で基本的に同じになるという性質があるので、ハイフン以外の文字の中心点を取れば、ハイフンの有無にかかわらず全ての一連番号に対して同じ処理を行うことができる。

周辺情報抽出部 6では、文字列候補抽出部 5で抽出された文字列候補の周辺に記載されている情報が抽出される（ステップ A 6、周辺情報抽出処理）。たとえば、ナンバープレートの場合、一連番号が抽出された後に、ひらがな、陸運局名及び分類番号に対応する情報が抽出される。この周辺情報抽出処理におけるアルゴリズムについて説明する。

まず、一連番号の候補が抽出された後に、ひらがなを抽出する場合、図 5 (a) に示すように、文字列候補の中心点から求めた直線上で、ひらがなの中心点が存在する個所を点 A1 として点 Bl , Q1， P1を設定すると、複比が計算される。たとえば、幾何学的変形を受けているナンバープレートの画像を複数枚準備し、これらの画像から一連番号及びひらがなの外接矩形を取り出しておき、図 5 (a) に示すように、点 Al , Bl , Ql , P1 を取って複比の平均値を予め求め、ひらがなの中心点を推定する際には、予め求めておいた複比の平均値から逆算することにより、ひらがなの中心点が推定される。

また、図 5 (b) に示すように、点 A2 , B2 , Q2 , P2 を設定して同様の処理を行うことも可能であるし、点 A1 と点 A2 との平均値を取って、ひらがなの中心点とすることも可能である。この場合、ひらがなが記載されている中心点だけでなく、その範囲も推定し、推定された範囲内に存在する全ての矩形を組み合わせたものが、ひらがなの領域であると判定される。

たとえば、一連番号の 1文字目と 2文字目の中心間距離 PI Q1 、及び一連番号の 3文字目と 4字目の中心間距離 Q2 B2 を用いて、 αίΧΡΙ Ql X (PI Ql ZQ2 B2 ) がひらがなの幅と高さとして推定される。ここで、は、予め定められた定数であり、たとえば 0. 4から 0. 6の範囲に設定される。推定されたひらがなの中心点と幅と高さによって、ひらがなの存在可能領域が定義され、この領域に含まれる全ての矩形がひらがなの構成要素とされる。ここで、「領域に含まれる」とは、たとえば、矩形全体が領域内に入っている場合とすることもできるし、矩形の中心点が領域内に入っている場合としても良い。

ひらがなは、一連番号に用いられるアラビア数字のような単一の連結成分で表すことが困難な場合があるため、複数の矩形の集合をひらがなであると判定すれば、高い精度でひらがなが抽出される。ナンバープレートの 2行目に記載されているひらがな及び一連番号の候補が抽出された場合、 1行目に記載されている分類番号及び陸運局名の候補が抽出される。

まず、分類番号の抽出について説明する。ここまでの処理で抽出された一連番号とひらがなの情報だけでは、射影パラメ一夕を推定することは難しいので、 1 行目では、ァフィン変換に対して比較的安定な特徴量を用いる。また、一連番号の最後の桁にハイフン「一」やドット「 ·」が記載されることはなく、必ず数字が記載されているので、最後の桁の文字の高さは安定な量である。また、一連番号の最後の桁の文字の中心から、その 1つ前の文字の中心までのべクトルを設定すると、これも記載されている文字に関わらず安定な量である。

そこで、図 6に示すように、原点 o及び基底ベクトル X , yを設定し、分類番号の最後の桁の中心点のべクトルを、

V = a X + b y

として表せば、係数 a， bは、ァフィン変換に対して比較的安定な量になる。このため、係数 a , bが予め定められた範囲内に入っている矩形を抽出することにより、分類番号の最後の桁に対応する矩形が抽出される。

ここで、予め定められた範囲は、たとえば、幾何学的変形を受けているナンパ一プレートの画像を複数枚準備し、各画像について一連番号の下 2桁の矩形及び分類番号の最後の桁の矩形を取り出しておき、それらから原点 oを一連番号の最後の桁に対応する矩形の中心に置き、基底ベクトル x， yを作成して分類番号の最後の桁に対応する矩形中心の座標を、

V = a X + b y

として係数 a , bを求め、同係数 a， bの最大値及び最小値を記憶することにより設定される。また、係数 a , bの平均値を記憶したり、同係数 a , bを 2次元の特徴べクトルと考えることにより、平均べクトル及び共分散行列が記憶される。このような方法では、分類番号の最後の桁の候補として複数の矩形が抽出される可能性がある。そこで、分類番号の最後の桁の候補として抽出された矩形のうち、右端の値（x e ) が最大になる矩形のみを分類番号の最後の桁に対応する矩形とする。

次に、図 7に示すように、分類番号の最後の桁に対応する矩形を基準矩形として、ある矩形の X軸における中心点 Xmが基準矩形の左端 BXsより小さく、 Y 軸における中心点 Ymが基準矩形の下端 BY sと上端 BY eの間にあり、かつ矩形の高さ hと基準矩形の高さ Bhとの比 hZBhが 0. 8から 1. 2の範囲ならば、分類番号の最後から 2桁目に対応する矩形候補であると判定されるが、この時点では、複数の矩形が候補として抽出される可能性がある。そこで、候補として抽出された矩形の中で、基準矩形との矩形中心間距離が最も小さいものが、最後から 2桁目に対応する矩形として抽出される。

同様に、最後から 2桁目に対応する矩形を基準矩形に取り直して、同様の基準で評価を行い、基準を満たした矩形は、最後から 3桁目となる可能性をもつ矩形であるとして抽出される。予め分類番号の桁数を知ることは困難なので、 3桁目となる可能性をもつ矩形は、必ずしも分類番号に対応した矩形とは限らず、陸運局名の一部である可能性もあるため、文字認識結果も参照しながら桁数を決定する必要があり、この実施例では、文字認識部 7の認識結果を参照することによつて決定される。よって、ここでは、あくまでも仮の候補として、最後から 3桁目の可能性をもつ矩形が抽出される。

次に、陸運局名の抽出について説明する。

陸運局名の抽出では、始めに、図 8に示すように、既に抽出された分類番号の下 2桁の矩形の上端及び下端を用いてボトムライン 1 b 及びトップライン 1 t を抽出する。ボトムライン lb は、分類番号の最後の桁に対応する矩形の下辺の中心点（xml, y s 1) と最後から 2桁目に対応する矩形の下辺の中心点（xm 2， y s 2) を結んだ直線であり、トップライン I t は、各矩形の上辺の中心点 (xml, y e l) と（xm2, y e 2) を結んだ直線である。これらの 2つのライン（ボトムライン lb 及びトップライン I t ) に挟まれた領域に中心が位置する矩形を、陸運局名を構成する構成要素の矩形とする。

また、これらの陸運局名の構成要素の矩形一つ一つを基準矩形として、図 7に示すような、ある矩形の X軸における中心点 Xmが基準矩形の左端 BX sより小さく、 Y軸における中心点 Ymが基準矩形の下端 BY sと上端 BYeの間に入つており、かつ矩形同士の中心間距離が両者の矩形周囲長の 1Z4以下であり、さらに、これまで抽出されてきた一連番号、ひらがな、分類番号及び陸運局名の構成要素の矩形のどれにも当てはまらない矩形があった場合、その矩形は、新たな陸運局名の構成要素の矩形として登録される。

また、図 9に示すように、原点 o2 、基底ベクトル x2 , y2 を設定し、

v2 = a2x2 + b2y 2

とすれば、予め定められたナンバープレートの左側のネジの位置に固有の係数 a 2， b2 の値の範囲を参照することにより、陸運局名の左端が推定される。ネジの位置に固有の係数 a2, b2の値の範囲は、たとえば、幾何学的変形を受けているナンパープレートの画像を複数準備し、各画像について一連番号の先頭の 2文字及び左側のネジに対応する矩形を取り出しておき、それらから原点 o2 及び基底べクトル x2 ， y2 を求め、ネジに対応する矩形中心の座標を、

v2 = a2x2 + b2y 2

として係数 a2, b2を求め、同係数 a2， b 2の最大値及び最小値を、それぞれ記憶することにより決定される。

また、係数 a 2, b 2の平均値を記憶したり、同係数 a 2， b2を 2次元の特徴べクトルと考えることにより、平均ベクトル及び共分散行列が記憶される。この場合、陸運局名の文字を構成する矩形の中で一番左に位置する矩形に対しても、同様に、係数 a2， b2の最大値及び最小値、係数 a2， b2の平均値が記憶され、また、係数 a2, b2を 2次元の特徴ベクトルと考えることにより、平均ベクトル及び共分散行列が記憶される。

ここで、ナンバープレートの一連番号は、先頭の文字が数字かドットの両方の可能性があり、基底ベクトル y2 は一連番号の最後の桁の高さから求め、図 6における基底べクトル yと同じものを用いているため、ナンバープレートの左側ネジの位置に対する推定精度が高くない可能性もあるので、間違いなくネジであるか又はそれよりも左に位置する矩形を陸運局名の構成要素の矩形から除外し、ネジであるか陸運局名の構成要素の矩形かを判断しかねる場合には、判定を保留して多候補化することにより、文字認識部 7の認識結果を参照することによって決定される。すなわち、係数 a 2， b 2の範囲として、ネジだけが存在する範囲 1、ネジと陸運局名の構成要素の両者が存在する範囲 2、及び陸運局名の構成要素だけが存在する範囲 3に分けて考え、同範囲 2に入っている矩形のみを、あくまでも仮の候補として陸運局名の構成要素の可能性のある矩形も抽出する。

文字認識部 7では、これら抽出された各パート、すなわち、一連番号、ひらがな、及び分類番号に対して、陸運局名毎に文字認識が行われる。このとき、一連番号及びひらがなは、既に矩形抽出の曖昧さがないので、各領域毎に通常の文字認識処理が行われる。一方、ナンバープレートの 1行目には、陸運局名及び分類番号が記載されているが、分類番号の桁数が未知であること、及び陸運局名の左端が必ずしも良い精度で求まらない可能性もある。このとから、図 1 0に示すように、複数の切り出しの可能性について全て文字認識処理を施し、最も認識結果の確からしい候補が、陸運局名及び分類番号の抽出結果となる。

このとき、分類番号の認識では、各矩形毎に通常の文字認識処理が行われるが、陸運局名の認識の場合、陸運局名全体を 1つのパターンと考えて、通常の文字認識で用いられるようなテンプレートマッチングを行うこともできる。また、各矩形の特徴抽出を行う場合、同各矩形の縦横の比率を 1 ： 4に設定してから特徵抽出を行うような方法を用いることも可能である。

また文字認識の確からしさは、文字認識スコアとして表され、このスコアには、たとえば、 "電子情報通信学会技術研究報告 PRMU98- 160、石寺他、「住所読み取りにおける文字認識結果の評価方式」"に記載の方法を用いることができる。たとえば、 [ 2位認識結果の距離値 Z 1位認識結果の距離値]が文字認識スコアとして用いられる。最終的には、各認識スコアの総和が最も大きくなるような候補を、切り出しと認識の結果とする。

この場合、たとえば図 1 0に示すように、切り出し候補 1の「川崎 3 0」と認識した場合のスコアが最も高いので、この結果から、矩形番号の 2から 6 (矩形

2， 3 , 4， 5 , 6 ) までが陸運局名の構成要素であり、矩形番号の 7と 8の矩形（矩形 7， 8 ) が分類番号に対応するとして、切り出しと認識の結果が確定する。

また、この実施例では、文字候補色抽出部 2で複数の文字候補色が抽出される可能性があり、さらに、一つ一つの文字候補色に対しても複数の文字列候補が抽出される可能性があるので、これらの全ての候補に対して、各認識スコアの総和が最大となる認識結果が、ナンバープレートの認識結果であると判定される。以上のように、この実施例では、部分文字列抽出部 4で、ラベリングで得られた矩形の任意の 2つから射影変換やァフィン変換に対して安定な特徴量を求め、この特徴量を統計的に学習した辞書と比較することにより、連続する 2つの文字を部分文字列として抽出し、さらに文字列候補抽出部 5で、部分文字列が直線的に連続し、かつ定められたピッチになっているか否かの評価も射影変換に対して安定な特徴量に基づいて行うので、斜め方向から撮影されたナンバープレートに対しても、高速かつ精度良く一連番号に対応する文字列を抽出することができる。また、周辺情報抽出部 6においては、一連番号の文字列に関する情報を用いて射影変換やァフィン変換に対して安定な特徴量を求め、この特徴量を統計的に学習した辞書と比較することにより、ひらがな、分類番号及び陸運局名に対応する矩形を抽出するので、斜め方向から撮影されたナンバープレートに対しても、高速かつ精度良くこれらの文字列を抽出することができる。よって、斜め方向から撮影されたナンバープレートのような認識対象に対しても、幾何学的な変形に頑健で高速に精度良くナンバープレートに記載の全情報を認識することができる。以上説明したように本発明によれば、文字候補領域抽出手段で、文字を含む入力画像から文字として認識される候補となる文字候補領域が抽出され、部分文字列抽出手段で、同文字候補領域から連続する複数の文字の集合である部分文字列が抽出され、文字列候補抽出手段で、同部分文字列の組合せから文字列候補が抽出され、文字認識手段で、同文字列候補に対して文字認識が行われるので、文字を含む画像を斜め方向から撮した入力画像の文字を読み取る場合でも、幾何学的な変形に頑健で高速かつ高精度で文字を読み取ることができる。

また、部分文字列抽出手段は、文字候補領域の任意の組合せから入力画像に対する射影変換又はァフィン変換に対して安定な特徴量を求め、この特徴量を用いて同文字候補領域の位置関係の評価を行い、この評価結果に基づいて部分文字列を抽出するので、文字を含む画像を斜め方向から撮影した入力画像の文字を読み取る場合でも、幾何学的な変形に頑健で高速かつ高精度で文字を読み取る文字読取り装置を実現できる。また、周辺情報抽出手段は、文字列候補の周辺に記載されている情報を表す周辺情報を抽出するので、文字を含む画像を斜め方向から撮影した入力画像の文字を読み取る場合でも、幾何学的な変形に頑健で高速かつ高精度で文字を読み取る文字読取り装置を実現できる。

(産業上の利用可能性）

この発明は、ナンバープレートの他、たとえば道路標識や看板などに書かれた文字の読取りや、ビデオキャプションなどの文字を読み取る際にも適用できる。

Claims

請求の範囲

1 . 文字を含む入力画像から前記文字として認識される候補となる文字候補領域を抽出する文字候補領域抽出手段と、

前記文字候補領域から連続する複数の文字の集合である部分文字列を抽出する部分文字列抽出手段と、

前記部分文字列の組合せから文字列候補を抽出する文字列候補抽出手段と、前記文字列候補に対して文字認識を行う文字認識手段とを備えて構成されることを特徴とする文字読取り装置。

2 . 前記部分文字列抽出手段は、

前記文字候補領域の任意の組合せから前記入力画像に対する射影変換又はァフィン変換に対して安定な特徴量を求め、当該特徴量を用いて前記文字候補領域の位置関係の評価を行い、この評価結果に基づいて前記部分文字列を抽出する構成であることを特徴とする請求項 1記載の文字読取り装置。

3 . 前記特徴量は、

任意の 2つの前記文字候補領域の高さ、幅及び距離から求められる複比であることを特徴とする請求項 2記載の文字読取り装置。

4. 前記部分文字列抽出手段は、

前記特徴量を、予め作成された辞書のデータと比較し、この比較結果に基づいて前記部分文字列を抽出する構成であることを特徴とする請求項 2又は請求項 3 記載の文字読取り装置。

5 . 前記辞書には、前記特徴量の取り得る値の範囲がデータとして記憶されることを特徴とする請求項 4記載の文字読取り装置。

6 . 前記文字列候補の周辺に記載されている情報を表す周辺情報を抽出する周辺情報抽出手段が設けられ、

前記文字認識手段は、

前記文字列候補に加え、前記周辺情報を認識する構成であることを特徴とする請求項 1から請求項 5の何れかに記載の文字読取り装置。

7 . 前記周辺情報抽出手段は、

前記文字列候補から基底べクトルを求め、前記文字候補領域の位置関係を前記基底ベクトルの係数で表し、該係数を用いて前記位置関係の評価を行い、この評価結果に基づいて前記文字列候補の周辺情報を抽出する構成であることを特徴とする請求項 6記載の文字読取り装置。

8 . 前記周辺情報抽出手段は、

前記係数を、予め作成された辞書のデータと比較し、この比較結果に基づいて前記文字列候補の周辺情報を抽出する構成であることを特徴とする請求項 7記載の文字読取り装置。

9 . 文字を含む入力画像から前記文字として認識される候補となる文字候補領域を抽出する文字候補領域抽出処理と、

前記文字候補領域から連続する複数の文字の集合である部分文字列を抽出する部分文字列抽出処理と、

前記部分文字列の組合せから文字列候補を抽出する文字列候補抽出処理と、前記文字列候補に対して文字認識を施す文字認識処理とを行うことを特徴とする文字読取り方法。

1 0 . 前記部分文字列抽出処理において、

前記文字候補領域の任意の組合せから前記入力画像に対する射影変換又はァフィン変換に対して安定な特徴量を求め、当該特徴量を用いて前記文字候補領域の位置関係の評価を行い、この評価結果に基づいて前記部分文字列を抽出することを特徴とする請求項 9記載の文字読取り方法。

1 1 . 前記特徴量を、任意の 2つの前記文字候補領域の高さ、幅及び距離から求められる複比とすることを特徴とする請求項 1 0記載の文字読取り方法。

1 2 . コンピュータ上で実行され、前記コンピュータを文字読取り装置として制御させるための文字読取り制御プログラムであって、

前記コンピュータに、

文字を含む入力画像から前記文字として認識される候補となる文字候補領域を抽出する文字候補領域抽出機能と、

前記文字候補領域から連続する複数の文字の集合である部分文字列を抽出する部分文字列抽出機能と、

前記部分文字列の組合せから文字列候補を抽出する文字列候補抽出機能と、前記文字列候補に対して文字認識を行う文字認識機能を実行させることを特徴とする文字読取り制御プログラム。

1 3 . 前記部分文字列抽出機能において、

前記文字候補領域の任意の組合せから前記入力画像に対する射影変換又はァフィン変換に対して安定な特徴量を求め、当該特徴量を用いて前記文字候補領域の位置関係の評価を行い、この評価結果に基づいて前記部分文字列を抽出する処理を実行することを特徴とする請求項 1 2記載の文字読取りプログラム。