JP2003168076A

JP2003168076A - 画像処理方法およびその装置

Info

Publication number: JP2003168076A
Application number: JP2001367675A
Authority: JP
Inventors: Yoshihito Hashimoto; 良仁橋本; Kazutaka Ikeda; 和隆池田
Original assignee: Matsushita Electric Works Ltd
Current assignee: Panasonic Electric Works Co Ltd
Priority date: 2001-11-30
Filing date: 2001-11-30
Publication date: 2003-06-13
Anticipated expiration: 2021-11-30
Also published as: EP1449153B1; EP1449153A1; US20040071345A1; JP3965983B2; US7480410B2; KR100567362B1; KR20030076620A; WO2003046807A1; TW200300539A; DE60208817D1; CN100489885C; TWI221587B; CN1489745A; DE60208817T2

Abstract

(57)【要約】【課題】通常の２値化処理などでは１文字毎に正しく
切り出せない状態の文字であっても、各文字を正しく認
識する。【解決手段】複数の文字部分に分断した状態の文字を
含む原画像１から、各文字部分の抽出をするステップ
と、少なくとも一の文字を構成する一の要素または複数
の要素を選択し、これを種々組合せて少なくとも１つの
合成画像を作成し、これを画像処理にかけて特徴量を計
算し、これをバックプロパゲーションネットワークに入
力し、その出力を、少なくとも１つの合成画像に含まれ
る一の要素または複数の要素に対する一致度および認識
結果とする、これら一連の処理を、一の要素または複数
の要素毎に実行するステップと、その一の要素または複
数の要素毎に、最大の一致度および認識結果となった要
素を選択して出力するステップとを備えた。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ニューラルネット
技術を用いて、文字を認識する画像処理方法およびその
装置に関するものである。

【０００２】

【従来の技術】従来、正解画像を文字種分メモリに保持
し、それら正解画像の文字と認識対象の文字とを比較す
ることにより、文字を認識する画像処理方法がある。し
かし、正解画像の文字と比較する従来の方法では、文字
種を１文字づつ照合するので、認識するべき文字の数に
比例して認識を完了するのに時間がかかるという問題が
ある。

【０００３】この問題を解決する手法に、認識するべき
文字を２値化してその大きさを正規化した後にニューラ
ルネットに入力してその文字を認識する方法がある。

【０００４】また、インクジェットプリンタなどで印刷
されたドット文字を認識する場合、ドット文字に対して
膨張処理を施して、各ドット間を連結させた上で、その
ドット文字を認識する方法が知られている。

【０００５】

【発明が解決しようとする課題】しかしながら、ニュー
ラルネットを用いる方法では、認識するべき文字を２値
化すると、文字同士が離れていたり、背景にノイズがあ
る場合、文字を正しく抽出することができないために、
正しい認識結果を得ることができない。

【０００６】また、膨張処理で各ドット間を連結させる
方法では、文字間隔が狭いと、膨張処理で文字同士が接
触してしまい、各文字を正しく分離することができず、
正しい認識結果を得ることができない。

【０００７】さらに、認識するべき文字に罫線が引かれ
ている場合、文字の印刷面が梨地である場合などでは、
文字と背景とを分離することができないために、正しい
認識結果を得ることができない。

【０００８】本発明は、上記事情に鑑みてなされたもの
であり、通常の２値化処理などでは１文字毎に正しく切
り出せない状態の文字であっても、各文字を正しく認識
することができる画像処理方法およびその装置を提供す
ることを目的とする。

【０００９】

【課題を解決するための手段】上記課題を解決するため
の請求項１記載の発明の画像処理方法は、本来連続する
部分が複数の文字部分に分断した状態にある文字を少な
くとも含む画像から、２値化処理または濃淡フィルタな
どで少なくとも各文字部分の抽出をするステップと、こ
のステップによる抽出結果から、少なくとも一の文字を
構成する一の要素または複数の要素を選択し、この一の
要素または複数の要素を種々組合せて少なくとも１つの
合成画像を作成し、この少なくとも１つの合成画像を画
像処理にかけて特徴量を計算し、この特徴量を既に認識
対象の文字パターンに対して学習の終了しているバック
プロパゲーションネットワークに入力して認識処理を行
い、そしてそのバックプロパゲーションネットワークの
出力を、前記少なくとも１つの合成画像に含まれる一の
要素または複数の要素に対する一致度および認識結果と
する、これら一連の処理を、前記抽出結果から選択され
る少なくとも一の文字を構成する一の要素または複数の
要素毎に実行するステップと、前記少なくとも一の文字
を構成する一の要素または複数の要素毎に、最大の一致
度および認識結果となった要素を選択して、それら一致
度および認識結果のうち少なくとも認識結果を出力する
ステップとを有することを特徴とする。

【００１０】請求項２記載の発明は、請求項１記載の画
像処理方法において、互いに隣接する文字が接触した状
態にある文字列を、文字を構成する線の本数に対して重
み付けを行ってその文字列の文字の配列方向に投影する
ことにより各投影値を求め、これらの各投影値のうち、
文字の形状から自動的に設定されるしきい値またはオペ
レータが入力したしきい値よりも低い投影値による分布
形状が谷を形成する部分で、前記接触した状態にある文
字列を分断して、前記画像を得ることを特徴とする。

【００１１】請求項３記載の発明は、請求項１記載の画
像処理方法において、互いに隣接する文字が接触した状
態にある文字列であるか否かを自動的に判定し、互いに
隣接する文字が接触した状態にある文字列に対しては、
文字を構成する線の本数に対して重み付けを行ってその
文字列の文字の配列方向に投影することにより各投影値
を求め、これらの各投影値のうち、文字の形状から自動
的に設定されるしきい値またはオペレータが入力したし
きい値よりも低い投影値による分布形状が谷を形成する
部分で、前記接触した状態にある文字列を分断し、本来
連続する部分が複数の文字部分に分断した状態にある文
字については、それら文字部分をそのままとして、前記
画像を得ることを特徴とする。

【００１２】請求項４記載の発明は、請求項２記載の画
像処理方法において、複数のドットからなるドット文字
を含む文字列に対して、方向選択性の膨張処理を施し
て、前記互いに隣接する文字が接触した状態にある文字
列を得ることを特徴とする。

【００１３】請求項５記載の発明は、請求項１記載の画
像処理方法において、互いに隣接する文字が接触した状
態にある文字列を予め設定した値で強制的に分断して前
記画像を得ることを特徴とする。

【００１４】請求項６記載の発明の画像処理装置は、本
来連続する部分が複数の文字部分に分断した状態にある
文字を少なくとも含む画像から、２値化処理または濃淡
フィルタなどで少なくとも各文字部分の抽出をする手段
と、この手段による抽出結果から、少なくとも一の文字
を構成する一の要素または複数の要素を選択し、この一
の要素または複数の要素を種々組合せて少なくとも１つ
の合成画像を作成し、この少なくとも１つの合成画像を
画像処理にかけて特徴量を計算し、この特徴量を既に認
識対象の文字パターンに対して学習の終了しているバッ
クプロパゲーションネットワークに入力して認識処理を
行い、そしてそのバックプロパゲーションネットワーク
の出力を、前記少なくとも１つの合成画像に含まれる一
の要素または複数の要素に対する一致度および認識結果
とする、これら一連の処理を、前記抽出結果から選択さ
れる少なくとも一の文字を構成する一の要素または複数
の要素毎に実行する手段と、前記少なくとも一の文字を
構成する一の要素または複数の要素毎に、最大の一致度
および認識結果となった要素を選択して、それら一致度
および認識結果のうち少なくとも認識結果を出力する手
段とを備えることを特徴とする。

【００１５】請求項７記載の発明は、請求項６記載の画
像処理装置において、互いに隣接する文字が接触した状
態にある文字列を、文字を構成する線の本数に対して重
み付けを行ってその文字列の文字の配列方向に投影する
ことにより各投影値を求め、これらの各投影値のうち、
文字の形状から自動的に設定されるしきい値またはオペ
レータが入力したしきい値よりも低い投影値による分布
形状が谷を形成する部分で、前記接触した状態にある文
字列を分断して、前記画像を得る手段をさらに備えるこ
とを特徴とする。

【００１６】

【発明の実施の形態】（第１実施形態）図１は本発明に
係る第１実施形態の画像処理の手順の説明図、図２は同
画像処理の対象となる文字列の一例を示す図、図３は同
画像処理中の概略領域作成処理のフロー図、図４は同画
像処理中の認識処理のフロー図、図５は図３，図４の処
理過程の様子を示す図であり、これらの図を参照しなが
ら第１実施形態について説明する。

【００１７】第１実施形態の画像処理方法は、文字列を
含む原画像から各文字を切り出してそれを認識するため
の方法であり、撮像条件または対象ワークの条件の不良
等に起因して、図２に示すように、各文字における本来
連続する部分が複数の文字部分に分断され、通常の２値
化処理または投影処理ではそれら各文字を１文字毎に正
しく切り出せない状態の文字列を含む原画像１から、各
文字における分断された各文字部分を正しい文字となる
ように組み合わせることにより、正しい文字の認識結果
を返す。

【００１８】すなわち、本画像処理方法では、まず、図
１（ａ）の例に示す原画像１から、２値化処理または濃
淡フィルタなどで、図１（ｂ）に示すように、少なくと
も各文字部分の抽出を行う。ここで、図１（ｂ）の例で
は、分断された文字部分の他にノイズ部分も抽出されて
いるが、例えば２値化処理の場合、文字部分とそのノイ
ズ部分との区別がつかないので、そのノイズ部分も文字
部分として取り扱われることになる。また、文字が文字
部分に分断されていない場合には、その文字が抽出され
ることになる。このため、以下ではこれらを抽出結果の
「要素」と呼ぶことにする。

【００１９】次いで、上記抽出結果から、少なくとも一
の文字を構成する確率の高い一の要素または複数の要素
を選択する。第１実施形態では、後述の概略領域作成処
理手順により、図１（ｃ）の例に示す矩形状の外枠に囲
まれた概略領域を決定することにより、少なくとも一の
文字を構成する確率の高い一の要素または複数の要素を
選択する。ここで、概略領域に含まれる文字が文字部分
に分断されていない場合には、その概略領域には、少な
くとも一の文字を構成する要素が含まれることになる。
また、概略領域に含まれる文字が複数の文字部分に分断
した状態にある場合、その概略領域には、少なくとも一
の文字を構成する複数の要素が含まれることになる。

【００２０】次いで、上記概略領域で選択した一の要素
または複数の要素を種々組合せて少なくとも１つの合成
画像を作成し、この少なくとも１つの合成画像を画像処
理にかけて特徴量を計算し、この特徴量を既に認識対象
の文字パターンに対して学習の終了しているバックプロ
パゲーションネットワークに入力して認識処理を行い、
そしてそのバックプロパゲーションネットワークの出力
を、上記少なくとも１つの合成画像に含まれる一の要素
または複数の要素に対する一致度および認識結果とす
る、これら一連の処理を、概略領域（抽出結果から選択
される少なくとも一の文字を構成する一の要素または複
数の要素）毎に実行する。ここで、概略領域で選択され
る要素が複数有る場合、これら複数の要素が種々組み合
わされて、各組毎に合成画像が作成されることになる
が、この場合、各合成画像に含まれる各要素は、処理毎
に、より良い一致度および認識結果に更新される。従っ
て、上記処理の終了時点で、概略領域毎に、各要素は、
自信を含む全ての組みでの最大の一致度および認識結果
を対応付けられて保持していることになる。

【００２１】次いで、図１（ｄ）に示すように、概略領
域毎に、最大の一致度および認識結果となった要素を選
択して、それら一致度および認識結果のうち少なくとも
認識結果を出力する。同図は、概略領域毎に、最大の一
致度および認識結果になった各文字部分を一まとめにし
ている様子を示している。その一まとめにされた各文字
部分の一致度および認識結果が、その各文字部分を囲む
矩形状の枠内の文字の一致度および認識結果となる。

【００２２】このような処理を効率的に実行するため、
第１実施形態では、概略領域作成処理を先に実行してそ
の後で認識処理を行う２段構えになっている。すなわ
ち、まず、各要素の組合せを計算する際の計算量を減ら
すため、図３のフローに従って認識対象文字の概略領域
を決定する。次いで、図４のフローに従って各概略領域
内の要素の種々の組みに対して認識処理を行う。

【００２３】まず、図３を用いて概略領域作成処理につ
いて説明すると、図３（ａ）の“組合せ開始部分領域選
択”のステップでは、従来の方法（２値化処理または濃
淡フィルタなど）で抽出した各要素を、外接矩形の左上
端点のＸ座標の昇順でソートし、ソートされた各要素の
うち、先頭の要素を概略領域の先頭要素として選択す
る。

【００２４】“結合領域選択”および“領域結合”のス
テップでは、ソートされた各要素のうち、次の要素を選
択してこの領域を概略領域に加え、これを拡張する。

【００２５】“結合領域外接矩形計算”のステップで
は、概略領域内の組み合わされた各要素の外接矩形の左
上端点の座標の最小値および右下端点の座標の最大値
を、それぞれその概略領域の左上端点および右下端点と
し、これら左上端点および右下端点から、拡張された概
略領域の大きさを計算する。

【００２６】“サイズオーバー判定”のステップでは、
概略領域の大きさが予め設定した値（例えばバックプロ
パゲーションネットワークに既に学習されている文字パ
ターンの幅平均値の２倍）を超えるか否かを判定し、超
えなければ“ＯＫ”として次の“ギャップ判定”のステ
ップに進む。一方、超えれば“ＮＧ”として、“結合領
域から削除”のステップに進み、上記拡張された概略領
域に加えられた領域を除外する。この後、“結合領域選
択”のステップに戻る。

【００２７】“ギャップ判定”のステップでは、概略領
域内の要素間の距離が予め設定した値（例えばバックプ
ロパゲーションネットワークに既に学習されている文字
パターンのギャップ幅平均値の４０％）以上離れている
か否かを判定し、離れていなければ“ＯＫ”として次の
“サイズ未達判定”のステップに進む。一方、離れてい
れば“ＮＧ”として、“結合領域から削除”のステップ
に進み、上記拡張された概略領域に加えられた領域を除
外する。この後、“結合領域選択”のステップに戻る。
例えば、図５（ａ）において、“０”の領域に対して、
“１”の領域は結合ないし連結されるが、“２”の領域
は“０”の領域との間隔が広いために結合されない。

【００２８】“サイズ未達判定”のステップでは、概略
領域の大きさが所定の大きさより小さいサイズ未達であ
るか否かの判定を行い、サイズ未達でなければ“ＯＫ”
として次の“概略領域確定”のステップに進む。一方、
サイズ未達であれば“ＮＧ”として“結合領域選択”の
ステップに戻る。

【００２９】“概略領域確定”のステップでは、このス
テップまで到達した概略領域を確定した概略領域として
保存する。

【００３０】“全領域終了”のステップでは、ソートさ
れた各要素の全てが選択されたか否かを判定し、全てが
選択されたならば、“Ｙｅｓ”として図３（ａ）の処理
を終了し、次の図３（ｂ）の処理に進む。一方、全てが
選択されていなければ、“Ｎｏ”として“結合領域選
択”で選択されるべき要素の順番を次の順番にずらし、
“組合せ開始部分領域選択”のステップに戻る。

【００３１】この図３（ａ）の処理を実行することによ
り、概略領域が候補として複数設定されることになる。

【００３２】図３（ｂ）の“概略領域選択”のステップ
では、設定された複数の概略領域から一の概略領域を選
択する。

【００３３】“他領域に包括されるか？”のステップで
は、選択された概略領域が他の概略領域に包括されてい
るか否かを判定し、包括されていれば“Ｙｅｓ”とし
て、その選択された概略領域を“削除”し、“全領域終
了”のステップに進む。一方、包括されていなければ
“Ｎｏ”として、“他領域と８０％以上重なるか？”の
ステップに進み、選択された概略領域が他の概略領域と
予め設定した割合（例えば小さい方の面積の８０％）以
上重なるか否かを判定し、重なれば“Ｙｅｓ”として、
処理数低減のため“領域結合”を行い、この後、“全領
域終了”のステップに進み、重ならなければ“Ｎｏ”と
して“全領域終了”のステップに進む。

【００３４】“全領域終了”のステップでは、設定され
た複数の概略領域から全ての概略領域が選択されたか否
かを判定し、選択されたならば“Ｙｅｓ”として図３
（ｂ）の処理を終了する。選択されていなければ“Ｎ
ｏ”として“概略領域選択”のステップに戻り、残りの
概略領域から一の概略領域を選択して、同様の処理を繰
り返す。

【００３５】この図３（ｂ）の処理を実行することによ
り、重複する概略領域の一方が削除され、また予め設定
した割合以上重なる概略領域同士が統合されて、最終的
な概略領域が複数設定されることになる。例えば、図５
（ｂ）に示すような複数の要素が抽出されたとき、図５
（ｃ），（ｄ）に示すような概略領域が設定される。

【００３６】これら複数の概略領域について図４の認識
処理が実行されることになるが、図４の認識処理を概略
領域内の各要素に制限するのは、計算量を低減するため
である。またこの場合、概略領域内に少なくとも１個の
認識対象文字が含まれることになり、その中心付近の要
素が認識対象文字の部分である確率が高くなる効果が得
られる。

【００３７】次に、図４の認識処理について、理解を容
易にするため、根幹となる処理手順を先に説明し、その
後で各種判定処理について説明する。

【００３８】まず、設定された複数の概略領域から一の
概略領域を選択する。

【００３９】次いで、その概略領域内の要素を左上端点
のＸ座標で昇順ソートした配列（以下「配列Ａ」とい
う）および左上端点のＸ座標と概略領域の中心Ｘ座標と
の距離で昇順ソートした配列（以下「配列Ｂ」という）
を作成する。そして、文字は概略領域の中心付近に存在
する確率が高いため、結合する領域は概略領域の中心か
らのＸ方向距離の昇順で選択される。すなわち、配列Ａ
から先頭の要素を選択して認識対象文字の要素候補の１
つとし（“組合せ開始部分領域選択”）、配列Ｂから先
頭の要素を選択し（“結合領域選択”）、これを配列Ａ
の要素候補と組み合わせて合成画像を作成し（“領域結
合”）、そしてその合成画像に対して認識処理を実行す
る（“文字画像取得”、“ニューロ入力データ計算”お
よび“文字認識実行”）。

【００４０】次いで、配列Ｂから次の要素を選択し、こ
れを合成画像と組み合わせて新しい合成画像とし、これ
に対して認識処理を行う（前側の“全領域終了”、“Ｎ
ｏ”、“結合領域選択”、“領域結合”、“文字画像取
得”、“ニューロ入力データ計算”および“文字認識実
行”）。

【００４１】このように、上記一連の処理を配列Ｂの全
ての要素について繰り返し行い、これら全ての要素につ
いての全繰り返し処理を配列Ａの要素１個に対する処理
とする。

【００４２】すなわち、配列Ｂの全ての要素について上
記一連の処理が終了すると、配列Ａから次の要素を順次
選択し、配列Ａから全ての要素が選択されるまで上記の
処理を繰り返し実行する（最終ステップの“全領域終
了”、“Ｎｏ”および“組合せ開始部分領域選択”
等）。

【００４３】以上の処理を、設定された複数の概略領域
の全てについて実行し、全ての要素の一致度および認識
結果を調べ、同じ一致度および認識結果を持つ各要素を
一文字として一まとめにし、その一致度および認識結果
をその一文字の一致度および認識結果として出力する。

【００４４】次に、各種判定処理について説明すると、
上記処理過程において、合成画像に対する認識処理によ
る一致度がそれまでの一致度を超える度に、その新しい
一致度および認識結果を、その合成画像を構成している
全ての要素の一致度および認識結果として保存する
（“一致度最大？”、“Ｙｅｓ”および“最大一致度、
認識結果入替”）。この処理は、配列Ａの文字部分単体
（配列Ｂの要素と組み合わせない状態）でも実行され
る。これは、分断されていない文字が混在する場合があ
るためである。

【００４５】また、以下の場合、配列Ｂの要素は合成画
像に加えられない。・合成画像の大きさが予め設定した
値（例えばバックプロパゲーションネットワークに既に
学習されている文字パターンの幅の平均値の１．２倍）
を超える場合（“サイズオーバー判定”、“ＮＧ”およ
び“結合領域から削除”）。・合成画像領域内に、予め
設定した値（例えばバックプロパゲーションネットワー
クに既に学習されている文字パターンの幅平均値の４０
％）以上離れている場合（“ギャップ判定”、“ＮＧ”
および“結合領域から削除”）。・既に判定処理の終了
している組合せの場合（“未確認の組合せ”、“ＮＧ”
および“結合領域から削除”）。

【００４６】また、以下の場合、バックプロパゲーショ
ンネットワークによる認識を行わずに次の合成画像の作
成に移る。・合成画像の大きさが予め設定した値（例え
ばバックプロパゲーションネットワークに既に学習され
ている文字パターンサイズの平均値の０．８倍）未満の
場合（“サイズ未達判定”および“ＮＧ”）。・合成画
像の外接矩形のアスペクト比（垂直方向の幅／水平方向
の幅）が予め設定した値（例えばバックプロパゲーショ
ンネットワークに既に学習されている文字パターンの最
小値の０．５倍〜最大値の１．５倍の範囲）から外れて
いる場合（“縦横比判定”および“ＮＧ”）。

【００４７】さらに、以下の場合、一致度がそれまでの
一致度を超えても一致度および認識結果の更新を行わな
い。・合成画像の縦横比が、認識結果が示す文字として
バックプロパゲーションネットワークに学習されている
文字パターンの縦横比の予め設定している許容範囲（例
えば０．５倍〜１．５倍）から外れている場合（“認識
文字縦横比判定”および“ＮＧ”）。

【００４８】ここで、図５（ｅ）の例において、
“３”，“４”の各要素は、それぞれの組合せで最大一
致度となり、“×”の各要素（図ではノイズ部分）は、
どの組合せでも“３”，“４”のものより一致度が低
く、この場合、“３”の各要素を組みとし、“４”の各
要素を組みとして切り出されることになる。なお、図４
の“結合領域外接矩形計算”の処理は、図３のそれとほ
ぼ同様である。

【００４９】ところで、上記処理を行うプログラムを画
像処理装置に組み込むことにより、大略、本来連続する
部分が複数の文字部分に分断した状態にある文字を少な
くとも含む画像から、２値化処理または濃淡フィルタな
どで少なくとも各文字部分の抽出をする処理機能と、こ
の処理機能による抽出結果から、少なくとも一の文字を
構成する一の要素または複数の要素を選択し、この一の
要素または複数の要素を種々組合せて少なくとも１つの
合成画像を作成し、この少なくとも１つの合成画像を画
像処理にかけて特徴量を計算し、この特徴量を既に認識
対象の文字パターンに対して学習の終了しているバック
プロパゲーションネットワークに入力して認識処理を行
い、そしてそのバックプロパゲーションネットワークの
出力を、上記少なくとも１つの合成画像に含まれる一の
要素または複数の要素に対する一致度および認識結果と
する、これら一連の処理を、抽出結果から選択される少
なくとも一の文字を構成する一の要素または複数の要素
毎に実行する処理機能と、少なくとも一の文字を構成す
る一の要素または複数の要素毎に、最大の一致度および
認識結果となった要素を選択して、それら一致度および
認識結果のうち少なくとも認識結果を出力する処理機能
とを備える画像処理装置が得られる。

【００５０】この画像処理装置によっても、特徴量を通
じて得られる一致度および認識結果のうち、最大の一致
度および認識結果になった一の要素または複数の要素を
選択することにより、この選択した一の要素または複数
の要素で一の文字が構成される確率が極めて高くなるか
ら、その選択した一の要素または複数の要素に対する一
致度および認識結果を認識対象の文字の一致度および認
識結果とすることにより、通常の２値化処理などでは１
文字毎に正しく切り出せない状態の文字であっても、各
文字を正しく認識することができる。

【００５１】（第２実施形態）図６は本発明に係る第２
実施形態の画像処理の対象となる文字列の一例を示す
図、図７は同画像処理の特徴部分のフロー図、図８は図
７の処理過程の様子を示す図であり、これらの図を参照
しながら第２実施形態について説明する。

【００５２】第２実施形態の画像処理方法は、撮像条件
または対象ワークの条件の不良等に起因して、図６に示
すように、互いに隣接する一部の文字同士が接触し、そ
の接触部分が文字線の幅より太いために、通常の２値化
処理または投影処理ではそれら各文字を１文字毎に正し
く切り出せない状態の文字列を含む原画像１Ａに対し
て、文字そのものが分断されることを許容した上で、接
触した文字の分断処理を行い、分断された文字に対して
は第１実施形態と同様の連結処理を行うことにより、接
触した文字が正しい文字となるように切り出し、正しい
文字の認識結果を返す。

【００５３】すなわち、まず、図８（ａ）に示すような
原画像１Ａから、図８（ｂ）に示すように従来の方法で
文字領域を抽出し、抽出された文字領域をその文字の配
列方向に平行な軸（投影軸）に投影する（図７の“文字
の並び方向に平行な直線に文字領域を投影”、図８
（ｃ））。

【００５４】図８（ｃ）において、投影処理は投影軸に
垂直な方向に文字領域の外接矩形内を走査し、その走査
線上の画素数を数え（文字領域の抽出処理で文字領域の
画素の濃度値を１、背景要素を０としている場合は１の
画素の数）、それを投影軸の１点（走査線の出ている
点）の投影値とすることで行う。対象文字の構成してい
る（１の）画素と接触によって発生している（１の）画
素との区別をつけ易くするため、走査線上の領域数（１
の画素が連結してできている島の数）をこの投影値に乗
ずる。

【００５５】この投影値に対してしきい値処理を行い、
しきい値以上の領域Ｒ１をまず抽出する（図７の“輝度
値がしきい値以上の領域Ｒ１を抽出”）。次いで、しき
い値未満の領域Ｒ２を調べ、そこに明確な谷が存在する
かどうかを調査し、明確な谷が存在する場合、その明確
な谷で領域Ｒ２を切断し、隣接する領域Ｒ１と結合する
（図７の“しきい値未満の領域Ｒ２で谷が明確な領域を
抽出”、“谷で領域Ｒ２を分割”、“分割領域を隣接す
る領域Ｒ１に結合”、図８（ｄ），（ｅ））。

【００５６】なお、谷の判定には、例えば、投影値の微
分値を利用し、その微分値が設定したしきい値以上であ
れば明確な谷であるとする方法が考えられる。

【００５７】そして、領域Ｒ１のみを選択し、第１実施
形態と同様の処理を行うことで、接触した文字を正しい
文字となるように分断する。これにより、正しい認識結
果を返すことが可能となる。

【００５８】最初に領域Ｒ１を抽出する際のしきい値を
自動で設定することも可能である。例えば、最初にしき
い値を０にして領域Ｒ１を抽出し、予め設定した値（例
えばバックプロパゲーションネットワークに既に学習さ
れている文字パターンの縦横比平均値）と、例えば抽出
された領域Ｒ１の内で最大の長さを持つ領域と文字領域
の垂直方向の幅で計算される縦横比とを比較し、領域Ｒ
１の縦横比が大きければそのときのしきい値を採用し、
条件を満たさなければしきい値を１つ増やして同様の評
価を行う。この処理を条件が満たされるまで繰り返すこ
とで、自動的にしきい値を決定することができる。

【００５９】領域Ｒ１の最大幅が０になれば、その文字
領域は文字単体で存在し、あるいは分断されて文字部分
になっているとみなして、そのまま分断文字の接触処理
で使用する。しきい値評価の特徴量はアスペクト比だけ
でなく、文字領域の水平方向の幅でも良い。

【００６０】（第３実施形態）図９は本発明に係る第３
実施形態の画像処理の対象となる文字列の一例および同
画像処理による最終結果の一例を示す図であり、この図
を参照しながら第３実施形態について説明する。

【００６１】第３実施形態の画像処理方法は、図９
（ａ）に示すように、ある文字における本来連続する部
分が文字部分に分断していたり、互いに隣接する文字同
士が接触していたりする文字列を含む原画像１Ｂに対
し、接触した文字かどうかを自動的に判定し、接触した
文字については第２実施形態の画像処理方法を適用する
一方、分断されている文字については各文字部分をその
まま使用し、全体に対して第１実施形態の画像処理方法
を適用することにより、図９（ｂ）に示すように、文字
の分断および接触状態が混在する文字列でも、接触した
文字を正しい文字となるように処理し、正しい認識結果
を返す。

【００６２】（第４実施形態）図１０は本発明に係る第
４実施形態の画像処理の対象となる文字列の一例および
同画像処理過程の様子を示す図であり、この図を参照し
ながら第４実施形態について説明する。

【００６３】第４実施形態の画像処理方法は、複数のド
ットからなるドット文字が複数配列された文字列を含む
原画像から、少なくとも一部の文字が接触した状態とな
る文字列を作成し、この文字列に対して第２実施形態と
同様の画像処理方法を適用する。

【００６４】図１０（ａ）の例に示すような原画像１Ｃ
の場合、従来の方法で文字領域を抽出して図１０（ｂ）
に示すような画像を得る。この画像に対し、抽出した文
字領域の配列方向（水平方向）に沿って膨張処理を施
し、この膨張処理後の画像に対し、前述の配列方向と直
交する方向（垂直方向）に沿って膨張処理を施して、図
１０（ｃ）に示すような画像を得る。次いで、この膨張
した文字領域を含む画像に対して、第２実施形態と同様
の画像処理を実行することにより、第１および第２実施
形態と同様の処理を直接実行する場合より、処理速度お
よび処理の信頼性を向上させることができる。

【００６５】なお、膨張処理は、文字領域の外接矩形内
を走査し、１の画素があれば指定された方向（水平ある
いは垂直方向）の前後の指定された範囲の背景画素を１
の画素に置き換えることで行う。

【００６６】図１０（ａ）に示すように、互いに隣接す
る文字間隔が狭いためにドットの膨張を行うと、互いに
隣接する文字同士が連結してしまう場合でも、第４実施
形態の画像処理方法を用いることで、同一文字中のドッ
ト間は連結させ、別の文字同士は正しく分断させて、正
しい文字認識を行うことができる。

【００６７】（第５実施形態）図１１は本発明に係る第
５実施形態の画像処理の対象となる文字列の一例および
同画像処理過程の様子を示す図であり、この図を参照し
ながら第５実施形態について説明する。

【００６８】第５実施形態の画像処理方法では、図１１
（ａ）に示すような、互いに隣接する一部の文字同士が
接触してその接触領域が広い状態にある文字列を含む原
画像１Ｄから、従来の方法で文字領域を抽出する。

【００６９】この後、図１１（ｂ）に示す文字領域の外
接矩形領域を、予め設定した値（例えばバックプロパゲ
ーションネットワークに既に学習されている文字パター
ンの水平および垂直方向の最小幅の１／２）の大きさの
領域に強制的に分断する（図１１（ｄ））。ただし、文
字領域の面積が、予め設定した値（例えばバックプロパ
ゲーションネットワークに既に学習されている文字パタ
ーンの平均面積の１．２倍）より小さい場合、この処理
は実行しない。

【００７０】次いで、強制的に分断された文字部分領域
に対して、第１実施形態と同様の画像処理を実行する。
これにより、文字同士の接触領域が広く、第２実施形態
の投影処理では分断不可能な文字列であっても、接触し
た文字を正しい文字となるように分断することができる
ので、正しい認識結果を返すことができる。

【００７１】また、第５実施形態の画像処理方法は、文
字列の配列方向に無関係に文字認識が行えるため、文字
列が波型に並んでいる場合や、縦方向に並んだ場合でも
問題なく切り出しが行える。

【００７２】

【発明の効果】以上のことから明らかなように、請求項
１記載の発明の画像処理方法は、本来連続する部分が複
数の文字部分に分断した状態にある文字を少なくとも含
む画像から、２値化処理または濃淡フィルタなどで少な
くとも各文字部分の抽出をするステップと、このステッ
プによる抽出結果から、少なくとも一の文字を構成する
一の要素または複数の要素を選択し、この一の要素また
は複数の要素を種々組合せて少なくとも１つの合成画像
を作成し、この少なくとも１つの合成画像を画像処理に
かけて特徴量を計算し、この特徴量を既に認識対象の文
字パターンに対して学習の終了しているバックプロパゲ
ーションネットワークに入力して認識処理を行い、そし
てそのバックプロパゲーションネットワークの出力を、
前記少なくとも１つの合成画像に含まれる一の要素また
は複数の要素に対する一致度および認識結果とする、こ
れら一連の処理を、前記抽出結果から選択される少なく
とも一の文字を構成する一の要素または複数の要素毎に
実行するステップと、前記少なくとも一の文字を構成す
る一の要素または複数の要素毎に、最大の一致度および
認識結果となった要素を選択して、それら一致度および
認識結果のうち少なくとも認識結果を出力するステップ
とを有するので、特徴量を通じて得られる一致度および
認識結果のうち、最大の一致度および認識結果になった
一の要素または複数の要素を選択することにより、この
選択した一の要素または複数の要素で一の文字が構成さ
れる確率が極めて高くなるから、その選択した一の要素
または複数の要素に対する一致度および認識結果を認識
対象の文字の一致度および認識結果とすることにより、
通常の２値化処理などでは１文字毎に正しく切り出せな
い状態の文字であっても、各文字を正しく認識すること
ができる。

【００７３】請求項２記載の発明は、請求項１記載の画
像処理方法において、互いに隣接する文字が接触した状
態にある文字列を、文字を構成する線の本数に対して重
み付けを行ってその文字列の文字の配列方向に投影する
ことにより各投影値を求め、これらの各投影値のうち、
文字の形状から自動的に設定されるしきい値またはオペ
レータが入力したしきい値よりも低い投影値による分布
形状が谷を形成する部分で、前記接触した状態にある文
字列を分断して、前記画像を得るので、互いに隣接する
文字が接触した状態にある文字列を正しい文字となるよ
うに切り出すことができ、正しい認識結果を返すことが
できる。

【００７４】請求項３記載の発明は、請求項１記載の画
像処理方法において、互いに隣接する文字が接触した状
態にある文字列であるか否かを自動的に判定し、互いに
隣接する文字が接触した状態にある文字列に対しては、
文字を構成する線の本数に対して重み付けを行ってその
文字列の文字の配列方向に投影することにより各投影値
を求め、これらの各投影値のうち、文字の形状から自動
的に設定されるしきい値またはオペレータが入力したし
きい値よりも低い投影値による分布形状が谷を形成する
部分で、前記接触した状態にある文字列を分断し、本来
連続する部分が複数の文字部分に分断した状態にある文
字については、それら文字部分をそのままとして、前記
画像を得るので、認識対象の文字列が文字の分断および
接触状態が混在する文字列であっても、正しい文字とな
るように切り出すことができ、正しい認識結果を返すこ
とができる。

【００７５】請求項４記載の発明は、請求項２記載の画
像処理方法において、複数のドットからなるドット文字
を含む文字列に対して、方向選択性の膨張処理を施し
て、前記互いに隣接する文字が接触した状態にある文字
列を得るので、請求項１記載の発明または請求項２記載
の発明をドット文字に対して直接適用する場合よりも処
理速度および信頼性を向上させることができる。また、
文字間隔が狭いためにドットの膨張を行うと、文字同士
が連結してしまう場合でも、同一文字中のドット間は連
結させ、別の文字同士は正しく分断させることができる
ので、正しい文字認識が可能となる。

【００７６】請求項５記載の発明は、請求項１記載の画
像処理方法において、互いに隣接する文字が接触した状
態にある文字列を予め設定した値で強制的に分断して前
記画像を得るので、例えば文字同士が接触する領域が広
く、請求項２記載の発明では分断が困難である場合で
も、互いに隣接する文字が接触した状態にある文字列を
正しい文字となるように分断することができ、正しい文
字認識が可能となる。また、文字列の配列方向に無関係
に文字認識を行えるため、文字列が波型に並んでいる場
合や、縦方向に並んでいる場合でも、問題なく切り出し
および認識を行うことができる。

【００７７】請求項６記載の発明の画像処理装置は、本
来連続する部分が複数の文字部分に分断した状態にある
文字を少なくとも含む画像から、２値化処理または濃淡
フィルタなどで少なくとも各文字部分の抽出をする手段
と、この手段による抽出結果から、少なくとも一の文字
を構成する一の要素または複数の要素を選択し、この一
の要素または複数の要素を種々組合せて少なくとも１つ
の合成画像を作成し、この少なくとも１つの合成画像を
画像処理にかけて特徴量を計算し、この特徴量を既に認
識対象の文字パターンに対して学習の終了しているバッ
クプロパゲーションネットワークに入力して認識処理を
行い、そしてそのバックプロパゲーションネットワーク
の出力を、前記少なくとも１つの合成画像に含まれる一
の要素または複数の要素に対する一致度および認識結果
とする、これら一連の処理を、前記抽出結果から選択さ
れる少なくとも一の文字を構成する一の要素または複数
の要素毎に実行する手段と、前記少なくとも一の文字を
構成する一の要素または複数の要素毎に、最大の一致度
および認識結果となった要素を選択して、それら一致度
および認識結果のうち少なくとも認識結果を出力する手
段とを備えるので、通常の２値化処理などでは１文字毎
に正しく切り出せない状態の文字であっても、各文字を
正しく認識することができる。

【００７８】請求項７記載の発明は、請求項６記載の画
像処理装置において、互いに隣接する文字が接触した状
態にある文字列を、文字を構成する線の本数に対して重
み付けを行ってその文字列の文字の配列方向に投影する
ことにより各投影値を求め、これらの各投影値のうち、
文字の形状から自動的に設定されるしきい値またはオペ
レータが入力したしきい値よりも低い投影値による分布
形状が谷を形成する部分で、前記接触した状態にある文
字列を分断して、前記画像を得る手段をさらに備えるの
で、互いに隣接する文字が接触した状態にある文字列を
正しい文字となるように切り出すことができ、正しい認
識結果を返すことができる。

【図面の簡単な説明】

【図１】本発明に係る第１実施形態の画像処理の手順の
説明図であり、ディスプレイ上に表示した中間調画像を
プリンタで出力した図面代用写真である。

【図２】同画像処理の対象となる文字列の一例を示す図
であり、ディスプレイ上に表示した中間調画像をプリン
タで出力した図面代用写真である。

【図３】同画像処理中の概略領域作成処理のフロー図で
ある。

【図４】同画像処理中の認識処理のフロー図である。

【図５】図３，図４の処理過程の様子を示す図であり、
ディスプレイ上に表示した中間調画像をプリンタで出力
した図面代用写真である。

【図６】本発明に係る第２実施形態の画像処理の対象と
なる文字列の一例を示す図であり、ディスプレイ上に表
示した中間調画像をプリンタで出力した図面代用写真で
ある。

【図７】同画像処理の特徴部分のフロー図である。

【図８】図７の処理過程の様子を示す図であり、ディス
プレイ上に表示した中間調画像をプリンタで出力した図
面代用写真である。

【図９】本発明に係る第３実施形態の画像処理の対象と
なる文字列の一例および同画像処理による最終結果の一
例を示す図であり、ディスプレイ上に表示した中間調画
像をプリンタで出力した図面代用写真である。

【図１０】本発明に係る第４実施形態の画像処理の対象
となる文字列の一例および同画像処理過程の様子を示す
図であり、ディスプレイ上に表示した中間調画像をプリ
ンタで出力した図面代用写真である。

【図１１】本発明に係る第５実施形態の画像処理の対象
となる文字列の一例および同画像処理過程の様子を示す
図であり、ディスプレイ上に表示した中間調画像をプリ
ンタで出力した図面代用写真である。

【符号の説明】

１，１Ａ，１Ｂ，１Ｃ，１Ｄ原画像

Claims

【特許請求の範囲】

【請求項１】本来連続する部分が複数の文字部分に分
断した状態にある文字を少なくとも含む画像から、２値
化処理または濃淡フィルタなどで少なくとも各文字部分
の抽出をするステップと、このステップによる抽出結果から、少なくとも一の文字
を構成する一の要素または複数の要素を選択し、この一
の要素または複数の要素を種々組合せて少なくとも１つ
の合成画像を作成し、この少なくとも１つの合成画像を
画像処理にかけて特徴量を計算し、この特徴量を既に認
識対象の文字パターンに対して学習の終了しているバッ
クプロパゲーションネットワークに入力して認識処理を
行い、そしてそのバックプロパゲーションネットワーク
の出力を、前記少なくとも１つの合成画像に含まれる一
の要素または複数の要素に対する一致度および認識結果
とする、これら一連の処理を、前記抽出結果から選択さ
れる少なくとも一の文字を構成する一の要素または複数
の要素毎に実行するステップと、前記少なくとも一の文字を構成する一の要素または複数
の要素毎に、最大の一致度および認識結果となった要素
を選択して、それら一致度および認識結果のうち少なく
とも認識結果を出力するステップとを有することを特徴
とする画像処理方法。
【請求項２】互いに隣接する文字が接触した状態にあ
る文字列を、文字を構成する線の本数に対して重み付け
を行ってその文字列の文字の配列方向に投影することに
より各投影値を求め、これらの各投影値のうち、文字の
形状から自動的に設定されるしきい値またはオペレータ
が入力したしきい値よりも低い投影値による分布形状が
谷を形成する部分で、前記接触した状態にある文字列を
分断して、前記画像を得ることを特徴とする請求項１記
載の画像処理方法。
【請求項３】互いに隣接する文字が接触した状態にあ
る文字列であるか否かを自動的に判定し、互いに隣接す
る文字が接触した状態にある文字列に対しては、文字を
構成する線の本数に対して重み付けを行ってその文字列
の文字の配列方向に投影することにより各投影値を求
め、これらの各投影値のうち、文字の形状から自動的に
設定されるしきい値またはオペレータが入力したしきい
値よりも低い投影値による分布形状が谷を形成する部分
で、前記接触した状態にある文字列を分断し、本来連続
する部分が複数の文字部分に分断した状態にある文字に
ついては、それら文字部分をそのままとして、前記画像
を得ることを特徴とする請求項１記載の画像処理方法。
【請求項４】複数のドットからなるドット文字を含む
文字列に対して、方向選択性の膨張処理を施して、前記
互いに隣接する文字が接触した状態にある文字列を得る
ことを特徴とする請求項２記載の画像処理方法。
【請求項５】互いに隣接する文字が接触した状態にあ
る文字列を予め設定した値で強制的に分断して前記画像
を得ることを特徴とする請求項１記載の画像処理方法。
【請求項６】本来連続する部分が複数の文字部分に分
断した状態にある文字を少なくとも含む画像から、２値
化処理または濃淡フィルタなどで少なくとも各文字部分
の抽出をする手段と、この手段による抽出結果から、少なくとも一の文字を構
成する一の要素または複数の要素を選択し、この一の要
素または複数の要素を種々組合せて少なくとも１つの合
成画像を作成し、この少なくとも１つの合成画像を画像
処理にかけて特徴量を計算し、この特徴量を既に認識対
象の文字パターンに対して学習の終了しているバックプ
ロパゲーションネットワークに入力して認識処理を行
い、そしてそのバックプロパゲーションネットワークの
出力を、前記少なくとも１つの合成画像に含まれる一の
要素または複数の要素に対する一致度および認識結果と
する、これら一連の処理を、前記抽出結果から選択され
る少なくとも一の文字を構成する一の要素または複数の
要素毎に実行する手段と、前記少なくとも一の文字を構成する一の要素または複数
の要素毎に、最大の一致度および認識結果となった要素
を選択して、それら一致度および認識結果のうち少なく
とも認識結果を出力する手段とを備えることを特徴とす
る画像処理装置。
【請求項７】互いに隣接する文字が接触した状態にあ
る文字列を、文字を構成する線の本数に対して重み付け
を行ってその文字列の文字の配列方向に投影することに
より各投影値を求め、これらの各投影値のうち、文字の
形状から自動的に設定されるしきい値またはオペレータ
が入力したしきい値よりも低い投影値による分布形状が
谷を形成する部分で、前記接触した状態にある文字列を
分断して、前記画像を得る手段をさらに備えることを特
徴とする請求項６記載の画像処理装置。