[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP4145256B2 - 画像歪み補正装置、プログラム及び記憶媒体 - Google Patents

画像歪み補正装置、プログラム及び記憶媒体 Download PDF

Info

Publication number
JP4145256B2
JP4145256B2 JP2004033634A JP2004033634A JP4145256B2 JP 4145256 B2 JP4145256 B2 JP 4145256B2 JP 2004033634 A JP2004033634 A JP 2004033634A JP 2004033634 A JP2004033634 A JP 2004033634A JP 4145256 B2 JP4145256 B2 JP 4145256B2
Authority
JP
Japan
Prior art keywords
image
line
character line
scanning direction
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004033634A
Other languages
English (en)
Other versions
JP2005229193A (ja
Inventor
禎史 荒木
真希 篠田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2004033634A priority Critical patent/JP4145256B2/ja
Priority to US11/054,396 priority patent/US7602995B2/en
Publication of JP2005229193A publication Critical patent/JP2005229193A/ja
Application granted granted Critical
Publication of JP4145256B2 publication Critical patent/JP4145256B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Image Processing (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Facsimile Image Signal Circuits (AREA)

Description

本発明は、書籍原稿画像を画像読取手段により読み取ったスキャン画像の歪みを補正する画像歪み補正装置、プログラム及び記憶媒体に関する。
フラットベッドスキャナを用いて読み取る原稿の多くはシート状の原稿であり、コンタクトガラス上に開閉自在の圧板を設け、コンタクトガラス上に原稿を載置した後に圧板を閉じて原稿をスキャンするようにしている。しかし、原稿としてはシート状のものに限られず、書籍原稿(本、冊子など)も原稿として扱われることがあり、そのような場合にもコンタクトガラス上に書籍原稿を載置し、原稿をスキャンすることになる。
ところが、原稿として書籍原稿を用いた場合には、図62に示すように、書籍原稿100のページ綴じ部101がコンタクトガラス102から浮き上がってしまう。このように書籍原稿100のページ綴じ部101がコンタクトガラス102から浮き上がってしまった場合には、ページ綴じ部101が焦点面から離れてしまうため、浮き上がった部分のスキャン画像には、画像歪み、影、文字ぼけなどの画像劣化が発生する。劣化した画像のページ綴じ部101は読みにくく、OCRにより文字認識処理を行うときの認識率が著しく低下する。特に、厚手製本ではその割合が高く、また、書籍原稿100のページ綴じ部101を焦点面から離れないように加圧作業した場合には、書籍原稿100自体を破損してしまうこともある。
このような問題を解決すべく、画像の濃度情報から物体の3次元形状を推定する方法を用いて、画像の歪みを補正する方法が提案されている。このような画像の濃度情報から物体の3次元形状を推定する方法としては、非特許文献1に記載されているShape from Shadingと呼ばれる方法が代表的な例である。
また、特許文献1には、三角測量方式により書籍の形状を測定し、歪みを補正する方法が提案されている。
さらに、特許文献2には、読み取りスキャン画像のページ外形の形状を用いて書籍表面の3次元形状を推定する方法が提案されている。
しかしながら、前述したShape from Shadingと呼ばれる方法によれば、計算量が多く、歪み補正処理の計算時間が長いので、実用化は困難である。
また、特許文献1に記載されている方法によれば、三角測量方式により書籍の形状を測定するための特別な形状計測装置が必要になるため、適当ではない。
さらに、特許文献2に記載されている方法によれば、少ない計算量で歪み補正ができるが、ページ外形が画像中に完全に収まりきれずに途中で切れているような場合には有効な補正ができない。
そこで、本出願人は、ページ外形が途中で切れているような読み取りスキャン画像であっても、その歪みを少ない計算量で有効に補正することができる画像歪み補正装置を特願2002-247643にて提案している。特願2002-247643によれば、ページ外形だけではなく文字行情報および罫線情報を用いて画像の歪みを補正し、しかも、スキャナ(画像読取手段)の固有パラメータ(レンズの焦点面距離、スキャン光軸の位置(アドレス))を利用していないので、任意のスキャナの出力画像を補正できる。
T. Wada, H. Uchida and T. Matsuyama, "Shape from Shading with Interreflections under a Proximal Light Source: Distortion-Free Copying of an Unfolded Book", International Journal Computer Vision 24(2), 125-135(1997) 特開平5-161002号公報 特開平11-41455号公報
しかしながら、上述したようなページ外形が途中で切れているような読み取りスキャン画像であっても、その歪みを少ない計算量で有効に補正することができる画像歪み補正装置によれば、ページ外形ではなく、文字行情報および罫線情報を用いて画像の歪みを補正するようにしているが、まだ、完全とはいえず、解決されねばならない課題が存在する。
例えば、歪み補正するための手がかりとして文字行を利用する従来方式では、文字単位の矩形を抽出し、それらの矩形から主走査方向の補正では近似曲線を求めている。ところが、図63に示すように、英文画像では、日本語で書かれた画像と異なりアルファベット文字で書かれているために文字のアスペクト比がさまざまであり、また、文字間の間隔が狭くなる場合もある。そのため、英文画像に対して矩形抽出を行うと、水平方向に隣接する文字同士が複数個接触し一つの矩形として抽出されてしまう場合がある。このように文字同士が複数個接触し一つの矩形として抽出された矩形を基に歪み補正を行うと、主走査方向の歪み補正に悪影響を及ぼすことがある。
より詳細には、主走査方向の歪み補正では、矩形抽出後、行統合して、行内の矩形から近似曲線を生成し、それを基に補正を行っている。そこで、文字同士が接触した矩形から行を生成しようとすると、図64に示すように、複数分の行が一行と誤認識されやすく不適切な行が生成されることがある。そして、行統合した一行内にある実際に存在する文字数よりも矩形数が減る。そのため、一行内にある矩形の中心座標を基に生成される近似曲線は、不安定となってしまう問題点がある。
本発明は、英文画像の主走査方向の歪み補正における精度の高精度化を図ることができる画像歪み補正装置、プログラム及び記憶媒体を提供することを目的とする。
請求項1記載の発明の画像歪み補正装置は、画像読取手段の主走査方向に対してページ綴じ部がほぼ平行となるようにスキャン面の上もしくは下に接触した書籍原稿画像を前記画像読取手段により読み取ったスキャン画像の歪みを当該スキャン画像内の文字行の形状を基に補正する画像歪み補正装置において、前記スキャン画像から主走査方向に予め定めた第1閾値以上かつ予め定めた第2閾値以下の数の黒画素が連結する黒画素ランのみを抽出する手段と、抽出した黒画素ランを基に、文字の垂直方向の成分である縦成分のみの矩形を縦成分矩形として抽出する手段と、抽出した縦成分矩形間の主走査方向および副走査方向の距離を基に文字行を抽出する手段と、抽出した文字行の中から、前記スキャン画像の歪み補正に利用するための文字行を決定する手段と、決定した文字行中に存在する各縦成分矩形の中心座標を基に近似曲線を算出する手段と、を備える。
したがって、文字の縦成分のみの矩形を抽出することで隣接する文字の接触が防止される。このような縦成分矩形から近似曲線を求めることにより、英文画像の主走査方向の歪み補正における精度の高精度化を図ることが可能になる。
請求項2記載の発明は、請求項1記載の画像歪み補正装置において、抽出した縦成分矩形の主走査方向の長さが予め定めた閾値以上の場合、当該縦成分矩形の長さを当該閾値の長さに縮める。
したがって、縦成分矩形の長さを主走査方向に縮めることにより、主走査方向に矩形が接触するのを防ぐことが可能になるので、複数分の行が一行と誤認識されやすいという事態が回避され、安定した行統合が可能になる。
なお、抽出した文字行の中から、前記スキャン画像の歪み補正に利用するための文字行を決定する手段においては、請求項3記載の発明のように、ページ綴じ部付近まで最も食い込んでいる矩形に包摂される罫線を前記スキャン画像の歪み補正に利用するための罫線と決定し、または、請求項4記載の発明のように、副走査方向の長さが最も長い矩形に包摂される罫線を前記スキャン画像の歪み補正に利用するための罫線と決定し、もしくは、請求項5記載の発明のように、前記スキャン画像のページ外形に最も近い矩形に包摂される罫線を前記スキャン画像の歪み補正に利用するための罫線と決定する。また、請求項6記載の発明のように、前記スキャン画像の歪み補正に利用するための罫線を、ページ綴じ部付近まで最も食い込んでいる矩形に包摂される罫線、副走査方向の長さが最も長い矩形に包摂される罫線、前記スキャン画像のページ外形に最も近い矩形に包摂される罫線の順に決定するようにしても良い。
請求項7記載の発明のプログラムは、画像読取手段の主走査方向に対してページ綴じ部がほぼ平行となるようにスキャン面の上もしくは下に接触した書籍原稿画像を前記画像読取手段により読み取ったスキャン画像の歪みを当該スキャン画像内の文字行の形状を基に補正する処理をコンピュータに実行させるプログラムであって、前記コンピュータに、前記スキャン画像から主走査方向に予め定めた第1閾値以上かつ予め定めた第2閾値以下の数の黒画素が連結する黒画素ランのみを抽出する機能と、抽出した黒画素ランを基に、文字の垂直方向の成分である縦成分のみの矩形を縦成分矩形として抽出する機能と、抽出した縦成分矩形間の主走査方向および副走査方向の距離を基に文字行を抽出する機能と、抽出した文字行の中から、前記スキャン画像の歪み補正に利用するための文字行を決定する機能と、決定した文字行中に存在する各縦成分矩形の中心座標を基に近似曲線を算出する機能と、を実行させる。
したがって、文字の縦成分のみの矩形を抽出することで隣接する文字の接触が防止される。このような縦成分矩形から近似曲線を求めることにより、英文画像の主走査方向の歪み補正における精度の高精度化を図ることが可能になる。
請求項8記載の発明は、請求項7記載のプログラムにおいて、抽出した縦成分矩形の主走査方向の長さが予め定めた閾値以上の場合、当該縦成分矩形の長さを当該閾値の長さに縮める。
したがって、縦成分矩形の長さを主走査方向に縮めることにより、主走査方向に矩形が接触するのを防ぐことが可能になるので、複数分の行が一行と誤認識されやすいという事態が回避され、安定した行統合が可能になる。
なお、抽出した文字行の中から、前記スキャン画像の歪み補正に利用するための文字行を決定する機能においては、請求項9記載の発明のように、ページ綴じ部付近まで最も食い込んでいる矩形に包摂される罫線を前記スキャン画像の歪み補正に利用するための罫線と決定し、または、請求項10記載の発明のように、副走査方向の長さが最も長い矩形に包摂される罫線を前記スキャン画像の歪み補正に利用するための罫線と決定し、もしくは、請求項11記載の発明のように、前記スキャン画像のページ外形に最も近い矩形に包摂される罫線を前記スキャン画像の歪み補正に利用するための罫線と決定する。また、請求項12記載の発明のように、前記スキャン画像の歪み補正に利用するための罫線を、ページ綴じ部付近まで最も食い込んでいる矩形に包摂される罫線、副走査方向の長さが最も長い矩形に包摂される罫線、前記スキャン画像のページ外形に最も近い矩形に包摂される罫線の順に決定するようにしても良い。
請求項13記載の発明の記憶媒体は、請求項7ないし12のいずれか一記載のプログラムを記憶する。
したがって、請求項7ないし12のいずれか一記載のプログラムを有体物の形態で取り扱うことが可能となる。
本発明によれば、文字の縦成分のみの矩形を抽出することで隣接する文字の接触を防止し、このような縦成分矩形から近似曲線を求めることにより、英文画像の主走査方向の歪み補正における精度の高精度化を図ることができる。
本発明の実施の一形態を図1ないし図61に基づいて説明する。本実施の形態の画像歪み補正装置は画像形成装置であるデジタル複写機に備えられており、画像読取装置としてはデジタル複写機のスキャナ部が適用されている。
ここで、図1はスキャナ部1の構成を示す縦断正面図である。図1に示すように、スキャナ部1は、原稿を載置するコンタクトガラス2と、原稿の露光用の露光ランプ3および第一反射ミラー4からなる第一走行体5と、第二反射ミラー6および第三反射ミラー7からなる第二走行体8と、原稿の画像を読み取る撮像素子としてのCCD(Charge Coupled Device)9と、このCCD9に結像させるためのレンズユニット10と、原稿を載置する基準になるとともにコンタクトガラス2のズレや外れを防止する原稿スケール11と、この原稿スケール11の下側に設置されたシェーディング補正用の白基準板12と、フレーム14とを備えている。CCD9はセンサボード13上に形成されている。
原稿の走査時には、第一走行体5および第二走行体8はステッピングモータ24(図3参照)によって副走査方向に移動する。すなわち、第一走行体5および第二走行体8がコンタクトガラス2の下を走行して、露光ランプ3で原稿を露光走査し、その反射光を第一反射ミラー4、第二反射ミラー6および第三反射ミラー7で反射して、レンズユニット10を通してCCD9に結像させる。ここに、画像読取手段が実現されている。
このようなスキャナ部1は、このスキャナ部1で読み取られた原稿の画像に基づく画像データに応じ、例えば電子写真方式で用紙上に画像の形成を行う画像印刷装置であるプリンタ部(図示せず)を備えるデジタル複写機16に搭載されている。図2は、スキャナ部1を搭載したデジタル複写機16の上部部分を示す斜視図である。図2に示すように、スキャナ部1には、コンタクトガラス2に対して開閉自在な圧板17と、この圧板17の開閉を検出する開閉センサ18とが設けられている。なお、デジタル複写機16に備えられるプリンタとしては、電子写真方式のほか、インクジェット方式、昇華型熱転写方式、銀塩写真方式、直接感熱記録方式、溶融型熱転写方式など、種々の印刷方式を適用することができる。その具体的な構成については周知であるため、詳細な説明は省略する。
図3は、スキャナ部1の制御系の電気的な接続を示すブロック図である。図3に示すように、この制御系は、スキャナ部1の全体を制御するメイン制御部19に、CCD9で読み取った画像データに各種の画像処理を施す回路である画像処理部20と、第一走行体5および第二走行体8を制御する回路である走行体制御部21と、デジタル複写機16への各種操作を受け付け、また、各種メッセージを表示する操作パネル22と、CCD9で読み取った画像データや所定のデータ等を記憶するメモリ23とが接続されている。なお、操作パネル22には、コピー開始を宣言するためのコピースタートキー等が設けられている。また、走行体制御部21には、露光ランプ3と、第一走行体5および第二走行体8を駆動するステッピングモータ24と、第一走行体5および第二走行体8がホームポジションにあるか否かを検出するスキャナホームポジションセンサ(HPセンサ)25と、開閉センサ18とが接続されている。
ここで、図4は画像処理部20の基本的な内部構成を示すブロック図である。図4に示すように、画像処理部20は、原稿をCCD9により読み取ったアナログ画像信号の増幅処理やデジタル変換処理等を行うアナログビデオ処理部26、シェーディング補正処理を行うシェーディング補正処理部27、シェーディング補正処理後のデジタル画像信号に、MTF補正、変倍処理、γ補正等の各種画像データ処理を行いスキャン画像を生成する画像データ処理部28から構成されている。以上のような画像処理後のデジタル画像信号は、メイン制御部19を介してプリンタ部に送信されて、画像形成に供される。
メイン制御部19は、図5に示すように、各部を集中的に制御するCPU(Central Processing Unit)31を備えており、このCPU31には、BIOSなどを記憶した読出し専用メモリであるROM(Read Only Memory)32と、各種データを書換え可能に記憶してCPU31の作業エリアとして機能するRAM(Random Access Memory)33とがバス34で接続されており、マイクロコンピュータを構成している。さらにバス34には、制御プログラムが記憶されたHDD35と、CD(Compact Disc)−ROM37を読み取るCD−ROMドライブ36と、プリンタ部等との通信を司るインタフェース(I/F)38とが接続されている。
図5に示すCD−ROM37は、この発明の記憶媒体を実施するものであり、所定の制御プログラムが記憶されている。CPU31は、CD−ROM37に記憶されている制御プログラムをCD−ROMドライブ36で読み取り、HDD35にインストールする。これにより、メイン制御部19は、後述するような各種の処理を行うことが可能な状態となる。
なお、記憶媒体としては、CD−ROM37のみならず、DVDなどの各種の光ディスク、各種光磁気ディスク、フレキシブルディスクなどの各種磁気ディスク、半導体メモリ等、各種方式のメディアを用いることができる。また、インターネットなどのネットワークからプログラムをダウンロードし、HDD35にインストールするようにしてもよい。この場合に、送信側のサーバでプログラムを記憶している記憶装置も、この発明の記憶媒体である。なお、プログラムは、所定のOS(Operating System)上で動作するものであってもよいし、その場合に後述の各種処理の一部の実行をOSに肩代わりさせるものであってもよいし、ワープロソフトなど所定のアプリケーションソフトやOSなどを構成する一群のプログラムファイルの一部として含まれているものであってもよい。
次に、メイン制御部19に設けられたCPU31が制御プログラムに基づいて実行する各種処理の内容について説明する。ここでは、CPU31が実行する処理のうち、本実施の形態のスキャナ部1が備える特長的な機能であるスキャン画像の歪み補正機能を実現するスキャン画像の歪み補正処理についてのみ説明する。すなわち、メイン制御部19は画像歪み補正装置として機能するものである。
図6は、スキャン画像の歪み補正処理の流れを概略的に示すフローチャートである。なお、ここでは、図7に示すように、書籍原稿40がそのページ綴じ部41とスキャナ部1の画像読み取りの主走査方向とが平行になるように位置させてコンタクトガラス2に載置されている場合について説明する。
まず、ステップS1において、画像データ処理部28から出力されたコンタクトガラス2に載置されている書籍原稿40のスキャン画像を入力する。ここで、図8は入力した画像の一例を示したものである。そして、図9に示すように、入力された書籍原稿40のスキャン画像には、ページ綴じ部41の近傍において歪みが生じている。
次いで、書籍原稿40のスキャン画像(例えば、モノクロ多値画像)の最適2値化処理を実行し(ステップS2)、副走査方向の黒画素(スキャン画像の画素の中でその濃度値が予め定めた濃度値よりも濃い画素)数のヒストグラムを求める(ステップS3)。図10は、図8に示した画像の綴じ部境界線左側の黒画素ヒストグラムである。図10中の横軸は、主走査方向の黒画素(スキャン画像の画素の中でその濃度値が予め定めた濃度値よりも濃い画素)の位置を示し、図10中の縦軸は、その位置毎の黒画素数を示すものである。なお、ページ綴じ部41のスキャン画像である綴じ部境界線としては、スキャン画像中の画素の中でその濃度値が元も濃い画素が位置する副走査方向の位置が選択される。
なお、スキャン画像がカラー多値画像の場合における2値化処理は、例えばRGB成分の何れか一つの成分に着目し(例えばG成分)、G成分の所定の濃度閾値よりも大きいものを黒画素とし、G成分の所定の濃度閾値よりも小さいものを白画素とすれば良い。また、RGBを色変換して輝度成分と色差成分とに分け、輝度成分で閾値処理を行うようにしても良い。
続くステップS4においては、ページ外形/罫線/文字行の抽出処理を実行する。ここで、図11は、ページ外形/罫線/文字行の抽出処理の流れを概略的に示すフローチャートである。
[スキャン画像からのページ外形の抽出]
まず、ステップS41におけるスキャン画像からのページ外形の抽出処理について説明する。ここで、図12は上端にページ外形が存在するスキャン画像の一例を示す説明図、図13は図12に示したスキャン画像の綴じ部境界線左側の黒画素ヒストグラムである。図13に示すヒストグラムのx軸はスキャン画像の主走査方向(図12の上下方向)を示すものであり、スキャン画像の上端はヒストグラムの左端に対応付けられている。なお、ページ外形が下端に存在するスキャン画像の場合には、スキャン画像の下端がヒストグラムの右端に対応付けられることになる。したがって、図12に示すようにスキャン画像の上端にページ外形が存在する場合、スキャン画像の上部に黒い帯が現れることから、図13に示すヒストグラムの左端には高い縦棒が現れることになる。本実施の形態では、このような特性を利用して、スキャン画像にページ外形が存在するか否かの判断を行う。
より具体的には、図13に示すように、綴じ部境界線からスキャン画像の左端(図12の左端)までの距離AO、ヒストグラム縦棒の高さBOとし、その比率を下記に示す式(1)により算出し、
Figure 0004145256
算出された比率kが、予め定められた閾値よりも大きい場合に、スキャン画像にページ外形が存在すると判断する。
なお、スキャン画像の上下にページ外形が存在する場合には、ヒストグラムの左右両端に高い縦棒が現れることになるので、このような場合には、ヒストグラムの左右両端の高い縦棒に基づいてスキャン画像にページ外形が存在するか否かの判断がそれぞれ実行される。
以上の処理により、スキャン画像にページ外形が存在すると判断された場合には、左右ページの上下辺のいずれにページ外形が存在しているのかという情報とともにページ外形を抽出し、RAM33に一時的に記憶する。
なお、このスキャン画像にページ外形が存在するか否かの判断処理は、スキャン画像の綴じ部境界線を境にした左右ページ毎に実行される。
[スキャン画像からの罫線の抽出]
続くステップS42においては、スキャン画像からの罫線の抽出処理を実行する。ステップS42におけるスキャン画像からの罫線の抽出処理について説明する。
[罫線候補の検出]
ここで、図14は罫線が存在するスキャン画像の一例を示す説明図である。本実施の形態では、罫線の矩形抽出を導入し、図14に示すようなスキャン画像に存在する罫線を1つの矩形として抽出する。なお、詳細については後述するが、ただ単に矩形抽出を行うだけでは罫線が単独で抽出できない場合もあるために、本実施の形態では、ランの登録に制限を設けた矩形抽出を行う。
図15は、2値化した画像に矩形抽出を施した結果を示す説明図である。図15に示すように、黒画素が連結している箇所が1つの矩形として抽出される。図15に示すように、罫線が存在していれば、副走査方向に細長い矩形として抽出されることから、細長い矩形の有無や抽出した矩形の形状(長さ・縦横比)や位置を基に罫線の有無の判定を行う。
ただし、ただ単に矩形抽出を行うだけでは、罫線が単独で抽出できない場合もある。図16に示すように、罫線がノイズと接触している場合、ノイズを含む矩形が抽出されてしまう。また、図17のような表が含まれる画像の場合は、副走査方向の罫線は主走査方向の罫線と交差するため、表全体が1つの矩形として抽出され罫線が単独で抽出できない。
[ランの登録に制限を設けた矩形抽出]
そこで、罫線を単独で抽出するために、ランの登録に制限を設けた矩形抽出を行う。図16に示すような罫線とノイズが接触している画像に対して、主走査方向(垂直方向)に一定値未満のランのみを登録し矩形を抽出すると、図18に示すように罫線を構成する黒画素は登録対象のランとなるが、ノイズを構成する黒画素はランとして登録されない。罫線を構成する黒画素を対象として矩形抽出を行うため、罫線を単独で抽出することができる。
なお、罫線を矩形抽出するにあたって、副走査方向(水平方向)に長いランのみを対象に矩形抽出を行う方法もあるが、この方法だと綴じ部付近の歪み部分は矩形内に含まれない。ところが、本実施の形態の方式を用いることにより、罫線の綴じ部付近の歪み部分も矩形内に含めることが可能となり、より正確な罫線の位置や長さを検出することが出来る。
[矩形統合]
表など、副走査方向(水平方向)の罫線と主走査方向(垂直方向)の罫線とが交差している画像に矩形抽出を行うと、主走査方向の罫線はランとして登録されないため、副走査方向に矩形が細切れに抽出されてしまう。すると、図19に示すように、副走査方向に長い罫線があるにもかかわらず、その罫線は1つの矩形として抽出されず、複数の細切れの矩形となって抽出される。
そこで、矩形統合を行う。副走査方向における距離が一定値以下の矩形同士を統合する。図20は、矩形統合を施した例である。矩形統合は、図20に示すように、細切れになっていた矩形を1つの矩形に統合し、罫線の矩形を抽出するものである。この矩形統合は、かすれた罫線や点線の罫線に対して行っても、罫線全体が1つの矩形として抽出されるため有効な方法である。
[最適罫線の選択]
次いで、一定値未満のランのみを登録した矩形抽出を行い、副走査方向に細長い矩形の有無にて罫線の有無を判定する。このような罫線の有無の判定は、画像の左上・左下・右上・右下の4箇所それぞれにおいて行う。例えば、図21に示す画像の場合、左上にのみ罫線が存在しないということになる。ある箇所にて複数罫線が存在する場合は、補正に利用する罫線を以下の優先順位で決定する。
1.綴じ部付近まで食い込んでいる罫線
例えば、図21に示す画像の右下の場合、綴じ部付近まで食い込んでいる罫線が補正に利用される。
2.長さが長い方の罫線
例えば、図21に示す画像の右上の場合、双方の罫線は綴じ部付近まで食い込んでいるため、長さが長い方の罫線が補正に利用される。
3.位置が外側の罫線
例えば、図21に示す画像の左下の場合、双方の罫線は綴じ部付近まで食い込んでいて、なおかつ、長さがほぼ同じため、画像の外側に位置する罫線が補正に利用される。
[最適罫線の座標値検出]
以上のようにして最適罫線を選択した後、各罫線の座標値を検出する。罫線の位置座標は、抽出された矩形の座標から得ることができる。なお、特殊な例として、副走査方向に細長い矩形の位置が画像の上端や下端に接している場合は、その矩形がノイズである可能性を考慮して、罫線とはみなさないものとする。また、左右のページそれぞれで細長い矩形が抽出された場合(例えば、左上と右上、左下と右下)、画像によっては、綴じ部をまたがる形で左右ページの矩形が統合されることがある。すると、水平方向画像全体に細長い矩形が抽出されることから、抽出された矩形にそのような特徴が見られた場合は、綴じ部位置を境にその矩形を分割する。
以上の処理により、スキャン画像に罫線が存在すると判断された場合には、左右各ページのいずれの位置に罫線が存在しているのかという情報とともに罫線を抽出し、RAM33に一時的に記憶する。
[スキャン画像からの文字行の抽出]
続くステップS43においては、スキャン画像からの文字行の抽出処理を実行する。ステップS43におけるスキャン画像からの文字行の抽出処理について説明する。本実施の形態においては、まず、スキャン画像中の文字行が縦書き文字行なのか、横書き文字行なのかの判別を行う。
[文字行の判別]
スキャン画像中の文字行が縦書き文字行なのか、横書き文字行なのかの判別手法について説明する。ここで、図22は図8に示した画像の副走査方向の黒白反転数ヒストグラムである。図22中の横軸は、副走査方向(左右方向)の黒画素(スキャン画像を黒白反転させた画素の中でその濃度値が予め定めた濃度値よりも濃い画素)の主走査方向上での位置を示し、図22中の縦軸は、その位置毎の黒画素数を示すものである。また、図23は図8に示した画像の主走査方向の黒白反転数ヒストグラムである。図23中の横軸は、主走査方向(上下方向)の黒画素(スキャン画像を黒白反転させた画素の中でその濃度値が予め定めた濃度値よりも濃い画素)の副走査方向上での位置を示し、図23中の縦軸は、その位置毎の黒画素数を示すものである。画像中の文字が横書きの図8に示したようなスキャン画像の場合、図22に示すような副走査方向のヒストグラムは激しく変化するが、図23に示すような主走査方向のヒストグラムの変化は少ない。また、特に図示しないが、スキャン画像中の文字行が縦書き文字行である場合には、主走査方向のヒストグラムは激しく変化するが、副走査方向のヒストグラムの変化は少ない。
上述したような判別手法は、具体的には下記に示す各式により実現される。まず、下記に示す式(2)により、
Figure 0004145256
主走査方向yの位置でのヒストグラム値Pnt(y)の平均値meanHが算出される。ここで、heightは画像の高さである。
そして、下記に示す式(3)により、
Figure 0004145256
副走査方向のヒストグラムの主走査方向に関する分散σHが得られる。
同様に、下記に示す式(4)により、
Figure 0004145256
副走査方向xの位置でのヒストグラム値Pnt(x)の平均値meanVが算出される。ここで、widthは画像の幅である。
そして、下記に示す式(5)により、
Figure 0004145256
主走査方向のヒストグラムの副走査方向に関する分散σvが得られる。
上述したようにスキャン画像中の文字行が横書き文字行である場合には、副走査方向のヒストグラムの主走査方向に関する分散σHが、主走査方向のヒストグラムの副走査方向に関する分散σvより大きい。逆に、スキャン画像中の文字行が縦書き文字行である場合には、主走査方向のヒストグラムの副走査方向に関する分散σvが、副走査方向のヒストグラムの主走査方向に関する分散σHより大きい。つまり、分散σHと分散σvとの比較により、スキャン画像中の文字行が縦書き文字行なのか、横書き文字行なのかの判別が可能になっている。
なお、スキャン画像中の文字行が縦書き文字行なのか、横書き文字行なのかの判別に、黒白反転数ヒストグラムを用いたのは、文字行と写真部分との混同を避けるためである。一般に、黒画素ヒストグラムの値が同程度の場合、文字領域のほうが写真領域よりも黒白反転数ヒストグラムの値が大きくなるからである。
[横書き文字行候補の検出]
以上のようにして横書き文字行と判別された場合、横書き文字行候補を検出する。従来方式では、文字単位の外接矩形を抽出して横書き文字行候補を検出するようにしていたが、矩形を抽出する際に隣接する文字同士が接触して複数の文字が一つの矩形となる問題点があった。そこで、本実施の形態では、ランの長さに制限を設けて文字の縦成分のみの矩形を抽出することで不適切なランを排除し、隣接する文字が接触しないようにする。ここで、縦成分とは文字の垂直方向の成分のことである。このように文字の縦成分のみの矩形を抽出する理由は、アルファベット(a〜z)文字のアスペクト比は一定ではないが、文字に含まれる垂直方向の成分のピッチが一定に近いためである。
具体的には、文字と思われる黒画素の集合部分であるランを探索し、ランが発見された時にはランの終始座標の長さが主走査方向に予め定めた第1閾値以上かつ予め定めた第2閾値以下であればランとして登録する。このようにして登録したランを基に縦成分のみの矩形抽出を行う。ここで、横書き文字行候補の検出の結果の一例を図24に示す。
加えて、本実施の形態においては、縦成分の矩形を抽出後、縦成分の矩形の長さを主走査方向にある一定の長さに縮める。このように縦成分の矩形の長さを主走査方向に縮めるのは、従来方式では、複数分の行が一行と誤認識されやすいという問題点があったからである。すなわち、縦成分の矩形の長さを主走査方向に縮めることにより、主走査方向に矩形が接触するのを防ぎ、安定した行統合が可能になる。ここで、図25は縦成分矩形を縮める手法を示す説明図である。図25に示すように、縦成分の矩形の主走査方向の開始座標をXs、終止座標をXe、中心座標をZとして、Zを基準に上部分と下部分を縮め、主走査方向に一定の長さ以下になるようにすることで、縦成分矩形を縮める。ここで、縦成分矩形を縮めた横書き文字行候補の検出の結果の一例を図26に示す。図26(a)は縦成分矩形を縮める前、図26(b)は縦成分矩形を縮めた後である。
また、縦成分の矩形から行統合を行うとノイズの行が統合されることがある。ノイズの行内にある縦成分の矩形から生成される近似曲線は補正に適さない。そこで、長さがある一定以下の行はノイズとみなして、補正に利用しないようにする。これらの方法を行うと、安定した近似曲線を得る可能性が高くなる。
次いで、一行内の縦成分矩形の中心座標を基に近似曲線を生成する。ここで、図27(a)は縦成分矩形による近似曲線の生成を示す説明図、(b)行を拡大して示す説明図である。
[最適横書き文字行の選択]
次に、抽出した横書き文字行の中から歪み補正に最適な横書き文字行を選択する。複数の横書き文字行が検出される場合、どの横書き文字行を用いて歪み補正するかを選択する必要がある。最適な横書き文字行の選択基準の一例としては、前述した最適な罫線の選択基準と基本的に同様であって、補正に利用する横書き文字行を以下の優先順位で決定する。
1.綴じ部付近まで食い込んでいる横書き文字行
例えば、図28に示す画像の右下の場合、綴じ部付近まで食い込んでいる横書き文字行が補正に利用される。
2.長さが長い方の横書き文字行
例えば、図28に示す画像の右上の場合、双方の横書き文字行は綴じ部付近まで食い込んでいるため、長さが長い方の横書き文字行が補正に利用される。
3.位置が外側の横書き文字行
例えば、図28に示す画像の左下の場合、双方の横書き文字行は綴じ部付近まで食い込んでいて、なおかつ、長さがほぼ同じため、画像の外側に位置する横書き文字行が補正に利用される。
[最適横書き文字行の座標値の決定]
最適な横書き文字行が選択された場合には、横書き文字行の(主走査方向の)座標値を決定する。横書き文字行の(主走査方向の)座標値は、横書き文字行内の各縦成分矩形主走査方向の中心点を連結し、直線部分と曲線部分とを近似して抽出することにより横書き文字行の(主走査方向の)座標値を決定することになる。より詳細には、図28に示すDは綴じ部境界線であり、BDの間は多項式近似曲線で(主走査方向の)座標値を推定し、一番左端のAとBとの間は近似直線の値で(主走査方向の)座標値を推定する。
以上の処理により、スキャン画像に横書き文字行が存在すると判断された場合には、左右各ページのいずれの位置に横書き文字行が存在しているのかという情報とともに横書き文字行を抽出し、RAM33に一時的に記憶する。
[縦書き文字行に基づく横書き文字行の抽出]
次に、各縦書き文字行から横書き文字行を抽出する。
図29は、各縦書き文字行からの横書き文字行の抽出処理の流れを概略的に示すフローチャートである。図29に示すように、まず、縦書き文字行の行切り出し矩形を抽出する(ステップS201)。なお、縦書き文字行の行切り出し矩形の抽出処理は、OCR等で一般に用いられている周知の技術をそのまま利用することができるので、その説明は省略する。図30は、抽出した行切り出し矩形を例示的に示す説明図である。
次いで、縦書き文字行の先頭(もしくは末尾)のy座標が最大(もしくは最小)の縦書き文字行を抽出し、さらに、そこから予め定めた距離範囲内に先頭(もしくは末尾)が存在する縦書き文字行を抽出する(ステップS202)。より具体的には、図30に示した例においては、図31に示すように、縦書き文字行の先頭文字のy座標が最大の縦書き文字行はAで示した縦書き文字行である。そして、その先頭位置から予め定めた距離範囲h内に存在する行先頭文字は、図31中、黒丸“●”で示した文字である。すなわち、黒丸“●”で示す文字を含む縦書き文字行のみを抽出し、それ以外の縦書き文字行B,Cは除外する。なお、hはスキャン画像の解像度によって定められる定数である。
次に、抽出した縦書き文字行の先頭(もしくは末尾)のy座標に関してヒストグラムを構成する(ステップS203)。図32では、ページの左端に近い縦書き文字行Dを基準行とし、その先頭のy座標(yD)を基準座標としている。以後、yDに対して一定幅d(例えば抽出した縦書き文字行の平均幅の1/2)の範囲内に先頭が存在する縦書き文字行の数を、yDに関するヒストグラムの値とする。図32では、yDを示す直線を上下に挟む点線の範囲内に先頭が存在する縦書き文字行がその対象となる。したがって、ページの左端に近い縦書き文字行Dの右隣の縦書き文字行Eは、その範囲外である。このように、既存の基準座標の対象範囲に先頭が含まれない縦書き文字行が出現した場合は、その縦書き文字行を新たな基準行とし、その先頭座標を新たな基準座標(ここでは、yE)とする。また、縦書き文字行Eの右隣の縦書き文字行Fの行先頭座標はyDの対象範囲に含まれるので、新たな基準座標を設けることなく、yDに関するヒストグラムの値を1だけカウントアップする。
以下、同様の処理を綴じ部境界線に向かって続けて行く。その結果、図32に示す例では、yDの対象範囲に含まれる縦書き文字行は斜線を施した矩形で囲まれた7つで、yEの対象範囲に含まれる縦書き文字行は網掛けを施した矩形で囲まれた4つとなる(これら以外の矩形で囲まれた縦書き文字行に関しても、基準行、基準座標と対象範囲がそれぞれ定められるが、図32では省略している)。なお、yDの対象範囲には本来無関係であるべき縦書き文字行Gも含まれているが、次のステップS204にてこれは除外される。
続いて、ステップS203にて構成したヒストグラムの中で、最大の値に対応する基準行の対象範囲に含まれる縦書き文字行の中で、最もページの左端(もしくは右端)にある縦書き文字行(基準行)を開始行として、綴じ部境界線へ向かって、先頭(もしくは末尾)のy座標が近接した縦書き文字行を抽出する(ステップS204)。図32では、基準座標yDの対象範囲に含まれる文字行が7つと最大であったので、その中の左端の縦書き文字行Dを開始行とし、開始行(縦書き文字行D)から綴じ部境界線へ向かって先頭のy座標が近接した縦書き文字行を抽出していく。
ところで、開始行(縦書き文字行D)から綴じ部境界線へ向かって先頭のy座標が近接した縦書き文字行を抽出する際には、画像の歪みを生じていない部分と歪みを生じている部分とで処理内容を切り替える。
まず、画像の歪みを生じていない部分における処理について図33を参照しつつ説明する。画像の歪みを生じていない部分では、着目行Hを基準として、次の2条件を満足する縦書き文字行を抽出する。
1.y座標の正方向(図33中、上方へ向かう方向)に関して、着目行Hの先頭位置から一定範囲内b1(例えば平均文字行幅の1/2)に抽出する縦書き文字行の先頭が存在すること
2.y座標の負方向(図33中、下方へ向かう方向)に関して、着目行Hの先頭位置から見てx座標の正方向(綴じ部境界線へ向かう方向)に対して予め定めた一定角度(ここでは、角度を直線の傾き(b2/a1)で表している)の範囲内に抽出する縦書き文字行の先頭が存在すること
すなわち、着目行Hの次の縦書き文字行Iの先頭は上記の範囲外なので除外することになるが、さらに次の縦書き文字行Jの先頭は範囲内に存在するので抽出することになる。以下、縦書き文字行Jを新たな着目行として同様の処理を続ける。
次に、画像の歪みを生じている部分における処理について図34を参照しつつ説明する。画像の歪みを生じている部分では、着目行Lを基準として、次の2条件を満足する縦書き文字行を抽出する。
1.y座標の負方向(図34中、下方へ向かう方向)に関して、着目行Lの先頭位置から見てx座標の正方向(綴じ部境界線へ向かう方向)に対して予め定めた一定角度(ここでは、角度を直線の傾き(b3/a2)で表しているが、歪みを生じている部分では基本的にページの内側へ文字行の先頭が食い込んでいくのを考慮して、b2/a1<b3/a2とする)の範囲内に抽出する縦書き文字行の先頭が存在すること
2.着目行Lの先頭位置と抽出する縦書き文字行の先頭位置を結ぶ直線の傾き(b4/a2)が、着目行Lの先頭位置と直前の抽出行Kの先頭位置を結ぶ直線の傾き(b5/a3)から一定値αを引いた値よりも大きい。すなわち、“b4/a2>b5/a3−α”を満足すること(基本的には、“b4/a2>b5/a3”で良いが、誤差を考慮して一定値αを導入する。一定値αは予め定めた値である)
すなわち、着目行Lの次の縦書き文字行Mの先頭はこの条件外なので除外することになるが、さらに次の縦書き文字行Nの先頭は条件を満足するので抽出することになる。以下、縦書き文字行Nを新たな着目行として同様の処理を続ける。
さて、ここで問題となるのは、歪みを生じていない部分と歪みを生じている部分をいかに識別するかであるが、これは次のように行っている。すなわち、着目行と次の抽出行の先頭のy座標をそれぞれyC,yNとすると、“yN−yC”が一定値(例えば、平均文字行幅の1/4)以上となれば、それ以降を歪みを生じている部分とする。
以上の方法により図32から抽出した縦書き文字行を、図35において斜線を施した矩形で囲んで示す。
最後に、抽出した縦書き文字行の先頭(もしくは末尾)の位置座標に関する近似曲線多項式を算出する(ステップS205)。抽出した各縦書き文字行の行切り出し矩形の先頭を連結して外形を形成する場合には、図36に示すように、連結する各縦書き文字行の行切り出し矩形の上辺中心点に基づき、抽出した縦書き文字行の先頭の位置座標に関する近似曲線多項式を算出する。また、抽出した各縦書き文字行の行切り出し矩形の末尾を連結して外形を形成する場合には、図36に示すように、連結する各縦書き文字行の行切り出し矩形の下辺中心点に基づき、抽出した縦書き文字行の末尾の位置座標に関する近似曲線多項式を算出する。
なお、最後に不適切な縦書き文字行の外形を排除する。これは、前述したように多項式近似により座標値を推定する際に、多項式近似による推定曲線の形状が不適切である場合には補正の際にかえって歪みが増大する恐れがあるので、このような縦書き文字行の外形を排除するものである。不適切な近似曲線形状の例としては、前述した罫線や横書き文字行の場合と同様であって、特に図示しないが、曲線が書籍の外側へ向かうような場合や、中心線を超えて大きく内側へ食い込むような場合である。
なお、推定曲線の形状が不適切であるとして縦書き文字行の外形を排除した場合には、歪み補正用の縦書き文字行の外形は無いということになる。
以上の処理により、スキャン画像に縦書き文字行の外形が存在すると判断された場合には、左右各ページのいずれの位置に縦書き文字行の外形が存在しているのかという情報とともに縦書き文字行の外形を抽出し、RAM33に一時的に記憶する。
なお、以下においては、横書き文字行及び縦書き文字行の外形を文字行として扱うものとする。
以上、ステップS41〜S43の処理により、ページ外形/罫線/文字行の抽出処理(ステップS4)が終了する。
続くステップS5(図6参照)においては、画像歪み補正処理を実行する。画像歪み補正処理は、図37に示すように、概略的には、歪み補正(伸長)に際しての基準となる線(基準線)としてスキャン画像の上辺(もしくは下辺)の近傍に位置するページ外形/罫線/文字行の何れかを選択する処理(ステップS51:基準線選択処理)、基準線に対応するものであって補正率(伸長率)の算出用の参照線としてスキャン画像の上辺(もしくは下辺)の近傍に位置するページ外形/罫線/文字行の何れかを選択する処理(ステップS52:参照線選択処理)、基準線が罫線や文字行の場合に、基準線より下部の画像情報の欠落を最小限にするための仮想的なページ外形を算出する処理(ステップS53:仮想ページ外形算出処理)、仮想的なページ外形に基づいてスキャン画像に伸長処理を施して主走査方向の歪みを補正する処理(ステップS54:主走査方向歪み補正処理)、補正画像の文字外接矩形に基づいてスキャン画像に伸長処理を施して副走査方向の歪みを補正する処理(ステップS55:副走査方向歪み補正処理)により構成されている。
ここで、基準線選択処理(ステップS51)及び参照線選択処理(ステップS52)においては、基準線または参照線として、スキャン画像の上辺(もしくは下辺)の近傍に位置するページ外形/罫線/文字行の何れかを選択することになるが、本実施の形態におけるページ外形、罫線、文字行の選択の優先順位は、
ページ外形>罫線>文字行
とされている。このような選択優先順位にしたのは、文字行はページ外形や罫線に比べて抽出精度が低く、また、画像の外側にあるページ外形を利用する方が精度の高い歪み補正率を得ることができるためである。ただし、本実施の形態においては、ページ外形は一般に左右ページにまたがるが、罫線や文字行は両ページにあるとは限らないので、スキャン画像の上辺または下辺からの基準線選択の優先順位は、下記に示すようになる。
1.「ページ外形」(ページ外形は、常に左右両ページに存在する)
2.左右両ページともに「罫線」
3.一方のページが「罫線」、他方のページが「文字行」
4.左右両ページともに「文字行」
5.一方のページのみに「罫線」、他方のページには「手がかりなし」
6.一方のページのみに「文字行」、他方のページには「手がかりなし」
ここで、「手がかりなし」とは、ページ外形、罫線、文字行のいずれも抽出できなかった場合を言う。
次に、仮想ページ外形算出処理(ステップS53)及び主走査方向歪み補正処理(ステップS54)の例について、上記優先順位に基づいて順に説明する。
1.スキャン画像の上辺及び下辺のいずれにも「ページ外形」が存在する場合
ここでは、スキャン画像の上辺及び下辺のいずれにも「ページ外形」が存在する場合について説明する。図38に示すように、スキャン画像の上辺及び下辺のいずれにも「ページ外形」が存在する場合は、いずれを基準線、参照線にしても構わない。なお、本実施の形態においては、基準線として選択した「ページ外形」、「罫線」、「文字行」は、下辺に位置させるものとする。この場合においては、基準線と仮想ページ外形とは一致していることから、仮想ページ外形算出処理(ステップS53)においては特に処理を実行しなくても良い。
次いで、主走査方向歪み補正処理(ステップS54)について説明する。ここで、x0は「ページ外形」の直線部分と曲線部分との境界点である。主走査方向歪み補正処理としては、まず、この境界点x0における基準線と参照線間の距離h0(図39参照)に基づいて歪み補正率を算出する。歪み補正率は、主走査方向に画像を伸長して補正する際に、基準線と参照線との間の距離を副走査方向の全ての位置において等しくさせるためのものである。すなわち、位置xにおける基準線と参照線間の距離をh(図39参照)とした場合には、位置xにおける歪み補正率は、
h0/h
として表すことができる。即ち、歪み補正率とは、主走査方向に画像を伸長して補正する際に、基準線と参照線との間の距離を副走査方向の全ての位置xにおいて等しくなるように、各xに関して算出した値である。
次に、実際に補正をする際は、まず、図39に示すように仮想ページ外形(ここでは基準線)が直線(最下辺)になるように、主走査方向に各画素をシフトする。その後、副走査方向の全ての位置xにおいて、画像を主走査方向の上辺側にh0/hで伸長すれば、図39の上辺の「ページ外形」EがREとなるように画像が補正される。
2.スキャン画像の上辺及び下辺の何れか一方に「ページ外形」が存在し、他方の辺には「罫線」と「文字行」とが存在する場合
ここでは、スキャン画像の上辺及び下辺の何れか一方に「ページ外形」が存在し、他方の辺ではページ外形が途中で切れているが「罫線」と「文字行」とが存在する場合について説明する。図40に示すように、スキャン画像の上辺及び下辺の何れか一方に「ページ外形」が存在し、他方の辺には「罫線」と「文字行」とが存在する場合は、「ページ外形」を基準線として下辺に位置させ、「文字行」と「罫線」とを参照線とする(図40に示す例では、左ページが「文字行」、右ページが「罫線」である)。この場合においても、基準線と仮想ページ外形とは一致していることから、仮想ページ外形算出処理(ステップS53)においては特に処理を実行しなくても良い。
次いで、主走査方向歪み補正処理(ステップS54)について説明する。ここで、x0は「ページ外形」の直線部分と曲線部分との境界点である。主走査方向歪み補正処理としては、まず、この境界点x0における基準線と参照線間の距離h0(図41参照)に基づいて歪み補正率を算出する。位置xにおける基準線と参照線間の距離をh(図41参照)とした場合には、位置xにおける歪み補正率は、
h0/h
として表すことができる。
次に、実際に補正をする際は、まず、図41に示すように仮想ページ外形(ここでは基準線)が直線(最下辺)になるように、主走査方向に各画素をシフトする。その後、副走査方向の全ての位置xにおいて、画像を主走査方向の上辺側にh0/hで伸長すれば、図41の右ページでは、上辺の「罫線」LUがRLUとなるように画像が補正される。左ページ上辺の「文字行」についても同様に行う。
3.スキャン画像の左右両ページの上辺及び下辺の何れか一方に「罫線」が存在し、他方の辺には「罫線」と「文字行」とが存在する場合
ここでは、スキャン画像の左右両ページの上辺及び下辺の何れか一方に「罫線」が存在し、他方の辺には「罫線」と「文字行」とが存在する場合について説明する。スキャン画像の左右両ページの上辺及び下辺の何れか一方に「罫線」が存在し、他方の辺には「罫線」と「文字行」とが存在する場合は、図42に示すように、左右両ページに「罫線」が存在する側を下辺に位置させ、その2本の「罫線」を基準線とし、他方の辺に位置する「文字行」と「罫線」とを参照線とする(図42に示す例では、左ページが「文字行」、右ページが「罫線」である)。ところで、このように、基準線が「ページ外形」ではない場合は、基準線をそのまま仮想ページ外形と見なしてはならない。なぜなら、両者を一致させた場合、後の主走査方向歪み補正処理において仮想ページ外形(基準線)を最下辺に画素シフトする際、基準線より下方の画像情報が全て欠落してしまうからである。
そこで、基準線が「ページ外形」でない場合は、図42において点線で示すような仮想ページ外形VEを求める仮想ページ外形算出処理(ステップS53)を実行する。ここで、x0は下辺の「罫線」LDの直線部分と曲線部分との境界点である。仮想ページ外形算出処理は、境界点x0における「罫線」LDからスキャン画像の最下辺までの距離a0と、境界点x0における「罫線」LDから上辺の「罫線」LUまでの距離b0とに基づいて仮想ページ外形VEを算出するものである。すなわち、「罫線」LD上の位置xから上辺の「罫線」LUまでの距離bが解かれば、
a/b=a0/b0
であることから、「罫線」LD上の位置xから仮想ページ外形VEまでの距離aを算出することができる。したがって、「罫線」LD上の位置から仮想ページ外形VEまでの距離を副走査方向の全ての位置xにおいて算出することにより、仮想ページ外形VEを求めることができる。このような処理は、左右ページについてそれぞれ独立に行われる。
次いで、主走査方向歪み補正処理(ステップS54)について説明する。主走査方向歪み補正処理としては、まず、前述した境界点x0における「罫線」LDからスキャン画像の最下辺までの距離a0と、境界点x0における「罫線」LDから上辺の「罫線」LUまでの距離b0とを加算した距離h0(h0=a0+b0)に基づいて歪み補正率を算出する。位置xにおける上辺の「罫線」LUからスキャン画像の最下辺までの距離をh(h=a+b)とした場合には、位置xにおける歪み補正率は、
h0/h
として表すことができる。
次に、実際に補正をする際は、まず、図43に示すように仮想ページ外形VEが直線(最下辺)になるように、主走査方向に各画素をシフトする。その後、副走査方向の全ての位置xにおいて、画像を主走査方向の上辺側にh0/hで伸長すれば、図37の右ページでは、上辺の「罫線」LUがRLU(厳密には、xの位置は「罫線」LUの直線部と曲線部との境界には一致しないが、ここでは「罫線」LDの境界をそのまま用いる)となるように画像が補正される。左ページ上辺の「文字行」についても同様に行う。
このように、仮想ページ外形VEを利用することで、シフトによる画像の欠落を最小限に抑えることができる。
4.スキャン画像の左右両ページの上辺及び下辺の何れか一方に「罫線」と「文字行」とが存在し、他方の辺の一方のページのみに「罫線」が存在する場合
ここでは、スキャン画像の左右両ページの上辺及び下辺の何れか一方に「罫線」と「文字行」とが存在し、他方の辺の一方のページのみに「罫線」が存在する場合について説明する。スキャン画像の左右両ページの上辺及び下辺の何れか一方に「罫線」と「文字行」とが存在し、他方の辺の一方のページのみに「罫線」が存在する場合(他方のページは「手がかりなし」)は、図44に示すように、「罫線」と「文字行」とが存在する側を下辺に位置させ、それらの「罫線」と「文字行」とを基準線とし、他方の辺に位置する「罫線」とスキャン画像を副走査方向に貫く中心線Cとを参照線とする(図44に示す例では、左ページが「罫線」、右ページが「手がかりなし」である)。なお、中心線Cは、スキャン画像の主走査方向の中心を副走査方向に横切る線であり、書籍原稿40の中心線ではない。
このように基準線が「ページ外形」でない場合は、前述したように、図44において点線で示すような仮想ページ外形VEを求める仮想ページ外形算出処理(ステップS53)を実行する。ここで、x0は下辺の「罫線」LDの直線部分と曲線部分との境界点である。仮想ページ外形算出処理は、境界点x0における「罫線」LDからスキャン画像の最下辺までの距離a0と、境界点x0における「罫線」LDから中心線Cまでの距離b0とに基づいて仮想ページ外形VEを算出するものである。すなわち、「罫線」LD上の位置xから中心線Cまでの距離bが解かれば、
a/b=a0/b0
であることから、「罫線」LD上の位置xから仮想ページ外形VEまでの距離aを算出することができる。したがって、「罫線」LD上の位置から仮想ページ外形VEまでの距離を副走査方向の全ての位置xにおいて算出することにより、仮想ページ外形VEを求めることができる。このような処理は、左右ページについてそれぞれ独立に行われる。なお、右ページのように上辺に「罫線」が存在する場合については、中心線Cに代えて、前述したように上辺の「罫線」を用いる。
次いで、主走査方向歪み補正処理(ステップS54)について説明する。主走査方向歪み補正処理としては、まず、前述した境界点x0における「罫線」LDからスキャン画像の最下辺までの距離a0と、境界点x0における「罫線」LDから中心線Cまでの距離b0とを加算した距離h0(h0=a0+b0)に基づいて歪み補正率を算出する。位置xにおける中心線Cからスキャン画像の最下辺までの距離をh(h=a+b)とした場合には、位置xにおける歪み補正率は、
h0/h
として表すことができる。
次に、実際に補正をする際は、まず、図45に示すように仮想ページ外形VEが直線(最下辺)になるように、主走査方向に各画素をシフトする。その後、副走査方向の全ての位置xにおいて、画像を主走査方向の上辺側にh0/hで伸長して補正する。左ページ上辺の「罫線」についても同様に行う。なお、右ページについては、補正によってシフトにより一旦歪んだ中心線Cが元の直線RCに戻るが、Cがスキャナ部1の光軸と一致する場合以外は、画像全体の補正は不完全となる。
5.スキャン画像の左右何れかのページの上辺及び下辺の何れか一方に「罫線」が存在し、他方の辺の他方のページのみに「文字行」が存在する場合
ここでは、スキャン画像の左右何れかのページの上辺及び下辺の何れか一方に「罫線」が存在し、他方の辺の他方のページのみに「文字行」が存在する場合について説明する。スキャン画像の左右何れかのページの上辺及び下辺の何れか一方に「罫線」が存在し(他方のページは「手がかりなし」)、他方の辺の他方のページのみに「文字行」が存在する場合(一方のページは「手がかりなし」)は、図46に示すように、「罫線」が存在する側を下辺に位置させ、その「罫線」を基準線とし、「罫線」が存在しない方のページ(「文字行」が存在する方のページ)については、文字行Lを中心線Cを挟んで線対称の位置に移動させた曲線SLを基準線とする。参照線については、「罫線」が存在するページは中心線Cを、「文字行」が存在するページはその「文字行」を、それぞれ参照線とする。
なお、歪み補正率の算出や画素シフト、補正(伸長)処理についてはこれまでの例と同様であるため、それらの説明は省略する。
最後に、副走査方向歪み補正処理(ステップS55)について説明する。まず、スキャナ部1(画像読取手段)の固有パラメータ(レンズの焦点面距離、スキャン光軸の位置(アドレス))が未知の場合における副走査方向歪み補正処理について説明する。
図47は、固有パラメータが未知の場合における副走査方向歪み補正処理の流れを概略的に示すフローチャートである。図47に示すように、ステップS101においては、主走査方向歪み補正されたスキャン画像に基づいて文字の外接矩形A(図48参照)を抽出する。ここで、文字認識処理については周知の技術であるので、その説明は省略する。このように文字の外接矩形Aを抽出するのは、この文字の外接矩形Aの形状の変化を基に、副走査方向の歪みを補正するためである。ここでは、図48に示すように、文字外接矩形Aの横辺の長さw、縦辺の長さh、および、文字の中心Bを定義する。ここで、文字の中心Bは、外接矩形Aの対角線の交点である。
続いて、図49に示すように、スキャン画像を書籍原稿40のページ綴じ部41に平行な方向の複数の短冊状の領域Cに分割した後(ステップS102)、各短冊領域Cについて、そこに含まれる文字外接矩形Aに関する特徴量を求める(ステップS103)。ここで、ある短冊領域Cに含まれる文字外接矩形Aとは、その中心が当該短冊領域Cに含まれるような外接矩形Aのことである。例えば、図49の短冊領域C1に含まれる外接矩形Aは、図中の網掛けを施した矩形である。
さて、上記の文字外接矩形Aに関する特徴量は、
(文字の横辺の長さ)/(文字の縦辺の長さ)=w/h
を基に求められる。すなわち、各短冊領域Cについて、そこに含まれる全ての文字外接矩形Aのw/hの値の平均値をその短冊領域Cの特徴量とするのである。
しかしながら、単に、w/hの平均値を算出すると不適切な場合がある。文字の中には、句読点や数式中の記号のようにそのサイズが元々小さく、w/hの値が不安定なものがある。また、矩形抽出の際に隣接する文字同士がくっついて抽出されてしまい、wが極端に大きい文字外接矩形Aが生じる場合もある。特徴量を求める場合は、このような特殊な文字や極端にwが大きいものを予め排除しておく必要がある。そこで、続くステップS104においては、予め閾値を定めておいて、hの値がその閾値より小さな文字外接矩形Aを予め排除するとともに、w/hの比率に関する閾値を予め定めておき、w/hの値が其の閾値よりも大きい文字外接矩形Aも予め排除する。例えば、図50中に示した網掛けを施した文字外接矩形Aが予め排除されることになる。
続くステップS105においては、前述したように極端な文字外接矩形Aを排除した後に、各短冊領域C内の文字外接矩形Aのw/hの平均値を求める。図51に各短冊領域C内の外接矩形Aのw/hの平均値の一例を示す。なお、図51中の短冊領域C2は、書籍原稿40のページ綴じ部41を含む短冊領域である。
続いて、書籍原稿40のページ綴じ部41を含む短冊領域C2に文字外接矩形Aが存在するか否かを判断する(ステップS106)。これは、図50に示すように、一般には書籍原稿40のページ綴じ部41付近には文字外接矩形Aが存在しない場合が多いからである。書籍原稿40のページ綴じ部41を含む短冊領域C2に文字外接矩形Aが存在する場合は(ステップS106のY)、その文字外接矩形Aを利用して特徴量は算出されているのでそのままステップS108に進む。
一方、書籍原稿40のページ綴じ部41を含む短冊領域C2に文字外接矩形Aが存在しない場合は(ステップS106のN)、ステップS107に進み、書籍原稿40のページ綴じ部41を含む短冊領域C2の特徴量を求める。なお、書籍原稿40のページ綴じ部41を含む短冊領域C2の識別は、例えば、スキャン画像(例えば、モノクロ多値画像)の地肌濃度変化を各短冊領域Cごとに求め、短冊領域C内の最も濃度の薄い濃度値を求めることにより実現される。図52は地肌濃度変化を求めた一例を示したものであり、地肌濃度が最も濃い短冊領域が、書籍原稿40のページ綴じ部41を含む短冊領域C2であるとみなされる。
なお、スキャン画像がカラー多値画像の場合における書籍原稿40のページ綴じ部41を含む短冊領域C2の識別は、例えばRGB成分の何れか一つの成分(例えばG成分)に着目し、そのG成分の地肌濃度を使用して識別するようにすれば良い。また、RGBを色変換して輝度成分と色差成分とに分け、輝度成分を使用して書籍原稿40のページ綴じ部41を含む短冊領域C2を識別するようにしても良い。
書籍原稿40のページ綴じ部41を含む短冊領域C2の特徴量は、次のようにして定められる。ここでは、統計的特徴量の算出対象となり得る文字外接矩形Aが存在し、かつ、ページ綴じ部41を含む短冊領域C2の最近傍である短冊領域Cの特徴量に対して予め定めた定数値を乗じることにより算出された値が、書籍原稿40のページ綴じ部41を含む短冊領域C2における特徴量とみなされるものである。つまり、図51に示した例では、書籍原稿40のページ綴じ部41を含む短冊領域C2の左右何れの短冊領域C3,C4にも文字外接矩形Aが存在するので、どちらか適当な方の特徴量を選択し(ここでは右側の○印の方)、それに予め定めた定数値(ここでは0.5)を乗じて、これを書籍原稿40のページ綴じ部41を含む短冊領域C2の特徴量としている。
続くステップS108においては、各短冊領域Cの特徴量に対する適切なフィルタリング処理、例えば、短冊領域Cの位置の変化方向(即ち副走査方向)に関する移動平均を求める処理を施すなどして、短冊領域Cの位置の変化に対する(副走査方向の)特徴量の変化がなだらかになるようにする。ただし、ここでも書籍原稿40のページ綴じ部41付近は特別な処理が必要となる。なぜなら、副走査方向に関して長さが全て等しいウィンドウを用いてフィルタリングを行うと、書籍原稿40のページ綴じ部41付近の特徴量の変化の鋭さが失われてしまうからである。
ここで、長さが全て5であるウィンドウを用いて図51に示した各短冊領域Cの特徴量に対してフィルタリング処理を施した結果を図53に示す。図53に示すように、長さが全て5であるウィンドウを用いてフィルタリング処理を施した場合には、書籍原稿40のページ綴じ部41付近の特徴量(w/h)の変化がなだらかになり過ぎてしまう。このような場合には、書籍原稿40のページ綴じ部41付近での適切な画像補正が不可能になってしまう。
そこで、本実施の形態においては、フィルタリング処理の際には、フィルタのウィンドウが書籍原稿40のページ綴じ部41を含む短冊領域C2の両側の短冊領域C3,C4に跨がらないように、ページ綴じ部41付近でウィンドウ長を調整する。ここで、図54はページ綴じ部41付近でウィンドウ長を調整してフィルタリング処理を施した結果を示すグラフである。図54に示すように、ページ綴じ部41付近でウィンドウ長を調整した場合には、ページ綴じ部41付近の特徴量(w/h)の変化を適切に表現できるので、良好な画像補正が実現できる。
続くステップS109においては、各短冊領域Cの推定歪み量を算出する。各短冊領域Cの推定歪み量の算出手法は、以下に示す通りである。
まず、短冊領域の歪み量を算出するための基準となる短冊領域(基準短冊領域)を定める。ここでは、歪みが最も小さいと考えられる短冊領域C、例えば、特徴量(w/h)が最大である短冊領域Cを基準短冊領域とする。この処理は左右ページで共通に行っても良いが、左右独立に基準短冊領域を定めても構わない。図54においては、左右独立に基準短冊領域を定めた例を示しており、○印を施した短冊領域Cが基準短冊領域であり、左側の基準特徴量を“Lw0/Lh0”、右側の基準特徴量を“Rw0/Rh0”、でそれぞれ示している。
次に、基準短冊領域の特徴量w0/h0をスキャン画像全体の基準特徴量とし、
(各短冊領域の特徴量)/(基準特徴量)=(w/h)/(w0/h0)
の値を、各短冊領域の推定歪み量として算出する。
なお、書籍原稿40のページ綴じ部41から外れたページ外側付近の短冊領域Cを基準短冊領域とすると、書籍原稿40のページ綴じ部41付近とはフォントや活字のサイズの違いが大きくて、適切な推定歪み量が算出できない場合も考えられる。そのような画像を対象とする場合は、基準短冊領域の探索範囲を予め書籍原稿40のページ綴じ部41付近に限定しておくのが有効である。これを実現するためには、地肌濃度が予め定めた濃度よりも濃い短冊領域Cのみから基準短冊領域を求めるようにすれば良い。
最後に、スキャン画像に対して、短冊領域Cの短辺方向(副走査方向)の拡大処理を行い、書籍原稿40のページ綴じ部41付近の歪みを補正する(ステップS110)。その場合の拡大率は、ステップS109において算出した推定歪み量の逆数、すなわち、
(基準特徴量)/(各短冊領域の特徴量)=(w0/h0)/(w/h)
とする。ここで、上記の基準短冊領域を左右共通に定めた場合には、この拡大率も左右共通の基準特徴量によって算出し、独立に定めた場合には、左右それぞれの基準特徴量で独立に算出するようにする。図55は、図54に示した特徴量に基づいて算出した補正拡大率を示したものである。
なお、ここでも、書籍原稿40のページ綴じ部41付近から離れた短冊領域Cはもともと画像の歪みが無い領域である可能性が高いので、拡大処理の対象としない方が良い場合がある。拡大処理を行ったために、かえって不自然な歪みが生じてしまう可能性があるからである。これを防ぐために、地肌濃度が予め定めた濃度よりも薄い短冊領域Cについては、推定歪み量を“1”とする。
また、短冊領域C内において共通の補正拡大率を適用した場合、隣接する短冊領域Cの境界部での補正拡大率が不連続となるため、補正画像が不自然となる。そこで、隣接する短冊領域Cの境界部での補正拡大率が連続的に変化するように、補正拡大率を予め補正しておく。これは、例えば図55に示す短冊領域Cの中央部分の補正拡大率を推定歪み量の逆数を示す点としてプロットし、これらの点を線分で結んで直線補完することで、他の部分の補正拡大率とすることで実現できる。以上の処理により、スキャン画像の副走査方向の補正拡大率が確定する。
なお、画像の拡大処理は、例えばコピーの変倍機能として良く使われる3次関数のコンボリューション法等を用いて実行される。
次に、スキャナ部1(画像読取手段)の固有パラメータ(レンズの焦点面距離、スキャン光軸の位置(アドレス))が既知の場合における副走査方向歪み補正処理について説明する。
スキャンの主走査方向と書籍原稿40のページ綴じ部41の境界線が平行な場合、レンズユニット10等のスキャナーレンズによる書籍原稿40を読み取るとき、結像系は次の特性を持つ。主走査方向は中心投影であり、副走査方向は平射投影である。ここで、これらの特性を利用して、3次元形状復元を行う。
中心投影する場合、図56と図57に示すように書籍原稿40の表面はコンタクトガラス2の表面から浮いて結像距離が遠くなり、画像の拡大倍率は小さくなるので、外形エッジの直線はだんだん内側に湾曲していく。図57の縮む量ABを測定すれば、図56に浮いた本の表面の高さhを計算できる。従って、直線の内側への歪み量を測定すれば、3次元形状(書籍原稿40のコンタクトガラス2からの浮き上がりの量)を復元できる。
ここで、書籍原稿40を水平にコンタクトガラス2上に置くことを仮定する。そうすると、3次元の形状は2次元になる。スキャナーレンズの結像関係を図58に示す。OO´はレンズの光軸であり、0はレンズの中心である。Fはレンズの中心0からスキャナ表面(コンタクトガラス2)までの距離で、これを、スキャナの焦点距離と言う。スキャナ表面上の点Bは結像面でDに結像する。浮いた製本(書籍原稿40)の表面上の点CはEに結像する。それぞれの結像面の中心0との距離はy´とyである(第一走行体5および第二走行体8が副走査方向に移動することによって、中心0も移動するが、その軌跡を結像中心線と呼ぶことにする)。三角形の相似関係により次の関係式(6),(7)が得られる。
h/F=AB/AO´ ・・・(6)
AB/AO´=(y´−y)/y ・・・(7)
また、式(6),(7)により、書籍原稿40の浮き上がりの量hが次式(8)により得られる。
h=F×((y´−y)/y) ・・・(8)
この式(8)により2次元の歪み量から3次元形状が求められることがわかる。ここで、歪み量(y´−y)と距離yは画像から求められるが、本実施の形態では、これを文字行あるいは罫線の直線成分と曲線部分との距離から求めるものである。レンズの焦点距離Fはスキャナ部1によって定まる既知量であり、スキャナ部1の設定値かレンズの校正値を用いる。
したがって、スキャナ部1(画像読取手段)の固有パラメータ(レンズの焦点面距離、スキャン光軸の位置(アドレス))が既知の場合には、ページ外形/罫線/文字行の湾曲の度合いから書籍表面のスキャン面からの浮きの高さhを求め、図59に示すように、副走査方向の1画素分をm倍に伸張して継ぎ足すことにより、副走査方向の歪みを補正することができる。
以上により副走査方向歪み補正処理(ステップS55)が終了し、図6に示すスキャン画像の歪み補正処理が終了する。ここで、図60は歪みを補正した画像を示す平面図である。以上の処理によれば、図8に示したような書籍原稿40のページ綴じ部41の近傍において生じていたスキャン画像の歪みが、図60に示すように補正されることになる。
ここに、文字の縦成分のみの矩形を抽出することで隣接する文字の接触が防止される。このような縦成分矩形から近似曲線を求めることにより、英文画像の主走査方向の歪み補正における精度の高精度化を図ることが可能になる。また、抽出した縦成分矩形の主走査方向の長さが予め定めた閾値以上の場合、当該縦成分矩形の長さを当該閾値の長さに縮めることにより、主走査方向に矩形が接触するのを防ぐことが可能になるので、複数分の行が一行と誤認識されやすいという事態が回避され、安定した行統合が可能になる。
なお、本実施の形態においては、画像読取装置としてデジタル複写機のスキャナ部1を適用したが、これに限るものではなく、例えば自動ページ捲り機能を搭載したスキャナ等に適用するようにしても良い。
また、本実施の形態においては、書籍原稿40のページ綴じ部41とスキャナ部1の画像読み取りの主走査方向とが平行になるように位置させて書籍原稿40をコンタクトガラス2上に下向きに載置した場合について説明したが、これに限るものではない。例えば、図61に示すように、上向きの書籍原稿40をコンタクトガラス2の下方からコンタクトガラス2に対して押し付けるように接触させるものであっても良い。
さらに、本実施の形態においては、画像歪み補正装置を画像形成装置であるデジタル複写機16に備え、デジタル複写機16のスキャナ部1で読み取ったスキャン画像に対して画像の歪み補正処理を施すようにしたが、これに限るものではない。例えば、原稿画像を読み取る画像読取手段を備えたイメージスキャナをパーソナルコンピュータに接続するとともに、このパーソナルコンピュータのHDDに記憶媒体であるCD−ROM37に格納されたプログラムをインストールすることによって画像歪み補正装置を構成しても、前述したような各種の作用効果と同様の作用効果を得ることができる。また、記憶媒体であるCD−ROM37に格納されたプログラムをパーソナルコンピュータのHDDにインストールすることによって画像歪み補正装置を構成し、予め画像読取手段により読み取られたスキャン画像に対して歪み補正処理を施すようにしても良い。
本発明の実施の一形態のスキャナ部の構成を示す縦断正面図である。 スキャナ部を搭載したデジタル複写機の上部部分を示す斜視図である。 スキャナ部の制御系の電気的な接続を示すブロック図である。 画像処理部の基本的な内部構成を示すブロック図である。 メイン制御部の電気的な接続を示すブロック図である。 スキャン画像の歪み補正処理の流れを概略的に示すフローチャートである。 スキャナ部のコンタクトガラス上に書籍原稿を載置した状態を示す斜視図である。 入力した画像の一例を示す平面図である。 スキャン画像のページ綴じ部の近傍の歪みを示す説明図である。 図8に示した画像の黒画素ヒストグラムである。 ページ外形/罫線/文字行の抽出処理の流れを概略的に示すフローチャートである。 上端にページ外形が存在するスキャン画像の一例を示す説明図である。 図12に示したスキャン画像の綴じ部境界線左側の黒画素ヒストグラムである。 長い罫線が存在するスキャン画像の一例を示す説明図である。 2値化した画像に矩形抽出を施した結果を示す説明図である。 罫線がノイズと接触している場合を示す説明図である。 表が含まれる画像を示す説明図である。 一定値未満のランのみを登録し矩形を抽出した結果を示す説明図である。 副走査方向に矩形が細切れに抽出されてしまう場合を示す説明図である。 矩形統合を施した例を示す説明図である。 矩形抽出を行った結果を示す説明図である。 図8に示した画像の副走査方向の黒白反転数ヒストグラムである。 図8に示した画像の主走査方向の黒白反転数ヒストグラムである。 横書き文字行候補の検出の結果の一例を示す説明図である。 縦成分矩形を縮める手法を示す説明図である。 縦成分矩形を縮めた横書き文字行候補の検出の結果の一例を示す説明図である。 (a)は縦成分矩形による近似曲線の生成を示す説明図、(b)行を拡大して示す説明図である。 矩形抽出を行った結果を示す説明図である。 各縦書き文字行からの横書き文字行の抽出処理の流れを概略的に示すフローチャートである。 抽出した行切り出し矩形を例示的に示す説明図である。 予め定めた距離範囲内に先頭が存在する縦書き文字行を例示的に示す説明図である。 抽出した縦書き文字行の先頭のy座標に関してヒストグラムを構成する状態を示す説明図である。 画像の歪みを生じていない部分における処理を示す説明図である。 画像の歪みを生じている部分における処理を示す説明図である。 抽出した縦書き文字行を示す説明図である。 縦書き文字行の行切り出し矩形を示す説明図である。 画像歪み補正処理の流れを概略的に示すフローチャートである。 スキャン画像の上辺及び下辺のいずれにも「ページ外形」が存在する場合を示す説明図である。 図38を画素シフトした状態を示す説明図である。 スキャン画像の上辺及び下辺の何れか一方に「ページ外形」が存在し、他方の辺には「罫線」と「文字行」とが存在する場合を示す説明図である。 図40を画素シフトした状態を示す説明図である。 スキャン画像の左右両ページの上辺及び下辺の何れか一方に「罫線」が存在し、他方の辺には「罫線」と「文字行」とが存在する場合を示す説明図である。 図42を画素シフトした状態を示す説明図である。 スキャン画像の左右両ページの上辺及び下辺の何れか一方に「罫線」と「文字行」とが存在し、他方の辺の一方のページのみに「罫線」が存在する場合を示す説明図である。 図44を画素シフトした状態を示す説明図である。 スキャン画像の左右何れかのページの上辺及び下辺の何れか一方に「罫線」が存在し、他方の辺の他方のページのみに「文字行」が存在する場合を示す説明図である。 副走査方向歪み補正処理の流れを概略的に示すフローチャートである。 抽出された文字外接矩形を示す説明図である。 二値化画像を書籍原稿のページ綴じ部に平行な方向の複数の短冊状の領域に分割した状態を示す説明図である。 予め排除される文字外接矩形を示す説明図である。 各短冊領域内の外接矩形の特徴量の平均値の一例を示すグラフである。 各短冊領域内の地肌濃度変化の一例を示すグラフである。 図51に示した各短冊領域の特徴量に対して長さが全て5であるウィンドウを用いてフィルタリング処理を施した結果を示すグラフである。 図51に示した各短冊領域の特徴量に対してページ綴じ部付近でウィンドウ長を調整してフィルタリング処理を施した結果を示すグラフである。 図54に示した特徴量に基づいて算出した補正拡大率を示すグラフである。 本の表面の浮いた高さを示す説明図である。 画像が縮む量を示す説明図である。 スキャナーレンズの結像関係を示す説明図である。 固有パラメータが既知の場合における副走査方向歪み補正処理を示す説明図である。 歪みを補正した画像を示す平面図である。 コンタクトガラスに書籍原稿を接触させた状態を示す正面図である。 コンタクトガラス上に書籍原稿を載置した状態を示す正面図である。 文字単位の矩形抽出を示し、(a)は日本語の矩形抽出、(b)は英文の矩形抽出を示す説明図である。 複数分の行が一行と誤認識される場合を示す説明図である。
符号の説明
19 画像歪み補正装置
37 記憶媒体
40 書籍原稿
41 ページ綴じ部

Claims (13)

  1. 画像読取手段の主走査方向に対してページ綴じ部がほぼ平行となるようにスキャン面の上もしくは下に接触した書籍原稿画像を前記画像読取手段により読み取ったスキャン画像の歪みを当該スキャン画像内の文字行の形状を基に補正する画像歪み補正装置において、
    前記スキャン画像から主走査方向に予め定めた第1閾値以上かつ予め定めた第2閾値以下の数の黒画素が連結する黒画素ランのみを抽出する手段と、
    抽出した黒画素ランを基に、文字の垂直方向の成分である縦成分のみの矩形を縦成分矩形として抽出する手段と、
    抽出した縦成分矩形間の主走査方向および副走査方向の距離を基に文字行を抽出する手段と、
    抽出した文字行の中から、前記スキャン画像の歪み補正に利用するための文字行を決定する手段と、
    決定した文字行中に存在する各縦成分矩形の中心座標を基に近似曲線を算出する手段と、を備えることを特徴とする画像歪み補正装置。
  2. 抽出した縦成分矩形の主走査方向の長さが予め定めた閾値以上の場合、当該縦成分矩形の長さを当該閾値の長さに縮める、ことを特徴とする請求項1記載の画像歪み補正装置。
  3. ページ綴じ部付近まで最も食い込んでいる文字行を前記スキャン画像の歪み補正に利用するための文字行と決定する、ことを特徴とする請求項1または2記載の画像歪み補正装置。
  4. 副走査方向の長さが最も長い文字行を前記スキャン画像の歪み補正に利用するための文字行と決定する、ことを特徴とする請求項1または2記載の画像歪み補正装置。
  5. 前記スキャン画像のページ外形に最も近い文字行を前記スキャン画像の歪み補正に利用するための文字行と決定する、ことを特徴とする請求項1または2記載の画像歪み補正装置。
  6. 前記スキャン画像の歪み補正に利用するための文字行を、ページ綴じ部付近まで最も食い込んでいる文字行、副走査方向の長さが最も長い文字行、前記スキャン画像のページ外形に最も近い文字行の順に決定する、ことを特徴とする請求項1または2記載の画像歪み補正装置。
  7. 画像読取手段の主走査方向に対してページ綴じ部がほぼ平行となるようにスキャン面の上もしくは下に接触した書籍原稿画像を前記画像読取手段により読み取ったスキャン画像の歪みを当該スキャン画像内の文字行の形状を基に補正する処理をコンピュータに実行させるプログラムであって、前記コンピュータに、
    前記スキャン画像から主走査方向に予め定めた第1閾値以上かつ予め定めた第2閾値以下の数の黒画素が連結する黒画素ランのみを抽出する機能と、
    抽出した黒画素ランを基に、文字の垂直方向の成分である縦成分のみの矩形を縦成分矩形として抽出する機能と、
    抽出した縦成分矩形間の主走査方向および副走査方向の距離を基に文字行を抽出する機能と、
    抽出した文字行の中から、前記スキャン画像の歪み補正に利用するための文字行を決定する機能と、
    決定した文字行中に存在する各縦成分矩形の中心座標を基に近似曲線を算出する機能と、を実行させることを特徴とするプログラム。
  8. 抽出した縦成分矩形の主走査方向の長さが予め定めた閾値以上の場合、当該縦成分矩形の長さを当該閾値の長さに縮める、ことを特徴とする請求項7記載のプログラム。
  9. ページ綴じ部付近まで最も食い込んでいる文字行を前記スキャン画像の歪み補正に利用するための文字行と決定する、ことを特徴とする請求項7または8記載のプログラム。
  10. 副走査方向の長さが最も長い文字行を前記スキャン画像の歪み補正に利用するための文字行と決定する、ことを特徴とする請求項7または8記載のプログラム。
  11. 前記スキャン画像のページ外形に最も近い文字行を前記スキャン画像の歪み補正に利用するための文字行と決定する、ことを特徴とする請求項7または8記載のプログラム。
  12. 前記スキャン画像の歪み補正に利用するための文字行を、ページ綴じ部付近まで最も食い込んでいる文字行、副走査方向の長さが最も長い文字行、前記スキャン画像のページ外形に最も近い文字行の順に決定する、ことを特徴とする請求項7または8記載のプログラム。
  13. 請求項7ないし12のいずれか一記載のプログラムを記憶することを特徴とする記憶媒体。
JP2004033634A 2004-02-10 2004-02-10 画像歪み補正装置、プログラム及び記憶媒体 Expired - Fee Related JP4145256B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2004033634A JP4145256B2 (ja) 2004-02-10 2004-02-10 画像歪み補正装置、プログラム及び記憶媒体
US11/054,396 US7602995B2 (en) 2004-02-10 2005-02-10 Correcting image distortion caused by scanning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004033634A JP4145256B2 (ja) 2004-02-10 2004-02-10 画像歪み補正装置、プログラム及び記憶媒体

Publications (2)

Publication Number Publication Date
JP2005229193A JP2005229193A (ja) 2005-08-25
JP4145256B2 true JP4145256B2 (ja) 2008-09-03

Family

ID=35003586

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004033634A Expired - Fee Related JP4145256B2 (ja) 2004-02-10 2004-02-10 画像歪み補正装置、プログラム及び記憶媒体

Country Status (1)

Country Link
JP (1) JP4145256B2 (ja)

Also Published As

Publication number Publication date
JP2005229193A (ja) 2005-08-25

Similar Documents

Publication Publication Date Title
US7430065B2 (en) Method and system for correcting distortions in image data scanned from bound originals
JP4141235B2 (ja) 画像補正装置及びプログラム
US7016081B2 (en) Image distortion correction apparatus, distortion correction method therefor, recording media, image scanner and image construction apparatus
JP4271085B2 (ja) 画像補正装置、画像読取装置、プログラム及び記憶媒体
JP4162633B2 (ja) 画像歪み補正装置、画像読取装置、画像形成装置、プログラム及び記憶媒体
JP3983721B2 (ja) 画像歪み補正装置、画像読取装置、画像形成装置及びプログラム
JP4585015B2 (ja) 画像歪み補正装置、画像読取装置、画像形成装置及びプログラム
JP4507124B2 (ja) 画像歪み補正装置、画像読取装置、画像形成装置及びプログラム
JP4180260B2 (ja) 画像歪み補正装置、画像読取装置、画像形成装置及びプログラム
JP4093970B2 (ja) 画像歪み補正装置、プログラム及び記憶媒体
JP4145256B2 (ja) 画像歪み補正装置、プログラム及び記憶媒体
JP4198613B2 (ja) 画像歪み補正装置、プログラム及び記憶媒体
JP3979639B2 (ja) 画像歪み補正装置、画像読取装置、画像形成装置及びプログラム
JP4194076B2 (ja) 画像歪み補正装置、画像読取装置、画像形成装置、プログラム及び記憶媒体
JP3926294B2 (ja) 画像歪み補正装置、画像読取装置、画像形成装置、画像歪み補正方法、画像歪み補正プログラム、及び記録媒体
JP4006242B2 (ja) 画像補正装置、プログラム、記憶媒体及び画像補正方法
JP4061256B2 (ja) 画像歪み補正装置、画像読取装置、画像形成装置及びプログラム
JP4136860B2 (ja) 画像歪み補正装置、画像読取装置、画像形成装置及びプログラム
JP4789221B2 (ja) 画像歪み補正装置、画像読取装置、画像形成装置及びプログラム
JP3917421B2 (ja) 画像輝度補正装置、画像読取装置、画像形成装置、プログラム及び記憶媒体
JP4480291B2 (ja) 画像歪み補正装置、記憶媒体、プログラム、画像歪み補正方法、画像読取装置および画像形成装置
JP2003143407A (ja) 画像輝度補正装置、画像読取装置、画像形成装置、プログラム及び記憶媒体
JP3877142B2 (ja) 画像歪み補正装置、画像読取装置、画像形成装置、プログラム及び記憶媒体
JP4577845B2 (ja) 画像処理装置、画像処理方法、プログラム及びプログラムを格納した記憶媒体
JP2003143410A (ja) ボケ画像補正装置、画像読取装置、画像形成装置、プログラム及び記憶媒体

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20051021

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061024

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20070222

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080407

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080520

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080617

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110627

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110627

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120627

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130627

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees