[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2682873B2 - 表形式文書の認識装置 - Google Patents

表形式文書の認識装置

Info

Publication number
JP2682873B2
JP2682873B2 JP1214930A JP21493089A JP2682873B2 JP 2682873 B2 JP2682873 B2 JP 2682873B2 JP 1214930 A JP1214930 A JP 1214930A JP 21493089 A JP21493089 A JP 21493089A JP 2682873 B2 JP2682873 B2 JP 2682873B2
Authority
JP
Japan
Prior art keywords
tabular
data
document
character
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP1214930A
Other languages
English (en)
Other versions
JPH0378891A (ja
Inventor
勝美 細川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuji Electric Co Ltd
Original Assignee
Fuji Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Electric Co Ltd filed Critical Fuji Electric Co Ltd
Priority to JP1214930A priority Critical patent/JP2682873B2/ja
Publication of JPH0378891A publication Critical patent/JPH0378891A/ja
Application granted granted Critical
Publication of JP2682873B2 publication Critical patent/JP2682873B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は、表またはこれと同等の構造を含む文書
(以下、表形式文書ともいう)を認識する認識装置に関
する。
〔従来の技術〕
従来、罫線および行間空白によって構成されている表
形式文書を認識する方法は種々あるが、連続的に処理を
する場合の対象は固定長の表形式文書が主である。
例えば、固定長表形式文書を対象として、固定フォー
マットを作成しておく方法がある。固定フォーマットと
は、文字が記入されている位置の文字枠情報を予め指定
しておき、文書上の固定位置にマーク等を付けることに
よって位置ずれを補正し、連続的に入力される表形式文
書の画像データと、その固定フォーマットの文字枠情報
とを重ね合わせて枠内部の文字を認識する方法である。
この方法によれば、構造の異なる表形式文書ごとにフォ
ーマットを作成することによって認識が可能となる。
一方、文字の認識精度を向上させる方法としては、予
め文字を認識する部分に文字枠を指定しておき、その文
字枠に記入される文字種を“数字”などに限定しておく
方法が考えられる。また、罫線および行間空白を毎回認
識しながら、文字の記入してある文字枠を検出する方法
もあるが、この方法では如何なる表が入力されるかは分
からず文字種もその都度指定する必要があるため、煩雑
で時間も掛かる。
〔発明が解決しようとする課題〕
表形式文書(名簿,住所録,リスト,データシート)
には種々の形式のものがあるが、構造的には同一で、行
数などのデータ量だけが異なる文書(可変長同一構造表
形式文書)がある。このような表形式文書を連続的に読
取処理する場合、固定フォーマットを用いる方法では、
当然のことながらデータ量が変わるたびにフォーマット
を作成し直す必要が生じるという問題があり、入力作業
の自動化の障害ともなる。したがって、この発明の第1
の課題は可変長同一構造表形式文書でも簡単に対処し得
るようにすることにある。
また、可変長同一構造表形式文書を連続的に読取処理
する場合、文字枠の数が可変になるため、文字種が不定
の文字枠が生じてしまい、精度の良い文字認識ができな
くなるという問題もある。したがって、この発明の第2
の課題は精度の良い文字認識を可能にすることにある。
〔課題を解決するための手段〕
表またはこれと同等の構造を含む文書(表形式文書)
の画像データを入力する画像入力部と、この画像データ
から罫線を認識する罫線認識部と、前記画像データの罫
線にて囲まれる文字を認識する文字認識部とを設け、標
準の表形式文書から抽出される表の構造に関する各種デ
ータに表形式のタイプ,可変方向のデータを加えた表形
式記述ファイルを予め作成しておき、以後同じタイプの
表形式文書を認識するときは、前記ファイルの少なくと
も可変方向のデータを更新し、この更新されたファイル
にもとづいて表内の文字を認識する。また、各表要素
(セル)ごとに文字種を指定してそのデータを前記表形
式記述ファイルに格納しておき、認識対象となる文書の
表要素の数が変化したときはこの表形式記述ファイルの
可変方向に文字種のデータを延長して文字を認識する。
〔作用〕
罫線および行間空白の抽出処理は毎回行なうが、表の
構造から連続処理を行なう表形式を予め類型化して分類
しておく。すなわち、或る表は行方向にデータ数が変動
する(行方向が可変長である)とか、すべての表要素
(セル)が罫線で囲まれている、などの情報とともに最
初の表形式文書一枚をもとに、表形式記述ファイルを作
成する。その結果、罫線の不足や余分の追加,削除を行
ない、その情報も表形式記述ファイルに保存しておくこ
とにより、可変長同一構造表形式文書の連続読取処理を
簡単に実現できるようにする。
また、認識精度を向上させる手段として、最初の表形
式文書一枚を認識する際、各表要素(セル)に文字種、
すなわち数字,英字,ひらがな,カタカナ,漢字等の情
報を付加した属性データも、表形式記述ファイルに作成
する。これにより、データが可変である表形式文書を連
続処理する場合の認識精度を向上させる。
〔実施例〕
第1図はこの発明の実施例を示すブロック図である。
同図において、1はホストCPU、2はCRT、3はキーボー
ド、4は画像入力部、5は画像メモリ、6は罫線認識
部、7は文字認識部、8は補助記憶部、TXは表形式文書
である。なお、表形式文書の類型化として、ここでは第
2図のように3つのタイプに分類する。同図(イ)に示
すタイプ1は罫線によってすべての表要素(セル)が囲
まれている表形式文書、タイプ2は同図(ロ)の如く表
全体と列が罫線によって区切られ、行の区切りが罫線と
行間空白とで構成されている表形式文書、タイプ3は同
図(ハ)の如く表全体を囲む罫線が一部または全く無
く、列を区切る罫線も一部または全て無いような表形式
文書である。また、各タイプの表形式文書は行方向にデ
ータ数が可変のもの、または列方向にデータ数が可変の
ものに分かれる。第2A図にタイプ1の例を、第2B図にタ
イプ2の例を、そして第2C図にタイプ3の例をそれぞれ
示す。
第1図ではこのような表形式文書を連続処理するた
め、まず表形式文書TXが画像入力部4にセットされる。
画像入力部4は複数の文書をストックし、ホストCPU1か
らの命令によって一枚ずつ画像を読む込むことも可能で
ある。画像入力部4へ入力された表形式文書TXはここで
画像データに変換され、画像メモリ5に格納される。次
いで、表形式記述ファイル作成のため、ホストCPU1から
類型化した表形式のタイプ,可変方向が選択(指定)さ
れる。ここでは、表形式タイプを例えば第3図(イ)に
示されるようなタイプ1とし、行方向を可変とする。罫
線認識部6は、表形式タイプが1であることから、罫線
のみの抽出を行なう。なお、その手法には種々のものが
あるので、かかる公知のものを使用することができる。
また、罫線と同様な意味をもつ空白行を抽出するタイプ
であれば、そのための処理が行なわれることは云うまで
もない。このように、タイプの選択により余分な処理を
しなくても済み、処理時間を短縮することができる。第
3図(イ)に示される如きタイプ1の表から抽出される
罫線データの例を第4図に示す。なお、同図のKは罫
線、X01〜X04,Y01〜Y11は罫線の始端,終端位置を示し
ている。
その後は、抽出した罫線データをCRT2に表示し、修正
の必要があるときはCRT2を見ながらキーボード3を用い
て追加,削除,移動等の操作を行なう。次に、抽出した
罫線データから第5図に符号Sで示す如き文字枠を抽出
し、この文字枠で囲まれる表要素(セル)の各々に文字
種を第4図のA〜Fの如く割り当てて表形式記述ファイ
ルを作成し、補助記憶部8に格納する。表形式記述ファ
イルの構造を第6図に示す。また、第3図(イ)の如き
タイプ1の表については、その表形式記述ファイルは第
7図のようになる。ここに、D1は表形式タイプ、D2は可
変方向、D3は罫線座標データ、D4は文字種データをそれ
ぞれ示している。
しかる後、得られた文字枠データおよび文字種をもと
に文字認識部7により文字の認識を行ない、その結果を
補助記憶部8に保存する。
ここで、次の表形式文書が第8図の如くであるとする
と、上記表形式記述ファイルの表形式データD1,可変方
向データD2にもとづき罫線が抽出されるが、その罫線デ
ータは第9図のような座標データになる。表形式記述フ
ァイルの罫線データD3と比較すると、可変でない縦方向
の罫線データが表形式記述ファイルでは4本、抽出され
た罫線は5本なので両者の縦罫線のピッチを検査するこ
とにより、(X03′,Y01′)〜(X03′,Y11′)の座標を
持つ罫線K1が不要であることがわかる。そこで、この罫
線データを削除し、残りの罫線データから文字枠のデー
タを算出し、これを表形式記述ファイルの文字種データ
D4とともに文字認識部7に送り、文字認識を行なう。
また、次の表形式文書が第3図(ロ)の如くであると
すると、罫線が可変方向(行方向)に増加する表形式文
書として判断され、抽出した文字枠データ,表形式記述
ファイルの表形式データD1および文字種データD4を文字
認識部7へ送る。文字認識部7では第3図(ロ)の表要
素E2まで認識した時点で、文字種データD4が無くなる。
そこで、ここでは例えば第11行1列目の表要素E3につい
ては、その文字種データD4はそのすぐ上にある第10行1
列目の表要素E0のそれと同じと見る、つまり可変方向に
文字種の属性データを延長することにより、文字の認識
率を向上させるようにしている。したがって、表要素E
4,5についても正確に認識することが可能となり、以下
同様である。
〔発明の効果〕
この発明によれば、 i)表形式記述ファイルを作成するようにしたので、人
手を介在させることなく名簿,住所録,リストなどの様
々な可変長同一構造の表形式文書を連続的に読取ること
ができる。
ii)表形式記述ファイルを作成するようにしたので、罫
線抽出に当たり必要な処理のみを行なえば良く、処理時
間が短縮される。
iii)表形式記述ファイルを用いて罫線の抽出ミスを自
動的に修正することができ、精度の高い認識が可能とな
る。
iv)表要素の文字種を可変方向に伝播させるようにした
ので、様々な可変長同一構造の表形式文書を最適な文字
種で高精度に認識することができる。
【図面の簡単な説明】
第1図はこの発明の実施例を示すブロック図、第2図は
表形式の基本タイプを説明するための説明図、第2A図,2
B図,2C図はいずれも表の具体例を説明するための説明
図、第3図は認識対象となる表の例を説明するための説
明図、第4図は罫線データの例を説明するための説明
図、第5図は罫線と文字枠との関係を説明するための説
明図、第6図は表形式記述ファイルの一般的な構成を説
明するための説明図、第7図は表形式記述ファイルの具
体的な例を説明するための説明図、第8図は不要罫線を
含む場合の例を説明するための説明図、第9図は第8図
に対応する罫線データを説明するための説明図である。 符号説明 1……ホストCPU、2……CRT、3……キーボード、4…
…画像入力部、5……画像メモリ、6……罫線認識部、
7……文字認識部、8……補助記憶部、TX……表形式文
書、K……罫線、E0〜E5……表要素、S……文字枠(セ
ル)、D1……表形式タイプ、D2……可変方向、D3……罫
線座標データ、D4……文字種データ、K1……不要罫線。

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】表またはこれと同等の構造を含む文書(表
    形式文書)の画像データを入力する画像入力部と、この
    画像データから罫線を認識する罫線認識部と、前記画像
    データの罫線にて囲まれる文字を認識する文字認識部と
    を備え、 標準の表形式文書から抽出される表の構造に関する各種
    データに表形式のタイプ,可変方向のデータを加えた表
    形式記述ファイルを予め作成しておき、以後同じタイプ
    の表形式文書を認識するときは、前記ファイルの少なく
    とも可変方向のデータを更新し、この更新されたファイ
    ルにもとづいて表内の文字を認識することを特徴とする
    表形式文書の認識装置。
  2. 【請求項2】各表要素(セル)ごとに文字種を指定して
    そのデータを前記表形式記述ファイルに格納しておき、
    認識対象となる文書の表要素の数が変化したときはこの
    表形式記述ファイルの可変方向に文字種のデータを延長
    して文字を認識することを特徴とする請求項1)に記載
    の表形式文書の認識装置。
JP1214930A 1989-08-23 1989-08-23 表形式文書の認識装置 Expired - Lifetime JP2682873B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1214930A JP2682873B2 (ja) 1989-08-23 1989-08-23 表形式文書の認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1214930A JP2682873B2 (ja) 1989-08-23 1989-08-23 表形式文書の認識装置

Publications (2)

Publication Number Publication Date
JPH0378891A JPH0378891A (ja) 1991-04-04
JP2682873B2 true JP2682873B2 (ja) 1997-11-26

Family

ID=16663929

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1214930A Expired - Lifetime JP2682873B2 (ja) 1989-08-23 1989-08-23 表形式文書の認識装置

Country Status (1)

Country Link
JP (1) JP2682873B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6187307B2 (ja) * 2014-02-19 2017-08-30 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム

Also Published As

Publication number Publication date
JPH0378891A (ja) 1991-04-04

Similar Documents

Publication Publication Date Title
US6208744B1 (en) Document image processor and method for setting a document format conforming to a document image
KR100570224B1 (ko) 전표정의데이터 작성방법 및 전표처리장치
JPH06203138A (ja) 画像編集システム
CN100454293C (zh) 文档编辑方法和文档编辑设备
JP2008059157A (ja) 書類確認支援システム、書類確認支援装置およびプログラム
CN109726369A (zh) 一种基于标准文献的智能模板化题录技术实现方法
JPS6118033A (ja) 印刷処理装置
JP2022092119A (ja) 画像処理装置、画像処理方法およびプログラム
JP2682873B2 (ja) 表形式文書の認識装置
JP2000322417A (ja) 画像ファイリング装置及び方法及び記憶媒体
JPS58208865A (ja) 文書作成装置
JP3076348B2 (ja) 文書整形装置及び文書整形方法
KR100238814B1 (ko) 데이터처리장치 및 데이터처리방법
JP3264969B2 (ja) 文書作成装置及び文書作成方法
JPH0831092B2 (ja) 文書処理装置
JPH10340314A (ja) 帳票処理システム、その文字認識方法およびその記録媒体
JP5390880B2 (ja) 外字ビットマップデータ抽出方法
JPH09231208A (ja) 表形式の文書データ処理装置
JP3102979B2 (ja) 罫線変換機能を持つ文書情報処理装置
JP3056850B2 (ja) グラフ作成機能を持つ文書作成装置
JPH0581318A (ja) デジタル翻訳装置
JPH08293033A (ja) 情報処理装置
JPS61229161A (ja) 文書作成編集装置
JPH11316792A (ja) 情報処理装置及び帳表作成方法
JP2004127059A (ja) 情報処理方法および装置