JP2021033743A - 情報処理装置、文書識別方法、及び情報処理システム - Google Patents
情報処理装置、文書識別方法、及び情報処理システム Download PDFInfo
- Publication number
- JP2021033743A JP2021033743A JP2019154410A JP2019154410A JP2021033743A JP 2021033743 A JP2021033743 A JP 2021033743A JP 2019154410 A JP2019154410 A JP 2019154410A JP 2019154410 A JP2019154410 A JP 2019154410A JP 2021033743 A JP2021033743 A JP 2021033743A
- Authority
- JP
- Japan
- Prior art keywords
- template
- information
- attribute
- document
- attributes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 title claims description 137
- 230000008569 process Effects 0.000 claims description 107
- 238000012545 processing Methods 0.000 claims description 50
- 238000011156 evaluation Methods 0.000 claims description 24
- 238000000605 extraction Methods 0.000 claims description 24
- 239000000284 extract Substances 0.000 claims description 6
- 238000012015 optical character recognition Methods 0.000 description 71
- 238000012553 document review Methods 0.000 description 65
- 238000009825 accumulation Methods 0.000 description 16
- 238000004891 communication Methods 0.000 description 15
- 238000004364 calculation method Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 230000008520 organization Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 230000013016 learning Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000012854 evaluation process Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Character Input (AREA)
Abstract
Description
を用いて紙ベースの文書から属性を読み出す方法に関して記載されている。
した場合、企業から請求者に請求金額を支払う、といった手続きが行われている。
図1に第1実施形態として説明する情報処理システム(以下、「文書審査システム1」と称する。)の概略的な構成を示している。文書審査システム1は、計算機100(情報処理装置)、入力端末110、クライアント端末120、及びスキャナ130を含む。計算機100、入力端末110、及びクライアント端末120は、通信ネットワーク150を介して互いに通信可能な状態で接続されている。スキャナ130は、計算機100に通信可能な状態で接続されている。
である。スキャナ130は、計算機100に直接接続されてもよいし、また通信ネットワーク150を介して接続されてもよい。
装置として用いてもよい。文書画像データ701の画像形式は問わない。
le Gate Array)、ASIC(Application Specific Integrated Circuit)、AI(Artificial Intelligence)チップ等を用いて構成される。プロセッサ201は、主記憶装置
202に格納されるプログラムを実行する。プロセッサ201がプログラムにしたがって処理を実行することによって、各種の機能を実現するモジュールとして動作する。以下の説明では、処理部であるモジュールを主語として処理を説明する場合、プロセッサ201が当該モジュールを実現するプログラムを実行していることを示す。モジュールの機能は、FPGAやASIC等を用いてハードウェアとして実現してもよい。
式記憶装置(CD(Compact Disc)、DVD(Digital Versatile Disc)等)、ストレージシステム、ICカード、SDカードや光学式記録媒体等の記録媒体の読取/書込装置、クラウドサーバの記憶領域等である。主記憶装置202に格納されるプログラム及び情報は、副記憶装置203に格納されてもよい。この場合、プロセッサ201が、副記憶装置203からプログラム及び情報を読み出し、主記憶装置202にロードする。
2に基づき、文書サマリ情報705の生成に適したテンプレートを選択する。さらに、文書審査モジュール211は、選択されたテンプレートに含まれる各属性の種別のOCR要素702の中から代表OCR要素703を選択する(S3)。図7に示す1つの矩形は1つの代表OCR要素703に対応する。代表OCR要素703は属性毎に選択される。例えば、選択されたテンプレートに3つ(3種類)の属性が含まれる場合、3つの代表OCR要素703が選択される。
、「選択中の属性」と称する。)を選択する(S401)。即ちここではテンプレート情報221の選択中のテンプレートに対応するエントリに含まれる属性302が1つ選択される。
書審査モジュール211は、複数のOCR要素702の中から候補OCR要素を1つ選択する(S505)。例えば、文書審査モジュール211は、任意の数式にOCR要素702のスコア814を代入することにより選択指標を算出し、選択指標に基づき候補OCR要素を選択する。本例では選択指標が最も大きいOCR要素702が候補OCR要素として選択されるものとする。また文書審査モジュール211は、学習済の機械学習モデルを用いて候補OCR要素を選択してもよい。
211に進む。
801」と称する。)を行う。この属性照合によるテンプレート候補選出処理S801の詳細については後述する。
いる各テンプレート候補について夫々の属性の数を求める(S901)。
第1実施形態では、テンプレート自動生成処理S210において、属性照合によるテンプレート候補選出処理S801、及び位置照合によるテンプレート候補選出処理S802
という、2つのフィルタによって選出されたテンプレート候補に基づき、新テンプレートを生成した。第2実施形態では、さらに文書画像データ701から取得される色情報を用いたフィルタを用いてテンプレート候補を選出し、テンプレート情報221として登録する新テンプレートの属性の抽出精度の向上を図る。第2実施形態の文書審査システム1の基本的な構成は第1実施形態の文書審査システム1と同様である。以下、第1実施形態と異なる部分を中心として説明する。
図30は、第1又は第2の実施形態の計算機100が表示する閾値設定画面3000の一例である。閾値設定画面3000は、第1又は第2の実施形態で用いる各種の閾値をユーザが設定する際に出力装置206が表示する画面である。尚、閾値設定画面3000は、ユーザの要求等に応じて任意のタイミングで表示できる。
要求に応じて任意のタイミングで表示される。
メモリカード、ROMなどが用いられる。
110 入力端末
120 クライアント端末
130 スキャナ
150 通信ネットワーク
201 プロセッサ
202 主記憶装置
203 副記憶装置
204 通信インタフェース
205 入力装置
206 出力装置
211 文書審査モジュール
212 学習処理モジュール
213 テンプレート生成モジュール
221 テンプレート情報
222 単語辞書
223 表記辞書
224 テンプレート候補情報
701 文書画像データ
702 OCR要素
703 代表OCR要素
704 特徴ベクトル
705 文書サマリ情報
3000 閾値設定画面
3100 出力画面
S210 テンプレート自動生成処理
S601 テンプレート候補蓄積処理
S603 テンプレート登録処理
S801 属性照合によるテンプレート候補選出処理
S802 位置照合によるテンプレート候補選出処理
S700 色情報抽出処理
S800 色情報照合によるテンプレート候補選出処理
Claims (15)
- 紙に記載された文書の特徴を示す文字列である属性を抽出する情報処理装置であって、
プロセッサ及び前記プロセッサと接続される記憶装置を備え、
前記記憶装置は、少なくとも1つ以上の属性の種別が定義された複数のテンプレートを管理するテンプレート情報、及び前記属性として抽出される文字列を定義する辞書情報を記憶し、
前記テンプレート情報は、前記テンプレートの識別情報、前記属性の種別を示す識別情報、及び前記属性の種別に対応する属性の紙面上の位置を示す位置情報から構成されるエントリを複数含み、
前記プロセッサは、
前記紙に記載された文書の画像データである文書画像データに対して文字認識処理を実行し、
前記文字認識処理の結果及び前記複数のテンプレートを用いて、前記複数のテンプレートの夫々に定義された前記属性の種別に対応する属性を抽出し、
前記辞書情報、前記テンプレート情報、及び前記抽出された属性を用いて、前記複数のテンプレートの夫々について、前記抽出された属性に関するスコアを算出し、
前記スコアに基づき、前記複数のテンプレートの中から属性の抽出精度が最も高いテンプレートを選択し、
前記選択されたテンプレートを用いて抽出された属性を含む出力情報を生成し、
前記記憶装置は、前記テンプレートの候補となる複数のテンプレート候補を記憶し、
前記プロセッサは、
前記複数のテンプレート候補の夫々が含む前記属性の数を求め、
前記属性の数が同じテンプレート候補をグループ化し、
前記属性の数が最大のグループに属する前記テンプレート候補を選出し、
選出した前記テンプレート候補に基づき前記テンプレートを生成し、
前記記憶装置は、生成した前記テンプレートを前記テンプレート情報として記憶する、
ことを特徴とする情報処理装置。 - 請求項1に記載の情報処理装置であって、
前記プロセッサは、
選出した前記テンプレート候補のうち、夫々に含まれている前記属性の種別が共通する前記テンプレート候補を選出し、
選出した前記テンプレート候補に基づき前記テンプレートを生成する、
ことを特徴とする情報処理装置。 - 請求項2に記載の情報処理装置であって、
前記プロセッサは、
選出した前記テンプレート候補のうち、夫々に含まれている前記属性の夫々の位置の差が予め設定された閾値以下の関係にある前記テンプレート候補を選出し、
選出した前記テンプレート候補に基づき前記テンプレートを生成する、
ことを特徴とする情報処理装置。 - 請求項1乃至3のいずれか一項に記載の情報処理装置であって、
前記記憶装置が記憶する前記テンプレート候補には、前記文書画像データのドット毎の色情報が付帯し、
前記プロセッサは、選出した前記テンプレート候補のうち、夫々に含まれている前記色情報の差が予め設定された閾値以下の関係にある前記テンプレート候補を選出し、
選出した前記テンプレート候補に基づき前記テンプレートを生成する、
ことを特徴とする情報処理装置。 - 請求項4に記載の情報処理装置であって、
前記色情報は、前記文書画像データの各ドットの色情報の分布をクラスタリングすることにより得られるクラスタ毎に設定される、
ことを特徴とする情報処理装置。 - 請求項4に記載の情報処理装置であって、
前記色情報は、HSL(Hue、Saturation、Lightness)値又はRGB(Red、Green、Blue)値である、
ことを特徴とする情報処理装置。 - 請求項1乃至3のいずれか一項に記載の情報処理装置であって、
前記プロセッサは、選出した前記テンプレート候補の前記位置情報の平均値を、前記テンプレート候補に基づき生成する前記テンプレートの位置情報として設定する、
ことを特徴とする情報処理装置。 - 請求項1乃至3のいずれか一項に記載の情報処理装置であって、
前記プロセッサは、
前記選択されたテンプレートの前記スコアを用いて、前記紙に記載された文書の特徴を表す特徴ベクトルを生成し、
前記特徴ベクトルを用いて、前記出力情報の信頼性を示す評価値を算出し、
前記記憶装置が記憶する前記テンプレート候補は、前記評価値が予め設定された閾値未満となる前記出力情報の生成に用いた前記文書画像データに基づき生成される、
ことを特徴とする情報処理装置。 - 紙に記載された文書の特徴を示す文字列である属性を抽出する情報処理装置が実行する文書識別方法であって、
前記情報処理装置は、プロセッサ及び前記プロセッサに接続される記憶装置を備え、
前記記憶装置は、少なくとも1つ以上の属性の種別が定義された複数のテンプレートを管理するテンプレート情報、及び前記属性として抽出される文字列を定義する辞書情報を記憶し、
前記テンプレート情報は、前記テンプレートの識別情報、前記属性の種別を示す識別情報、及び前記属性の種別に対応する属性の紙面上の位置を示す位置情報から構成されるエントリを複数含み、
前記文書識別方法は、
前記プロセッサが、前記紙に記載された文書の画像データである文書画像データに対して文字認識処理を実行するステップと、
前記プロセッサが、前記文字認識処理の結果及び前記複数のテンプレートを用いて、前記複数のテンプレートの夫々に定義された前記属性の種別に対応する属性を抽出するステップと、
前記プロセッサが、前記辞書情報、前記テンプレート情報、及び前記抽出された属性を用いて、前記複数のテンプレートの夫々について、前記抽出された属性に関するスコアを算出するステップと、
前記プロセッサが、前記スコアに基づき、前記複数のテンプレートの中から属性の抽出精度が最も高いテンプレートを選択するステップと、
前記プロセッサが、前記選択されたテンプレートを用いて抽出された属性を含む出力情報を生成するステップと、
前記記憶装置が、前記テンプレートの候補となる複数のテンプレート候補を記憶するステップと、
前記プロセッサが、前記複数のテンプレート候補の夫々が含む前記属性の数を求めるス
テップと、
前記プロセッサが、前記属性の数が同じテンプレート候補をグループ化するステップと、
前記プロセッサが、前記属性の数が最大のグループに属する前記テンプレート候補を選出するステップと、
前記プロセッサが、選出した前記テンプレート候補に基づき前記テンプレートを生成するステップと、
前記プロセッサが、前記記憶装置が、生成した前記テンプレートを前記テンプレート情報として記憶するステップと、
を含むことを特徴とする文書識別方法。 - 請求項9に記載の文書識別方法であって、
前記プロセッサが、選出した前記テンプレート候補のうち、夫々に含まれている前記属性の種別が共通する前記テンプレート候補を選出するステップと、
前記プロセッサが、選出した前記テンプレート候補に基づき前記テンプレートを生成するステップと、
をさらに含むことを特徴とする文書識別方法。 - 請求項10に記載の文書識別方法であって、
前記プロセッサが、選出した前記テンプレート候補のうち、夫々に含まれている前記属性の夫々の位置の差が予め設定された閾値以下の関係にある前記テンプレート候補を選出するステップと、
前記プロセッサが、選出した前記テンプレート候補に基づき前記テンプレートを生成するステップと、
をさらに含むことを特徴とする文書識別方法。 - 請求項9乃至11のいずれか一項に記載の文書識別方法であって、
前記記憶装置が記憶する前記テンプレート候補には、前記文書画像データのドット毎の色情報が付帯し、
前記プロセッサが、選出した前記テンプレート候補のうち、夫々に含まれている前記色情報の差が予め設定された閾値以下の関係にある前記テンプレート候補を選出するステップと、
前記プロセッサが、選出した前記テンプレート候補に基づき前記テンプレートを生成するステップと、
をさらに含むことを特徴とする文書識別方法。 - 請求項12に記載の文書識別方法であって、
前記色情報は、前記文書画像データの各ドットの色情報の分布をクラスタリングすることにより得られるクラスタ毎に設定される、
ことを特徴とする文書識別方法。 - 請求項12に記載の文書識別方法であって、
前記色情報は、HSL(Hue、Saturation、Lightness)値又はRGB(Red、Green、Blue)値である、
ことを特徴とする文書識別方法。 - 計算機及び端末を備える情報処理システムであって、
前記計算機は、第1のプロセッサ及び前記第1のプロセッサに接続される第1の記憶装置を有し、
前記端末は、第2のプロセッサ及び前記第2のプロセッサに接続される第2の記憶装置
を有し、
前記第1の記憶装置は、紙に記載された文書の特徴を示す文字列である属性の種別が少なくとも1つ以上定義された複数のテンプレートを管理するテンプレート情報、及び前記属性として抽出される文字列を定義する辞書情報を記憶し、
前記テンプレート情報は、前記テンプレートの識別情報、前記属性の種別を示す識別情報、及び前記属性の種別に対応する属性の紙面上の位置を示す位置情報から構成されるエントリを複数含み、
前記第2のプロセッサは、前記紙に記載された文書を入力し、
前記第1のプロセッサは、
前記端末が入力した前記紙に記載された文書の画像データを生成し、
前記画像データに対して文字認識処理を実行し、
前記文字認識処理の結果及び前記複数のテンプレートを用いて、前記複数のテンプレートの夫々に定義された前記属性の種別に対応する属性を抽出し、
前記辞書情報、前記テンプレート情報、及び前記抽出された属性を用いて、前記複数のテンプレートの夫々について、前記抽出された属性に関するスコアを算出し、
前記スコアに基づき、前記複数のテンプレートの中から属性の抽出精度が最も高いテンプレートを選択し、
前記選択されたテンプレートを用いて抽出された属性を含む出力情報を生成し、
前記出力情報を前記端末に出力し、
前記第1の記憶装置は、前記テンプレートの候補となる複数のテンプレート候補を記憶し、
前記第1のプロセッサは、
前記複数のテンプレート候補の夫々が含む前記属性の数を求め、
前記属性の数が同じテンプレート候補をグループ化し、
前記属性の数が最大のグループに属する前記テンプレート候補を選出し、
選出した前記テンプレート候補に基づき前記テンプレートを生成し、
前記第1の記憶装置は、生成した前記テンプレートを前記テンプレート情報として記憶する、
ことを特徴とする情報処理システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019154410A JP7312646B2 (ja) | 2019-08-27 | 2019-08-27 | 情報処理装置、文書識別方法、及び情報処理システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019154410A JP7312646B2 (ja) | 2019-08-27 | 2019-08-27 | 情報処理装置、文書識別方法、及び情報処理システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021033743A true JP2021033743A (ja) | 2021-03-01 |
JP7312646B2 JP7312646B2 (ja) | 2023-07-21 |
Family
ID=74678318
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019154410A Active JP7312646B2 (ja) | 2019-08-27 | 2019-08-27 | 情報処理装置、文書識別方法、及び情報処理システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7312646B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023071067A (ja) * | 2021-11-10 | 2023-05-22 | NeoX株式会社 | 表示データ生成システム |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08123872A (ja) * | 1994-10-20 | 1996-05-17 | Oki Electric Ind Co Ltd | 光学式文字読取装置 |
JPH08202818A (ja) * | 1995-01-24 | 1996-08-09 | Oki Electric Ind Co Ltd | フォーマット情報処理装置 |
JP2000285190A (ja) * | 1999-03-31 | 2000-10-13 | Toshiba Corp | 帳票識別方法および帳票識別装置および記憶媒体 |
JP2000357230A (ja) * | 1999-06-15 | 2000-12-26 | Ricoh Co Ltd | 画像処理方法、画像処理装置及び記録媒体 |
JP2014115857A (ja) * | 2012-12-11 | 2014-06-26 | Hitachi Omron Terminal Solutions Corp | 帳票定義データ作成システムおよび帳票定義データ作成方法 |
JP2018205910A (ja) * | 2017-05-31 | 2018-12-27 | 株式会社日立製作所 | 計算機、文書識別方法、及びシステム |
-
2019
- 2019-08-27 JP JP2019154410A patent/JP7312646B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08123872A (ja) * | 1994-10-20 | 1996-05-17 | Oki Electric Ind Co Ltd | 光学式文字読取装置 |
JPH08202818A (ja) * | 1995-01-24 | 1996-08-09 | Oki Electric Ind Co Ltd | フォーマット情報処理装置 |
JP2000285190A (ja) * | 1999-03-31 | 2000-10-13 | Toshiba Corp | 帳票識別方法および帳票識別装置および記憶媒体 |
JP2000357230A (ja) * | 1999-06-15 | 2000-12-26 | Ricoh Co Ltd | 画像処理方法、画像処理装置及び記録媒体 |
JP2014115857A (ja) * | 2012-12-11 | 2014-06-26 | Hitachi Omron Terminal Solutions Corp | 帳票定義データ作成システムおよび帳票定義データ作成方法 |
JP2018205910A (ja) * | 2017-05-31 | 2018-12-27 | 株式会社日立製作所 | 計算機、文書識別方法、及びシステム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023071067A (ja) * | 2021-11-10 | 2023-05-22 | NeoX株式会社 | 表示データ生成システム |
Also Published As
Publication number | Publication date |
---|---|
JP7312646B2 (ja) | 2023-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6938228B2 (ja) | 計算機、文書識別方法、及びシステム | |
US10482174B1 (en) | Systems and methods for identifying form fields | |
US20220004878A1 (en) | Systems and methods for synthetic document and data generation | |
US11816138B2 (en) | Systems and methods for parsing log files using classification and a plurality of neural networks | |
CN110276236B (zh) | 计算机及模板管理方法 | |
CN111209827B (zh) | 一种基于特征检测的ocr识别票据问题的方法及系统 | |
US11361572B2 (en) | Information processing apparatus and non-transitory computer readable medium | |
US8418050B2 (en) | Computer readable recording medium on which form data extracting program is recorded, form data extracting apparatus, and form data extracting method | |
JPWO2007080642A1 (ja) | 帳票処理プログラムおよび帳票処理装置 | |
JP6357621B1 (ja) | 会計処理装置、会計処理システム、会計処理方法及びプログラム | |
US20220036063A1 (en) | Document information extraction for computer manipulation | |
US9710769B2 (en) | Methods and systems for crowdsourcing a task | |
CN115131804A (zh) | 文档识别方法、装置、电子设备和计算机可读存储介质 | |
JP7312646B2 (ja) | 情報処理装置、文書識別方法、及び情報処理システム | |
JP6856916B1 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
WO2021140682A1 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
JP6763967B2 (ja) | データ変換装置とデータ変換方法 | |
KR102684423B1 (ko) | 데이터 검색 방법 및 시스템 | |
JP6542546B2 (ja) | 文書データ処理方法およびシステム | |
US20220044048A1 (en) | System and method to recognise characters from an image | |
US20220222209A1 (en) | File management device, file management method, and non-transitory computer readable medium | |
US20240346068A1 (en) | Drawing search device, drawing database construction device, drawing search system, drawing search method, and recording medium | |
JP7507331B1 (ja) | レイアウト解析システム、レイアウト解析方法、及びプログラム | |
WO2024047763A1 (ja) | レイアウト解析システム、レイアウト解析方法、及びプログラム | |
CN118070789A (zh) | 一种信息抽取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220822 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230614 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230620 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230710 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7312646 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |