[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP6541936B2 - Information processing apparatus, form reading method, and program - Google Patents

Information processing apparatus, form reading method, and program Download PDF

Info

Publication number
JP6541936B2
JP6541936B2 JP2014053081A JP2014053081A JP6541936B2 JP 6541936 B2 JP6541936 B2 JP 6541936B2 JP 2014053081 A JP2014053081 A JP 2014053081A JP 2014053081 A JP2014053081 A JP 2014053081A JP 6541936 B2 JP6541936 B2 JP 6541936B2
Authority
JP
Japan
Prior art keywords
item
information
entry
unit
reading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014053081A
Other languages
Japanese (ja)
Other versions
JP2015176410A (en
Inventor
淳 北見
淳 北見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Systems Ltd
Original Assignee
Hitachi Systems Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Systems Ltd filed Critical Hitachi Systems Ltd
Priority to JP2014053081A priority Critical patent/JP6541936B2/en
Publication of JP2015176410A publication Critical patent/JP2015176410A/en
Application granted granted Critical
Publication of JP6541936B2 publication Critical patent/JP6541936B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

本発明は、情報処理装置、帳票読取方法、及びプログラムに関する。   The present invention relates to an information processing apparatus, a form reading method, and a program.

近年、活字で表された項目に対して手書きで文字が記入された帳票をスキャナで読み取り、OCR(Optical Character Recognition)処理を行うことにより、入力情報を文字コードに変換したデジタルデータを生成する技術が普及している。例えば、複数の会社から帳票を譲り受ける債権回収会社(サービサー)等では、譲り受けた帳票に関する処理を行うため、異なる種類の帳票を読み取り、各々のデジタルデータを生成する必要がある。   In recent years, a technology that generates digital data in which input information is converted to character code by reading a form in which characters are written by handwriting for an item represented by a character with a scanner and performing OCR (Optical Character Recognition) processing Is widespread. For example, in a debt collection company (servicer) or the like who receives a form from a plurality of companies, it is necessary to read different types of forms and generate digital data of each type in order to process the received form.

特許文献1には、「帳票画像に含まれ、線分に囲まれた領域である枠に存在する文字行を抽出して、抽出した文字行を文字認識する帳票処理システムにおいて、前記帳票処理システムは、前記文字行を抽出する対象となる複数の抽出対象枠に対応する文字列と、前記複数の抽出対象枠の配置関係と、を対応付けた枠構造辞書データを記憶し、前記帳票画像から枠を抽出枠として抽出する枠抽出部と、前記枠構造辞書データを参照し、前記枠抽出部によって抽出された前記抽出枠を前記抽出対象枠に対応付けた照合結果を算出する枠照合部と、前記枠照合部によって算出された照合結果に対して、前記抽出対象枠に対応付けられた抽出枠に存在する文字行を抽出する文字行抽出部と、前記枠照合部によって算出された各照合結果に対して、前記文字行抽出部によって抽出された文字行が抽出された抽出枠に対応する前記抽出対象枠の文字列に対する当該文字行の類似度を示す枠スコアを算出し、各照合結果に含まれる前記抽出対象枠に対応付けられた枠の枠スコアに基づいて、各照合結果のスコアである照合結果スコアを算出するスコア算出部と、前記スコア算出部によって算出された照合結果スコアに基づいて、前記枠照合部によって算出された照合結果のうち、一の照合結果を抽出照合結果とすることを特徴とする」帳票処理システムが開示されている。   According to Patent Document 1, “the form processing system includes a form processing system for extracting a character line included in a form image and existing in a frame which is an area surrounded by a line segment and recognizing the extracted character line; Stores frame structure dictionary data in which character strings corresponding to a plurality of extraction target frames for which the character lines are to be extracted are associated with an arrangement relation of the plurality of extraction target frames, from the form image A frame extraction unit that extracts a frame as an extraction frame, and a frame matching unit that refers to the frame structure dictionary data and calculates a matching result in which the extraction frame extracted by the frame extraction unit is associated with the extraction target frame A character line extraction unit for extracting a character line existing in an extraction frame associated with the extraction target frame with respect to the collation result calculated by the frame collation unit; and each collation calculated by the frame collation unit As for the result, A frame score indicating the degree of similarity of the character line to the character string of the extraction target frame corresponding to the extraction frame extracted by the character line extraction unit is calculated, and the extraction target included in each matching result The frame matching based on the score calculation unit that calculates a matching result score that is the score of each matching result based on the frame score of the frame associated with the frame, and the matching result score calculated by the score calculating unit Among the collation results calculated by the section, one collation result is set as an extraction collation result, and the form processing system is disclosed.

特開2013−105344号公報JP, 2013-105344, A

従来技術では、帳票からデジタルデータを生成する際には、予め帳票の書式を登録する必要がある。そのため、異なる複数の書式の帳票を取り扱うサービサーにおいては、各々の帳票について事前に書式を登録しなければならず、煩雑である。また、書式毎に帳票を仕分けしてからスキャナでの読取処理を行う必要があり、利便性に欠ける。   In the prior art, when generating digital data from a form, it is necessary to register the form of the form in advance. Therefore, in a servicer that handles forms of a plurality of different formats, the forms must be registered in advance for each form, which is cumbersome. In addition, it is necessary to sort the forms for each format and then execute the reading process with the scanner, which is not convenient.

特許文献1に開示された技術では、読取枠の位置と項目の文字列とを対応付けた枠構造辞書データを書式として予め記憶しておかねばならない。   In the technique disclosed in Patent Document 1, frame structure dictionary data in which the position of the reading frame is associated with the character string of the item must be stored in advance as a format.

本発明は、上記の点に鑑みてなされたものであって、項目及び該項目に対する記入事項を含む帳票から効率的に記載情報の抽出を行うことのできる技術の提供を目的とする。   The present invention has been made in view of the above-described points, and an object thereof is to provide a technique capable of efficiently extracting the described information from a form including an item and an entry for the item.

本願は、上記課題を解決する手段を複数含んでいるが、その例を挙げるならば、以下の通りである。   Although this application contains multiple means to solve the said subject, if the example is given, it is as follows.

上記課題を解決するため、本発明に係る情報処理装置は、帳票に含まれる項目の候補である項目候補と該項目に対する記入事項の記入形式を示す属性とが関連付けられた項目情報を記憶する記憶部と、帳票を読み取る読取部と、前記読取部により読み取られた帳票から記載情報を抽出する記載情報抽出部と、前記記載情報から、前記項目候補と対応する前記項目を抽出するとともに、前記項目として抽出されない前記記載情報に対して当該記載情報の記入形式を示す属性を特定して関連付ける項目抽出部と、前記読取部による前記記載情報の読取順序に基づいて、前記項目に対する前記記載情報を特定し、前記項目抽出部により該記載情報に対して関連付けられた前記記入形式と、前記項目情報における前記項目に対する記入事項の前記記入形式とが適合する場合に、前記記載情報を前記項目に対する記入事項として特定する記入事項特定部と、前記項目と、該項目に対する前記記入事項とを関連付けた顧客情報を生成する顧客情報生成部と、を備えることを特徴とすることを特徴とする。
In order to solve the above problems, an information processing apparatus according to the present invention stores item information in which an item candidate that is a candidate for an item included in a form is associated with an attribute indicating an entry form of an entry for the item. The item corresponding to the item candidate is extracted from the description information, a description information extraction unit that extracts description information from the form, a reading unit that reads a form, and a description information extraction unit that extracts description information from the form read by the reading unit An item extraction unit that specifies and associates an attribute indicating an entry form of the description information with respect to the description information that is not extracted as the information, and specifies the description information for the item based on the reading order of the description information by the reading unit and, said entry format associated to said information written by the item extracting unit, the entry of the entry items for said item in said item information If the expression matches the entry matters specific portion specific for the described information as entry items for the item, and the item, the customer information generation unit that generates a customer information associated with said entry items for said item , And is characterized in that.

また、上記課題を解決するため、本発明に係る情報処理装置は、前記読取部により読み取られた帳票と対応する帳票候補が前記記憶部に記憶されているか否かを判定する候補帳票特定部を備え、前記記憶部には、前記項目に対し、該項目の記載順序と、該項目への前記記入事項の前記記載順序とを関連付けた帳票情報が前記帳票候補として前記帳票毎に記憶され、前記記載情報抽出部は、前記候補帳票特定部が前記項目抽出部により抽出された前記項目と該項目の読取順序とを用いて前記帳票情報を参照し、該読取順序と前記項目の前記記載順序とが対応する前記帳票情報が前記記憶部に記憶されていると判定した場合に、前記帳票情報における前記記入事項の前記記載順序と対応する前記読取順序で読み取られた前記記載情報を前記記入事項として特定し、前記顧客情報生成部は、前記帳票情報を用いて前記項目と前記記入事項とを関連付けることを特徴としてもよい。   Further, in order to solve the above problems, the information processing apparatus according to the present invention is a candidate form identification unit that determines whether or not a form candidate corresponding to a form read by the reading unit is stored in the storage unit. In the storage unit, form information in which an order of describing the items and an order of description of the items in the items are associated with the items is stored for each of the forms as the form candidate. The description information extraction unit refers to the form information using the item extracted by the item extraction unit and the reading order of the item by the candidate form identification unit, and the reading order and the description order of the item , When it is determined that the corresponding form information is stored in the storage unit, the entry information read in the reading order corresponding to the entry order of the entry in the form information is entered Was identified as the customer information generation unit may be characterized by associating with said items and the entry item by using the form information.

また、上記課題を解決するため、本発明に係る情報処理装置は、前記候補帳票特定部により、前記読取順序と前記記載順序とが対応する前記帳票が前記帳票情報に含まれると判定されない帳票について、前記項目抽出部により抽出された前記項目と、該項目の記載順序と、を用いて仮帳票を生成する仮帳票生成部を備え、前記記憶部には、前記帳票候補として前記仮帳票が記憶され、前記候補帳票特定部は、前記帳票の前記読取順序と前記記載順序とが対応する前記仮帳票が前記記憶部に記憶されているか否かを判定し、前記記入事項特定部は、前記候補帳票特定部により前記仮帳票が記憶されていると判定された場合に、前記仮帳票に含まれる前記記載順序を用いて前記記入事項を特定することを特徴としてもよい。   Further, in order to solve the above problems, in the information processing apparatus according to the present invention, the candidate form identification unit does not determine that the form having the corresponding reading order and the description order is not included in the form information. And a temporary form generation unit configured to generate a temporary form using the items extracted by the item extraction unit and the description order of the items, and the storage unit stores the provisional form as the form candidate in the storage unit. The candidate form identification unit determines whether the temporary form corresponding to the reading order of the form and the description order is stored in the storage unit, and the entry identification unit determines the candidate form identification unit When it is determined by the form identification unit that the temporary form is stored, the entry items may be identified using the order of description included in the temporary form.

また、上記課題を解決するため、本発明に係る情報処理装置は、前記記載情報のうち、前記項目に対する前記記入事項が前記記入事項特定部により特定されない場合、又は前記項目とも前記記入事項とも特定されない前記記載情報が存在する場合に、エラー判定を行うエラー判定部と、前記エラー判定部によりエラー判定がされた場合に、帳票修正画面を表示する表示部とを備え、前記帳票修正画面は、前記記載情報に対する前記項目又は前記記入事項の指定を受け付けることを特徴としてもよい。
また、本発明に係る情報処理装置の前記記入形式を示す属性には、前記記入事項に係る文字が全角文字であるか、半角文字であるか、及び、前記記入事項が選択肢からの選択によるものであるかを特定する情報が含まれ、前記項目情報は、前記項目候補と該項目に対するいずれか1つの前記記入事項の属性とが関連付けられていることを特徴としてもよい。
また、本発明に係る情報処理装置の前記項目抽出部は、前記記載情報が連続する複数の文字及びドットを含むか、又は複数のチェックボックスを含む場合に、前記記載情報の前記属性が選択肢からの選択によるものと特定することを特徴としてもよい。
Furthermore, in order to solve the above problems, the information processing apparatus according to the present invention identifies, when the entry for the item is not identified by the entry identification unit among the described information, or identifies both the item and the entry. The form correction screen includes an error determination unit that performs an error determination when there is the described description information that is not stored, and a display unit that displays a form correction screen when the error determination is made by the error determination unit. It may be characterized in that specification of the item or the entry to the described information is received.
In the attribute indicating the entry form of the information processing apparatus according to the present invention, whether the character relating to the entry is a full-width character or a half-width character, and the entry is by selection from options The item information may be characterized in that the item candidate is associated with an attribute of any one of the items for the item.
Further, in the case where the item extraction unit of the information processing apparatus according to the present invention includes the plurality of characters and dots in which the description information is continuous or the plurality of check boxes, the attribute of the description information is an option It may be characterized by specifying it as the selection of.

また、上記課題を解決するため、本発明に係る帳票読取方法は、制御部を備える情報処理装置を用いた帳票読取方法であって、前記制御部は、帳票に含まれる項目の候補である項目候補と該項目に対する記入事項の記入形式を示す属性とが関連付けられた項目情報を記憶する記憶部と、帳票を読み取る読取ステップと、前記読取ステップにおいて読み取られた帳票から記載情報を抽出する記載情報抽出ステップと、前記記憶部に記憶された前記帳票に含まれる項目の候補である項目候補と対応する前記項目を前記記載情報から抽出するとともに、前記項目として抽出されない前記記載情報に対して当該記載情報の記入形式を示す属性を特定して関連付ける項目抽出ステップと、前記読取ステップにおける前記記載情報の読取順序に基づいて、前記項目に対する前記記載情報を特定し、前記項目抽出ステップにおいて該記載情報に対して関連付けられた前記記入形式と、前記項目情報における前記項目に対する記入事項の前記記入形式とが適合する場合に、前記記載情報を前記項目に対する記入事項として特定する記入事項特定ステップと、前記項目と、該項目に対する前記記入事項とを関連付けた顧客情報を生成する顧客情報生成ステップと、を備えることを特徴とする。
Further, to solve the above problems, a form reading method according to the present invention is a form reading method using an information processing apparatus including a control unit, and the control unit is an item which is a candidate of an item included in the form. A storage unit for storing item information in which a candidate and an attribute indicating the entry form of the entry for the item are associated, a reading step for reading a form, and written information for extracting the described information from the form read in the reading step an extraction step, with the item corresponding to the item candidate is a candidate of items to include in the form stored in the storage unit to extract from the described information, the described for the described information is not extracted as the item and item extraction associating to identify an attribute indicating entry format information, on the basis of the read order of the described information in the reading step, Identifies the information written for serial item, and the entry format associated to said information included in said item extraction step, if the the entry format compatible for entry items for the items in the item information, the The method may include an entry specifying step of identifying written information as an entry for the item, and a customer information generation step of generating customer information in which the item and the entry for the item are associated with each other.

また、上記課題を解決するため、本発明に係るプログラムは、コンピューターに、帳票読取処理を行うステップを実行させるプログラムであって、前記コンピューターを、制御手段として機能させ、前記制御手段に対して、帳票に含まれる項目の候補である項目候補と該項目に対する記入事項の記入形式を示す属性とが関連付けられた項目情報を記憶する記憶部と、帳票を読み取る読取ステップと、前記読取ステップにおいて読み取られた帳票から記載情報を抽出する記載情報抽出ステップと、前記記憶部に記憶された前記帳票に含まれる項目の候補である項目候補と対応する前記項目を前記記載情報から抽出するとともに、前記項目として抽出されない前記記載情報に対して当該記載情報の記入形式を示す属性を特定して関連付ける項目抽出ステップと、前記読取ステップにおける前記記載情報の読取順序に基づいて、前記項目に対する前記記載情報を特定し、前記項目抽出ステップにおいて該記載情報に対して関連付けられた前記記入形式と、前記項目情報における前記項目に対する記入事項の前記記入形式とが適合する場合に、前記記載情報を前記項目に対する記入事項として特定する記入事項特定ステップと、前記項目と、該項目に対する前記記入事項とを関連付けた顧客情報を生成する顧客情報生成ステップと、を実行させることを特徴とする。
Further, in order to solve the above problems, a program according to the present invention is a program that causes a computer to execute a step of performing a form reading process, and causes the computer to function as a control unit. A storage unit for storing item information in which item candidates which are candidates for items included in the form and an attribute indicating an entry form of the entry to the item are associated; a reading step for reading the form; Extracting from the description information an item candidate corresponding to an item candidate which is a candidate of an item included in the form stored in the storage unit, and extracting the described information from the written form; against not extracted the described information associating to identify an attribute indicating complete form of the described information items extracted A step, on the basis of the read order of the described information in the reading step to identify the described information for the item, and the entry format associated to said information included in said item extraction step, in said item information An entry identifying step of identifying the described information as an entry for the entry if the entry form of the entry for the entry conforms, customer information associated with the entry and the entry for the entry Generating a customer information generation step of generating

本発明によれば、項目及び該項目に対する記入事項を含む帳票から効率的に記載情報の抽出を行うことのできる技術を提供することができる。   According to the present invention, it is possible to provide a technique capable of efficiently extracting the described information from the form including the item and the entry for the item.

上記した以外の課題、構成、及び効果は、以下の実施形態の説明により明らかにされる。   Problems, configurations, and effects other than those described above will be clarified by the description of the embodiments below.

帳票読取装置10の機能ブロック図である。FIG. 2 is a functional block diagram of a form reading device 10; 項目DBの一例を示す図である。It is a figure which shows an example of item DB. 帳票DBの一例を示す図である。It is a figure showing an example of form DB. 顧客マスタDBの一例を示す図である。It is a figure which shows an example of customer master DB. 情報処理装置のハードウェア構成例を示す図である。It is a figure showing the example of hardware constitutions of an information processor. 帳票読取処理の流れを示すフローチャート(その1)である。It is a flowchart (the 1) which shows the flow of a form reading process. 帳票読取処理の流れを示すフローチャート(その2)である。It is a flowchart (the 2) which shows the flow of a form reading process. 帳票の一例である。It is an example of a form. 記載情報抽出部により抽出された記載情報の一例を示す図である。It is a figure which shows an example of the description information extracted by the description information extraction part. 項目識別子及び属性が関連付けられた記載情報の一例を示す図である。It is a figure which shows an example of the description information in which the item identifier and the attribute were linked | related. 記載情報としての選択肢の一例を示す図である。It is a figure which shows an example of the option as description information. 帳票修正画面の一例を示す図である。It is a figure which shows an example of a report correction screen.

以下、図面に基づいて本発明の実施形態の例を説明する。図1は、情報処理装置10の機能ブロック図である。   Hereinafter, an example of an embodiment of the present invention will be described based on the drawings. FIG. 1 is a functional block diagram of the information processing apparatus 10.

情報処理装置10は、PC(Personal Computer)や、PDA(Personal Digital Assistant)、又はスマートフォン等の端末装置である。また、情報処理装置10は、一般的なスキャナ機能を備えた複合機等であってもよい。   The information processing device 10 is a terminal device such as a personal computer (PC), a personal digital assistant (PDA), or a smartphone. Further, the information processing apparatus 10 may be a multifunction peripheral having a general scanner function.

情報処理装置10は、制御部110と、記憶部120とを備える。制御部110は、情報処理装置10が備える入力I/Fに対して接続されたスキャナに読み取られた各帳票から、記載情報を抽出し、顧客マスタを生成する処理を制御する。記憶部120は、制御部110が行う処理に必要なデータを記憶する。   The information processing apparatus 10 includes a control unit 110 and a storage unit 120. The control unit 110 controls the process of extracting the described information from each form read by the scanner connected to the input I / F included in the information processing apparatus 10 and generating a customer master. The storage unit 120 stores data necessary for the process performed by the control unit 110.

制御部110は、読取部111と、記載情報抽出部112と、項目抽出部113と、記入事項特定部114と、顧客情報生成部115と、候補帳票特定部116と、仮帳票生成部117と、エラー判定部118と、表示部119とを備える。   The control unit 110 includes a reading unit 111, a description information extracting unit 112, an item extracting unit 113, an entry specifying unit 114, a customer information generating unit 115, a candidate form specifying unit 116, and a provisional form generating unit 117. , An error determination unit 118, and a display unit 119.

読取部111は、スキャナにより読み取られた帳票の画像データ(主にラスターデータ)を取得する。帳票には、直交する直線により表される枠内に、ユーザーへの記入を求める内容を示す項目か、又はユーザーが記入した記入事項が含まれている。以下、項目及び記入事項の総称が記載情報であるとして説明する。   The reading unit 111 acquires image data (mainly raster data) of a form read by the scanner. The form includes an item indicating contents for which the user is requested to be entered, or an entry entered by the user, in a frame represented by an orthogonal straight line. In the following description, it is assumed that the generic term of items and entries is the description information.

また、読取部111は、読み取った画像データを記憶部120の図示しない領域に記憶させる。   Further, the reading unit 111 stores the read image data in an area (not shown) of the storage unit 120.

記載情報抽出部112は、取得した画像データに対してOCR処理を行い、帳票が有する記載情報の文字データを取得する。OCR処理については公知の手段を用いるため、詳細については説明を省略する。   The description information extraction unit 112 performs an OCR process on the acquired image data, and acquires character data of the description information included in the form. Description of the details of the OCR processing will be omitted because known methods are used for the OCR processing.

また、記載情報抽出部112は、帳票に記載された枠を特定する。枠の特定には公知の方法が用いられる。例えば、特開2013-105344に記載された方法を用いる。記載情報抽出部112は、帳票が有する枠ごとに、枠内に記載された記載情報の文字データを取得する。記載情報抽出部112は、取得した文字データに対して、読取部111による読取順序に応じた番号を採番する。   In addition, the description information extraction unit 112 specifies the frame described in the form. Known methods are used to specify the frame. For example, the method described in Japanese Patent Application Laid-Open No. 2013-105344 is used. The written information extraction unit 112 acquires the character data of the written information described in the frame for each frame included in the form. The written information extraction unit 112 assigns a number according to the reading order by the reading unit 111 to the acquired character data.

項目抽出部113は、項目の候補が記録された項目DB121を用いて、記載情報から項目を抽出する。   The item extraction unit 113 extracts an item from the description information using the item DB 121 in which the item candidate is recorded.

記入事項特定部114は、記載情報に対して採番された番号を用いて、ユーザーにより記入された記入事項を特定する。特定される記入事項は、手書きのものであってもよいし、印字された活字であってもよい。記入事項の特定方法に関しては、後に詳述する。   The entry identification unit 114 identifies the entry entered by the user, using the number assigned to the described information. The entries to be identified may be handwritten or printed letters. The method of identifying the entry items will be described in detail later.

顧客情報生成部115は、帳票から抽出された項目と記入事項とを関連付けた顧客情報として、顧客マスタDBを生成する。   The customer information generation unit 115 generates a customer master DB as customer information in which the items extracted from the form are associated with the entry items.

候補帳票特定部116は、予め記憶部120に記憶された帳票情報である帳票DB122を用いて、読取部111により読み取られた帳票が帳票DB122に記憶された書式の帳票であるか否かを判定する。また、候補帳票特定部116は、読取部111により読み取られた帳票が仮登録記憶領域に記憶された仮帳票と共通する書式であるか否かを判定する。   Using the form DB 122 which is form information stored in advance in the storage unit 120, the candidate form identification unit 116 determines whether the form read by the reading unit 111 is a form of the format stored in the form DB 122. Do. In addition, the candidate form identification unit 116 determines whether the form read by the reading unit 111 has a format common to the temporary form stored in the temporary registration storage area.

仮帳票生成部117は、読取部111により読み取られた帳票が帳票DB122に記憶された書式の帳票でない場合に、項目と該項目の読取順序とを関連付けた仮帳票を生成する。   If the form read by the reading unit 111 is not a form of the format stored in the form DB 122, the temporary form generation unit 117 generates a temporary form in which items are associated with the reading order of the items.

エラー判定部118は、読取部111により読み取られた帳票にエラーがあるか否かを判定する。エラー判定部118は、エラーがあると判定した場合にエラーの内容を分類して記憶部120に記憶させる。エラーは、例えば読み取りが困難な文字を含む場合に「1」が、項目に対して記入事項が特定されない場合に「2」が、記入事項に対して項目が特定されない場合に「3」が、各記載情報に対して関連付けられる。   The error determination unit 118 determines whether the form read by the reading unit 111 has an error. When it is determined that there is an error, the error determination unit 118 classifies the content of the error and causes the storage unit 120 to store the content. The error is, for example, “1” when the character is difficult to read, “2” when the entry is not specified for the item, and “3” when the item is not identified for the entry, It is associated with each described information.

表示部119は、表示装置に対して画面を表示させる。表示部119は、例えばエラーがあると判定された記入事項を含む帳票に関して、後述する帳票修正画面を表示させる。   The display unit 119 causes the display device to display a screen. The display unit 119 displays, for example, a form correction screen to be described later regarding a form including an entry determined to have an error.

記憶部120は、項目DB121と、帳票DB122と、顧客マスタDB123と、仮登録記憶領域124とを記憶している。   The storage unit 120 stores an item DB 121, a form DB 122, a customer master DB 123, and a temporary registration storage area 124.

項目DB121は、項目の候補に関する情報である。項目DBは、項目の内容である文字列を含む項目内容に対して、該項目と対応して記入される記入事項の属性等が関連付けられている。項目DB121に基づいて、項目に対応する記入事項が特定される。   The item DB 121 is information on candidate items. In the item DB, an attribute of an entry to be entered corresponding to the item is associated with the item content including a character string that is the content of the item. Based on the item DB 121, the entry corresponding to the item is identified.

帳票DB122には、帳票の書式に関する情報が格納される。帳票DB122には、帳票の書式毎に、帳票の名称や、帳票に含まれる項目の識別子や、該項目と対応する記入事項の読取順序を示す読取識別子等が含まれる。   The form DB 122 stores information on the form of the form. The form DB 122 includes, for each form of the form, a name of the form, an identifier of an item included in the form, and a reading identifier indicating the reading order of the entry corresponding to the item.

顧客マスタDB123には、読み取られた帳票毎に、項目を特定する項目識別子や、該項目に対して入力された記入事項である入力文字列等が格納される。   The customer master DB 123 stores, for each of the read slips, an item identifier specifying an item, an input character string as an entry entered for the item, and the like.

仮登録記憶領域124には、仮帳票生成部117により生成された仮帳票が格納される。   The provisional registration storage area 124 stores the provisional voucher generated by the provisional voucher generation unit 117.

本実施形態では、読み取った帳票から顧客情報を生成する。その際、読み取った帳票と対応する書式が帳票DB122に存在する場合には、帳票DB122に基づいて顧客マスタDBを生成する。対応する書式が帳票DB122に存在しない場合には、読み取った帳票と対応する書式に基づく仮帳票が仮登録記憶領域124に存在するか否かを判定し、仮登録記憶領域124に対応する仮帳票が存在する場合には、該仮帳票の書式に応じて顧客情報を生成する。読み取った帳票と対応する仮帳票が仮登録記憶領域124に存在しない場合は、読み取った帳票に基づいて仮帳票を生成し、仮帳票記憶領域124に格納する。これにより、予め帳票DB122に書式が登録されていない帳票が読み取られた場合であっても、効率的に顧客情報を生成させることができるため、帳票の読み取りから顧客情報の生成までの処理が効率化できる。   In the present embodiment, customer information is generated from the read form. At this time, if there is a format corresponding to the read form in the form DB 122, the customer master DB is generated based on the form DB 122. If the corresponding form does not exist in the form DB 122, it is determined whether a temporary form based on the read form and the corresponding form exists in the temporary registration storage area 124, and the temporary form corresponding to the temporary registration storage area 124 If there is, the customer information is generated according to the form of the preliminary slip. If a temporary form corresponding to the read form does not exist in the temporary registration storage area 124, a temporary form is generated based on the read form and stored in the temporary form storage area 124. As a result, even when a form whose format is not registered in the form DB 122 is read in advance, the customer information can be efficiently generated, so the process from reading the form to generating the customer information is efficient. Can be

次に、記憶部120に記憶される各情報について説明する。   Next, each piece of information stored in the storage unit 120 will be described.

図2は、項目DB121の一例を示す図である。項目DB121は、項目毎に、項目識別子121aと、項目内容121bと、桁数121cと、属性121dと、種別121eとを格納している。   FIG. 2 is a diagram showing an example of the item DB 121. As shown in FIG. The item DB 121 stores, for each item, an item identifier 121a, an item content 121b, the number of digits 121c, an attribute 121d, and a type 121e.

項目識別子121aは、各項目内容121bに対して一意に付与された識別情報である。項目内容121bは、項目の内容を示す文字列である。桁数121cは、該項目に対して入力される記入事項の半角の桁数の上限を示す値である。   The item identifier 121a is identification information uniquely assigned to each item content 121b. The item content 121 b is a character string indicating the content of the item. The number of digits 121c is a value indicating the upper limit of the number of single-byte digits of the entry entered for the item.

属性121dは、該項目に対して入力される記入事項の属性である。図2に示す属性121dには、「C」、「N」、「S」が表示されているが、「C」は全角文字、「N」は半角文字、「S」は選択肢を意味している。   The attribute 121 d is an attribute of an entry to be entered for the item. “C”, “N”, and “S” are displayed in the attribute 121 d shown in FIG. 2, but “C” indicates full-width characters, “N” indicates half-width characters, and “S” indicates options. There is.

種別121eは、項目の種別を特定する情報である。図2に示す種別121eは、「aa」が「顧客氏名」に関する種別であり、「ab」が「自宅住所」に関する種別であり、「ac」が「自宅電話番号」に関する種別である。   The type 121e is information for specifying the type of item. In the type 121 e shown in FIG. 2, “aa” is a type related to “customer name”, “ab” is a type related to “home address”, and “ac” is a type related to “home phone number”.

例えば、図2に示す項目DB121の最上段のレコードは、項目識別子121aが「00001」であり、項目内容121bが「フリガナ」であり、該項目に対して入力される記入事項の桁数の上限が桁数121cの「48」桁であり、記入事項の属性121dが「C」、つまり全角文字であることを示す。また、該項目の種別121eは「aa」、つまり「顧客氏名」である。   For example, in the record at the top of the item DB 121 shown in FIG. 2, the item identifier 121a is "00001", the item content 121b is "furigana", and the upper limit of the number of digits of the entry entered for the item Is the "48" digit of the number of digits 121c, indicating that the entry attribute 121d is "C", that is, it is a full-width character. Further, the type 121e of the item is "aa", that is, "customer name".

図3は、帳票DB122の一例を示す図である。帳票DB122は、帳票種別識別子122a毎に、帳票名122bと、項目識別子122cと、入力欄読取識別子122dと、入力必須フラグ122eとを関連付けて格納している。   FIG. 3 is a diagram showing an example of the form DB 122. As shown in FIG. The form DB 122 stores the form name 122b, the item identifier 122c, the input field reading identifier 122d, and the input required flag 122e in association with each of the form type identifiers 122a.

帳票種別識別子122aは、帳票の書式を特定する識別情報である。帳票名122bは、帳票の名称を示す文字列である。項目識別子122cは、帳票に含まれる項目を特定する識別情報であって、項目DB121の項目識別子121aと対応する。帳票種別識別子122aにより特定される帳票が複数の項目を有する場合には、帳票種別識別子122aに対して複数の項目識別子122cが関連付けられる。各項目識別子122cは項目の記載順序に応じて帳票種別識別子122aに関連付けられている。図3に示す各項目識別子122cは、上方から下方につれて記載順序が後になるよう記録されている。   The form type identifier 122a is identification information that specifies the form of the form. The form name 122 b is a character string indicating the name of the form. The item identifier 122c is identification information for specifying an item included in the form, and corresponds to the item identifier 121a of the item DB 121. When the form specified by the form type identifier 122a has a plurality of items, the plurality of item identifiers 122c are associated with the form type identifier 122a. Each item identifier 122c is associated with the form type identifier 122a in accordance with the order of description of the items. Each item identifier 122c shown in FIG. 3 is recorded so that the description order comes later from the top to the bottom.

なお、読取部111が帳票を読み取る際は、例えば帳票を水平方向に左から右へ向かって走査し、その後読み取りヘッドを左下方向に移動させ、さらに水平方向に左から右へ向かって走査する。そのため、各項目識別子122cは、帳票に記載されている状態において左上から右下に向かうにつれて記載順序が後であるとして定義される。以下、記載順序及び読取順序について、同様の定義を用いて説明する。付言すれば、本実施形態は、該読取順序及び記載順序に限定されるものではなく、記載情報の記載順序又は読取順序が共通の法則により定義されるものであればよい。   When the reading unit 111 reads a form, for example, the form is scanned from left to right in the horizontal direction, and then the reading head is moved to the lower left, and then scanned from left to right in the horizontal direction. Therefore, each item identifier 122c is defined as the description order is later as going from the upper left to the lower right in the state described in the form. Hereinafter, the description order and the reading order will be described using similar definitions. In addition, the present embodiment is not limited to the reading order and the writing order, as long as the writing order or reading order of the written information is defined by a common rule.

入力欄読取識別子122dは、項目識別子122cにより特定される項目に対して入力される記入事項の読取順序を特定する識別情報である。前述したように、読取部111により読み取られた記載情報には、読取順序に応じた番号が採番されている。入力欄読取識別子122dは、記入事項に対して採番された番号である。   The input field read identifier 122d is identification information that specifies the reading order of the entry items input for the item identified by the item identifier 122c. As described above, in the description information read by the reading unit 111, a number corresponding to the reading order is assigned. The input field read identifier 122d is a number assigned to the entry.

入力必須フラグ122eは、項目識別子122cにより特定される項目に対する記入事項の存在が必須であるか否かを示すフラグである。例えば、図3に示す入力必須フラグ122eは、「0」が入力が必須でないことを示し、「1」が入力が必須であることを示している。   The input required flag 122e is a flag indicating whether the presence of the entry for the item specified by the item identifier 122c is required. For example, in the input required flag 122 e shown in FIG. 3, “0” indicates that input is not required, and “1” indicates that input is required.

例えば、図3に示す帳票DB122は、帳票種別識別子122aが「AA-AAA」により特定される書式の帳票について、帳票名122bが「お振込み申請書」であり、項目識別子122cが「00001」、「00003」、「00001」、「00007」等である項目を含むことを示している。
該帳票は、これらの項目識別子122cを、「00001」、「00003」、「00001」、「00007」の記載順序で含んでいる。なお、項目識別子が「00001」である項目は、図2の項目DB121によれば項目内容121bが「フリガナ」である。項目識別子が「00003」である項目は、項目内容121bが「氏名」である。
For example, the form DB 122 shown in FIG. 3 has a form name 122b of “transfer application form” and an item identifier 122c of “00001” for a form having a form type identifier 122a specified by “AA-AAA”. It indicates that the items including “00003”, “00001”, “00007”, and the like are included.
The form includes these item identifiers 122 c in the order of “00001”, “00003”, “00001”, and “00007”. According to the item DB 121 of FIG. 2, the item whose item identifier 121b is "furigana" is the item whose item identifier is "00001". An item whose item identifier is "00003" has an item content 121b of "name".

帳票DB122の最上段のレコードは、項目識別子122cが「00001」、つまり項目内容が「フリガナ」である項目に対して入力された記入事項が、入力欄読取識別子122dが「002」により特定される読取順序で読み取られた記載情報であることを示している。また、該記入事項は、入力必須フラグ122eが「1」、つまり入力が必須であることを示している。   In the record at the top of form DB 122, the entry entered for the item whose item identifier 122c is "00001", that is, the item content is "phonetic" is specified by the input column read identifier 122d by "002". It indicates that the description information is read in the reading order. Also, the entry indicates that the input required flag 122e is "1", that is, the input is required.

図4は、顧客マスタDB123の一例を示す図である。顧客マスタDB123は、帳票識別子123a毎に、帳票種別識別子123bと、項目識別子123cと、項目種別123dと、入力文字列123eと、エラー情報123fとを関連付けて格納している。   FIG. 4 is a diagram showing an example of the customer master DB 123. As shown in FIG. The customer master DB 123 stores the form type identifier 123b, the item identifier 123c, the item type 123d, the input character string 123e, and the error information 123f in association with each of the form identifiers 123a.

帳票識別子123aは、読み取った帳票に対して一意に付与された識別情報である。帳票種別識別子123bは、帳票識別子123aによって特定される帳票が、帳票DB122に記憶された書式と対応する場合の、書式を特定する識別情報であって、帳票DB122の帳票種別識別子122aと対応する。対応する書式が帳票DB122に存在しない場合には、帳票種別識別子123bには何も格納されない。   The form identifier 123a is identification information uniquely assigned to the read form. The form type identifier 123b is identification information for specifying a form when the form specified by the form identifier 123a corresponds to the form stored in the form DB 122, and corresponds to the form type identifier 122a of the form DB 122. If the corresponding format does not exist in the form DB 122, nothing is stored in the form type identifier 123b.

項目識別子123cは、帳票に含まれる項目を特定する識別情報であって、項目DB121の項目識別子121aと対応する。項目種別123dは、項目の種別を特定する情報である。項目種別123dは、項目DB121の種別121eと対応するものである。項目種別123dは、種別を特定する記号であってもよいし、種別を示す文字列であってもよい。   The item identifier 123c is identification information for specifying an item included in the form, and corresponds to the item identifier 121a of the item DB 121. The item type 123d is information for specifying the type of the item. The item type 123 d corresponds to the type 121 e of the item DB 121. The item type 123d may be a symbol specifying the type, or may be a character string indicating the type.

入力文字列123eは、項目識別子123cによって特定される項目に対して入力された記入事項を示す文字列である。エラー情報123fは、項目識別子123cにより特定される項目又は入力文字列123eに対してエラー判定がなされた場合の、エラーの分類を特定する情報である。   The input string 123e is a string indicating entries entered for the item identified by the item identifier 123c. The error information 123f is information for specifying the classification of an error when an error determination is made on the item specified by the item identifier 123c or the input character string 123e.

上述した通り、エラー情報123fが「1」である場合は、読取が困難な文字を含む場合である。従って、図4に示す顧客マスタDB123では、項目識別子123cが「00007」、つまり項目DB121によれば項目内容121bが「現住所」である項目に対して、入力文字列123eが「東京都品川区大崎・・・」であるが、該項目と関連するエラー情報123fが「1」であるため、項目又は記載事項に読取が困難な文字が含まれることを示している。   As described above, when the error information 123 f is “1”, it is a case where a character that is difficult to read is included. Therefore, in the customer master DB 123 shown in FIG. 4, for the item whose item identifier 123c is "00007", that is, the item content 121b is "current address" according to the item DB 121, the input character string 123e However, since the error information 123f associated with the item is “1”, it indicates that the item or the description includes characters that are difficult to read.

また、エラー情報123fが「2」である場合は、項目に対して記入事項が特定されないことを示す。図4の顧客マスタDB123では、項目識別子123cが「01025」である項目に対して入力文字列123eが空であり、エラー情報123fに「2」が関連付けられている。これは、本項目に対して記入事項の存在が必須であるにも関わらず、記入事項を特定することができないことを示している。   If the error information 123 f is “2”, it indicates that no entry is specified for the item. In the customer master DB 123 of FIG. 4, the input character string 123e is empty for the item whose item identifier 123c is "01025", and "2" is associated with the error information 123f. This indicates that although the entry is mandatory for this item, the entry can not be identified.

また、エラー情報123fが「3」である場合は、記入事項に対して項目が特定されないことを示す。図4の顧客マスタDB123では、入力文字列123eが「3/1 12:00」に対してエラー情報123fに「3」が関連付けられている。これは、本記入事項に対して項目が特定されていないことを示す。   If the error information 123 f is “3”, it indicates that no item is specified for the entry. In the customer master DB 123 of FIG. 4, “3” is associated with the error information 123 f when the input character string 123 e is “3/1 12:00”. This indicates that no item has been identified for this entry.

図5は、情報処理装置10のハードウェア構成例を示す図である。情報処理装置10は、CPU(Central Processing Unit)130と、メモリ131と、ネットワークI/F(Interface)132と、補助記憶装置133と、入力I/F134と、出力I/F135とを備え、各構成要素はバスにより接続されている。   FIG. 5 is a diagram showing an example of the hardware configuration of the information processing apparatus 10. As shown in FIG. The information processing apparatus 10 includes a central processing unit (CPU) 130, a memory 131, a network I / F (interface) 132, an auxiliary storage device 133, an input I / F 134, and an output I / F 135. The components are connected by a bus.

CPU130は中央演算装置であり、メモリ131又は補助記憶装置133に記録されたプログラムに従って処理を実行する。情報処理装置10では、メモリ131又は補助記憶装置133上に読み出されたプログラムに従って動作するCPU130により処理が行われる。制御部110を構成する各処理部は、CPU130がプログラムを実行することにより各々の機能を実現する。   The CPU 130 is a central processing unit and executes processing in accordance with a program stored in the memory 131 or the auxiliary storage device 133. In the information processing apparatus 10, processing is performed by the CPU 130 operating according to the program read on the memory 131 or the auxiliary storage device 133. Each processing unit constituting the control unit 110 realizes each function when the CPU 130 executes a program.

メモリ131は、RAM(Random Access Memory)又はフラッシュメモリ等の記憶装置であり、プログラムやデータが一時的に読み出される記憶エリアとして機能する。ネットワークI/F132は、情報処理装置10をネットワークに接続するためのインターフェイスである。補助記憶装置133は、例えばHDD(Hard Disk Drive)や、CD-R(Compact Disc- Recordable)、DVD-RAM(Digital Versatile Disk-Random Access Memory)等の書き込み及び読み出し可能な記憶メディア及び記憶メディア駆動装置等である。記憶部120は、メモリ131又は補助記憶装置133によりその機能が実現される。また、記憶部120は、ネットワークI/F132を介して接続される記憶装置によってその機能が実現されてもよい。   The memory 131 is a storage device such as a random access memory (RAM) or a flash memory, and functions as a storage area in which a program or data is temporarily read. The network I / F 132 is an interface for connecting the information processing apparatus 10 to a network. The auxiliary storage device 133 may be a writable and readable storage medium and storage medium drive such as a hard disk drive (HDD), a compact disc-recordable (CD-R), and a digital versatile disc-random access memory (DVD-RAM). It is an apparatus etc. The function of the storage unit 120 is realized by the memory 131 or the auxiliary storage device 133. In addition, the storage unit 120 may have its function realized by a storage device connected via the network I / F 132.

入力I/F134は、システム管理者からの入力操作を受け付けるためのインターフェイスであり、例えばタッチパネル、キーボード、マウス、マイク等からの入力を受け付ける。出力I/F135は、LCD(Liquid Crystal Display)等の表示装置等に対して情報を出力するためのインターフェイスである。   The input I / F 134 is an interface for receiving an input operation from a system administrator, and receives an input from, for example, a touch panel, a keyboard, a mouse, a microphone, and the like. The output I / F 135 is an interface for outputting information to a display device such as an LCD (Liquid Crystal Display).

情報処理装置10の入力I/F134は、スキャナ20と接続されており、スキャナ20によって読み取られた画像データは入力I/F134を介して制御部110によって取得される。なお、スキャナ20は出力I/F135と接続されていてもよい。また、情報処理装置10が内部にスキャナを有するものであってもよい。   The input I / F 134 of the information processing apparatus 10 is connected to the scanner 20, and the image data read by the scanner 20 is acquired by the control unit 110 via the input I / F 134. The scanner 20 may be connected to the output I / F 135. In addition, the information processing apparatus 10 may have a scanner inside.

なお、情報処理装置10の各構成要素の処理は、1つのハードウェアで実行されてもよいし、複数のハードウェアで実行されてもよい。また、情報処理装置10の各構成要素の処理は、1つのプログラムで実現されてもよいし、複数のプログラムで実現されてもよい。   The processing of each component of the information processing apparatus 10 may be executed by one hardware or may be executed by a plurality of hardware. The processing of each component of the information processing apparatus 10 may be realized by one program or may be realized by a plurality of programs.

図6は、帳票読取処理の流れを示すフローチャート(その1)である。例えば入力装置を介した、処理の開始指示を受け付けると、本フローチャートの処理が開始される。本処理によって、1枚の帳票が読み取られる。なお、書式の異同に関わらず、例えば100枚の帳票を読み取る場合には、本処理を枚数分繰り返せばよい。   FIG. 6 is a flowchart (part 1) showing the flow of the form reading process. For example, when an instruction to start processing is received via the input device, the processing of this flowchart is started. One sheet of form is read by this process. In addition, regardless of the difference in format, for example, in the case of reading 100 forms, the process may be repeated by the number of sheets.

まず、読取部111が、帳票を読み取る(ステップS11)。読取部111は、スキャナ20により読み取られた帳票の画像データを取得する。読取部111は、画像データを記憶部120内の図示しない領域に記憶させる。   First, the reading unit 111 reads a form (step S11). The reading unit 111 acquires image data of a form read by the scanner 20. The reading unit 111 stores the image data in an area (not shown) in the storage unit 120.

次に、記載情報抽出部112が、OCR処理を行う(ステップS12)。記載情報抽出部112は、帳票が有する枠ごとに、枠内に記載された記載情報の文字データを取得する。   Next, the written information extraction unit 112 performs an OCR process (step S12). The written information extraction unit 112 acquires the character data of the written information described in the frame for each frame included in the form.

図8は、帳票の一例である。該帳票では、左最上段の枠に「フリガナ」、該枠の右に「サトウ イチロウ」、さらに右の枠に「性別」が表示されている。記載情報抽出部112は、左上から右下への読取順序に応じて、枠内に記載された記載情報を抽出する。なお、帳票のタイトルである「お客様情報登録申込書」が枠で囲われている場合には、タイトルも記載情報として抽出される。   FIG. 8 is an example of a form. In the form, “Kurigana” is displayed in the top left frame, “Saichi Ichiro” is displayed on the right of the frame, and “Gender” is displayed in the right frame. The description information extraction unit 112 extracts the description information described in the frame according to the reading order from the upper left to the lower right. In addition, when the "customer information registration application" which is the title of the form is enclosed in a frame, the title is also extracted as the described information.

図9は、記載情報抽出部112により抽出された記載情報の一例を示す図である。図9に示す記載情報の一例は、図8に示す帳票から抽出されたものである。記載情報抽出部112は、抽出した記載情報の読取順序に応じて読取識別子を付する。   FIG. 9 is a diagram showing an example of the description information extracted by the description information extraction unit 112. As shown in FIG. An example of the described information shown in FIG. 9 is extracted from the form shown in FIG. The written information extraction unit 112 attaches a read identifier according to the reading order of the extracted written information.

説明を図6に戻す。次に、記載情報抽出部112は、タイトルを特定する(ステップS13)。記載情報抽出部112は、予め指定された領域に存在する文字データを、帳票のタイトルであるとして特定する。例えば、記載情報抽出部112は、読み取った帳票の上部中央の領域に記載された文字を、タイトルとして特定する。又は、記載情報抽出部112は、ステップS12で取得した記載情報のうち、他の記載情報よりも大きい文字で記載された記載情報を、タイトルとして特定する。なお、ステップS12において、タイトルに対して読取識別子を付していた場合には、該読取識別子を削除し、新たにタイトル以外の記載情報に対して読取識別子を付する。   The explanation is returned to FIG. Next, the description information extraction unit 112 specifies a title (step S13). The written information extraction unit 112 specifies the character data existing in the area designated in advance as the title of the form. For example, the written information extraction unit 112 specifies, as the title, the character described in the area at the upper center of the read form. Alternatively, the description information extraction unit 112 specifies, as the title, the description information described in characters larger than the other description information among the description information acquired in step S12. In step S12, when the read identifier is attached to the title, the read identifier is deleted, and the read identifier is newly added to the described information other than the title.

次に、項目抽出部113は、記載情報から項目を抽出する(ステップS14)。具体的には、項目抽出部113はステップS12で抽出された記載情報を用いて項目DB121を参照し、各々の記載情報と対応する項目内容121bが存在する場合に、項目内容121bと関連付けられた項目識別子121aを特定することで、項目を抽出する。項目抽出部113は、抽出した項目に対し、特定した項目識別子を関連付ける。   Next, the item extraction unit 113 extracts an item from the description information (step S14). Specifically, the item extraction unit 113 refers to the item DB 121 using the description information extracted in step S12, and is associated with the item content 121b when there is an item content 121b corresponding to each description information An item is extracted by specifying the item identifier 121a. The item extraction unit 113 associates the specified item identifier with the extracted item.

例えば、図9に示す記載情報において、読取識別子が「001」と関連付けられた記載情報の「フリガナ」は、項目DB121において項目識別子121aが「00001」と対応している。そのため、項目抽出部113はこの記載情報に対して、項目識別子として「00001」を関連付ける。同様に、読取識別子が「003」である記載情報「性別」に対しては、項目識別子として「00013」を関連付け、読取識別子が「004」である記載情報「お名前」に対しては、項目識別子として「00002」を関連付ける。   For example, in the description information shown in FIG. 9, “frigana” of the description information associated with the reading identifier “001” corresponds to the item identifier 121 a in the item DB 121 as “00001”. Therefore, the item extraction unit 113 associates “00001” as an item identifier with this description information. Similarly, the item identifier "00013" is associated with the written information "gender" whose reading identifier is "003", and the item whose reading identifier is "004" is associated with the written information "name". Associate “00002” as an identifier.

次に、項目抽出部113は、ステップS14において項目として抽出されない記載情報に対して、属性を関連付ける(ステップS15)。具体的には、項目抽出部113は、項目として抽出されない記載情報について、所定数以上の英数字が含まれる場合に属性を「N」とし、記載情報が選択肢であると判断する場合に属性を「S」とし、記載情報がそれ以外である場合に属性を「C」として、各々の記載情報に関連付ける。例えば項目抽出部113は、記載情報に英数字が6以上含まれる場合に、属性を「N」と特定する。選択肢については後述する。   Next, the item extraction unit 113 associates an attribute with the description information not extracted as an item in step S14 (step S15). Specifically, the item extraction unit 113 sets the attribute to “N” when the specified information not extracted as an item includes alphanumeric characters of a predetermined number or more, and determines the attribute when it is determined that the described information is an option. "S", and when the described information is otherwise, the attribute is associated with each described information as "C". For example, when the description information includes six or more alphanumeric characters, the item extraction unit 113 specifies the attribute as “N”. The options will be described later.

図10は、項目識別子及び属性が関連付けられた記載情報の一例を示す図である。読取識別子が「002」で特定される記載情報である「サトウ イチロウ」については、項目識別子が関連付けられていない。項目抽出部113は、該記載情報に対して属性「C」を関連付ける。項目抽出部113は、読取識別子が「012」で特定される記載情報である「1962年7月1日」について、数字が6つ含まれるため、属性「N」を関連付ける。   FIG. 10 is a diagram showing an example of the described information in which the item identifier and the attribute are associated. No item identifier is associated with "Saichi Ichiro" which is the described information specified by the reading identifier "002". The item extraction unit 113 associates the attribute “C” with the described information. The item extraction unit 113 associates the attribute “N” with six numbers included in “July 1, 1962,” which is the description information specified by the reading identifier “012”.

図11は、記載情報としての選択肢の一例を示す図である。図11(a)は、各々の選択肢に「アルファベット+“.”」が付されている。図11(b)は、各々の選択肢に対してチェックボックスが表示されている。記憶部120の図示しない領域には、選択肢を示す複数のパターンが予め記憶されており、項目抽出部113は記載情報が選択肢のパターンに当てはまる場合に、属性「S」を関連付ける。   FIG. 11 is a diagram showing an example of options as described information. In FIG. 11 (a), "Alphabet +". "" Is attached to each option. In FIG. 11 (b), check boxes are displayed for each option. A plurality of patterns indicating options are stored in advance in an area (not shown) of the storage unit 120, and the item extraction unit 113 associates the attribute "S" when the described information matches the option pattern.

選択肢のパターンには、上述の「連続するアルファベット+“.”」、「複数のチェックボックス」の他、「連続する複数の数字+“.”」、「連続する複数のかな文字“.”」等がある。図10において、読取識別子が「006」で特定される読取情報の「1.男 2.女」(「1」は丸で囲われている)については、項目抽出部113は「連続する複数の数字+“.”」であると判断し、属性「S」を付与する。   In addition to the above-mentioned "continuous alphabet +". "", "Plural check boxes", "consecutive plural numbers +". "," Continuous plural kana characters "." Etc. In FIG. 10, with respect to “1. male 2. female” (“1” is circled) of the read information specified by the read identifier “006”, the item extraction unit 113 It is determined that the number is "+", and the attribute "S" is assigned.

なお、項目抽出部113は、記載情報の属性が選択肢であると判断した場合、どの選択肢が選択されているかを判断し、選択された肢で記載情報を上書きしてもよい。これにより、選択された肢を用いて顧客データDBを生成することができる。   If the item extraction unit 113 determines that the attribute of the described information is an option, the item extraction unit 113 may determine which option is selected, and overwrite the described information with the selected limb. Thereby, the customer data DB can be generated using the selected limb.

説明を図6に戻す。次に、候補帳票特定部116は、読み取った帳票に含まれるタイトルと、項目識別子と、各項目識別子の順序とを用いて帳票DBを参照し、タイトルと、項目識別子と、各項目識別子の順序とが一致するデータが帳票DB122内にあるか否かを判定する(ステップS16)。具体的には、候補帳票特定部116は、ステップS13で特定したタイトルと、ステップS14で抽出した項目の項目識別子とを用いて、項目DB121を参照する。候補帳票特定部116は、特定したタイトルと対応する帳票名122bと関連付けられた項目識別子122cが、抽出した項目識別子と対応するか否かを判定する。   The explanation is returned to FIG. Next, the candidate form identification unit 116 refers to the form DB using the title included in the read form, the item identifier, and the order of each item identifier, and the title, the item identifier, and the order of each item identifier It is determined whether or not there is data in the form DB 122 that matches (step S16). Specifically, the candidate form identification unit 116 refers to the item DB 121 using the title identified in step S13 and the item identifier of the item extracted in step S14. The candidate form identification unit 116 determines whether the item identifier 122c associated with the form name 122b corresponding to the identified title corresponds to the extracted item identifier.

前述したように、帳票DB122の項目識別子122cは、帳票に対する記載順序に応じて格納されている。候補帳票特定部116は、さらにステップS14で抽出した項目の項目識別子に対して付された読取識別子を用いて読取順序を特定し、該読取順序と帳票DB122における各項目識別子122cの記載順序とが対応するデータが帳票DB122内にあるか否かを判定する。   As described above, the item identifier 122c of the form DB 122 is stored according to the order of description of the form. The candidate form identification unit 116 further specifies the reading order using the reading identifier attached to the item identifier of the item extracted in step S14, and the reading order and the description order of each item identifier 122c in the form DB 122 It is determined whether the corresponding data is in the form DB 122 or not.

候補帳票特定部116が、読み取った帳票に含まれるタイトルと、項目識別子と、各項目識別子の順序とが一致するデータが帳票DB122内にあると判定した場合(ステップS16で「YES」の場合)、記入事項特定部114は、各項目に対する入力必須フラグと記載事項とを特定する(ステップS17)。具体的には、記入事項特定部114は、ステップS16において読み取った帳票に含まれるタイトルと、項目識別子と、各項目識別子の順序とが一致すると判定した帳票DB122内のデータを参照する。記入事項特定部114は、ステップS14で抽出された項目の項目識別子の各々と、帳票DB122において対応する項目識別子122cを特定する。記入事項特定部114は、特定した項目識別子122cと関連付けられた入力欄読取識別子122dと、入力必須フラグ122eとを特定する。   When the candidate form identification unit 116 determines that there is data in the form DB 122 in which the title included in the read form, the item identifier, and the order of the item identifiers match (in the case of “YES” in step S16) The entry identification unit 114 identifies the input required flag and the entry for each item (step S17). Specifically, the entry identification unit 114 refers to data in the form DB 122 that is determined to match the title included in the form read in step S16, the item identifier, and the order of the item identifiers. The entry specification unit 114 specifies each of the item identifiers of the items extracted in step S14 and the corresponding item identifier 122c in the form DB 122. The entry identification unit 114 identifies the input field read identifier 122d associated with the identified item identifier 122c and the input required flag 122e.

記入事項特定部114は、特定した各々の入力欄読取識別子122dと、ステップS12で記載情報に対して付した読取識別子とが対応する記載情報を、各項目に対する記入事項として特定する。記入事項特定部114は、抽出された各項目識別子と、これに対する記入事項と、入力必須フラグとを関連付ける。   The entry identification unit 114 identifies, as the entry for each item, the described information corresponding to the identified input field read identifier 122d and the read identifier added to the described information in step S12. The entry identification unit 114 associates the extracted item identifiers, entries for this, and an entry required flag.

次に、エラー判定部118は、(1)項目識別子と関連する記入事項がない、(2)記入事項と関連する項目識別子がない、(3)記載情報に所定のエラーがある、の少なくとも1つに該当する場合に記載情報に対してエラー情報を関連付ける(ステップS18)。具体的には、エラー判定部118は、ステップS17で特定した入力必須フラグが、入力必須であることを示す項目に対して、同ステップで記入事項が関連付けられていない場合に、項目識別子と関連する記入事項がないことを示すエラー情報を、項目識別子に対して関連付ける。   Next, the error determination unit 118 determines at least one of (1) no entry associated with the item identifier, (2) no entry identifier associated with the entry, and (3) a predetermined error in the described information. Error information is associated with the described information if one of the above applies (step S18). Specifically, the error determination unit 118 relates the item identifier to the item identifier when the entry required flag identified in step S17 is not associated with the item indicating that the entry is required. Error information indicating that there is no entry to be associated with the item identifier.

また、エラー判定部118は、ステップS14で項目として抽出されていない記載情報であって、ステップS17において項目識別子と関連付けられなかった記載情報に対して、記入事項と関連する項目識別子がないことを示すエラー情報を関連付ける。なお、換言すれば、項目として抽出されていない記載情報であって、項目識別子と関連付けられなかった記載情報は、項目とも記入事項とも特定されない記載情報であると云える。   In addition, the error determination unit 118 indicates that there is no item identifier associated with the entry in the description information which is not extracted as an item in step S14 and is not associated with the item identifier in step S17. Associate error information to indicate. In other words, it can be said that the described information which is not extracted as an item and which is not associated with the item identifier is described information which is neither specified nor specified.

また、エラー判定部118は、記入事項に所定のエラーがある場合に、その旨を示すエラー情報を記載情報に対して関連付ける。所定のエラーとは、例えば記載情報が読取困難である文字を含む場合である。また例えば、エラー判定部118は、項目に対して付された項目識別子と、該項目に対して関連付けられた記入事項とを用いて項目DB121を参照し、対応する項目識別子121aと関連付けられた桁数121cを記入事項が超える場合、又は属性121dが記入事項の属性と異なる場合に、その旨を示すエラー情報を記載情報に関連付けてもよい。   Further, when there is a predetermined error in the entry, the error determination unit 118 associates error information indicating that fact with the described information. The predetermined error is, for example, a case where the written information includes characters that are difficult to read. Also, for example, the error determination unit 118 refers to the item DB 121 using the item identifier attached to the item and the entry associated with the item, and the digit associated with the corresponding item identifier 121a. If the entry exceeds the number 121c, or if the attribute 121d is different from the attribute of the entry, error information indicating that may be associated with the described information.

次に、顧客情報生成部115は、各項目識別子と入力情報とを対応させて顧客マスタDB123を作成する(ステップS19)。具体的には、顧客情報生成部115は、帳票に対して帳票識別子123aを付し、ステップS16において書式が対応すると判定された帳票DB122の帳票種別識別子122aを帳票種別識別子123bとして関連付ける。顧客情報生成部115は、ステップS14で抽出した項目の項目識別子を、項目識別子123cとして読取順序に応じて帳票識別子123aに関連付ける。   Next, the customer information generation unit 115 associates each item identifier with the input information to create a customer master DB 123 (step S19). Specifically, the customer information generation unit 115 attaches the form identifier 123a to the form, and associates the form type identifier 122a of the form DB 122 determined to correspond to the form in step S16 as the form type identifier 123b. The customer information generation unit 115 associates the item identifier of the item extracted in step S14 with the form identifier 123a as the item identifier 123c according to the reading order.

また、顧客情報生成部115は、各々の項目識別子123cと項目DB121において対応する項目識別子121aを参照し、該項目識別子121aと関連する種別121eを特定する。顧客情報生成部115は、特定した種別121eを項目種別123dとして項目識別子123cに関連付ける。なお、項目種別123dは、項目の種別を示す文字列であってもよい点については、上述の通りである。   Further, the customer information generation unit 115 refers to each item identifier 123c and the corresponding item identifier 121a in the item DB 121, and identifies the type 121e associated with the item identifier 121a. The customer information generation unit 115 associates the identified type 121e with the item identifier 123c as the item type 123d. The item type 123d may be a character string indicating the type of the item, as described above.

また、顧客情報生成部115は、各々の項目識別子123cに対して、ステップS17で関連付けた記入事項を入力文字列123eとして関連付ける。   Further, the customer information generation unit 115 associates the entry associated in step S17 with each item identifier 123c as the input character string 123e.

また、項目として抽出されず、さらに項目識別子と関連付けられなかった記載情報を入力文字列123dに格納する。各項目識別子123c、又は入力文字列123eにより特定される記載情報に対して、ステップS18でエラー情報が関連付けられている場合には、関連付けられたエラー情報をエラー情報123fに格納し、顧客マスタDB123を生成する。なお、エラー情報は1つの記載情報に対して複数関連付けられてもよい。顧客情報生成部115は、その後本フローチャートの処理を終了する。   In addition, the description information which is not extracted as an item and is not associated with the item identifier is stored in the input character string 123d. If the error information is associated with the described information specified by each item identifier 123c or the input character string 123e in step S18, the associated error information is stored in the error information 123f, and the customer master DB 123 Generate Note that multiple pieces of error information may be associated with one piece of written information. Thereafter, the customer information generation unit 115 ends the processing of this flowchart.

ステップS16において、候補帳票特定部116が、読み取った帳票に含まれるタイトルと、項目識別子と、各項目識別子の順序とが一致するデータが帳票DB122内にあると判定しない場合(ステップS16で「NO」の場合)、候補帳票特定部116は、処理をステップS20に進める。   In step S16, if the candidate form identification unit 116 determines that there is data in the form DB 122 in which the title included in the read form, the item identifier, and the order of the item identifiers match (step S16: NO). Case), the candidate form identification unit 116 advances the process to step S20.

図7は、帳票読取処理の流れを示すフローチャート(その2)である。   FIG. 7 is a flowchart (part 2) showing the flow of the form reading process.

次に、候補帳票特定部116は、読み取った帳票に含まれるタイトルと、各項目識別子と、各項目識別子の順序とが一致する仮帳票のデータが仮登録記憶領域124内にあるか否かを判定する(ステップS20)。   Next, the candidate form identification unit 116 determines whether the temporary form data in the temporary registration storage area 124 includes a title included in the read form, each item identifier, and the order of each item identifier match. It determines (step S20).

仮帳票記憶領域には、本処理開始前に読み取られた帳票であって、帳票のタイトル、帳票に含まれる項目、又は項目の記載順序が帳票DB122内のデータと異なる帳票に関するデータが格納されている。仮帳票記憶領域には、帳票毎に、帳票のタイトルと関連付けられて、帳票に含まれる項目、及び項目の記載順序を含む記載情報が格納されている。   In the temporary form storage area, there is stored a form read out before the start of the process, and data relating to a form title, an item included in the form, or a form whose entry order of items is different from that in the form DB 122 There is. The temporary form storage area stores, for each form, items described in the form including items to be included in the form and a description order including items in association with the title of the form.

候補帳票特定部116は、ステップS13で特定したタイトルと、ステップS14で抽出した項目の項目識別子とを用いて、仮帳票記憶領域を参照する。候補帳票特定部116は、特定したタイトルと、抽出した項目とが一致する仮帳票記憶領域内のデータを特定する。また、候補帳票特定部116は、ステップS14で抽出した項目の項目識別子に対して付された読取識別子を用いて読取順序を特定し、仮帳票記憶領域内で特定したデータを参照する。候補帳票特定部116は、特定したデータの内、項目の読取順序が記載順序と一致するデータがあるか否かを判定する。   The candidate form identification unit 116 refers to the temporary form storage area using the title identified in step S13 and the item identifier of the item extracted in step S14. The candidate form identification unit 116 identifies data in the temporary form storage area in which the identified title matches the extracted item. Further, the candidate document identification unit 116 identifies the reading order using the reading identifier attached to the item identifier of the item extracted in step S14, and refers to the data identified in the temporary document storage area. Among the identified data, the candidate form identification unit 116 determines whether there is data in which the reading order of the items matches the description order.

候補帳票特定部116が、帳票に含まれるタイトルと、各項目識別子と、各項目識別子の順序とが一致するデータが仮登録記憶領域124内にあると判定した場合(ステップS20で「YES」の場合)、記入事項特定部114は、各項目に対する記入事項を特定する(ステップS21)。   If the candidate form identification unit 116 determines that there is data in the temporary registration storage area 124 in which the title included in the form, each item identifier, and the order of the item identifiers match ("YES" in step S20) Case), the entry identification unit 114 identifies the entry for each item (step S21).

記入事項特定部114による記入事項の特定について、図10の記載情報を用いて説明する。まず、記入事項特定部114は、項目識別子が関連付けられた記載情報のうち、最も読取識別子が若い記載情報を特定する。記入事項特定部114は、該記載情報と関連付けられた項目識別子を用いて項目DB121を参照し、該項目識別子と対応する項目識別子121aと関連付けられた属性121dを特定する。次に、記入事項特定部114は、特定した記載情報よりも記載順序が後である記載情報であって、項目識別子が関連付けられていない記載情報を、特定した記載情報に近い順に特定する。記入事項特定部114は、特定した記載情報が属性121dと適合する場合に、該記載情報を項目識別子に対する記入事項であるとして特定する。   The identification of the entry by the entry identification unit 114 will be described using the information described in FIG. First, the entry identification unit 114 identifies the described information with the youngest read identifier among the described information associated with the item identifier. The entry specification unit 114 refers to the item DB 121 using the item identifier associated with the described information, and specifies the attribute 121 d associated with the item identifier 121 a corresponding to the item identifier. Next, the entry identification unit 114 identifies, in the order of closeness to the identified descriptive information, descriptive information that is the descriptive information whose descriptive order is later than the identified descriptive information and in which the item identifier is not associated. The entry identification unit 114 identifies the described information as an entry for the item identifier when the identified description information matches the attribute 121 d.

なお、記入事項特定部114は、項目DBにおいて項目識別子121aと関連付けられた桁数121cをさらに用いて、対応する記入事項を特定してもよい。具体的には、記入事項特定部114は、属性が適合すると判断された記載情報が、項目と関連する桁数121cを超える場合には、記載情報が該項目に対応するものでないと判断する。   The entry identification unit 114 may further use the number of digits 121c associated with the item identifier 121a in the item DB to identify the corresponding entry. Specifically, the entry identification unit 114 determines that the description information does not correspond to the item when the description information determined to be suitable for the attribute exceeds the number of digits 121c associated with the item.

記入事項特定部114は、項目識別子が関連付けられた記載情報の全てに対して、読取順序が若い順から上記の処理を繰り返す。   The entry identification unit 114 repeats the above-described processing in ascending order of reading order with respect to all the described information associated with the item identifier.

図10では、項目識別子が関連付けられた記載情報であって、最も読取識別子が若い記載情報は、読取識別子が「001」に係る記載情報である。該記載情報は、項目識別子が「00001」に係る項目と関連付けられている。記入事項特定部114は、項目識別子として「00001」を用いて項目DB121を参照し、該項目識別子121aと関連付けられた属性121dとして「C」を特定する。なお、属性「C」は、全角文字を示す。   In FIG. 10, the item information is associated with the description information, and the description information with the youngest reading identifier is the description information according to the reading identifier “001”. The description information is associated with the item whose item identifier is "00001". The entry specification unit 114 refers to the item DB 121 using “00001” as the item identifier, and specifies “C” as the attribute 121 d associated with the item identifier 121 a. The attribute "C" indicates a full-width character.

次に、記入事項特定部114は、読取識別子「001」に係る記載情報よりも後の記載情報であって、項目識別子が関連付けられていない記載情報のうち、最も読取識別子「001」に近い読取順序の記載情報を特定する。従って、記入事項特定部114は、読取識別子「002」に係る記載情報を特定する。読取識別子「002」は、記載情報「サトウ イチロウ」と関連付けられている。記入事項特定部114は、記載情報「サトウ イチロウ」が属性「C」と適合するか否かを判定する。「サトウ イチロウ」は全角文字で記載されているため、属性「C」と適合すると判定される。記入事項特定部114は、読取識別子「002」に係る記載情報が、読取識別子「001」に係る項目に対する記入事項として特定する。   Next, the entry identification unit 114 reads the information closest to the read identifier “001” among the described information not associated with the item identifier, which is the described information after the described information related to the read identifier “001”. Identify the information described in the order. Therefore, the entry identification unit 114 identifies the described information related to the read identifier "002". The read identifier "002" is associated with the described information "Saichi Ichiro". The entry identification unit 114 determines whether the described information “Saichi Ichiro” matches the attribute “C”. Since "Saito Ichiro" is written in full-width characters, it is judged to be compatible with the attribute "C". The entry identification unit 114 identifies the described information related to the read identifier “002” as the entry for the item related to the read identifier “001”.

次に、記入事項特定部114は、項目識別子が関連付けられた記載情報であって、読取識別子「001」の次に読取順序が若い記載情報として、読取識別子「003」に係る記載情報を特定する。読取識別子「003」に係る記載情報は、項目識別子「00013」と関連付けられており、該項目と項目DB121において関連付けられた属性は「S」である。   Next, the entry identification unit 114 identifies the described information related to the read identifier “003” as the described information having the youngest reading order next to the read identifier “001”, which is the described information associated with the item identifier. . The described information related to the read identifier "003" is associated with the item identifier "00013", and the attribute associated with the item in the item DB 121 is "S".

記入事項特定部114は、読取識別子「003」に係る記載情報よりも読取順序が後である記載情報であって、項目識別子が関連付けられていない記載情報のうち、最も読取順序が若い記載情報として、読取識別子「005」に係る記載情報を特定する。読取識別子「005」は記載情報「佐藤一郎」と関連しているが、記載情報「佐藤一郎」の属性は全角文字である「C」であって、項目識別子と関連付けられている属性「S」ではない。   The entry identification unit 114 is description information whose reading order is later than the description information relating to the reading identifier “003”, and among the description information to which the item identifier is not associated, the description information having the youngest reading order is described. , And specifies the described information related to the read identifier "005". The read identifier "005" is associated with the described information "Satoichiro", but the attribute of the described information "Satoichiro" is the full-width character "C", and the attribute "S" associated with the item identifier is not.

次に、記入事項特定部114は、次に読取順序が若い記載情報である、読取識別子「006」と関連付けられた記載情報を特定する。該記載情報は、選択肢であるため、属性「S」と適合する。従って、記入事項特定部114は、読取識別子「006」に係る記載情報が、読取識別子「003」に係る項目に対する記入事項として特定する。   Next, the entry identification unit 114 identifies the described information associated with the read identifier “006”, which is the described information with the youngest read order. Since the described information is an option, it matches the attribute “S”. Therefore, the entry identification unit 114 identifies the described information related to the read identifier "006" as the entry for the item related to the read identifier "003".

上述の処理に従って、図10に係る記載情報に含まれる項目の各々について、記入事項を特定した結果、図10右側に示す矢印によって現される対応関係を得る。   As a result of specifying the entry for each of the items included in the described information according to FIG. 10 according to the above-described process, the correspondence represented by the arrow shown on the right side of FIG. 10 is obtained.

次に、候補帳票特定部116は、各項目と各記入事項とが1対1であるか否かを判定する(ステップS22)。具体的には、候補帳票特定部116は、記載情報のうち、項目識別子と関連付けられず、かつステップS21において記入事項として項目識別子と関連付けられない記載情報がない場合に、各項目と各記入事項とが1対1であると判定する。   Next, the candidate form identification unit 116 determines whether each item and each entry are one to one (step S22). Specifically, when there is no entry information not associated with the item identifier among the entry information and no entry information associated with the entry identifier in step S21, the candidate form identification unit 116 indicates each entry and each entry And are determined to be one to one.

候補帳票特定部116が、各項目と各記入事項とが1対1であると判定した場合(ステップS22で「YES」の場合)、エラー判定部118は、記載情報に所定のエラーがある場合に、その旨を示すエラー情報を記載情報に関連付ける(ステップS23)。上述したように、所定のエラーとは、例えば読取部111が読取不能であった文字が記載情報に含まれる場合等である。   When the candidate form identification unit 116 determines that each item and each entry are on a one-to-one basis (in the case of “YES” in step S22), the error determination unit 118 has a predetermined error in the described information The error information indicating that is associated with the described information (step S23). As described above, the predetermined error is, for example, a case where the written information includes characters that the reading unit 111 can not read.

次に、顧客情報生成部115は、本処理において読み取った帳票について、各項目識別子と入力情報とを対応させて顧客マスタDB123を作成する(ステップS24)。本ステップによる処理の対象となる帳票は、帳票DB122に予め定められた書式に則ったものでないものの、本処理開始前に読み取られた帳票と書式が共通し、かつ各項目と記入事項とが過不足なく対応する帳票である。本ステップでは、本処理において読み取られた帳票について、顧客マスタDB123を生成する。   Next, the customer information generation unit 115 creates a customer master DB 123 by correlating each item identifier with the input information for the form read in this process (step S24). Although the forms to be processed by this step do not conform to the format predetermined in the form DB 122, the form is common to the form read before the start of the process, and each item and entry items are excessive. It is a corresponding form without a shortage. In this step, the customer master DB 123 is generated for the form read in the present process.

具体的には、顧客情報生成部115は、帳票に対して帳票識別子123aを付し、ステップS14で抽出した項目の項目識別子を、項目識別子123cとして記載順序に応じて帳票識別子123aに関連付ける。また、顧客情報生成部115は、各々の項目識別子123cと項目DB121において対応する項目識別子121aを参照し、該項目識別子121aと関連する種別121eを特定し、項目種別として項目識別子123cに関連付ける。また、顧客情報生成部115は、各々の項目識別子123cに対して、ステップS21で関連付けた記入事項を入力文字列123eとして関連付ける。また、ステップS23において記載情報にエラー情報が関連付けられた場合には、該記載情報にエラー情報123fを関連付ける。   Specifically, the customer information generation unit 115 attaches the form identifier 123a to the form, and associates the item identifier of the item extracted in step S14 with the form identifier 123a as the item identifier 123c according to the description order. Further, the customer information generation unit 115 refers to each item identifier 123c and the corresponding item identifier 121a in the item DB 121, identifies the type 121e associated with the item identifier 121a, and associates it with the item identifier 123c as the item type. Further, the customer information generation unit 115 associates the entry associated in step S21 with each item identifier 123c as the input character string 123e. When error information is associated with the description information in step S23, the error information 123f is associated with the description information.

次に、顧客情報生成部115は、仮帳票の各項目と記入事項とが1対1である場合に、各項目識別子と入力情報とを対応させて、顧客マスタDBを作成するとともに、仮帳票を仮登録記憶領域124から削除する(ステップS25)。具体的には、顧客情報生成部115は、ステップS20において、読み取った帳票に含まれるタイトルと、各項目識別子と、各項目識別子の順序とが一致すると判定された仮登録記憶領域124内のデータ(仮帳票)を用いて、顧客マスタDBを生成する。仮登録記憶領域124内には、例えば図10に示す記載情報が、帳票のタイトルと関連付けられて格納されている。顧客情報生成部115は、仮登録記憶領域124内の仮帳票に対して帳票識別子123aを付し、項目識別子123cと、項目種別123dと、入力文字列123eとを関連付ける。ステップS23において記載情報にエラー情報が関連付けられた場合には、該記載情報にエラー情報123fを関連付ける。   Next, the customer information generation unit 115 associates each item identifier with the input information to create a customer master DB when each item of the temporary form and the entry are in a one-to-one manner, Are deleted from the temporary registration storage area 124 (step S25). Specifically, the customer information generation unit 115 determines that the data included in the temporary registration storage area 124 is determined in step S20 that the title included in the read form, each item identifier, and the order of each item identifier match. The customer master DB is generated using (provisional slip). In the temporary registration storage area 124, for example, described information shown in FIG. 10 is stored in association with the form title. The customer information generation unit 115 adds the form identifier 123a to the temporary form in the temporary registration storage area 124, and associates the item identifier 123c, the item type 123d, and the input character string 123e. When error information is associated with the described information in step S23, the error information 123f is associated with the described information.

また、顧客情報生成部115は、該仮帳票のデータを仮登録記憶領域124から削除する。その後、顧客情報生成部115は、本フローチャートの処理を終了する。   Further, the customer information generation unit 115 deletes the data of the temporary form from the temporary registration storage area 124. Thereafter, the customer information generation unit 115 ends the processing of this flowchart.

ステップS22において、候補帳票特定部116が、各項目と各記入事項とが1対1であると判定しない場合(ステップS22で「NO」の場合)、エラー判定部118は、(1)項目識別子と関連する記入事項がない、(2)記入事項と関連する項目識別子がない、(3)記載情報に所定のエラーがある、の少なくともいずれか1つに該当する場合に、エラー情報を関連付ける(ステップS26)。具体的には、エラー判定部118は、ステップS14で抽出した項目に対してステップS21で記入事項が特定されない場合に、項目識別子と関連する記入事項がないことを示すエラー情報を、項目識別子に対して関連付ける。   In step S22, when the candidate form identification unit 116 does not determine that each item and each entry are one to one (in the case of “NO” in step S22), the error determination unit 118 performs (1) item identifier And (2) there is no entry associated with the entry, (2) there is no item identifier associated with the entry, (3) there is a predetermined error in the described information, and the error information is associated if at least one of Step S26). Specifically, when the entry is not specified in step S21 for the item extracted in step S14, the error determination unit 118 sets error information indicating that there is no entry associated with the item identifier as the item identifier. Associate against.

また、エラー判定部118は、ステップS14で項目として抽出されていない記載情報であって、ステップS21において項目識別子と関連付けられなかった記載情報に対して、記入事項と関連する項目識別子がないことを示すエラー情報を関連付ける。また、エラー判定部118は、記入事項に所定のエラーがある場合に、その旨を示すエラー情報を記載情報に対して関連付ける。   In addition, the error determination unit 118 indicates that there is no item identifier associated with the entry in the description information which is not extracted as an item in step S14 and is not associated with the item identifier in step S21. Associate error information to indicate. Further, when there is a predetermined error in the entry, the error determination unit 118 associates error information indicating that fact with the described information.

次に、仮帳票生成部117は、各項目識別子と入力情報とを対応させた仮帳票と、帳票の画像データとを仮登録記憶領域124に記憶させる(ステップS27)。具体的には、仮帳票生成部117は、ステップS12で取得した記載情報に対して、読取識別子と、ステップS14で抽出した項目識別子と、ステップS21で特定した記入事項の読取識別子とを関連付けて、ステップS13で特定したタイトルと対応させて仮帳票を生成し、仮登録記憶領域124に記憶させる。仮帳票は、例えば図10に示す記載情報である。   Next, the temporary form creation unit 117 causes the temporary registration storage area 124 to store a temporary form in which each item identifier is associated with the input information, and the image data of the form (step S27). More specifically, the temporary form creation unit 117 associates the read identifier, the item identifier extracted in step S14, and the read identifier of the entry identified in step S21 with the written information acquired in step S12. The temporary form is generated in correspondence with the title specified in step S13, and is stored in the temporary registration storage area 124. The provisional form is, for example, the described information shown in FIG.

また、仮帳票生成部117は、ステップS11において読取部111に読み取られた画像データを記憶部120から読み出し、仮帳票と関連付ける。その後、仮帳票生成部117は、本フローチャートの処理を終了する。   In addition, the temporary form creation unit 117 reads the image data read by the reading unit 111 in step S11 from the storage unit 120, and associates the image data with the temporary form. After that, the provisional document generation unit 117 ends the processing of this flowchart.

ステップS20において、候補帳票特定部116が、帳票に含まれるタイトルと、各項目識別子と、各項目識別子の順序とが一致するデータが仮登録記憶領域124内にあると判定しない場合(ステップS20で「NO」の場合)、記入事項特定部114は、各項目に対する記入事項を特定する(ステップS28)。ステップS28で行われる処理は、ステップS21で行われる処理と同様であるため、説明を省略する。   In step S20, it is determined that the candidate form identification unit 116 determines that there is data in the temporary registration storage area 124 in which the title included in the form, each item identifier, and the order of the item identifiers match. In the case of “NO”, the entry identification unit 114 identifies the entry for each item (step S28). The process performed in step S28 is the same as the process performed in step S21, and thus the description thereof is omitted.

次に、エラー判定部118は、ステップS12で取得した記載情報について、(1)項目識別子と関連する記入事項がない、(2)記入事項と関連する項目識別子がない、(3)記載情報に所定のエラーがある、の少なくともいずれか1つに該当する場合にエラー情報を関連付ける(ステップS29)。ステップS29からステップS30において行われる処理は、ステップS26からステップS27で行われる処理と同様であるため、説明を省略する。   Next, the error determination unit 118 determines (1) that there is no entry associated with the item identifier, (2) that there is no item identifier associated with the entry, (3) in the description information acquired in step S12. If at least one of the predetermined errors is present, the error information is associated (step S29). The processes performed in steps S29 to S30 are the same as the processes performed in steps S26 to S27, and thus the description thereof is omitted.

本実施形態により、読み取った帳票が帳票DB122に予め記憶された書式と対応する場合は、該書式に則って顧客マスタDB123を生成する。帳票DB122と対応しない場合には、本処理よりも前に読み取った帳票の書式に関する情報が格納された仮登録記憶領域124を参照し、該記憶領域内の仮帳票の書式と対応する場合であって、項目と該項目に対する記入事項との対が特定される場合には、これらを用いて顧客マスタDB123を生成する。これにより、取り扱う帳票の書式を予め登録する必要がなく、効率的に記載情報の抽出を行うことができる。   According to the present embodiment, when the read form corresponds to the form stored in advance in the form DB 122, the customer master DB 123 is generated according to the form. If it does not correspond to the form DB 122, it refers to the temporary registration storage area 124 storing information on the form of the form read before this processing, and corresponds to the form of the temporary form in the storage area. If a pair of an item and an entry for the item is identified, the customer master DB 123 is generated using these. As a result, it is not necessary to register in advance the form of the form to be handled, and the described information can be extracted efficiently.

また、本処理を帳票の数の分だけ繰り返すことにより、種類の異なる帳票に関する顧客マスタDBを好適に作成することができる。特に、種類の異なる帳票を扱うサービサーにあっては、帳票を種類毎に仕分けする必要がなく、作業効率が向上する。   Further, by repeating this process for the number of forms, it is possible to preferably create a customer master DB for different types of forms. In particular, in the case of a servicer that handles different types of forms, there is no need to sort the forms for each type, and work efficiency is improved.

また、項目に対する記入事項が不明な場合等、そのまま顧客マスタDB123を生成すると正確性に問題が生じると考えられる場合には、エラー情報を添付することで、後述する帳票修正画面140を用いた修正を促すことができ、適切に顧客マスタDB123を生成することができる。   Also, if it is considered that generating a customer master DB 123 as it is will cause a problem in accuracy, such as when the entry in the item is unknown, correction is made using the form correction screen 140 described later by attaching error information. The customer master DB 123 can be generated appropriately.

なお、本実施形態では、ステップS21において、各項目識別子を用いて項目DB121を参照し、項目識別子121aと関連付けられた属性121d(及び桁数121c)を用いて記入事項を特定した。しかしながら、項目に対する記入事項が記載順序に基づいて特定可能であれば、必ずしも属性121d及び桁数121cを用いる必要はない。属性121d及び桁数121cを参照する処理を省くことで、本情報処理装置10に係る負荷を軽減することができる。   In the present embodiment, in step S21, the item DB 121 is referenced using each item identifier, and the entry is specified using the attribute 121d (and the number of digits 121c) associated with the item identifier 121a. However, it is not necessary to use the attribute 121 d and the number of digits 121 c as long as the entry for the item can be identified based on the order of description. By omitting the process of referencing the attribute 121 d and the number of digits 121 c, the load on the information processing apparatus 10 can be reduced.

図12は、帳票修正画面140の一例を示す図である。仮登録記憶領域124に記憶された帳票については、本画面で内容を修正することができる。表示部119は、例えば入力装置を介した入力に基づいて、仮登録記憶領域124に記憶された帳票の選択を受け付けることにより、本画面を表示装置に対して表示させる。なお、表示部119は、所定のエラー情報を含む帳票が仮登録記憶領域124に記憶される場合に、自動的に本画面を表示させてもよい。本画面は、帳票毎に表示される。   FIG. 12 is a diagram showing an example of the form correction screen 140. As shown in FIG. The contents of the form stored in the temporary registration storage area 124 can be corrected on this screen. The display unit 119 causes this display screen to be displayed on the display device by receiving the selection of the form stored in the temporary registration storage area 124 based on, for example, an input via the input device. The display unit 119 may automatically display this screen when a form including predetermined error information is stored in the temporary registration storage area 124. This screen is displayed for each form.

帳票修正画面140は、記載情報選択領域141と、文字列変更ボタン142と、対応変更ボタン143と、顧客情報生成ボタン144とを含む。また、帳票修正画面140は、該帳票に含まれる記載事項が、(1)項目識別子と関連する記入事項がない、又は(2)記入事項と関連する項目識別子がない、のいずれかであることを示すエラー情報と関連付けられている場合に、項目と記入事項とが対応していない旨を表示する領域を含むものであってもよい。   The form correction screen 140 includes a written information selection area 141, a character string change button 142, a correspondence change button 143, and a customer information generation button 144. In the form correction screen 140, the entry included in the form is either (1) there is no entry associated with the item identifier or (2) there is no entry identifier associated with the entry. May be included to indicate that the item and the entry do not correspond to each other when associated with the error information indicating.

記載情報選択領域141には、帳票に含まれる記載情報が選択可能に表示される。文字列変更ボタン142は、記載情報に含まれる文字列の変更を受け付けるためのボタンである。記載情報選択領域141に表示された記載情報が選択され、文字列変更ボタン142の入力を受け付けると、記載情報中の文字列の変更に関する入力を受け付ける画面に表示画面が遷移する。例えば記載情報抽出部112により抽出された記入事項に係る文字列を変更する場合に、この操作がなされる。   In the description information selection area 141, the description information included in the form is displayed in a selectable manner. The character string change button 142 is a button for receiving a change of the character string included in the described information. When the described information displayed in the described information selection area 141 is selected and the input of the character string change button 142 is received, the display screen changes to a screen for receiving an input related to the change of the character string in the described information. For example, when changing the character string related to the entry extracted by the description information extraction unit 112, this operation is performed.

対応変更ボタン143は、記載情報の追加や変更を受け付けるためのボタンである。記載情報選択領域141に表示された記載情報が選択され、対応変更ボタン143の入力を受け付けると、記載情報の追加と、項目及び記入事項の対応関係に関する入力を受け付ける画面に表示画面が遷移する。例えば、記載情報抽出部112によって抽出されなかった記載情報を追加する場合や、項目抽出部113によって抽出された項目に対して記入事項を対応付ける場合等に、この操作がなされる。   The correspondence change button 143 is a button for receiving addition or change of the described information. When the description information displayed in the description information selection area 141 is selected and the input of the correspondence change button 143 is received, the display screen changes to a screen for receiving addition regarding the description information and an input regarding the correspondence relationship between the items and the entries. For example, this operation is performed, for example, when adding description information that has not been extracted by the description information extraction unit 112 or when associating an entry with the item extracted by the item extraction unit 113.

顧客情報生成ボタン144は、本帳票に基づいた顧客マスタDB123の生成指示を受け付けるためのボタンである。顧客情報生成ボタン144が入力されると、本帳票に基づいて顧客マスタDB123が生成される。   The customer information generation button 144 is a button for receiving a generation instruction of the customer master DB 123 based on the main form. When the customer information generation button 144 is input, a customer master DB 123 is generated based on the form.

本表示画面によって、エラー判定部118によりエラー判定がなされた記載情報について、エラーの修正を行うことができる。仮登録記憶領域124に記憶された帳票であっても、本画面に基づいた操作を行うことにより、適切な修正を受け付けた後に、顧客マスタDB123を生成することができる。これにより、読み取られた帳票に基づく適切な顧客マスタDB123の生成が担保される。   With the main display screen, it is possible to correct an error in the description information for which the error determination unit 118 has made the error determination. Even if the form is stored in the temporary registration storage area 124, the customer master DB 123 can be generated after an appropriate correction is received by performing an operation based on this screen. As a result, generation of an appropriate customer master DB 123 based on the read slip is secured.

なお、本表示画面による操作を行うにあたり、仮帳票と関連付けて記憶部120に記憶された画像データを本表示画面と併せて表示してもよい。これにより、読み取った画像と本表示画面とを照合することができ、効率性が向上する。   Note that when performing an operation on the main display screen, the image data stored in the storage unit 120 in association with the temporary form may be displayed together with the main display screen. Thereby, the read image and the main display screen can be collated, and the efficiency is improved.

以上、本発明に係る各実施形態の説明を行ってきたが、本発明は、上記した実施形態の一例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施形態の一例は、本発明を分かり易くするために詳細に説明したものであり、本発明は、ここで説明した全ての構成を備えるものに限定されない。また、ある実施形態の一例の構成の一部を他の一例の構成に置き換えることが可能である。また、ある実施形態の一例の構成に他の一例の構成を加えることも可能である。また、各実施形態の一例の構成の一部について、他の構成の追加・削除・置換をすることもできる。また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、図中の制御線や情報線は、説明上必要と考えられるものを示しており、全てを示しているとは限らない。ほとんど全ての構成が相互に接続されていると考えてもよい。   As mentioned above, although each embodiment concerning the present invention has been explained, the present invention is not limited to an example of an above-mentioned embodiment, and various modification is included. For example, one example of the embodiment described above is described in detail in order to make the present invention easy to understand, and the present invention is not limited to one having all the configurations described here. Further, part of the configuration of an example of one embodiment can be replaced with the configuration of another example. In addition, it is also possible to add another example configuration to the configuration of an example of one embodiment. In addition, with respect to a part of the configuration of an example of each embodiment, another configuration can be added, deleted, or replaced. Further, each of the configurations, functions, processing units, processing means, etc. described above may be realized by hardware, for example, by designing part or all of them with an integrated circuit. Further, control lines and information lines in the drawings indicate what is considered to be necessary for the explanation, and not all of them are shown. It may be considered that almost all configurations are connected to each other.

また、上記の情報処理装置10の機能構成は、理解を容易にするために、主な処理内容に応じて分類したものである。構成要素の分類の仕方や名称によって、本願発明が制限されることはない。情報処理装置10の構成は、処理内容に応じて、さらに多くの構成要素に分類することもできる。また、1つの構成要素がさらに多くの処理を実行するように分類することもできる。   Also, the functional configuration of the information processing apparatus 10 described above is classified according to the main processing content in order to facilitate understanding. The invention is not limited by the classification method and names of components. The configuration of the information processing apparatus 10 can also be classified into more components according to the processing content. Also, one component can be classified to perform more processing.

10:情報処理装置、20:スキャナ、110:制御部、111:読取部、112:記載情報抽出部、113:項目抽出部、114:記入事項特定部、115:顧客情報生成部、116:候補帳票特定部、117:仮帳票生成部、118:エラー判定部、119:表示部、120:記憶部、121:項目DB、122:帳票DB、123:顧客マスタDB、124:仮登録記憶領域、130:CPU、131:メモリ、132:ネットワークI/F、133:補助記憶装置、134:入力I/F、135:出力I/F、140:帳票修正画面、141:記載情報選択領域、142:文字列変更ボタン、143:対応変更ボタン、144:顧客情報生成ボタン   10: information processing apparatus, 20: scanner, 110: control unit, 111: reading unit, 112: written information extracting unit, 113: item extracting unit, 114: entry specifying unit, 115: customer information generating unit, 116: candidate Form identification unit 117, preliminary form generation unit 118: error determination unit 119: display unit 120: storage unit 121: item DB, 122: form DB, 123: customer master DB, 124: temporary registration storage area, 130: CPU, 131: memory, 132: network I / F, 133: auxiliary storage device, 134: input I / F, 135: output I / F, 140: form correction screen, 141: written information selection area, 142: Character string change button, 143: Correspondence change button, 144: Customer information generation button

Claims (8)

帳票に含まれる項目の候補である項目候補と該項目に対する記入事項の記入形式を示す属性とが関連付けられた項目情報を記憶する記憶部と、
帳票を読み取る読取部と、
前記読取部により読み取られた帳票から記載情報を抽出する記載情報抽出部と、
前記記載情報から、前記項目候補と対応する前記項目を抽出するとともに、前記項目として抽出されない前記記載情報に対して当該記載情報の記入形式を示す属性を特定して関連付ける項目抽出部と、
前記読取部による前記記載情報の読取順序に基づいて、前記項目に対する前記記載情報を特定し、前記項目抽出部により該記載情報に対して関連付けられた前記記入形式と、前記項目情報における前記項目に対する記入事項の前記記入形式とが適合する場合に、前記記載情報を前記項目に対する記入事項として特定する記入事項特定部と、
前記項目と、該項目に対する前記記入事項とを関連付けた顧客情報を生成する顧客情報生成部と、
を備えることを特徴とする情報処理装置。
A storage unit that stores item information in which an item candidate that is a candidate for an item included in a form and an attribute indicating an entry form of an entry for the item are associated;
A reading unit that reads a form;
A description information extraction unit that extracts description information from the slip read by the reading unit;
An item extraction unit which extracts the item corresponding to the item candidate from the description information and identifies and associates an attribute indicating an entry form of the description information with respect to the description information not extracted as the item;
The description information for the item is specified based on the reading order of the description information by the reading unit, and the entry form associated with the description information by the item extraction unit and the item for the item information An entry identification unit that identifies the described information as an entry for the item if the entry form conforms to the entry form ;
A customer information generation unit that generates customer information in which the item and the entry for the item are associated;
An information processing apparatus comprising:
請求項1に記載の情報処理装置であって、
前記読取部により読み取られた帳票と対応する帳票候補が前記記憶部に記憶されているか否かを判定する候補帳票特定部を備え、
前記記憶部には、前記項目に対し、該項目の記載順序と、該項目への前記記入事項の前記記載順序とを関連付けた帳票情報が前記帳票候補として前記帳票毎に記憶され、
前記記載情報抽出部は、
前記候補帳票特定部が前記項目抽出部により抽出された前記項目と該項目の読取順序とを用いて前記帳票情報を参照し、該読取順序と前記項目の前記記載順序とが対応する前記帳票情報が前記記憶部に記憶されていると判定した場合に、前記帳票情報における前記記入事項の前記記載順序と対応する前記読取順序で読み取られた前記記載情報を前記記入事項として特定し、
前記顧客情報生成部は、前記帳票情報を用いて前記項目と前記記入事項とを関連付けることを特徴とする情報処理装置。
The information processing apparatus according to claim 1, wherein
A candidate form identification unit that determines whether or not a form candidate corresponding to the form read by the reading unit is stored in the storage unit;
In the storage unit, form information in which the order of describing the items and the order of description of the entries in the items are associated with the items is stored as the form candidate for each form.
The described information extraction unit
The candidate form identification unit refers to the form information using the item extracted by the item extraction unit and the reading order of the item, and the form information corresponding to the reading order and the description order of the item When it is determined that the information is stored in the storage unit, the description information read in the reading order corresponding to the order of description of the entry in the form information is specified as the entry.
The information processing apparatus, wherein the customer information generation unit associates the item with the entry by using the form information.
請求項2に記載の情報処理装置であって、
前記候補帳票特定部により、前記読取順序と前記記載順序とが対応する前記帳票が前記帳票情報に含まれると判定されない帳票について、前記項目抽出部により抽出された前記項目と、該項目の記載順序と、を用いて仮帳票を生成する仮帳票生成部を備え、
前記記憶部には、前記帳票候補として前記仮帳票が記憶され、
前記候補帳票特定部は、前記帳票の前記読取順序と前記記載順序とが対応する前記仮帳票が前記記憶部に記憶されているか否かを判定し、
前記記入事項特定部は、前記候補帳票特定部により前記仮帳票が記憶されていると判定された場合に、前記仮帳票に含まれる前記記載順序を用いて前記記入事項を特定することを特徴とする情報処理装置。
The information processing apparatus according to claim 2,
The item extracted by the item extraction unit and the order of description of the items for a form that is not determined to be included in the form information by the candidate form identification unit that the reading order corresponds to the description order And a temporary form generation unit for generating a temporary form using
The temporary form is stored in the storage unit as the form candidate.
The candidate form identification unit determines whether or not the temporary form that corresponds to the reading order of the form and the description order is stored in the storage unit.
The entry specification unit is configured to specify the entry using the description order included in the temporary form, when it is determined by the candidate form specification unit that the temporary form is stored. Information processing device.
請求項1から3のいずれか一項に記載の情報処理装置であって、
前記記載情報のうち、前記項目に対する前記記入事項が前記記入事項特定部により特定されない場合、又は前記項目とも前記記入事項とも特定されない前記記載情報が存在する場合に、エラー判定を行うエラー判定部と、
前記エラー判定部によりエラー判定がされた場合に、帳票修正画面を表示する表示部とを備え、前記帳票修正画面は、前記記載情報に対する前記項目又は前記記入事項の指定を受け付けることを特徴とする情報処理装置。
The information processing apparatus according to any one of claims 1 to 3, wherein
An error judgment unit that makes an error judgment if the entry for the item is not specified by the entry identification unit among the description information, or if the entry information that is neither specified for the item nor the entry is present ,
And a display unit for displaying a form correction screen when the error determination unit determines an error, and the form correction screen receives specification of the item or the entry with respect to the described information. Information processing device.
請求項1から4のいずれか一項に記載の情報処理装置であって、
前記記入形式を示す属性には、前記記入事項に係る文字が全角文字であるか、半角文字であるか、及び、前記記入事項が選択肢からの選択によるものであるかを特定する情報が含まれ、
前記項目情報は、前記項目候補と該項目に対するいずれか1つの前記記入事項の属性とが関連付けられていることを特徴とする情報処理装置。
The information processing apparatus according to any one of claims 1 to 4, wherein
The attribute indicating the entry form includes information specifying whether the character according to the entry is a full-width character or a half-width character, and whether the entry is a selection from options. ,
7. The information processing apparatus according to claim 1, wherein the item information is associated with the item candidate and an attribute of any one of the items for the item.
請求項5のいずれか一項に記載の情報処理装置であって、
前記項目抽出部は、前記記載情報が連続する複数の文字及びドットを含むか、又は複数のチェックボックスを含む場合に、前記記載情報の前記属性が選択肢からの選択によるものと特定することを特徴とする情報処理装置。
An information processing apparatus according to any one of claims 5 to 10, wherein
The item extraction unit is characterized in that, when the described information includes a plurality of consecutive characters and dots or a plurality of check boxes, the attribute of the described information is identified as being selected from a choice. Information processing apparatus to be.
制御部を備える情報処理装置を用いた帳票読取方法であって、
前記制御部は、
帳票に含まれる項目の候補である項目候補と該項目に対する記入事項の記入形式を示す属性とが関連付けられた項目情報を記憶する記憶部と、
帳票を読み取る読取ステップと、
前記読取ステップにおいて読み取られた帳票から記載情報を抽出する記載情報抽出ステップと、
前記記憶部に記憶された前記帳票に含まれる項目の候補である項目候補と対応する前記項目を前記記載情報から抽出するとともに、前記項目として抽出されない前記記載情報に対して当該記載情報の記入形式を示す属性を特定して関連付ける項目抽出ステップと、
前記読取ステップにおける前記記載情報の読取順序に基づいて、前記項目に対する前記記載情報を特定し、前記項目抽出ステップにおいて該記載情報に対して関連付けられた前記記入形式と、前記項目情報における前記項目に対する記入事項の前記記入形式とが適合する場合に、前記記載情報を前記項目に対する記入事項として特定する記入事項特定ステップと、
前記項目と、該項目に対する前記記入事項とを関連付けた顧客情報を生成する顧客情報生成ステップと、
を備えることを特徴とする帳票読取方法。
A form reading method using an information processing apparatus including a control unit,
The control unit
A storage unit that stores item information in which an item candidate that is a candidate for an item included in a form and an attribute indicating an entry form of an entry for the item are associated;
A reading step for reading a form;
A written information extraction step of extracting written information from the slip read in the reading step;
While extracting the item corresponding to the item candidate which is a candidate of the item contained in the form stored in the storage unit from the description information, the entry format of the description information with respect to the description information not extracted as the item An item extraction step of identifying and associating an attribute indicating
The description information for the item is specified based on the reading order of the description information in the reading step, and the entry form associated with the description information in the item extraction step and the item in the item information An entry identification step of identifying the described information as an entry for the item if the entry form conforms to the entry form ;
A customer information generation step of generating customer information in which the item and the entry for the item are associated;
A form reading method comprising:
コンピューターに、帳票読取処理を行うステップを実行させるプログラムであって、
前記コンピューターを、制御手段として機能させ、
前記制御手段に対して、
帳票に含まれる項目の候補である項目候補と該項目に対する記入事項の記入形式を示す属性とが関連付けられた項目情報を記憶する記憶部と、
帳票を読み取る読取ステップと、
前記読取ステップにおいて読み取られた帳票から記載情報を抽出する記載情報抽出ステップと、
前記記憶部に記憶された前記帳票に含まれる項目の候補である項目候補と対応する前記項目を前記記載情報から抽出するとともに、前記項目として抽出されない前記記載情報に対して当該記載情報の記入形式を示す属性を特定して関連付ける項目抽出ステップと、
前記読取ステップにおける前記記載情報の読取順序に基づいて、前記項目に対する前記記載情報を特定し、前記項目抽出ステップにおいて該記載情報に対して関連付けられた前記記入形式と、前記項目情報における前記項目に対する記入事項の前記記入形式とが適合する場合に、前記記載情報を前記項目に対する記入事項として特定する記入事項特定ステップと、
前記項目と、該項目に対する前記記入事項とを関連付けた顧客情報を生成する顧客情報生成ステップと、
を実行させることを特徴とするプログラム。
A program that causes a computer to execute a step of performing form reading processing,
Causing the computer to function as control means,
For the control means,
A storage unit that stores item information in which an item candidate that is a candidate for an item included in a form and an attribute indicating an entry form of an entry for the item are associated;
A reading step for reading a form;
A written information extraction step of extracting written information from the slip read in the reading step;
While extracting the item corresponding to the item candidate which is a candidate of the item contained in the form stored in the storage unit from the description information, the entry format of the description information with respect to the description information not extracted as the item An item extraction step of identifying and associating an attribute indicating
The description information for the item is specified based on the reading order of the description information in the reading step, and the entry form associated with the description information in the item extraction step and the item in the item information An entry identification step of identifying the described information as an entry for the item if the entry form conforms to the entry form ;
A customer information generation step of generating customer information in which the item and the entry for the item are associated;
A program characterized by causing
JP2014053081A 2014-03-17 2014-03-17 Information processing apparatus, form reading method, and program Expired - Fee Related JP6541936B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014053081A JP6541936B2 (en) 2014-03-17 2014-03-17 Information processing apparatus, form reading method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014053081A JP6541936B2 (en) 2014-03-17 2014-03-17 Information processing apparatus, form reading method, and program

Publications (2)

Publication Number Publication Date
JP2015176410A JP2015176410A (en) 2015-10-05
JP6541936B2 true JP6541936B2 (en) 2019-07-10

Family

ID=54255535

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014053081A Expired - Fee Related JP6541936B2 (en) 2014-03-17 2014-03-17 Information processing apparatus, form reading method, and program

Country Status (1)

Country Link
JP (1) JP6541936B2 (en)

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02139686A (en) * 1988-11-21 1990-05-29 Fuji Electric Co Ltd Character reading method
US5237628A (en) * 1991-06-03 1993-08-17 Nynex Corporation System and method for automatic optical data entry
JP4047454B2 (en) * 1998-06-08 2008-02-13 沖電気工業株式会社 Character recognition device
JP2000029983A (en) * 1998-07-10 2000-01-28 Oki Electric Ind Co Ltd Document reader device
JP2003296586A (en) * 2002-03-29 2003-10-17 Hitachi Kokusai Electric Inc Image processing system
JP2007087021A (en) * 2005-09-21 2007-04-05 Fujitsu Ltd Electronic documentation device for paper document, electronic documentation method for paper document, and electronic documentation program for paper document
JP4996940B2 (en) * 2007-02-21 2012-08-08 日立コンピュータ機器株式会社 Form recognition device and program thereof
JP2008299748A (en) * 2007-06-01 2008-12-11 Oki Electric Ind Co Ltd Ocr document registration system
JP2009223391A (en) * 2008-03-13 2009-10-01 Fuji Xerox Co Ltd Image processor and image processing program
JP5621169B2 (en) * 2010-05-26 2014-11-05 日立オムロンターミナルソリューションズ株式会社 Form recognition device and form recognition method
JP2013218364A (en) * 2012-04-04 2013-10-24 Canon Inc Image processing system

Also Published As

Publication number Publication date
JP2015176410A (en) 2015-10-05

Similar Documents

Publication Publication Date Title
JP4926004B2 (en) Document processing apparatus, document processing method, and document processing program
JP5774597B2 (en) System and method using dynamic variation network
WO2000052645A1 (en) Document image processor, method for extracting document title, and method for imparting document tag information
JP2005173730A (en) Business form ocr program, method, and device
US9213756B2 (en) System and method of using dynamic variance networks
JPH087033A (en) Method and device for processing information
US20060045340A1 (en) Character recognition apparatus and character recognition method
JP6856916B1 (en) Information processing equipment, information processing methods and information processing programs
US11315351B2 (en) Information processing device, information processing method, and information processing program
JP2008282094A (en) Character recognition processing apparatus
JP6541936B2 (en) Information processing apparatus, form reading method, and program
JP4518212B2 (en) Image processing apparatus and program
JP5550959B2 (en) Document processing system and program
JP3898645B2 (en) Form format editing device and form format editing program
JP2016018279A (en) Document file search program, document file search device, document file search method, document information output program, document information output device, and document information output method
JP7312646B2 (en) Information processing device, document identification method, and information processing system
JP4517822B2 (en) Image processing apparatus and program
JP2000231560A (en) Automatic document classification system
JP7160432B2 (en) Image processing device, image processing method, program
JP2021028770A (en) Information processing device and table recognition method
JP2020047031A (en) Document retrieval device, document retrieval system and program
WO2023021636A1 (en) Data processing device, data processing method, and program
JP2004178044A (en) Attribute extraction method, its device and attribute extraction program
US20240193217A1 (en) Information processing apparatus, method of controlling information processing apparatus, and storage medium
JP2012089042A (en) Form creation device and form creation method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180409

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181002

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190604

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190612

R150 Certificate of patent or registration of utility model

Ref document number: 6541936

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees