[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2020135095A - Information processing device and program - Google Patents

Information processing device and program Download PDF

Info

Publication number
JP2020135095A
JP2020135095A JP2019024333A JP2019024333A JP2020135095A JP 2020135095 A JP2020135095 A JP 2020135095A JP 2019024333 A JP2019024333 A JP 2019024333A JP 2019024333 A JP2019024333 A JP 2019024333A JP 2020135095 A JP2020135095 A JP 2020135095A
Authority
JP
Japan
Prior art keywords
character
character string
extraction
definition file
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019024333A
Other languages
Japanese (ja)
Other versions
JP7271987B2 (en
Inventor
公則 吉塚
Kiminori Yoshizuka
公則 吉塚
岡田 茂
Shigeru Okada
茂 岡田
久保 周作
Shusaku Kubo
周作 久保
真太郎 安達
Shintaro Adachi
真太郎 安達
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2019024333A priority Critical patent/JP7271987B2/en
Publication of JP2020135095A publication Critical patent/JP2020135095A/en
Application granted granted Critical
Publication of JP7271987B2 publication Critical patent/JP7271987B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

To provide an information processing device and a program with which it is possible to suppress a second character or string having an attribute common to the first character or string to be extracted from being mistakenly extracted.SOLUTION: The information processing device comprises: recognition means for recognizing a character; and extraction means for excluding, when a first character or string is not included in the recognized characters, a second character or string having an attribute common to the first character or string, and extracting a fourth character or string that includes a third character or string that indicates the attribute.SELECTED DRAWING: Figure 7

Description

本発明は、情報処理装置及びプログラムに関する。 The present invention relates to an information processing device and a program.

近年、OCRにより誤認識された文字列を、正しい文字列に補正するための置換辞書を自動的に作成する文書処理装置が提案されている(例えば、特許文献1参照。)。 In recent years, a document processing device that automatically creates a replacement dictionary for correcting a character string erroneously recognized by OCR to a correct character string has been proposed (see, for example, Patent Document 1).

特許文献1に記載された文書処理装置は、業務文書を画像化したサンプル電子文書データから切り分けた正解文字列と、前記サンプル電子文書データに対してOCRを行った結果得られるOCR後サンプル文書データから切り分けたOCR後文字列と、を比較単位とし、誤認識の判定を行うマッチング処理部と、前記正解文字列を所定の単語単位に切り分け、該切り分けた単語のうち前記マッチング処理部で誤認識と判定された文字を含む単語を誤認識パターン候補として登録する解析処理部と、記憶装置に格納された日本語の単語が登録された日本語辞書データ及び業務で使用される単語が登録された業務単語辞書データに含まれる単語と部分一致または完全一致する単語を前記誤認識パターン候補から削除してフィルタリングし、該フィルタリング後の誤認識パターン候補を誤認識パターンとして前記記憶装置へ格納するフィルタリング処理部とを備える。 The document processing apparatus described in Patent Document 1 has a correct character string separated from sample electronic document data obtained by imaging a business document, and sample document data after OCR obtained as a result of performing OCR on the sample electronic document data. The matching processing unit that determines misrecognition using the character string after OCR separated from the above as a comparison unit, and the matching processing unit that divides the correct character string into predetermined word units and misrecognizes the separated words. The analysis processing unit that registers words containing the characters determined to be false recognition pattern candidates, the Japanese dictionary data in which the Japanese words stored in the storage device are registered, and the words used in business are registered. A filtering process in which words that partially or exactly match the words included in the business word dictionary data are deleted from the false recognition pattern candidates and filtered, and the false recognition pattern candidates after the filtering are stored in the storage device as false recognition patterns. It has a part.

特開2011−107966号公報Japanese Unexamined Patent Publication No. 2011-107966

本発明の課題は、抽出の対象となる第1の文字又は文字列と共通の属性を有する第2の文字又は文字列を誤って抽出することを抑制することが可能な情報処理装置及びプログラムを提供することにある。 An object of the present invention is an information processing device and a program capable of suppressing erroneous extraction of a second character or character string having an attribute common to that of the first character or character string to be extracted. To provide.

[1]文字を認識する認識手段と、
認識された前記文字の中に第1の文字又は文字列が含まれない場合に、該第1の文字又は文字列と共通の属性を有する第2の文字又は文字列を除外して、前記属性を示す第3の文字又は文字列を含む第4の文字又は文字列を抽出する抽出手段と、
を備える情報処理装置。
[2]前記抽出手段による抽出の対象として文字又は文字列を登録する登録手段をさらに備え、
前記登録手段により前記第1の文字又は文字列と共通の属性を有する第5の文字又は文字列が新たに前記抽出の対象として登録された場合に、前記抽出手段は、該第5の文字又は文字列をさらに除外して、前記属性を示す第3の文字又は文字列を含む第4の文字又は文字列を抽出する、
前記[1]に記載の情報処理装置。
[3]複数の前記第1の文字又は文字列を前記抽出の対象としてそれぞれ記録する複数の記録手段と、
前記複数の記録手段のうち、前記第5の文字又は文字列を前記抽出の対象として記録する記録手段以外の記録手段のそれぞれに、前記第5の文字又は文字列を前記抽出手段による抽出から除外する除外条件として追加する追加手段と、
をさらに備える、
前記[2]に記載の情報処理装置。
[4]複数の前記第1の文字又は文字列を前記抽出の対象としてそれぞれ記録する複数の記録手段と、
前記第1の文字又は文字列の属性に応じて前記記録手段を群に分類した分類情報の中から、前記複数の記録手段のうち前記第1の文字又は文字列が記録された第1の記録手段と同一の群に属する第2の記録手段に記録された前記第1の文字又は文字列を前記第2の文字又は文字列として前記第1の記録手段に追加する追加手段と、
をさらに備える、
前記[1]に記載の情報処理装置。
[5]前記追加手段は、前記第1の記録手段が属する群の名称を示す文字又は文字列を前記第3の文字又は文字列として前記第1の記録手段に追加する、
前記[4]に記載の情報処理装置。
[6]前記第1の文字又は文字列を記録する記録手段と、
前記第1の文字又は文字列を属性に応じて前記記録手段を群に分類する分類手段と、
前記群に分類された前記記録手段が予め定められた個数以上となった場合に、新たな群を生成する生成手段と、
をさらに備える、
前記[1]に記載の情報処理装置。
[7]前記生成手段は、前記属性を付して前記新たな群を生成する、
前記[6]に記載の情報処理装置。
[8]コンピュータを、
文字を認識する認識手段と、
認識された前記文字の中に第1の文字又は文字列が含まれない場合に、該第1の文字又は文字列と共通の属性を有する第2の文字又は文字列を除外して、前記属性を示す第3の文字又は文字列を含む第4の文字又は文字列を抽出する抽出手段
として、機能させるためのプログラム。
[1] Recognition means for recognizing characters and
When the recognized character does not include the first character or character string, the attribute is excluded by excluding the second character or character string having the same attribute as the first character or character string. An extraction means for extracting a fourth character or character string including a third character or character string indicating
Information processing device equipped with.
[2] Further provided with a registration means for registering a character or a character string as an extraction target by the extraction means.
When a fifth character or character string having an attribute common to the first character or character string is newly registered as the target of the extraction by the registration means, the extraction means is the fifth character or the fifth character or the character string. Further excluding the character string, a fourth character or character string including the third character or character string indicating the attribute is extracted.
The information processing device according to the above [1].
[3] A plurality of recording means for recording a plurality of the first characters or character strings as targets for the extraction, and
Of the plurality of recording means, the fifth character or character string is excluded from the extraction by the extraction means in each of the recording means other than the recording means for recording the fifth character or character string as the extraction target. Additional means to add as an exclusion condition and
Further prepare
The information processing device according to the above [2].
[4] A plurality of recording means for recording a plurality of the first characters or character strings as targets for the extraction, and
From the classification information obtained by classifying the recording means into groups according to the attributes of the first character or character string, the first record in which the first character or character string is recorded among the plurality of recording means. An additional means for adding the first character or character string recorded in the second recording means belonging to the same group as the means to the first recording means as the second character or character string.
Further prepare
The information processing device according to the above [1].
[5] The additional means adds a character or a character string indicating the name of the group to which the first recording means belongs to the first recording means as the third character or character string.
The information processing device according to the above [4].
[6] A recording means for recording the first character or a character string, and
A classification means for classifying the recording means into groups according to the attributes of the first character or character string, and
When the number of the recording means classified into the group exceeds a predetermined number, a generation means for generating a new group and a generation means.
Further prepare
The information processing device according to the above [1].
[7] The generation means attaches the attribute to generate the new group.
The information processing device according to the above [6].
[8] Computer
Recognition means for recognizing characters and
When the recognized character does not include the first character or character string, the attribute is excluded by excluding the second character or character string having the same attribute as the first character or character string. A program for functioning as an extraction means for extracting a fourth character or character string including a third character or character string indicating.

請求項1〜8に係る発明によれば、抽出の対象となる第1の文字又は文字列と共通の属性を有する第2の文字又は文字列を誤って抽出することを抑制することができる。 According to the inventions of claims 1 to 8, it is possible to prevent erroneous extraction of a second character or character string having an attribute common to that of the first character or character string to be extracted.

図1は、本発明の実施の形態に係る情報処理装置の制御系の一例を示すブロック図である。FIG. 1 is a block diagram showing an example of a control system of an information processing apparatus according to an embodiment of the present invention. 図2は、定義ファイルリストの一例を示す図である。FIG. 2 is a diagram showing an example of a definition file list. 図3は、定義ファイルの一例を示す図であり、(a)は、第1の定義ファイルの一例を示す図、(b)は、第2の定義ファイルの一例を示す図、(c)は、第3の定義ファイルの一例を示す図である。3A and 3B are diagrams showing an example of a definition file, FIG. 3A is a diagram showing an example of a first definition file, FIG. 3B is a diagram showing an example of a second definition file, and FIG. 3C is a diagram showing an example of a second definition file. , Is a diagram showing an example of a third definition file. 図4は、画面の一例を示す図であり、(a)は、選択画面の一例を示す図、(b)は、設定画面の一例を示す図、(c)は、確認画面の一例を示す図である。4A and 4B are diagrams showing an example of a screen, FIG. 4A shows an example of a selection screen, FIG. 4B shows an example of a setting screen, and FIG. 4C shows an example of a confirmation screen. It is a figure. 図5は、見積書の一例を示す図であり、(a)は、第1の見積書の一例を示す図、(b)は、第2の見積書の一例を示す図である。5A and 5B are diagrams showing an example of a quotation, FIG. 5A is a diagram showing an example of a first quotation, and FIG. 5B is a diagram showing an example of a second quotation. 図6は、定義ファイルの設定の動作の一例を示すフローチャートである。FIG. 6 is a flowchart showing an example of the operation of setting the definition file. 図7は、キーバリュー処理の動作の一例を模式的に示す図である。FIG. 7 is a diagram schematically showing an example of the operation of the key value processing. 図8は、変形例に係る情報処理装置の動作の一例を模式的に示す図である。FIG. 8 is a diagram schematically showing an example of the operation of the information processing apparatus according to the modified example. 図9(a)は、定義ファイルの一例を示す図、(b)は、請求書の一例を示す図である。FIG. 9A is a diagram showing an example of a definition file, and FIG. 9B is a diagram showing an example of an invoice. 図10(a)及び(b)は、定義ファイルリストの一例を示す図である。10 (a) and 10 (b) are diagrams showing an example of a definition file list.

以下、本発明の実施の形態について図面を参照して説明する。なお、各図中、実質的に同一の機能を有する構成要素については、同一の符号を付してその重複した説明を省略する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In each figure, components having substantially the same function are designated by the same reference numerals, and duplicate description thereof will be omitted.

[実施の形態]
(情報処理装置の構成)
図1は、本発明の実施の形態に係る情報処理装置の制御系の一例を示すブロック図である。このような情報処理装置1には、例えば、パーソナルコンピュータ、画像形成装置、タブレッド端末、多機能携帯電話機(スマートフォン)等が含まれる。以下、情報処理装置1として、スキャン機能、プリンタ機能、コピー機能、ファクシミリ機能、電子メール機能等の複数の機能を有する複合機を例に説明するが、情報処理装置1は、複合機に限定されるものではない。
[Embodiment]
(Configuration of information processing device)
FIG. 1 is a block diagram showing an example of a control system of an information processing apparatus according to an embodiment of the present invention. Such an information processing device 1 includes, for example, a personal computer, an image forming device, a tabbed terminal, a multifunctional mobile phone (smartphone), and the like. Hereinafter, the information processing device 1 will be described as an example of a multifunction device having a plurality of functions such as a scanning function, a printer function, a copy function, a facsimile function, and an e-mail function, but the information processing device 1 is limited to the multifunction device. It's not something.

この情報処理装置1は、各部を制御する制御部10と、各種のデータを記憶する記憶部11と、情報の入力及び表示を行う操作表示部12と、原稿から原稿画像を読み取る画像読取部14と、画像を印刷出力する画像出力部15と、外部ファクシミリ装置2に対して公衆回線網4を介してファクシミリ送受信を行うファクシミリ通信部16と、外部装置3との間でネットワーク5を介して通信するネットワーク通信部17とを備える。 The information processing device 1 includes a control unit 10 that controls each unit, a storage unit 11 that stores various data, an operation display unit 12 that inputs and displays information, and an image reading unit 14 that reads a document image from a document. Communication between the image output unit 15 that prints out the image, the facsimile communication unit 16 that performs facsimile transmission / reception to the external facsimile device 2 via the public network 4, and the external device 3 via the network 5. The network communication unit 17 is provided.

制御部10は、CPU(Central Processing Unit)、インターフェース等から構成されている。CPUは、記憶部11に記憶されたプログラム110に従って動作することにより、生成手段100、解析手段101、判定手段102、追加手段103、認識手段104、抽出手段105、表示制御手段106等として機能する。生成手段100は、登録手段の一例である。各手段100〜106の詳細については後述する。 The control unit 10 is composed of a CPU (Central Processing Unit), an interface, and the like. By operating according to the program 110 stored in the storage unit 11, the CPU functions as a generation means 100, an analysis means 101, a determination means 102, an additional means 103, a recognition means 104, an extraction means 105, a display control means 106, and the like. .. The generation means 100 is an example of the registration means. Details of each means 100 to 106 will be described later.

記憶部11は、ROM(Read Only Memory)、RAM(Random Access Memory)、ハードディスク等から構成され、プログラム110や、形態素情報111、定義ファイルリスト113(図2参照)、定義ファイル114(図3参照)、画面情報115(図4参照)、OCR情報116等の各種データを記憶する。各種データ111〜116の詳細については後述する。定義ファイルリスト113は、分類情報の一例である。 The storage unit 11 is composed of a ROM (Read Only Memory), a RAM (Random Access Memory), a hard disk, and the like, and includes a program 110, morphological information 111, a definition file list 113 (see FIG. 2), and a definition file 114 (see FIG. 3). ), Screen information 115 (see FIG. 4), OCR information 116, and other various data are stored. Details of the various data 111-116 will be described later. The definition file list 113 is an example of classification information.

操作表示部12は、例えば、タッチパネルディスプレイであり、液晶ディスプレイ等のディスプレイにタッチパネルを重合配置した構成を有する。 The operation display unit 12 is, for example, a touch panel display, and has a configuration in which a touch panel is superposed on a display such as a liquid crystal display.

画像読取部14は、原稿から原稿画像を読み取るものであり、原稿台(不図示)上に設けられた自動原稿送り装置(不図示)と、スキャナ(不図示)とを備え、原稿台に配置された原稿、又は自動原稿送り装置により送られた原稿から原稿画像を光学的に読み取る。 The image reading unit 14 reads a document image from a document, and includes an automatic document feeder (not shown) provided on a document table (not shown) and a scanner (not shown), and is arranged on the document table. The original image is optically read from the original or the original sent by the automatic document feeder.

画像出力部15は、例えば、電子写真方式、インクジェット方式等によりカラー画像又は白黒画像を用紙等の記録媒体に印刷出力する。 The image output unit 15 prints out a color image or a black-and-white image on a recording medium such as paper by, for example, an electrophotographic method or an inkjet method.

ファクシミリ通信部16は、G3、G4等のファクシミリプロトコルに従ってデータの変復調を行い、公衆回線網4を介してファクシミリ通信を行う。 The facsimile communication unit 16 changes and demolishes data according to a facsimile protocol such as G3 and G4, and performs facsimile communication via the public network 4.

ネットワーク通信部17は、NIC(Network Interface Card)等によって実現され、ネットワーク5を介して外部装置3との間で信号を送受信する。外部装置3には、例えば、パーソナルコンピュータ、サーバ装置等が含まれる。 The network communication unit 17 is realized by a NIC (Network Interface Card) or the like, and transmits / receives a signal to / from the external device 3 via the network 5. The external device 3 includes, for example, a personal computer, a server device, and the like.

ネットワーク5は、例えば、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、インターネット、イントラネット等であり、有線でも無線でもよい。 The network 5 is, for example, a local area network (LAN), a wide area network (WAN), the Internet, an intranet, or the like, and may be wired or wireless.

〔各種データの詳細〕
次に、記憶部11に記憶された各種データの詳細について説明する。形態素情報111は、文字又は文字列の形態素の解析に用いる単語の品詞等の情報である。
[Details of various data]
Next, the details of various data stored in the storage unit 11 will be described. The morpheme information 111 is information such as the part of speech of a word used for analyzing the morpheme of a character or a character string.

図2は、定義ファイルリスト113の一例を示す図である。定義ファイルリスト113は、定義ファイル114をグループごとに分類してリスト化した情報である。グループは、定義ファイル114に記録された指定キー(後述する)の属性に応じて構成されている。グループは、群の一例である。 FIG. 2 is a diagram showing an example of the definition file list 113. The definition file list 113 is information in which the definition files 114 are classified into groups and listed. The group is configured according to the attributes of the designated keys (described later) recorded in the definition file 114. A group is an example of a group.

換言すれば、同一のグループには、共通の属性を有する文字又は文字列(以下、単に「キー」又は「key」ともいう。)が抽出の対象として記録された定義ファイル114(以下、「キーの検索に係る定義ファイル114」ともいう。以下、同様。)が属している。ここで、「共通の属性」とは、当該グループに属する複数の定義ファイル114にそれぞれ記録された複数の指定キーに共通する属性をいい、「共通の属性」には、例えば、複数の指定キーを包含する上位の概念が該当する。なお、以下、指定キーに共通する属性を、単に「指定キーの属性」ともいう。 In other words, in the same group, a definition file 114 (hereinafter, "key") in which characters or character strings having common attributes (hereinafter, also simply referred to as "key" or "key") are recorded as targets for extraction. It is also referred to as “definition file 114” related to the search of the above. Here, the "common attribute" refers to an attribute common to a plurality of designated keys recorded in a plurality of definition files 114 belonging to the group, and the "common attribute" includes, for example, a plurality of designated keys. The higher-level concept that includes is applicable. Hereinafter, the attributes common to the designated keys are also simply referred to as "designated key attributes".

定義ファイルリスト113には、図2に示すように、例えば、請求番号、見積番号、口座番号等、各種の番号の検索に係る定義ファイル114を分類する第1のグループ113aの欄と、請求日、見積日、発行日等、各種の日付の検索に係る定義ファイル114を分類する第2のグループ113bの欄と、請求金額や見積金額等、各種の金額の検索に係る定義ファイル114を分類する第3のグループ113cの欄と、第1から第3のグループ113a〜cに属しないその他の定義ファイル114を一括してまとめる第4のグループ113dの欄と、が設けられている。番号、日付及び金額は、各グループ113a〜cに属する複数の定義ファイル114にそれぞれ記録された複数の指定キーに共通する属性の一例である。なお、属性は、番号、日付及び金額に限定されるものではない。 As shown in FIG. 2, the definition file list 113 includes a column of a first group 113a for classifying the definition files 114 related to the search of various numbers such as a billing number, a quotation number, and an account number, and a billing date. , The column of the second group 113b that classifies the definition files 114 related to the search of various dates such as the estimated date and the issue date, and the definition file 114 related to the search of various amounts such as the billed amount and the estimated amount. A column for the third group 113c and a column for the fourth group 113d that collectively summarizes the other definition files 114 that do not belong to the first to third groups 113a to c are provided. The number, date, and amount are examples of attributes common to a plurality of designated keys recorded in a plurality of definition files 114 belonging to each group 113a to c. The attributes are not limited to numbers, dates and amounts.

各グループ113a〜dの欄には、それぞれのグループ113a〜dに属する定義ファイル114を識別する情報(以下、一例として、ファイルの名称を例に挙げて説明する。)が記録されている。ファイルの名称(以下、単に「ファイル名」ともいう。)は、操作者(以下、「ユーザ」ともいう。)によって設定及び登録された、抽出の対象となる文字又は文字列(以下、「指定キー」ともいう。)を含めて構成してもよい。指定キーは、第1の文字又は文字列の一例である。 In the columns of the groups 113a to d, information for identifying the definition files 114 belonging to the respective groups 113a to 113 (hereinafter, the name of the file will be described as an example) is recorded. The file name (hereinafter, also simply referred to as “file name”) is a character or character string (hereinafter, “designated”) to be extracted, which is set and registered by the operator (hereinafter, also referred to as “user”). It may also be configured to include a "key". The designated key is an example of the first character or character string.

例えば、第1のグループ113aの欄には、「請求番号」の検索に係る第1の定義ファイル114Aのファイル名(例えば、「key定義ファイル(請求番号)」)、「見積番号」の検索に係る第2の定義ファイル114Bのファイル名(例えば、「key定義ファイル(見積番号)」)、及び「口座番号」の検索に係る第3の定義ファイル114Cのファイル名(例えば、「key定義ファイル(口座番号)」)が記録されている。第1の定義ファイル114Aは、第1の記録手段の一例である。第2の定義ファイル114B及び第3の定義ファイル114Cは、第2の記録手段の一例である。 For example, in the column of the first group 113a, for searching the file name (for example, "key definition file (billing number)") and "estimation number" of the first definition file 114A related to the search for "billing number". The file name of the second definition file 114B (for example, "key definition file (estimate number)") and the file name of the third definition file 114C related to the search for "account number" (for example, "key definition file (for example)". Account number) ”) is recorded. The first definition file 114A is an example of the first recording means. The second definition file 114B and the third definition file 114C are examples of the second recording means.

図3は、定義ファイル114の一例を示す図であり、(a)は、第1の定義ファイル114Aの一例を示す図、(b)は、第2の定義ファイル114Bの一例を示す図、(c)は、第3の定義ファイル114Cの一例を示す図である。定義ファイル114には、抽出の対象となる文字又は文字列(以下、「(抽出キー」又は「検索キー」ともいう。)114aと、抽出の対象から除外される文字又は文字列(以下、「除外キー」ともいう。)114bと、がそれぞれリスト化されて記録されている。 3A and 3B are diagrams showing an example of the definition file 114, FIG. 3A is a diagram showing an example of the first definition file 114A, and FIG. 3B is a diagram showing an example of the second definition file 114B. c) is a diagram showing an example of the third definition file 114C. In the definition file 114, a character or character string to be extracted (hereinafter, also referred to as "(extraction key" or "search key") 114a and a character or character string excluded from the extraction target (hereinafter, "" (Also referred to as "exclusion key") 114b and are listed and recorded respectively.

除外キー114bは、抽出の対象から除外する除外条件を構成する。換言すれば、定義ファイル114は、抽出の対象となる抽出キー114aとともに、抽出の対象から除外キー114bを除外する、との除外条件を記録したファイルである。定義ファイル114は、記録手段の一例である。 The exclusion key 114b constitutes an exclusion condition to be excluded from the extraction target. In other words, the definition file 114 is a file that records the exclusion condition that the exclusion key 114b is excluded from the extraction target together with the extraction key 114a to be extracted. The definition file 114 is an example of recording means.

抽出キー114aには、ユーザの操作によって設定及び登録がなされた指定キー、及び当該指定キーの属性を示す属性キーが含まれる。属性キーは、例えば、グループの名称(以下、単に「グループ名」ともいう。)を示す文字列により構成してよい。属性キーは、第3の文字又は文字列の一例である。 The extraction key 114a includes a designated key set and registered by the user's operation, and an attribute key indicating the attribute of the designated key. The attribute key may be composed of, for example, a character string indicating the name of the group (hereinafter, also simply referred to as “group name”). The attribute key is an example of a third character or character string.

除外キー114bには、当該定義ファイル114に抽出キー114aとして記録された指定キーと共通の属性を有する他の指定キーが該当する。「他の指定キー」とは、定義ファイルリスト113において同一のグループに分類された定義ファイル114のうち、当該定義ファイル114以外の定義ファイル114に記録されている指定キーが該当する。 The exclusion key 114b corresponds to another designation key having an attribute common to the designation key recorded as the extraction key 114a in the definition file 114. The “other designated key” corresponds to the designated key recorded in the definition file 114 other than the definition file 114 among the definition files 114 classified into the same group in the definition file list 113.

換言すれば、指定キーの検索に係る一の定義ファイル114と、除外キー114bに記録されたキーを指定キーとする他の定義ファイル114とは、同一のグループに属している。除外キー114bとしての他の指定キーは、第2の文字又は文字列の一例である。 In other words, one definition file 114 related to the search for the designated key and the other definition file 114 having the key recorded in the exclusion key 114b as the designated key belong to the same group. The other designated key as the exclusion key 114b is an example of a second character or character string.

具体的には、図3(a)に示すように、第1の定義ファイル114Aには、抽出キー114aとして、指定キーである「請求番号」との文字列と、属性キーである「番号」との文字列と、が記録される。 Specifically, as shown in FIG. 3A, in the first definition file 114A, as the extraction key 114a, a character string of the designated key "billing number" and the attribute key "number" And the character string of is recorded.

また、第1の定義ファイル114Aには、除外キー114bとして、指定キーである「請求番号」と共通の属性を有する「見積番号」との文字列と、「口座番号」との文字列と、が記録されている。「見積番号」及び「口座番号」は、いずれも第1のグループ113aに属するその他の定義ファイル114(具体的には、それぞれ第2の定義ファイル114B及び第3の定義ファイル114C)に記録された指定キーである。 Further, in the first definition file 114A, as the exclusion key 114b, a character string of the "estimate number" having the same attribute as the "billing number" which is the designated key, and a character string of the "account number" are provided. Is recorded. The "estimate number" and the "account number" are both recorded in the other definition files 114 belonging to the first group 113a (specifically, the second definition file 114B and the third definition file 114C, respectively). It is a designated key.

第1の定義ファイル114Aと同様に、第2の定義ファイル114Bには、図3(b)に示すように、抽出キー114aとして「見積番号」及び「番号」との文字列が記録され、除外キー114bとして「請求番号」及び「口座番号」との文字列が記録されている。また、第3の定義ファイル114Cには、図3(c)に示すように、抽出キー114aとして「口座番号」及び「番号」との文字列が記録され、除外キー114bとして「請求番号」及び「見積番号」との文字列が記録されている。 Similar to the first definition file 114A, in the second definition file 114B, as shown in FIG. 3B, the character strings "estimate number" and "number" are recorded as the extraction key 114a and excluded. The character strings "billing number" and "account number" are recorded as the key 114b. Further, in the third definition file 114C, as shown in FIG. 3C, character strings of "account number" and "number" are recorded as the extraction key 114a, and the "billing number" and the exclusion key 114b are recorded. The character string "estimate number" is recorded.

画面情報115は、後述する表示制御手段106により操作表示部12の表示面(不図示)に表示される各種画面の情報である。画面情報115について、図4各図を参照して説明する。図4は、画面の一例を示す図であり、(a)は、選択画面の一例を示す図、(b)は、設定画面の一例を示す図、(c)は、確認画面の一例を示す図である。 The screen information 115 is information on various screens displayed on the display surface (not shown) of the operation display unit 12 by the display control means 106 described later. The screen information 115 will be described with reference to each figure of FIG. 4A and 4B are diagrams showing an example of a screen, FIG. 4A shows an example of a selection screen, FIG. 4B shows an example of a setting screen, and FIG. 4C shows an example of a confirmation screen. It is a figure.

選択画面61は、ユーザに使用する機能を選択させる画面である。図4(a)に示すように、選択画面61には、請求書の属性を抽出する請求書属性抽出機能を起動する第1の釦611A、見積書の属性を抽出する見積書属性抽出機能を起動する第2の釦611B、請求書内の抽出の対象となるキーの設定を行う請求書key設定機能を起動する第3の釦612A、及び見積書内の抽出の対象となるキーの設定を行う見積書key設定機能を起動する第4の釦612Bが含まれる。以下、第1〜第4の釦を総称する場合、単に「操作釦」ともいう。 The selection screen 61 is a screen that allows the user to select a function to be used. As shown in FIG. 4A, the selection screen 61 includes a first button 611A for activating the invoice attribute extraction function for extracting the invoice attributes, and an estimate attribute extraction function for extracting the invoice attributes. Set the second button 611B to be activated, the third button 612A to activate the invoice key setting function to set the key to be extracted in the invoice, and the key to be extracted in the estimate. Includes a fourth button 612B that activates the quote key setting function to be performed. Hereinafter, when the first to fourth buttons are generically referred to, they are also simply referred to as "operation buttons".

請求書及び見積書は、読み取りの対象となる文書の一例である。なお、文書は、請求書及び見積書に限定されるものではなく、例えば、申請書、契約書、仕様書、帳票等、文字、図形、画像等、及びこれらのいくつかを組み合わせて構成したものを含む。文書は、原稿の一例である。 Invoices and quotations are examples of documents to be read. Documents are not limited to invoices and quotations, but are composed of, for example, application forms, contracts, specifications, forms, characters, figures, images, etc., and some of them. including. The document is an example of a manuscript.

設定画面62は、ユーザがキーの設定及び登録を行う画面である。図4(b)に示すように、設定画面62には、キーの設定を行う設定釦621と、設定されたキーを登録する登録釦622とを含んでいる。ここで、「登録」とは、記憶部11の定義ファイル114にキーを記録することをいう。なお、ユーザにより設定及び登録の対象となるキーについて、定義ファイル114に記録される前のキーと、定義ファイル114に記録されたキーとを区別して特定する場合は、前者を単に「キー」ともいい、後者を特に「指定キー」ともいう。 The setting screen 62 is a screen for the user to set and register the key. As shown in FIG. 4B, the setting screen 62 includes a setting button 621 for setting a key and a registration button 622 for registering the set key. Here, "registration" means recording the key in the definition file 114 of the storage unit 11. When the key to be set and registered by the user is specified by distinguishing between the key before being recorded in the definition file 114 and the key recorded in the definition file 114, the former is also simply referred to as a "key". The latter is also called a "designated key".

確認画面63は、画像から抽出された文字又は文字列と、この抽出された文字又は文字列に関連付いたバリュー値とを表示する画面である。図4(c)に示すように、確認画面63には、抽出された文字又は文字列が示す内容(すなわち、属性)を示す属性欄631と、各属性に関連付いたバリュー値を示す値欄632とがそれぞれ列ごとに並べて示されている。 The confirmation screen 63 is a screen for displaying the characters or character strings extracted from the image and the value values associated with the extracted characters or character strings. As shown in FIG. 4C, the confirmation screen 63 has an attribute column 631 indicating the content (that is, an attribute) indicated by the extracted character or the character string, and a value column indicating the value value associated with each attribute. 632 and 632 are shown side by side in each column.

OCR情報116は、文字のパターンを辞書化した情報である。OCR情報116は、認識手段104によるOCR処理に用いられる。 The OCR information 116 is information in which character patterns are converted into a dictionary. The OCR information 116 is used for OCR processing by the recognition means 104.

〔制御部10の各手段の構成〕
次に、制御部10を構成する各手段の詳細について説明する。生成手段100は、ユーザによるキーを設定及び登録する操作に応じて、抽出キー114aとして指定キーが記録された定義ファイル114を生成する。
[Structure of each means of control unit 10]
Next, the details of each means constituting the control unit 10 will be described. The generation means 100 generates a definition file 114 in which a designated key is recorded as an extraction key 114a in response to an operation of setting and registering a key by the user.

解析手段101は、形態素情報111を参照して定義ファイル114に記録された指定キーの形態素の解析(以下、単に「形態素解析」ともいう。)を行い、解析の結果を出力する。一例として、解析手段101は、指定キーとしての「請求番号」との文字列を形態素解析して、「請求」との文字列と「番号」との文字列との2つの形態素に分解する。 The analysis means 101 analyzes the morpheme of the designated key recorded in the definition file 114 with reference to the morpheme information 111 (hereinafter, also simply referred to as “morphological analysis”), and outputs the analysis result. As an example, the analysis means 101 morphologically analyzes a character string of "billing number" as a designated key, and decomposes it into two morphological elements of a character string of "billing" and a character string of "number".

判定手段102は、解析手段101により出力された結果に応じて、当該定義ファイル114が、定義ファイルリスト113に記録されたグループ113a〜dのうちいずれのグループ113a〜dに属するかを判定する。 The determination means 102 determines which of the groups 113a to d recorded in the definition file list 113 belongs to the definition file 114 according to the result output by the analysis means 101.

具体的には、判定手段102は、解析手段101により出力された形態素の中に、定義ファイルリスト113に記録されたいずれかのグループ名と一致するものがあるか否かを判定する。より具体的には、上述の例では、判定手段102は、2つの形態素「請求」及び「番号」の中に、定義ファイルリスト113に記録されたグループ名、すなわち「番号」、「日付」及び「金額」のいずれかと一致するか否かを判定する。 Specifically, the determination means 102 determines whether or not any of the morphemes output by the analysis means 101 matches any of the group names recorded in the definition file list 113. More specifically, in the above example, the determination means 102 has the group names recorded in the definition file list 113, that is, the "number", the "date" and the two morphemes "billing" and "number". Determine if it matches any of the "amounts".

追加手段103は、定義ファイル114に他のキーを追加する。具体的には、追加手段103は、判定手段102による判定の結果に応じて、抽出キー114aとしての属性キーを追加する。より具体的には、上述したように、追加手段103は、指定キーの属性を示す文字列(具体的には、当該定義ファイル114が属するグループ名を示す文字列)を、抽出キー114aとして追加する。なお、属性キーは、定義ファイル114内において指定キーの下の位置に記録される。 The adding means 103 adds another key to the definition file 114. Specifically, the additional means 103 adds an attribute key as the extraction key 114a according to the result of the determination by the determination means 102. More specifically, as described above, the addition means 103 adds a character string indicating the attribute of the designated key (specifically, a character string indicating the group name to which the definition file 114 belongs) as the extraction key 114a. To do. The attribute key is recorded at a position below the designated key in the definition file 114.

また、追加手段103は、抽出の対象から除外する除外条件を構成する情報として除外キー114bを定義ファイル114に追加する。具体的には、追加手段103は、定義ファイルリスト113を参照して、定義ファイル114に記録された指定キーと共通の属性を有する他の指定キーを除外キー114bとして追加する。より具体的には、追加手段103は、定義ファイルリスト113において、当該定義ファイル114と同一のグループに属する他の定義ファイル114に記録された指定キーを除外キー114bとして追加する。 Further, the adding means 103 adds the exclusion key 114b to the definition file 114 as information constituting the exclusion condition to be excluded from the extraction target. Specifically, the adding means 103 refers to the definition file list 113 and adds another designated key having an attribute common to the designated key recorded in the definition file 114 as the exclusion key 114b. More specifically, the adding means 103 adds the designated key recorded in another definition file 114 belonging to the same group as the definition file 114 as the exclusion key 114b in the definition file list 113.

認識手段104は、情報処理装置1に取り込まれた画像に含まれる文字を認識して当該文字を示す文字情報を出力する。画像は、例えば、画像読取部14により原稿を読み取って取り込んだものでもよく、予め外部の機器(例えば、スキャナ)で原稿を読み取って取り込んだものでもよい。 The recognition means 104 recognizes a character included in the image captured by the information processing device 1 and outputs character information indicating the character. The image may be, for example, one in which the original is read and captured by the image reading unit 14, or one in which the original is read and captured by an external device (for example, a scanner) in advance.

文字の認識は、例えば、OCR(Optical Character Recognition)処理により行われる。文字情報には、認識した文字の内容や意味を示す情報(いわゆる、テキスト情報)や、画像内の当該文字の位置を示す情報(例えば、座標値)等が含まれる。 Character recognition is performed by, for example, OCR (Optical Character Recognition) processing. The character information includes information indicating the content and meaning of the recognized character (so-called text information), information indicating the position of the character in the image (for example, coordinate values), and the like.

抽出手段105は、認識手段104により認識された文字の中から、予め指定された特定の文字又は文字列を検索して抽出する。具体的には、抽出手段105は、定義ファイル114を参照し、認識手段104により出力された文字情報から、定義ファイル114に記録された抽出キー114aを検索して抽出する。なお、定義ファイル114に抽出キー114aとして複数のキーが記録されている場合、抽出手段105は、記録された順に、すなわち先頭から後尾に向かって順にキーを検索する。 The extraction means 105 searches for and extracts a specific character or character string designated in advance from the characters recognized by the recognition means 104. Specifically, the extraction means 105 refers to the definition file 114, and searches for and extracts the extraction key 114a recorded in the definition file 114 from the character information output by the recognition means 104. When a plurality of keys are recorded as the extraction keys 114a in the definition file 114, the extraction means 105 searches the keys in the order in which they are recorded, that is, from the beginning to the end.

より具体的には、まず、抽出手段105は、文字情報に、抽出キー114aのうちの指定キーが含まれているか検索する。文字情報に指定キーが含まれている場合、抽出手段105は、当該指定キーを抽出する。これに対して、文字情報に指定キーが含まれていない場合、抽出手段105は、除外キー114bを除外して属性キーが含まれる文字列を検索して抽出する。 More specifically, first, the extraction means 105 searches whether the character information includes the designated key among the extraction keys 114a. When the character information includes the designated key, the extraction means 105 extracts the designated key. On the other hand, when the character information does not include the designated key, the extraction means 105 excludes the exclusion key 114b and searches for and extracts the character string including the attribute key.

また、抽出手段105は、該文字情報から、抽出されたキーに関連付いた値(以下、「バリュー値」ともいう。)を検索して抽出する。 Further, the extraction means 105 searches for and extracts a value (hereinafter, also referred to as “value value”) associated with the extracted key from the character information.

表示制御手段106は、操作表示部12の表示面に、画面情報115等の各種の情報を表示するよう制御する。 The display control means 106 controls to display various information such as screen information 115 on the display surface of the operation display unit 12.

(実施の形態の動作)
次に、情報処理装置1の動作の一例について説明する。以下の説明では、(1)画像として取り込まれる文書、(2)定義ファイル114の設定及び登録の動作、及び(3)文書を読み取った読取画像(以下、単に「文書画像」ともいう。)から指定されたキーとバリュー値とを抽出する処理(以下、「キーバリュー処理」ともいう。)に係る動作、に分けて説明する。
(Operation of the embodiment)
Next, an example of the operation of the information processing device 1 will be described. In the following description, from (1) a document imported as an image, (2) an operation of setting and registering a definition file 114, and (3) a scanned image obtained by reading a document (hereinafter, also simply referred to as a "document image"). The operation related to the process of extracting the specified key and the value value (hereinafter, also referred to as “key-value process”) will be described separately.

(1)画像として取り込まれる文書
図5は、動作の説明に用いる文書としての見積書の一例を示す図であり、(a)は、第1の見積書の一例を示す図、(b)は、第2の見積書の一例を示す図である。図5(a)に示すように、第1の見積書7Aには、例えば、見積りの番号を示す見積番号情報75が含まれている。また、図5(b)に示すように、第2の見積書7Bは、例えば、見積りの番号を示す見積番号情報75Bに加えて、口座番号等の振り込み先を示す振込先情報74が含まれている。
(1) Document captured as an image FIG. 5 is a diagram showing an example of a quotation as a document used for explaining an operation, (a) is a diagram showing an example of a first quotation, and (b) is a diagram. , It is a figure which shows an example of the 2nd quotation. As shown in FIG. 5A, the first quotation 7A includes, for example, quotation number information 75 indicating the quotation number. Further, as shown in FIG. 5B, the second quotation 7B includes, for example, the quotation number information 75B indicating the quotation number and the transfer destination information 74 indicating the transfer destination such as the account number. ing.

(2)定義ファイル114の設定及び登録の動作
次に、図6を参照して、定義ファイル114の設定及び登録の動作について説明する。図6は、定義ファイル114の設定及び登録の動作の一例を示すフローチャートである。図6に示すように、まず、表示制御手段106は、操作表示部12の表示面に選択画面61(図4(a)参照)を表示するよう制御する(S1)。
(2) Operation of Setting and Registration of Definition File 114 Next, the operation of setting and registration of the definition file 114 will be described with reference to FIG. FIG. 6 is a flowchart showing an example of the operation of setting and registering the definition file 114. As shown in FIG. 6, first, the display control means 106 controls to display the selection screen 61 (see FIG. 4A) on the display surface of the operation display unit 12 (S1).

次に、ユーザにより選択画面61内の操作釦が操作されると(S2:Yes)、表示制御手段106は、操作表示部12の表示面に設定画面62(図4(b)参照)を表示するよう制御する(S3)。 Next, when the operation button in the selection screen 61 is operated by the user (S2: Yes), the display control means 106 displays the setting screen 62 (see FIG. 4B) on the display surface of the operation display unit 12. It is controlled to do (S3).

次に、ユーザの操作によりキーが登録されると(S4:Yes)、生成手段100は、指定キーが記録された定義ファイル114を生成する(S5)。 Next, when the key is registered by the user's operation (S4: Yes), the generation means 100 generates the definition file 114 in which the designated key is recorded (S5).

次に、解析手段101は、定義ファイル114に記録された指定キーの形態素解析を行う(S6)。判定手段102は、当該指定キーの属するグループが定義ファイルリスト113に存在するか否かを判定する(S7)。 Next, the analysis means 101 performs morphological analysis of the designated key recorded in the definition file 114 (S6). The determination means 102 determines whether or not the group to which the designated key belongs exists in the definition file list 113 (S7).

該当のグループが定義ファイルリスト113に存在する場合(S7:Yes)、追加手段103は、定義ファイルリスト113を参照して、定義ファイル114に除外条件を追加する(S8)。具体的には、追加手段103は、当該指定キーと共通の属性を有する他の指定キーを除外キー114bとして定義ファイル114に追加する。 When the corresponding group exists in the definition file list 113 (S7: Yes), the adding means 103 adds an exclusion condition to the definition file 114 with reference to the definition file list 113 (S8). Specifically, the adding means 103 adds another designated key having an attribute common to the designated key to the definition file 114 as an exclusion key 114b.

(3)キーバリュー処理に係る動作
次に、図7を参照して、キーバリュー処理に係る動作について説明する。図7は、キーバリュー処理の動作の一例を模式的に示す図である。定義ファイル114として、上述した第2の定義ファイル114Bを用いる場合を例に挙げて説明する。
(3) Operation related to key-value processing Next, an operation related to key-value processing will be described with reference to FIG. 7. FIG. 7 is a diagram schematically showing an example of the operation of the key value processing. The case where the above-mentioned second definition file 114B is used as the definition file 114 will be described as an example.

まず、画像読取部14は、第1の見積書7A及び第2の見積書7Bをそれぞれスキャンして文書画像を形成する(S10)。次に、認識手段104は、文書画像に対してOCR処理を実行して、文書画像に含まれる文字を示す文字情報70Bを出力する(S11)。 First, the image reading unit 14 scans the first quotation 7A and the second quotation 7B to form a document image (S10). Next, the recognition means 104 executes OCR processing on the document image and outputs character information 70B indicating characters included in the document image (S11).

抽出手段105は、出力された文字情報70Bから、定義ファイル114に記録された指定キーを検索して抽出するとともに、当該指定キーに関連付いたバリュー値を抽出する(S12)。 The extraction means 105 searches for and extracts the designated key recorded in the definition file 114 from the output character information 70B, and extracts the value value associated with the designated key (S12).

図7に示すように、第2の見積書7Bにおいて、OCR処理により「見積番号」との文字列が誤って「見晴番号」等のような異なる文字列として認識された場合(文字情報70B内の枠参照)、すなわち、定義ファイル114Bの冒頭に記録された「見積番号」との指定キーが検索されない場合、抽出手段105は、次に記録された属性キーである「番号」との文字列が含まれる文字列を検索する。このとき、除外キー114bは、抽出の対象から除外される。「見晴番号」等のような誤って認識された指定キーと異なる文字列は、第4の文字又は文字列の一例である。 As shown in FIG. 7, in the second quotation 7B, when the character string "estimate number" is mistakenly recognized as a different character string such as "view number" by the OCR process (in the character information 70B). In other words, if the designated key with the "estimate number" recorded at the beginning of the definition file 114B is not searched, the extraction means 105 is a character string with the attribute key "number" recorded next. Search for strings that contain. At this time, the exclusion key 114b is excluded from the extraction target. A character string different from the erroneously recognized designated key such as "view number" is an example of the fourth character or the character string.

図7に示す例では、第2の定義ファイル114Bには、除外キー114bとして「請求番号」及び「口座番号」との文字列が記録されている。抽出手段105は、「請求番号」及び「口座番号」を抽出の対象から除外して、「番号」が含まれる文字列を検索して抽出する。この場合、図7に示すように、抽出手段105は、文字情報70Bから、「見晴番号」との文字列のみを抽出する(文字情報70B内の枠参照)。また、抽出手段105は、この「見晴番号」に関連付いたバリュー値である「3333」との数字からなる文字列をさらに抽出する。表示制御手段106は、上記の結果を出力する(S13)。 In the example shown in FIG. 7, in the second definition file 114B, the character strings "billing number" and "account number" are recorded as the exclusion key 114b. The extraction means 105 excludes the "billing number" and the "account number" from the extraction target, and searches for and extracts the character string including the "number". In this case, as shown in FIG. 7, the extraction means 105 extracts only the character string of the “view number” from the character information 70B (see the frame in the character information 70B). Further, the extraction means 105 further extracts a character string consisting of a number "3333", which is a value value associated with the "view number". The display control means 106 outputs the above result (S13).

以上のようにして、文字情報70に抽出の対象として指定された「見積番号」と完全に一致する文字列が検索されない場合であっても、当該文字列に一定の類似度を有する「見晴番号」が抽出され、さらに対応するバリュー値が抽出される。 As described above, even if a character string that completely matches the "estimate number" specified as the extraction target in the character information 70 is not searched, the "view number" having a certain degree of similarity to the character string is not searched. "Is extracted, and the corresponding value value is extracted.

<変形例1> <Modification example 1>

次に、図8を参照して、変形例1について説明する。追加手段103は、上述の実施の形態で説明した機能に加えて、定義ファイルリスト113に定義ファイル114を追加する機能をさらに有している。具体的には、追加手段103は、定義ファイル114を、定義ファイル114に記録された指定キーの属性に応じて、対応するグループに追加する。 Next, a modification 1 will be described with reference to FIG. The additional means 103 further has a function of adding the definition file 114 to the definition file list 113 in addition to the function described in the above-described embodiment. Specifically, the adding means 103 adds the definition file 114 to the corresponding group according to the attribute of the designated key recorded in the definition file 114.

図8は、変形例に係る情報処理装置1の動作の一例を模式的に示す図である。図8に示すように、ユーザによる設定及び登録の操作に応じて、新たに追加された指定キーである「郵便番号」の検索に係る第4の定義ファイル114Dが新たに生成されると(S20)、解析手段101は、「郵便番号」を形態素解析し、「郵便」及び「番号」の2つの形態素に分解する。新たに追加された指定キーは、第5の文字又は文字列の一例である。 FIG. 8 is a diagram schematically showing an example of the operation of the information processing apparatus 1 according to the modified example. As shown in FIG. 8, when the fourth definition file 114D related to the search for the newly added designated key "zip code" is newly generated in response to the setting and registration operations by the user (S20). ), The analysis means 101 morphologically analyzes the "zip code" and decomposes it into two morphemes, "zip code" and "number". The newly added designated key is an example of a fifth character or character string.

判定手段102が、この2つの形態素のうちの「番号」が第1のグループ113aの名称と一致すると判定する(S21)と、すなわち、当該定義ファイル114が第1のグループ113aに属するものと判定すると、追加手段103は、第4の定義ファイル114Dを第1のグループ113aに追加する(S22)。 When the determination means 102 determines that the "number" of the two morphemes matches the name of the first group 113a (S21), that is, it determines that the definition file 114 belongs to the first group 113a. Then, the adding means 103 adds the fourth definition file 114D to the first group 113a (S22).

また、追加手段103は、第1の定義ファイル114A、第2の定義ファイル114B及び第3の定義ファイル114Cにそれぞれ、除外キー114bとして「郵便番号」との文字列を追加する(23)。以上のように、第1のグループ113aに属するその他の定義ファイル114A〜Cの全てに、上記の新たに追加された指定キーが除外条件として追加される。 Further, the adding means 103 adds the character string "zip code" as the exclusion key 114b to the first definition file 114A, the second definition file 114B, and the third definition file 114C, respectively (23). As described above, the above-mentioned newly added designated key is added as an exclusion condition to all of the other definition files 114A to C belonging to the first group 113a.

<変形例2>
次に、図9を参照して、変形例2について説明する。図9は、定義ファイル114の一例を示す図、(b)は、第3の見積書の一例を示す図である。図9(a)に示すように、例えば、「参照」との文字列を除外条件である除外キー114bとして記録してもよい。「参照」との文字列が抽出の対象から除外されると、図9(b)に示すように、第3の見積書7C内に備考として記載された参照情報711が含まれている場合であっても、抽出手段105は、かかる参照情報711を抽出の対象から除外して、請求の番号を示す請求番号情報71を抽出してもよい。
<Modification 2>
Next, a modification 2 will be described with reference to FIG. FIG. 9 is a diagram showing an example of the definition file 114, and FIG. 9B is a diagram showing an example of a third quotation. As shown in FIG. 9A, for example, the character string "reference" may be recorded as the exclusion key 114b, which is an exclusion condition. When the character string "reference" is excluded from the extraction target, as shown in FIG. 9B, when the reference information 711 described as a remark is included in the third estimation sheet 7C. Even if there is, the extraction means 105 may exclude the reference information 711 from the extraction target and extract the billing number information 71 indicating the billing number.

<変形例3>
次に、図10を参照して、変形例3について説明する。図10(a)及び(b)は、定義ファイルリスト113の一例を示す図である。生成手段100は、上述の実施の形態で説明した機能に加えて、定義ファイルリスト113に新たなグループを生成する機能をさらに有している。
<Modification example 3>
Next, a modification 3 will be described with reference to FIG. 10 (a) and 10 (b) are diagrams showing an example of the definition file list 113. The generation means 100 further has a function of generating a new group in the definition file list 113 in addition to the function described in the above-described embodiment.

図10(a)に示すように、第1〜第3のグループ113a〜cに分類されない定義ファイル114は、「その他」に係る第4のグループ113dに記録される。第4のグループに記録された定義ファイル114の数が予め定められた個数以上となる場合、生成手段100は、図10(b)に示すように、新たな第5のグループ113eを生成して、第4のグループ113dに記録された定義ファイル114を該第5のグループ113eに記録しなおしてもよい。予め定められた個数は、例えば、3〜5個としてよい。 As shown in FIG. 10A, the definition files 114 that are not classified into the first to third groups 113a to c are recorded in the fourth group 113d according to “Other”. When the number of definition files 114 recorded in the fourth group is equal to or greater than the predetermined number, the generation means 100 generates a new fifth group 113e as shown in FIG. 10 (b). , The definition file 114 recorded in the fourth group 113d may be re-recorded in the fifth group 113e. The predetermined number may be, for example, 3 to 5.

また、生成手段100は、第5のグループ113eに記録された定義ファイル114から共通の属性を抽出して、当該属性を、第5のグループ113eを識別する情報(例えば、名称)として付して第5のグループ113eを生成してもよい。第5のグループ113eは、新たな群の一例である。 Further, the generation means 100 extracts a common attribute from the definition file 114 recorded in the fifth group 113e, and attaches the attribute as information (for example, a name) for identifying the fifth group 113e. A fifth group 113e may be generated. The fifth group 113e is an example of a new group.

以上、本発明の実施の形態を説明したが、本発明の実施の形態は上記実施の形態に限定されるものではなく、本発明の要旨を変更しない範囲内で種々の変形、実施が可能である。 Although the embodiment of the present invention has been described above, the embodiment of the present invention is not limited to the above embodiment, and various modifications and implementations are possible without changing the gist of the present invention. is there.

制御部10の各手段は、それぞれ一部又は全部を再構成可能回路(FPGA:Field Programmable Gate Array)、特定用途向け集積回路(ASIC:Application Specific Integrated Circuit)等のハードウエア回路によって構成してもよい。 Each means of the control unit 10 may be composed of hardware circuits such as a reconfigurable circuit (FPGA: Field Programmable Gate Array) and an application specific integrated circuit (ASIC), which are partially or wholly reconfigurable. Good.

また、本発明の要旨を変更しない範囲内で、上記実施の形態の構成要素の一部を省くことや変更することが可能である。また、本発明の要旨を変更しない範囲内で、上記実施の形態のフローにおいて、ステップの追加、削除、変更、入替え等が可能である。また、上記実施の形態で用いたプログラムをCD−ROM等のコンピュータで読み取り可能な記録媒体に記録して提供することができ、クラウドサーバ等の外部サーバに格納しておき、ネットワークを介して利用することもできる。 Further, it is possible to omit or change a part of the constituent elements of the above-described embodiment without changing the gist of the present invention. In addition, steps can be added, deleted, changed, replaced, etc. in the flow of the above-described embodiment without changing the gist of the present invention. Further, the program used in the above embodiment can be recorded and provided on a computer-readable recording medium such as a CD-ROM, stored in an external server such as a cloud server, and used via a network. You can also do it.

1…情報処理装置
10…制御部
100…生成手段
101…解析手段
102…判定手段
103…追加手段
104…認識手段
105…抽出手段
106…表示制御手段
11…記憶部
110…プログラム
111…形態素情報
113…定義ファイルリスト
113a…第1のグループ
113b…第2のグループ
113c…第3のグループ
113d…第4のグループ
113e…第5のグループ
114…定義ファイル
114A…第1の定義ファイル
114B…第2の定義ファイル
114C…第3の定義ファイル
114D…第4の定義ファイル
114a…抽出キー
114b…除外キー
115…画面情報
116…情報
12…操作表示部
14…画像読取部
15…画像出力部
16…ファクシミリ通信部
17…ネットワーク通信部
2…外部ファクシミリ装置
3…外部装置
4…公衆回線網
5…ネットワーク
61…選択画面
62…設定画面
63…確認画面
611A…第1の釦
611B…第2の釦
612A…第3の釦
612B…第4の釦
621…設定釦
622…登録釦
631…属性欄
632…値欄
7A…第1の見積書
7B…第2の見積書
7C…第3の見積書
70B…文字情報
71…請求番号情報
74…振込先情報
75,75B…見積番号情報
711…参照情報
1 ... Information processing device 10 ... Control unit 100 ... Generation means 101 ... Analysis means 102 ... Judgment means 103 ... Additional means 104 ... Recognition means 105 ... Extraction means 106 ... Display control means 11 ... Storage unit 110 ... Program 111 ... Form element information 113 ... Definition file list 113a ... First group 113b ... Second group 113c ... Third group 113d ... Fourth group 113e ... Fifth group 114 ... Definition file 114A ... First definition file 114B ... Second group Definition file 114C ... Third definition file 114D ... Fourth definition file 114a ... Extraction key 114b ... Exclusion key 115 ... Screen information 116 ... Information 12 ... Operation display unit 14 ... Image reading unit 15 ... Image output unit 16 ... Facsimile communication Part 17 ... Network communication unit 2 ... External facsimile device 3 ... External device 4 ... Public line network 5 ... Network 61 ... Selection screen 62 ... Setting screen 63 ... Confirmation screen 611A ... First button 611B ... Second button 612A ... Second Button 3 612B ... Fourth button 621 ... Setting button 622 ... Registration button 631 ... Attribute column 632 ... Value column 7A ... First estimate 7B ... Second estimate 7C ... Third estimate 70B ... Character information 71 ... Billing number information 74 ... Transfer destination information 75, 75B ... Estimated number information 711 ... Reference information

Claims (8)

文字を認識する認識手段と、
認識された前記文字の中に第1の文字又は文字列が含まれない場合に、該第1の文字又は文字列と共通の属性を有する第2の文字又は文字列を除外して、前記属性を示す第3の文字又は文字列を含む第4の文字又は文字列を抽出する抽出手段と、
を備える情報処理装置。
Recognition means for recognizing characters and
When the recognized character does not include the first character or character string, the attribute is excluded by excluding the second character or character string having the same attribute as the first character or character string. An extraction means for extracting a fourth character or character string including a third character or character string indicating
Information processing device equipped with.
前記抽出手段による抽出の対象として文字又は文字列を登録する登録手段をさらに備え、
前記登録手段により前記第1の文字又は文字列と共通の属性を有する第5の文字又は文字列が新たに前記抽出の対象として登録された場合に、前記抽出手段は、該第5の文字又は文字列をさらに除外して、前記属性を示す第3の文字又は文字列を含む第4の文字又は文字列を抽出する、
請求項1に記載の情報処理装置。
Further provided with a registration means for registering a character or a character string as an extraction target by the extraction means.
When a fifth character or character string having an attribute common to the first character or character string is newly registered as the target of the extraction by the registration means, the extraction means is the fifth character or the fifth character or the character string. Further excluding the character string, a fourth character or character string including the third character or character string indicating the attribute is extracted.
The information processing device according to claim 1.
複数の前記第1の文字又は文字列を前記抽出の対象としてそれぞれ記録する複数の記録手段と、
前記複数の記録手段のうち、前記第5の文字又は文字列を前記抽出の対象として記録する記録手段以外の記録手段のそれぞれに、前記第5の文字又は文字列を前記抽出手段による抽出から除外する除外条件として追加する追加手段と、
をさらに備える、
請求項2に記載の情報処理装置。
A plurality of recording means for recording a plurality of the first characters or character strings as targets for the extraction, and
Of the plurality of recording means, the fifth character or character string is excluded from the extraction by the extraction means in each of the recording means other than the recording means for recording the fifth character or character string as the extraction target. Additional means to add as an exclusion condition and
Further prepare
The information processing device according to claim 2.
複数の前記第1の文字又は文字列を前記抽出の対象としてそれぞれ記録する複数の記録手段と、
前記第1の文字又は文字列の属性に応じて前記記録手段を群に分類した分類情報の中から、前記複数の記録手段のうち前記第1の文字又は文字列が記録された第1の記録手段と同一の群に属する第2の記録手段に記録された前記第1の文字又は文字列を前記第2の文字又は文字列として前記第1の記録手段に追加する追加手段と、
をさらに備える、
請求項1に記載の情報処理装置。
A plurality of recording means for recording a plurality of the first characters or character strings as targets for the extraction, and
From the classification information obtained by classifying the recording means into groups according to the attributes of the first character or character string, the first record in which the first character or character string is recorded among the plurality of recording means. An additional means for adding the first character or character string recorded in the second recording means belonging to the same group as the means to the first recording means as the second character or character string.
Further prepare
The information processing device according to claim 1.
前記追加手段は、前記第1の記録手段が属する群の名称を示す文字又は文字列を前記第3の文字又は文字列として前記第1の記録手段に追加する、
請求項4に記載の情報処理装置。
The additional means adds a character or a character string indicating the name of the group to which the first recording means belongs to the first recording means as the third character or character string.
The information processing device according to claim 4.
前記第1の文字又は文字列を記録する記録手段と、
前記第1の文字又は文字列を属性に応じて前記記録手段を群に分類する分類手段と、
前記群に分類された前記記録手段が予め定められた個数以上となった場合に、新たな群を生成する生成手段と、
をさらに備える、
請求項1に記載の情報処理装置。
A recording means for recording the first character or a character string, and
A classification means for classifying the recording means into groups according to the attributes of the first character or character string, and
A generation means for generating a new group when the number of the recording means classified into the group exceeds a predetermined number, and
Further prepare
The information processing device according to claim 1.
前記生成手段は、前記属性を付して前記新たな群を生成する、
請求項6に記載の情報処理装置。
The generation means attaches the attribute to generate the new group.
The information processing device according to claim 6.
コンピュータを、
文字を認識する認識手段と、
認識された前記文字の中に第1の文字又は文字列が含まれない場合に、該第1の文字又は文字列と共通の属性を有する第2の文字又は文字列を除外して、前記属性を示す第3の文字又は文字列を含む第4の文字又は文字列を抽出する抽出手段
として、機能させるためのプログラム。
Computer,
Recognition means for recognizing characters and
When the recognized character does not include the first character or character string, the attribute is excluded by excluding the second character or character string having the same attribute as the first character or character string. A program for functioning as an extraction means for extracting a fourth character or character string including a third character or character string indicating.
JP2019024333A 2019-02-14 2019-02-14 Information processing device and program Active JP7271987B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019024333A JP7271987B2 (en) 2019-02-14 2019-02-14 Information processing device and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019024333A JP7271987B2 (en) 2019-02-14 2019-02-14 Information processing device and program

Publications (2)

Publication Number Publication Date
JP2020135095A true JP2020135095A (en) 2020-08-31
JP7271987B2 JP7271987B2 (en) 2023-05-12

Family

ID=72263046

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019024333A Active JP7271987B2 (en) 2019-02-14 2019-02-14 Information processing device and program

Country Status (1)

Country Link
JP (1) JP7271987B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021064209A (en) * 2019-10-15 2021-04-22 富士ゼロックス株式会社 Information processor and information processing program

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11203415A (en) * 1998-01-16 1999-07-30 Fuji Xerox Co Ltd Device and method for preparing similar pattern category discrimination dictionary
JP2005182772A (en) * 2003-11-28 2005-07-07 Sharp Corp Character recognition device, program and recording medium
JP2008102737A (en) * 2006-10-19 2008-05-01 Nippon Telegr & Teleph Corp <Ntt> Stored document classification apparatus, stored document classification method, program, and recording medium
JP2009015395A (en) * 2007-06-29 2009-01-22 Toshiba Corp Dictionary construction support device and dictionary construction support program
JP2009093659A (en) * 2007-10-10 2009-04-30 Nhn Corp Method and system for providing document search service
JP2011081454A (en) * 2009-10-02 2011-04-21 Sharp Corp Information processing apparatus, information processing method, program and recording medium
JP2011107966A (en) * 2009-11-17 2011-06-02 Hitachi Solutions Ltd Document processor
JP2011198285A (en) * 2010-03-23 2011-10-06 Hitachi Solutions Ltd Document processing system and program
WO2012095971A1 (en) * 2011-01-13 2012-07-19 三菱電機株式会社 Classification rule generation device, classification rule generation method, classification rule generation program and recording medium
JP2014071697A (en) * 2012-09-28 2014-04-21 Omron Corp Image processing system and image processing method
JP2016018365A (en) * 2014-07-08 2016-02-01 シャープ株式会社 Data processing apparatus, data processing system, data display device, data processing method, display method, and program

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11203415A (en) * 1998-01-16 1999-07-30 Fuji Xerox Co Ltd Device and method for preparing similar pattern category discrimination dictionary
JP2005182772A (en) * 2003-11-28 2005-07-07 Sharp Corp Character recognition device, program and recording medium
JP2008102737A (en) * 2006-10-19 2008-05-01 Nippon Telegr & Teleph Corp <Ntt> Stored document classification apparatus, stored document classification method, program, and recording medium
JP2009015395A (en) * 2007-06-29 2009-01-22 Toshiba Corp Dictionary construction support device and dictionary construction support program
JP2009093659A (en) * 2007-10-10 2009-04-30 Nhn Corp Method and system for providing document search service
JP2011081454A (en) * 2009-10-02 2011-04-21 Sharp Corp Information processing apparatus, information processing method, program and recording medium
JP2011107966A (en) * 2009-11-17 2011-06-02 Hitachi Solutions Ltd Document processor
JP2011198285A (en) * 2010-03-23 2011-10-06 Hitachi Solutions Ltd Document processing system and program
WO2012095971A1 (en) * 2011-01-13 2012-07-19 三菱電機株式会社 Classification rule generation device, classification rule generation method, classification rule generation program and recording medium
JP2014071697A (en) * 2012-09-28 2014-04-21 Omron Corp Image processing system and image processing method
JP2016018365A (en) * 2014-07-08 2016-02-01 シャープ株式会社 Data processing apparatus, data processing system, data display device, data processing method, display method, and program

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
勝山 裕、外4名: ""形態素解析とキーワード領域内の候補文字ラティス情報を用いた単語照合による文書画像の高精度検索方式"", 電子情報通信学会論文誌, vol. 88, no. 8, JPN6023000965, 1 August 2005 (2005-08-01), JP, pages 1740 - 1749, ISSN: 0005021282 *
山田 敬之、外2名: ""各属性のレビュー・評価値の関係を用いた評判情報の検索支援"", 電子情報通信学会技術研究報告, vol. 107, no. 480, JPN6023000966, 31 January 2008 (2008-01-31), JP, pages 1 - 6, ISSN: 0005021283 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021064209A (en) * 2019-10-15 2021-04-22 富士ゼロックス株式会社 Information processor and information processing program

Also Published As

Publication number Publication date
JP7271987B2 (en) 2023-05-12

Similar Documents

Publication Publication Date Title
JP5774597B2 (en) System and method using dynamic variation network
US8630852B2 (en) Image processing apparatus, speech recognition processing apparatus, control method for speech recognition processing apparatus, and computer-readable storage medium for computer program
CN101178725A (en) Device, method, and computer program product for information retrieval
JP6786658B2 (en) Document reading system
JP2013509662A (en) System and method using dynamic variation network
EP2884425B1 (en) Method and system of extracting structured data from a document
JP6253354B2 (en) Form reading device, program, and form reading system
JP7532085B2 (en) Image processing device, image processing method, and program
US11710329B2 (en) Image processing apparatus with automated registration of previously encountered business forms, image processing method and storage medium therefor
JP7268389B2 (en) Information processing device and program
JP7271987B2 (en) Information processing device and program
US20210287187A1 (en) Image processing apparatus and non-transitory computer readable medium storing program
US11657367B2 (en) Workflow support apparatus, workflow support system, and non-transitory computer readable medium storing program
JP6247880B2 (en) Business card information management system, business card information management method, business card information output device, terminal device, image forming device, and business card information output method
JP2021056722A (en) Information processing device and program
JP7408340B2 (en) Image processing device control method, program, and image processing device
JP4682747B2 (en) Document processing apparatus, rule data generation method and program
JP2011095889A (en) Image reader
JP2010072850A (en) Image processor
US20250014375A1 (en) Information processing apparatus, control method for information processing apparatus, and storage medium
JP2020043517A (en) Information processing device and program
JP6281739B2 (en) Processing apparatus and program
JP4827519B2 (en) Image processing apparatus, image processing method, and program
US20240323306A1 (en) Information processing apparatus, control method for information processing apparatus, and storage medium
US20240193975A1 (en) Image processing apparatus, image processing method, and storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230309

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230328

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230410

R150 Certificate of patent or registration of utility model

Ref document number: 7271987

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150