[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2020086718A - Document data modification apparatus and document data modification method - Google Patents

Document data modification apparatus and document data modification method Download PDF

Info

Publication number
JP2020086718A
JP2020086718A JP2018217591A JP2018217591A JP2020086718A JP 2020086718 A JP2020086718 A JP 2020086718A JP 2018217591 A JP2018217591 A JP 2018217591A JP 2018217591 A JP2018217591 A JP 2018217591A JP 2020086718 A JP2020086718 A JP 2020086718A
Authority
JP
Japan
Prior art keywords
character
image
data
document data
replacement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018217591A
Other languages
Japanese (ja)
Inventor
俊貴 竹内
Toshiki Takeuchi
俊貴 竹内
貴広 馬場
Takahiro Baba
貴広 馬場
千聖 田中
Chisato Tanaka
千聖 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toppan Edge Inc
Original Assignee
Toppan Forms Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toppan Forms Co Ltd filed Critical Toppan Forms Co Ltd
Priority to JP2018217591A priority Critical patent/JP2020086718A/en
Publication of JP2020086718A publication Critical patent/JP2020086718A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

To provide a document data modification apparatus which can reduce the burden in modification even when a character is described with image data.SOLUTION: A document data modification apparatus includes: a character recognition unit which performs character recognition on document data including character data formed by associating coordinate data indicating a position where a character is displayed with a character code representing the character, and image data formed by associating the coordinate data with a character image which represents a character as an image; and a modification unit which modifies, when the character code corresponds to a character code of a character to be replaced, on the basis of a result of the character recognition, the character code to a character code corresponding to a character after replacement, or modifies, when a character included in the character image is to be replaced, the character image to replacement data including the character after replacement.SELECTED DRAWING: Figure 1

Description

本発明は、文書データ変更装置、文書データ変更方法に関する。 The present invention relates to a document data changing device and a document data changing method.

帳票は、各種手続きの申込書や、クレジットカードの引き落とし明細書等として用いられ、印刷物としてユーザへの配布やWeb上での提示が行われている。
このような帳票は、複数あるデータ形式のうち、例えば、米国アドビシステムズ社が提唱するPDF(Portable Document Format)形式のドキュメントファイルに変換してから印刷処理し、当該PDFドキュメントファイルの状態で保存する場合がある。この形式とすることで、PDFドキュメントファイルとして印刷処理して提示する場合と、Web上で提示する場合とで同一の形態で提示することができる。
このような帳票は、発行元において作成された後に記述内容を変更する必要が生じた場合、変更の対象となる箇所(変更対象箇所)に対して変更が行われる。
画像データに含まれる文字等についてチェックを行うためのシステムも開示されている(例えば、特許文献1)。
The form is used as an application form for various procedures, a credit card withdrawal statement, and the like, and is distributed to users as a printed matter or presented on the Web.
Such a form is converted into a PDF (Portable Document Format) format document file advocated by Adobe Systems Incorporated of the United States, for example, is subjected to print processing, and is saved in the state of the PDF document file. There are cases. With this format, it is possible to present the PDF document file in the same form when it is printed and presented and when it is presented on the Web.
When it is necessary to change the description content of such a form after it has been created by the issuer, the part to be changed (change target part) is changed.
A system for checking characters and the like included in image data is also disclosed (for example, Patent Document 1).

特許第4467832号公報Japanese Patent No. 4467832

しかしながら、帳票に記載される文字は、ドキュメントファイルにおいて文字データを用いて記述される場合もあるが、文字画像を用いて記述される場合もある。例えば、会社名、書類名称、項目の名称、商品名、広告等のデザイン性のある文字列やロゴ(ロゴタイプ)は、文字列であっても画像によって表す場合がある。文字が文字データを用いて記述される場合には、文字検索機能を利用することで、変更対象の文字があるか否かを簡単に見つけることができるが、文字が文字画像によって記述される場合には、文字検索機能を利用することができない。そのため、オペレータは、文字検索機能を利用した文字の変更作業とは別に、ドキュメントファイルを画面上に表示させ、変更対象箇所があるか否かを画面上における表示内容を目視によって探す必要がある。そのため、変更作業が、文字検索機能を利用した変更作業と、目視によって変更箇所を探す変更作業との2段階となってしまい、また、目視によって変更箇所を探す負担が大きい。 However, the characters described in the form may be described using character data in the document file, or may be described using character images. For example, a company name, a document name, an item name, a product name, a designable character string such as an advertisement, or a logo (logotype) may be represented by an image even if it is a character string. When a character is described using character data, it is possible to easily find out whether there is a character to be changed by using the character search function. However, when the character is described by a character image Cannot use the character search function. Therefore, the operator needs to display the document file on the screen separately from the character changing operation using the character search function, and visually check the display content on the screen as to whether or not there is a change target portion. Therefore, the change work has two steps, that is, the change work using the character search function and the change work for visually locating the changed portion, and the burden of visually locating the changed portion is large.

本発明は、このような事情に鑑みてなされたもので、その目的は、文字が画像データを用いて記述される場合であっても変更作業にかかる負担を低減することができる文書データ変更装置、文書データ変更方法を提供することにある。 The present invention has been made in view of such circumstances, and an object thereof is a document data changing device capable of reducing the burden of changing work even when characters are described using image data. , To provide a method for changing document data.

上述した課題を解決するために、本発明は、文字を表示する位置を示す座標データと当該文字を表す文字コードとが対応づけされた文字データと、座標データと文字が画像として表現された文字画像とが対応付けられた画像データと、を含む文書データに対して文字認識する文字認識部と、前記文字認識された結果に基づいて、前記文字コードが置換対象である文字の文字コードに対応している場合には、当該文字コードを置換後の文字に対応する文字コードに変更し、前記文字画像に含まれる文字が置換対象の文字である場合には、当該文字画像を置換後の文字を含む置換データに変更する変更部と、を有する。 In order to solve the problems described above, the present invention provides character data in which coordinate data indicating a position at which a character is displayed and a character code indicating the character are associated with each other, and character data in which the coordinate data and the character are expressed as an image. A character recognition unit that recognizes characters in document data including image data associated with an image, and the character code corresponds to a character code of a character to be replaced based on the result of the character recognition. If the character code is changed to a character code corresponding to the character after replacement, and the character included in the character image is the character to be replaced, the character image after the character image is replaced And a change unit for changing to replacement data including.

また、本発明は、文字認識部が、文字を表示する位置を示す座標データと当該文字を表す文字コードとが対応づけされた文字データと、座標データと文字が画像として表現された文字画像とが対応付けられた画像データと、を含む文書データに対して文字認識し、変更部が、前記文字認識された結果に基づいて、前記文字コードが置換対象である文字の文字コードに対応している場合には、当該文字コードを置換後の文字に対応する文字コードに変更し、前記文字画像に含まれる文字が置換対象の文字である場合には、当該文字画像を置換後の文字を含む置換データに変更する文書データ変更方法である。 Further, according to the present invention, the character recognition unit includes character data in which coordinate data indicating a position for displaying a character and a character code indicating the character are associated with each other, and a character image in which the coordinate data and the character are expressed as an image. Image data associated with, and character recognition is performed on the document data including, and the changing unit, based on the result of the character recognition, the character code corresponds to the character code of the character to be replaced. If the character code is changed, the character code is changed to a character code corresponding to the replaced character, and if the character included in the character image is the character to be replaced, the character image includes the replaced character. This is a document data changing method for changing to replacement data.

以上説明したように、この発明によれば、文字が画像データを用いて記述される場合であっても、変更作業にかかる負担を低減することができる。すなわち、オペレータは、文字検索機能を利用した文字の変更作業と、画像データを用いて表された文字に対する変更作業を一緒に行うことができ、かつ、画像データを用いて表された文字に変更対象箇所があるか否かを目視によって探す手間を省くことができる。 As described above, according to the present invention, even when characters are described using image data, it is possible to reduce the burden of changing work. That is, the operator can perform the work of changing the character using the character search function and the work of changing the character represented by using the image data at the same time, and the character can be changed to the character represented by using the image data. It is possible to save the trouble of visually searching whether or not there is a target portion.

この発明の一実施形態による文書データ変更システム1の構成を示す概略ブロック図である。It is a schematic block diagram which shows the structure of the document data change system 1 by one Embodiment of this invention. 文字認識部102によって文字認識された結果の一例を示す図である。FIG. 6 is a diagram showing an example of a result of character recognition by a character recognition unit 102. 文書データ変更システム1の動作を説明するシーケンス図である。It is a sequence diagram explaining operation|movement of the document data change system 1. 変更処理の過程を説明する概念図である。It is a conceptual diagram explaining the process of a change process. 背景色が設定された文字を変更する場合の一例を示す図である。It is a figure which shows an example at the time of changing the character in which the background color was set. リスト作成の処理を説明するシーケンス図である。It is a sequence diagram explaining the process of list creation.

以下、本発明の一実施形態による文書データ変更システム1について図面を参照して説明する。
図1は、この発明の一実施形態による文書データ変更システム1の構成を示す概略ブロック図である。
文書データ変更システム1は、文書データ変更装置10に対して端末装置20A、端末装置20B(以下、識別しないときは単に「端末装置20」と称する)がネットワーク30を介して接続される。文書データ変更装置10は、帳票として用いられる文書データにおいて変更を行う対象の箇所について記述内容を変更する機能を有する。帳票は、例えば、各種手続の申込書、カタログ、パンフレット、広告等である。
A document data changing system 1 according to an embodiment of the present invention will be described below with reference to the drawings.
FIG. 1 is a schematic block diagram showing the configuration of a document data changing system 1 according to an embodiment of the present invention.
In the document data changing system 1, a terminal device 20A and a terminal device 20B (hereinafter, simply referred to as “terminal device 20” when not identified) are connected to the document data changing device 10 via a network 30. The document data changing device 10 has a function of changing the description content of a portion to be changed in the document data used as a form. The form is, for example, an application form for various procedures, a catalog, a pamphlet, an advertisement, or the like.

端末装置20は、コンピュータ、スマートフォン、タブレット端末等であり、帳票を発行するユーザや帳票を作成するユーザによって利用される。端末装置20には、入力装置が設けられている。入力装置は、例えば、タッチパネル、キーボード、マウス等である。
端末装置20は、帳票として用いられる文書データを文書データ変更装置10に送信する。この文書データは、文字を表示する位置を示す座標データと当該文字を表す文字コードとが対応づけされた文字データと、座標データと文字が画像として表現された文字画像とが対応付けられた画像データと、を含む。文字データは、例えば、所定の文字コードに対応づけられた文字の情報をいい、検索用キーワードとして入力された検索文字に対応して検索可能となる文字の情報である。文字画像は、例えば、会社名、書類名称、項目の名称、商品名、広告等のデザイン性のある文字列やロゴ(ロゴタイプ)が画像として表現される場合に用いられることがある。
The terminal device 20 is a computer, a smartphone, a tablet terminal, or the like, and is used by a user who issues a form or a user who creates a form. The terminal device 20 is provided with an input device. The input device is, for example, a touch panel, a keyboard, a mouse, or the like.
The terminal device 20 transmits the document data used as a form to the document data changing device 10. This document data is an image in which character data in which coordinate data indicating a position for displaying a character and a character code indicating the character are associated with each other, and coordinate data and a character image in which the character is expressed as an image are associated with each other. Data and. The character data is, for example, information on a character associated with a predetermined character code, and is information on a character that can be searched for corresponding to a search character input as a search keyword. The character image may be used, for example, when a company name, a document name, an item name, a product name, a designable character string such as an advertisement, or a logo (logotype) is expressed as an image.

このような文書データは、文書作成ソフトウェア等を用いて任意のデータ形式に従って作成されたデータであってよい。この実施形態においては、データ形式がPDF形式である場合について説明するが、文字データと画像データが含まれる文書データであれば、例えば、マイクロソフト社のMicrosoft Word(登録商標)、Microsoft Excel(登録商標)、Microsoft PPT(Power Point)(登録商標)、アドビシステムズ社のイラストレータ(登録商標)等のデータ形式で作成された文書データであってもよい。 Such document data may be data created according to an arbitrary data format using document creation software or the like. In this embodiment, the case where the data format is the PDF format will be described. However, if it is document data including character data and image data, for example, Microsoft Word (registered trademark), Microsoft Excel (registered trademark) of Microsoft Corporation. ), Microsoft PPT (Power Point) (registered trademark), Illustrator (registered trademark) of Adobe Systems Incorporated, or the like.

また、文書データは、PDF形式等のデータであってもよいが、印刷された帳票をスキャナで光学的に読み取るか、カメラで撮影されることで生成される画像ファイルであってもよい。この場合における文書データは、文字データが含まれていない。ただし、このような画像ファイルに対して文字データが付加されたデータを文書データとして用いることもできる。 Further, the document data may be data in a PDF format or the like, but may be an image file generated by optically reading a printed form with a scanner or capturing an image with a camera. The document data in this case does not include character data. However, data in which character data is added to such an image file can also be used as document data.

ここで帳票は、例えば端末装置20Aにおいて文書作成ソフトウェア等で作成された後、PDF形式で保存され、帳票を印刷するためのデータとして用いられたり、WEBサーバを用いてWEB上において公開され、各種申し込みをするユーザの端末装置(例えば端末装置20B)がダウンロードして利用可能となっている。
端末装置20Aのユーザは、このような文書データの一部の文字を変更したい場合には、文書データを文書データ変更装置10に送信し、文書データの少なくとも一部を変更することができる。
Here, the form is created in the terminal device 20A with document creation software or the like, and then saved in PDF format and used as data for printing the form, or published on the WEB using a WEB server. The terminal device (for example, the terminal device 20B) of the user who makes the application can be downloaded and used.
When the user of the terminal device 20A wants to change some characters of such document data, the user can send the document data to the document data changing device 10 and change at least a part of the document data.

次に、文書データ変更装置10は、通信部101と、文字認識部102と、背景認識部103と、変更部104と、リスト生成部105と、出力部106と、制御部107、記憶部108とを有する。
通信部101は、ネットワーク30を介して端末装置20A、端末装置20Bと通信を行う。また、通信部101は、端末装置20から送信される文書データを受信する機能、文書データ変更装置10において生成される各種情報を端末装置20に送信する機能を有する。
Next, the document data change device 10 includes a communication unit 101, a character recognition unit 102, a background recognition unit 103, a change unit 104, a list generation unit 105, an output unit 106, a control unit 107, and a storage unit 108. Have and.
The communication unit 101 communicates with the terminal devices 20A and 20B via the network 30. The communication unit 101 also has a function of receiving document data transmitted from the terminal device 20 and a function of transmitting various information generated in the document data changing device 10 to the terminal device 20.

文字認識部102は、文字が画像として表現された文字画像を少なくとも一部に含む文書データに対して文字認識する。このような文書データは、大別すると2種類ある。
1つ目は、文字が画像として記述された画像データであり、例えば、帳票がスキャナ等で読み取られることで生成される画像ファイルや、帳票がカメラで撮像された撮像データがある。
2つ目は、文字を表示する位置を示す座標データと当該文字を表す文字コードとが対応づけされた文字データと、座標データと文字が画像として表現された文字画像とが対応付けられた画像データと、を含む文書データである。2つ目の文書データは、例えば、PDF形式で保存されるドキュメントファイルである。
The character recognition unit 102 performs character recognition on document data including at least a part of a character image in which a character is expressed as an image. There are roughly two types of such document data.
The first is image data in which characters are described as images. For example, there is an image file generated by reading a document with a scanner or the like, and imaged data obtained by capturing an image of the document with a camera.
The second is an image in which character data in which coordinate data indicating a position for displaying a character and a character code representing the character are associated with each other, and coordinate data and a character image in which the character is expressed as an image are associated with each other. Document data including data and. The second document data is, for example, a document file saved in PDF format.

文字認識部102は、文字データについては、文字データに含まれる文字コードを読み込むことで文字を認識し、画像データについては、画像データに含まれる文字画像が表す文字を認識して認識結果に対応する文字の文字コードを得ることで文字を認識する。文字画像に対して文字認識を行うことで、文字画像に含まれる文字の文字コードを生成することができる。これにより、文字画像であっても検索用キーワードを用いた検索を行うことが可能となるため、目視によって変更箇所を探す必要がない。また、検索用キーワードを用いて、文字データと画像データの両方を対象として検索することが可能となり、文字検索機能を利用した変更作業と、目視によって変更箇所を探す変更作業との2段階となってしまうことを防止することができる。 For character data, the character recognition unit 102 recognizes a character by reading a character code included in the character data, and for image data, recognizes a character represented by a character image included in the image data and responds to the recognition result. Recognize a character by obtaining the character code of the character. By performing character recognition on the character image, the character code of the character included in the character image can be generated. As a result, it is possible to perform a search using a search keyword even for a character image, and it is not necessary to visually search for a changed portion. In addition, it is possible to search for both character data and image data by using the search keyword, and there are two steps: the change work using the character search function and the change work of visually locating the changed portion. It is possible to prevent that.

ここで、図2は、文字認識部102によって画像データを対象として文字認識された結果の一例を示す図である。この図では、2つの文字認識結果が図示されている。ここでは、一例として、「平」と「成」の2つの文字が1つの文字画像として表現されている場合の文字認識結果が示されている。上段は、文字画像のうち「平」という文字が文字認識された結果を表し、下段は、文字画像のうち「成」という文字が文字認識された結果であり、それぞれ文字と当該文字が記述される文書データにおける座標位置を示す座標データを含む。「l」は文字の左端のX座標(水平方向を表す座標軸)、「t」は文字の上端のy座標(垂直方向を表す座標軸)、「r」文字の右端のX座標、「b」は文字の下端のy座標における位置を表す。これらの座標によって表された領域に読み取り結果の文字が存在することを示している。このような文字認識結果は、1文字毎に得られてもよいし、1つの文字画像に含まれる複数の文字を1つの文字列(単語)として1つの文字認識結果を得るようにしてもよい。この場合、座標データは、1つの文字列の先頭の文字と末尾の文字のそれぞれの位置に基づいて特定される。 Here, FIG. 2 is a diagram illustrating an example of a result of character recognition performed on the image data by the character recognition unit 102. In this figure, two character recognition results are shown. Here, as an example, a character recognition result is shown in the case where two characters, "hira" and "sei", are expressed as one character image. The upper row shows the result of character recognition of the character "flat" in the character image, and the lower row shows the result of character recognition of the character "completion" in the character image. Coordinate data indicating the coordinate position in the document data. "L" is the X coordinate of the left end of the character (coordinate axis indicating the horizontal direction), "t" is the y coordinate of the upper end of the character (coordinate axis indicating the vertical direction), the X coordinate of the right end of the "r" character, and "b" is It represents the position of the bottom edge of the character in y-coordinate. It indicates that a character as a read result exists in the area represented by these coordinates. Such a character recognition result may be obtained for each character, or one character recognition result may be obtained with a plurality of characters included in one character image as one character string (word). .. In this case, the coordinate data is specified based on the positions of the first character and the last character of one character string.

背景認識部103は、置換対象の文字画像の背景を認識する。
背景の表示態様は、色と模様がある。背景認識部103は、色を認識する場合、置換対象の文字画像の背景の色情報を取得することで背景色を認識する。また、背景認識部103は、模様を認識する場合、置換対象の文字画像に含まれる文字の周囲の背景から所定サイズの領域内の画像(背景)をコピーすることで認識する。背景の模様としては、例えば、ハッチングやドットパターンがある。
The background recognition unit 103 recognizes the background of the character image to be replaced.
Background display modes include colors and patterns. When recognizing a color, the background recognition unit 103 recognizes the background color by acquiring the color information of the background of the character image to be replaced. Further, when recognizing the pattern, the background recognition unit 103 recognizes the pattern by copying an image (background) in an area of a predetermined size from the background around the character included in the character image to be replaced. Examples of the background pattern include hatching and dot patterns.

変更部104は、文字認識された結果に基づいて、文字コードが置換対象である文字の文字コードに対応している場合には、当該文字コードを置換後の文字に対応する文字コードに変更し、文字画像に含まれる文字が置換対象である文字である場合には、当該文字画像を置換後の文字を含む置換データに変更する。置換後の文字に対応する文字コードは、端末装置20のオペレータから予め入力してもらうようにしてもよいし、置換対象が見つかった段階でオペレータに入力してもらうようにしてもよい。ここで、変更部104は、置換対象の文字コードや置換対象の文字を含む文字画像があるか否かの判定を行うが、元の文書データの一部の文字コードあるいは文字画像を変更することができのものであれば、データの入れ換え、付け替え、切り換え等のいずれの方法によって置換がなされてもよい。 If the character code corresponds to the character code of the character to be replaced, based on the result of character recognition, the changing unit 104 changes the character code to the character code corresponding to the replaced character. If the character included in the character image is the character to be replaced, the character image is changed to replacement data including the replaced character. The character code corresponding to the character after replacement may be input in advance by the operator of the terminal device 20, or may be input by the operator when the replacement target is found. Here, the changing unit 104 determines whether or not there is a character code to be replaced or a character image including a character to be replaced, but it is necessary to change a part of the character code or the character image of the original document data. If the above is possible, the replacement may be performed by any method such as data exchange, data exchange, and switching.

変更部104は、文字画像を変更する場合、当該文字画像を、予め用意された、置換後の文字が所定のフォントで表現された文字画像、または、置換後の文字に対応する文字画像を生成することで得られる文字画像に変更する。すなわち、変更部104は、(a)変更後の文字画像を予め準備されている文字画像に変更すること、(b)文字画像を変更する時点で置換後の文字画像を生成して変更すること、のいずれの処理であっても実行することができる。
(a)の場合における予め入力される文字画像は、端末装置20のオペレータから予め入力されるようにしてもよい。
(b)の場合、変更部104は、置換後の文字に対して、背景認識部103によって認識された背景を合成した置換データを生成する。この置換データは、文字画像として生成することもでき、また、文字データとして生成することもできる。
When changing the character image, the changing unit 104 generates a character image in which the character after replacement is prepared in a predetermined font or a character image corresponding to the character after replacement is prepared for the character image. Change to the character image obtained by doing. That is, the changing unit 104 (a) changes the changed character image to a prepared character image, and (b) generates and changes the replaced character image at the time of changing the character image. It is possible to execute any of the processing of.
The character image input in advance in the case of (a) may be input in advance by the operator of the terminal device 20.
In the case of (b), the changing unit 104 generates replacement data in which the background recognized by the background recognizing unit 103 is combined with the replaced character. This replacement data can be generated as a character image or can be generated as character data.

変更部104は、置換データを文字画像として生成する場合、置換後の文字が画像として表現された文字画像を生成し、この文字画像の背景として、背景認識部103よって認識された背景を合成する。例えば、変更部104は、生成された文字画像における背景の色または模様について、背景認識部103によって認識された色または模様に置換するか、背景を透明にした文字画像を生成し、生成された文字画像の下層側のレイヤに背景認識部103によって認識された背景を重ねることで、置換後の文字画像を生成する。 When generating the replacement data as a character image, the changing unit 104 generates a character image in which the replaced character is expressed as an image, and synthesizes the background recognized by the background recognition unit 103 as the background of this character image. .. For example, the changing unit 104 replaces the background color or pattern in the generated character image with the color or pattern recognized by the background recognition unit 103 or generates a character image with a transparent background, and the generated character image is generated. By superimposing the background recognized by the background recognition unit 103 on the lower layer of the character image, the replaced character image is generated.

変更部104は、置換データを文字データとして生成する場合、置換後の文字を示す文字コードに対して、背景認識部103によって認識された背景をバックグラウンド背景として設定する。例えば、置換データをXML(Extensible Markup Language)形式で記述する場合には、置換後の文字データに対して、バックグラウンド背景の色を指定するコードをタグで囲むことで設定することができる。 When the replacement data is generated as the character data, the changing unit 104 sets the background recognized by the background recognition unit 103 as the background background for the character code indicating the replaced character. For example, when the replacement data is described in the XML (Extensible Markup Language) format, it is possible to set the replacement character data by enclosing a code that specifies the background color in tags.

このように、置換された後の文字に対して背景を合成するようにしたので、置換前の文字画像を置換データに変更した場合であっても、置換データの周辺の背景と置換データの背景が同一またはほぼ同一とすることができるため、置換データ周辺の背景と置換データの背景との連続性を保つことができる。これにより、文字画像を置換した場合であっても、帳票全体の見栄えが低下したり、違和感を与えてしまうようなことを防ぐことができる。 In this way, the background is composed for the replaced character, so even if the character image before replacement is changed to replacement data, the background around the replacement data and the background of the replacement data are Can be the same or almost the same, so that the continuity between the background around the replacement data and the background of the replacement data can be maintained. As a result, even if the character image is replaced, it is possible to prevent the appearance of the entire form from being deteriorated or giving a feeling of strangeness.

なお、置換データとして背景を合成する処理については、他の方法で実現してもよい。例えば、文字の背景がベタ塗り(同一の色で一様に塗り潰した状態)であって、文字色の方が背景に比べて薄い(淡い)色である場合、変更部104は、画像データの背景と文字の色について、前処理としてネガポジ反転をしておき、文字認識部102によって文字認識を行わせ、その文字認識結果を利用して置換対象の文字を置換した後、ネガポジ反転を元に戻すようにしてもよい。また、ネガポジ反転を元に戻すのではなく、上述したように、背景の色を合成するようにしてもよい。
なお、背景となる色は、予め決められた色が設定されてもよいし、置換対象の文字の周囲の所定サイズの領域における画素の色を検出し、検出された色が複数ある場合には、最も面積が広い色を背景として設定し、2番目に多い色を文字の色として設定するようにしてもよい。
The process of combining the background as the replacement data may be realized by another method. For example, when the background of the character is a solid color (a state where the character is uniformly filled with the same color) and the character color is a lighter (lighter) color than the background, the changing unit 104 Negative/positive inversion is performed as preprocessing for the background and the color of the character, the character recognition unit 102 performs character recognition, the character to be replaced is replaced using the character recognition result, and then the negative/positive inversion is performed. You may return it. Further, instead of undoing the negative/positive inversion, the background color may be combined as described above.
Note that the background color may be set to a predetermined color, or the color of a pixel in a region of a predetermined size around the character to be replaced is detected, and when there are a plurality of detected colors, The color having the largest area may be set as the background, and the color having the second largest area may be set as the character color.

リスト生成部105は、検索用キーワードを用いて検索された結果に基づいて、文書データに置換対象の文字が含まれるか否かを判定し、判定結果を文書データに関連付けて記憶部108に記憶する。
また、リスト生成部105は、判定結果が関連付けられた文書データの複数を対象として、各文書データに置換対象の文字が含まれているか否かを表す一覧情報(リスト)を生成する。
The list generation unit 105 determines whether or not the document data includes a character to be replaced based on the result of the search using the search keyword, and stores the determination result in the storage unit 108 in association with the document data. To do.
Further, the list generation unit 105 generates list information (list) indicating whether or not each document data includes a character to be replaced, for a plurality of pieces of document data associated with a determination result.

出力部106は、各種情報を出力する。出力先としては、例えば、端末装置20や、文書データ変更装置10に接続される表示装置等である。 The output unit 106 outputs various information. The output destination is, for example, the terminal device 20, a display device connected to the document data changing device 10, or the like.

制御部107は、文書データ変更装置10内の各部を制御する。
記憶部108は、各種データを記憶する。記憶部108は、例えば、HDD(Hard Disk Drive)、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、RAM(Random Access read/write Memory)、ROM(Read Only Memory)等の記憶媒体、またはこれらの記憶媒体の任意の組み合わせによって構成される。
The control unit 107 controls each unit in the document data changing device 10.
The storage unit 108 stores various data. The storage unit 108 is, for example, a HDD (Hard Disk Drive), a flash memory, an EEPROM (Electrically Erasable Programmable Read Only Memory), a RAM (Random Access Read/Write Memory), a ROM (Random Access Read/Write Memory), or a ROM (ROM or Random Memory). It is configured by an arbitrary combination of storage media.

次に、文書データ変更システム1の動作について、図3、図4を用いて説明する。
図3は、文書データ変更システム1の動作を説明するシーケンス図、図4は、変更処理の過程を説明する概念図である。
端末装置20は、ユーザからの指示に応じて、変更する対象の文字を含み得る帳票の文書データ、検索対象を指定する検索用キーワード、置換後の文字を指定する指示を文書データ変更装置10に送信する(ステップS101)。検索用キーワードは、置換する対象の文字列を表すテキストデータである。この検索用キーワードは、少なくとも1文字以上の文字列である。
Next, the operation of the document data changing system 1 will be described with reference to FIGS.
FIG. 3 is a sequence diagram for explaining the operation of the document data changing system 1, and FIG. 4 is a conceptual diagram for explaining the process of the changing process.
In response to an instruction from the user, the terminal device 20 informs the document data changing device 10 of document data of a form that may include a character to be changed, a search keyword that specifies a search target, and an instruction to specify a character after replacement. It is transmitted (step S101). The search keyword is text data representing a character string to be replaced. This search keyword is a character string of at least one character.

文書データ変更装置10の文字認識部102は、端末装置20から文書データと検索用キーワードと置換後の文字を指定する指示を通信部101によって受信して記憶部108に記憶し、文書データに対して二値化処理を行う(ステップS201)。この二値化処理を行うことにより、文字認識部102は、文書データにおける濃淡がある各画素について、白と黒の二値のいずれかにすることができる。
次に、文字認識部102は、二値化された文書データを対象として透過処理を行う(ステップS202)。この透過処理を行うことにより、文字認識部102は、文書データを光学的に読み込んだ際に生じる、帳票の外周にできた影、枠線、画像上に存在するノイズ(光学系に存在する汚れ等に起因して生じるデータ)等を消去する。
なお、文字認識部102は、前処理として、上述の二値化処理や透過処理の他に、必要に応じて傾きを無くす補正等を行ってもよい。
The character recognition unit 102 of the document data change device 10 receives an instruction to specify the document data, the search keyword, and the replaced character from the terminal device 20 by the communication unit 101 and stores the instruction in the storage unit 108. Binarization processing is performed (step S201). By performing this binarization process, the character recognition unit 102 can make each pixel in the document data, which has a shading, one of binary values of white and black.
Next, the character recognition unit 102 performs a transparency process on the binarized document data (step S202). By performing this transparent processing, the character recognition unit 102 causes the shadow formed on the outer periphery of the form, the frame line, and the noise existing on the image (dirt existing in the optical system, which occurs when the document data is optically read. Etc.), etc., which is caused by
It should be noted that the character recognition unit 102 may perform, as preprocessing, correction such as elimination of inclination as necessary, in addition to the above-described binarization processing and transparency processing.

次に、文字認識部102は、透過処理が行われた後の文書データを対象とし、文書データに含まれる文字データと文字画像について文字認識処理を行う(ステップS203)。ここでは、文字認識部102は、文字データについて、文字データに含まれる文字コードを読み込むことで文字を認識し、画像データについて、文字画像が表す文字を認識して認識結果に対応する文字の文字コードを得る。 Next, the character recognition unit 102 performs the character recognition process on the character data and the character image included in the document data for the document data after the transparent process (step S203). Here, the character recognition unit 102 recognizes a character in character data by reading a character code included in the character data, recognizes a character represented by a character image in image data, and recognizes a character corresponding to a recognition result. Get the code.

文字認識処理が行われると、変更部104は、文字認識された結果を対象として、検索用キーワードを用いて検索を行う(ステップS204)。この検索は、文字データから読み取った文字コードと、文字画像から得られた文字コードを対象として行われる。なお、例えば画像データ等の文字データが含まれていない文書データについては、文字画像から得られた文字コードを対象として検索が行われる。
変更部104は、検索用キーワードに対応する文字コードが文書データから検索結果として得られた場合には、その得られた文字データについて変更対象として出力部106によって端末装置20に送信する(ステップS205)。例えば、変更部104は、ステップS202において透過処理が行われた後の文書データの画像に対して、ステップS204における検索結果として得られた文字コードに対応する文字に対して、変更対象があることを示す図形を重畳させた画像を生成し、この生成された情報を変更対象を表す情報として端末装置20に送信する。これにより、端末装置20のユーザは、文書データのどの位置に、変更対象となる文字があるかを簡単に把握することができる。
When the character recognition processing is performed, the changing unit 104 searches for the result of character recognition using a search keyword (step S204). This search is performed for the character code read from the character data and the character code obtained from the character image. Note that, for document data that does not include character data such as image data, a search is performed with the character code obtained from the character image as the target.
When the character code corresponding to the search keyword is obtained as the search result from the document data, the changing unit 104 transmits the obtained character data to the terminal device 20 as the change target by the output unit 106 (step S205). ). For example, the changing unit 104 needs to change the image corresponding to the character code obtained as the search result in step S204 with respect to the image of the document data after the transparency process in step S202. An image in which the figure indicating is superimposed is generated, and the generated information is transmitted to the terminal device 20 as information indicating the change target. This allows the user of the terminal device 20 to easily understand at which position in the document data the character to be changed is located.

端末装置20は、文書データ変更装置10から送信される変更対象を表す情報を受信すると、受信した情報を画面上に表示する。ここで、図4に示すように、端末装置20の表示画面上には、変更対象である帳票の画像データ500が表示される。ここでは、例えば、透過処理がなされた後の画像データが表示される。画像510が示す図は、画像データ500の一部の領域を拡大した図である。この画像データのうち、変更対象として抽出された文字に対して、画像520に示すように、変更対象があることを示す図形が重畳された画像521が表示される。 When the terminal device 20 receives the information indicating the change target transmitted from the document data changing device 10, the terminal device 20 displays the received information on the screen. Here, as shown in FIG. 4, the image data 500 of the form to be changed is displayed on the display screen of the terminal device 20. Here, for example, the image data after the transparent processing is displayed. The diagram shown by the image 510 is an enlarged diagram of a partial region of the image data 500. An image 521 in which a graphic indicating that there is a change target is superimposed is displayed on the character extracted as the change target in the image data, as shown in image 520.

また、変更対象として抽出された文字を表示するにあたり、画像530に示すように、変更対象の文字がある箇所に対して、ステップS101において指定された置換後の文字とともに変更対象があることを示す図形を重畳させて表示するようにしてもよい。置換後の文字を重畳させる処理は、文書データ変更装置10がステップS204の検索用キーワードを用いた検索を行った後に実行してもよい。置換後の文字を重畳させて表示する場合には、変更対象があることを示す図形の領域内を文字が視認可能となるように透過状態で所定の色で塗り潰して表示してもよく、また、置換対象の文字の背景色を所定の背景色に置換または重ねて表示するようにしてもよい。これにより、変更対象の箇所をユーザに見つけてもらいやすくすることができる。
なお、変更対象の箇所が複数抽出された場合には、それぞれが変更対象として表示される。
Further, in displaying the character extracted as the change target, as shown in the image 530, it is shown that there is a change target together with the character after the replacement designated in step S101 for a portion where the character to be changed exists. It is also possible to superimpose and display the figure. The process of superimposing the replaced character may be executed after the document data changing device 10 performs the search using the search keyword in step S204. When the replaced character is displayed in a superimposed manner, it may be displayed in a transparent state by being painted in a predetermined color so that the character can be visually recognized in the area of the figure indicating that there is a change target. Alternatively, the background color of the character to be replaced may be replaced with or overlapped with a predetermined background color and displayed. This makes it easier for the user to find the part to be changed.
If a plurality of parts to be changed are extracted, each of them is displayed as a change target.

図3に戻り、端末装置20は、端末装置20の入力装置からユーザによって入力される、置換対象を選択する指示を受け付ける(ステップS102)。
置換対象の指示は、例えば、変更対象のうち実際に置換を行う対象の文字を特定する指示である。ここでは、変更対象として抽出された文字全てに対して変更を行う場合もあるが、変更対象として抽出された文字のうち、一部の箇所について変更を行う場合がある。例えば、文書データにある元号「平成」の表記を他の表記に変更する場合、会社名、組織名、商品名等に「平成」の文字が含まれる場合、必ずしも他の表記に変更するとは限らないため、ユーザに確認してもらい、実際に変更する対象の文字を置換対象として指定してもらうことが好ましい。
さらに、端末装置20は、端末装置20の入力装置からユーザによって入力される、フォントの指示を受け付ける(ステップS103)。フォントの指示は、置換された後の文字を表示する際のフォントを特定する指示である。フォントの指示は、例えば、文字を表現する書体、文字のサイズ、太字や斜体等のスタイル等を特定する指示である。
端末装置20は、置換対象を特定する指示とフォントの指示を文書データ変更装置10に送信する。なお、置換後の文字の指定は、ステップS103において入力されていてもよいが、ステップS101において入力されていてもよい。
Returning to FIG. 3, the terminal device 20 receives an instruction to select a replacement target, which is input by the user from the input device of the terminal device 20 (step S102).
The replacement target instruction is, for example, an instruction for specifying a character to be actually replaced in the change target. Here, there is a case where all the characters extracted as a change target are changed, but there are cases where a part of the characters extracted as a change target is changed. For example, if you change the notation of the era "Heisei" in the document data to another notation, or if the company name, organization name, product name, etc. include the characters "Heisei", it is not necessarily changed to another notation. Since it is not limited, it is preferable to have the user confirm and specify the character to be actually changed as the replacement target.
Further, the terminal device 20 receives a font instruction input by the user from the input device of the terminal device 20 (step S103). The font instruction is an instruction to specify the font when displaying the character after the replacement. The font instruction is, for example, an instruction to specify a typeface expressing a character, a character size, a style such as bold or italic, and the like.
The terminal device 20 transmits an instruction for specifying the replacement target and an instruction for the font to the document data changing device 10. The designation of the character after replacement may be input in step S103 or may be input in step S101.

文書データ変更装置10の変更部104は、置換対象を特定する指示とフォントの指示を端末装置20から受信すると、受信した置換対象を特定する指示に基づいて、置換対象が文字データに対して置換対象として特定されている場合には、その特定された文字データの文字コードを置換後の文字コードに置換する(ステップS206)。
次に、変更部104は、置換対象が文字画像に対して置換対象として特定されている場合には、その特定された文字画像の背景を認識させる指示を背景認識部103に出力する。背景認識部103は、この指示に基づいて、指定された文字画像の背景を認識し、認識結果を変更部104に出力する(ステップS207)。
背景の認識結果が得られると、変更部104は、文字画像に含まれる文字の文字コードを置換後の文字コードに置換し、この文字コードに対応する文字を、指定されたフォントによって描画する(ステップS208)。さらに、変更部104は、背景認識部103によって得られた背景を置換後の文字コードの背景に合成することで置換データを生成する(ステップS209)。そして、変更部104は、置換対象の文字画像を置換データに置換する。そして、変更部104は、置換後の文書データを出力部106によって端末装置20に送信する。
When the changing unit 104 of the document data changing device 10 receives the instruction to specify the replacement target and the font instruction from the terminal device 20, the replacement target replaces the character data based on the received instruction to specify the replacement target. If it is specified as the target, the character code of the specified character data is replaced with the replaced character code (step S206).
Next, when the replacement target is specified as the replacement target for the character image, the changing unit 104 outputs an instruction to recognize the background of the specified character image to the background recognition unit 103. Based on this instruction, the background recognition unit 103 recognizes the background of the designated character image and outputs the recognition result to the change unit 104 (step S207).
When the background recognition result is obtained, the changing unit 104 replaces the character code of the character included in the character image with the replaced character code, and draws the character corresponding to this character code in the specified font ( Step S208). Further, the changing unit 104 generates replacement data by synthesizing the background obtained by the background recognizing unit 103 with the background of the character code after replacement (step S209). Then, the changing unit 104 replaces the replacement target character image with the replacement data. Then, the changing unit 104 transmits the replaced document data to the terminal device 20 by the output unit 106.

端末装置20は、置換後の文書データを受信すると、受信した文書データを画面上に表示する(ステップS104)。ここでは、図4において、文書データ600は、文書データ変更装置10から送信された文書データの一例である。この文書データ600の一部を拡大した画像610において、置換データに置換された箇所については、置換後の文字データに基づく文字が、指定されたフォントによって表示されるとともに、置換前の背景と同じ背景が合成された状態で表示される。ユーザは、画面上に表示された置換後の文書データを見て、変更処理を完了させるか否かを判断し、変更処理を完了させる場合には、変更完了の指示を端末装置20に入力する。端末装置20は、ユーザから入力される変更完了の指示を文書データ変更装置10に送信する。 Upon receiving the replaced document data, the terminal device 20 displays the received document data on the screen (step S104). Here, in FIG. 4, the document data 600 is an example of the document data transmitted from the document data changing device 10. In the image 610 obtained by enlarging a part of the document data 600, in the portion replaced with the replacement data, the character based on the character data after the replacement is displayed in the specified font and the same as the background before the replacement. The background is displayed in a composited state. The user looks at the replaced document data displayed on the screen and determines whether or not to complete the change process. When completing the change process, the user inputs a change completion instruction to the terminal device 20. .. The terminal device 20 transmits a change completion instruction input by the user to the document data changing device 10.

文書データ変更装置10は、変更完了の指示を受信すると、置換後の文書データを記憶部108に記憶する。端末装置20は、この記憶部108に記憶された置換後の文書データを文書データ変更装置10から受信して帳票として利用することができる。なお、ステップS104において表示した文書データを帳票として利用することもできる。 Upon receiving the change completion instruction, the document data changing device 10 stores the replaced document data in the storage unit 108. The terminal device 20 can receive the replaced document data stored in the storage unit 108 from the document data changing device 10 and use it as a form. The document data displayed in step S104 can be used as a form.

なお、ステップS205において置換対象が抽出された後、置換対象を端末装置20に送信し、置換対象を特定する指示を入力してもらっているが、全て置換してよいことが予め解っており、フォントの指示を予め取得している場合には、置換対象の送信を行うことなく、ステップS206以降の処理を実行してもよい。 After the replacement target is extracted in step S205, the replacement target is transmitted to the terminal device 20 and an instruction for specifying the replacement target is input. If the instruction of step S206 has been acquired in advance, the processing of step S206 and subsequent steps may be executed without transmitting the replacement target.

次に、背景色が設定された文字が変更される場合の一例を説明する。図5は、背景色が設定された文字を変更する場合の一例を示す図である。
この図において、画像700は、変更前の文書データが画面上に表示される文書データの一部を拡大した画像である。ここでは、例えば、「平成32」という文字列が検索用キーワードとして用いられて検索された場合、画像700に示す「平成32」という文字列(符号701)が置換対象として検索される。ここで、文字に対する背景の合成を行わずに単純にこの文字の文字コードを置換した場合には、例えば、画像710に示すように、置換された後の文字の背景が、その周囲の背景とは異なる態様(例えば異なる背景色)で表示されるため、置換後の文字の背景と、置換後の文字の近傍の背景との連続性が失われてしまい、見栄えが良くない。
ここで、背景を置換後の文字に対して合成をすることで、画像720に示すように、置換後の文字の背景と、置換後の文字の周囲の背景との連続性が維持される画像721として合成されるため、見栄えが良い。
Next, an example of a case where a character having a background color is changed will be described. FIG. 5 is a diagram illustrating an example of changing a character whose background color is set.
In this figure, an image 700 is an image obtained by enlarging a part of the document data displayed on the screen before the change. Here, for example, when the character string “Heisei 32” is used as the search keyword and is searched, the character string “Heisei 32” (reference numeral 701) shown in the image 700 is searched as the replacement target. Here, when the character code of this character is simply replaced without synthesizing the background for the character, for example, as shown in image 710, the background of the replaced character becomes the background surrounding it. Is displayed in a different mode (for example, different background color), the continuity between the background of the replaced character and the background in the vicinity of the replaced character is lost, and the appearance is not good.
Here, by combining the background with the character after replacement, as shown in image 720, an image in which the continuity of the background of the character after replacement and the background around the character after replacement is maintained. Since it is synthesized as 721, it looks good.

次に、出力部106の他の機能について説明する。出力部106は、上述した情報を出力する他に、変更対象箇所のリストを作成して出力することもできる。
図6は、リスト作成の処理を説明するシーケンス図である。
この図においてステップS101からステップS204については、図3に示すステップS101からステップS204までと同様である。ただし、ステップS101において送信される帳票の文書データは複数である。すなわち、ステップS101において、複数の帳票についてそれぞれ文書データが送信される。
Next, another function of the output unit 106 will be described. In addition to outputting the information described above, the output unit 106 can also create and output a list of change target locations.
FIG. 6 is a sequence diagram illustrating a list creation process.
In this figure, steps S101 to S204 are the same as steps S101 to S204 shown in FIG. However, the document data of the form transmitted in step S101 is plural. That is, in step S101, the document data is transmitted for each of the plurality of forms.

変更部104は、ステップS203において検索用キーワードを用いた検索を行うと、リスト生成部105は、検索が行われた文書データに置換対象となる文字が含まれているか否かを判定し、置換対象の文字が含まれている場合には、置換対象の文字を抽出する(ステップS251)。ここでは、検索用キーワードを用いた検索によって、検索用キーワードに一致する文字コードが見つかった場合、リスト生成部105は、検索が行われた文書データに置換対象となる文字が含まれていると判定し、検索用キーワードに一致する文字コードが見つからない場合には、検索が行われた文書データに置換対象となる文字が含まれていないと判定する。そして、リスト生成部105は、検索用キーワードに一致する文字コードが見つかった場合には、その文字コードについて置換対象であるとして抽出する。
次に、リスト生成部105は、検索を行った対象の文書データに対して、置換対象の文字が見つかったか否かを表すフラグを付与して記憶部108に記憶する(ステップS252)。フラグは、例えば、置換対象の文字がある場合には「1」、置換対象の文字がない場合には「0」が設定される。
When the changing unit 104 performs the search using the search keyword in step S203, the list generating unit 105 determines whether or not the search target document data includes a character to be replaced, and replaces it. If the target character is included, the replacement target character is extracted (step S251). Here, when the character code that matches the search keyword is found by the search using the search keyword, the list generation unit 105 determines that the document data that is searched includes the character to be replaced. When it is determined that the character code that matches the search keyword is not found, it is determined that the document data that has been searched does not include the character to be replaced. Then, when a character code that matches the search keyword is found, the list generation unit 105 extracts the character code as a replacement target.
Next, the list generation unit 105 adds a flag indicating whether or not the replacement target character has been found to the searched target document data, and stores it in the storage unit 108 (step S252). For the flag, for example, "1" is set when there is a replacement target character, and "0" is set when there is no replacement target character.

制御部107は、端末装置20から受信した全ての帳票についてフラグ付与の処理が終了したか否かを判定し(ステップS253)、終了していなければ、未処理の帳票を対象として、ステップS201からの処理を繰り返す。
一方、制御部107は、全ての帳票についてフラグ付与の処理が終了した場合には、出力部106は、フラグ付与の処理を行った各文書を対象としてリストを生成する(ステップS254)。このリストは、各帳票の識別番号と、その帳票に置換対象があったか否かのフラグとが関連付けられた情報である。
リストが生成されると、出力部106は、リストを端末装置20に送信する。
The control unit 107 determines whether or not the flag attaching process has been completed for all the forms received from the terminal device 20 (step S253), and if not completed, the unprocessed forms are targeted from step S201. The process of is repeated.
On the other hand, when the flag adding process is completed for all the forms, the control unit 107 generates a list for each document for which the flag adding process is performed (step S254). This list is information in which the identification number of each form is associated with a flag indicating whether or not the form has been replaced.
When the list is generated, the output unit 106 transmits the list to the terminal device 20.

端末装置20は、リストを受信すると、表示画面上にリストを表示する(ステップS251)。これにより、ユーザは、各帳票について置換対象があるか否かを簡単に把握することが可能となる。例えば、3枚綴りの帳票のうち、2枚目の帳票に置換対象の文字がある等についても把握することが可能となる。また、このようなリストを保存しておくことで、ログとして利用することが可能となる。 Upon receiving the list, the terminal device 20 displays the list on the display screen (step S251). As a result, the user can easily understand whether each form has a replacement target. For example, it becomes possible to understand that the second form has characters to be replaced among the forms spelled out of three. Further, by saving such a list, it becomes possible to use it as a log.

以上説明した実施形態において、PDF形式の帳票を対象にして文書データの変更処理を行う場合について説明したが、PDF形式ではなく、画像ファイルである文書データを対象として文書データの変更処理を行うようにしてもよい。画像ファイルを対象として文字認識を行った場合には、1つの画像ファイルに複数の文字と、その文字それぞれに座標データが対応付けられたデータが生成される。この場合、これらの複数の文字のうち、単語単位で1つの文字列とし、その文字列単位で文字コードと座標データを対応付けたデータを生成するようにしてもよい。 In the embodiment described above, the case where the document data change process is performed for the PDF format form has been described, but the document data change process is performed for the document data that is an image file instead of the PDF format. You can When character recognition is performed on an image file, a plurality of characters and data in which coordinate data is associated with each character are generated in one image file. In this case, one of the plurality of characters may be a character string on a word-by-word basis, and data in which the character code and the coordinate data are associated with each other may be generated.

また、上述した実施形態において、変更部104は、帳票の台紙の色を変更するようにしてもよい。台紙の色としては、例えば、文字データや文字画像において設定されている背景よりもさらに下層のレイヤに背景色を設定することで、台紙の色を設定するようにしてもよい。また、台紙の色としては、文字データや文字画像において背景が設定されていない箇所または、背景が透明として設定された箇所について、台紙の色となる背景色を設定するようにしてもよい。 Further, in the above-described embodiment, the changing unit 104 may change the color of the mount of the form. As the color of the mount, for example, the color of the mount may be set by setting the background color in a layer lower than the background set in the character data or the character image. Further, as the color of the mount, a background color that is the color of the mount may be set for a portion where the background is not set in the character data or the character image or a portion where the background is set to be transparent.

上述した実施形態における文書データ変更装置10の各部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。 Each unit of the document data changing device 10 in the above-described embodiment may be realized by a computer. In that case, the program for realizing this function may be recorded in a computer-readable recording medium, and the program recorded in this recording medium may be read by a computer system and executed. The “computer system” mentioned here includes an OS and hardware such as peripheral devices. Further, the “computer-readable recording medium” refers to a portable medium such as a flexible disk, a magneto-optical disk, a ROM, a CD-ROM, or a storage device such as a hard disk built in a computer system. Further, the "computer-readable recording medium" means to hold a program dynamically for a short time like a communication line when transmitting the program through a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory inside a computer system that serves as a server or a client in that case may hold a program for a certain period of time. Further, the program may be for realizing some of the functions described above, or may be one that can realize the functions described above in combination with a program already recorded in the computer system, It may be realized using a programmable logic device such as FPGA (Field Programmable Gate Array).

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 Although the embodiment of the present invention has been described in detail above with reference to the drawings, the specific configuration is not limited to this embodiment, and includes a design and the like within a range not departing from the gist of the present invention.

1 文書データ変更システム
10 文書データ変更装置
20、20A、20B 端末装置
30 ネットワーク
101 通信部
102 文字認識部
103 背景認識部
104 変更部
105 リスト生成部
106 出力部
107 制御部
108 記憶部
1 Document Data Change System 10 Document Data Change Device 20, 20A, 20B Terminal Device 30 Network 101 Communication Unit 102 Character Recognition Unit 103 Background Recognition Unit 103 Background Recognition Unit 104 Change Unit 105 List Generation Unit 106 Output Unit 107 Control Unit 108 Storage Unit

Claims (4)

文字を表示する位置を示す座標データと当該文字を表す文字コードとが対応づけされた文字データと、座標データと文字が画像として表現された文字画像とが対応付けられた画像データと、を含む文書データに対して文字認識する文字認識部と、
前記文字認識された結果に基づいて、前記文字コードが置換対象である文字の文字コードに対応している場合には、当該文字コードを置換後の文字に対応する文字コードに変更し、前記文字画像に含まれる文字が置換対象の文字である場合には、当該文字画像を置換後の文字を含む置換データに変更する変更部と、
を有する文書データ変更装置。
It includes character data in which coordinate data indicating a position for displaying a character and a character code indicating the character are associated with each other, and image data in which the coordinate data and a character image in which the character is expressed as an image are associated with each other. A character recognition unit that recognizes characters for document data,
Based on the result of the character recognition, if the character code corresponds to the character code of the character to be replaced, change the character code to the character code corresponding to the character after replacement, the character code When the character included in the image is a character to be replaced, a changing unit that changes the character image to replacement data including the replaced character,
Document data changing device having.
前記置換データは、予め用意された、置換後の文字が所定のフォントで表現された文字画像、または、置換後の文字に対応する文字画像を生成することで得られる文字画像である
請求項1記載の文書データ変更装置。
The replacement data is a character image prepared in advance in which characters after replacement are expressed in a predetermined font, or a character image obtained by generating a character image corresponding to the characters after replacement. Document data change device described.
前記置換対象の文字画像の背景を認識する背景認識部を有し、
前記変更部は、
前記置換後の文字に対して前記認識された背景を合成した置換データを生成し、前記置換対象の文字画像を前記生成された置換データに変更する
請求項1記載の文書データ変更装置。
A background recognition unit that recognizes the background of the replacement target character image,
The change unit is
The document data changing device according to claim 1, wherein replacement data is generated by combining the recognized background with the replaced character, and the replacement target character image is changed to the generated replacement data.
文字認識部が、文字を表示する位置を示す座標データと当該文字を表す文字コードとが対応づけされた文字データと、座標データと文字が画像として表現された文字画像とが対応付けられた画像データと、を含む文書データに対して文字認識し、
変更部が、前記文字認識された結果に基づいて、前記文字コードが置換対象である文字の文字コードに対応している場合には、当該文字コードを置換後の文字に対応する文字コードに変更し、前記文字画像に含まれる文字が置換対象の文字である場合には、当該文字画像を置換後の文字を含む置換データに変更する
文書データ変更方法。
An image in which the character recognition unit associates the character data in which the coordinate data indicating the position where the character is displayed with the character code indicating the character with each other, and the coordinate data and the character image in which the character is expressed as an image. Character recognition is performed on document data including data and
The changing unit, based on the result of the character recognition, when the character code corresponds to the character code of the character to be replaced, changes the character code to the character code corresponding to the replaced character. Then, when the character included in the character image is a character to be replaced, the document data changing method of changing the character image to replacement data including the replaced character.
JP2018217591A 2018-11-20 2018-11-20 Document data modification apparatus and document data modification method Pending JP2020086718A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018217591A JP2020086718A (en) 2018-11-20 2018-11-20 Document data modification apparatus and document data modification method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018217591A JP2020086718A (en) 2018-11-20 2018-11-20 Document data modification apparatus and document data modification method

Publications (1)

Publication Number Publication Date
JP2020086718A true JP2020086718A (en) 2020-06-04

Family

ID=70909915

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018217591A Pending JP2020086718A (en) 2018-11-20 2018-11-20 Document data modification apparatus and document data modification method

Country Status (1)

Country Link
JP (1) JP2020086718A (en)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58123152A (en) * 1982-01-14 1983-07-22 Toshiba Corp Editing device of document picture image
JPH07288676A (en) * 1994-04-19 1995-10-31 Canon Inc Image processing unit and its method
JP2003085164A (en) * 2001-09-07 2003-03-20 Xelo Inc Document output device, method and computer program
JP2006251902A (en) * 2005-03-08 2006-09-21 Fuji Xerox Co Ltd Device, program, and method for generating translation document image
JP2011060268A (en) * 2009-08-10 2011-03-24 Fuji Xerox Co Ltd Image processing apparatus and program
US20180260376A1 (en) * 2017-03-08 2018-09-13 Platinum Intelligent Data Solutions, LLC System and method to create searchable electronic documents

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58123152A (en) * 1982-01-14 1983-07-22 Toshiba Corp Editing device of document picture image
JPH07288676A (en) * 1994-04-19 1995-10-31 Canon Inc Image processing unit and its method
JP2003085164A (en) * 2001-09-07 2003-03-20 Xelo Inc Document output device, method and computer program
JP2006251902A (en) * 2005-03-08 2006-09-21 Fuji Xerox Co Ltd Device, program, and method for generating translation document image
JP2011060268A (en) * 2009-08-10 2011-03-24 Fuji Xerox Co Ltd Image processing apparatus and program
US20180260376A1 (en) * 2017-03-08 2018-09-13 Platinum Intelligent Data Solutions, LLC System and method to create searchable electronic documents

Similar Documents

Publication Publication Date Title
US7606419B2 (en) Translated document image production device, recording medium and translated document image production method
CN107133615B (en) Information processing apparatus, information processing method, and computer program
JP2010009509A (en) Image processor, image processing method, program thereof, and storage medium
US9558433B2 (en) Image processing apparatus generating partially erased image data and supplementary data supplementing partially erased image data
US11243670B2 (en) Information processing system, information processing apparatus, information processing method and non-transitory computer readable medium
US9519984B2 (en) Image processing device, image processing method, information storage medium, and program
US20150169508A1 (en) Obfuscating page-description language output to thwart conversion to an editable format
US9883071B2 (en) Image processing apparatus, terminal device, and non-transitory data recording medium recording control program
EP3316173B1 (en) System and method for cheque image data masking
US9792263B2 (en) Human input to relate separate scanned objects
JP2019159932A (en) Information processing device and program
US20170154023A1 (en) Information processing system, control method for information processing system, information processing apparatus, and storage medium
US9905030B2 (en) Image processing device, image processing method, information storage medium, and program
JP5867790B2 (en) Image processing device
JP2020086718A (en) Document data modification apparatus and document data modification method
JP2020086719A (en) Document data modification apparatus and document data modification method
US20060017989A1 (en) Image processing device, image processing method, and recording medium in which image processing program is stored
JP2003046746A (en) Method and apparatus for processing image
US11074392B2 (en) Information processing apparatus and non-transitory computer readable medium for switching between an attribute information mode and an image information mode
JP2012048637A (en) Image processing apparatus, image processing method, computer program
JP2022090469A (en) Format defining device, format defining method, and program
JP2020099031A (en) Information processing apparatus and information processing method
JP2020115260A (en) Information processing device and information processing program
JP2015064652A (en) Management system, image forming apparatus, and terminal device
JP2013088777A (en) Viewer device, server device, display control method, electronic comic editing method and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210812

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220705

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20221223