JP2020086718A - Document data modification apparatus and document data modification method - Google Patents
Document data modification apparatus and document data modification method Download PDFInfo
- Publication number
- JP2020086718A JP2020086718A JP2018217591A JP2018217591A JP2020086718A JP 2020086718 A JP2020086718 A JP 2020086718A JP 2018217591 A JP2018217591 A JP 2018217591A JP 2018217591 A JP2018217591 A JP 2018217591A JP 2020086718 A JP2020086718 A JP 2020086718A
- Authority
- JP
- Japan
- Prior art keywords
- character
- image
- data
- document data
- replacement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Character Discrimination (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、文書データ変更装置、文書データ変更方法に関する。 The present invention relates to a document data changing device and a document data changing method.
帳票は、各種手続きの申込書や、クレジットカードの引き落とし明細書等として用いられ、印刷物としてユーザへの配布やWeb上での提示が行われている。
このような帳票は、複数あるデータ形式のうち、例えば、米国アドビシステムズ社が提唱するPDF(Portable Document Format)形式のドキュメントファイルに変換してから印刷処理し、当該PDFドキュメントファイルの状態で保存する場合がある。この形式とすることで、PDFドキュメントファイルとして印刷処理して提示する場合と、Web上で提示する場合とで同一の形態で提示することができる。
このような帳票は、発行元において作成された後に記述内容を変更する必要が生じた場合、変更の対象となる箇所(変更対象箇所)に対して変更が行われる。
画像データに含まれる文字等についてチェックを行うためのシステムも開示されている(例えば、特許文献1)。
The form is used as an application form for various procedures, a credit card withdrawal statement, and the like, and is distributed to users as a printed matter or presented on the Web.
Such a form is converted into a PDF (Portable Document Format) format document file advocated by Adobe Systems Incorporated of the United States, for example, is subjected to print processing, and is saved in the state of the PDF document file. There are cases. With this format, it is possible to present the PDF document file in the same form when it is printed and presented and when it is presented on the Web.
When it is necessary to change the description content of such a form after it has been created by the issuer, the part to be changed (change target part) is changed.
A system for checking characters and the like included in image data is also disclosed (for example, Patent Document 1).
しかしながら、帳票に記載される文字は、ドキュメントファイルにおいて文字データを用いて記述される場合もあるが、文字画像を用いて記述される場合もある。例えば、会社名、書類名称、項目の名称、商品名、広告等のデザイン性のある文字列やロゴ(ロゴタイプ)は、文字列であっても画像によって表す場合がある。文字が文字データを用いて記述される場合には、文字検索機能を利用することで、変更対象の文字があるか否かを簡単に見つけることができるが、文字が文字画像によって記述される場合には、文字検索機能を利用することができない。そのため、オペレータは、文字検索機能を利用した文字の変更作業とは別に、ドキュメントファイルを画面上に表示させ、変更対象箇所があるか否かを画面上における表示内容を目視によって探す必要がある。そのため、変更作業が、文字検索機能を利用した変更作業と、目視によって変更箇所を探す変更作業との2段階となってしまい、また、目視によって変更箇所を探す負担が大きい。 However, the characters described in the form may be described using character data in the document file, or may be described using character images. For example, a company name, a document name, an item name, a product name, a designable character string such as an advertisement, or a logo (logotype) may be represented by an image even if it is a character string. When a character is described using character data, it is possible to easily find out whether there is a character to be changed by using the character search function. However, when the character is described by a character image Cannot use the character search function. Therefore, the operator needs to display the document file on the screen separately from the character changing operation using the character search function, and visually check the display content on the screen as to whether or not there is a change target portion. Therefore, the change work has two steps, that is, the change work using the character search function and the change work for visually locating the changed portion, and the burden of visually locating the changed portion is large.
本発明は、このような事情に鑑みてなされたもので、その目的は、文字が画像データを用いて記述される場合であっても変更作業にかかる負担を低減することができる文書データ変更装置、文書データ変更方法を提供することにある。 The present invention has been made in view of such circumstances, and an object thereof is a document data changing device capable of reducing the burden of changing work even when characters are described using image data. , To provide a method for changing document data.
上述した課題を解決するために、本発明は、文字を表示する位置を示す座標データと当該文字を表す文字コードとが対応づけされた文字データと、座標データと文字が画像として表現された文字画像とが対応付けられた画像データと、を含む文書データに対して文字認識する文字認識部と、前記文字認識された結果に基づいて、前記文字コードが置換対象である文字の文字コードに対応している場合には、当該文字コードを置換後の文字に対応する文字コードに変更し、前記文字画像に含まれる文字が置換対象の文字である場合には、当該文字画像を置換後の文字を含む置換データに変更する変更部と、を有する。 In order to solve the problems described above, the present invention provides character data in which coordinate data indicating a position at which a character is displayed and a character code indicating the character are associated with each other, and character data in which the coordinate data and the character are expressed as an image. A character recognition unit that recognizes characters in document data including image data associated with an image, and the character code corresponds to a character code of a character to be replaced based on the result of the character recognition. If the character code is changed to a character code corresponding to the character after replacement, and the character included in the character image is the character to be replaced, the character image after the character image is replaced And a change unit for changing to replacement data including.
また、本発明は、文字認識部が、文字を表示する位置を示す座標データと当該文字を表す文字コードとが対応づけされた文字データと、座標データと文字が画像として表現された文字画像とが対応付けられた画像データと、を含む文書データに対して文字認識し、変更部が、前記文字認識された結果に基づいて、前記文字コードが置換対象である文字の文字コードに対応している場合には、当該文字コードを置換後の文字に対応する文字コードに変更し、前記文字画像に含まれる文字が置換対象の文字である場合には、当該文字画像を置換後の文字を含む置換データに変更する文書データ変更方法である。 Further, according to the present invention, the character recognition unit includes character data in which coordinate data indicating a position for displaying a character and a character code indicating the character are associated with each other, and a character image in which the coordinate data and the character are expressed as an image. Image data associated with, and character recognition is performed on the document data including, and the changing unit, based on the result of the character recognition, the character code corresponds to the character code of the character to be replaced. If the character code is changed, the character code is changed to a character code corresponding to the replaced character, and if the character included in the character image is the character to be replaced, the character image includes the replaced character. This is a document data changing method for changing to replacement data.
以上説明したように、この発明によれば、文字が画像データを用いて記述される場合であっても、変更作業にかかる負担を低減することができる。すなわち、オペレータは、文字検索機能を利用した文字の変更作業と、画像データを用いて表された文字に対する変更作業を一緒に行うことができ、かつ、画像データを用いて表された文字に変更対象箇所があるか否かを目視によって探す手間を省くことができる。 As described above, according to the present invention, even when characters are described using image data, it is possible to reduce the burden of changing work. That is, the operator can perform the work of changing the character using the character search function and the work of changing the character represented by using the image data at the same time, and the character can be changed to the character represented by using the image data. It is possible to save the trouble of visually searching whether or not there is a target portion.
以下、本発明の一実施形態による文書データ変更システム1について図面を参照して説明する。
図1は、この発明の一実施形態による文書データ変更システム1の構成を示す概略ブロック図である。
文書データ変更システム1は、文書データ変更装置10に対して端末装置20A、端末装置20B(以下、識別しないときは単に「端末装置20」と称する)がネットワーク30を介して接続される。文書データ変更装置10は、帳票として用いられる文書データにおいて変更を行う対象の箇所について記述内容を変更する機能を有する。帳票は、例えば、各種手続の申込書、カタログ、パンフレット、広告等である。
A document data changing system 1 according to an embodiment of the present invention will be described below with reference to the drawings.
FIG. 1 is a schematic block diagram showing the configuration of a document data changing system 1 according to an embodiment of the present invention.
In the document data changing system 1, a
端末装置20は、コンピュータ、スマートフォン、タブレット端末等であり、帳票を発行するユーザや帳票を作成するユーザによって利用される。端末装置20には、入力装置が設けられている。入力装置は、例えば、タッチパネル、キーボード、マウス等である。
端末装置20は、帳票として用いられる文書データを文書データ変更装置10に送信する。この文書データは、文字を表示する位置を示す座標データと当該文字を表す文字コードとが対応づけされた文字データと、座標データと文字が画像として表現された文字画像とが対応付けられた画像データと、を含む。文字データは、例えば、所定の文字コードに対応づけられた文字の情報をいい、検索用キーワードとして入力された検索文字に対応して検索可能となる文字の情報である。文字画像は、例えば、会社名、書類名称、項目の名称、商品名、広告等のデザイン性のある文字列やロゴ(ロゴタイプ)が画像として表現される場合に用いられることがある。
The terminal device 20 is a computer, a smartphone, a tablet terminal, or the like, and is used by a user who issues a form or a user who creates a form. The terminal device 20 is provided with an input device. The input device is, for example, a touch panel, a keyboard, a mouse, or the like.
The terminal device 20 transmits the document data used as a form to the document
このような文書データは、文書作成ソフトウェア等を用いて任意のデータ形式に従って作成されたデータであってよい。この実施形態においては、データ形式がPDF形式である場合について説明するが、文字データと画像データが含まれる文書データであれば、例えば、マイクロソフト社のMicrosoft Word(登録商標)、Microsoft Excel(登録商標)、Microsoft PPT(Power Point)(登録商標)、アドビシステムズ社のイラストレータ(登録商標)等のデータ形式で作成された文書データであってもよい。 Such document data may be data created according to an arbitrary data format using document creation software or the like. In this embodiment, the case where the data format is the PDF format will be described. However, if it is document data including character data and image data, for example, Microsoft Word (registered trademark), Microsoft Excel (registered trademark) of Microsoft Corporation. ), Microsoft PPT (Power Point) (registered trademark), Illustrator (registered trademark) of Adobe Systems Incorporated, or the like.
また、文書データは、PDF形式等のデータであってもよいが、印刷された帳票をスキャナで光学的に読み取るか、カメラで撮影されることで生成される画像ファイルであってもよい。この場合における文書データは、文字データが含まれていない。ただし、このような画像ファイルに対して文字データが付加されたデータを文書データとして用いることもできる。 Further, the document data may be data in a PDF format or the like, but may be an image file generated by optically reading a printed form with a scanner or capturing an image with a camera. The document data in this case does not include character data. However, data in which character data is added to such an image file can also be used as document data.
ここで帳票は、例えば端末装置20Aにおいて文書作成ソフトウェア等で作成された後、PDF形式で保存され、帳票を印刷するためのデータとして用いられたり、WEBサーバを用いてWEB上において公開され、各種申し込みをするユーザの端末装置(例えば端末装置20B)がダウンロードして利用可能となっている。
端末装置20Aのユーザは、このような文書データの一部の文字を変更したい場合には、文書データを文書データ変更装置10に送信し、文書データの少なくとも一部を変更することができる。
Here, the form is created in the
When the user of the
次に、文書データ変更装置10は、通信部101と、文字認識部102と、背景認識部103と、変更部104と、リスト生成部105と、出力部106と、制御部107、記憶部108とを有する。
通信部101は、ネットワーク30を介して端末装置20A、端末装置20Bと通信を行う。また、通信部101は、端末装置20から送信される文書データを受信する機能、文書データ変更装置10において生成される各種情報を端末装置20に送信する機能を有する。
Next, the document
The
文字認識部102は、文字が画像として表現された文字画像を少なくとも一部に含む文書データに対して文字認識する。このような文書データは、大別すると2種類ある。
1つ目は、文字が画像として記述された画像データであり、例えば、帳票がスキャナ等で読み取られることで生成される画像ファイルや、帳票がカメラで撮像された撮像データがある。
2つ目は、文字を表示する位置を示す座標データと当該文字を表す文字コードとが対応づけされた文字データと、座標データと文字が画像として表現された文字画像とが対応付けられた画像データと、を含む文書データである。2つ目の文書データは、例えば、PDF形式で保存されるドキュメントファイルである。
The
The first is image data in which characters are described as images. For example, there is an image file generated by reading a document with a scanner or the like, and imaged data obtained by capturing an image of the document with a camera.
The second is an image in which character data in which coordinate data indicating a position for displaying a character and a character code representing the character are associated with each other, and coordinate data and a character image in which the character is expressed as an image are associated with each other. Document data including data and. The second document data is, for example, a document file saved in PDF format.
文字認識部102は、文字データについては、文字データに含まれる文字コードを読み込むことで文字を認識し、画像データについては、画像データに含まれる文字画像が表す文字を認識して認識結果に対応する文字の文字コードを得ることで文字を認識する。文字画像に対して文字認識を行うことで、文字画像に含まれる文字の文字コードを生成することができる。これにより、文字画像であっても検索用キーワードを用いた検索を行うことが可能となるため、目視によって変更箇所を探す必要がない。また、検索用キーワードを用いて、文字データと画像データの両方を対象として検索することが可能となり、文字検索機能を利用した変更作業と、目視によって変更箇所を探す変更作業との2段階となってしまうことを防止することができる。
For character data, the
ここで、図2は、文字認識部102によって画像データを対象として文字認識された結果の一例を示す図である。この図では、2つの文字認識結果が図示されている。ここでは、一例として、「平」と「成」の2つの文字が1つの文字画像として表現されている場合の文字認識結果が示されている。上段は、文字画像のうち「平」という文字が文字認識された結果を表し、下段は、文字画像のうち「成」という文字が文字認識された結果であり、それぞれ文字と当該文字が記述される文書データにおける座標位置を示す座標データを含む。「l」は文字の左端のX座標(水平方向を表す座標軸)、「t」は文字の上端のy座標(垂直方向を表す座標軸)、「r」文字の右端のX座標、「b」は文字の下端のy座標における位置を表す。これらの座標によって表された領域に読み取り結果の文字が存在することを示している。このような文字認識結果は、1文字毎に得られてもよいし、1つの文字画像に含まれる複数の文字を1つの文字列(単語)として1つの文字認識結果を得るようにしてもよい。この場合、座標データは、1つの文字列の先頭の文字と末尾の文字のそれぞれの位置に基づいて特定される。
Here, FIG. 2 is a diagram illustrating an example of a result of character recognition performed on the image data by the
背景認識部103は、置換対象の文字画像の背景を認識する。
背景の表示態様は、色と模様がある。背景認識部103は、色を認識する場合、置換対象の文字画像の背景の色情報を取得することで背景色を認識する。また、背景認識部103は、模様を認識する場合、置換対象の文字画像に含まれる文字の周囲の背景から所定サイズの領域内の画像(背景)をコピーすることで認識する。背景の模様としては、例えば、ハッチングやドットパターンがある。
The
Background display modes include colors and patterns. When recognizing a color, the
変更部104は、文字認識された結果に基づいて、文字コードが置換対象である文字の文字コードに対応している場合には、当該文字コードを置換後の文字に対応する文字コードに変更し、文字画像に含まれる文字が置換対象である文字である場合には、当該文字画像を置換後の文字を含む置換データに変更する。置換後の文字に対応する文字コードは、端末装置20のオペレータから予め入力してもらうようにしてもよいし、置換対象が見つかった段階でオペレータに入力してもらうようにしてもよい。ここで、変更部104は、置換対象の文字コードや置換対象の文字を含む文字画像があるか否かの判定を行うが、元の文書データの一部の文字コードあるいは文字画像を変更することができのものであれば、データの入れ換え、付け替え、切り換え等のいずれの方法によって置換がなされてもよい。
If the character code corresponds to the character code of the character to be replaced, based on the result of character recognition, the changing
変更部104は、文字画像を変更する場合、当該文字画像を、予め用意された、置換後の文字が所定のフォントで表現された文字画像、または、置換後の文字に対応する文字画像を生成することで得られる文字画像に変更する。すなわち、変更部104は、(a)変更後の文字画像を予め準備されている文字画像に変更すること、(b)文字画像を変更する時点で置換後の文字画像を生成して変更すること、のいずれの処理であっても実行することができる。
(a)の場合における予め入力される文字画像は、端末装置20のオペレータから予め入力されるようにしてもよい。
(b)の場合、変更部104は、置換後の文字に対して、背景認識部103によって認識された背景を合成した置換データを生成する。この置換データは、文字画像として生成することもでき、また、文字データとして生成することもできる。
When changing the character image, the changing
The character image input in advance in the case of (a) may be input in advance by the operator of the terminal device 20.
In the case of (b), the changing
変更部104は、置換データを文字画像として生成する場合、置換後の文字が画像として表現された文字画像を生成し、この文字画像の背景として、背景認識部103よって認識された背景を合成する。例えば、変更部104は、生成された文字画像における背景の色または模様について、背景認識部103によって認識された色または模様に置換するか、背景を透明にした文字画像を生成し、生成された文字画像の下層側のレイヤに背景認識部103によって認識された背景を重ねることで、置換後の文字画像を生成する。
When generating the replacement data as a character image, the changing
変更部104は、置換データを文字データとして生成する場合、置換後の文字を示す文字コードに対して、背景認識部103によって認識された背景をバックグラウンド背景として設定する。例えば、置換データをXML(Extensible Markup Language)形式で記述する場合には、置換後の文字データに対して、バックグラウンド背景の色を指定するコードをタグで囲むことで設定することができる。
When the replacement data is generated as the character data, the changing
このように、置換された後の文字に対して背景を合成するようにしたので、置換前の文字画像を置換データに変更した場合であっても、置換データの周辺の背景と置換データの背景が同一またはほぼ同一とすることができるため、置換データ周辺の背景と置換データの背景との連続性を保つことができる。これにより、文字画像を置換した場合であっても、帳票全体の見栄えが低下したり、違和感を与えてしまうようなことを防ぐことができる。 In this way, the background is composed for the replaced character, so even if the character image before replacement is changed to replacement data, the background around the replacement data and the background of the replacement data are Can be the same or almost the same, so that the continuity between the background around the replacement data and the background of the replacement data can be maintained. As a result, even if the character image is replaced, it is possible to prevent the appearance of the entire form from being deteriorated or giving a feeling of strangeness.
なお、置換データとして背景を合成する処理については、他の方法で実現してもよい。例えば、文字の背景がベタ塗り(同一の色で一様に塗り潰した状態)であって、文字色の方が背景に比べて薄い(淡い)色である場合、変更部104は、画像データの背景と文字の色について、前処理としてネガポジ反転をしておき、文字認識部102によって文字認識を行わせ、その文字認識結果を利用して置換対象の文字を置換した後、ネガポジ反転を元に戻すようにしてもよい。また、ネガポジ反転を元に戻すのではなく、上述したように、背景の色を合成するようにしてもよい。
なお、背景となる色は、予め決められた色が設定されてもよいし、置換対象の文字の周囲の所定サイズの領域における画素の色を検出し、検出された色が複数ある場合には、最も面積が広い色を背景として設定し、2番目に多い色を文字の色として設定するようにしてもよい。
The process of combining the background as the replacement data may be realized by another method. For example, when the background of the character is a solid color (a state where the character is uniformly filled with the same color) and the character color is a lighter (lighter) color than the background, the changing
Note that the background color may be set to a predetermined color, or the color of a pixel in a region of a predetermined size around the character to be replaced is detected, and when there are a plurality of detected colors, The color having the largest area may be set as the background, and the color having the second largest area may be set as the character color.
リスト生成部105は、検索用キーワードを用いて検索された結果に基づいて、文書データに置換対象の文字が含まれるか否かを判定し、判定結果を文書データに関連付けて記憶部108に記憶する。
また、リスト生成部105は、判定結果が関連付けられた文書データの複数を対象として、各文書データに置換対象の文字が含まれているか否かを表す一覧情報(リスト)を生成する。
The
Further, the
出力部106は、各種情報を出力する。出力先としては、例えば、端末装置20や、文書データ変更装置10に接続される表示装置等である。
The
制御部107は、文書データ変更装置10内の各部を制御する。
記憶部108は、各種データを記憶する。記憶部108は、例えば、HDD(Hard Disk Drive)、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、RAM(Random Access read/write Memory)、ROM(Read Only Memory)等の記憶媒体、またはこれらの記憶媒体の任意の組み合わせによって構成される。
The
The
次に、文書データ変更システム1の動作について、図3、図4を用いて説明する。
図3は、文書データ変更システム1の動作を説明するシーケンス図、図4は、変更処理の過程を説明する概念図である。
端末装置20は、ユーザからの指示に応じて、変更する対象の文字を含み得る帳票の文書データ、検索対象を指定する検索用キーワード、置換後の文字を指定する指示を文書データ変更装置10に送信する(ステップS101)。検索用キーワードは、置換する対象の文字列を表すテキストデータである。この検索用キーワードは、少なくとも1文字以上の文字列である。
Next, the operation of the document data changing system 1 will be described with reference to FIGS.
FIG. 3 is a sequence diagram for explaining the operation of the document data changing system 1, and FIG. 4 is a conceptual diagram for explaining the process of the changing process.
In response to an instruction from the user, the terminal device 20 informs the document
文書データ変更装置10の文字認識部102は、端末装置20から文書データと検索用キーワードと置換後の文字を指定する指示を通信部101によって受信して記憶部108に記憶し、文書データに対して二値化処理を行う(ステップS201)。この二値化処理を行うことにより、文字認識部102は、文書データにおける濃淡がある各画素について、白と黒の二値のいずれかにすることができる。
次に、文字認識部102は、二値化された文書データを対象として透過処理を行う(ステップS202)。この透過処理を行うことにより、文字認識部102は、文書データを光学的に読み込んだ際に生じる、帳票の外周にできた影、枠線、画像上に存在するノイズ(光学系に存在する汚れ等に起因して生じるデータ)等を消去する。
なお、文字認識部102は、前処理として、上述の二値化処理や透過処理の他に、必要に応じて傾きを無くす補正等を行ってもよい。
The
Next, the
It should be noted that the
次に、文字認識部102は、透過処理が行われた後の文書データを対象とし、文書データに含まれる文字データと文字画像について文字認識処理を行う(ステップS203)。ここでは、文字認識部102は、文字データについて、文字データに含まれる文字コードを読み込むことで文字を認識し、画像データについて、文字画像が表す文字を認識して認識結果に対応する文字の文字コードを得る。
Next, the
文字認識処理が行われると、変更部104は、文字認識された結果を対象として、検索用キーワードを用いて検索を行う(ステップS204)。この検索は、文字データから読み取った文字コードと、文字画像から得られた文字コードを対象として行われる。なお、例えば画像データ等の文字データが含まれていない文書データについては、文字画像から得られた文字コードを対象として検索が行われる。
変更部104は、検索用キーワードに対応する文字コードが文書データから検索結果として得られた場合には、その得られた文字データについて変更対象として出力部106によって端末装置20に送信する(ステップS205)。例えば、変更部104は、ステップS202において透過処理が行われた後の文書データの画像に対して、ステップS204における検索結果として得られた文字コードに対応する文字に対して、変更対象があることを示す図形を重畳させた画像を生成し、この生成された情報を変更対象を表す情報として端末装置20に送信する。これにより、端末装置20のユーザは、文書データのどの位置に、変更対象となる文字があるかを簡単に把握することができる。
When the character recognition processing is performed, the changing
When the character code corresponding to the search keyword is obtained as the search result from the document data, the changing
端末装置20は、文書データ変更装置10から送信される変更対象を表す情報を受信すると、受信した情報を画面上に表示する。ここで、図4に示すように、端末装置20の表示画面上には、変更対象である帳票の画像データ500が表示される。ここでは、例えば、透過処理がなされた後の画像データが表示される。画像510が示す図は、画像データ500の一部の領域を拡大した図である。この画像データのうち、変更対象として抽出された文字に対して、画像520に示すように、変更対象があることを示す図形が重畳された画像521が表示される。
When the terminal device 20 receives the information indicating the change target transmitted from the document
また、変更対象として抽出された文字を表示するにあたり、画像530に示すように、変更対象の文字がある箇所に対して、ステップS101において指定された置換後の文字とともに変更対象があることを示す図形を重畳させて表示するようにしてもよい。置換後の文字を重畳させる処理は、文書データ変更装置10がステップS204の検索用キーワードを用いた検索を行った後に実行してもよい。置換後の文字を重畳させて表示する場合には、変更対象があることを示す図形の領域内を文字が視認可能となるように透過状態で所定の色で塗り潰して表示してもよく、また、置換対象の文字の背景色を所定の背景色に置換または重ねて表示するようにしてもよい。これにより、変更対象の箇所をユーザに見つけてもらいやすくすることができる。
なお、変更対象の箇所が複数抽出された場合には、それぞれが変更対象として表示される。
Further, in displaying the character extracted as the change target, as shown in the
If a plurality of parts to be changed are extracted, each of them is displayed as a change target.
図3に戻り、端末装置20は、端末装置20の入力装置からユーザによって入力される、置換対象を選択する指示を受け付ける(ステップS102)。
置換対象の指示は、例えば、変更対象のうち実際に置換を行う対象の文字を特定する指示である。ここでは、変更対象として抽出された文字全てに対して変更を行う場合もあるが、変更対象として抽出された文字のうち、一部の箇所について変更を行う場合がある。例えば、文書データにある元号「平成」の表記を他の表記に変更する場合、会社名、組織名、商品名等に「平成」の文字が含まれる場合、必ずしも他の表記に変更するとは限らないため、ユーザに確認してもらい、実際に変更する対象の文字を置換対象として指定してもらうことが好ましい。
さらに、端末装置20は、端末装置20の入力装置からユーザによって入力される、フォントの指示を受け付ける(ステップS103)。フォントの指示は、置換された後の文字を表示する際のフォントを特定する指示である。フォントの指示は、例えば、文字を表現する書体、文字のサイズ、太字や斜体等のスタイル等を特定する指示である。
端末装置20は、置換対象を特定する指示とフォントの指示を文書データ変更装置10に送信する。なお、置換後の文字の指定は、ステップS103において入力されていてもよいが、ステップS101において入力されていてもよい。
Returning to FIG. 3, the terminal device 20 receives an instruction to select a replacement target, which is input by the user from the input device of the terminal device 20 (step S102).
The replacement target instruction is, for example, an instruction for specifying a character to be actually replaced in the change target. Here, there is a case where all the characters extracted as a change target are changed, but there are cases where a part of the characters extracted as a change target is changed. For example, if you change the notation of the era "Heisei" in the document data to another notation, or if the company name, organization name, product name, etc. include the characters "Heisei", it is not necessarily changed to another notation. Since it is not limited, it is preferable to have the user confirm and specify the character to be actually changed as the replacement target.
Further, the terminal device 20 receives a font instruction input by the user from the input device of the terminal device 20 (step S103). The font instruction is an instruction to specify the font when displaying the character after the replacement. The font instruction is, for example, an instruction to specify a typeface expressing a character, a character size, a style such as bold or italic, and the like.
The terminal device 20 transmits an instruction for specifying the replacement target and an instruction for the font to the document
文書データ変更装置10の変更部104は、置換対象を特定する指示とフォントの指示を端末装置20から受信すると、受信した置換対象を特定する指示に基づいて、置換対象が文字データに対して置換対象として特定されている場合には、その特定された文字データの文字コードを置換後の文字コードに置換する(ステップS206)。
次に、変更部104は、置換対象が文字画像に対して置換対象として特定されている場合には、その特定された文字画像の背景を認識させる指示を背景認識部103に出力する。背景認識部103は、この指示に基づいて、指定された文字画像の背景を認識し、認識結果を変更部104に出力する(ステップS207)。
背景の認識結果が得られると、変更部104は、文字画像に含まれる文字の文字コードを置換後の文字コードに置換し、この文字コードに対応する文字を、指定されたフォントによって描画する(ステップS208)。さらに、変更部104は、背景認識部103によって得られた背景を置換後の文字コードの背景に合成することで置換データを生成する(ステップS209)。そして、変更部104は、置換対象の文字画像を置換データに置換する。そして、変更部104は、置換後の文書データを出力部106によって端末装置20に送信する。
When the changing
Next, when the replacement target is specified as the replacement target for the character image, the changing
When the background recognition result is obtained, the changing
端末装置20は、置換後の文書データを受信すると、受信した文書データを画面上に表示する(ステップS104)。ここでは、図4において、文書データ600は、文書データ変更装置10から送信された文書データの一例である。この文書データ600の一部を拡大した画像610において、置換データに置換された箇所については、置換後の文字データに基づく文字が、指定されたフォントによって表示されるとともに、置換前の背景と同じ背景が合成された状態で表示される。ユーザは、画面上に表示された置換後の文書データを見て、変更処理を完了させるか否かを判断し、変更処理を完了させる場合には、変更完了の指示を端末装置20に入力する。端末装置20は、ユーザから入力される変更完了の指示を文書データ変更装置10に送信する。
Upon receiving the replaced document data, the terminal device 20 displays the received document data on the screen (step S104). Here, in FIG. 4, the
文書データ変更装置10は、変更完了の指示を受信すると、置換後の文書データを記憶部108に記憶する。端末装置20は、この記憶部108に記憶された置換後の文書データを文書データ変更装置10から受信して帳票として利用することができる。なお、ステップS104において表示した文書データを帳票として利用することもできる。
Upon receiving the change completion instruction, the document
なお、ステップS205において置換対象が抽出された後、置換対象を端末装置20に送信し、置換対象を特定する指示を入力してもらっているが、全て置換してよいことが予め解っており、フォントの指示を予め取得している場合には、置換対象の送信を行うことなく、ステップS206以降の処理を実行してもよい。 After the replacement target is extracted in step S205, the replacement target is transmitted to the terminal device 20 and an instruction for specifying the replacement target is input. If the instruction of step S206 has been acquired in advance, the processing of step S206 and subsequent steps may be executed without transmitting the replacement target.
次に、背景色が設定された文字が変更される場合の一例を説明する。図5は、背景色が設定された文字を変更する場合の一例を示す図である。
この図において、画像700は、変更前の文書データが画面上に表示される文書データの一部を拡大した画像である。ここでは、例えば、「平成32」という文字列が検索用キーワードとして用いられて検索された場合、画像700に示す「平成32」という文字列(符号701)が置換対象として検索される。ここで、文字に対する背景の合成を行わずに単純にこの文字の文字コードを置換した場合には、例えば、画像710に示すように、置換された後の文字の背景が、その周囲の背景とは異なる態様(例えば異なる背景色)で表示されるため、置換後の文字の背景と、置換後の文字の近傍の背景との連続性が失われてしまい、見栄えが良くない。
ここで、背景を置換後の文字に対して合成をすることで、画像720に示すように、置換後の文字の背景と、置換後の文字の周囲の背景との連続性が維持される画像721として合成されるため、見栄えが良い。
Next, an example of a case where a character having a background color is changed will be described. FIG. 5 is a diagram illustrating an example of changing a character whose background color is set.
In this figure, an
Here, by combining the background with the character after replacement, as shown in
次に、出力部106の他の機能について説明する。出力部106は、上述した情報を出力する他に、変更対象箇所のリストを作成して出力することもできる。
図6は、リスト作成の処理を説明するシーケンス図である。
この図においてステップS101からステップS204については、図3に示すステップS101からステップS204までと同様である。ただし、ステップS101において送信される帳票の文書データは複数である。すなわち、ステップS101において、複数の帳票についてそれぞれ文書データが送信される。
Next, another function of the
FIG. 6 is a sequence diagram illustrating a list creation process.
In this figure, steps S101 to S204 are the same as steps S101 to S204 shown in FIG. However, the document data of the form transmitted in step S101 is plural. That is, in step S101, the document data is transmitted for each of the plurality of forms.
変更部104は、ステップS203において検索用キーワードを用いた検索を行うと、リスト生成部105は、検索が行われた文書データに置換対象となる文字が含まれているか否かを判定し、置換対象の文字が含まれている場合には、置換対象の文字を抽出する(ステップS251)。ここでは、検索用キーワードを用いた検索によって、検索用キーワードに一致する文字コードが見つかった場合、リスト生成部105は、検索が行われた文書データに置換対象となる文字が含まれていると判定し、検索用キーワードに一致する文字コードが見つからない場合には、検索が行われた文書データに置換対象となる文字が含まれていないと判定する。そして、リスト生成部105は、検索用キーワードに一致する文字コードが見つかった場合には、その文字コードについて置換対象であるとして抽出する。
次に、リスト生成部105は、検索を行った対象の文書データに対して、置換対象の文字が見つかったか否かを表すフラグを付与して記憶部108に記憶する(ステップS252)。フラグは、例えば、置換対象の文字がある場合には「1」、置換対象の文字がない場合には「0」が設定される。
When the changing
Next, the
制御部107は、端末装置20から受信した全ての帳票についてフラグ付与の処理が終了したか否かを判定し(ステップS253)、終了していなければ、未処理の帳票を対象として、ステップS201からの処理を繰り返す。
一方、制御部107は、全ての帳票についてフラグ付与の処理が終了した場合には、出力部106は、フラグ付与の処理を行った各文書を対象としてリストを生成する(ステップS254)。このリストは、各帳票の識別番号と、その帳票に置換対象があったか否かのフラグとが関連付けられた情報である。
リストが生成されると、出力部106は、リストを端末装置20に送信する。
The
On the other hand, when the flag adding process is completed for all the forms, the
When the list is generated, the
端末装置20は、リストを受信すると、表示画面上にリストを表示する(ステップS251)。これにより、ユーザは、各帳票について置換対象があるか否かを簡単に把握することが可能となる。例えば、3枚綴りの帳票のうち、2枚目の帳票に置換対象の文字がある等についても把握することが可能となる。また、このようなリストを保存しておくことで、ログとして利用することが可能となる。 Upon receiving the list, the terminal device 20 displays the list on the display screen (step S251). As a result, the user can easily understand whether each form has a replacement target. For example, it becomes possible to understand that the second form has characters to be replaced among the forms spelled out of three. Further, by saving such a list, it becomes possible to use it as a log.
以上説明した実施形態において、PDF形式の帳票を対象にして文書データの変更処理を行う場合について説明したが、PDF形式ではなく、画像ファイルである文書データを対象として文書データの変更処理を行うようにしてもよい。画像ファイルを対象として文字認識を行った場合には、1つの画像ファイルに複数の文字と、その文字それぞれに座標データが対応付けられたデータが生成される。この場合、これらの複数の文字のうち、単語単位で1つの文字列とし、その文字列単位で文字コードと座標データを対応付けたデータを生成するようにしてもよい。 In the embodiment described above, the case where the document data change process is performed for the PDF format form has been described, but the document data change process is performed for the document data that is an image file instead of the PDF format. You can When character recognition is performed on an image file, a plurality of characters and data in which coordinate data is associated with each character are generated in one image file. In this case, one of the plurality of characters may be a character string on a word-by-word basis, and data in which the character code and the coordinate data are associated with each other may be generated.
また、上述した実施形態において、変更部104は、帳票の台紙の色を変更するようにしてもよい。台紙の色としては、例えば、文字データや文字画像において設定されている背景よりもさらに下層のレイヤに背景色を設定することで、台紙の色を設定するようにしてもよい。また、台紙の色としては、文字データや文字画像において背景が設定されていない箇所または、背景が透明として設定された箇所について、台紙の色となる背景色を設定するようにしてもよい。
Further, in the above-described embodiment, the changing
上述した実施形態における文書データ変更装置10の各部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
Each unit of the document
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 Although the embodiment of the present invention has been described in detail above with reference to the drawings, the specific configuration is not limited to this embodiment, and includes a design and the like within a range not departing from the gist of the present invention.
1 文書データ変更システム
10 文書データ変更装置
20、20A、20B 端末装置
30 ネットワーク
101 通信部
102 文字認識部
103 背景認識部
104 変更部
105 リスト生成部
106 出力部
107 制御部
108 記憶部
1 Document
Claims (4)
前記文字認識された結果に基づいて、前記文字コードが置換対象である文字の文字コードに対応している場合には、当該文字コードを置換後の文字に対応する文字コードに変更し、前記文字画像に含まれる文字が置換対象の文字である場合には、当該文字画像を置換後の文字を含む置換データに変更する変更部と、
を有する文書データ変更装置。 It includes character data in which coordinate data indicating a position for displaying a character and a character code indicating the character are associated with each other, and image data in which the coordinate data and a character image in which the character is expressed as an image are associated with each other. A character recognition unit that recognizes characters for document data,
Based on the result of the character recognition, if the character code corresponds to the character code of the character to be replaced, change the character code to the character code corresponding to the character after replacement, the character code When the character included in the image is a character to be replaced, a changing unit that changes the character image to replacement data including the replaced character,
Document data changing device having.
請求項1記載の文書データ変更装置。 The replacement data is a character image prepared in advance in which characters after replacement are expressed in a predetermined font, or a character image obtained by generating a character image corresponding to the characters after replacement. Document data change device described.
前記変更部は、
前記置換後の文字に対して前記認識された背景を合成した置換データを生成し、前記置換対象の文字画像を前記生成された置換データに変更する
請求項1記載の文書データ変更装置。 A background recognition unit that recognizes the background of the replacement target character image,
The change unit is
The document data changing device according to claim 1, wherein replacement data is generated by combining the recognized background with the replaced character, and the replacement target character image is changed to the generated replacement data.
変更部が、前記文字認識された結果に基づいて、前記文字コードが置換対象である文字の文字コードに対応している場合には、当該文字コードを置換後の文字に対応する文字コードに変更し、前記文字画像に含まれる文字が置換対象の文字である場合には、当該文字画像を置換後の文字を含む置換データに変更する
文書データ変更方法。 An image in which the character recognition unit associates the character data in which the coordinate data indicating the position where the character is displayed with the character code indicating the character with each other, and the coordinate data and the character image in which the character is expressed as an image. Character recognition is performed on document data including data and
The changing unit, based on the result of the character recognition, when the character code corresponds to the character code of the character to be replaced, changes the character code to the character code corresponding to the replaced character. Then, when the character included in the character image is a character to be replaced, the document data changing method of changing the character image to replacement data including the replaced character.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018217591A JP2020086718A (en) | 2018-11-20 | 2018-11-20 | Document data modification apparatus and document data modification method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018217591A JP2020086718A (en) | 2018-11-20 | 2018-11-20 | Document data modification apparatus and document data modification method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020086718A true JP2020086718A (en) | 2020-06-04 |
Family
ID=70909915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018217591A Pending JP2020086718A (en) | 2018-11-20 | 2018-11-20 | Document data modification apparatus and document data modification method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020086718A (en) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58123152A (en) * | 1982-01-14 | 1983-07-22 | Toshiba Corp | Editing device of document picture image |
JPH07288676A (en) * | 1994-04-19 | 1995-10-31 | Canon Inc | Image processing unit and its method |
JP2003085164A (en) * | 2001-09-07 | 2003-03-20 | Xelo Inc | Document output device, method and computer program |
JP2006251902A (en) * | 2005-03-08 | 2006-09-21 | Fuji Xerox Co Ltd | Device, program, and method for generating translation document image |
JP2011060268A (en) * | 2009-08-10 | 2011-03-24 | Fuji Xerox Co Ltd | Image processing apparatus and program |
US20180260376A1 (en) * | 2017-03-08 | 2018-09-13 | Platinum Intelligent Data Solutions, LLC | System and method to create searchable electronic documents |
-
2018
- 2018-11-20 JP JP2018217591A patent/JP2020086718A/en active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58123152A (en) * | 1982-01-14 | 1983-07-22 | Toshiba Corp | Editing device of document picture image |
JPH07288676A (en) * | 1994-04-19 | 1995-10-31 | Canon Inc | Image processing unit and its method |
JP2003085164A (en) * | 2001-09-07 | 2003-03-20 | Xelo Inc | Document output device, method and computer program |
JP2006251902A (en) * | 2005-03-08 | 2006-09-21 | Fuji Xerox Co Ltd | Device, program, and method for generating translation document image |
JP2011060268A (en) * | 2009-08-10 | 2011-03-24 | Fuji Xerox Co Ltd | Image processing apparatus and program |
US20180260376A1 (en) * | 2017-03-08 | 2018-09-13 | Platinum Intelligent Data Solutions, LLC | System and method to create searchable electronic documents |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7606419B2 (en) | Translated document image production device, recording medium and translated document image production method | |
CN107133615B (en) | Information processing apparatus, information processing method, and computer program | |
JP2010009509A (en) | Image processor, image processing method, program thereof, and storage medium | |
US9558433B2 (en) | Image processing apparatus generating partially erased image data and supplementary data supplementing partially erased image data | |
US11243670B2 (en) | Information processing system, information processing apparatus, information processing method and non-transitory computer readable medium | |
US9519984B2 (en) | Image processing device, image processing method, information storage medium, and program | |
US20150169508A1 (en) | Obfuscating page-description language output to thwart conversion to an editable format | |
US9883071B2 (en) | Image processing apparatus, terminal device, and non-transitory data recording medium recording control program | |
EP3316173B1 (en) | System and method for cheque image data masking | |
US9792263B2 (en) | Human input to relate separate scanned objects | |
JP2019159932A (en) | Information processing device and program | |
US20170154023A1 (en) | Information processing system, control method for information processing system, information processing apparatus, and storage medium | |
US9905030B2 (en) | Image processing device, image processing method, information storage medium, and program | |
JP5867790B2 (en) | Image processing device | |
JP2020086718A (en) | Document data modification apparatus and document data modification method | |
JP2020086719A (en) | Document data modification apparatus and document data modification method | |
US20060017989A1 (en) | Image processing device, image processing method, and recording medium in which image processing program is stored | |
JP2003046746A (en) | Method and apparatus for processing image | |
US11074392B2 (en) | Information processing apparatus and non-transitory computer readable medium for switching between an attribute information mode and an image information mode | |
JP2012048637A (en) | Image processing apparatus, image processing method, computer program | |
JP2022090469A (en) | Format defining device, format defining method, and program | |
JP2020099031A (en) | Information processing apparatus and information processing method | |
JP2020115260A (en) | Information processing device and information processing program | |
JP2015064652A (en) | Management system, image forming apparatus, and terminal device | |
JP2013088777A (en) | Viewer device, server device, display control method, electronic comic editing method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210812 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220629 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220705 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20221223 |