[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP5316021B2 - Clean book support program and clean book support method - Google Patents

Clean book support program and clean book support method Download PDF

Info

Publication number
JP5316021B2
JP5316021B2 JP2009014158A JP2009014158A JP5316021B2 JP 5316021 B2 JP5316021 B2 JP 5316021B2 JP 2009014158 A JP2009014158 A JP 2009014158A JP 2009014158 A JP2009014158 A JP 2009014158A JP 5316021 B2 JP5316021 B2 JP 5316021B2
Authority
JP
Japan
Prior art keywords
character string
character
input
procedure
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009014158A
Other languages
Japanese (ja)
Other versions
JP2010170461A (en
Inventor
宏 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2009014158A priority Critical patent/JP5316021B2/en
Publication of JP2010170461A publication Critical patent/JP2010170461A/en
Application granted granted Critical
Publication of JP5316021B2 publication Critical patent/JP5316021B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a fair copy support program and a fair copy support method, which can support a fair copy operation of document data appropriately. <P>SOLUTION: The fair copy support program makes a computer run an image display process which displays an image of the document data as a fair copy target, a fair copy character string input process which receives an input of a fair copy character string into the document data, a search process which performs a search procedure with the fair coy character string as a keyword to a character recognition result for the image and obtains position information on the image of the searched character string from the character recognition result, and a display mode change process which changes a display mode of a part relating to the position information obtained in the search process, wherein the display mode change process changes the display mode so that a part relating to characters having a lower conviction degree on the character recognition result than a predetermined value in the part relating to the position information can be discriminated. <P>COPYRIGHT: (C)2010,JPO&amp;INPIT

Description

本発明は、清書支援プログラム及び清書支援方法に関し、特にテキスト以外のデータ形式で文字列を含む文書データの清書作業を支援する清書支援プログラム及び清書支援方法に関する。   The present invention relates to a clean-book support program and a clean-book support method, and more particularly, to a clean-book support program and a clean-book support method that support clear-writing work of document data including character strings in a data format other than text.

近年、多くの業務は計算機上でのデータ処理によって行われているが、帳票の受け渡し等に紙が使われることも依然として多い。例えば、銀行や保険会社等において利用される契約書等に顧客が記入する際には紙に手書きで筆記することがほとんどである。   In recent years, many tasks are performed by data processing on a computer, but paper is still often used for delivery of forms and the like. For example, when a customer fills in a contract or the like used in a bank or an insurance company, it is almost always written by hand on paper.

手書き文字又は活字の別を問わず紙文書に書かれた文字列を計算機でデータ処理するためには、紙文書に書かれた文字列をテキスト文字列に変換する必要がある。紙文書に書かれた文字列をテキスト文字列に自動的に変換する技術としてOCR(Optical Character Recognition)技術がある。OCR技術では、一般的に文書画像から文字列を含む行を切り出し、行を構成する文字の区切り位置を推定して、一文字ごとに文字画像を生成する。更に文字画像を認識して文字認識結果を出力することにより、文書画像からテキスト文字列を抽出する。OCR技術により文書画像から文字列を認識する技術は様々な例があり(例えば、特許文献1)、製品も多数販売されている。   In order to process data on a character string written on a paper document regardless of whether it is a handwritten character or a type, it is necessary to convert the character string written on the paper document into a text character string. As a technique for automatically converting a character string written on a paper document into a text character string, there is an OCR (Optical Character Recognition) technique. In the OCR technique, generally, a line including a character string is cut out from a document image, a delimiter position of characters constituting the line is estimated, and a character image is generated for each character. Further, by recognizing the character image and outputting a character recognition result, a text character string is extracted from the document image. There are various examples of technology for recognizing a character string from a document image by OCR technology (for example, Patent Document 1), and many products are sold.

但し、文字認識結果には誤りがあるため修正作業が必要とされる。特に、認識対象が手書き文字の場合や、帳票画像の画質が悪い場合等には高い認識精度が得られず、修正作業が多くなる。文書画像中の文字が多い場合、文字認識結果をオペレータが目視で確認して正解か否かを判断するのは非常に大変な作業であり、誤りを見過ごす可能性も高い。したがって、文書認識システムは導入されていても実際には使われず、オペレータが全て手で入力している場合が少なくない。   However, since the character recognition result has an error, correction work is required. In particular, when the recognition target is a handwritten character or when the image quality of the form image is poor, high recognition accuracy cannot be obtained, and correction work increases. When there are many characters in the document image, it is very difficult for the operator to visually confirm the character recognition result and determine whether or not it is correct, and there is a high possibility of overlooking an error. Therefore, even if the document recognition system is installed, it is not actually used, and there are many cases where the operator inputs everything by hand.

紙文書に書かれた文字列をテキスト文字列として計算機に入力する作業は清書作業と呼ばれる。従来、清書作業においては、オペレータの作業効率を上げるため、紙文書をそのまま参照するのではなく、紙文書をスキャナ等で画像データ(以下、「文書画像」という。)に変換し、文書画像をテキスト入力領域と同一画面上に表示しながら、テキストを入力するといったことが行われている。   The operation of inputting a character string written on a paper document into the computer as a text character string is called a clear-writing operation. 2. Description of the Related Art Conventionally, in clean-up work, a paper document is not referred to as it is in order to increase the operator's work efficiency, but the paper document is converted into image data (hereinafter referred to as “document image”) by a scanner or the like, and the document image is converted. The text is input while being displayed on the same screen as the text input area.

例えば、図1は、文書画像とテキスト入力画面とが同一画面上に表示された例を示す図である。同図の例では、画面の左側に文書画像が表示され、右側にテキスト入力領域が表示されている。   For example, FIG. 1 is a diagram illustrating an example in which a document image and a text input screen are displayed on the same screen. In the example shown in the figure, a document image is displayed on the left side of the screen, and a text input area is displayed on the right side.

また、図2に示されるように、画面上に表示された文書画像において、入力対象の文字列の近くに入力用ウィンドウを配置してテキスト入力を行うこともある。   Further, as shown in FIG. 2, in a document image displayed on a screen, an input window may be arranged near a character string to be input to perform text input.

また、オペレータが実際に入力しなければならない文字数を減らすための技術も存在する。その一例が、一般に予測入力と呼ばれるもので、近年の携帯電話における文字入力機能として多くの機種に搭載されているものである。予測入力は、キーボード等によって入力された文字列の直後に連結する可能性のある単語や文字列を予測し、次の入力候補として提示するというものである。ユーザが入力したい文字列が入力候補として提示されれば、ユーザはその文字列を選択することによって文字入力操作の負担を軽減することができる。   There are also techniques for reducing the number of characters that an operator must actually input. One example is generally called predictive input, which is installed in many models as a character input function in recent mobile phones. Predictive input predicts a word or a character string that may be connected immediately after a character string input by a keyboard or the like, and presents it as the next input candidate. If a character string that the user wants to input is presented as an input candidate, the user can reduce the burden of the character input operation by selecting the character string.

特開平7−262317号公報JP-A-7-262317 特開昭61−07408号公報Japanese Patent Laid-Open No. 61-07408 特開平7−160730号公報JP-A-7-160730

しかしながら、オペレータが手入力で清書する場合、例えば図1のような画面では、文書中の参照位置と入力位置が離れているため、現在どの部分を入力しているのかが分かりづらいという問題がある。一方、図2のように入力位置を文書画像の上に置いた場合は入力用ウィンドウが文書を隠すため、ウィンドウを動かす等の操作が必要とされ、煩雑であるという問題がある。   However, when the operator cleans the text manually, for example, on the screen as shown in FIG. 1, there is a problem that it is difficult to know which part is currently input because the reference position in the document is far from the input position. . On the other hand, when the input position is placed on the document image as shown in FIG. 2, the input window hides the document, so that an operation such as moving the window is required, which is complicated.

入力文字列が短ければ、キーワード検索機能によって文書中のどこに入力文字列が有るかを見つけることができる。図3は、キーワード検索によって入力文字列が存在する箇所が提示される例を示す図である。同図ではキーワードとして「東京都」が入力され、文書中の2箇所から「東京都」と一致する領域が検索されて点線で強調表示されている。このようなキーワード検索は、文書データをOCR技術でテキストに変換してから検索したのでは、認識誤りによって検索漏れが生ずる。そこで、特許文献3では、OCR技術による認識結果から一文字ごとの認識候補を取得し、認識候補を参考にキーワードを検索式に変換することにより検索漏れを解消している。これは、例えば「コンピュータ」というキーワードのうち「ン」がカタカナの「ニ」や「ソ」(=「そ」)に誤り易いという情報に基づき、「コンピュータ OR コニピュータ OR コソピュータ」のような条件式を作成するものである。但し、このような方法は、キーワードが長い場合には検索式が膨大な種類となるため実用的ではなく、あくまで短い文字列の検索に適した方法だと言える。したがって、長い文字列が入力される清書作業に特許文献3の技術をそのまま適用したのでは、実用的な性能が得られないという問題がある。   If the input character string is short, the keyword search function can find out where the input character string is in the document. FIG. 3 is a diagram illustrating an example in which a location where an input character string exists is presented by keyword search. In the figure, “Tokyo” is input as a keyword, and an area matching “Tokyo” is searched from two places in the document and highlighted with a dotted line. In such a keyword search, if the document data is converted into text by the OCR technique and then searched, a search error occurs due to a recognition error. Therefore, in Patent Literature 3, a recognition candidate for each character is acquired from a recognition result by the OCR technique, and a keyword is converted into a search expression with reference to the recognition candidate, thereby eliminating a search omission. This is based on the information that “n” in the keyword “computer” is easily mistaken for katakana “ni” or “so” (= “so”), for example, a conditional expression such as “computer or computer or cosopter”. Is to create. However, such a method is impractical because there are a large number of search formulas when the keyword is long, and it can be said that this method is suitable for searching for a short character string. Therefore, there is a problem that practical performance cannot be obtained if the technique of Patent Document 3 is applied as it is to a clearing operation in which a long character string is input.

オペレータが手入力する場合のもう一つの問題点として、入力ミスに気付きにくいということが挙げられる。キーボードによる手入力は一般的にOCR技術による文字認識よりも誤りは少ないが、誤りが完全に無くなるわけではない。OCR技術については認識誤りの可能性が高い箇所を検出するような技術も開示されているが(例えば、特許文献2)、オペレータによる手入力の誤りを検出する技術は開示されていない。また、特に日本語の場合は仮名漢字変換を用いて文字列を入力することが多いため、入力した文字列は部分的には日本語として成立していることが多く、ユーザが誤りに気付きにくいという面もある。   Another problem when the operator manually inputs is that it is difficult to notice an input error. Manual input using a keyboard generally has fewer errors than character recognition using OCR technology, but the errors are not completely eliminated. As for the OCR technique, a technique for detecting a portion having a high possibility of recognition error is disclosed (for example, Patent Document 2), but a technique for detecting an error in manual input by an operator is not disclosed. Also, especially in the case of Japanese, since a character string is often input using kana-kanji conversion, the input character string is often partially established as Japanese, and the user is less likely to notice an error. There is also the aspect.

更に、手入力による清書作業は入力にかかる工数が大きく、オペレータの作業負担や業務コストの増加等の問題がある。予測入力は、斯かる問題を緩和させる手段の一つとして捉えられる。しかし、汎用辞書によって次の単語が予測された場合には仮名漢字変換による入力と同様に、日本語として尤もらしい文字列が提示されるために入力誤りに気付きにくいという問題がある。一方、ユーザが過去に使用した文字列を用いて予測を行う場合、つまりユーザ予測辞書によって予測された場合には、同じ文書中で使用されやすい単語が提示されるため誤りの可能性は低くなるが、同一文書においてある程度の量を入力した後でないと有効ではない。例えば図1に示した文書例では「東京都」や「外国」等の単語は複数回使われているので予測できる可能性はあるが、それ以外の単語はほとんど一回しか出現していない。したがって、ユーザ予測辞書による入力工数削減効果はほとんど期待できない。   Further, the manual writing operation requires a large number of man-hours for input, and there are problems such as an operator's work burden and an increase in work costs. Predictive input is regarded as one of the means for mitigating such a problem. However, when the next word is predicted by the general-purpose dictionary, there is a problem in that it is difficult to notice an input error because a character string that is likely to be in Japanese is presented in the same way as input by kana-kanji conversion. On the other hand, when prediction is performed using a character string used by the user in the past, that is, when prediction is performed by the user prediction dictionary, words that are likely to be used in the same document are presented, and thus the possibility of error is reduced. However, it is only effective after inputting a certain amount in the same document. For example, in the document example shown in FIG. 1, words such as “Tokyo” and “foreign” are used several times, so there is a possibility that they can be predicted, but other words appear almost once. Therefore, the input man-hour reduction effect by the user prediction dictionary can hardly be expected.

本発明は、上記の点に鑑みてなされたものであって、文書データの清書作業を適切に支援することのできる清書支援プログラム及び清書支援方法の提供を目的とする。   The present invention has been made in view of the above points, and an object of the present invention is to provide a clean-up support program and a clean-up support method that can appropriately support the clearing work of document data.

そこで上記課題を解決するため、清書支援プログラムは、清書対象とされた文書データの画像を表示装置に表示させる画像表示手順と、前記文書データに対する清書文字列の入力を受け付ける清書文字列入力手順と前記画像に対する文字認識結果に対して前記清書文字列をキーワードとする検索処理を実行し、検索された文字列の前記画像上における位置情報を前記文字認識結果より取得する検索手順と、前記検索手順において取得された前記位置情報に係る部分の表示態様を変更する表示態様変更手順とをコンピュータに実行させ、前記表示態様変更手順は、前記位置情報に係る部分の中で前記清書文字列を構成する文字との一致度が所定値よりも低い文字に係る部分を識別可能なように表示態様の変更を行う。 Therefore, in order to solve the above-described problem, the clean-up support program includes an image display procedure for displaying an image of document data as a clear-print target on a display device, and a clear-text string input procedure for receiving a clear-text string input for the document data; A search procedure for executing a search process using the clear character string as a keyword for a character recognition result for the image, and acquiring position information of the searched character string on the image from the character recognition result; and the search procedure And a display mode changing procedure for changing the display mode of the portion related to the position information acquired in step S1, and the display mode changing procedure constitutes the clear text string in the portion related to the position information The display mode is changed so that the part related to the character whose degree of coincidence with the character is lower than a predetermined value can be identified.

このような清書支援プログラムでは、文書データの清書作業を適切に支援することができる。   In such a clean-up support program, it is possible to appropriately support clean-up work of document data.

文書データの清書作業を適切に支援することができる。   It is possible to appropriately support the clearing work of document data.

文書画像とテキスト入力画面とが同一画面上に表示された例を示す図である。It is a figure which shows the example in which the document image and the text input screen were displayed on the same screen. 入力対象の文字列の近くに入力用ウィンドウが配置された例を示す図である。It is a figure which shows the example by which the window for input was arrange | positioned near the character string of input object. キーワード検索によって入力文字列が存在する箇所が提示される例を示す図である。It is a figure which shows the example in which the location where an input character string exists is shown by keyword search. 本実施の形態において入力位置の視認性を向上させた例を説明するための図である。It is a figure for demonstrating the example which improved the visibility of the input position in this Embodiment. 本実施の形態において入力ミスを認識させる方法を説明するための図である。It is a figure for demonstrating the method of making an input mistake recognized in this Embodiment. 本実施の形態において入力テキスト数を削減する方法を説明するための図である。It is a figure for demonstrating the method to reduce the number of input texts in this Embodiment. 本発明の実施の形態における清書支援装置のハードウェア構成例を示す図である。It is a figure which shows the hardware structural example of the written-book support apparatus in embodiment of this invention. 第一の実施の形態における清書支援装置の機能構成例を示す図である。It is a figure which shows the function structural example of the clearing book assistance apparatus in 1st embodiment. 第一の実施の形態の清書支援装置による処理手順を説明するためのフローチャートである。It is a flowchart for demonstrating the process sequence by the cleanliness assistance apparatus of 1st embodiment. 中間データを説明するための概念図である。It is a conceptual diagram for demonstrating intermediate data. 中間データの構成例を示す図である。It is a figure which shows the structural example of intermediate data. オンライン筆跡データから文書画像への変換例を示す図である。It is a figure which shows the example of conversion from online handwriting data to a document image. 清書テキストの分割例を示す図である。It is a figure which shows the example of a division | segmentation of a clear text. キーワード検索部による検索結果データの例を示す図である。It is a figure which shows the example of the search result data by a keyword search part. 各検索結果データを対応する部分文字列の順番に並べた全ての組み合わせを説明するための図である。It is a figure for demonstrating all the combinations which arranged each search result data in order of the corresponding partial character string. 背景色を判定するためのキーワード検出領域の周囲の画素走査例を示す図である。It is a figure which shows the example of a pixel scan around the keyword detection area | region for determining a background color. 背景色を変化させることによる強調表示の例を示す図である。It is a figure which shows the example of the highlight display by changing a background color. 文字列一致度の算出処理の処理手順を説明するためのフローチャートである。It is a flowchart for demonstrating the process sequence of the calculation process of a character string matching degree. 2番目以降の検索結果データが示すキーワード検出領域の先端位置の推定例を示す図である。It is a figure which shows the example of estimation of the front-end | tip position of the keyword detection area which the search result data after the 2nd show. 推定位置の近傍座標が検索結果データの示すキーワード検出領域に含まれるか否かの判定結果の例を示す図である。It is a figure which shows the example of the determination result of whether the vicinity coordinate of an estimated position is contained in the keyword detection area which search result data show. 文字列一致度評価部によって判定される共起関係の意味を説明するための図である。It is a figure for demonstrating the meaning of the co-occurrence relationship determined by the character string matching degree evaluation part. 第二の実施の形態の清書支援装置による処理手順を説明するためのフローチャートである。It is a flowchart for demonstrating the process sequence by the cleanliness assistance apparatus of 2nd embodiment. 第二の実施の形態における強調表示の第一の例を示す図である。It is a figure which shows the 1st example of the highlight display in 2nd embodiment. 第二の実施の形態における強調表示の第二の例を示す図である。It is a figure which shows the 2nd example of the highlight display in 2nd embodiment. 第三の実施の形態の清書支援装置による処理手順を説明するためのフローチャートである。It is a flowchart for demonstrating the process sequence by the cleanliness assistance apparatus of 3rd embodiment. 第四の実施の形態における清書支援装置の機能構成例を示す図である。It is a figure which shows the function structural example of the cleanliness assistance apparatus in 4th embodiment. 第四の実施の形態の清書支援装置による処理手順を説明するためのフローチャートである。It is a flowchart for demonstrating the process sequence by the cleanliness assistance apparatus of 4th embodiment. 入力対象範囲の例を示す図である。It is a figure which shows the example of an input object range. 第五の実施の形態における清書支援装置の機能構成例を示す図である。It is a figure which shows the function structural example of the cleansing book support apparatus in 5th Embodiment. 文字列予測部の構成例を示す図である。It is a figure which shows the structural example of a character string estimation part. 第五の実施の形態の清書支援装置による処理手順を説明するためのフローチャートである。It is a flowchart for demonstrating the process sequence by the cleanliness assistance apparatus of 5th Embodiment. 強調対象とされる文字列が属する行の上下一行を除いた他の部分について背景色が変えられた例を示す図である。It is a figure which shows the example by which the background color was changed about the other part except the upper and lower one line of the line to which the character string made into emphasis belongs.

以下、図面に基づいて本発明の実施の形態を説明する。まず、入力位置が分かりづらいという問題に対する本実施の形態における解決方法の概要を説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings. First, an outline of a solution in the present embodiment for the problem that the input position is difficult to understand will be described.

図4は、本実施の形態において入力位置の視認性を向上させた例を説明するための図である。同図に示されるように、本実施の形態の清書支援装置は、文書参照画面510及び清書画面520は水平方向に配列して表示装置に表示させる。   FIG. 4 is a diagram for explaining an example in which the visibility of the input position is improved in the present embodiment. As shown in the figure, the clean-up support device of the present embodiment causes the document reference screen 510 and the clean-up screen 520 to be arranged in the horizontal direction and displayed on the display device.

文書参照画面510は、清書対象の文書データ(電子文書)を表示させる画面である。文書データは、テキスト形式(文字コードによって文字が記録されているデータ形式)以外のデータ形式で文字列を含むデータであり、例えば、紙文書をスキャナ等で読み込むことによって生成される画像データ(以下、「文書画像」という。))等がそれに該当する。但し、文書データ30は、必ずしも画像データに限定されない。例えば画面上にペン入力によって筆記された筆跡が座標点列として保存されたデータ(以下、「オンライン筆跡データ」という。)等であってもよい。   The document reference screen 510 is a screen for displaying the document data (electronic document) to be printed. The document data is data including a character string in a data format other than a text format (a data format in which characters are recorded by a character code). For example, image data (hereinafter referred to as image data generated by reading a paper document with a scanner) And “document image”))). However, the document data 30 is not necessarily limited to image data. For example, it may be data in which handwriting written by pen input on the screen is stored as a coordinate point sequence (hereinafter referred to as “online handwriting data”).

一方、清書画面520は、文書データに対応するテキスト文字列を入力するための画面である。なお、本実施の形態において、「清書」とは、テキスト化(文字コード化)されていない文字列情報をテキスト化することをいう。なお、文書参照画面510と清書画面520は、同一ディスプレイ上に表示されていればよく、必ずしも水平方向の隣り合っていなくてもよい。例えば、垂直方向に配列されていてもよい。   On the other hand, the clear text screen 520 is a screen for inputting a text character string corresponding to the document data. In the present embodiment, “clean text” means text conversion of character string information that has not been converted into text (character code). Note that the document reference screen 510 and the clean-up screen 520 need only be displayed on the same display, and do not necessarily have to be adjacent in the horizontal direction. For example, they may be arranged in the vertical direction.

同図(A)では、清書画面520に「東京都、」と入力された例が示されている。この時点で入力テキストと同一又は類似の文字列は文書データ中に2箇所に存在する。一つ目は完全に一致する「東京都、」であり、二つ目は読点(、)が抜けた「東京都」である。本実施の形態の清書支援装置は、文書データ中において、入力テキストと同一又は類似の文字列(すなわち、入力テキストとほぼ一致(完全一致も含む。)する文字列)が存在する箇所(領域)を強調表示する。同図の例では、文書データ中の文字列の周囲が破線で囲まれると共に、実線による下線が引かれている。   FIG. 9A shows an example in which “Tokyo,” is input on the clean-up screen 520. At this time, there are two character strings in the document data that are the same as or similar to the input text. The first is “Tokyo,” which is a perfect match, and the second is “Tokyo,” where the reading (,) is missing. The cleanliness support apparatus according to the present embodiment has a location (area) in the document data where there is a character string that is the same as or similar to the input text (that is, a character string that substantially matches (including a complete match) with the input text). To highlight. In the example shown in the figure, the character string in the document data is surrounded by a broken line and underlined by a solid line.

続いて、図4(B)では「東京都、外国、」まで入力が進んだ状態が示されている。(A)において強調表示された2箇所のうち2番目の箇所に続く文字列は「外国、」とは一致しない。そこで、清書支援装置は、2番目の箇所は一致しない範囲が長いため、入力テキストと対応が付かないと判断し、2番目の箇所を強調表示の対象から除外する。このように、入力テキストに対応した部分が強調表示されることにより、ユーザは文書データ中における入力位置を容易に見つけることができる。その結果、清書作業を効率化することができる。   Subsequently, FIG. 4B shows a state where the input has advanced to “Tokyo, foreign country”. Of the two places highlighted in (A), the character string following the second place does not match “foreign country”. Therefore, the clean-up support apparatus determines that the second part does not correspond to the input text because the range where the second part does not match is long, and excludes the second part from being highlighted. In this way, the portion corresponding to the input text is highlighted, so that the user can easily find the input position in the document data. As a result, the clean-up work can be made efficient.

次に、ユーザがテキストの入力ミスに気付きにくいという問題に対する本実施の形態における解解決方法の概要を説明する。図4では入力テキストと同一又は類似の文字列を含む領域が点線で強調されると共に、文字列には下線が表示されている。本実施の形態の清書支援装置は、当該下線を、入力テキストの中の文字と一致した部分のみに表示させる。したがって、入力ミス等によって文書データと一致しない文字が入力された場合、清書支援装置は、当該文字対して下線を表示させない。   Next, an outline of a solution solving method in the present embodiment for the problem that the user is difficult to notice a text input error will be described. In FIG. 4, an area including a character string that is the same as or similar to the input text is highlighted with a dotted line, and an underline is displayed in the character string. The cleanliness support apparatus of the present embodiment displays the underline only on the part that matches the character in the input text. Therefore, when a character that does not match the document data is input due to an input error or the like, the clean-up support apparatus does not display an underline for the character.

図5は、本実施の形態において入力ミスを認識させるための表示例を示す図である。同図では、清書画面520において、「埼玉県」が誤って「彩玉県」と入力された例が示されている。この場合、清書支援装置は、文書参照画面510において「埼」の部分には下線を表示させない。その結果、入力テキストと一致した文字列の中に、部分的に一致しない文字が存在することをユーザに分かり易く示すことができる。但し、これはあくまで警告であって、入力ミスがあるとシステムが断言しているわけではない。しかし、入力ミスの可能性がある部分を注目させるきっかけとなるため、入力ミスを即座に発見させることが可能となる。   FIG. 5 is a diagram showing a display example for recognizing an input error in the present embodiment. In the figure, an example is shown in which “Saitama Prefecture” is erroneously entered as “Saitama Prefecture” on the screen 520. In this case, the clean-up support apparatus does not display an underline in the part “Saki” on the document reference screen 510. As a result, it can be shown to the user that there is a character that does not partially match in the character string that matches the input text. However, this is only a warning, and the system does not assert that there is an input error. However, since it is a chance to pay attention to a portion where there is a possibility of an input error, it is possible to immediately detect an input error.

更に、本実施の形態において入力テキスト数を削減する方法の概要を説明する。図6は、本実施の形態において入力テキスト数を削減する方法を説明するための図である。   Furthermore, an outline of a method for reducing the number of input texts in the present embodiment will be described. FIG. 6 is a diagram for explaining a method of reducing the number of input texts in the present embodiment.

同図では、文書データ中の「東京都、外国、埼玉県が」までが入力テキストとほぼ一致する文字列として検索された状態が示されている。この状態において、本実施の形態の清書支援装置は、現在検索された文字列は一つだけなので、続いて入力されるテキストは「埼玉県が」に続く文字列であると推定する。そこで、清書支援装置は、「埼玉県が」に続く領域についてOCR(Optical Character Recognition)技術による文字認識を実行し、認識結果として得られた文字列を予測入力における入力候補として清書画面520に表示させる。その結果、ユーザは、次に入力する文字列(「転入」)を入力候補より選択すればよく、入力テキスト数を削減することができる。なお、文書データ中において検索された文字の文書画像中における位置は、特許文献1に記載された技術を利用して判定すればよい。また、文字サイズも既知である。   The figure shows a state in which “up to Tokyo, foreign country, Saitama prefecture” in the document data is searched as a character string substantially matching the input text. In this state, the clean-up support apparatus according to the present embodiment estimates that the text that is subsequently input is a character string that follows “Saitama Prefecture” because there is only one character string that has been searched. Therefore, the clean-up support device performs character recognition by OCR (Optical Character Recognition) technology for the area following “Saitama Prefecture”, and displays the character string obtained as a recognition result on the clean-screen screen 520 as an input candidate for prediction input. Let As a result, the user only has to select a character string (“transfer”) to be input next from input candidates, and the number of input texts can be reduced. The position of the character searched in the document data in the document image may be determined using the technique described in Patent Document 1. The character size is also known.

以上のような機能を実現する清書支援装置について、更に具体的に説明する。   The clean-up support apparatus that realizes the above functions will be described more specifically.

図7は、本発明の実施の形態における清書支援装置のハードウェア構成例を示す図である。図7の清書支援装置10は、それぞれバスBで相互に接続されているドライブ装置100と、補助記憶装置102と、メモリ装置103と、CPU104と、インタフェース装置105と、表示装置106と、入力装置107とを有する。   FIG. 7 is a diagram illustrating a hardware configuration example of the cleanup support apparatus according to the embodiment of the present invention. 7 includes a drive device 100, an auxiliary storage device 102, a memory device 103, a CPU 104, an interface device 105, a display device 106, and an input device connected to each other via a bus B. 107.

清書支援装置10での処理を実現するプログラムは、CD−ROM等の記録媒体101によって提供される。プログラムを記録した記録媒体101がドライブ装置100にセットされると、プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。但し、プログラムのインストールは必ずしも記録媒体101より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置102は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。   A program for realizing the processing in the clean-book support device 10 is provided by a recording medium 101 such as a CD-ROM. When the recording medium 101 on which the program is recorded is set in the drive device 100, the program is installed from the recording medium 101 to the auxiliary storage device 102 via the drive device 100. However, the program need not be installed from the recording medium 101 and may be downloaded from another computer via a network. The auxiliary storage device 102 stores the installed program and also stores necessary files and data.

メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。CPU104は、メモリ装置103に格納されたプログラムに従って清書支援装置10に係る機能を実現する。インタフェース装置105は、ネットワークに接続するためのインタフェースとして用いられる。表示装置106はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置107はキーボード及びマウス等で構成され、様々な操作指示を入力させるために用いられる。   The memory device 103 reads the program from the auxiliary storage device 102 and stores it when there is an instruction to start the program. The CPU 104 realizes functions related to the cleanup support apparatus 10 in accordance with a program stored in the memory device 103. The interface device 105 is used as an interface for connecting to a network. The display device 106 displays a GUI (Graphical User Interface) or the like by a program. The input device 107 includes a keyboard and a mouse, and is used for inputting various operation instructions.

図8は、第一の実施の形態における清書支援装置の機能構成例を示す図である。同図において、清書支援装置10は、文字認識部111、文書データ表示部112、清書テキスト入力部113、テキスト分割部114、キーワード検索部115、文字列一致度評価分116、及び文字列強調部117等を有する。これら各部は、プログラムがCPU104に実行させる処理によって実現される。   FIG. 8 is a diagram illustrating a functional configuration example of the cleanup support apparatus according to the first embodiment. In the drawing, the clean-up support device 10 includes a character recognition unit 111, a document data display unit 112, a clean-text input unit 113, a text division unit 114, a keyword search unit 115, a character string matching degree evaluation part 116, and a character string emphasizing unit. 117 etc. These units are realized by processing that the program causes the CPU 104 to execute.

文字認識部111は、清書対象とされる文書データ30に対してOCR技術による文字認識処理を行い、文字認識処理結果として文字認識結果データ40を補助記憶装置102に生成する。文書データ30は、文書画像又はオンライン文字筆跡データ等、テキスト形式以外のデータ形式で文字列を含むデータであり、例えば、補助記憶装置102に保存されている。   The character recognition unit 111 performs character recognition processing using the OCR technique on the document data 30 that is the target of clean-up, and generates character recognition result data 40 in the auxiliary storage device 102 as a character recognition processing result. The document data 30 is data including a character string in a data format other than a text format, such as a document image or online character handwriting data, and is stored in the auxiliary storage device 102, for example.

文字認識結果データ40は、確定された文字認識結果(確定文字列)だけでなく、中間データをも含む。中間データとは、曖昧さを含んだ文字認識結果を示すデータである。すなわち、中間データは、認識された文字ごと(或いは文字の部首ごと)に、文書画像上における座標情報(位置情報)と一つ以上の認識候補等を含み、認識候補ごとに確信度を示す評価値(認識スコア)等を含む。中間データにおける認識スコアに基づいて文字認識結果が確定される。なお、文字認識結果データ40は、確定された文字認識結果においても、確定文字列ごと及び確定文字列に含まれる文字ごとに文書画像上における座標情報と認識スコアとを含む。   The character recognition result data 40 includes not only a confirmed character recognition result (a confirmed character string) but also intermediate data. The intermediate data is data indicating a character recognition result including ambiguity. That is, the intermediate data includes the coordinate information (position information) on the document image and one or more recognition candidates for each recognized character (or each radical of the character), and indicates the certainty factor for each recognition candidate. Includes evaluation value (recognition score) and the like. A character recognition result is determined based on the recognition score in the intermediate data. The character recognition result data 40 includes coordinate information and a recognition score on the document image for each confirmed character string and for each character included in the confirmed character string even in the confirmed character recognition result.

文書データ表示部112は、図4等における文書参照画面510を表示装置106に表示させる。   The document data display unit 112 displays the document reference screen 510 in FIG.

清書テキスト入力部113は、図4等における清書画面520を表示装置106に表示させ、入力装置107を介して清書テキスト50(清書文字列)の入力を受け付ける。入力装置107を介して入力される入力される清書テキスト50は、メモリ装置103に記録される。清書テキスト入力部113は、メモリ装置103に記録された清書テキスト50を清書画面520に表示させる。なお、本実施の形態において、清書テキストとは、テキスト形式の文字列データをいう。   The clear text input unit 113 displays the clear text screen 520 in FIG. 4 or the like on the display device 106 and accepts input of the clear text 50 (clear text string) via the input device 107. The input clean text 50 input via the input device 107 is recorded in the memory device 103. The clear text input unit 113 displays the clear text 50 recorded in the memory device 103 on the clear text screen 520. In the present embodiment, the clear text means character string data in a text format.

テキスト分割部114は、清書テキスト50を適当な長さの部分文字列に分割する。   The text dividing unit 114 divides the clear text 50 into partial character strings having an appropriate length.

キーワード検索部115は、分割された部分文字列ごとに文字認識結果データ40に対するキーワード検索を行う。キーワード検索によって、文書データ30中において部分文字列が存在する位置(座標領域)及び一致度又は確信度を示す評価値(検索スコア)等が得られる。キーワード検索の方法は特定のものに限定されない。例えば、特許文献3に記載された方法等、公知の検索方法を採用すればよい。   The keyword search unit 115 performs a keyword search for the character recognition result data 40 for each divided partial character string. By the keyword search, the position (coordinate region) where the partial character string exists in the document data 30 and the evaluation value (search score) indicating the degree of coincidence or certainty are obtained. The keyword search method is not limited to a specific one. For example, a known search method such as the method described in Patent Document 3 may be employed.

文字列一致度評価部115は、文字列一致度を算出する。文字列一致度とは、文字認識結果データ40より部分文字列ごとに検索された文字列が文書画像上において連続している可能性の高さを示す評価値をいう。   The character string matching degree evaluation unit 115 calculates the character string matching degree. The character string matching degree refers to an evaluation value indicating a high possibility that a character string searched for each partial character string from the character recognition result data 40 is continuous on the document image.

文字列強調部117は、キーワード検索部115によって文書データ30より検索された部分文字列の中から、文字列一致度が所定の閾値(所定値)より高い部分文字列を選択する。文字列強調部117は、文書データ30において選択された部分文字列が存在する箇所(領域)を強調表示する。   The character string emphasizing unit 117 selects a partial character string having a character string matching degree higher than a predetermined threshold (predetermined value) from the partial character strings searched from the document data 30 by the keyword searching unit 115. The character string emphasizing unit 117 highlights a portion (area) where the selected partial character string exists in the document data 30.

以下、図8の清書支援装置10の処理手順について説明する。図9は、第一の実施の形態の清書支援装置による処理手順を説明するためのフローチャートである。   Hereinafter, the processing procedure of the clean-book support apparatus 10 of FIG. 8 is demonstrated. FIG. 9 is a flowchart for explaining a processing procedure by the cleansing support apparatus according to the first embodiment.

ステップS110において、文字認識部111は、清書対象とされた文書データ30を補助記憶装置102より取得し、文書データ30全体に対してOCR技術による文字認識処理を実行する。文字認識部111は、文字認識処理の結果として中間データを含む文字認識結果データ40を補助記憶装置102に生成する。   In step S <b> 110, the character recognition unit 111 acquires the document data 30 that is the target of clean-up from the auxiliary storage device 102, and executes character recognition processing using the OCR technique on the entire document data 30. The character recognition unit 111 generates character recognition result data 40 including intermediate data in the auxiliary storage device 102 as a result of the character recognition process.

図10は、中間データを説明するための概念図である。中間データは、一般的にラティスと呼ばれるデータである。同図では、(A)に認識対象とされた手書きの文字列が示されている。また、(B)にラティスの概念図が示されている。(B)に示されるように、ラティスでは、認識対象の文字列が小さなグループに分割され、グループの間に遷移リンクが設けられる。例えば「木」から「な」に張られたリンク(矢印)は、当該リンクの間にある「木」と「卆」で一つの文字となることを意味する。その場合の文字認識結果が「枠」とされる。   FIG. 10 is a conceptual diagram for explaining the intermediate data. The intermediate data is data generally called a lattice. In the figure, (A) shows a handwritten character string to be recognized. Also, (B) shows a conceptual diagram of the lattice. As shown in (B), in the lattice, the character string to be recognized is divided into small groups, and transition links are provided between the groups. For example, a link (arrow) extending from “tree” to “na” means that “tree” and “卆” between the links become one character. In this case, the character recognition result is “frame”.

図11は、中間データの構成例を示す図である。同図では、図10に示される文字列の中間データの具体例が示されている。同図に示されるように、ラティスでは、認識対象とされた文字列を細かくグループ化した単位ごとに一つのデータ項が割り当てられる。各データ項は、当該データ項に対応する文字又は文字の一部と座標値と等を含む。また、各データ項は、リンク先ごとに(リンク1、リンク2、リンク3等ごとに)、リンクの行き先、文字認識結果、及び認識スコア等を含む。例えば、図11において項番1のデータ項については、リンク1のリンクの行き先は2、文字認識結果は「木」、認識スコアは250とされている。なお、同一の文字に対して文字認識結果(認識候補)は複数存在しうる。同一文字に対する複数の認識候補は、それぞれに対する認識スコアによって優劣を判定することが可能である。なお、中間データ(ラティス)の生成方法については、公知技術を利用すればよい。また、本実施の形態を実施するにあたり、中間データは必ずしも図11に示される構成を有していなくてもよい。例えば、認識された文字ごとに認識候補が含まれているといった単純な構成でもよい。   FIG. 11 is a diagram illustrating a configuration example of intermediate data. In the figure, a specific example of intermediate data of the character string shown in FIG. 10 is shown. As shown in the figure, in the lattice, one data term is assigned to each unit obtained by finely grouping character strings to be recognized. Each data term includes a character or a part of the character corresponding to the data term, a coordinate value, and the like. Each data item includes a link destination, a character recognition result, a recognition score, and the like for each link destination (for each link 1, link 2, link 3, and the like). For example, in the data item of item number 1 in FIG. 11, the link destination of link 1 is 2, the character recognition result is “tree”, and the recognition score is 250. A plurality of character recognition results (recognition candidates) can exist for the same character. A plurality of recognition candidates for the same character can be judged as superior or inferior by the recognition score for each. A known technique may be used as a method for generating intermediate data (lattice). In carrying out this embodiment, the intermediate data does not necessarily have the configuration shown in FIG. For example, a simple configuration in which a recognition candidate is included for each recognized character may be used.

ステップS110では、図11に示されるような中間データに基づいて確定された確定文字列に関する情報を文字認識結果データ40に出力される。なお、ステップS110は、ステップS120以降と連続的(同期的)に実行されてもよいし。ステップS120以降とは非同期に予め実行されていてもよい。又は、清書支援装置10と異なる他のコンピュータにおいて実行されてもよい。   In step S110, information regarding the confirmed character string confirmed based on the intermediate data as shown in FIG. Note that step S110 may be executed continuously (synchronously) with step S120 and subsequent steps. It may be executed in advance asynchronously with step S120 and subsequent steps. Alternatively, it may be executed on another computer different from the cleansing support apparatus 10.

なお、文書データ30がオンライン筆跡データのような座標点列であった場合は、例えば、座標点間のビットマップ座標を黒画素で埋める処理によって文書画像へ変換し、当該文書画像に対して文字認識部111が文字認識処理を実行すればよい。   When the document data 30 is a coordinate point sequence such as online handwriting data, for example, the bitmap coordinates between the coordinate points are converted into a document image by a process of filling in black pixels, and a character is applied to the document image. The recognition unit 111 may perform the character recognition process.

図12は、オンライン筆跡データから文書画像への変換例を示す図である。同図では、(A)において2点の座標点によって示される線分が、(B)に示されるような文書画像(ラスターデータ)に変換された例が示されている。なお、変換処理の詳細については公知技術であるため、その説明は省略する。   FIG. 12 is a diagram illustrating an example of conversion from online handwriting data to a document image. In the drawing, an example is shown in which the line segment indicated by the two coordinate points in (A) is converted into a document image (raster data) as shown in (B). Note that details of the conversion process are well-known techniques, and a description thereof will be omitted.

続いて、文書データ表示部112は、文書参照画面510を表示装置106に表示させ、清書対象とされた文書データ30の文書画像を文書参照画面510内に表示させる。また、清書テキスト入力部113は、清書画面520を文書参照画面510の水平方向に並べて表示させる(S120)。   Subsequently, the document data display unit 112 displays the document reference screen 510 on the display device 106, and displays the document image of the document data 30 that is the target of the clean-up in the document reference screen 510. Further, the clear text input unit 113 displays the clear text screen 520 side by side in the horizontal direction of the document reference screen 510 (S120).

清書作業が開始され、ユーザによって清書画面520に清書テキスト50が順次入力されると、清書テキスト入力部113は、1文字入力されるたびに(S130)、入力中のテキストが確定状態か否かを判定する(S140)。ここで、確定状態とは、例えば、仮名漢字変換が完了した状態をいう。入力中のテキストが確定状態となると清書テキスト入力部113は、入力中のテキストを清書テキスト50に追加する。   When the clear text work is started and the clear text 50 is sequentially input on the clear text screen 520 by the user, the clear text input unit 113 determines whether the text being input is in a fixed state every time one character is input (S130). Is determined (S140). Here, the finalized state means a state where the kana-kanji conversion is completed, for example. When the text being input is in a finalized state, the clear text input unit 113 adds the text being input to the clear text 50.

続いて、テキスト分割部114は、これまで入力された全ての清書テキスト50を所定の分割規則に従って部分文字列に分割する(S150)。分割規則は様々なものを採用可能である。例えば、最後に入力された文字から一定の文字数(例えば3文字)ごとに分割してもよい。又は、句読点の直後で分割してもよい。又は、漢字、仮名、若しくは英数字等の文字種の区切りごとに分割してもよい。又は、単語辞書を用いて形態素解析技術により分割してもよい。又は、数字の場合は桁を表現するカンマで分割するようにしてもよい。更に、分割後の部分文字列の長さが8以上であれば分割後の部分文字列長が全て4以上とするといったように均等分割するようにしてもよい。なお、これらの分割規則は一例に過ぎない。   Subsequently, the text dividing unit 114 divides all the clean text 50 input so far into partial character strings according to a predetermined division rule (S150). Various division rules can be adopted. For example, the character may be divided every fixed number of characters (for example, three characters) from the last input character. Or you may divide | segment immediately after a punctuation mark. Or you may divide | segment for every division | segmentation of character types, such as Kanji, Kana, or an alphanumeric character. Or you may divide | segment by a morphological analysis technique using a word dictionary. Or, in the case of a number, it may be divided by a comma expressing a digit. Further, if the length of the divided partial character string is 8 or more, the divided partial character strings may be equally divided so that all the divided partial character strings have a length of 4 or more. These division rules are only examples.

図13は、清書テキストの分割例を示す図である。同図では、清書テキスト50(「東京都、外国、埼玉県」)が句読点ごとに分割された状態が示されている。したがって、「東京都、」、「外国、」、及び「埼玉県」の三つの部分文字列に分割されている。   FIG. 13 is a diagram illustrating an example of division of clean text. The figure shows a state where the clear text 50 (“Tokyo, foreign country, Saitama prefecture”) is divided for each punctuation mark. Therefore, it is divided into three partial character strings of “Tokyo,” “Foreign,” and “Saitama Prefecture”.

続いて、キーワード検索部115は、分割された部分文字列ごとに当該部分文字列をキーワードとするキーワード検索を文字認識結果データ40に対して行い、文書画像において部分文字列と同一又は類似する文字列が存在する位置(以下、「キーワード検出領域」という。)を特定する(S160)。当該キーワード検索では、例えば、特許文献3に記載された技術を利用してもよい。すなわち、中間データによって各キーワードの類似キーワードを生成し、当該キーワード及び類似キーワードをOR結合した検索式によって確定文字列に対する検索を行う。斯かるキーワード検索によれば、曖昧検索を実行することができる。すなわち、キーワード検索部115は、部分文字列と完全に一致する文字列の位置だけでなく、類似する文字列の位置をも特定することができる。但し、他の公知技術を利用して曖昧検索を行ってもよい。また、キーワードに曖昧さを持たせることなくキーワード検索を行ってもよい。この場合、文書画像においてキーワードと同一の文字列の存在位置(キーワード検出領域)が特定される。   Subsequently, the keyword search unit 115 performs a keyword search using the partial character string as a keyword for each of the divided partial character strings on the character recognition result data 40, and characters that are the same as or similar to the partial character string in the document image The position where the column exists (hereinafter referred to as “keyword detection area”) is specified (S160). In the keyword search, for example, a technique described in Patent Document 3 may be used. That is, a similar keyword for each keyword is generated based on the intermediate data, and a search for the confirmed character string is performed using a search expression in which the keyword and the similar keyword are ORed. According to such a keyword search, an ambiguous search can be executed. That is, the keyword search unit 115 can specify not only the position of the character string that completely matches the partial character string but also the position of a similar character string. However, an ambiguous search may be performed using other known techniques. Moreover, you may perform a keyword search, without giving ambiguity to a keyword. In this case, an existing position (keyword detection area) of the same character string as the keyword is specified in the document image.

なお、キーワード検索部115は、検索結果を検索結果データとしてメモリ装置103に記録する。図14は、キーワード検索部による検索結果データの例を示す図である。同図では、「東京都」という部分文字列(キーワード)に対する検索結果データの例が示されている。   The keyword search unit 115 records the search result as search result data in the memory device 103. FIG. 14 is a diagram illustrating an example of search result data by the keyword search unit. In the figure, an example of search result data for a partial character string (keyword) “Tokyo” is shown.

同図に示されるように、検索結果データは、キーワード、検索スコア、文字スコア、文字列座標、及び文字座標等の情報を含む。検索スコアは、キーワードと中間データより検索された文字列との一致度、又は検索結果の確信度を示す評価値である。本実施の形態では、文字スコアの合計値が検索スコアとされている。文字スコアは、キーワードを構成する文字ごとの一致度又は確信度を示す評価値であり、文字認識結果データ40に含まれている確信度に基づいて生成される。   As shown in the figure, the search result data includes information such as a keyword, a search score, a character score, character string coordinates, and character coordinates. The search score is an evaluation value indicating the degree of coincidence between the keyword and the character string searched from the intermediate data, or the certainty of the search result. In the present embodiment, the total value of the character scores is set as the search score. The character score is an evaluation value indicating the degree of coincidence or certainty for each character constituting the keyword, and is generated based on the certainty factor included in the character recognition result data 40.

文字列座標は、文書画像上において、検索された文字列全体を囲む矩形領域(すなわち、キーワード検出領域)の対角線上の二つの頂点の座標値(文書画像上における座標値)である。文字座標は、検索された文字列を構成する文字毎に当該文字を囲む矩形領域の対角線上の二つの頂点の座標値である。なお、図14では、「東京都、」の「、」は含まれていないが、これは便宜的なものである。   The character string coordinates are coordinate values (coordinate values on the document image) of two vertices on a diagonal line of a rectangular area (that is, a keyword detection area) surrounding the entire searched character string on the document image. The character coordinates are the coordinate values of two vertices on the diagonal line of the rectangular area surrounding the character for each character constituting the searched character string. In FIG. 14, “,” of “Tokyo,” is not included, but this is for convenience.

検索結果データは、部分文字列ごと(一つの部分文字列に基づいて複数のキーワードが生成される場合はキーワードごと)に生成される。また、図4(A)に示されるように、一つの部分文字列について複数の検索結果が得られた場合は検索結果ごとに検索結果データが生成される。したがって、一つの部分文字列に対して複数の検索結果データが生成されうる。   The search result data is generated for each partial character string (or for each keyword when a plurality of keywords are generated based on one partial character string). As shown in FIG. 4A, when a plurality of search results are obtained for one partial character string, search result data is generated for each search result. Therefore, a plurality of search result data can be generated for one partial character string.

続いて、文字列一致評価部116は、各検索結果データを対応する部分文字列の順番に並べた全ての組み合わせについて各テキスト検出領域が位置的に連続している可能性の高さを示す評価値(文字列一致度)を算出する(S170)。ここで、各検索結果データを対応する部分文字列の順番に並べた全ての組み合わせとは、図15に示される組み合わせをいう。   Subsequently, the character string match evaluation unit 116 evaluates the possibility that the text detection areas are consecutively located for all combinations in which the search result data are arranged in the order of the corresponding partial character strings. The value (character string matching degree) is calculated (S170). Here, all the combinations in which the search result data are arranged in the order of the corresponding partial character strings refer to the combinations shown in FIG.

図15では、部分文字列「東京都、」について二つの検索結果データが出力され、部分文字列「外国、」について二つの検索結果データが出力され、「埼玉県」について一つの検索結果データが出力された例が示されている。これらの検索結果データを、それぞれの検索結果データが対応する部分文字列の順番に並べた場合、検索結果データの組み合わせは4通りとなる。この4通りが、図15において「各検索結果データを対応する部分文字列の順番に並べた全ての組み合わせ」である。なお、算出された文字列一致度は、組み合わせごとに付与され、メモリ装置103に記録される。   In FIG. 15, two search result data are output for the partial character string “Tokyo,”, two search result data are output for the partial character string “foreign,” and one search result data is output for “Saitama Prefecture”. An output example is shown. When these search result data are arranged in the order of partial character strings corresponding to each search result data, there are four combinations of search result data. These four patterns are “all combinations in which each search result data is arranged in the order of corresponding partial character strings” in FIG. Note that the calculated character string matching degree is given for each combination and recorded in the memory device 103.

続いて、文字列強調部117は、文字列一致度評価部115によって付与された文字列一致度が所定の閾値(基準値)よりも大きな組み合わせに含まれる各検索結果データに基づいて強調表示を行う位置を判定する(S180)。具体的には、文字列強調部117は、当該組み合わせに係る全ての検索結果データのキーワード検出領域(部分文字列数が3であれば、3つのキーワード検出領域)を含む最小の矩形領域を各検索結果データの文字列座標に基づいて求め、当該最小の矩形領域を強調表示を行う位置(領域)と判定する。   Subsequently, the character string emphasizing unit 117 performs highlighting based on each search result data included in a combination in which the character string matching degree given by the character string matching degree evaluating unit 115 is larger than a predetermined threshold value (reference value). The position to perform is determined (S180). Specifically, the character string emphasizing unit 117 sets the minimum rectangular area including the keyword detection areas (three keyword detection areas if the number of partial character strings is 3) of all search result data related to the combination. Based on the character string coordinates of the search result data, the minimum rectangular area is determined as a position (area) for highlighting.

続いて、文字列強調部117は、ステップS180において判定された最小の矩形領域を強調表示する(S190)。具体的には、文字列強調部117は、当該最小の矩形領域の周囲に破線を描画する。また、文字列強調部117は、当該矩形領域の底辺に実線を描画する。但し、破線又は実線のいずれか一方のみを描画するようにしてもよい。   Subsequently, the character string emphasizing unit 117 highlights the minimum rectangular area determined in step S180 (S190). Specifically, the character string emphasizing unit 117 draws a broken line around the minimum rectangular area. Further, the character string emphasizing unit 117 draws a solid line on the bottom of the rectangular area. However, only one of the broken line and the solid line may be drawn.

ステップS130〜S190は、清書作業が終了するまで繰り返される(S210)。   Steps S130 to S190 are repeated until the clearing work is completed (S210).

ところで、強調表示の方法は、破線で囲んだり下線を引いたりする方法に限定されない。例えば、強調表示させる文字列の背景色を変えるようにしてもよい。この場合、背景色は予め定められている色を用いてもよいし、文書画像の状態に応じて自動的に決定してもよい。背景色を自動的に決定する場合、まず、該当する領域の元の(現在の)背景色を求める。具体的には、該当する領域内を二値化し、各画素を白黒いずれかの画素に変換する。二値化の方法としては、例えば、「大津展之、「判別および最小2乗基準に基づく自動しきい値選定法」、電子通知学会論文誌volJ63−D No.4、1980年4月、p349−365」に記載されている公知の方法を利用すればよい。続いて、例えば、図16に示されるように、キーワード検出領域の周囲(外接矩形)に沿って順番に画素を走査し、キーワード検出領域の外郭の画素の値を順番に求める。二値化された画像で白画素であった画素と黒画素であった画素のそれぞれの画素数と画素値の平均値を求め、画素数が多い方の値を元の背景色として判定する。   By the way, the highlighting method is not limited to the method of surrounding with a broken line or underlining. For example, the background color of the character string to be highlighted may be changed. In this case, the background color may be a predetermined color or may be automatically determined according to the state of the document image. When the background color is automatically determined, first, the original (current) background color of the corresponding area is obtained. Specifically, the corresponding area is binarized, and each pixel is converted into one of monochrome pixels. As a binarization method, for example, “Nobuyuki Otsu,“ Automatic threshold selection method based on discriminant and least squares criterion ”, Electronic Notification Society paper vol. 4, April 1980, p349-365 ”may be used. Subsequently, for example, as shown in FIG. 16, the pixels are scanned in order along the periphery (circumscribed rectangle) of the keyword detection area, and the values of the pixels outside the keyword detection area are obtained in order. In the binarized image, the number of pixels and the average value of the pixels that are white pixels and the pixels that are black pixels are obtained, and the value with the larger number of pixels is determined as the original background color.

キーワード検出領域を強調する際は、先に求めた二値画像を参照して背景の画素(背景画素)を特定すると共に、元の背景色に対する強調色を求める。続いて、背景画素の画素値を強調色の画素値に置き換える。例えば図16のように背景色が白である場合に強調色を灰色とすると図17のようになる。   When emphasizing the keyword detection region, the background pixel (background pixel) is specified with reference to the previously obtained binary image, and the emphasized color for the original background color is obtained. Subsequently, the pixel value of the background pixel is replaced with the pixel value of the emphasized color. For example, when the background color is white as shown in FIG. 16 and the highlight color is gray, the result is as shown in FIG.

続いて、ステップS170の詳細について説明する。図18は、文字列一致度の算出処理の処理手順を説明するためのフローチャートである。   Next, details of step S170 will be described. FIG. 18 is a flowchart for explaining the processing procedure of the character string matching degree calculation processing.

ステップS301において、文字列一致度評価部116は、部分文字列の数が複数であるか否かを判定する。例えば、図4(A)の状態は、部分文字列が一つの場合である。また、図4(B)の状態は、部分文字列が複数(二つ)の場合である。   In step S301, the character string matching degree evaluation unit 116 determines whether or not there are a plurality of partial character strings. For example, the state of FIG. 4A is a case where there is one partial character string. The state of FIG. 4B is a case where there are a plurality (two) of partial character strings.

部分文字列が複数の場合(S301でYesの場合)、文字列一致度評価部116は、先頭の部分文字列の検索結果データごとにキーワード検出領域に含まれる文字列の文字サイズを推定する(S302)。図15の例では、検索結果データ1−1及び検索結果データ1−2について文字サイズが推定される。文字サイズの推定は、例えば、次のように行えばよい。まず、検索結果データに含まれている各文字座標に基づいて、文字ごとに高さ及び幅を求め、それぞれの最大値及び平均値を算出する。続いて、最大値と平均値との中間値を求め、当該中間値を文字サイズの推定値とする。なお、文字サイズの推定の際は、句読点のようにサイズが特殊な文字は計算対象から除くようにするとよい。そうすることで、安定的に文字サイズを推定することができる。   When there are a plurality of partial character strings (Yes in S301), the character string matching degree evaluation unit 116 estimates the character size of the character string included in the keyword detection area for each search result data of the first partial character string ( S302). In the example of FIG. 15, the character size is estimated for the search result data 1-1 and the search result data 1-2. The character size may be estimated as follows, for example. First, the height and width are obtained for each character based on the character coordinates included in the search result data, and the maximum value and the average value are calculated. Subsequently, an intermediate value between the maximum value and the average value is obtained, and the intermediate value is set as an estimated value of the character size. When estimating the character size, it is preferable to exclude characters with special sizes such as punctuation marks from the calculation target. By doing so, the character size can be estimated stably.

続いて、文字列一致度評価部116は、分割前の並び順において先頭の部分文字列の末端からと他の部分文字列の先端までの文字コード上での差分(すなわち、文字数の差分)を求める(S303)。例えば、図13の場合、分割前の並び順において先頭の部分文字列は、「東京都、」であり、他の部分文字列は「外国、」及び「埼玉県」である。この場合、「東京都、」の末端から「外国、」及び「埼玉県」の先端までの文字数は、それぞれ0、3である。   Subsequently, the character string matching degree evaluation unit 116 calculates the difference (that is, the difference in the number of characters) on the character code from the end of the first partial character string to the front end of the other partial character string in the arrangement order before the division. Obtain (S303). For example, in the case of FIG. 13, the first partial character string in the arrangement order before division is “Tokyo,” and the other partial character strings are “foreign,” and “Saitama Prefecture”. In this case, the numbers of characters from the end of “Tokyo,” to the tips of “foreign,” and “Saitama” are 0 and 3, respectively.

続いて、文字列一致度評価部116は、文字数の差分に文字サイズを乗ずることにより、2番目以降の部分文字列に対応するキーワード検出領域の先端位置(文書画像上の座標値)を推定し、各検索結果データに付与する(S304)。例えば、図15の例において「東京都、」の検索結果データ1−1に基づいて推定された文字サイズが30ドットであるとすると、「東京都、」の終端から0×30=0ドット移動した位置が「外国、」の先端であり、3×30=90ドット移動した位置が「埼玉県」の先端であると推定される。「東京都、」の末端は、「東京都、」の検索結果データの文字列座標によって示される矩形領域(すなわち、キーワード検出領域)の末端とすればよい。   Subsequently, the character string matching degree evaluation unit 116 estimates the tip position (coordinate value on the document image) of the keyword detection region corresponding to the second and subsequent partial character strings by multiplying the difference in the number of characters by the character size. And assigned to each search result data (S304). For example, assuming that the character size estimated based on the search result data 1-1 of “Tokyo,” in the example of FIG. 15 is 30 dots, 0 × 30 = 0 dot movement from the end of “Tokyo,” It is estimated that the moved position is the tip of “Foreign”, and the position moved by 3 × 30 = 90 dots is the tip of “Saitama Prefecture”. The end of “Tokyo,” may be the end of the rectangular area (that is, the keyword detection area) indicated by the character string coordinates of the search result data of “Tokyo,”.

なお、2番目以降の部分文字列に対応するキーワード検出領域の先端位置は、先頭の部分文字列ごとに推定される。具体的には、図15の例では、図19に示されるように2番目以降の検索結果データの示すキーワード検出領域の先端位置が推定される。   Note that the tip position of the keyword detection area corresponding to the second and subsequent partial character strings is estimated for each of the first partial character strings. Specifically, in the example of FIG. 15, as shown in FIG. 19, the tip position of the keyword detection region indicated by the second and subsequent search result data is estimated.

図19は、2番目以降の検索結果データが示すキーワード検出領域の先端位置の推定例を示す図である。   FIG. 19 is a diagram illustrating an example of estimating the tip position of the keyword detection area indicated by the second and subsequent search result data.

同図では、検索データ2−1及び2−2に対して、検索結果データ1−1に基づく推定位置(x21,y21)と検索結果データ1−2に基づく推定位置(x22,y22)とが付与されている。また、検索結果データ3−1に対して、検索結果データ1−1に基づく推定位置(x31,y31)と検索結果データ1−2に基づく推定位置(x32,y32)とが付与されている。   In the figure, for the search data 2-1 and 2-2, there are an estimated position (x21, y21) based on the search result data 1-1 and an estimated position (x22, y22) based on the search result data 1-2. Has been granted. Further, an estimated position (x31, y31) based on the search result data 1-1 and an estimated position (x32, y32) based on the search result data 1-2 are given to the search result data 3-1.

続いて、文字列一致度評価部116は、先頭の部分文字列の各検索結果データと2番目以降の部分文字列の各検索結果データとの間の共起関係の有無を判定する(S305)。本実施の形態において、推定位置の近傍座標が検索結果データの示すキーワード検出領域に含まれる場合、当該推定位置の基点として利用された先頭の部分文字列の検索結果データと、当該キーワード検出領域に対応する検索結果データとは共起関係を有すると判定される。   Subsequently, the character string matching degree evaluation unit 116 determines whether or not there is a co-occurrence relationship between each search result data of the first partial character string and each search result data of the second and subsequent partial character strings (S305). . In the present embodiment, when the vicinity coordinates of the estimated position are included in the keyword detection area indicated by the search result data, the search result data of the first partial character string used as the base point of the estimated position and the keyword detection area It is determined that the corresponding search result data has a co-occurrence relationship.

推定位置の近傍座標とは、推定位置の座標値を(x,y)とした場合、(x±α,y±α)をいう(αは、例えば、文字サイズ)。したがって、図19において、検索結果データ2−1については、(x21±α,y21±α)の座標値又は(x22±α,y22±α)の座標値が、検索結果データ2−1が示すキーワード検出領域に含まれるか否かが判定される。検索結果データ2−2及び検索結果データ3−1についても同様の判定が行われる。   The vicinity coordinates of the estimated position means (x ± α, y ± α) (α is a character size, for example) when the coordinate value of the estimated position is (x, y). Accordingly, in FIG. 19, for the search result data 2-1, the search result data 2-1 indicates the coordinate value of (x21 ± α, y21 ± α) or the coordinate value of (x22 ± α, y22 ± α). It is determined whether or not it is included in the keyword detection area. The same determination is performed for the search result data 2-2 and the search result data 3-1.

図20は、推定位置の近傍座標が検索結果データの示すキーワード検出領域に含まれるか否かの判定結果の例を示す図である。同図において、×が付されている推定位置は、対応する検索結果データが示すキーワード検出領域に含まれないことを示す。○が付されている推定位置は、対応する検索結果データが示すキーワード検出領域に含まれることを示す。   FIG. 20 is a diagram illustrating an example of a determination result of whether or not the vicinity coordinates of the estimated position are included in the keyword detection region indicated by the search result data. In the same figure, the estimated position marked with “x” indicates that it is not included in the keyword detection area indicated by the corresponding search result data. The estimated position marked with ○ is included in the keyword detection area indicated by the corresponding search result data.

同図では、検索結果データ2−1が示すキーワード検出領域には、いずれの推定位置も含まれないことが示されている。また、検索結果データ2−2が示すキーワード検出領域には、検索結果データ1−1に基づく推定位置(x21,y21)のみが含まれることが示されている。また、検索結果データ3−1が示すキーワード検出領域には、検索結果データ1−1に基づく推定位置(x31,y31)のみが含まれることが示されている。   In the figure, it is shown that any estimated position is not included in the keyword detection area indicated by the search result data 2-1. Moreover, it is shown that the keyword detection area indicated by the search result data 2-2 includes only the estimated position (x21, y21) based on the search result data 1-1. Moreover, it is shown that the keyword detection area indicated by the search result data 3-1 includes only the estimated position (x31, y31) based on the search result data 1-1.

したがって、検索結果データ1−1及び検索結果データ2−2、並びに検索結果データ1−1及び検索結果データ3−1のそれぞれは共起関係が有ると判定される。すなわち、部分文字列ごとに検索された検索結果データ1−1、2−2、及び3−1が示すキーワード検出領域は、図21に示されるように、連続した領域であると判定することができる。   Therefore, it is determined that the search result data 1-1 and the search result data 2-2, and the search result data 1-1 and the search result data 3-1 have a co-occurrence relationship. That is, the keyword detection area indicated by the search result data 1-1, 2-2, and 3-1 searched for each partial character string is determined to be a continuous area as shown in FIG. it can.

なお、各検索結果データの文字列座標を直接比較照合することにより、各キーワード検出領域の連続性を判定するようにしてもよい。この場合、ステップS302からS304は実行されなくてもよい。   Note that the continuity of each keyword detection area may be determined by directly comparing and collating the character string coordinates of each search result data. In this case, steps S302 to S304 may not be executed.

続いて、文字列一致度評価部116は、部分文字列順の検索結果データの全ての組み合わせにごとに、最初の検索結果データとの共起関係の有無に基づいて文字列一致度を算出する(S306)。組み合わせごとの文字列一致度の算出は、例えば、次のように行われる。まず、当該組み合わせの最初の検索結果データの検索スコアを評価値の初期値とする。続いて、当該組み合わせの2番目以降の検索結果データごとに、最初の検索結果データと共起関係を有するか否かに基づいて検索スコア又は0を評価値に加算する。すなわち、最初の検索結果データと共起関係を有する検索結果データの検索スコアのみが評価値に加算される。続いて、当該組み合わせに属する検索結果データの数(図20の例では3)で評価値を除す。この除算の結果が文字列一致度である。   Subsequently, the character string matching degree evaluation unit 116 calculates the character string matching degree based on the presence or absence of the co-occurrence relationship with the first search result data for every combination of the search result data in the partial character string order. (S306). The calculation of the character string matching degree for each combination is performed as follows, for example. First, the search score of the first search result data of the combination is set as the initial value of the evaluation value. Subsequently, a search score or 0 is added to the evaluation value based on whether or not the second and subsequent search result data of the combination has a co-occurrence relationship with the first search result data. That is, only the search score of the search result data having a co-occurrence relationship with the first search result data is added to the evaluation value. Subsequently, the evaluation value is divided by the number of search result data belonging to the combination (3 in the example of FIG. 20). The result of this division is the string matching degree.

図20の例では、4通りの組み合わせについてそれぞれ文字列一致度が算出される。この際、検索結果データ2−1の検索スコアは加算対象とはされない。   In the example of FIG. 20, the character string matching degree is calculated for each of the four combinations. At this time, the search score of the search result data 2-1 is not an addition target.

一方、部分文字列が1つである場合、文字列一致度評価部116は、当該部分文字列に対する一つ又は複数の検索結果データのそれぞれの検索スコアを、各検索結果データの文字列一致度として各検索結果データに付与する(S307)。なお、ステップS307が実行された場合、図9のステップS180では、文字列一致度が所定の閾値以上の検索結果データが示すキーワード検出領域に対して破線及び下線が描画される。   On the other hand, when there is one partial character string, the character string matching degree evaluation unit 116 calculates the search score of one or a plurality of search result data for the partial character string as the character string matching degree of each search result data. To each search result data (S307). When step S307 is executed, in step S180 of FIG. 9, a broken line and an underline are drawn for the keyword detection area indicated by the search result data having a character string matching degree equal to or higher than a predetermined threshold.

上述したように、第一の実施の形態によれば、文書データ30中において清書された箇所が強調表示される。したがって、例えば、途中から1行ずれて入力してしまうといったような入力ミスを軽減することができる。その結果、清書作業におけるユーザの作業負担を軽減することができる。   As described above, according to the first embodiment, a portion that has been clarified in the document data 30 is highlighted. Therefore, for example, it is possible to reduce an input error such as an input being shifted by one line from the middle. As a result, it is possible to reduce the work burden on the user in the clearing work.

また、本実施の形態では、清書テキスト50は部分文字列に分割され部分文字列ごとにキーワード検索が実行される。したがって、長文となる可能性が高い清書テキスト50に関するキーワード検索の処理効率を向上させることができる。例えば、キーワード検索として特許文献3に記載された方法を利用する場合を考える。説明の便宜上、清書テキスト50が三つの部分文字列に分割され、それぞれについて4通りのキーワードが作成可能であるとする。この場合、仮に部分文字列に分割されないとすると、清書文字列50について4×4×4通りのキーワードについてキーワード検索が実行される。一方、部分文字列に分割されれば、4通×3通りのキーワードについてキーワード検索が行われればよい。したがって、検索処理の処理効率を著しく向上させることができる。   In the present embodiment, the clean text 50 is divided into partial character strings, and a keyword search is performed for each partial character string. Therefore, it is possible to improve the processing efficiency of the keyword search related to the clear text 50 that is likely to be a long sentence. For example, consider a case where the method described in Patent Document 3 is used as a keyword search. For the convenience of explanation, it is assumed that the clear text 50 is divided into three partial character strings, and four keywords can be created for each. In this case, assuming that the character string is not divided into partial character strings, a keyword search is performed for 4 × 4 × 4 keywords with respect to the clear character string 50. On the other hand, if it is divided into partial character strings, a keyword search may be performed for 4 × 3 keywords. Therefore, the processing efficiency of search processing can be significantly improved.

但し、部分文字列ごとにキーワード検索が行われた場合、清書位置に対応しない箇所についてまでキーワード検出領域として判定される可能性が高くなるという副作用を伴う可能性がある。そこで、本実施の形態では、文字列一致度評価部115によって各キーワード検出領域の連続性が評価され、その評価結果に基づいて、各キーワード検出領域が入力位置に対応した箇所であるか否かが判定される。それにより、上記副作用が適切に抑制される。   However, when a keyword search is performed for each partial character string, there is a possibility that a possibility that a portion that does not correspond to the clear text position is determined as a keyword detection region is increased. Therefore, in the present embodiment, the continuity of each keyword detection area is evaluated by the character string matching degree evaluation unit 115, and whether or not each keyword detection area is a location corresponding to the input position based on the evaluation result. Is determined. Thereby, the said side effect is suppressed appropriately.

なお、図9では、入力されたテキストが確定状態となったタイミングでステップS150以降の処理が実行される例について説明したが、それ以外のタイミングをステップS150以降を実行するきっかけとしてもよい。例えば、スペースが入力されたタイミングでもよいし、一定時間ごとにステップS150が実行されてもよい。   In FIG. 9, the example in which the process after step S150 is executed at the timing when the input text is in the finalized state has been described, but other timings may be used as a trigger for executing the process after step S150. For example, the timing when a space is input may be used, or step S150 may be executed at regular intervals.

次に、第二の実施の形態について説明する。第二の実施の形態では第一の実施の形態と異なる点について説明する。   Next, a second embodiment will be described. In the second embodiment, differences from the first embodiment will be described.

図22は、第二の実施の形態の清書支援装置による処理手順を説明するためのフローチャートである。図22中、図9と同一ステップには同一ステップ番号を付し、その説明は適宜省略する。   FIG. 22 is a flowchart for explaining a processing procedure by the cleansing support apparatus according to the second embodiment. In FIG. 22, the same steps as those in FIG. 9 are denoted by the same step numbers, and description thereof will be omitted as appropriate.

図22ではステップS185が追加されている。ステップS185において、文字列強調部117は、文字列一致度評価部115によって付与された文字列一致度が所定の閾値(基準値)よりも大きな組み合わせに含まれる各検索結果データの中から、文字スコアが所定の閾値より低い文字の文字座標を取得する。   In FIG. 22, step S185 is added. In step S185, the character string emphasizing unit 117 selects a character from among the search result data included in the combination in which the character string matching degree given by the character string matching degree evaluation unit 115 is larger than a predetermined threshold (reference value). Character coordinates of characters whose score is lower than a predetermined threshold are acquired.

続くステップS190において強調表示を行う際に、文字列強調部117は、ステップS185において取得された文字座標の領域については強調表示される他の部分と識別可能なように表示態様を変化させる(強調表示の属性を変更する又は強調表示の対象から除外する)。本実施の形態では、当該領域は下線の描画対象から除外される。   When highlighting is performed in the subsequent step S190, the character string emphasizing unit 117 changes the display mode so that the character coordinate area acquired in step S185 can be distinguished from other highlighted parts (emphasis). Change display attributes or exclude them from highlighting). In the present embodiment, the area is excluded from the underline drawing target.

図23は、第二の実施の形態における強調表示の第一の例を示す図である。同図では、「埼玉県」の中の「埼」が「彩」に誤って入力された例が示されている。この場合、「彩玉県」に対する検索結果データでは、「彩」の文字スコアが著しく低くなる。したがって、ステップS185において、「彩」の文字スコアは所定の閾値より低いと判定される。その結果、「彩」の領域は下線の描画対象から除外される。   FIG. 23 is a diagram illustrating a first example of highlighting in the second embodiment. The figure shows an example in which “Saitama” in “Saitama Prefecture” is erroneously entered in “Aya”. In this case, in the search result data for “Saitama Prefecture”, the character score of “Sai” is significantly low. Therefore, in step S185, it is determined that the character score of “Aya” is lower than a predetermined threshold. As a result, the “color” area is excluded from the underline drawing target.

なお、部分的に一致しない部分の表示態様は、他の方法によって変化させるようにしてもよい。図24は、第二の実施の形態における強調表示の第二の例を示す図である。同図では、誤った文字が入力された「埼」の領域を除いて背景色が変化された例が示されている。   In addition, you may make it change the display mode of the part which does not correspond partially by another method. FIG. 24 is a diagram illustrating a second example of highlighting in the second embodiment. In the figure, an example is shown in which the background color is changed except for the “Saki” area where an erroneous character is input.

上述したように、第二の実施の形態によれば、強調表示された箇所の中に、部分的に一致しない文字が存在することをユーザに分かり易く示すことができる。   As described above, according to the second embodiment, it is possible to easily show to the user that there are characters that do not partially match in the highlighted portion.

次に、第三の実施の形態について説明する。第三の実施の形態では第一の実施の形態と異なる点について説明する。図25は、第三の実施の形態の清書支援装置による処理手順を説明するためのフローチャートである。図25中、図9と同一ステップには同一ステップ番号を付し、その説明は適宜省略する。   Next, a third embodiment will be described. In the third embodiment, differences from the first embodiment will be described. FIG. 25 is a flowchart for explaining a processing procedure by the cleansing support apparatus according to the third embodiment. In FIG. 25, the same steps as those in FIG. 9 are denoted by the same step numbers, and description thereof will be omitted as appropriate.

図25では、ステップS150がステップS155に置き換えられている。ステップS155において、テキスト分割部114は、清書テキスト50の末尾からの一部分を部分文字列に分割する。すなわち、第三の実施の形態では、これまで入力された全ての清書テキスト50ではなく、末尾からの一部分のみが分割対象とされる。分割対象とする部分は、例えば、最大文字数(例えば、40文字)の範囲内で、最後の文字から遡って所定数文字(例えば、20文字)を超えた位置で最初に見つかった句読点の直後から最後の文字までの範囲とされる。又は、ステップS140において新たに確定状態であると判定されたテキストのみを分割対象としてもよい。更に、他の方法によって分割対象の部分を決定してもよい。   In FIG. 25, step S150 is replaced with step S155. In step S155, the text dividing unit 114 divides a part from the end of the clean text 50 into partial character strings. That is, in the third embodiment, not a part of all the clean text 50 input so far but only a part from the end is targeted for division. The part to be divided is, for example, immediately after the first punctuation mark found at a position exceeding a predetermined number of characters (for example, 20 characters) within the range of the maximum number of characters (for example, 40 characters). The range is up to the last character. Alternatively, only the text newly determined to be in the finalized state in step S140 may be targeted for division. Furthermore, the division target portion may be determined by other methods.

清書テキスト50の末尾の一部分のみ分割対象とされることにより、ステップS160以降において処理対象とする部分文字列数を削減することができる。したがって、清書テキスト50が非常に長文の場合に、計算コストを削減することができる。また入力テキストの途中を編集した場合に編集した位置の周辺のみを強調表示することができるため、利便性を向上させることもできる。   Since only the last part of the clean text 50 is to be divided, the number of partial character strings to be processed in step S160 and later can be reduced. Therefore, when the clear text 50 is very long, the calculation cost can be reduced. In addition, when the middle of the input text is edited, only the vicinity of the edited position can be highlighted, so that the convenience can be improved.

次に、第四の実施の形態について説明する。図26は、第四の実施の形態における清書支援装置の機能構成例を示す図である。図26中、図7と同一部分には同一符号を付し、その説明は省略する。   Next, a fourth embodiment will be described. FIG. 26 is a diagram illustrating a functional configuration example of the cleansing support apparatus according to the fourth embodiment. In FIG. 26, the same parts as those in FIG.

同図において、清書支援装置10aは、入力位置判定部118、入力対象範囲推定部119、入力対象範囲文字認識部120、推定文字列候補生成部121、予測文字列表示部122、及び予測文字列選択部123等を更に有する。   In the figure, the clean-up support device 10a includes an input position determination unit 118, an input target range estimation unit 119, an input target range character recognition unit 120, an estimated character string candidate generation unit 121, a predicted character string display unit 122, and a predicted character string. It further has a selection unit 123 and the like.

入力位置判定部118は、現在の入力位置(清書位置)を求める。例えば、図6の例であれば、「埼玉県が」の領域の末端の座標値が入力位置と判定される。なお、「埼玉県が」の末端の位置は、「埼玉県が」の検索結果データの文字列座標に基づいて判定すればよい。   The input position determination unit 118 obtains the current input position (clearance position). For example, in the example of FIG. 6, the coordinate value at the end of the “Saitama Prefecture” area is determined as the input position. Note that the position of the end of “Saitama Prefecture” may be determined based on the character string coordinates of the search result data of “Saitama Prefecture”.

入力対象範囲推定部119は、入力位置判定部118によって判定された入力位置に基づいて、文書画像において次に清書される文字列を含む領域(以下、「入力対象範囲」という。)を推定する。例えば、図6の例では、「埼玉県が」に続く「転入」を含む領域が入力対象領域と判定される。   Based on the input position determined by the input position determination unit 118, the input target range estimation unit 119 estimates a region (hereinafter referred to as “input target range”) that includes a character string to be printed next in the document image. . For example, in the example of FIG. 6, an area including “transfer” following “Saitama Prefecture” is determined as the input target area.

入力対象範囲文字認識部120は、入力対象範囲に対してOCR技術による文字認識処理を実行する。例えば、図6の例では、「転入」を含む領域に対して文字認識が実行される。なお、当該文字認識処理の処理結果は、文字認識部111による処理結果と同様に、文字認識の確定結果ではなく、複数の認識候補を含むようにするとよい。   The input target range character recognition unit 120 executes character recognition processing using the OCR technique on the input target range. For example, in the example of FIG. 6, character recognition is performed on an area including “transfer”. Note that the processing result of the character recognition processing may include a plurality of recognition candidates instead of the character recognition confirmation result, similarly to the processing result by the character recognition unit 111.

推定文字列候補生成部121は、入力対象範囲文字認識部120より出力される認識候補に基づいて、入力位置に続いて入力されると推定される文字列候補のリスト(以下、「推定文字列候補リスト」という。)を生成する。   Based on the recognition candidates output from the input target range character recognition unit 120, the estimated character string candidate generation unit 121 is a list of character string candidates estimated to be input following the input position (hereinafter, “estimated character string”). "Candidate list").

予測文字列表示部122は、推定文字列候補リストの中から入力テキストを選択させるためのポップアップウィンドウ530を図6に示されるように清書画面520上に表示させる。   The predicted character string display unit 122 displays a pop-up window 530 for selecting an input text from the estimated character string candidate list on the clean-up screen 520 as shown in FIG.

予測文字列選択部123は、ポップアップウィンドウ530において選択された文字列を、新たな入力テキストとして清書テキスト50に追加する。   The predicted character string selection unit 123 adds the character string selected in the pop-up window 530 to the clean text 50 as a new input text.

以下、図26の清書支援装置10aの処理手順について説明する。図27は、第四の実施の形態の清書支援装置による処理手順を説明するためのフローチャートである。図27中、図9と同一ステップには同一ステップ番号を付し、その説明は適宜省略する。   Hereinafter, a processing procedure of the clean-book support apparatus 10a of FIG. FIG. 27 is a flowchart for explaining a processing procedure performed by the cleansing support apparatus according to the fourth embodiment. In FIG. 27, the same steps as those in FIG. 9 are denoted by the same step numbers, and description thereof will be omitted as appropriate.

図27では、ステップS191〜S202が追加されている。ステップS191において、入力位置判定部118は、現在の入力位置を判定する。具体的には、入力位置判定部118は、文書画像中において、文字列一致度評価部117によって算出された文字列一致度が所定の閾値より高い領域(すなわち、強調表示の対象とされる領域)の末端の位置を現在の入力位置と判定する。   In FIG. 27, steps S191 to S202 are added. In step S191, the input position determination unit 118 determines the current input position. Specifically, the input position determination unit 118 includes an area in the document image in which the character string matching degree calculated by the character string matching degree evaluation unit 117 is higher than a predetermined threshold (that is, an area to be highlighted). ) Is determined as the current input position.

続いて、入力対象範囲推定部119は、入力位置判定部118によって判定された入力位置に基づいて入力対象範囲を推定する(S192)。例えば、横書きの場合であれば、入力対象範囲推定部119は、入力位置から右方向に所定数文字分の矩形領域を特定する座標値(例えば、当該矩形領域の対角線上の二つの頂点の座標値)を算出する。上記で説明した文字列一致度評価部115による文字サイズの推定方法と同じ方法によって入力位置の直前のキーワード検出領域の1文字分の文字サイズを推定し、当該文字サイズに基づいて所定数文字分の矩形領域を判定すればよい。例えば、N文字分の領域は、入力位置から右に文字サイズのN倍の幅を有し、上下方向に文字サイズの2倍の高さを有する領域を求めればよい。   Subsequently, the input target range estimation unit 119 estimates the input target range based on the input position determined by the input position determination unit 118 (S192). For example, in the case of horizontal writing, the input target range estimation unit 119 specifies a coordinate value (for example, coordinates of two vertices on a diagonal line of the rectangular area) that specifies a rectangular area of a predetermined number of characters in the right direction from the input position. Value). The character size for one character in the keyword detection area immediately before the input position is estimated by the same method as the character size estimation method by the character string matching degree evaluation unit 115 described above, and a predetermined number of characters are determined based on the character size. The rectangular area may be determined. For example, an area for N characters may be obtained by finding an area having a width N times the character size to the right from the input position and a height twice the character size in the vertical direction.

図28は、入力対象範囲の例を示す図である。同図において、「埼玉県」を囲む矩形領域は直前のキーワード検出領域である。「埼玉県」の右に隣接する破線の矩形領域は入力対象範囲である。当該入力対象範囲は、高さ方向の中心が直前のキーワード検出領域の高さ方向の中心と一致するように設定されている。なお、入力対象範囲内の矢印は、文字サイズの幅を示す。したがって、同図では、3文字分を入力対象範囲とした例に相当する。   FIG. 28 is a diagram illustrating an example of the input target range. In the figure, a rectangular area surrounding “Saitama Prefecture” is the immediately preceding keyword detection area. A dashed rectangular area adjacent to the right of “Saitama Prefecture” is an input target range. The input target range is set so that the center in the height direction matches the center in the height direction of the immediately preceding keyword detection region. An arrow in the input target range indicates the width of the character size. Accordingly, this figure corresponds to an example in which three characters are set as the input target range.

なお、サイズが固定の矩形領域を入力対象範囲としてもよい。   Note that a rectangular area having a fixed size may be set as the input target range.

また、文書画像中の文字列が縦書きか横書きかの区別は、検索結果データの文字座標に基づいて、各文字が縦横いずれの方向に並んでいるかに基づいて判断すればよい。   Whether the character string in the document image is written vertically or horizontally may be determined based on the character coordinates of the search result data based on whether the characters are arranged in the vertical or horizontal direction.

入力対象範囲文字認識部120は、入力対象範囲に対して文字認識処理を実行し、一つ以上の認識候補を出力する(S193)。なお、入力対象範囲文字認識部120は、改めて文字認識を実行しなくてもよい。例えば、文字認識結果データ40に基づいて入力対象範囲に対する認識候補を出力してもよい。   The input target range character recognition unit 120 performs a character recognition process on the input target range and outputs one or more recognition candidates (S193). Note that the input target range character recognition unit 120 may not perform character recognition again. For example, recognition candidates for the input target range may be output based on the character recognition result data 40.

続いて、推定文字列候補生成部121は、入力対象範囲文字認識部120より出力される認識候補を含むリストを推定文字列候補リストとしてメモリ装置103に生成する(S194)。   Subsequently, the estimated character string candidate generation unit 121 generates a list including recognition candidates output from the input target range character recognition unit 120 in the memory device 103 as an estimated character string candidate list (S194).

続いて、予測文字列表示部122は、推定文字列候補リストの中から入力テキストを選択させるためのポップアップウィンドウ530を図6に示されるように清書画面520上に表示させる(S201)。   Subsequently, the predicted character string display unit 122 displays a pop-up window 530 for selecting an input text from the estimated character string candidate list on the clean-up screen 520 as shown in FIG. 6 (S201).

ポップアップウィンドウ530において推定文字列候補リストの中から入力テキストが選択されると(S202でYes)、予測文字列選択部123は、選択された文字列を新たな入力テキストとして清書テキスト50に追加する(S197)。ステップS197に続いて、ステップS150以降が繰り返し実行される。   When an input text is selected from the estimated character string candidate list in the pop-up window 530 (Yes in S202), the predicted character string selection unit 123 adds the selected character string to the clean text 50 as a new input text. (S197). Subsequent to step S197, step S150 and subsequent steps are repeatedly executed.

一方、ポップアップウィンドウ530において推定文字列候補リストの中から入力テキストが選択されない場合は(S202でNo)、ステップS210に進む。   On the other hand, if the input text is not selected from the estimated character string candidate list in the pop-up window 530 (No in S202), the process proceeds to step S210.

上述したように、第四の実施の形態によれば、入力対象範囲に対する清書テキストの入力候補が当該入力対象範囲に対する文字認識結果に基づいてポップアプウィンドウ530上に提示される。したがって、提示された入力候補内に正しい文字列が存在する場合は、選択操作を行うだけで、当該文字列を入力することができる。その結果、清書作業の作業負担の軽減及び効率化を実現させることができる。特に、文字認識の精度が高い場合は、選択操作の連続により清書作業が行われうる。   As described above, according to the fourth embodiment, clear text input candidates for the input target range are presented on the pop-up window 530 based on the character recognition result for the input target range. Therefore, when a correct character string exists in the presented input candidates, the character string can be input only by performing a selection operation. As a result, it is possible to reduce the work load and increase the efficiency of the clearing work. In particular, when the accuracy of character recognition is high, a clearing operation can be performed by a continuous selection operation.

なお、第四の実施の形態に第二又は第三の実施の形態を組み合わせてもよい。すなわち、図27においてステップS185やS155が実行されてもよい。特に、第二の実施の形態と組み合わされる場合、ポップアップウィンドウ530において誤った候補(誤っている可能性が高い候補)が選択されたとしても、誤っている部分(文字)をユーザに通知することができる。   In addition, you may combine 2nd or 3rd embodiment with 4th embodiment. That is, steps S185 and S155 may be executed in FIG. In particular, when combined with the second embodiment, even if an erroneous candidate (a candidate that is highly likely to be incorrect) is selected in the pop-up window 530, the user is notified of the erroneous part (character). Can do.

次に、第五の実施の形態について説明する。図29は、第五の実施の形態における清書支援装置の機能構成例を示す図である。図29中、図26と同一部分には同一符号を付し、その説明は省略する。   Next, a fifth embodiment will be described. FIG. 29 is a diagram illustrating an example of a functional configuration of the cleanup support apparatus according to the fifth embodiment. In FIG. 29, the same portions as those in FIG. 26 are denoted by the same reference numerals, and the description thereof is omitted.

同図において、清書支援装置10bは、文字列予測部124及び予測文字列統合部125を更に有する。   In the figure, the clean-up support apparatus 10b further includes a character string predicting unit 124 and a predicted character string integrating unit 125.

文字列予測部124は、公知の予測入力技術を利用して、清書テキスト50の末尾の文字列(単語)に続いて入力される可能性の高い文字列候補のリスト(以下、「予測文字列候補リスト」という。)を生成する。   The character string predicting unit 124 uses a known predictive input technique to list a character string candidate that is likely to be input following the character string (word) at the end of the clean text 50 (hereinafter, “predicted character string”). "Candidate list").

予測文字列統合部125は、文字列予測部124によって生成される予測文字列候補リストと推定文字列候補生成部121によって生成される推定文字列候補リストとを統合する。   The predicted character string integration unit 125 integrates the predicted character string candidate list generated by the character string prediction unit 124 and the estimated character string candidate list generated by the estimated character string candidate generation unit 121.

図30は、文字列予測部の構成例を示す図である。同図において、文字列予測部124は、単語入力部1241、単語学習部1242、汎用辞書1243、及びユーザ予測辞書1244等を含む。   FIG. 30 is a diagram illustrating a configuration example of the character string prediction unit. In the figure, the character string prediction unit 124 includes a word input unit 1241, a word learning unit 1242, a general dictionary 1243, a user prediction dictionary 1244, and the like.

単語予測部1241は、既に入力済の文字列(本実施の形態では清書テキスト50)と汎用辞書1243及びユーザ予測辞書1244とに基づいて、続いて入力される可能性のある文字列(予測文字列)を生成する。単語学習部1242は、ユーザによって入力が確定された文字列(本実施の形態では、予測文字列選択部123が選択を受け付けた文字列、又は清書テキスト入力部113が入力確定を受け付けた文字列)を直前の文字列を関連付けてユーザ予測辞書1244に記録する。汎用辞書1243には、予め、共に使われる可能性の高い単語が相互の接続関係と共に記憶されている。なお、汎用辞書1243及びユーザ予測辞書1244の構成方法を含む文字列予測機能については「増井俊之、「ペンを用いた高速文章入力手法」.近代科学社、インタラクティブシステムとソフトウェアIV:日本ソフトウェア科学会WISS’96.pp.51−60、1996年12月」に一例が示されている。   The word predicting unit 1241 determines a character string (predicted character) that may be subsequently input based on the already input character string (clear text 50 in the present embodiment), the general dictionary 1243, and the user prediction dictionary 1244. Column). The word learning unit 1242 is a character string whose input has been confirmed by the user (in this embodiment, a character string that the prediction character string selection unit 123 has accepted selection, or a character string that the clear text input unit 113 has accepted input confirmation. ) In the user prediction dictionary 1244 in association with the immediately preceding character string. In the general-purpose dictionary 1243, words that are likely to be used together are stored together with a mutual connection relationship. The character string prediction function including the general dictionary 1243 and the user prediction dictionary 1244 is described in “Toshiyuki Masui,“ Fast Text Input Method Using Pen ”. Modern Science, Interactive Systems and Software IV: Japan Software Science Society WISS'96. pp. 51-60, December 1996 "shows an example.

以下、図29の清書支援装置10bの処理手順について説明する。図31は、第五の実施の形態の清書支援装置による処理手順を説明するためのフローチャートである。図31中、図27と同一ステップには同一ステップ番号を付し、その説明は適宜省略する。   Hereinafter, the processing procedure of the clean-book support apparatus 10b of FIG. FIG. 31 is a flowchart for explaining a processing procedure by the cleansing support apparatus according to the fifth embodiment. In FIG. 31, the same steps as those in FIG. 27 are denoted by the same step numbers, and description thereof will be omitted as appropriate.

図31では、ステップS195及びS196が追加されている。ステップS195において、文字列予測部124は、公知の予測入力技術を利用して、清書テキスト50の末尾の文字列(単語)に続いて入力される可能性の高い文字列候補のリスト(予測文字列候補リスト)をメモリ装置103に生成する。続いて、予測文字列統合部125は、メモリ装置103に生成されている推定文字列候補リストと予測文字列候補リストとを統合し、統合結果をメモリ装置103に記録する(S196)。   In FIG. 31, steps S195 and S196 are added. In step S195, the character string predicting unit 124 uses a known predictive input technique to list character string candidates (predicted characters) that are likely to be input following the last character string (word) of the clear text 50. Column candidate list) is generated in the memory device 103. Subsequently, the predicted character string integration unit 125 integrates the estimated character string candidate list and the predicted character string candidate list generated in the memory device 103, and records the integration result in the memory device 103 (S196).

ここで、文字列予測部124によって生成される予測文字列候補リストは、それまでに入力されたテキストから得られる文字列のリストであり、同一の文字列が何度も使われなければ有効な予測はできない。したがって、推定文字列候補生成部121によって生成される推定文字列候補リストの方が続いて入力される文字列に合致する可能性が高いと考えられる。よって、統合結果では、推定文字列候補リストに含まれる文字列を上位に並べ、その後に予測文字列候補リストに含まれる文字列を並べるようにするとよい。但し、推定文字列候補リストに含まれる文字列において認識スコア(文字認識の確信度)が所定値より低いものは、予測文字列候補リストに含まれる文字列よりも後に並べるようにしてもよい。そうすることで、信頼度の高い文字列を優先して入力候補として提示することができる
続くステップS201において、予測文字列表示部122は、統合された文字列候補リストをポップアップウィンドウ530に表示させる。
Here, the predicted character string candidate list generated by the character string predicting unit 124 is a list of character strings obtained from the text input so far, and is effective if the same character string is not used many times. Cannot predict. Therefore, it is considered that the estimated character string candidate list generated by the estimated character string candidate generation unit 121 is more likely to match the subsequently input character string. Therefore, in the integration result, it is preferable to arrange the character strings included in the estimated character string candidate list at the top and then arrange the character strings included in the predicted character string candidate list. However, the character strings included in the estimated character string candidate list that have a recognition score (character recognition certainty) lower than a predetermined value may be arranged after the character strings included in the predicted character string candidate list. By doing so, a character string with high reliability can be preferentially presented as an input candidate. In subsequent step S201, the predicted character string display unit 122 causes the pop-up window 530 to display the integrated character string candidate list. .

上述したように、第五の実施の形態によれば、文字認識された文字列に加え、予測入力機能によって予測された文字列も入力候補として提示される。したがって、文字認識の精度が低い場合であっても、適切な入力候補を提示することができる。その結果、清書作業の作業負担の軽減及び効率化を実現させることができる。   As described above, according to the fifth embodiment, a character string predicted by the prediction input function is also presented as an input candidate in addition to the character string that has been character-recognized. Therefore, even if the accuracy of character recognition is low, an appropriate input candidate can be presented. As a result, it is possible to reduce the work load and increase the efficiency of the clearing work.

ところで、第一から第五の実施の形態において、文字列強調部117は、強調対象とされる文字列が属する行の上下一行を除いた他の部分について背景色を変化させるようにしてもよい。   By the way, in the first to fifth embodiments, the character string emphasizing unit 117 may change the background color for other portions except the upper and lower lines of the line to which the character string to be emphasized belongs. .

図32は、強調対象とされる文字列が属する行の上下一行を除いた他の部分について背景色が変えられた例を示す図である。   FIG. 32 is a diagram illustrating an example in which the background color is changed for the other parts except one line above and below the line to which the character string to be emphasized belongs.

同図では、図5に示したように「東京都、外国、彩玉県」が入力され、「埼」のみミスタイプされた場合の文書参照画面510の表示例が示されている。図5では、強調表示の方法として、背景色が変えられ、正しい部分には下線が引かれている。   This figure shows a display example of the document reference screen 510 when “Tokyo, foreign country, Saitama prefecture” is input and only “Sai” is mistyped as shown in FIG. In FIG. 5, the background color is changed as a highlighting method, and the correct part is underlined.

更に、「東京都、外国、埼玉県」が属する行の上下一行を除いた外側の部分についても背景色がグレイとされている。このように、現在清書中の箇所から少し離れた領域に影を付けることで、現在清書している領域をより強調させて表示させることができる。   Furthermore, the background color is also gray for the outer portion of the row to which “Tokyo, Foreign, Saitama Prefecture” belongs, except for one row above and below. In this way, by shadowing an area slightly away from the location that is currently being printed, the area that is currently being written can be displayed with more emphasis.

以上、本発明の実施例について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。   As mentioned above, although the Example of this invention was explained in full detail, this invention is not limited to such specific embodiment, In the range of the summary of this invention described in the claim, various deformation | transformation・ Change is possible.

以上の説明に関し、更に以下の項を開示する。
(付記1)
清書対象とされた文書データの画像を表示装置に表示させる画像表示手順と、
前記文書データに対する清書文字列の入力を受け付ける清書文字列入力手順と
前記画像に対する文字認識結果に対して前記清書文字列をキーワードとする検索処理を実行し、検索された文字列の前記画像上における位置情報を前記文字認識結果より取得する検索手順と、
前記検索手順において取得された前記位置情報に係る部分の表示態様を変更する表示態様変更手順とをコンピュータに実行させ、
前記表示態様変更手順は、前記位置情報に係る部分の中で前記文字認識結果の確信度が所定値よりも低い文字に係る部分を識別可能なように表示態様の変更を行う清書支援プログラム。
(付記2)
前記清書文字列を複数の部分文字列に分割する分割手順を有し、
前記検索手順は、前記部分文字列ごとに前記検索処理を実行し、該部分文字列ごとに検索された文字列の前記位置情報を取得する付記1記載の清書支援プログラム。
(付記3)
前記部分文字列ごとに検索された文字列の前記位置情報に基づいて、前記部分文字列ごとに検索された文字列が前記画像上において連続した文字列であるかを判定する判定手順を有し、
前記表示態様変更手順は、前記部分文字列ごとに検索された文字列が前記画像上において連続した文字列であると判定された場合に表示態様の変更を行う付記2記載の清書支援プログラム。
(付記4)
前記検索手順は、前記清書文字列の末尾からの一部分を利用して前記検索処理を実行する付記1乃至3いずれか一項記載の清書支援プログラム。
(付記5)
前記検索手順において取得された前記位置情報に係る部分の末端から所定の範囲に対する文字認識によって得られる文字列を次の入力候補として表示させる入力候補表示手順を有する付記1乃至4いずれか一項記載の清書支援プログラム。
(付記6)
前記入力候補表示手順は、前記清書文字列の末尾の文字列に続いて入力されると予測される文字列をも次の入力候補として表示させる付記5記載の清書支援プログラム。
(付記7)
コンピュータが実行する清書支援方法であって、
清書対象とされた文書データの画像を表示装置に表示させる画像表示手順と、
前記文書データに対する清書文字列の入力を受け付ける清書文字列入力手順と
前記画像に対する文字認識結果に対して前記清書文字列をキーワードとする検索処理を実行し、検索された文字列の前記画像上における位置情報を前記文字認識結果より取得する検索手順と、
前記検索手順において取得された前記位置情報に係る部分の表示態様を変更する表示態様変更手順とを有し、
前記表示態様変更手順は、前記位置情報に係る部分の中で前記文字認識結果の確信度が所定値よりも低い文字に係る部分を識別可能なように表示態様の変更を行う清書支援方法。
(付記8)
前記清書文字列を複数の部分文字列に分割する分割手順を有し、
前記検索手順は、前記部分文字列ごとに前記検索処理を実行し、該部分文字列ごとに検索された文字列の前記位置情報を取得する付記7記載の清書支援方法。
(付記9)
前記部分文字列ごとに検索された文字列の前記位置情報に基づいて、前記部分文字列ごとに検索された文字列が前記画像上において連続した文字列であるかを判定する判定手順を有し、
前記表示態様変更手順は、前記部分文字列ごとに検索された文字列が前記画像上において連続した文字列であると判定された場合に表示態様の変更を行う付記8記載の清書支援方法。
(付記10)
前記検索手順は、前記清書文字列の末尾からの一部分を利用して前記検索処理を実行する付記7乃至9いずれか一項記載の清書支援方法。
(付記11)
前記検索手順において取得された前記位置情報に係る部分の末端から所定の範囲に対する文字認識によって得られる文字列を次の入力候補として表示させる入力候補表示手順を有する付記7乃至10いずれか一項記載の清書支援方法。
(付記12)
前記入力候補表示手順は、前記清書文字列の末尾の文字列に続いて入力されると予測される文字列をも次の入力候補として表示させる付記11記載の清書支援方法。
Regarding the above description, the following items are further disclosed.
(Appendix 1)
An image display procedure for causing the display device to display an image of the document data that is the target of the copy,
A clear character string input procedure for receiving input of a clear character string for the document data, and a search process using the clear character string as a keyword with respect to a character recognition result for the image, and the searched character string on the image A search procedure for acquiring position information from the character recognition result;
Causing the computer to execute a display mode change procedure for changing the display mode of the portion related to the position information acquired in the search procedure;
The display mode changing procedure is a clean-up support program for changing a display mode so that a portion related to a character whose certainty of the character recognition result is lower than a predetermined value in the portion related to the position information can be identified.
(Appendix 2)
A division procedure for dividing the clear character string into a plurality of partial character strings;
The cleanup support program according to supplementary note 1, wherein the search procedure executes the search process for each partial character string and acquires the position information of the character string searched for each partial character string.
(Appendix 3)
A determination procedure for determining whether the character string searched for each partial character string is a continuous character string on the image based on the position information of the character string searched for each partial character string; ,
The cleanup support program according to supplementary note 2, wherein the display mode changing procedure changes the display mode when it is determined that the character string searched for each partial character string is a continuous character string on the image.
(Appendix 4)
The cleanup support program according to any one of appendices 1 to 3, wherein the search procedure executes the search process using a part from the end of the clear text string.
(Appendix 5)
Additional remark 1 to 4 which has the input candidate display procedure which displays the character string obtained by the character recognition with respect to the predetermined range from the end of the part concerning the position information acquired in the search procedure as the next input candidate Clean book support program.
(Appendix 6)
The cleanup support program according to supplementary note 5, wherein the input candidate display procedure displays a character string predicted to be input following the character string at the end of the clear character string as a next input candidate.
(Appendix 7)
A clean-up support method executed by a computer,
An image display procedure for causing the display device to display an image of the document data that is the target of the copy,
A clear character string input procedure for receiving input of a clear character string for the document data, and a search process using the clear character string as a keyword with respect to a character recognition result for the image, and the searched character string on the image A search procedure for acquiring position information from the character recognition result;
A display mode change procedure for changing the display mode of the portion related to the position information acquired in the search procedure,
The said display mode change procedure is a cleanliness support method which changes a display mode so that the part which concerns on the character whose reliability of the said character recognition result is lower than a predetermined value among the parts which concern on the said position information can be identified.
(Appendix 8)
A division procedure for dividing the clear character string into a plurality of partial character strings;
The cleanup support method according to appendix 7, wherein the search procedure executes the search process for each partial character string, and acquires the position information of the character string searched for each partial character string.
(Appendix 9)
A determination procedure for determining whether the character string searched for each partial character string is a continuous character string on the image based on the position information of the character string searched for each partial character string; ,
9. The cleanliness support method according to appendix 8, wherein the display mode change procedure changes the display mode when it is determined that the character string searched for each partial character string is a continuous character string on the image.
(Appendix 10)
The cleanup support method according to any one of appendices 7 to 9, wherein the search procedure executes the search process using a part from the end of the clear text string.
(Appendix 11)
The supplementary note 7 to any one of claims 7 to 10, further comprising an input candidate display procedure for displaying a character string obtained by character recognition for a predetermined range from the end of the portion related to the position information acquired in the search procedure as a next input candidate. Clean-book support method.
(Appendix 12)
12. The cleanup support method according to supplementary note 11, wherein the input candidate display procedure displays a character string predicted to be input following the character string at the end of the clear character string as a next input candidate.

10 清書支援装置
100 ドライブ装置
101 記録媒体
102 補助記憶装置
103 メモリ装置
104 CPU
105 インタフェース装置
106 表示装置
107 入力装置
111 文字認識部
112 文書データ表示部
113 清書テキスト入力部
114 テキスト分割部
115 キーワード検索部
116 文字列一致度評価分
117 文字列強調部
118 入力位置判定部
119 入力対象範囲推定部
120 入力対象範囲文字認識部
121 推定文字列候補生成部
122 予測文字列表示部
123 予測文字列選択部
124 文字列予測部
125 予測文字列統合部
1241 単語入力部
1242 単語学習部
1243 汎用辞書
1244 ユーザ予測辞書
B バス
DESCRIPTION OF SYMBOLS 10 Formatting support apparatus 100 Drive apparatus 101 Recording medium 102 Auxiliary storage apparatus 103 Memory apparatus 104 CPU
105 interface device 106 display device 107 input device 111 character recognition unit 112 document data display unit 113 clear text input unit 114 text segmentation unit 115 keyword search unit 116 character string matching degree evaluation 117 character string emphasizing unit 118 input position determination unit 119 input Target range estimation unit 120 Input target range character recognition unit 121 Estimated character string candidate generation unit 122 Predicted character string display unit 123 Predicted character string selection unit 124 Character string prediction unit 125 Predicted character string integration unit 1241 Word input unit 1242 Word learning unit 1243 General-purpose dictionary 1244 User prediction dictionary B bus

Claims (6)

清書対象とされた文書データの画像を表示装置に表示させる画像表示手順と、
前記文書データに対する清書文字列の入力を受け付ける清書文字列入力手順と
前記画像に対する文字認識結果に対して前記清書文字列をキーワードとする検索処理を実行し、検索された文字列の前記画像上における位置情報を前記文字認識結果より取得する検索手順と、
前記検索手順において取得された前記位置情報に係る部分の表示態様を変更する表示態様変更手順とをコンピュータに実行させ、
前記表示態様変更手順は、前記位置情報に係る部分の中で前記清書文字列を構成する文字との一致度が所定値よりも低い文字に係る部分を識別可能なように表示態様の変更を行う清書支援プログラム。
An image display procedure for causing the display device to display an image of the document data that is the target of the copy,
A clear character string input procedure for accepting input of a clear character string for the document data ;
A search procedure for executing a search process using the clear character string as a keyword for the character recognition result for the image, and obtaining position information on the image of the searched character string from the character recognition result;
Causing the computer to execute a display mode change procedure for changing the display mode of the portion related to the position information acquired in the search procedure;
In the display mode changing procedure, the display mode is changed so that a portion related to a character whose degree of coincidence with a character constituting the clear text string is lower than a predetermined value in the portion related to the position information can be identified. Clean book support program.
前記清書文字列を複数の部分文字列に分割する分割手順を有し、
前記検索手順は、前記部分文字列ごとに前記検索処理を実行し、該部分文字列ごとに検索された文字列の前記位置情報を取得する請求項1記載の清書支援プログラム。
A division procedure for dividing the clear character string into a plurality of partial character strings;
The cleanup support program according to claim 1, wherein the search procedure executes the search process for each partial character string and acquires the position information of the character string searched for each partial character string.
前記部分文字列ごとに検索された文字列の前記位置情報に基づいて、前記部分文字列ごとに検索された文字列が前記画像上において連続した文字列であるかを判定する判定手順を有し、
前記表示態様変更手順は、前記部分文字列ごとに検索された文字列が前記画像上において連続した文字列であると判定された場合に表示態様の変更を行う請求項2記載の清書支援プログラム。
A determination procedure for determining whether the character string searched for each partial character string is a continuous character string on the image based on the position information of the character string searched for each partial character string; ,
The cleanliness support program according to claim 2, wherein the display mode changing procedure changes the display mode when it is determined that the character string searched for each partial character string is a continuous character string on the image.
前記検索手順は、前記清書文字列の末尾からの一部分を利用して前記検索処理を実行する請求項1乃至3いずれか一項記載の清書支援プログラム。   The cleanup support program according to any one of claims 1 to 3, wherein the search procedure executes the search processing using a part from the end of the clear text string. 前記検索手順において取得された前記位置情報に係る部分の末端から所定の範囲に対する文字認識によって得られる文字列を次の入力候補として表示させる入力候補表示手順を有する請求項1乃至4いずれか一項記載の清書支援プログラム。   5. The input candidate display procedure according to claim 1, further comprising: an input candidate display procedure for displaying, as a next input candidate, a character string obtained by character recognition for a predetermined range from the end of the portion related to the position information acquired in the search procedure. The written book support program described. コンピュータが実行する清書支援方法であって、
清書対象とされた文書データの画像を表示装置に表示させる画像表示手順と、
前記文書データに対する清書文字列の入力を受け付ける清書文字列入力手順と、
前記画像に対する文字認識結果に対して前記清書文字列をキーワードとする検索処理を実行し、検索された文字列の前記画像上における位置情報を前記文字認識結果より取得する検索手順と、
前記検索手順において取得された前記位置情報に係る部分の表示態様を変更する表示態様変更手順とを有し、
前記表示態様変更手順は、前記位置情報に係る部分の中で前記清書文字列を構成する文字との一致度が所定値よりも低い文字に係る部分を識別可能なように表示態様の変更を行う清書支援方法。
A clean-up support method executed by a computer,
An image display procedure for causing the display device to display an image of the document data that is the target of the copy,
A clear character string input procedure for accepting input of a clear character string for the document data;
A search procedure for executing a search process using the clear character string as a keyword for the character recognition result for the image, and obtaining position information on the image of the searched character string from the character recognition result;
A display mode change procedure for changing the display mode of the portion related to the position information acquired in the search procedure,
In the display mode changing procedure, the display mode is changed so that a portion related to a character whose degree of coincidence with a character constituting the clear text string is lower than a predetermined value in the portion related to the position information can be identified. Clean book support method.
JP2009014158A 2009-01-26 2009-01-26 Clean book support program and clean book support method Expired - Fee Related JP5316021B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009014158A JP5316021B2 (en) 2009-01-26 2009-01-26 Clean book support program and clean book support method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009014158A JP5316021B2 (en) 2009-01-26 2009-01-26 Clean book support program and clean book support method

Publications (2)

Publication Number Publication Date
JP2010170461A JP2010170461A (en) 2010-08-05
JP5316021B2 true JP5316021B2 (en) 2013-10-16

Family

ID=42702543

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009014158A Expired - Fee Related JP5316021B2 (en) 2009-01-26 2009-01-26 Clean book support program and clean book support method

Country Status (1)

Country Link
JP (1) JP5316021B2 (en)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6320671B2 (en) * 2012-08-29 2018-05-09 京セラ株式会社 Electronic device, control method and program
JP6202815B2 (en) * 2012-12-18 2017-09-27 富士通株式会社 Character recognition device, character recognition method, and character recognition program
JP2014137791A (en) * 2013-01-18 2014-07-28 Fujitsu Ltd Display program, display device and display method
JP6060134B2 (en) * 2014-11-13 2017-01-11 株式会社プリマジェスト Information processing apparatus and information processing method
JP6696119B2 (en) * 2015-05-01 2020-05-20 富士通株式会社 Conversion device, conversion method, and conversion program
JP2017027518A (en) * 2015-07-27 2017-02-02 日本精工株式会社 Character input support device and character input support program
US9892789B1 (en) 2017-01-16 2018-02-13 International Business Machines Corporation Content addressable memory with match hit quality indication
JP7283755B2 (en) * 2020-04-16 2023-05-30 株式会社ミラボ Information processing device and program

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59134830U (en) * 1983-03-01 1984-09-08 松下電器産業株式会社 data input device
JPH0250248A (en) * 1988-08-11 1990-02-20 Hitachi Ltd Document preparing system
JPH04369761A (en) * 1991-06-18 1992-12-22 Hitachi Commun Syst Inc Document preparing system
JPH1021326A (en) * 1996-06-28 1998-01-23 Ricoh Co Ltd Recognized result displaying method, character recognizing system and information recording medium
JPH10187681A (en) * 1996-12-25 1998-07-21 Mitsuru Kaneko Document input system
JPH10254871A (en) * 1997-03-13 1998-09-25 Nippon Telegr & Teleph Corp <Ntt> Document input method and its device

Also Published As

Publication number Publication date
JP2010170461A (en) 2010-08-05

Similar Documents

Publication Publication Date Title
JP5316021B2 (en) Clean book support program and clean book support method
JP4181310B2 (en) Formula recognition apparatus and formula recognition method
US7792369B2 (en) Form processing method, form processing device, and computer product
EP2428905A1 (en) Information processing apparatus, information processing method, and computer program product for using composite data of image and text information
KR101685472B1 (en) Information processing device, information processing method and storage medium
EP2241999A2 (en) Underline removal apparatus
US11475688B2 (en) Information processing apparatus and information processing method for extracting information from document image
JP2010157107A (en) Business document processor
JP7493937B2 (en) Method, program and system for identifying a sequence of headings in a document
JP2018055255A (en) Information processing apparatus, information processing method, and program
CN113378839A (en) Information processing apparatus, information processing method, and computer readable medium
CN113673294B (en) Method, device, computer equipment and storage medium for extracting document key information
JP3216800B2 (en) Handwritten character recognition method
JPWO2014068770A1 (en) Data extraction method, data extraction device and program thereof
JP6007720B2 (en) Information processing apparatus and information processing program
JP4466241B2 (en) Document processing method and document processing apparatus
JP2012108893A (en) Hand-written entry method
JP2013061886A (en) Chemical structure diagram recognition system and computer program for chemical structure diagram recognition system
JP4810853B2 (en) Character image cutting device, character image cutting method and program
JP2022095391A (en) Information processing apparatus and information processing program
JP7358838B2 (en) Information processing device and information processing program
JP6575116B2 (en) Character recognition device, character recognition processing system, and program
JP5003837B2 (en) Image processing apparatus and program
JP6503850B2 (en) Range specification program, range specification method and range specification apparatus
JP5277750B2 (en) Image processing program, image processing apparatus, and image processing system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111006

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130328

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130416

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130514

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130611

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130624

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees