JP5316021B2 - Clean book support program and clean book support method - Google Patents
Clean book support program and clean book support method Download PDFInfo
- Publication number
- JP5316021B2 JP5316021B2 JP2009014158A JP2009014158A JP5316021B2 JP 5316021 B2 JP5316021 B2 JP 5316021B2 JP 2009014158 A JP2009014158 A JP 2009014158A JP 2009014158 A JP2009014158 A JP 2009014158A JP 5316021 B2 JP5316021 B2 JP 5316021B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- character
- input
- procedure
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Character Discrimination (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
本発明は、清書支援プログラム及び清書支援方法に関し、特にテキスト以外のデータ形式で文字列を含む文書データの清書作業を支援する清書支援プログラム及び清書支援方法に関する。 The present invention relates to a clean-book support program and a clean-book support method, and more particularly, to a clean-book support program and a clean-book support method that support clear-writing work of document data including character strings in a data format other than text.
近年、多くの業務は計算機上でのデータ処理によって行われているが、帳票の受け渡し等に紙が使われることも依然として多い。例えば、銀行や保険会社等において利用される契約書等に顧客が記入する際には紙に手書きで筆記することがほとんどである。 In recent years, many tasks are performed by data processing on a computer, but paper is still often used for delivery of forms and the like. For example, when a customer fills in a contract or the like used in a bank or an insurance company, it is almost always written by hand on paper.
手書き文字又は活字の別を問わず紙文書に書かれた文字列を計算機でデータ処理するためには、紙文書に書かれた文字列をテキスト文字列に変換する必要がある。紙文書に書かれた文字列をテキスト文字列に自動的に変換する技術としてOCR(Optical Character Recognition)技術がある。OCR技術では、一般的に文書画像から文字列を含む行を切り出し、行を構成する文字の区切り位置を推定して、一文字ごとに文字画像を生成する。更に文字画像を認識して文字認識結果を出力することにより、文書画像からテキスト文字列を抽出する。OCR技術により文書画像から文字列を認識する技術は様々な例があり(例えば、特許文献1)、製品も多数販売されている。 In order to process data on a character string written on a paper document regardless of whether it is a handwritten character or a type, it is necessary to convert the character string written on the paper document into a text character string. As a technique for automatically converting a character string written on a paper document into a text character string, there is an OCR (Optical Character Recognition) technique. In the OCR technique, generally, a line including a character string is cut out from a document image, a delimiter position of characters constituting the line is estimated, and a character image is generated for each character. Further, by recognizing the character image and outputting a character recognition result, a text character string is extracted from the document image. There are various examples of technology for recognizing a character string from a document image by OCR technology (for example, Patent Document 1), and many products are sold.
但し、文字認識結果には誤りがあるため修正作業が必要とされる。特に、認識対象が手書き文字の場合や、帳票画像の画質が悪い場合等には高い認識精度が得られず、修正作業が多くなる。文書画像中の文字が多い場合、文字認識結果をオペレータが目視で確認して正解か否かを判断するのは非常に大変な作業であり、誤りを見過ごす可能性も高い。したがって、文書認識システムは導入されていても実際には使われず、オペレータが全て手で入力している場合が少なくない。 However, since the character recognition result has an error, correction work is required. In particular, when the recognition target is a handwritten character or when the image quality of the form image is poor, high recognition accuracy cannot be obtained, and correction work increases. When there are many characters in the document image, it is very difficult for the operator to visually confirm the character recognition result and determine whether or not it is correct, and there is a high possibility of overlooking an error. Therefore, even if the document recognition system is installed, it is not actually used, and there are many cases where the operator inputs everything by hand.
紙文書に書かれた文字列をテキスト文字列として計算機に入力する作業は清書作業と呼ばれる。従来、清書作業においては、オペレータの作業効率を上げるため、紙文書をそのまま参照するのではなく、紙文書をスキャナ等で画像データ(以下、「文書画像」という。)に変換し、文書画像をテキスト入力領域と同一画面上に表示しながら、テキストを入力するといったことが行われている。 The operation of inputting a character string written on a paper document into the computer as a text character string is called a clear-writing operation. 2. Description of the Related Art Conventionally, in clean-up work, a paper document is not referred to as it is in order to increase the operator's work efficiency, but the paper document is converted into image data (hereinafter referred to as “document image”) by a scanner or the like, and the document image is converted. The text is input while being displayed on the same screen as the text input area.
例えば、図1は、文書画像とテキスト入力画面とが同一画面上に表示された例を示す図である。同図の例では、画面の左側に文書画像が表示され、右側にテキスト入力領域が表示されている。 For example, FIG. 1 is a diagram illustrating an example in which a document image and a text input screen are displayed on the same screen. In the example shown in the figure, a document image is displayed on the left side of the screen, and a text input area is displayed on the right side.
また、図2に示されるように、画面上に表示された文書画像において、入力対象の文字列の近くに入力用ウィンドウを配置してテキスト入力を行うこともある。 Further, as shown in FIG. 2, in a document image displayed on a screen, an input window may be arranged near a character string to be input to perform text input.
また、オペレータが実際に入力しなければならない文字数を減らすための技術も存在する。その一例が、一般に予測入力と呼ばれるもので、近年の携帯電話における文字入力機能として多くの機種に搭載されているものである。予測入力は、キーボード等によって入力された文字列の直後に連結する可能性のある単語や文字列を予測し、次の入力候補として提示するというものである。ユーザが入力したい文字列が入力候補として提示されれば、ユーザはその文字列を選択することによって文字入力操作の負担を軽減することができる。 There are also techniques for reducing the number of characters that an operator must actually input. One example is generally called predictive input, which is installed in many models as a character input function in recent mobile phones. Predictive input predicts a word or a character string that may be connected immediately after a character string input by a keyboard or the like, and presents it as the next input candidate. If a character string that the user wants to input is presented as an input candidate, the user can reduce the burden of the character input operation by selecting the character string.
しかしながら、オペレータが手入力で清書する場合、例えば図1のような画面では、文書中の参照位置と入力位置が離れているため、現在どの部分を入力しているのかが分かりづらいという問題がある。一方、図2のように入力位置を文書画像の上に置いた場合は入力用ウィンドウが文書を隠すため、ウィンドウを動かす等の操作が必要とされ、煩雑であるという問題がある。 However, when the operator cleans the text manually, for example, on the screen as shown in FIG. 1, there is a problem that it is difficult to know which part is currently input because the reference position in the document is far from the input position. . On the other hand, when the input position is placed on the document image as shown in FIG. 2, the input window hides the document, so that an operation such as moving the window is required, which is complicated.
入力文字列が短ければ、キーワード検索機能によって文書中のどこに入力文字列が有るかを見つけることができる。図3は、キーワード検索によって入力文字列が存在する箇所が提示される例を示す図である。同図ではキーワードとして「東京都」が入力され、文書中の2箇所から「東京都」と一致する領域が検索されて点線で強調表示されている。このようなキーワード検索は、文書データをOCR技術でテキストに変換してから検索したのでは、認識誤りによって検索漏れが生ずる。そこで、特許文献3では、OCR技術による認識結果から一文字ごとの認識候補を取得し、認識候補を参考にキーワードを検索式に変換することにより検索漏れを解消している。これは、例えば「コンピュータ」というキーワードのうち「ン」がカタカナの「ニ」や「ソ」(=「そ」)に誤り易いという情報に基づき、「コンピュータ OR コニピュータ OR コソピュータ」のような条件式を作成するものである。但し、このような方法は、キーワードが長い場合には検索式が膨大な種類となるため実用的ではなく、あくまで短い文字列の検索に適した方法だと言える。したがって、長い文字列が入力される清書作業に特許文献3の技術をそのまま適用したのでは、実用的な性能が得られないという問題がある。
If the input character string is short, the keyword search function can find out where the input character string is in the document. FIG. 3 is a diagram illustrating an example in which a location where an input character string exists is presented by keyword search. In the figure, “Tokyo” is input as a keyword, and an area matching “Tokyo” is searched from two places in the document and highlighted with a dotted line. In such a keyword search, if the document data is converted into text by the OCR technique and then searched, a search error occurs due to a recognition error. Therefore, in
オペレータが手入力する場合のもう一つの問題点として、入力ミスに気付きにくいということが挙げられる。キーボードによる手入力は一般的にOCR技術による文字認識よりも誤りは少ないが、誤りが完全に無くなるわけではない。OCR技術については認識誤りの可能性が高い箇所を検出するような技術も開示されているが(例えば、特許文献2)、オペレータによる手入力の誤りを検出する技術は開示されていない。また、特に日本語の場合は仮名漢字変換を用いて文字列を入力することが多いため、入力した文字列は部分的には日本語として成立していることが多く、ユーザが誤りに気付きにくいという面もある。 Another problem when the operator manually inputs is that it is difficult to notice an input error. Manual input using a keyboard generally has fewer errors than character recognition using OCR technology, but the errors are not completely eliminated. As for the OCR technique, a technique for detecting a portion having a high possibility of recognition error is disclosed (for example, Patent Document 2), but a technique for detecting an error in manual input by an operator is not disclosed. Also, especially in the case of Japanese, since a character string is often input using kana-kanji conversion, the input character string is often partially established as Japanese, and the user is less likely to notice an error. There is also the aspect.
更に、手入力による清書作業は入力にかかる工数が大きく、オペレータの作業負担や業務コストの増加等の問題がある。予測入力は、斯かる問題を緩和させる手段の一つとして捉えられる。しかし、汎用辞書によって次の単語が予測された場合には仮名漢字変換による入力と同様に、日本語として尤もらしい文字列が提示されるために入力誤りに気付きにくいという問題がある。一方、ユーザが過去に使用した文字列を用いて予測を行う場合、つまりユーザ予測辞書によって予測された場合には、同じ文書中で使用されやすい単語が提示されるため誤りの可能性は低くなるが、同一文書においてある程度の量を入力した後でないと有効ではない。例えば図1に示した文書例では「東京都」や「外国」等の単語は複数回使われているので予測できる可能性はあるが、それ以外の単語はほとんど一回しか出現していない。したがって、ユーザ予測辞書による入力工数削減効果はほとんど期待できない。 Further, the manual writing operation requires a large number of man-hours for input, and there are problems such as an operator's work burden and an increase in work costs. Predictive input is regarded as one of the means for mitigating such a problem. However, when the next word is predicted by the general-purpose dictionary, there is a problem in that it is difficult to notice an input error because a character string that is likely to be in Japanese is presented in the same way as input by kana-kanji conversion. On the other hand, when prediction is performed using a character string used by the user in the past, that is, when prediction is performed by the user prediction dictionary, words that are likely to be used in the same document are presented, and thus the possibility of error is reduced. However, it is only effective after inputting a certain amount in the same document. For example, in the document example shown in FIG. 1, words such as “Tokyo” and “foreign” are used several times, so there is a possibility that they can be predicted, but other words appear almost once. Therefore, the input man-hour reduction effect by the user prediction dictionary can hardly be expected.
本発明は、上記の点に鑑みてなされたものであって、文書データの清書作業を適切に支援することのできる清書支援プログラム及び清書支援方法の提供を目的とする。 The present invention has been made in view of the above points, and an object of the present invention is to provide a clean-up support program and a clean-up support method that can appropriately support the clearing work of document data.
そこで上記課題を解決するため、清書支援プログラムは、清書対象とされた文書データの画像を表示装置に表示させる画像表示手順と、前記文書データに対する清書文字列の入力を受け付ける清書文字列入力手順と前記画像に対する文字認識結果に対して前記清書文字列をキーワードとする検索処理を実行し、検索された文字列の前記画像上における位置情報を前記文字認識結果より取得する検索手順と、前記検索手順において取得された前記位置情報に係る部分の表示態様を変更する表示態様変更手順とをコンピュータに実行させ、前記表示態様変更手順は、前記位置情報に係る部分の中で前記清書文字列を構成する文字との一致度が所定値よりも低い文字に係る部分を識別可能なように表示態様の変更を行う。 Therefore, in order to solve the above-described problem, the clean-up support program includes an image display procedure for displaying an image of document data as a clear-print target on a display device, and a clear-text string input procedure for receiving a clear-text string input for the document data; A search procedure for executing a search process using the clear character string as a keyword for a character recognition result for the image, and acquiring position information of the searched character string on the image from the character recognition result; and the search procedure And a display mode changing procedure for changing the display mode of the portion related to the position information acquired in step S1, and the display mode changing procedure constitutes the clear text string in the portion related to the position information The display mode is changed so that the part related to the character whose degree of coincidence with the character is lower than a predetermined value can be identified.
このような清書支援プログラムでは、文書データの清書作業を適切に支援することができる。 In such a clean-up support program, it is possible to appropriately support clean-up work of document data.
文書データの清書作業を適切に支援することができる。 It is possible to appropriately support the clearing work of document data.
以下、図面に基づいて本発明の実施の形態を説明する。まず、入力位置が分かりづらいという問題に対する本実施の形態における解決方法の概要を説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. First, an outline of a solution in the present embodiment for the problem that the input position is difficult to understand will be described.
図4は、本実施の形態において入力位置の視認性を向上させた例を説明するための図である。同図に示されるように、本実施の形態の清書支援装置は、文書参照画面510及び清書画面520は水平方向に配列して表示装置に表示させる。
FIG. 4 is a diagram for explaining an example in which the visibility of the input position is improved in the present embodiment. As shown in the figure, the clean-up support device of the present embodiment causes the
文書参照画面510は、清書対象の文書データ(電子文書)を表示させる画面である。文書データは、テキスト形式(文字コードによって文字が記録されているデータ形式)以外のデータ形式で文字列を含むデータであり、例えば、紙文書をスキャナ等で読み込むことによって生成される画像データ(以下、「文書画像」という。))等がそれに該当する。但し、文書データ30は、必ずしも画像データに限定されない。例えば画面上にペン入力によって筆記された筆跡が座標点列として保存されたデータ(以下、「オンライン筆跡データ」という。)等であってもよい。
The
一方、清書画面520は、文書データに対応するテキスト文字列を入力するための画面である。なお、本実施の形態において、「清書」とは、テキスト化(文字コード化)されていない文字列情報をテキスト化することをいう。なお、文書参照画面510と清書画面520は、同一ディスプレイ上に表示されていればよく、必ずしも水平方向の隣り合っていなくてもよい。例えば、垂直方向に配列されていてもよい。
On the other hand, the
同図(A)では、清書画面520に「東京都、」と入力された例が示されている。この時点で入力テキストと同一又は類似の文字列は文書データ中に2箇所に存在する。一つ目は完全に一致する「東京都、」であり、二つ目は読点(、)が抜けた「東京都」である。本実施の形態の清書支援装置は、文書データ中において、入力テキストと同一又は類似の文字列(すなわち、入力テキストとほぼ一致(完全一致も含む。)する文字列)が存在する箇所(領域)を強調表示する。同図の例では、文書データ中の文字列の周囲が破線で囲まれると共に、実線による下線が引かれている。
FIG. 9A shows an example in which “Tokyo,” is input on the clean-up
続いて、図4(B)では「東京都、外国、」まで入力が進んだ状態が示されている。(A)において強調表示された2箇所のうち2番目の箇所に続く文字列は「外国、」とは一致しない。そこで、清書支援装置は、2番目の箇所は一致しない範囲が長いため、入力テキストと対応が付かないと判断し、2番目の箇所を強調表示の対象から除外する。このように、入力テキストに対応した部分が強調表示されることにより、ユーザは文書データ中における入力位置を容易に見つけることができる。その結果、清書作業を効率化することができる。 Subsequently, FIG. 4B shows a state where the input has advanced to “Tokyo, foreign country”. Of the two places highlighted in (A), the character string following the second place does not match “foreign country”. Therefore, the clean-up support apparatus determines that the second part does not correspond to the input text because the range where the second part does not match is long, and excludes the second part from being highlighted. In this way, the portion corresponding to the input text is highlighted, so that the user can easily find the input position in the document data. As a result, the clean-up work can be made efficient.
次に、ユーザがテキストの入力ミスに気付きにくいという問題に対する本実施の形態における解解決方法の概要を説明する。図4では入力テキストと同一又は類似の文字列を含む領域が点線で強調されると共に、文字列には下線が表示されている。本実施の形態の清書支援装置は、当該下線を、入力テキストの中の文字と一致した部分のみに表示させる。したがって、入力ミス等によって文書データと一致しない文字が入力された場合、清書支援装置は、当該文字対して下線を表示させない。 Next, an outline of a solution solving method in the present embodiment for the problem that the user is difficult to notice a text input error will be described. In FIG. 4, an area including a character string that is the same as or similar to the input text is highlighted with a dotted line, and an underline is displayed in the character string. The cleanliness support apparatus of the present embodiment displays the underline only on the part that matches the character in the input text. Therefore, when a character that does not match the document data is input due to an input error or the like, the clean-up support apparatus does not display an underline for the character.
図5は、本実施の形態において入力ミスを認識させるための表示例を示す図である。同図では、清書画面520において、「埼玉県」が誤って「彩玉県」と入力された例が示されている。この場合、清書支援装置は、文書参照画面510において「埼」の部分には下線を表示させない。その結果、入力テキストと一致した文字列の中に、部分的に一致しない文字が存在することをユーザに分かり易く示すことができる。但し、これはあくまで警告であって、入力ミスがあるとシステムが断言しているわけではない。しかし、入力ミスの可能性がある部分を注目させるきっかけとなるため、入力ミスを即座に発見させることが可能となる。
FIG. 5 is a diagram showing a display example for recognizing an input error in the present embodiment. In the figure, an example is shown in which “Saitama Prefecture” is erroneously entered as “Saitama Prefecture” on the
更に、本実施の形態において入力テキスト数を削減する方法の概要を説明する。図6は、本実施の形態において入力テキスト数を削減する方法を説明するための図である。 Furthermore, an outline of a method for reducing the number of input texts in the present embodiment will be described. FIG. 6 is a diagram for explaining a method of reducing the number of input texts in the present embodiment.
同図では、文書データ中の「東京都、外国、埼玉県が」までが入力テキストとほぼ一致する文字列として検索された状態が示されている。この状態において、本実施の形態の清書支援装置は、現在検索された文字列は一つだけなので、続いて入力されるテキストは「埼玉県が」に続く文字列であると推定する。そこで、清書支援装置は、「埼玉県が」に続く領域についてOCR(Optical Character Recognition)技術による文字認識を実行し、認識結果として得られた文字列を予測入力における入力候補として清書画面520に表示させる。その結果、ユーザは、次に入力する文字列(「転入」)を入力候補より選択すればよく、入力テキスト数を削減することができる。なお、文書データ中において検索された文字の文書画像中における位置は、特許文献1に記載された技術を利用して判定すればよい。また、文字サイズも既知である。
The figure shows a state in which “up to Tokyo, foreign country, Saitama prefecture” in the document data is searched as a character string substantially matching the input text. In this state, the clean-up support apparatus according to the present embodiment estimates that the text that is subsequently input is a character string that follows “Saitama Prefecture” because there is only one character string that has been searched. Therefore, the clean-up support device performs character recognition by OCR (Optical Character Recognition) technology for the area following “Saitama Prefecture”, and displays the character string obtained as a recognition result on the clean-
以上のような機能を実現する清書支援装置について、更に具体的に説明する。 The clean-up support apparatus that realizes the above functions will be described more specifically.
図7は、本発明の実施の形態における清書支援装置のハードウェア構成例を示す図である。図7の清書支援装置10は、それぞれバスBで相互に接続されているドライブ装置100と、補助記憶装置102と、メモリ装置103と、CPU104と、インタフェース装置105と、表示装置106と、入力装置107とを有する。
FIG. 7 is a diagram illustrating a hardware configuration example of the cleanup support apparatus according to the embodiment of the present invention. 7 includes a
清書支援装置10での処理を実現するプログラムは、CD−ROM等の記録媒体101によって提供される。プログラムを記録した記録媒体101がドライブ装置100にセットされると、プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。但し、プログラムのインストールは必ずしも記録媒体101より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置102は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
A program for realizing the processing in the clean-
メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。CPU104は、メモリ装置103に格納されたプログラムに従って清書支援装置10に係る機能を実現する。インタフェース装置105は、ネットワークに接続するためのインタフェースとして用いられる。表示装置106はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置107はキーボード及びマウス等で構成され、様々な操作指示を入力させるために用いられる。
The
図8は、第一の実施の形態における清書支援装置の機能構成例を示す図である。同図において、清書支援装置10は、文字認識部111、文書データ表示部112、清書テキスト入力部113、テキスト分割部114、キーワード検索部115、文字列一致度評価分116、及び文字列強調部117等を有する。これら各部は、プログラムがCPU104に実行させる処理によって実現される。
FIG. 8 is a diagram illustrating a functional configuration example of the cleanup support apparatus according to the first embodiment. In the drawing, the clean-up
文字認識部111は、清書対象とされる文書データ30に対してOCR技術による文字認識処理を行い、文字認識処理結果として文字認識結果データ40を補助記憶装置102に生成する。文書データ30は、文書画像又はオンライン文字筆跡データ等、テキスト形式以外のデータ形式で文字列を含むデータであり、例えば、補助記憶装置102に保存されている。
The
文字認識結果データ40は、確定された文字認識結果(確定文字列)だけでなく、中間データをも含む。中間データとは、曖昧さを含んだ文字認識結果を示すデータである。すなわち、中間データは、認識された文字ごと(或いは文字の部首ごと)に、文書画像上における座標情報(位置情報)と一つ以上の認識候補等を含み、認識候補ごとに確信度を示す評価値(認識スコア)等を含む。中間データにおける認識スコアに基づいて文字認識結果が確定される。なお、文字認識結果データ40は、確定された文字認識結果においても、確定文字列ごと及び確定文字列に含まれる文字ごとに文書画像上における座標情報と認識スコアとを含む。
The character
文書データ表示部112は、図4等における文書参照画面510を表示装置106に表示させる。
The document
清書テキスト入力部113は、図4等における清書画面520を表示装置106に表示させ、入力装置107を介して清書テキスト50(清書文字列)の入力を受け付ける。入力装置107を介して入力される入力される清書テキスト50は、メモリ装置103に記録される。清書テキスト入力部113は、メモリ装置103に記録された清書テキスト50を清書画面520に表示させる。なお、本実施の形態において、清書テキストとは、テキスト形式の文字列データをいう。
The clear
テキスト分割部114は、清書テキスト50を適当な長さの部分文字列に分割する。
The
キーワード検索部115は、分割された部分文字列ごとに文字認識結果データ40に対するキーワード検索を行う。キーワード検索によって、文書データ30中において部分文字列が存在する位置(座標領域)及び一致度又は確信度を示す評価値(検索スコア)等が得られる。キーワード検索の方法は特定のものに限定されない。例えば、特許文献3に記載された方法等、公知の検索方法を採用すればよい。
The
文字列一致度評価部115は、文字列一致度を算出する。文字列一致度とは、文字認識結果データ40より部分文字列ごとに検索された文字列が文書画像上において連続している可能性の高さを示す評価値をいう。
The character string matching
文字列強調部117は、キーワード検索部115によって文書データ30より検索された部分文字列の中から、文字列一致度が所定の閾値(所定値)より高い部分文字列を選択する。文字列強調部117は、文書データ30において選択された部分文字列が存在する箇所(領域)を強調表示する。
The character
以下、図8の清書支援装置10の処理手順について説明する。図9は、第一の実施の形態の清書支援装置による処理手順を説明するためのフローチャートである。
Hereinafter, the processing procedure of the clean-
ステップS110において、文字認識部111は、清書対象とされた文書データ30を補助記憶装置102より取得し、文書データ30全体に対してOCR技術による文字認識処理を実行する。文字認識部111は、文字認識処理の結果として中間データを含む文字認識結果データ40を補助記憶装置102に生成する。
In step S <b> 110, the
図10は、中間データを説明するための概念図である。中間データは、一般的にラティスと呼ばれるデータである。同図では、(A)に認識対象とされた手書きの文字列が示されている。また、(B)にラティスの概念図が示されている。(B)に示されるように、ラティスでは、認識対象の文字列が小さなグループに分割され、グループの間に遷移リンクが設けられる。例えば「木」から「な」に張られたリンク(矢印)は、当該リンクの間にある「木」と「卆」で一つの文字となることを意味する。その場合の文字認識結果が「枠」とされる。 FIG. 10 is a conceptual diagram for explaining the intermediate data. The intermediate data is data generally called a lattice. In the figure, (A) shows a handwritten character string to be recognized. Also, (B) shows a conceptual diagram of the lattice. As shown in (B), in the lattice, the character string to be recognized is divided into small groups, and transition links are provided between the groups. For example, a link (arrow) extending from “tree” to “na” means that “tree” and “卆” between the links become one character. In this case, the character recognition result is “frame”.
図11は、中間データの構成例を示す図である。同図では、図10に示される文字列の中間データの具体例が示されている。同図に示されるように、ラティスでは、認識対象とされた文字列を細かくグループ化した単位ごとに一つのデータ項が割り当てられる。各データ項は、当該データ項に対応する文字又は文字の一部と座標値と等を含む。また、各データ項は、リンク先ごとに(リンク1、リンク2、リンク3等ごとに)、リンクの行き先、文字認識結果、及び認識スコア等を含む。例えば、図11において項番1のデータ項については、リンク1のリンクの行き先は2、文字認識結果は「木」、認識スコアは250とされている。なお、同一の文字に対して文字認識結果(認識候補)は複数存在しうる。同一文字に対する複数の認識候補は、それぞれに対する認識スコアによって優劣を判定することが可能である。なお、中間データ(ラティス)の生成方法については、公知技術を利用すればよい。また、本実施の形態を実施するにあたり、中間データは必ずしも図11に示される構成を有していなくてもよい。例えば、認識された文字ごとに認識候補が含まれているといった単純な構成でもよい。
FIG. 11 is a diagram illustrating a configuration example of intermediate data. In the figure, a specific example of intermediate data of the character string shown in FIG. 10 is shown. As shown in the figure, in the lattice, one data term is assigned to each unit obtained by finely grouping character strings to be recognized. Each data term includes a character or a part of the character corresponding to the data term, a coordinate value, and the like. Each data item includes a link destination, a character recognition result, a recognition score, and the like for each link destination (for each
ステップS110では、図11に示されるような中間データに基づいて確定された確定文字列に関する情報を文字認識結果データ40に出力される。なお、ステップS110は、ステップS120以降と連続的(同期的)に実行されてもよいし。ステップS120以降とは非同期に予め実行されていてもよい。又は、清書支援装置10と異なる他のコンピュータにおいて実行されてもよい。
In step S110, information regarding the confirmed character string confirmed based on the intermediate data as shown in FIG. Note that step S110 may be executed continuously (synchronously) with step S120 and subsequent steps. It may be executed in advance asynchronously with step S120 and subsequent steps. Alternatively, it may be executed on another computer different from the cleansing
なお、文書データ30がオンライン筆跡データのような座標点列であった場合は、例えば、座標点間のビットマップ座標を黒画素で埋める処理によって文書画像へ変換し、当該文書画像に対して文字認識部111が文字認識処理を実行すればよい。
When the
図12は、オンライン筆跡データから文書画像への変換例を示す図である。同図では、(A)において2点の座標点によって示される線分が、(B)に示されるような文書画像(ラスターデータ)に変換された例が示されている。なお、変換処理の詳細については公知技術であるため、その説明は省略する。 FIG. 12 is a diagram illustrating an example of conversion from online handwriting data to a document image. In the drawing, an example is shown in which the line segment indicated by the two coordinate points in (A) is converted into a document image (raster data) as shown in (B). Note that details of the conversion process are well-known techniques, and a description thereof will be omitted.
続いて、文書データ表示部112は、文書参照画面510を表示装置106に表示させ、清書対象とされた文書データ30の文書画像を文書参照画面510内に表示させる。また、清書テキスト入力部113は、清書画面520を文書参照画面510の水平方向に並べて表示させる(S120)。
Subsequently, the document
清書作業が開始され、ユーザによって清書画面520に清書テキスト50が順次入力されると、清書テキスト入力部113は、1文字入力されるたびに(S130)、入力中のテキストが確定状態か否かを判定する(S140)。ここで、確定状態とは、例えば、仮名漢字変換が完了した状態をいう。入力中のテキストが確定状態となると清書テキスト入力部113は、入力中のテキストを清書テキスト50に追加する。
When the clear text work is started and the
続いて、テキスト分割部114は、これまで入力された全ての清書テキスト50を所定の分割規則に従って部分文字列に分割する(S150)。分割規則は様々なものを採用可能である。例えば、最後に入力された文字から一定の文字数(例えば3文字)ごとに分割してもよい。又は、句読点の直後で分割してもよい。又は、漢字、仮名、若しくは英数字等の文字種の区切りごとに分割してもよい。又は、単語辞書を用いて形態素解析技術により分割してもよい。又は、数字の場合は桁を表現するカンマで分割するようにしてもよい。更に、分割後の部分文字列の長さが8以上であれば分割後の部分文字列長が全て4以上とするといったように均等分割するようにしてもよい。なお、これらの分割規則は一例に過ぎない。
Subsequently, the
図13は、清書テキストの分割例を示す図である。同図では、清書テキスト50(「東京都、外国、埼玉県」)が句読点ごとに分割された状態が示されている。したがって、「東京都、」、「外国、」、及び「埼玉県」の三つの部分文字列に分割されている。 FIG. 13 is a diagram illustrating an example of division of clean text. The figure shows a state where the clear text 50 (“Tokyo, foreign country, Saitama prefecture”) is divided for each punctuation mark. Therefore, it is divided into three partial character strings of “Tokyo,” “Foreign,” and “Saitama Prefecture”.
続いて、キーワード検索部115は、分割された部分文字列ごとに当該部分文字列をキーワードとするキーワード検索を文字認識結果データ40に対して行い、文書画像において部分文字列と同一又は類似する文字列が存在する位置(以下、「キーワード検出領域」という。)を特定する(S160)。当該キーワード検索では、例えば、特許文献3に記載された技術を利用してもよい。すなわち、中間データによって各キーワードの類似キーワードを生成し、当該キーワード及び類似キーワードをOR結合した検索式によって確定文字列に対する検索を行う。斯かるキーワード検索によれば、曖昧検索を実行することができる。すなわち、キーワード検索部115は、部分文字列と完全に一致する文字列の位置だけでなく、類似する文字列の位置をも特定することができる。但し、他の公知技術を利用して曖昧検索を行ってもよい。また、キーワードに曖昧さを持たせることなくキーワード検索を行ってもよい。この場合、文書画像においてキーワードと同一の文字列の存在位置(キーワード検出領域)が特定される。
Subsequently, the
なお、キーワード検索部115は、検索結果を検索結果データとしてメモリ装置103に記録する。図14は、キーワード検索部による検索結果データの例を示す図である。同図では、「東京都」という部分文字列(キーワード)に対する検索結果データの例が示されている。
The
同図に示されるように、検索結果データは、キーワード、検索スコア、文字スコア、文字列座標、及び文字座標等の情報を含む。検索スコアは、キーワードと中間データより検索された文字列との一致度、又は検索結果の確信度を示す評価値である。本実施の形態では、文字スコアの合計値が検索スコアとされている。文字スコアは、キーワードを構成する文字ごとの一致度又は確信度を示す評価値であり、文字認識結果データ40に含まれている確信度に基づいて生成される。
As shown in the figure, the search result data includes information such as a keyword, a search score, a character score, character string coordinates, and character coordinates. The search score is an evaluation value indicating the degree of coincidence between the keyword and the character string searched from the intermediate data, or the certainty of the search result. In the present embodiment, the total value of the character scores is set as the search score. The character score is an evaluation value indicating the degree of coincidence or certainty for each character constituting the keyword, and is generated based on the certainty factor included in the character
文字列座標は、文書画像上において、検索された文字列全体を囲む矩形領域(すなわち、キーワード検出領域)の対角線上の二つの頂点の座標値(文書画像上における座標値)である。文字座標は、検索された文字列を構成する文字毎に当該文字を囲む矩形領域の対角線上の二つの頂点の座標値である。なお、図14では、「東京都、」の「、」は含まれていないが、これは便宜的なものである。 The character string coordinates are coordinate values (coordinate values on the document image) of two vertices on a diagonal line of a rectangular area (that is, a keyword detection area) surrounding the entire searched character string on the document image. The character coordinates are the coordinate values of two vertices on the diagonal line of the rectangular area surrounding the character for each character constituting the searched character string. In FIG. 14, “,” of “Tokyo,” is not included, but this is for convenience.
検索結果データは、部分文字列ごと(一つの部分文字列に基づいて複数のキーワードが生成される場合はキーワードごと)に生成される。また、図4(A)に示されるように、一つの部分文字列について複数の検索結果が得られた場合は検索結果ごとに検索結果データが生成される。したがって、一つの部分文字列に対して複数の検索結果データが生成されうる。 The search result data is generated for each partial character string (or for each keyword when a plurality of keywords are generated based on one partial character string). As shown in FIG. 4A, when a plurality of search results are obtained for one partial character string, search result data is generated for each search result. Therefore, a plurality of search result data can be generated for one partial character string.
続いて、文字列一致評価部116は、各検索結果データを対応する部分文字列の順番に並べた全ての組み合わせについて各テキスト検出領域が位置的に連続している可能性の高さを示す評価値(文字列一致度)を算出する(S170)。ここで、各検索結果データを対応する部分文字列の順番に並べた全ての組み合わせとは、図15に示される組み合わせをいう。
Subsequently, the character string
図15では、部分文字列「東京都、」について二つの検索結果データが出力され、部分文字列「外国、」について二つの検索結果データが出力され、「埼玉県」について一つの検索結果データが出力された例が示されている。これらの検索結果データを、それぞれの検索結果データが対応する部分文字列の順番に並べた場合、検索結果データの組み合わせは4通りとなる。この4通りが、図15において「各検索結果データを対応する部分文字列の順番に並べた全ての組み合わせ」である。なお、算出された文字列一致度は、組み合わせごとに付与され、メモリ装置103に記録される。
In FIG. 15, two search result data are output for the partial character string “Tokyo,”, two search result data are output for the partial character string “foreign,” and one search result data is output for “Saitama Prefecture”. An output example is shown. When these search result data are arranged in the order of partial character strings corresponding to each search result data, there are four combinations of search result data. These four patterns are “all combinations in which each search result data is arranged in the order of corresponding partial character strings” in FIG. Note that the calculated character string matching degree is given for each combination and recorded in the
続いて、文字列強調部117は、文字列一致度評価部115によって付与された文字列一致度が所定の閾値(基準値)よりも大きな組み合わせに含まれる各検索結果データに基づいて強調表示を行う位置を判定する(S180)。具体的には、文字列強調部117は、当該組み合わせに係る全ての検索結果データのキーワード検出領域(部分文字列数が3であれば、3つのキーワード検出領域)を含む最小の矩形領域を各検索結果データの文字列座標に基づいて求め、当該最小の矩形領域を強調表示を行う位置(領域)と判定する。
Subsequently, the character
続いて、文字列強調部117は、ステップS180において判定された最小の矩形領域を強調表示する(S190)。具体的には、文字列強調部117は、当該最小の矩形領域の周囲に破線を描画する。また、文字列強調部117は、当該矩形領域の底辺に実線を描画する。但し、破線又は実線のいずれか一方のみを描画するようにしてもよい。
Subsequently, the character
ステップS130〜S190は、清書作業が終了するまで繰り返される(S210)。 Steps S130 to S190 are repeated until the clearing work is completed (S210).
ところで、強調表示の方法は、破線で囲んだり下線を引いたりする方法に限定されない。例えば、強調表示させる文字列の背景色を変えるようにしてもよい。この場合、背景色は予め定められている色を用いてもよいし、文書画像の状態に応じて自動的に決定してもよい。背景色を自動的に決定する場合、まず、該当する領域の元の(現在の)背景色を求める。具体的には、該当する領域内を二値化し、各画素を白黒いずれかの画素に変換する。二値化の方法としては、例えば、「大津展之、「判別および最小2乗基準に基づく自動しきい値選定法」、電子通知学会論文誌volJ63−D No.4、1980年4月、p349−365」に記載されている公知の方法を利用すればよい。続いて、例えば、図16に示されるように、キーワード検出領域の周囲(外接矩形)に沿って順番に画素を走査し、キーワード検出領域の外郭の画素の値を順番に求める。二値化された画像で白画素であった画素と黒画素であった画素のそれぞれの画素数と画素値の平均値を求め、画素数が多い方の値を元の背景色として判定する。 By the way, the highlighting method is not limited to the method of surrounding with a broken line or underlining. For example, the background color of the character string to be highlighted may be changed. In this case, the background color may be a predetermined color or may be automatically determined according to the state of the document image. When the background color is automatically determined, first, the original (current) background color of the corresponding area is obtained. Specifically, the corresponding area is binarized, and each pixel is converted into one of monochrome pixels. As a binarization method, for example, “Nobuyuki Otsu,“ Automatic threshold selection method based on discriminant and least squares criterion ”, Electronic Notification Society paper vol. 4, April 1980, p349-365 ”may be used. Subsequently, for example, as shown in FIG. 16, the pixels are scanned in order along the periphery (circumscribed rectangle) of the keyword detection area, and the values of the pixels outside the keyword detection area are obtained in order. In the binarized image, the number of pixels and the average value of the pixels that are white pixels and the pixels that are black pixels are obtained, and the value with the larger number of pixels is determined as the original background color.
キーワード検出領域を強調する際は、先に求めた二値画像を参照して背景の画素(背景画素)を特定すると共に、元の背景色に対する強調色を求める。続いて、背景画素の画素値を強調色の画素値に置き換える。例えば図16のように背景色が白である場合に強調色を灰色とすると図17のようになる。 When emphasizing the keyword detection region, the background pixel (background pixel) is specified with reference to the previously obtained binary image, and the emphasized color for the original background color is obtained. Subsequently, the pixel value of the background pixel is replaced with the pixel value of the emphasized color. For example, when the background color is white as shown in FIG. 16 and the highlight color is gray, the result is as shown in FIG.
続いて、ステップS170の詳細について説明する。図18は、文字列一致度の算出処理の処理手順を説明するためのフローチャートである。 Next, details of step S170 will be described. FIG. 18 is a flowchart for explaining the processing procedure of the character string matching degree calculation processing.
ステップS301において、文字列一致度評価部116は、部分文字列の数が複数であるか否かを判定する。例えば、図4(A)の状態は、部分文字列が一つの場合である。また、図4(B)の状態は、部分文字列が複数(二つ)の場合である。
In step S301, the character string matching
部分文字列が複数の場合(S301でYesの場合)、文字列一致度評価部116は、先頭の部分文字列の検索結果データごとにキーワード検出領域に含まれる文字列の文字サイズを推定する(S302)。図15の例では、検索結果データ1−1及び検索結果データ1−2について文字サイズが推定される。文字サイズの推定は、例えば、次のように行えばよい。まず、検索結果データに含まれている各文字座標に基づいて、文字ごとに高さ及び幅を求め、それぞれの最大値及び平均値を算出する。続いて、最大値と平均値との中間値を求め、当該中間値を文字サイズの推定値とする。なお、文字サイズの推定の際は、句読点のようにサイズが特殊な文字は計算対象から除くようにするとよい。そうすることで、安定的に文字サイズを推定することができる。
When there are a plurality of partial character strings (Yes in S301), the character string matching
続いて、文字列一致度評価部116は、分割前の並び順において先頭の部分文字列の末端からと他の部分文字列の先端までの文字コード上での差分(すなわち、文字数の差分)を求める(S303)。例えば、図13の場合、分割前の並び順において先頭の部分文字列は、「東京都、」であり、他の部分文字列は「外国、」及び「埼玉県」である。この場合、「東京都、」の末端から「外国、」及び「埼玉県」の先端までの文字数は、それぞれ0、3である。
Subsequently, the character string matching
続いて、文字列一致度評価部116は、文字数の差分に文字サイズを乗ずることにより、2番目以降の部分文字列に対応するキーワード検出領域の先端位置(文書画像上の座標値)を推定し、各検索結果データに付与する(S304)。例えば、図15の例において「東京都、」の検索結果データ1−1に基づいて推定された文字サイズが30ドットであるとすると、「東京都、」の終端から0×30=0ドット移動した位置が「外国、」の先端であり、3×30=90ドット移動した位置が「埼玉県」の先端であると推定される。「東京都、」の末端は、「東京都、」の検索結果データの文字列座標によって示される矩形領域(すなわち、キーワード検出領域)の末端とすればよい。
Subsequently, the character string matching
なお、2番目以降の部分文字列に対応するキーワード検出領域の先端位置は、先頭の部分文字列ごとに推定される。具体的には、図15の例では、図19に示されるように2番目以降の検索結果データの示すキーワード検出領域の先端位置が推定される。 Note that the tip position of the keyword detection area corresponding to the second and subsequent partial character strings is estimated for each of the first partial character strings. Specifically, in the example of FIG. 15, as shown in FIG. 19, the tip position of the keyword detection region indicated by the second and subsequent search result data is estimated.
図19は、2番目以降の検索結果データが示すキーワード検出領域の先端位置の推定例を示す図である。 FIG. 19 is a diagram illustrating an example of estimating the tip position of the keyword detection area indicated by the second and subsequent search result data.
同図では、検索データ2−1及び2−2に対して、検索結果データ1−1に基づく推定位置(x21,y21)と検索結果データ1−2に基づく推定位置(x22,y22)とが付与されている。また、検索結果データ3−1に対して、検索結果データ1−1に基づく推定位置(x31,y31)と検索結果データ1−2に基づく推定位置(x32,y32)とが付与されている。 In the figure, for the search data 2-1 and 2-2, there are an estimated position (x21, y21) based on the search result data 1-1 and an estimated position (x22, y22) based on the search result data 1-2. Has been granted. Further, an estimated position (x31, y31) based on the search result data 1-1 and an estimated position (x32, y32) based on the search result data 1-2 are given to the search result data 3-1.
続いて、文字列一致度評価部116は、先頭の部分文字列の各検索結果データと2番目以降の部分文字列の各検索結果データとの間の共起関係の有無を判定する(S305)。本実施の形態において、推定位置の近傍座標が検索結果データの示すキーワード検出領域に含まれる場合、当該推定位置の基点として利用された先頭の部分文字列の検索結果データと、当該キーワード検出領域に対応する検索結果データとは共起関係を有すると判定される。
Subsequently, the character string matching
推定位置の近傍座標とは、推定位置の座標値を(x,y)とした場合、(x±α,y±α)をいう(αは、例えば、文字サイズ)。したがって、図19において、検索結果データ2−1については、(x21±α,y21±α)の座標値又は(x22±α,y22±α)の座標値が、検索結果データ2−1が示すキーワード検出領域に含まれるか否かが判定される。検索結果データ2−2及び検索結果データ3−1についても同様の判定が行われる。 The vicinity coordinates of the estimated position means (x ± α, y ± α) (α is a character size, for example) when the coordinate value of the estimated position is (x, y). Accordingly, in FIG. 19, for the search result data 2-1, the search result data 2-1 indicates the coordinate value of (x21 ± α, y21 ± α) or the coordinate value of (x22 ± α, y22 ± α). It is determined whether or not it is included in the keyword detection area. The same determination is performed for the search result data 2-2 and the search result data 3-1.
図20は、推定位置の近傍座標が検索結果データの示すキーワード検出領域に含まれるか否かの判定結果の例を示す図である。同図において、×が付されている推定位置は、対応する検索結果データが示すキーワード検出領域に含まれないことを示す。○が付されている推定位置は、対応する検索結果データが示すキーワード検出領域に含まれることを示す。 FIG. 20 is a diagram illustrating an example of a determination result of whether or not the vicinity coordinates of the estimated position are included in the keyword detection region indicated by the search result data. In the same figure, the estimated position marked with “x” indicates that it is not included in the keyword detection area indicated by the corresponding search result data. The estimated position marked with ○ is included in the keyword detection area indicated by the corresponding search result data.
同図では、検索結果データ2−1が示すキーワード検出領域には、いずれの推定位置も含まれないことが示されている。また、検索結果データ2−2が示すキーワード検出領域には、検索結果データ1−1に基づく推定位置(x21,y21)のみが含まれることが示されている。また、検索結果データ3−1が示すキーワード検出領域には、検索結果データ1−1に基づく推定位置(x31,y31)のみが含まれることが示されている。 In the figure, it is shown that any estimated position is not included in the keyword detection area indicated by the search result data 2-1. Moreover, it is shown that the keyword detection area indicated by the search result data 2-2 includes only the estimated position (x21, y21) based on the search result data 1-1. Moreover, it is shown that the keyword detection area indicated by the search result data 3-1 includes only the estimated position (x31, y31) based on the search result data 1-1.
したがって、検索結果データ1−1及び検索結果データ2−2、並びに検索結果データ1−1及び検索結果データ3−1のそれぞれは共起関係が有ると判定される。すなわち、部分文字列ごとに検索された検索結果データ1−1、2−2、及び3−1が示すキーワード検出領域は、図21に示されるように、連続した領域であると判定することができる。 Therefore, it is determined that the search result data 1-1 and the search result data 2-2, and the search result data 1-1 and the search result data 3-1 have a co-occurrence relationship. That is, the keyword detection area indicated by the search result data 1-1, 2-2, and 3-1 searched for each partial character string is determined to be a continuous area as shown in FIG. it can.
なお、各検索結果データの文字列座標を直接比較照合することにより、各キーワード検出領域の連続性を判定するようにしてもよい。この場合、ステップS302からS304は実行されなくてもよい。 Note that the continuity of each keyword detection area may be determined by directly comparing and collating the character string coordinates of each search result data. In this case, steps S302 to S304 may not be executed.
続いて、文字列一致度評価部116は、部分文字列順の検索結果データの全ての組み合わせにごとに、最初の検索結果データとの共起関係の有無に基づいて文字列一致度を算出する(S306)。組み合わせごとの文字列一致度の算出は、例えば、次のように行われる。まず、当該組み合わせの最初の検索結果データの検索スコアを評価値の初期値とする。続いて、当該組み合わせの2番目以降の検索結果データごとに、最初の検索結果データと共起関係を有するか否かに基づいて検索スコア又は0を評価値に加算する。すなわち、最初の検索結果データと共起関係を有する検索結果データの検索スコアのみが評価値に加算される。続いて、当該組み合わせに属する検索結果データの数(図20の例では3)で評価値を除す。この除算の結果が文字列一致度である。
Subsequently, the character string matching
図20の例では、4通りの組み合わせについてそれぞれ文字列一致度が算出される。この際、検索結果データ2−1の検索スコアは加算対象とはされない。 In the example of FIG. 20, the character string matching degree is calculated for each of the four combinations. At this time, the search score of the search result data 2-1 is not an addition target.
一方、部分文字列が1つである場合、文字列一致度評価部116は、当該部分文字列に対する一つ又は複数の検索結果データのそれぞれの検索スコアを、各検索結果データの文字列一致度として各検索結果データに付与する(S307)。なお、ステップS307が実行された場合、図9のステップS180では、文字列一致度が所定の閾値以上の検索結果データが示すキーワード検出領域に対して破線及び下線が描画される。
On the other hand, when there is one partial character string, the character string matching
上述したように、第一の実施の形態によれば、文書データ30中において清書された箇所が強調表示される。したがって、例えば、途中から1行ずれて入力してしまうといったような入力ミスを軽減することができる。その結果、清書作業におけるユーザの作業負担を軽減することができる。
As described above, according to the first embodiment, a portion that has been clarified in the
また、本実施の形態では、清書テキスト50は部分文字列に分割され部分文字列ごとにキーワード検索が実行される。したがって、長文となる可能性が高い清書テキスト50に関するキーワード検索の処理効率を向上させることができる。例えば、キーワード検索として特許文献3に記載された方法を利用する場合を考える。説明の便宜上、清書テキスト50が三つの部分文字列に分割され、それぞれについて4通りのキーワードが作成可能であるとする。この場合、仮に部分文字列に分割されないとすると、清書文字列50について4×4×4通りのキーワードについてキーワード検索が実行される。一方、部分文字列に分割されれば、4通×3通りのキーワードについてキーワード検索が行われればよい。したがって、検索処理の処理効率を著しく向上させることができる。
In the present embodiment, the
但し、部分文字列ごとにキーワード検索が行われた場合、清書位置に対応しない箇所についてまでキーワード検出領域として判定される可能性が高くなるという副作用を伴う可能性がある。そこで、本実施の形態では、文字列一致度評価部115によって各キーワード検出領域の連続性が評価され、その評価結果に基づいて、各キーワード検出領域が入力位置に対応した箇所であるか否かが判定される。それにより、上記副作用が適切に抑制される。
However, when a keyword search is performed for each partial character string, there is a possibility that a possibility that a portion that does not correspond to the clear text position is determined as a keyword detection region is increased. Therefore, in the present embodiment, the continuity of each keyword detection area is evaluated by the character string matching
なお、図9では、入力されたテキストが確定状態となったタイミングでステップS150以降の処理が実行される例について説明したが、それ以外のタイミングをステップS150以降を実行するきっかけとしてもよい。例えば、スペースが入力されたタイミングでもよいし、一定時間ごとにステップS150が実行されてもよい。 In FIG. 9, the example in which the process after step S150 is executed at the timing when the input text is in the finalized state has been described, but other timings may be used as a trigger for executing the process after step S150. For example, the timing when a space is input may be used, or step S150 may be executed at regular intervals.
次に、第二の実施の形態について説明する。第二の実施の形態では第一の実施の形態と異なる点について説明する。 Next, a second embodiment will be described. In the second embodiment, differences from the first embodiment will be described.
図22は、第二の実施の形態の清書支援装置による処理手順を説明するためのフローチャートである。図22中、図9と同一ステップには同一ステップ番号を付し、その説明は適宜省略する。 FIG. 22 is a flowchart for explaining a processing procedure by the cleansing support apparatus according to the second embodiment. In FIG. 22, the same steps as those in FIG. 9 are denoted by the same step numbers, and description thereof will be omitted as appropriate.
図22ではステップS185が追加されている。ステップS185において、文字列強調部117は、文字列一致度評価部115によって付与された文字列一致度が所定の閾値(基準値)よりも大きな組み合わせに含まれる各検索結果データの中から、文字スコアが所定の閾値より低い文字の文字座標を取得する。
In FIG. 22, step S185 is added. In step S185, the character
続くステップS190において強調表示を行う際に、文字列強調部117は、ステップS185において取得された文字座標の領域については強調表示される他の部分と識別可能なように表示態様を変化させる(強調表示の属性を変更する又は強調表示の対象から除外する)。本実施の形態では、当該領域は下線の描画対象から除外される。
When highlighting is performed in the subsequent step S190, the character
図23は、第二の実施の形態における強調表示の第一の例を示す図である。同図では、「埼玉県」の中の「埼」が「彩」に誤って入力された例が示されている。この場合、「彩玉県」に対する検索結果データでは、「彩」の文字スコアが著しく低くなる。したがって、ステップS185において、「彩」の文字スコアは所定の閾値より低いと判定される。その結果、「彩」の領域は下線の描画対象から除外される。 FIG. 23 is a diagram illustrating a first example of highlighting in the second embodiment. The figure shows an example in which “Saitama” in “Saitama Prefecture” is erroneously entered in “Aya”. In this case, in the search result data for “Saitama Prefecture”, the character score of “Sai” is significantly low. Therefore, in step S185, it is determined that the character score of “Aya” is lower than a predetermined threshold. As a result, the “color” area is excluded from the underline drawing target.
なお、部分的に一致しない部分の表示態様は、他の方法によって変化させるようにしてもよい。図24は、第二の実施の形態における強調表示の第二の例を示す図である。同図では、誤った文字が入力された「埼」の領域を除いて背景色が変化された例が示されている。 In addition, you may make it change the display mode of the part which does not correspond partially by another method. FIG. 24 is a diagram illustrating a second example of highlighting in the second embodiment. In the figure, an example is shown in which the background color is changed except for the “Saki” area where an erroneous character is input.
上述したように、第二の実施の形態によれば、強調表示された箇所の中に、部分的に一致しない文字が存在することをユーザに分かり易く示すことができる。 As described above, according to the second embodiment, it is possible to easily show to the user that there are characters that do not partially match in the highlighted portion.
次に、第三の実施の形態について説明する。第三の実施の形態では第一の実施の形態と異なる点について説明する。図25は、第三の実施の形態の清書支援装置による処理手順を説明するためのフローチャートである。図25中、図9と同一ステップには同一ステップ番号を付し、その説明は適宜省略する。 Next, a third embodiment will be described. In the third embodiment, differences from the first embodiment will be described. FIG. 25 is a flowchart for explaining a processing procedure by the cleansing support apparatus according to the third embodiment. In FIG. 25, the same steps as those in FIG. 9 are denoted by the same step numbers, and description thereof will be omitted as appropriate.
図25では、ステップS150がステップS155に置き換えられている。ステップS155において、テキスト分割部114は、清書テキスト50の末尾からの一部分を部分文字列に分割する。すなわち、第三の実施の形態では、これまで入力された全ての清書テキスト50ではなく、末尾からの一部分のみが分割対象とされる。分割対象とする部分は、例えば、最大文字数(例えば、40文字)の範囲内で、最後の文字から遡って所定数文字(例えば、20文字)を超えた位置で最初に見つかった句読点の直後から最後の文字までの範囲とされる。又は、ステップS140において新たに確定状態であると判定されたテキストのみを分割対象としてもよい。更に、他の方法によって分割対象の部分を決定してもよい。
In FIG. 25, step S150 is replaced with step S155. In step S155, the
清書テキスト50の末尾の一部分のみ分割対象とされることにより、ステップS160以降において処理対象とする部分文字列数を削減することができる。したがって、清書テキスト50が非常に長文の場合に、計算コストを削減することができる。また入力テキストの途中を編集した場合に編集した位置の周辺のみを強調表示することができるため、利便性を向上させることもできる。
Since only the last part of the
次に、第四の実施の形態について説明する。図26は、第四の実施の形態における清書支援装置の機能構成例を示す図である。図26中、図7と同一部分には同一符号を付し、その説明は省略する。 Next, a fourth embodiment will be described. FIG. 26 is a diagram illustrating a functional configuration example of the cleansing support apparatus according to the fourth embodiment. In FIG. 26, the same parts as those in FIG.
同図において、清書支援装置10aは、入力位置判定部118、入力対象範囲推定部119、入力対象範囲文字認識部120、推定文字列候補生成部121、予測文字列表示部122、及び予測文字列選択部123等を更に有する。
In the figure, the clean-up
入力位置判定部118は、現在の入力位置(清書位置)を求める。例えば、図6の例であれば、「埼玉県が」の領域の末端の座標値が入力位置と判定される。なお、「埼玉県が」の末端の位置は、「埼玉県が」の検索結果データの文字列座標に基づいて判定すればよい。
The input
入力対象範囲推定部119は、入力位置判定部118によって判定された入力位置に基づいて、文書画像において次に清書される文字列を含む領域(以下、「入力対象範囲」という。)を推定する。例えば、図6の例では、「埼玉県が」に続く「転入」を含む領域が入力対象領域と判定される。
Based on the input position determined by the input
入力対象範囲文字認識部120は、入力対象範囲に対してOCR技術による文字認識処理を実行する。例えば、図6の例では、「転入」を含む領域に対して文字認識が実行される。なお、当該文字認識処理の処理結果は、文字認識部111による処理結果と同様に、文字認識の確定結果ではなく、複数の認識候補を含むようにするとよい。
The input target range
推定文字列候補生成部121は、入力対象範囲文字認識部120より出力される認識候補に基づいて、入力位置に続いて入力されると推定される文字列候補のリスト(以下、「推定文字列候補リスト」という。)を生成する。
Based on the recognition candidates output from the input target range
予測文字列表示部122は、推定文字列候補リストの中から入力テキストを選択させるためのポップアップウィンドウ530を図6に示されるように清書画面520上に表示させる。
The predicted character
予測文字列選択部123は、ポップアップウィンドウ530において選択された文字列を、新たな入力テキストとして清書テキスト50に追加する。
The predicted character
以下、図26の清書支援装置10aの処理手順について説明する。図27は、第四の実施の形態の清書支援装置による処理手順を説明するためのフローチャートである。図27中、図9と同一ステップには同一ステップ番号を付し、その説明は適宜省略する。
Hereinafter, a processing procedure of the clean-
図27では、ステップS191〜S202が追加されている。ステップS191において、入力位置判定部118は、現在の入力位置を判定する。具体的には、入力位置判定部118は、文書画像中において、文字列一致度評価部117によって算出された文字列一致度が所定の閾値より高い領域(すなわち、強調表示の対象とされる領域)の末端の位置を現在の入力位置と判定する。
In FIG. 27, steps S191 to S202 are added. In step S191, the input
続いて、入力対象範囲推定部119は、入力位置判定部118によって判定された入力位置に基づいて入力対象範囲を推定する(S192)。例えば、横書きの場合であれば、入力対象範囲推定部119は、入力位置から右方向に所定数文字分の矩形領域を特定する座標値(例えば、当該矩形領域の対角線上の二つの頂点の座標値)を算出する。上記で説明した文字列一致度評価部115による文字サイズの推定方法と同じ方法によって入力位置の直前のキーワード検出領域の1文字分の文字サイズを推定し、当該文字サイズに基づいて所定数文字分の矩形領域を判定すればよい。例えば、N文字分の領域は、入力位置から右に文字サイズのN倍の幅を有し、上下方向に文字サイズの2倍の高さを有する領域を求めればよい。
Subsequently, the input target
図28は、入力対象範囲の例を示す図である。同図において、「埼玉県」を囲む矩形領域は直前のキーワード検出領域である。「埼玉県」の右に隣接する破線の矩形領域は入力対象範囲である。当該入力対象範囲は、高さ方向の中心が直前のキーワード検出領域の高さ方向の中心と一致するように設定されている。なお、入力対象範囲内の矢印は、文字サイズの幅を示す。したがって、同図では、3文字分を入力対象範囲とした例に相当する。 FIG. 28 is a diagram illustrating an example of the input target range. In the figure, a rectangular area surrounding “Saitama Prefecture” is the immediately preceding keyword detection area. A dashed rectangular area adjacent to the right of “Saitama Prefecture” is an input target range. The input target range is set so that the center in the height direction matches the center in the height direction of the immediately preceding keyword detection region. An arrow in the input target range indicates the width of the character size. Accordingly, this figure corresponds to an example in which three characters are set as the input target range.
なお、サイズが固定の矩形領域を入力対象範囲としてもよい。 Note that a rectangular area having a fixed size may be set as the input target range.
また、文書画像中の文字列が縦書きか横書きかの区別は、検索結果データの文字座標に基づいて、各文字が縦横いずれの方向に並んでいるかに基づいて判断すればよい。 Whether the character string in the document image is written vertically or horizontally may be determined based on the character coordinates of the search result data based on whether the characters are arranged in the vertical or horizontal direction.
入力対象範囲文字認識部120は、入力対象範囲に対して文字認識処理を実行し、一つ以上の認識候補を出力する(S193)。なお、入力対象範囲文字認識部120は、改めて文字認識を実行しなくてもよい。例えば、文字認識結果データ40に基づいて入力対象範囲に対する認識候補を出力してもよい。
The input target range
続いて、推定文字列候補生成部121は、入力対象範囲文字認識部120より出力される認識候補を含むリストを推定文字列候補リストとしてメモリ装置103に生成する(S194)。
Subsequently, the estimated character string
続いて、予測文字列表示部122は、推定文字列候補リストの中から入力テキストを選択させるためのポップアップウィンドウ530を図6に示されるように清書画面520上に表示させる(S201)。
Subsequently, the predicted character
ポップアップウィンドウ530において推定文字列候補リストの中から入力テキストが選択されると(S202でYes)、予測文字列選択部123は、選択された文字列を新たな入力テキストとして清書テキスト50に追加する(S197)。ステップS197に続いて、ステップS150以降が繰り返し実行される。
When an input text is selected from the estimated character string candidate list in the pop-up window 530 (Yes in S202), the predicted character
一方、ポップアップウィンドウ530において推定文字列候補リストの中から入力テキストが選択されない場合は(S202でNo)、ステップS210に進む。 On the other hand, if the input text is not selected from the estimated character string candidate list in the pop-up window 530 (No in S202), the process proceeds to step S210.
上述したように、第四の実施の形態によれば、入力対象範囲に対する清書テキストの入力候補が当該入力対象範囲に対する文字認識結果に基づいてポップアプウィンドウ530上に提示される。したがって、提示された入力候補内に正しい文字列が存在する場合は、選択操作を行うだけで、当該文字列を入力することができる。その結果、清書作業の作業負担の軽減及び効率化を実現させることができる。特に、文字認識の精度が高い場合は、選択操作の連続により清書作業が行われうる。
As described above, according to the fourth embodiment, clear text input candidates for the input target range are presented on the pop-up
なお、第四の実施の形態に第二又は第三の実施の形態を組み合わせてもよい。すなわち、図27においてステップS185やS155が実行されてもよい。特に、第二の実施の形態と組み合わされる場合、ポップアップウィンドウ530において誤った候補(誤っている可能性が高い候補)が選択されたとしても、誤っている部分(文字)をユーザに通知することができる。
In addition, you may combine 2nd or 3rd embodiment with 4th embodiment. That is, steps S185 and S155 may be executed in FIG. In particular, when combined with the second embodiment, even if an erroneous candidate (a candidate that is highly likely to be incorrect) is selected in the pop-up
次に、第五の実施の形態について説明する。図29は、第五の実施の形態における清書支援装置の機能構成例を示す図である。図29中、図26と同一部分には同一符号を付し、その説明は省略する。 Next, a fifth embodiment will be described. FIG. 29 is a diagram illustrating an example of a functional configuration of the cleanup support apparatus according to the fifth embodiment. In FIG. 29, the same portions as those in FIG. 26 are denoted by the same reference numerals, and the description thereof is omitted.
同図において、清書支援装置10bは、文字列予測部124及び予測文字列統合部125を更に有する。
In the figure, the clean-up
文字列予測部124は、公知の予測入力技術を利用して、清書テキスト50の末尾の文字列(単語)に続いて入力される可能性の高い文字列候補のリスト(以下、「予測文字列候補リスト」という。)を生成する。
The character
予測文字列統合部125は、文字列予測部124によって生成される予測文字列候補リストと推定文字列候補生成部121によって生成される推定文字列候補リストとを統合する。
The predicted character
図30は、文字列予測部の構成例を示す図である。同図において、文字列予測部124は、単語入力部1241、単語学習部1242、汎用辞書1243、及びユーザ予測辞書1244等を含む。
FIG. 30 is a diagram illustrating a configuration example of the character string prediction unit. In the figure, the character
単語予測部1241は、既に入力済の文字列(本実施の形態では清書テキスト50)と汎用辞書1243及びユーザ予測辞書1244とに基づいて、続いて入力される可能性のある文字列(予測文字列)を生成する。単語学習部1242は、ユーザによって入力が確定された文字列(本実施の形態では、予測文字列選択部123が選択を受け付けた文字列、又は清書テキスト入力部113が入力確定を受け付けた文字列)を直前の文字列を関連付けてユーザ予測辞書1244に記録する。汎用辞書1243には、予め、共に使われる可能性の高い単語が相互の接続関係と共に記憶されている。なお、汎用辞書1243及びユーザ予測辞書1244の構成方法を含む文字列予測機能については「増井俊之、「ペンを用いた高速文章入力手法」.近代科学社、インタラクティブシステムとソフトウェアIV:日本ソフトウェア科学会WISS’96.pp.51−60、1996年12月」に一例が示されている。
The
以下、図29の清書支援装置10bの処理手順について説明する。図31は、第五の実施の形態の清書支援装置による処理手順を説明するためのフローチャートである。図31中、図27と同一ステップには同一ステップ番号を付し、その説明は適宜省略する。
Hereinafter, the processing procedure of the clean-
図31では、ステップS195及びS196が追加されている。ステップS195において、文字列予測部124は、公知の予測入力技術を利用して、清書テキスト50の末尾の文字列(単語)に続いて入力される可能性の高い文字列候補のリスト(予測文字列候補リスト)をメモリ装置103に生成する。続いて、予測文字列統合部125は、メモリ装置103に生成されている推定文字列候補リストと予測文字列候補リストとを統合し、統合結果をメモリ装置103に記録する(S196)。
In FIG. 31, steps S195 and S196 are added. In step S195, the character
ここで、文字列予測部124によって生成される予測文字列候補リストは、それまでに入力されたテキストから得られる文字列のリストであり、同一の文字列が何度も使われなければ有効な予測はできない。したがって、推定文字列候補生成部121によって生成される推定文字列候補リストの方が続いて入力される文字列に合致する可能性が高いと考えられる。よって、統合結果では、推定文字列候補リストに含まれる文字列を上位に並べ、その後に予測文字列候補リストに含まれる文字列を並べるようにするとよい。但し、推定文字列候補リストに含まれる文字列において認識スコア(文字認識の確信度)が所定値より低いものは、予測文字列候補リストに含まれる文字列よりも後に並べるようにしてもよい。そうすることで、信頼度の高い文字列を優先して入力候補として提示することができる
続くステップS201において、予測文字列表示部122は、統合された文字列候補リストをポップアップウィンドウ530に表示させる。
Here, the predicted character string candidate list generated by the character
上述したように、第五の実施の形態によれば、文字認識された文字列に加え、予測入力機能によって予測された文字列も入力候補として提示される。したがって、文字認識の精度が低い場合であっても、適切な入力候補を提示することができる。その結果、清書作業の作業負担の軽減及び効率化を実現させることができる。 As described above, according to the fifth embodiment, a character string predicted by the prediction input function is also presented as an input candidate in addition to the character string that has been character-recognized. Therefore, even if the accuracy of character recognition is low, an appropriate input candidate can be presented. As a result, it is possible to reduce the work load and increase the efficiency of the clearing work.
ところで、第一から第五の実施の形態において、文字列強調部117は、強調対象とされる文字列が属する行の上下一行を除いた他の部分について背景色を変化させるようにしてもよい。
By the way, in the first to fifth embodiments, the character
図32は、強調対象とされる文字列が属する行の上下一行を除いた他の部分について背景色が変えられた例を示す図である。 FIG. 32 is a diagram illustrating an example in which the background color is changed for the other parts except one line above and below the line to which the character string to be emphasized belongs.
同図では、図5に示したように「東京都、外国、彩玉県」が入力され、「埼」のみミスタイプされた場合の文書参照画面510の表示例が示されている。図5では、強調表示の方法として、背景色が変えられ、正しい部分には下線が引かれている。
This figure shows a display example of the
更に、「東京都、外国、埼玉県」が属する行の上下一行を除いた外側の部分についても背景色がグレイとされている。このように、現在清書中の箇所から少し離れた領域に影を付けることで、現在清書している領域をより強調させて表示させることができる。 Furthermore, the background color is also gray for the outer portion of the row to which “Tokyo, Foreign, Saitama Prefecture” belongs, except for one row above and below. In this way, by shadowing an area slightly away from the location that is currently being printed, the area that is currently being written can be displayed with more emphasis.
以上、本発明の実施例について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。 As mentioned above, although the Example of this invention was explained in full detail, this invention is not limited to such specific embodiment, In the range of the summary of this invention described in the claim, various deformation | transformation・ Change is possible.
以上の説明に関し、更に以下の項を開示する。
(付記1)
清書対象とされた文書データの画像を表示装置に表示させる画像表示手順と、
前記文書データに対する清書文字列の入力を受け付ける清書文字列入力手順と
前記画像に対する文字認識結果に対して前記清書文字列をキーワードとする検索処理を実行し、検索された文字列の前記画像上における位置情報を前記文字認識結果より取得する検索手順と、
前記検索手順において取得された前記位置情報に係る部分の表示態様を変更する表示態様変更手順とをコンピュータに実行させ、
前記表示態様変更手順は、前記位置情報に係る部分の中で前記文字認識結果の確信度が所定値よりも低い文字に係る部分を識別可能なように表示態様の変更を行う清書支援プログラム。
(付記2)
前記清書文字列を複数の部分文字列に分割する分割手順を有し、
前記検索手順は、前記部分文字列ごとに前記検索処理を実行し、該部分文字列ごとに検索された文字列の前記位置情報を取得する付記1記載の清書支援プログラム。
(付記3)
前記部分文字列ごとに検索された文字列の前記位置情報に基づいて、前記部分文字列ごとに検索された文字列が前記画像上において連続した文字列であるかを判定する判定手順を有し、
前記表示態様変更手順は、前記部分文字列ごとに検索された文字列が前記画像上において連続した文字列であると判定された場合に表示態様の変更を行う付記2記載の清書支援プログラム。
(付記4)
前記検索手順は、前記清書文字列の末尾からの一部分を利用して前記検索処理を実行する付記1乃至3いずれか一項記載の清書支援プログラム。
(付記5)
前記検索手順において取得された前記位置情報に係る部分の末端から所定の範囲に対する文字認識によって得られる文字列を次の入力候補として表示させる入力候補表示手順を有する付記1乃至4いずれか一項記載の清書支援プログラム。
(付記6)
前記入力候補表示手順は、前記清書文字列の末尾の文字列に続いて入力されると予測される文字列をも次の入力候補として表示させる付記5記載の清書支援プログラム。
(付記7)
コンピュータが実行する清書支援方法であって、
清書対象とされた文書データの画像を表示装置に表示させる画像表示手順と、
前記文書データに対する清書文字列の入力を受け付ける清書文字列入力手順と
前記画像に対する文字認識結果に対して前記清書文字列をキーワードとする検索処理を実行し、検索された文字列の前記画像上における位置情報を前記文字認識結果より取得する検索手順と、
前記検索手順において取得された前記位置情報に係る部分の表示態様を変更する表示態様変更手順とを有し、
前記表示態様変更手順は、前記位置情報に係る部分の中で前記文字認識結果の確信度が所定値よりも低い文字に係る部分を識別可能なように表示態様の変更を行う清書支援方法。
(付記8)
前記清書文字列を複数の部分文字列に分割する分割手順を有し、
前記検索手順は、前記部分文字列ごとに前記検索処理を実行し、該部分文字列ごとに検索された文字列の前記位置情報を取得する付記7記載の清書支援方法。
(付記9)
前記部分文字列ごとに検索された文字列の前記位置情報に基づいて、前記部分文字列ごとに検索された文字列が前記画像上において連続した文字列であるかを判定する判定手順を有し、
前記表示態様変更手順は、前記部分文字列ごとに検索された文字列が前記画像上において連続した文字列であると判定された場合に表示態様の変更を行う付記8記載の清書支援方法。
(付記10)
前記検索手順は、前記清書文字列の末尾からの一部分を利用して前記検索処理を実行する付記7乃至9いずれか一項記載の清書支援方法。
(付記11)
前記検索手順において取得された前記位置情報に係る部分の末端から所定の範囲に対する文字認識によって得られる文字列を次の入力候補として表示させる入力候補表示手順を有する付記7乃至10いずれか一項記載の清書支援方法。
(付記12)
前記入力候補表示手順は、前記清書文字列の末尾の文字列に続いて入力されると予測される文字列をも次の入力候補として表示させる付記11記載の清書支援方法。
Regarding the above description, the following items are further disclosed.
(Appendix 1)
An image display procedure for causing the display device to display an image of the document data that is the target of the copy,
A clear character string input procedure for receiving input of a clear character string for the document data, and a search process using the clear character string as a keyword with respect to a character recognition result for the image, and the searched character string on the image A search procedure for acquiring position information from the character recognition result;
Causing the computer to execute a display mode change procedure for changing the display mode of the portion related to the position information acquired in the search procedure;
The display mode changing procedure is a clean-up support program for changing a display mode so that a portion related to a character whose certainty of the character recognition result is lower than a predetermined value in the portion related to the position information can be identified.
(Appendix 2)
A division procedure for dividing the clear character string into a plurality of partial character strings;
The cleanup support program according to
(Appendix 3)
A determination procedure for determining whether the character string searched for each partial character string is a continuous character string on the image based on the position information of the character string searched for each partial character string; ,
The cleanup support program according to
(Appendix 4)
The cleanup support program according to any one of
(Appendix 5)
(Appendix 6)
The cleanup support program according to
(Appendix 7)
A clean-up support method executed by a computer,
An image display procedure for causing the display device to display an image of the document data that is the target of the copy,
A clear character string input procedure for receiving input of a clear character string for the document data, and a search process using the clear character string as a keyword with respect to a character recognition result for the image, and the searched character string on the image A search procedure for acquiring position information from the character recognition result;
A display mode change procedure for changing the display mode of the portion related to the position information acquired in the search procedure,
The said display mode change procedure is a cleanliness support method which changes a display mode so that the part which concerns on the character whose reliability of the said character recognition result is lower than a predetermined value among the parts which concern on the said position information can be identified.
(Appendix 8)
A division procedure for dividing the clear character string into a plurality of partial character strings;
The cleanup support method according to
(Appendix 9)
A determination procedure for determining whether the character string searched for each partial character string is a continuous character string on the image based on the position information of the character string searched for each partial character string; ,
9. The cleanliness support method according to
(Appendix 10)
The cleanup support method according to any one of
(Appendix 11)
The
(Appendix 12)
12. The cleanup support method according to supplementary note 11, wherein the input candidate display procedure displays a character string predicted to be input following the character string at the end of the clear character string as a next input candidate.
10 清書支援装置
100 ドライブ装置
101 記録媒体
102 補助記憶装置
103 メモリ装置
104 CPU
105 インタフェース装置
106 表示装置
107 入力装置
111 文字認識部
112 文書データ表示部
113 清書テキスト入力部
114 テキスト分割部
115 キーワード検索部
116 文字列一致度評価分
117 文字列強調部
118 入力位置判定部
119 入力対象範囲推定部
120 入力対象範囲文字認識部
121 推定文字列候補生成部
122 予測文字列表示部
123 予測文字列選択部
124 文字列予測部
125 予測文字列統合部
1241 単語入力部
1242 単語学習部
1243 汎用辞書
1244 ユーザ予測辞書
B バス
DESCRIPTION OF
105
Claims (6)
前記文書データに対する清書文字列の入力を受け付ける清書文字列入力手順と、
前記画像に対する文字認識結果に対して前記清書文字列をキーワードとする検索処理を実行し、検索された文字列の前記画像上における位置情報を前記文字認識結果より取得する検索手順と、
前記検索手順において取得された前記位置情報に係る部分の表示態様を変更する表示態様変更手順とをコンピュータに実行させ、
前記表示態様変更手順は、前記位置情報に係る部分の中で前記清書文字列を構成する文字との一致度が所定値よりも低い文字に係る部分を識別可能なように表示態様の変更を行う清書支援プログラム。 An image display procedure for causing the display device to display an image of the document data that is the target of the copy,
A clear character string input procedure for accepting input of a clear character string for the document data ;
A search procedure for executing a search process using the clear character string as a keyword for the character recognition result for the image, and obtaining position information on the image of the searched character string from the character recognition result;
Causing the computer to execute a display mode change procedure for changing the display mode of the portion related to the position information acquired in the search procedure;
In the display mode changing procedure, the display mode is changed so that a portion related to a character whose degree of coincidence with a character constituting the clear text string is lower than a predetermined value in the portion related to the position information can be identified. Clean book support program.
前記検索手順は、前記部分文字列ごとに前記検索処理を実行し、該部分文字列ごとに検索された文字列の前記位置情報を取得する請求項1記載の清書支援プログラム。 A division procedure for dividing the clear character string into a plurality of partial character strings;
The cleanup support program according to claim 1, wherein the search procedure executes the search process for each partial character string and acquires the position information of the character string searched for each partial character string.
前記表示態様変更手順は、前記部分文字列ごとに検索された文字列が前記画像上において連続した文字列であると判定された場合に表示態様の変更を行う請求項2記載の清書支援プログラム。 A determination procedure for determining whether the character string searched for each partial character string is a continuous character string on the image based on the position information of the character string searched for each partial character string; ,
The cleanliness support program according to claim 2, wherein the display mode changing procedure changes the display mode when it is determined that the character string searched for each partial character string is a continuous character string on the image.
清書対象とされた文書データの画像を表示装置に表示させる画像表示手順と、
前記文書データに対する清書文字列の入力を受け付ける清書文字列入力手順と、
前記画像に対する文字認識結果に対して前記清書文字列をキーワードとする検索処理を実行し、検索された文字列の前記画像上における位置情報を前記文字認識結果より取得する検索手順と、
前記検索手順において取得された前記位置情報に係る部分の表示態様を変更する表示態様変更手順とを有し、
前記表示態様変更手順は、前記位置情報に係る部分の中で前記清書文字列を構成する文字との一致度が所定値よりも低い文字に係る部分を識別可能なように表示態様の変更を行う清書支援方法。 A clean-up support method executed by a computer,
An image display procedure for causing the display device to display an image of the document data that is the target of the copy,
A clear character string input procedure for accepting input of a clear character string for the document data;
A search procedure for executing a search process using the clear character string as a keyword for the character recognition result for the image, and obtaining position information on the image of the searched character string from the character recognition result;
A display mode change procedure for changing the display mode of the portion related to the position information acquired in the search procedure,
In the display mode changing procedure, the display mode is changed so that a portion related to a character whose degree of coincidence with a character constituting the clear text string is lower than a predetermined value in the portion related to the position information can be identified. Clean book support method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009014158A JP5316021B2 (en) | 2009-01-26 | 2009-01-26 | Clean book support program and clean book support method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009014158A JP5316021B2 (en) | 2009-01-26 | 2009-01-26 | Clean book support program and clean book support method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010170461A JP2010170461A (en) | 2010-08-05 |
JP5316021B2 true JP5316021B2 (en) | 2013-10-16 |
Family
ID=42702543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009014158A Expired - Fee Related JP5316021B2 (en) | 2009-01-26 | 2009-01-26 | Clean book support program and clean book support method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5316021B2 (en) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6320671B2 (en) * | 2012-08-29 | 2018-05-09 | 京セラ株式会社 | Electronic device, control method and program |
JP6202815B2 (en) * | 2012-12-18 | 2017-09-27 | 富士通株式会社 | Character recognition device, character recognition method, and character recognition program |
JP2014137791A (en) * | 2013-01-18 | 2014-07-28 | Fujitsu Ltd | Display program, display device and display method |
JP6060134B2 (en) * | 2014-11-13 | 2017-01-11 | 株式会社プリマジェスト | Information processing apparatus and information processing method |
JP6696119B2 (en) * | 2015-05-01 | 2020-05-20 | 富士通株式会社 | Conversion device, conversion method, and conversion program |
JP2017027518A (en) * | 2015-07-27 | 2017-02-02 | 日本精工株式会社 | Character input support device and character input support program |
US9892789B1 (en) | 2017-01-16 | 2018-02-13 | International Business Machines Corporation | Content addressable memory with match hit quality indication |
JP7283755B2 (en) * | 2020-04-16 | 2023-05-30 | 株式会社ミラボ | Information processing device and program |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59134830U (en) * | 1983-03-01 | 1984-09-08 | 松下電器産業株式会社 | data input device |
JPH0250248A (en) * | 1988-08-11 | 1990-02-20 | Hitachi Ltd | Document preparing system |
JPH04369761A (en) * | 1991-06-18 | 1992-12-22 | Hitachi Commun Syst Inc | Document preparing system |
JPH1021326A (en) * | 1996-06-28 | 1998-01-23 | Ricoh Co Ltd | Recognized result displaying method, character recognizing system and information recording medium |
JPH10187681A (en) * | 1996-12-25 | 1998-07-21 | Mitsuru Kaneko | Document input system |
JPH10254871A (en) * | 1997-03-13 | 1998-09-25 | Nippon Telegr & Teleph Corp <Ntt> | Document input method and its device |
-
2009
- 2009-01-26 JP JP2009014158A patent/JP5316021B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010170461A (en) | 2010-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5316021B2 (en) | Clean book support program and clean book support method | |
JP4181310B2 (en) | Formula recognition apparatus and formula recognition method | |
US7792369B2 (en) | Form processing method, form processing device, and computer product | |
EP2428905A1 (en) | Information processing apparatus, information processing method, and computer program product for using composite data of image and text information | |
KR101685472B1 (en) | Information processing device, information processing method and storage medium | |
EP2241999A2 (en) | Underline removal apparatus | |
US11475688B2 (en) | Information processing apparatus and information processing method for extracting information from document image | |
JP2010157107A (en) | Business document processor | |
JP7493937B2 (en) | Method, program and system for identifying a sequence of headings in a document | |
JP2018055255A (en) | Information processing apparatus, information processing method, and program | |
CN113378839A (en) | Information processing apparatus, information processing method, and computer readable medium | |
CN113673294B (en) | Method, device, computer equipment and storage medium for extracting document key information | |
JP3216800B2 (en) | Handwritten character recognition method | |
JPWO2014068770A1 (en) | Data extraction method, data extraction device and program thereof | |
JP6007720B2 (en) | Information processing apparatus and information processing program | |
JP4466241B2 (en) | Document processing method and document processing apparatus | |
JP2012108893A (en) | Hand-written entry method | |
JP2013061886A (en) | Chemical structure diagram recognition system and computer program for chemical structure diagram recognition system | |
JP4810853B2 (en) | Character image cutting device, character image cutting method and program | |
JP2022095391A (en) | Information processing apparatus and information processing program | |
JP7358838B2 (en) | Information processing device and information processing program | |
JP6575116B2 (en) | Character recognition device, character recognition processing system, and program | |
JP5003837B2 (en) | Image processing apparatus and program | |
JP6503850B2 (en) | Range specification program, range specification method and range specification apparatus | |
JP5277750B2 (en) | Image processing program, image processing apparatus, and image processing system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111006 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130328 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130416 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130514 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130611 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130624 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |