JP2021135938A - Information processing apparatus, program and information processing method - Google Patents
Information processing apparatus, program and information processing method Download PDFInfo
- Publication number
- JP2021135938A JP2021135938A JP2020033880A JP2020033880A JP2021135938A JP 2021135938 A JP2021135938 A JP 2021135938A JP 2020033880 A JP2020033880 A JP 2020033880A JP 2020033880 A JP2020033880 A JP 2020033880A JP 2021135938 A JP2021135938 A JP 2021135938A
- Authority
- JP
- Japan
- Prior art keywords
- document
- displayed
- metadata
- thumbnail
- list
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Character Discrimination (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
本発明は、文書から情報を抽出する作業を行う際に、ユーザが効率よく作業を行えるようにするための装置、方法、コンピュータプログラムに関する。 The present invention relates to a device, a method, and a computer program for enabling a user to efficiently perform a work of extracting information from a document.
従来、スキャンした文書画像に対して光学文字認識(OCR)処理を行うことにより、文字列を抽出する技術が有る。また、スキャンした文書画像に対して注文書・請求書などの帳票種別を識別する帳票識別処理を行い、当該識別した帳票種別に基づいて特定される文字領域に対してOCR処理を行うことにより文字列を抽出することも行われている。また、OCR処理により抽出した文字列は、当該文書画像のメタデータやインデックスとして、当該文書画像と関連づけて管理したり、別のシステム(例えば、経費精算システムや会計システム)に業務データとして渡したりすることが行われている。 Conventionally, there is a technique for extracting a character string by performing optical character recognition (OCR) processing on a scanned document image. In addition, the scanned document image is subjected to form identification processing for identifying the form type such as purchase order and invoice, and the character area specified based on the identified form type is subjected to OCR processing to perform characters. Columns are also extracted. In addition, the character string extracted by OCR processing can be managed as metadata or index of the document image in association with the document image, or passed to another system (for example, expense settlement system or accounting system) as business data. Is being done.
特許文献1には、メタデータとして用いた文字列が、帳票画像内のどの領域から抽出したかを記憶しておき、当該帳票に類似するスキャン画像を取得した際は、記憶しておいた文字領域の位置に基づいてOCR処理を行って文字列を抽出することが開示されている。また、抽出した文字列がスキャン画像内のどの領域から抽出されたのかをユーザが確認できるように、抽出した文字列の領域を強調した状態でスキャン画像を表示することも開示されている。
In
特許文献1のプレビュー画面では、1つのスキャン画像をプレビュー表示して確認するように構成されている。したがって、複数のスキャン画像それぞれに対してメタデータを付与するようなケースにおいて、特許文献1の技術を適用すると、スキャン画像を1つ確認するごとに画面を切り替え表示させる必要が生じ、確認作業にユーザの手間がかかってしまう。
The preview screen of
上記課題を解決するために、本発明の情報処理装置は、複数の文書を一覧表示し、前記一覧表示した複数の文書の中から選択された文書について、当該選択された文書に関する文書画像から抽出されたメタデータを表示し、前記一覧表示した複数の文書のうちのマウスカーソルでポイントされている文書について、当該ポイントされている文書に付与されるべきメタデータが当該文書に対応する文書画像内のどの位置から取得されたのかを示す第1のサムネイルを表示する、ことを特徴とする。 In order to solve the above problems, the information processing apparatus of the present invention displays a plurality of documents in a list, and extracts a document selected from the plurality of documents displayed in the list from a document image relating to the selected document. For the document pointed to by the mouse cursor among the plurality of documents displayed in the list, the metadata to be given to the pointed document is in the document image corresponding to the document. It is characterized in that a first thumbnail indicating from which position of the document was acquired is displayed.
本発明によれば、複数の文書を一覧表示している状態で、各文書に付与されるべきメタデータが、各文書画像内のどの位置から取得されたのかを簡単に確認することができる。 According to the present invention, it is possible to easily confirm from which position in each document image the metadata to be given to each document is acquired while displaying a list of a plurality of documents.
図1は、本実施形態のシステム構成の一例である。101はインターネット・イントラネットなどのネットワークである。スキャン文書処理サーバー111は、スキャン文書(スキャン画像)に対してOCR処理などを実行する。クライアント端末121は、スキャン文書から抽出したデータをユーザーが確認したり修正したりするための端末である。クライアント端末121としては、パーソナルコンピューター、ラップトップコンピューター、タブレットコンピューター、スマートフォンなどのデバイスを利用することが可能である。業務サーバー131は、スキャン文書から抽出したデータを受信して各種処理を行うための外部システムである。なお、スキャン文書は、不図示のスキャン機能を有する装置(スキャナや複合機)において文書を読み取ることにより生成される。なお、スキャン機能を有する装置は、ネットワークに直接接続されてスキャン文書処理サーバー111等に文書画像を送信できるようにしてもよいし、クライアント端末121にケーブル接続されて、クライアント端末経由で文書画像を送信できるようにしてもよい。
FIG. 1 is an example of the system configuration of the present embodiment. 101 is a network such as an Internet or an intranet. The scan
図2は、スキャン文書処理サーバー111、クライアント端末121、業務サーバー131のいずれかとして利用可能な情報処理装置のハードウェア構成例を示している。ネットワークインターフェース202は、LANなどのネットワーク105に接続して、他のコンピューターやネットワーク機器との通信を行うためのインタフェースである。通信の方式としては、有線・無線のいずれでもよい。ROM204には、組込済みプログラムおよびデータが記録されている。RAM205は、ワークエリアとして利用可能な一時メモリ領域である。二次記憶装置206は、HDDやフラッシュメモリであり、後述する処理を行うためのプログラムや各種データが記憶される。CPU203は、ROM204、RAM205、二次記憶装置206などから読み込んだプログラムを実行する。ユーザーインターフェース201は、ディスプレイ、キーボード、マウス、ボタン、タッチパネルなどで構成され、ユーザからの操作を受け付けたり、情報の表示を行ったりする。各処理部は、入出力インターフェース207を介して接続されている。
FIG. 2 shows a hardware configuration example of an information processing device that can be used as any of the scan
図3は、本実施形態における各装置で実行されるソフトウェア(プログラム)の構成図である。各装置にインストールされたソフトウェアは、それぞれのCPUで実行され、また、各ソフトウェア間では、矢印で示すように、相互に通信可能な構成となっている。 FIG. 3 is a configuration diagram of software (program) executed by each device in the present embodiment. The software installed in each device is executed by each CPU, and each software has a configuration in which it can communicate with each other as shown by an arrow.
スキャン文書処理アプリケーション311は、スキャン文書処理サーバー111にインストールされたプログラムである。本実施例では、スキャン文書処理サーバー111はスキャン文書処理アプリケーション311を実行することによってWebアプリケーションサーバーとして動作するものとして説明するが、これに限るものではない。312は、スキャン文書処理アプリケーション311によって提供されるAPI(Application Programming Interface)である。313は、スキャン文書処理アプリケーション311によって提供されるWeb UIである。
The scan
データストア321は、スキャン文書処理アプリケーション311、および、後述するバックエンドアプリケーション331が使用するデータを保存・管理するためのモジュールである。データストア321には、次に説明する各種データが格納される。スキャン文書格納部322は、スキャン文書の画像を、JPEG等の画像ファイル或いはPDF(Portable Document Format)等の文書ファイルとして保存する。スキャン文書ジョブキュー323は、後述するメタデータ入力処理待ちのジョブを管理するキューを保持する。メタデータ管理部324は、スキャン文書ごとに付加が必要なメタデータの一覧・メタデータごとの名前、値のフォーマット(文字列・数字など)などを管理する。スキャン文書処理結果格納部325は、OCR処理結果、帳票判別結果を格納する。また、スキャン文書処理結果格納部325は、スキャン文書ごとに関連付けられたメタデータとその抽出領域情報や、編集されたメタデータの値などを格納する。
The
バックエンドアプリケーション331は、バックグラウンド処理を実行するためのプログラムである。バックエンドアプリケーション331は、以下に示すようなバックグラウンドで順次実行されうる処理を担当する。OCR処理部332は、スキャン文書格納部322から文書画像を取得し、OCR処理を実行する。OCR処理では、文字列と認識された領域の始点座標・幅・高さ、および認識できたOCR結果文字列を抽出する。帳票処理部333は、入力画像を領域解析することに識別される領域の配置パターンや、OCR処理結果の文字列の情報や、入力画像から検出された2次元コード等を用いて、帳票の種別を判別する。なお、帳票種別の判別処理は、パターン認識、機械学習などいずれの手法でもよい。外部システム通信部334は、外部の業務サーバー131にスキャン文書およびそのOCR結果等の送信処理を実行する。スキャン文書およびその処理結果を外部システムに送信する必要が無い場合(スキャン文書処理サーバー内で処理結果を保存する場合や、クライアント端末で処理結果を保存する場合)は、外部システム通信部334は省略可能である。
The back-
クライアントアプリケーション351は、クライアント端末で実行されるプログラムである。本実施例では、前記スキャン文書処理アプリケーション311のWebアプリケーションとして提供されるものとする。すなわち、クライアント端末のウェブブラウザーでWeb UI313を表示して、必要なデータをAPI312を介して送受信することにより実現する方法があるが、これに限るものではない。例えば、必要なデータをAPI312を介して送受信するよう作成された、コンピュータのデスクトップで動作するアプリケーションや、スマートフォン等で動作するモバイルアプリケーションなどでもよい。
The client application 351 is a program executed on the client terminal. In this embodiment, it is assumed that the scan
業務アプリケーション361は、業務サーバー131で実行されるプログラムである。業務データストレージ362は、業務アプリケーション361が使用するデータを保存するためのモジュールである。業務アプリケーション361では、ファイル管理・文書管理・受注管理・会計処理などの各種業務において、スキャン文書処理サーバでの処理結果(メタデータと文書画像)を受信して、各種業務に係る処理を実行する。なお、業務の種類を限定するものでない。
The business application 361 is a program executed on the
図4を用いて、クライアント端末においてクライアントアプリケーション351を実行することにより表示される画面UIの動作概要を説明する。なお、クライアントアプリケーションがWebアプリケーションである場合は、ウェブブラウザー上で表示される画面である。 An outline of the operation of the screen UI displayed by executing the client application 351 on the client terminal will be described with reference to FIG. When the client application is a Web application, it is a screen displayed on the Web browser.
以下では、複数のスキャン文書それぞれに含まれる複数の文字領域から複数の文字列データを抽出し、当該抽出した複数の文字列データをメタデータとして各スキャン文書に関連づける場合を例にして説明する。文字列データの抽出元となる文字領域(抽出領域)は、帳票の書式ごとに予め決められた位置の文字領域であってもよいし、スキャン文書内に記載されている所定のキーワード(項目名)の右側や下側に記載されている文字領域であってもよい。各スキャン文書においては、複数の抽出領域が含まれるものとする。 In the following, a case where a plurality of character string data are extracted from a plurality of character areas included in each of the plurality of scanned documents and the extracted plurality of character string data are associated with each scanned document as metadata will be described as an example. The character area (extraction area) from which the character string data is extracted may be a character area at a position predetermined for each form format, or a predetermined keyword (item name) described in the scanned document. It may be the character area described on the right side or the lower side of). Each scanned document shall include multiple extraction areas.
アプリケーション351の画面UI401には、複数のスキャン文書がリスト形式で一覧表示される文書一覧ペイン411が含まれる。文書一覧ペイン411には、スキャンした文書の各ページの画像を特定するための情報(例えば、スキャン日時、読み取りを行ったスキャナ装置の識別子、何ページ目のスキャン画像かを示す情報、など)が、ページ画像ごとに表示されているものとする。
The
ユーザが、その一覧表示されている情報のうちの1つ(例えば412)をワンクリックして選択すると、当該選択されたページ画像から抽出された情報であって且つ当該ページ画像のメタデータとして付与される予定の情報が、校正入力ペイン421に表示される。このとき選択された情報の欄は、選択状態を示す太線で囲まれる。各ページ画像は、帳票処理部333により帳票の種別が判別されており、当該判別された帳票種別に基づいて当該ページ画像に付与すべきメタデータの項目名が特定され、OCR結果に基づいてメタデータの項目名に対応する情報が設定される。画面UI401の例では、一覧の中から選択された情報412に対応するページ画像は、帳票種別が「オーダーシート」として判別されたものとする。そして、当該判別された帳票種別に対して予め定義されているメタデータの項目名が3つ(Custom, Bizcode, Price)特定され、当該項目名に対応する情報がページ画像のOCR結果に基づき設定されて各項目名の右側の欄に表示される。ユーザは、当該校正入力ペイン421に表示されているメタデータの項目名に対応する情報を修正することができる。
When the user selects one of the listed information (for example, 412) with one click, the information is extracted from the selected page image and is given as the metadata of the page image. The information to be scheduled is displayed in the
さらに、当該一覧表示されている情報のうちの1つをユーザがダブルクリックすると、当該ダブルクリックされた情報に対応するページ画像414がプレビュー表示される。本実施形態では、文書一覧ペイン411内のスキャン文書の情報412をユーザがダブルクリックすると、画面UI402のような表示になる。すなわち、文書一覧ペイン411内において、当該ダブルクリックされた情報412の下に、プレビュー表示領域413を割り込ませて、当該ダブルクリックされた情報に対応するページ画像414のプレビューを当該表示領域内に表示させる。プレビュー表示領域413内に表示されたページ画像414は、スクロールしたり拡大表示や縮小表示することにより、プレビュー画像内の任意の位置の表示をすることができる。なお、プレビュー表示領域413が表示される前の画面UI401において情報412の下に一覧表示されていた情報は、画面UI402のように、プレビュー表示領域413の下側に移動されて一覧表示される。
Further, when the user double-clicks one of the information displayed in the list, the
図4の441を用いて、ページ画像414における直交座標系を説明する。図4の441は、ページ画像414の上端側の一部を模式的に示しており、ページ画像414の左上の角が、当該ページ画像における原点として定義している。OCR処理部332は、ページ画像に対してOCR処理を実行して、文字列として認識された抽出領域442,443,444それぞれの始点座標・幅・高さを取得する。例えば、文字領域444の場合は、始点座標(1200,700)、幅720、高さ120などと表現される。
The Cartesian coordinate system in the
画面UI401のように、文書一覧ペイン411に一覧表示された情報のうちの1つが選択されると、当該選択された情報に対応するページ画像のメタデータが校正入力ペイン421に表示されるので、ユーザは、メタデータの修正を容易に行うことができる。しかしながら、画面UI401の状態では、メタデータの修正を行うことはできるが、ページ画像のプレビューが表示されていないので、そのメタデータがページ画像内のどの位置から抽出されたものなのか判別することができない。また、画面UI402では、ページ画像のプレビューが表示されるので、各メタデータがページ画像内のどの位置から抽出されたものなのか識別できるが、プレビュー表示させるための操作(ダブルクリック等)の手間がかかる。さらに、ページ画像のプレビュー表示を行う際は、当該ページ画像のプレビュー画像をスキャン文書処理サーバーからダウンロードする必要があるため、画面表示のレスポンスが悪くなりがちである。
When one of the information listed in the
そこで、以下では、ページ画像のプレビュー画像414の表示を行わずに、各メタデータがページ画像内のどの位置から抽出されたものなのかを簡易的に示すサムネイルを表示する例について説明する。図5(A)は、アプリケーション351により表示されるサムネイルの例である。クライアントアプリケーション351は、スキャン文書処理サーバーから、メタデータとして用いられた文字列の領域(抽出領域)の位置情報(始点座標・幅・高さ)と、当該ページ画像のサイズ情報とを受信する。ページ画像のサイズ情報は、当該ページ画像における直交座標系での座標で表したものでよい。そして、当該受信した抽出領域の位置情報とページ画像のサイズ情報とに基づいて、メタデータとして用いた文字列の領域がページ画像内のどの位置に対応するのかを強調表示したサムネイルを作成する。サムネイル501は、ページ画像からインデックスとして抽出した全ての文字列領域の位置を表すサムネイルであり、図4の例と同様に3つのメタデータを抽出した場合は、3つの領域が抽出位置として強調表示されている。強調表示する際は、当該領域に対応する位置の色や濃度を変えて分かりやすく表示する。サムネイル501は、後述するように、マウスカーソル(ポインタとも言う)が文書一覧ペイン411に表示されている情報412の上にあるときに表示される。また、サムネイル502は、後述するように、マウスカーソルが校正入力ペイン421に表示されているメタデータ422の上にあるときに表示されるサムネイルである。マウスカーソルが校正入力ペイン421内にあるときは、マウスカーソルによりポイントされているメタデータに対応する領域がサムネイル上で表示される。
Therefore, in the following, an example of displaying a thumbnail that simply indicates from which position in the page image each metadata is extracted without displaying the
図5(B)を用い、サムネイルをホバー(マウスオーバー)表示する際の処理の原理を説明する。画面UIにおいて、UIコントロール511の領域を定義しておく。そして、マウスカーソル512がUIコントロール511の領域外から領域内に入り、さらに、マウスカーソル513がUIコントロール511の領域内で止まるホバー・イベントが発生すると、サムネイル514が一定時間表示されるように制御する。
The principle of processing when displaying thumbnails by hover (mouseover) will be described with reference to FIG. 5 (B). In the screen UI, the area of
図5(C)を用い、サムネイルをホバー表示するためのUIコントロール511を定義する位置の具体例を説明する。アプリケーション351は、文書一覧ペイン411に表示される各ページ画像に関する情報が表示される欄ごとにUIコントロール511を定義する。このとき、マウスカーソル513が、文書一覧ペイン411に表示されている複数の情報のうち、ユーザ所望の情報412の領域内に入って止まるホバー・イベントが発生すると、サムネイル501が表示される。また、アプリケーション351は、校正入力ペイン421に表示される各メタデータに対応する領域422に、UIコントロール511を定義する。このとき、マウスカーソル513が、メタデータに対応する領域422内に入って止まるホバー・イベントが発生すると、サムネイル502が表示される。
A specific example of the position where the
図6を用いて、アプリケーション351が、メタデータの抽出領域を簡易描画したサムネイルを表示する際の画面UIの例を説明する。アプリケーション351は、サムネイル表示する抽出領域を、マウスカーソルのホバー位置にあわせて変化させる。画面UI601の文書一覧ペイン411に一覧表示されているページ画像の情報の1つの上でマウスカーソルがホバーされると、アプリケーション351は、ページ画像からメタデータの抽出に用いた全ての抽出領域の位置が示されているサムネイル521を表示する。以下では、メタデータとして抽出されたすべての文字列領域(抽出領域)の位置が示されているサムネイル(521のようなサムネイル)を、一覧サムネイルと呼ぶこととする。また、画面UI602の校正入力ペイン421に表示されているメタデータの1つ(422)にマウスカーソルがホバーされると、アプリケーション351は、当該ホバーされているメタデータの抽出に用いた文字列領域の位置を示すサムネイル522をホバー表示する。以下では、メタデータをマウスでポイントしたときに表示されるサムネイル(522のような個別の抽出領域を示すサムネイル)を、個別サムネイルと呼ぶこととする。スキャン対象の文書のどの位置からメタデータを抽出すべきかをユーザが予め理解している場合、ユーザは、サムネイル521や522を見るだけで、システムにより抽出されたメタデータの抽出位置が正しいかどうか判断することができる。
An example of the screen UI when the application 351 displays a thumbnail in which the metadata extraction area is simply drawn will be described with reference to FIG. The application 351 changes the extraction area to be displayed as a thumbnail according to the hover position of the mouse cursor. When the mouse cursor is hovered over one of the page image information listed in the
図7を用いて、マウスカーソル513の位置を矢印703のように、文書一覧ペインから校正入力ペインの方向へ移動させたときに連動して表示されるサムネイルの表示例について説明する。アプリケーション351の画面UI701上で、マウスカーソル513を文書一覧ペイン上でホバーさせると一覧サムネイル521が表示され、そして、マウスカーソル513を右側の校正入力ペインに移動させると、マウスカーソルの位置が重なっているメタデータに関する個別サムネイル522の表示に変更される。マウスカーソル513を校正入力ペイン上で上下させると、マウスカーソルの位置に対応するメタデータに関する個別サムネイルが連動して表示される。このように構成することにより、各メタデータがページ画像内のどの位置から抽出されたのかを、ユーザは個別に確認することが容易に行える。
An example of displaying thumbnails displayed in conjunction with the movement of the
図8を用いて、一覧サムネイルおよび個別サムネイルの表示方法に関する別形態について説明する。 With reference to FIG. 8, another form regarding the display method of the list thumbnail and the individual thumbnail will be described.
図8の行811は、図5〜7で説明したサムネイルの表示例である。文書一覧ペイン411上にマウスカーソルがある場合は一覧サムネイル521がホバー表示され、校正入力ペイン421上にマウスカーソルがある場合は個別サムネイル522がホバー表示される。このとき、各サムネイルの表示サイズは同じであったがこれに限るものではない。例えば、図8の行812のように、一覧サムネイル822の表示サイズを個別サムネイルより大きくするように制御してもよい。
また、図8の行813のように、個別サムネイル823について、マウスカーソルが現在ポイントしているメタデータに対応する抽出領域について色や濃度を変えて表示し、それ以外のメタデータに対応する領域を薄くして表示するようにしてもよい。
Further, as shown in
また、図8の行814のように、ユーザが文書一覧ペイン411でダブルクリックを行ってページ画像のプレビュー(図4の414)を表示させている場合は、一覧サムネイル824を表示しないように制御してもよい。
Further, when the user double-clicks in the
また、図8の行815のように、新規のフォーマットの帳票を取り扱った際など、メタデータを抽出できなかった場合は、メタデータが抽出できなかったことを示すサムネイル表示にしてもよい。例えば、文書一覧ペイン411において一覧サムネイルを表示する場合は、白紙のサムネイル825、または、警告アイコン付きのサムネイル826を表示し、個別サムネイルは表示しないようにしてもよい。
Further, when the metadata cannot be extracted, such as when handling a form in a new format as shown in line 815 of FIG. 8, a thumbnail display indicating that the metadata could not be extracted may be displayed. For example, when displaying a list thumbnail in the
図9を用いて、一覧サムネイルおよび個別サムネイルを表示する際の別モードについて説明する。図6〜7では、ユーザが文書一覧ペイン411で所望の文書をワンクリックして選択すると、当該選択状態となった文書が太線枠で囲まれて表示され、さらに、当該選択された文書に対応するメタデータが、校正入力ペイン421に表示されるようになっていた。図9では、ワンクリックして選択状態となった文書とは異なる文書上でマウスカーソルがホバーされた場合のサムネイル表示の形態について説明する。
A different mode for displaying list thumbnails and individual thumbnails will be described with reference to FIG. In FIGS. 6 to 7, when the user selects a desired document by one-clicking in the
図9の画面UI901のように、文書一覧ペイン411において、選択状態となっている文書とは異なる別文書上に、ユーザがマウスカーソル513を移動させたものとする。次に、その別文書上でマウスカーソルのホバー・イベントが発生すると、図9の画面UI902のように、文書一覧ペイン上の文書の選択状態を解除するとともに、当該ホバーされた別文書の一覧サムネイル521を表示するように制御する。更に、別文書上でマウスカーソル513をホバーすることで一覧サムネイル521を表示するモードに入った場合は、その後、マウスカーソル513を更に他の文書上に移動させると、当該移動後の文書に関する一覧サムネイルを表示するように制御する。すなわち、図9の画面UI903のように、マウスカーソル513を文書一覧ペイン上で矢印930のように上下方向に動かした場合、マウスカーソルの動きに応じて現在ポイントされている文書に関する一覧サムネイルに切り替えて表示する。更に、アプリケーション351は、文書一覧ペイン上でのマウスカーソルの動きに応じて現在ポイントされている文書に関するメタデータを校正入力ペイン421に表示する。そして、マウスカーソル513をその校正入力ペイン421上に動かし、当該表示されているメタデータのいずれかの上にマウスカーソルが移動した場合、その文書のメタデータに関する個別サムネイル522を表示するように制御する。このように、選択状態となっている文書とは異なる別文書上でマウスカーソルをホバーすることによりサムネイル表示するモードになった場合は、マウスカーソルの文書一覧ペイン上での動きに連動して、対応する文書の一覧サムネイルとメタデータとが表示されるようになる。また、このモードは、画面UI904のように、文書一覧ペイン411上のいずれかの文書がワンクリックされて選択されると解除され、元のモードへ復帰する。
It is assumed that the user moves the
図9のモードでは、マウスカーソル513の動きに連動して、一覧サムネイル521とメタデータとが表示されるので、文書一覧ペイン上でマウスカーソルを上下に移動させるだけで、各文書から抽出されたメタデータを簡単に確認できるようになる。
In the mode of FIG. 9, the
図10を用いて、本実施形態のシステムにおける処理フローについて説明する。 The processing flow in the system of this embodiment will be described with reference to FIG.
ステップS1002において、スキャン文書処理サーバー111は、スキャン機能を有する装置またはクライアント端末から、複数の文書のスキャン画像を受信する。
In step S1002, the scan
ステップS1003において、スキャン文書処理サーバー111は、当該受信した複数のスキャン画像に対して、帳票種別の判別とOCR処理とを行って、複数のスキャン画像からメタデータを抽出する。
In step S1003, the scan
ステップS1004において、アプリケーション(クライアントアプリケーション)351は、スキャン文書処理サーバー111から、複数のスキャン画像に関する情報のリスト(文書一覧ペインに表示される情報)を取得して表示する。
In step S1004, the application (client application) 351 acquires and displays a list of information (information displayed in the document list pane) related to a plurality of scanned images from the scan
ステップS1005において、アプリケーション351は、文書一覧ペインに一覧表示される複数の文書のうち、最初の文書を選択状態にする(すなわち、フォーカスをあてた状態にして太線枠で囲んで表示する)。 In step S1005, the application 351 selects the first document among the plurality of documents listed in the document list pane (that is, puts the focus on the document and displays it surrounded by a thick line).
ステップS1011において、アプリケーション351は、当該フォーカスした文書のスキャン画像から抽出されたメタデータを、校正入力ペイン421に表示する。
In step S1011, the application 351 displays the metadata extracted from the scanned image of the focused document in the
ステップS1020において、アプリケーション351は、当該選択状態の文書がダブルクリックされたかどうか判定し、ダブルクリックされたと判定した場合はステップS1021に進み、ダブルクリックされていないならばステップS1025へ進む。 In step S1020, the application 351 determines whether or not the document in the selected state is double-clicked, and if it is determined that the document is double-clicked, the process proceeds to step S1021. If the document is not double-clicked, the process proceeds to step S1025.
ステップS1021において、アプリケーション351は、当該ダブルクリックされた文書のスキャン画像のプレビューを、プレビュー表示領域413に表示する。
In step S1021, the application 351 displays a preview of the scanned image of the double-clicked document in the
ステップS1025において、アプリケーション351は、文書一覧ペインに一覧表示されている複数の文書のうちの別の文書がクリックされたか判定し、クリックされたと判定した場合はステップS1026へ進む。一方、クリックされていないならばステップS1030へ進む。 In step S1025, the application 351 determines whether another document among the plurality of documents listed in the document list pane has been clicked, and if it determines that the document has been clicked, proceeds to step S1026. On the other hand, if it is not clicked, the process proceeds to step S1030.
ステップS1026において、アプリケーション351は、当該クリックされた文書を選択状態にする(すなわち、当該クリックされた文書にフォーカスをあてる)。 In step S1026, application 351 selects the clicked document (ie, focuses on the clicked document).
ステップS1030において、アプリケーション351は、フォーカスしている文書(選択状態の文書)上でマウスカーソルがホバーされたか(ホバー・イベント1が発生したか)を判定し、ホバー・イベント1が発生したと判定した場合は、ステップS1031へ進む。一方、ホバー・イベント1が発生していないならばステップS1035へ進む。
In step S1030, the application 351 determines whether the mouse cursor has been hovered (whether hover
ステップS1031において、アプリケーション351は、当該マウスカーソルがホバーされた文書に関する一覧サムネイルを表示する。 In step S1031, application 351 displays a list thumbnail of the document hovered by the mouse cursor.
ステップS1035において、アプリケーション351は、校正入力ペイン421に表示されているメタデータの行領域内でマウスカーソルがホバーされたか(ホバー・イベント2が発生したか)を判定する。そして、ホバー・イベント2が発生したと判定した場合はステップS1036へ進み、ホバー・イベント2が発生していないならばステップS1040へ進む。
In step S1035, the application 351 determines whether the mouse cursor has been hovered within the row area of the metadata displayed in the calibration input pane 421 (whether the hover
ステップS1036において、アプリケーション351は、当該マウスカーソルがポイントしているメタデータに対応する抽出領域の位置を強調表示した個別サムネイルを表示する。 In step S1036, application 351 displays an individual thumbnail highlighting the position of the extraction area corresponding to the metadata pointed to by the mouse cursor.
ステップS1040において、アプリケーション351は、フォーカスしていない別文書(選択状態でない文書)上でマウスカーソルがホバーされたか(ホバー・イベント3が発生したか)を判定する。ホバー・イベント3が発生したと判定した場合はステップS1041へ進み、ホバー・イベント3が発生していないならばステップS1051へ進む。
In step S1040, the application 351 determines whether the mouse cursor has been hovered (whether the hover
ステップS1041において、アプリケーション351は、選択状態になっていた文書のフォーカスを解除し、図9で説明したサムネイル表示モードにする。 In step S1041, the application 351 releases the focus of the selected document and sets it to the thumbnail display mode described with reference to FIG.
ステップS1042において、アプリケーション351は、マウスカーソルがポイントしている文書の一覧サムネイルを表示する。 In step S1042, application 351 displays a list thumbnail of the document pointed to by the mouse cursor.
ステップS1043において、アプリケーション351は、マウスカーソルがポイントしている文書のメタデータを校正入力ペイン421に表示する。
In step S1043, application 351 displays the metadata of the document pointed to by the mouse cursor in the
ステップS1044において、アプリケーション351は、マウスカーソルが他の文書の位置に移動したか判定し、移動したと判定した場合はステップS1042に進んで、マウスカーソルが移動後にポイントしている文書の一覧サムネイルを表示する。一方、他の文書の位置に移動していないと判定した場合はステップS1045へ進む。 In step S1044, the application 351 determines whether the mouse cursor has moved to the position of another document, and if it determines that the mouse cursor has moved, proceeds to step S1042 to display a thumbnail list of documents pointed to after the mouse cursor moves. indicate. On the other hand, if it is determined that the document has not moved to the position of another document, the process proceeds to step S1045.
ステップS1045において、アプリケーション351は、当該文書がクリックされたか判定し、クリックされたと判定した場合はステップS1026へ進み、クリックされていないと判定した場合はステップS1046へ進む。 In step S1045, the application 351 determines whether the document has been clicked, proceeds to step S1026 if it determines that the document has been clicked, and proceeds to step S1046 if it determines that the document has not been clicked.
ステップS1046において、アプリケーション351は、マウスカーソルが校正入力ペインに移動したか判定し、移動したと判定した場合はステップS1047に進み、移動していないと判定した場合はステップS1048に進む。 In step S1046, the application 351 determines whether the mouse cursor has moved to the calibration input pane, proceeds to step S1047 if it determines that it has moved, and proceeds to step S1048 if it determines that it has not moved.
ステップS1047において、アプリケーション351は、マウスカーソルがポイントしているメタデータに対応する抽出領域の位置を強調表示した個別サムネイルを表示する。 In step S1047, application 351 displays an individual thumbnail highlighting the position of the extraction area corresponding to the metadata pointed to by the mouse cursor.
ステップS1048において、アプリケーション351は、文書の表示・校正の完了指示がなされたか判定し、完了指示されたと判定した場合は処理を終了し、完了指示されていない場合はステップS1044に戻る。 In step S1048, the application 351 determines whether or not the document display / proofreading completion instruction has been given, ends the process if it determines that the completion instruction has been given, and returns to step S1044 if the completion instruction has not been given.
ステップS1051において、アプリケーション351は、文書の表示・校正の完了指示がなされたか判定し、完了指示されたと判定した場合は処理を終了し、完了指示されていない場合はステップS1011に戻る。 In step S1051, the application 351 determines whether or not the document display / proofreading completion instruction has been given, ends the process if it determines that the completion instruction has been given, and returns to step S1011 if the completion instruction has not been given.
図11は、一覧サムネイルおよび個別サムネイルの表示形態として、図8の行812,814,815の表示形態を採用した場合の処理の流れを示すフローチャートである。
FIG. 11 is a flowchart showing a processing flow when the display form of
ステップS1120において、アプリケーション351は、文書一覧ペインに表示されている文書がダブルクリックされて、当該文書のプレビューが表示されているか判定する。プレビュー表示がなされているならステップS1140へ進み、プレビューが表示されていないならステップS1130へ進む。 In step S1120, the application 351 determines whether the document displayed in the document list pane is double-clicked to display a preview of the document. If the preview is displayed, the process proceeds to step S1140, and if the preview is not displayed, the process proceeds to step S1130.
ステップS1130において、アプリケーション351は、文書一覧ペイン411の文書上でマウスカーソルがホバーされたか(ホバー・イベントが発生したか)判定し、ホバーされたと判定した場合はステップS1131へ進む。一方、ホバーされていないと判定した場合はステップS1140へ進む。
In step S1130, the application 351 determines whether the mouse cursor has been hovered (whether a hover event has occurred) on the document in the
ステップS1131において、アプリケーション351は、当該ホバーされた文書のメタデータが未抽出であり、かつ、メタデータの抽出位置の学習が未だ行われていない帳票であるか判定し、未学習であると判定した場合はステップS1136へ進む。一方、当該ホバーされた文書のメタデータが抽出済みである場合は、ステップS1132へ進む。 In step S1131, the application 351 determines whether the metadata of the hovered document has not been extracted and the metadata extraction position has not yet been learned, and determines that the form has not been learned. If so, the process proceeds to step S1136. On the other hand, if the metadata of the hovered document has been extracted, the process proceeds to step S1132.
ステップS1132において、アプリケーション351は、当該ホバーされた文書の一覧サムネイルの表示サイズとして、個別サムネイルより大きいサイズを設定する。 In step S1132, the application 351 sets a size larger than the individual thumbnail as the display size of the list thumbnail of the hovered document.
ステップS1133において、アプリケーション351は、ステップS1132で設定された表示サイズで、当該ホバーされた文書の一覧サムネイルを表示する。 In step S1133, the application 351 displays a list thumbnail of the hovered document in the display size set in step S1132.
ステップS1136において、アプリケーション351は、警告アイコンを表示する。 In step S1136, application 351 displays a warning icon.
ステップS1140において、アプリケーション351は、校正入力ペイン421に表示されているメタデータ上でマウスカーソルがホバーされたか判定し、ホバーされたと判定した場合はステップS1141へ進む。一方、ホバーされていないと判定した場合は、ステップS1160へ進む。
In step S1140, the application 351 determines whether the mouse cursor has been hovered on the metadata displayed in the
ステップS1141において、アプリケーション351は、当該文書のメタデータが未抽出であるか判定し、未抽出であると判定した場合はステップS1160に進む。一方、文書のメタデータが抽出済みである場合は、ステップS1142へ進む。 In step S1141, the application 351 determines whether the metadata of the document has not been extracted, and if it determines that the metadata has not been extracted, proceeds to step S1160. On the other hand, if the metadata of the document has been extracted, the process proceeds to step S1142.
ステップS1142において、アプリケーション351は、個別サムネイルの表示サイズとして、一覧サムネイルより小さいサイズを設定する。 In step S1142, the application 351 sets a size smaller than the list thumbnail as the display size of the individual thumbnail.
ステップS1143において、アプリケーション351は、ステップS1142で設定された表示サイズで、当該ホバーされたメタデータの抽出に用いた領域を強調表示した個別サムネイルを表示する。 In step S1143, application 351 displays an individual thumbnail highlighting the area used to extract the hovered metadata at the display size set in step S1142.
ステップS1160において、アプリケーション351は、文書の表示・校正の完了指示がなされたか判定し、完了指示されたと判定した場合は処理を終了し、完了指示されていない場合はステップS1120に戻る。 In step S1160, the application 351 determines whether or not the document display / proofreading completion instruction has been given, ends the process if it determines that the completion instruction has been given, and returns to step S1120 if the completion instruction has not been given.
以上説明したように、本実施形態によれば、スキャンした複数の文書をリスト表示している状態で、各文書画像に付与されるメタデータが、各文書画像内のどの位置から抽出されたものなのかを簡易に示したサムネイルを表示するようにした。これにより、ユーザは、各文書画像に付与されるメタデータが正しい位置から抽出されたものなのかを簡易に判別することができ、また、必要に応じて文書画像のプレビュー表示を行って詳細確認することも可能となる。例えば、ユーザが頻繁にスキャンするフォーマットの文書であれば、メタデータの抽出位置だけ確認すればよいというケースもあり、本発明を適用することで、文書画像にメタデータを付与して保存するまでのユーザの手間を減らすことができる。 As described above, according to the present embodiment, the metadata given to each document image is extracted from which position in each document image in a state where a plurality of scanned documents are displayed in a list. Changed to display a thumbnail that simply shows what it is. As a result, the user can easily determine whether the metadata given to each document image is extracted from the correct position, and if necessary, preview the document image to confirm the details. It is also possible to do. For example, in the case of a document in a format that the user frequently scans, there is a case where only the extraction position of the metadata needs to be confirmed. By applying the present invention, until the document image is added with the metadata and saved. It is possible to reduce the trouble of the user.
<その他の実施例>
上述した実施形態では、スキャン文書処理サーバーにおいてスキャン画像の解析処理(帳票識別やOCR処理など)を行うように構成したが、これに限るものではなく、クライアント端末において、スキャン画像の解析処理も行うように構成してもよい。また、スキャン文書処理サーバーは、1つのコンピュータで実現するように構成してもよいし、クラウドコンピューティングを用いてスキャン画像を解析する処理を行うように構成してもよい。
<Other Examples>
In the above-described embodiment, the scan document processing server is configured to perform scan image analysis processing (form identification, OCR processing, etc.), but the present invention is not limited to this, and the scan image analysis processing is also performed on the client terminal. It may be configured as follows. Further, the scan document processing server may be configured to be realized by one computer, or may be configured to perform a process of analyzing a scanned image by using cloud computing.
以上、本発明の好ましい実施例について詳述したが、本発明はかかる特定の実施例に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。 Although the preferred examples of the present invention have been described in detail above, the present invention is not limited to such specific examples, and various modifications are made within the scope of the gist of the present invention described in the claims.・ Can be changed.
Claims (12)
前記一覧表示した複数の文書の中から選択された文書について、当該選択された文書に関する文書画像から抽出されたメタデータを表示し、
前記一覧表示した複数の文書のうちのマウスカーソルでポイントされている文書について、当該ポイントされている文書に付与されるべきメタデータが当該文書に対応する文書画像内のどの位置から取得されたのかを示す第1のサムネイルを表示する、
ことを特徴とする情報処理装置。 List multiple documents
For the document selected from the plurality of documents displayed in the list, the metadata extracted from the document image related to the selected document is displayed.
For the document pointed by the mouse cursor among the plurality of documents displayed in the list, from which position in the document image corresponding to the document the metadata to be given to the pointed document was acquired. Display the first thumbnail indicating,
An information processing device characterized by this.
前記メタデータは、前記画面の第2のペインに表示される、
ことを特徴とする請求項1乃至9のいずれか1項に記載の情報処理装置。 The list display of the plurality of documents is displayed in the first pane of the screen.
The metadata is displayed in the second pane of the screen.
The information processing device according to any one of claims 1 to 9, wherein the information processing device is characterized by the above.
前記一覧表示した複数の文書の中から選択された文書について、当該選択された文書に関する文書画像から抽出されたメタデータを表示し、
前記一覧表示した複数の文書のうちのマウスカーソルでポイントされている文書について、当該ポイントされている文書に付与されるべきメタデータが当該文書に対応する文書画像内のどの位置から取得されたのかを示す第1のサムネイルを表示する、
ことを特徴とする情報処理方法。 List multiple documents
For the document selected from the plurality of documents displayed in the list, the metadata extracted from the document image related to the selected document is displayed.
For the document pointed by the mouse cursor among the plurality of documents displayed in the list, from which position in the document image corresponding to the document the metadata to be given to the pointed document was acquired. Display the first thumbnail indicating,
An information processing method characterized by the fact that.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020033880A JP2021135938A (en) | 2020-02-28 | 2020-02-28 | Information processing apparatus, program and information processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020033880A JP2021135938A (en) | 2020-02-28 | 2020-02-28 | Information processing apparatus, program and information processing method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021135938A true JP2021135938A (en) | 2021-09-13 |
Family
ID=77661709
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020033880A Pending JP2021135938A (en) | 2020-02-28 | 2020-02-28 | Information processing apparatus, program and information processing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021135938A (en) |
-
2020
- 2020-02-28 JP JP2020033880A patent/JP2021135938A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7562900B2 (en) | Information processing device, control method and application | |
US20150302277A1 (en) | Image processing apparatus, image processing system, and image processing method | |
US20090049375A1 (en) | Selective processing of information from a digital copy of a document for data entry | |
US10691385B2 (en) | Image processing apparatus, image processing method, and storage medium in which a text element and an image element are arranged based on layouts in a webpage | |
US7610274B2 (en) | Method, apparatus, and program for retrieving data | |
US20120072833A1 (en) | Host apparatus and screen capture control method thereof | |
JP7434001B2 (en) | Information processing device, program, information processing method | |
US20180173543A1 (en) | Apparatus, information processing system, information processing method, and computer program product | |
CN101017426B (en) | Method for multiple data origin printing and data processing system | |
CN102694940A (en) | Information processing apparatus and control method thereof | |
US11620434B2 (en) | Information processing apparatus, information processing method, and storage medium that provide a highlighting feature of highlighting a displayed character recognition area | |
US8645962B2 (en) | Instruction generating apparatus including a receiving section, a determining section, and a generation section, document processing system, and a computer readable medium | |
CN112615970B (en) | Method for controlling display of picture for setting metadata, storage medium and apparatus | |
JP7147580B2 (en) | Information processing system, information processing device, parameter setting method and program | |
JP2021135938A (en) | Information processing apparatus, program and information processing method | |
JP2021184190A (en) | Image processing device, image processing method, and program | |
US11588945B2 (en) | Data input support apparatus that displays a window with an item value display area, an overview image display area, and an enlarged image display area | |
US20230012509A1 (en) | Method and apparatus for providing a document editing interface for providing resource information related to a document using a backlink button | |
JP2011248669A (en) | Document management program, storage medium, information processor, and document management method | |
JP7446558B2 (en) | Document editing device, editing method for document editing device, document editing program for document editing device | |
JP7581306B2 (en) | CLIENT TERMINAL, CONTROL METHOD AND PROGRAM FOR CLIENT TERMINAL | |
JP2020091697A (en) | Information processing apparatus, control method, and program | |
CN110069187B (en) | Information processing apparatus | |
JP2013077231A (en) | Display method of document data, display device of portable terminal | |
JP7424460B2 (en) | Information processing device, information processing method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20200324 |