JP2022148922A

JP2022148922A - 情報処理装置及びプログラム

Info

Publication number: JP2022148922A
Application number: JP2021050793A
Authority: JP
Inventors: 唯夫道村; Tadao Michimura; 茂岡田; Shigeru Okada; 史小坂; Chikashi Kosaka; 公則吉塚; Kiminori Yoshizuka
Original assignee: Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2022-10-06
Also published as: CN115131796A; US20220309272A1

Abstract

【課題】認識処理の前に画像の特徴を計算しなくても、その画像の認識結果に対してその画像の種類に応じた後処理を実行できる装置を提供することを目的とする。【解決手段】プロセッサは、同じ画像について異なる複数の認識処理の各々が出力した認識結果をそれぞれ取得し、当該複数の認識処理の各々が出力した認識結果の中から選択した認識結果に関連して、選択した認識結果を出力した認識処理に対応する後処理を実行する。【選択図】図２

Description

本発明は、情報処理装置及びプログラムに関する。

深層学習等の機械学習技術の進歩と相まって、活字文字用、手書き文字用、数字用、楽譜用など、様々な種類の対象に向けた認識エンジンや認識用辞書が開発されている。

特許文献１には、画像データ内の画素の濃淡および文字色等に基づいてヒストグラムを生成し、これに基づいて画像データを活字部からなる画像データと手書き部からなる画像データとに分離することが記載されている。また、特許文献１には、活字部は活字用ＯＣＲで認識され、手書き部は手書き用ＯＣＲで認識することが記載されている。

ＯＣＲエンジンの中には、認識結果の確信度を算出して出力するものもある。

特開２００６－０９２０２７号公報

ところで、濃淡ヒストグラム等の画像の特徴を計算し、その特徴に基づいてその画像に適用する認識方法を選択する方式は、特徴を計算するという前処理を必要とする。このため、前処理自体の処理コストや、その前処理を開発するためのコストがかかる。例えば、新たな種類の対象を認識する認識方法が開発されるのに応じて、その対象を表す画像を識別するための前処理を開発するのは大きな負担である。

本発明の目的は、認識処理の前に画像の特徴を計算しなくても、その画像の認識結果に対してその画像の種類に応じた後処理を実行できる装置を提供することにある。

請求項１に係る発明は、プロセッサを有し、前記プロセッサは、同じ画像について異なる複数の認識処理の各々が出力した認識結果をそれぞれ取得し、前記複数の認識処理の各々が出力した前記認識結果の中から選択した前記認識結果に関連して、選択した前記認識結果を出力した前記認識処理に対応する後処理を実行する、情報処理装置である。

請求項２に係る発明は、前記プロセッサは、前記複数の認識処理の各々が前記認識結果に対応付けて出力した確信度を取得し、前記確信度に基づいて選択した前記認識結果に対して前記後処理を実行する、ことを特徴とする請求項１に記載の情報処理装置である。

請求項３に係る発明は、前記プロセッサは、選択した前記認識結果を出力した前記認識処理が手書き文字認識処理である場合、前記後処理として、選択した前記認識結果又は前記画像に対する秘匿処理を実行する、ことを特徴とする請求項１又は請求項２に記載の情報処理装置である。

請求項４に係る発明は、前記画像は全体画像の中の一部の領域の画像であり、前記プロセッサは、前記全体画像の中の領域毎に、その領域の画像に対して前記認識結果の取得及び前記後処理の実行を行い、選択した前記認識結果を出力した前記認識処理が手書き文字認識処理である場合、前記後処理として、前記全体画像内の前記画像の近傍の第２画像であって活字文字認識処理の認識結果が選択された第２画像、についての認識結果が示す項目、に対応する処理を実行する、ことを特徴とする請求項１から請求項３のいずれか一項に記載の情報処理装置である。

請求項５に係る発明は、前記プロセッサは、選択した前記認識結果を出力した前記認識処理が、前記画像を第１の言語の文字を表すものとして認識し、前記認識結果として文字コードを出力する処理である場合に、前記後処理として、前記文字コードが示す文字グリフとして、前記第１の言語のグリフセットにおいてその文字コードが示す文字グリフを描画する処理を実行する、ことを特徴とする請求項１又は請求項２に記載の情報処理装置である。

請求項６に係る発明は、コンピュータが、同じ画像について異なる複数の認識処理の各々が出力した認識結果をそれぞれ取得し、前記複数の認識処理の各々が出力した前記認識結果の中から選択した前記認識結果に関連して、選択した前記認識結果を出力した前記認識処理に対応する後処理を実行する、ように動作させるためのプログラムである。

請求項１，２，５に係る発明によれば、認識処理の前に画像の特徴を計算しなくても、その画像の認識結果に対してその画像の種類に応じた後処理を実行できる装置を提供することができる。

請求項３に係る発明によれば、手書き文字が人によって認識されることを防止することができる。

請求項４に係る発明によれば、活字文字認識処理の認識結果が示す項目に対応する後処理を、手書き文字認識処理の認識結果に対して実行することができる。

本実施形態に係る情報処理装置のハードウェアの構成を示すブロック図である。本実施形態に係る情報処理装置の機能の構成を示すブロック図である。実施例１に係る処理の流れを示すフローチャートである。認識処理の対象である画像を示す図である。認識結果を示す図である。取扱ＤＢの具体例を示す図である。処理部による処理の結果を示す図である。実施例２に係る処理の流れを示すフローチャートである。認識結果を示す図である。認識結果を示す図である。文字グリフを示す図である。

図１を参照して、本実施形態に係る情報処理装置１０のハードウェアの構成について説明する。図１には、情報処理装置１０のハードウェアの構成の一例が示されている。情報処理装置１０は、例えば、通信装置１２と、ＵＩ１４と、メモリ１６と、プロセッサ１８とを含む。

通信装置１２は、通信チップや通信回路等を有する通信インターフェースであり、他の装置に情報を送信する機能、及び、他の装置から情報を受信する機能を有する。通信装置１２は、無線通信機能を有してもよいし、有線通信機能を有してもよい。

ＵＩ１４はユーザインターフェースであり、ディスプレイ及び操作装置の中の少なくとも１つを含む。ディスプレイは、液晶ディスプレイ又はＥＬディスプレイ等の表示装置である。操作装置は、キーボード、入力キー又は操作パネル等である。ＵＩ１４は、ディスプレイと操作装置とを兼ね備えたタッチパネル等のＵＩであってもよい。

メモリ１６は、各種の情報を記憶する１又は複数の記憶領域を構成する装置である。メモリ１６は、例えば、ハードディスクドライブ（ＨＤＤ）、ソリッドステートドライブ（
ＳＳＤ）、各種のメモリ（例えばＲＡＭ、ＤＲＡＭ又はＲＯＭ等）、その他の記憶装置（例えば光ディスク等）、又は、それらの組み合わせである。１又は複数のメモリ１６が情報処理装置１０に含まれている。

プロセッサ１８は、情報処理装置１０の各部の動作を制御するように構成されている。プロセッサ１８は、メモリを有してもよい。例えば、プロセッサ１８によって、後述する各機能が実現される。

情報処理装置１０は、例えば、パーソナルコンピュータ、サーバ、スキャナ、複合機（例えば、スキャナとプリンタを含む装置）、又は、スマートフォン等である。

図２を参照して、情報処理装置１０の機能の構成について説明する。図２には、情報処理装置１０の機能の構成の一例が示されている。

情報処理装置１０は、受付部２０と、認識部２２と、処理部２４と、出力部２６と、取扱ＤＢ（取扱データベース）２８と、類似画像ＤＢ（類似画像データベース）３０とを含む。

受付部２０は、認識処理の対象となる画像データを受け付ける。以下では、「画像データ」を「画像」と略して称することとする。受付部２０によって受け付けられた画像は、認識部２２に出力される。受付部２０は、スキャナやカメラ等の撮像装置によって原稿を読み取ることで生成された画像を受け付けてもよいし、インターネット等の通信経路を介して送信されてきた画像を受信してもよい。

認識部２２は、画像に対して認識処理を実行し、その認識処理の結果（以下、「認識結果」と称する）を処理部２４に出力する。認識処理は、画像から、文字（つまり、言語に結び付いて意味を表す記号や符号）や、文字以外の記号や符号（つまり、言語に結び付かないが意味を有する記号や符号）を認識する処理である。文字の一例として、平仮名、片仮名、漢字、アルファベット、アラビア文字、及び、ラテン文字等を挙げることができる。文字以外の記号や符号の一例として、数字等の表意文字、ピクトグラム、点字、句読点、楽譜、数式、及び、音声記号等を挙げることができる。もちろん、これら以外の記号や符号が認識部２２によって認識されてもよい。例えば、ＯＣＲ（Optical Character Recognition）が、認識処理の一例である。具体的には、手書き用ＯＣＲ、活字用ＯＣＲ、数字用ＯＣＲ、及び、楽譜用ＯＣＲ等が、用いられる。

認識部２２は、同じ画像に対して異なる複数の認識処理を実行する。認識部２２は、異なる複数の認識エンジンによって構成されてもよいし、１つの認識エンジンによって構成されてもよい。複数の異なる認識エンジンの各々は、異なる認識処理を実行する。異なる複数の認識処理は、異なる複数の認識エンジンの各々が認識処理を実行することで実現されてもよいし、１つの認識エンジンが、認識辞書等のパラメータを変えて複数回認識処理を実行することで実現されてもよい。

処理部２４は、同じ画像について異なる複数の認識処理の各々が出力した認識結果をそれぞれ取得する。例えば、処理部２４は、複数の異なる認識エンジンの各々が出力した認識結果、又は、１つの認識エンジンがパラメータを変えて複数回認識処理を実行して出力した各認識結果を取得する。このように、処理部２４は、認識部２２から複数の認識結果を取得する。

また、処理部２４は、取得した複数の認識結果の中から認識結果を選択し、その選択した認識結果に関連して、その選択した認識結果を出力した認識処理（例えば認識エンジンや認識辞書）に対応する後処理を実行する。処理部２４は、認識結果に対して後処理を実行してもよいし、認識結果が得られる認識対象の画像に対して後処理を実行してもよい。

認識部２２は、異なる複数の認識処理の各々の認識結果について確信度を算出してもよい。認識部２２は、各認識結果に確信度を対応付けて処理部２４に出力する。確信度は、認識結果がどれだけ信用できるかを示す情報（例えば数値）である。確信度の算出方法として公知技術を用いることができる。例えば、特開２００６－２４４５１８号公報、特開２０１６－２１２８１２号公報、特開平５－０４０８５３号公報、特開平５－０２０５００号公報、特開平５－２９０１６９号公報、特開平８－１０１８８０号公報、又は、特開２０１１－１１３１２５号公報、特開２０１３－０６９１３２号公報等に記載されている技術を用いて、確信度が算出されてもよい。

認識部２２によって各認識結果の確信度が算出されて処理部２４に出力された場合、処理部２４は、各認識結果と各認識結果の確信度とを取得し、確信度に基づいて、複数の認識結果の中から認識結果を選択し、その選択した認識結果に対して後処理を実行してもよい。例えば、処理部２４は、確信度が最も高い認識結果を選択してもよいし、予め定められた閾値以上の確信度を有する認識結果を選択してもよい。

別の例として、認識部２２は、認識された各文字の高さのバラつきに基づいて、当該各文字が手書き文字又は活字のいずれかであるかを認識してもよい。また、楽譜が表されている画像が認識処理の対象である場合、認識部２２は、五線が描かれている領域に表されている文字は、活字であると認識してもよい。

出力部２６は、認識結果や、後処理によって得られた結果等を出力する。認識結果等を出力することは、例えば、認識結果等をディスプレイに表示すること、認識結果等を通信によって外部の装置に送信すること、認識結果等をメモリに記憶すること、認識結果等を用紙等の記録媒体に印刷すること、又は、認識結果等を表現する音声等の音をスピーカから発生させること等である。

上述した受付部２０、認識部２２、処理部２４及び出力部２６は、プロセッサ１８によって実現される。つまり、プロセッサ１８は、同じ画像について異なる複数の認識処理の各々が出力した認識結果を取得し、当該複数の認識処理の各々が出力した認識結果の中から選択した認識結果に関連して、選択した認識結果を出力した認識処理に対応する後処理を実行する。その実現のためにメモリ１６が用いられてもよい。

なお、受付部２０及び認識部２２は情報処理装置１０に含まれず、認識部２２による認識処理が、情報処理装置１０以外の外部装置によって実行されてもよい。この場合、情報処理装置１０の処理部２４は、外部装置から複数の認識結果を取得し、当該複数の認識結果の中から選択した認識結果に関連する後処理を実行する。

取扱ＤＢ２８は、認識結果に対応する後処理の一例が登録されるデータベースである。

類似画像ＤＢ３０は、認識処理の対象となった画像と認識結果とが登録されるデータベースである。例えば、認識処理の対象となった画像と、当該画像に対する認識処理によって得られた認識結果とが対応付けられて、類似画像ＤＢ３０に登録される。なお、類似画像ＤＢ３０は、情報処理装置１０に含まれなくてもよい。

以下、本実施形態の各実施例について説明する。

＜実施例１＞
以下、図３を参照して、実施例１に係る処理について説明する。図３は、実施例１に係る処理の流れを示すフローチャートである。

実施例１では、認識部２２によって実行される認識処理は、活字認識処理と手書き文字認識処理である。

活字認識処理は、例えば、活字の文字パターンと活字用辞書に登録されている活字パターンとをパターンマッチング法によって比較し、類似度の高い活字パターン（例えば、類似度が最も高い活字パターンや、類似度が閾値以上の活字パターン）を認識結果として出力する処理である。

手書き文字認識処理は、例えば、画像から文字を含む領域を１文字ずつ切り出す処理や傾き補正処理等の前処理を実行し、手書き文字から抽出した特徴と手書き文字用辞書に登録されている各文字の特徴とを比較し、類似度の最も高い文字（例えば、類似度が最も高い文字や、類似度が閾値以上の文字）を認識結果として出力する処理である。

情報処理装置１０に画像が入力されると、受付部２０は、当該画像を受け付ける（Ｓ０１）。受付部２０は、受け付けた画像を認識部２２に出力する。この画像が、認識処理の対象となる画像である。実施例１では一例として、認識処理の対象となる画像は、文書を表す画像である。

認識部２２は、受付部２０が受け付けた同じ画像に対して異なる複数の認識処理を実行する（Ｓ０２）。実施例１では、認識部２２は、同じ画像に対して活字認識処理と手書き文字認識処理とを実行し、活字認識処理の結果である活字認識結果と、手書き文字認識処理の結果である手書き文字認識結果とを処理部２４に出力する。

また、認識部２２は、認識処理の対象である画像に表されている文書が定型文書であるか否かを判定する（Ｓ０３）。この判定として、公知技術を用いることができる。例えば、各種の定型文書のフォーマットがＤＢ等に予め登録されており、認識部２２は、認識処理の対象である画像に表されている文書のフォーマットとＤＢ等に予め登録されている各種の定型文書のフォーマットとを比較することで、認識処理の対象である画像に表されている文書が定型文書であるか否かを判定する。認識処理の対象である画像に表されている文書のフォーマットと一致又は類似するフォーマットがＤＢ等に登録されている場合、認識部２２は、認識処理の対象である画像に表されている文書は定型文書であると判定する。認識処理の対象である画像に表されている文書のフォーマットと一致又は類似するフォーマットがＤＢ等に登録されていない場合、認識部２２は、認識処理の対象である画像に表されている文書は定型文書ではない文書（つまり「非定型文書」）であると判定する。別の方法として、認識処理の対象である画像に表されている文書に、当該文書の種別を識別するための２次元コード等が形成されており、認識部２２は、その２次元コード等に基づいて、当該文書の種別を判定し、当該文書が定型文書であるか否かを判定してもよい。

認識処理の対象である画像に表されている文書が定型文書である場合（Ｓ０４，Ｙｅｓ）、処理部２４は、当該定型文書に対応する処理である定型処理を当該画像に対して実行する（Ｓ０５）。例えば、定型文書の種別毎に定型処理が予め定められており、処理部２４は、認識処理の対象である文書に表されている定型文書の種別に応じた定型処理を当該画像に対して実行する。定型処理は、例えば、認識処理の対象である画像から手書き文字と活字とを区別して認識し、これらをデータ化する処理である。

認識部２２は、文書のページ毎にステップＳ０１からステップＳ０５の処理を実行する。文書に次のページがない場合（Ｓ０６，Ｙｅｓ）、処理は終了する。文書に次のページがある場合（Ｓ０６，Ｎｏ）、処理はステップＳ０１に戻る。

認識処理の対象である画像に表されている文書が定型文書でない場合（Ｓ０４，Ｎｏ）、つまり、当該文書が非定型文書である場合、処理部２４は、当該文書の属性を取得する（Ｓ０７）。ここでの文書の属性は、文書に記載されている文字の種別や文字コードである。文字の種別は、文字が手書き文字又は活字である。

例えば、認識部２２によって活字認識処理と手書き文字認識処理が実行されることで、それぞれの認識結果（つまり、活字認識結果と手書き文字認識結果）が得られる。処理部２４は、ある文字を表す画像についての活字認識結果と手書き文字認識結果との中で認識の精度の高い結果を、当該画像についての認識結果として選択する。例えば、ある文字を表す画像についての手書き文字認識結果の精度が活字認識結果の精度よりも高い場合、処理部２４は、当該文字を手書き文字として認識し、当該文字の認識結果として手書き文字認識結果を選択する。一方、ある文字を表す画像についての活字認識結果の精度が手書き文字認識結果の精度よりも高い場合、処理部２４は、当該文字を活字として認識し、当該文字の認識結果として活字認識結果を選択する。他の文字についても同様である。認識部２２によって各認識結果の確信度が算出され、処理部２４は、活字認識結果と手書き文字認識結果との中で確信度がより高い認識結果を選択してもよい。

認識処理の対象である画像に手書き文字が表されていない場合（Ｓ０８，Ｎｏ）、処理部２４は、当該画像に手書き文字が表されていないことを示す情報を当該画像に対応付けて、当該情報と当該画像とを認識結果としてメモリ１６に記憶させる（Ｓ０９）。つまり、画像に手書き文字が表されていないことを示す情報と当該画像とが対応付けられてデータ化され、そのデータが保存される。

認識処理の対象である画像に手書き文字が表されている場合（Ｓ０８，Ｙｅｓ）、処理部２４は、取扱ＤＢ２８を参照し、その手書き文字に対応する後処理が取扱ＤＢ２８に登録されているか否かを確認する（Ｓ１０）。

認識された手書き文字に対応する後処理が取扱ＤＢ２８に登録されている場合（Ｓ１１，Ｙｅｓ）、処理部２４は、認識処理の対象である画像、又は、認識結果（例えば手書き文字認識結果）に対して、個別処理の一例である当該後処理を実行する（Ｓ１２）。後処理の結果は、例えば、メモリ１６に記憶される。

認識された手書き文字に対応する後処理が取扱ＤＢ２８に登録されていない場合（Ｓ１１，Ｎｏ）、処理部２４は、認識処理の対象である画像、又は、認識結果（例えば手書き文字認識結果）に対して、デフォルト処理を実行する（Ｓ１３）。デフォルト処理の結果は、例えば、メモリ１６に記憶される。

処理部２４は、全ての手書き文字に対して、ステップＳ１０からステップＳ１３の流れに沿った処理を実行する。

以下、図４から図７を参照して、実施例１の具体例について説明する。図４には、認識処理の対象である画像３２が示されている。図５には、認識結果の一例が示されている。図６には、取扱ＤＢ２８の具体例が示されている。図７には、処理部２４による処理によって得られた結果が示されている。

画像３２は全体画像の一例であり、情報処理装置１０による処理は、全体画像である画像３２の中の領域毎に実行される。つまり、各領域の画像に対して、認識処理、認識結果の取得、及び、後処理が実行される。

ここでは一例として、銀行等の金融機関において法人の口座を開設するときの手続き及び処理を例に挙げて、実施例１について説明する。

例えば、金融機関にて法人の口座を開設する場合、口座開設申請書と、法人の代表者を証明するための「代表者証明書」という文書が、金融機関に提出される。例えば、口座開設申請書と代表者証明書が、スキャナによって読み取られ、これにより、口座開設申請書を表す画像と代表者証明書を表す画像が生成される。これらの画像は、認識処理の対象であり、受付部２０は、これらの画像を受け付ける。

認識部２２は、受付部２０が受け付けた各画像を１つずつ認識する。例えば、口座開設申請書は１枚目の文書であり、定型文書である。代表者証明書は２枚目の文書であり、非定型文書である。図４に示されている画像３２は、代表者証明書を表す画像である。なお、口座開設申請書を表す画像は図に示されていない。

認識部２２は、１枚目の画像が表す文書を、口座開設申請書という定型文書であると認識し、口座開設申請書に対応する定型処理を、１枚目の画像に対して実行する。当該定型処理は、口座開設申請書に対応する活字認識処理と手書き文字認識処理とを含む。例えば、認識部２２は、口座開設申請書を表す画像から、口座種別、口座名及び入金額等の各項目を認識し、各項目に記載された活字や手書き文字を、各項目に対応する文字として抽出し、抽出した文字をデータ化する。

認識部２２は、２枚目の画像３２が表す文書（つまり代表者証明書）を、口座開設申請書に添付された非定型文書であると認識し、認識結果（つまり、活字認識処理の結果である活字認識結果と手書き文字認識処理の結果である手書き文字認識結果）を処理部２４に出力する。

図５には、認識結果の一例が示されている。図５中の「ｂｏｘ」は、全体画像である画像３２の中の領域である。「ｂｏｘ」には、画像３２における当該「ｂｏｘ」の座標、当該「ｂｏｘ」内に記載された文字列に対する認識処理（つまり活字認識処理又は手書き文字認識処理）によって認識された文字列、その認識処理の確信度、認識された文字のフォントの種類、及び、認識された文字が活字又は手書きであることを示す情報が、認識結果として対応付けられている。このように、認識部２２は、領域毎に認識処理を実行することで、領域毎の認識結果を出力する。後述するように、処理部２４は、領域毎に後処理を実行する。

処理部２４は、手書き文字はユーザによって記入された文字であると判断する。処理部２４は、認識処理が手書き文字認識処理である場合、後処理として、全体画像である画像３２内の領域（つまり「ｂｏｘ」）の近傍の部分画像であって活字認識処理の認識結果が選択された部分画像、についての認識結果が示す項目、に対応する処理を実行する。部分画像は、第２画像の一例である。以下、この処理について詳しく説明する。

処理部２４は、手書き文字が有する意味を推定するために、代表者証明書において文字が記述される方向を推定する。例えば、処理部２４は、文字の配列に基づいて、文字が記述される方向を推定する。図５に示す例では、文字が記述される方向は横書き方向であり、処理部２４は、画像３２に表されている文書において文字が記述される方向が横書き方向であると推定する。より具体的には、処理部２４は、左側から右側にかけて文字が記載されることを認識する。

処理部２４は、画像３２において、手書き文字認識処理の認識結果である手書き文字列「前屈体操協会」が認識された領域（つまり「ｂｏｘ」）の左側の部分画像であって活字認識処理の認識結果が選択された部分画像に対する認識結果を検索する。図４に示す例では、文字は左側から右側にかけて記載されると推定されるため、手書き文字列「前屈体操協会」が認識された領域の左側の領域の部分画像が、近傍の第２画像に相当する。その部分画像に対する活字認識処理の認識結果は、活字文字列「（法人名）」である。処理部２４は、その活字文字列「（法人名）」を、手書き文字列「前屈体操協会」に対応する項目として認識し、その項目に対応する後処理を取扱ＤＢ２８にて検索する。

ここで、図６を参照して、取扱ＤＢ２８の具体例について説明する。図６に示すように、取扱ＤＢ２８においては、例えば、項目と、優先順位と、後処理と、秘匿レベルとが対応付けられている。項目は、例えば正規表現に従って規定されている。例えば、項目「氏名」は、正規表現［氏［＄Ｓ］＊名＊［＄Ｓ］］に従って規定される。優先順位は、後処理の実行の優先順位である。

後処理として、例えば、「Ｉｍａｇｅ」、「Ｃｏｄｅ」、「Ｎｏｒｍａｌｉｚｅ」、「Ｍａｔｃｈ」、「Ｌｅａｒｎ」及び「Ｅｘｔ」が登録されている。

「Ｉｍａｇｅ」は、認識処理の対象である画像をメモリに記憶する処理である。「Ｃｏｄｅ」は、認識結果の文字コードをメモリに記憶する処理である。「Ｎｏｒｍａｌｉｚｅ」は、認識結果を正規化（例えば、住所表記の統一化や簡略化等）する処理である。「Ｍａｔｃｈ」は、メモリに記憶されている画像と認識処理の対象である画像との一致度を算出し、一致度の高い画像（例えば、一致度が最も高い画像や、一致度が閾値以上の画像）の属性を抽出する処理である。「Ｅｘｔ」は、認識対象の画像に関連する内容の記憶期限を延長する処理である。

秘匿レベルは、認識された文字の秘匿の程度を表すレベルである。秘匿レベルが高い文字ほど、視認がより困難となる処理が施される。例えば、秘匿レベル「５」に対応する文字列は、一般的なプライバシー情報であり、例えば、金融機関の一般行員が閲覧することが許可される文字列である。秘匿レベル「１０」に対応する文字列は、本人以外の人の閲覧が許可されない文字列であり、例えば、レンダリング時に黒塗り等の秘匿処理が施される文字列である。

上述した活字文字列「（法人名）」という項目は、取扱ＤＢ２８に登録されていないため、処理部２４は、手書き文字列「前屈体操協会」に対してデフォルト処理を実行する。

また、処理部２４は、画像３２において、手書き文字認識処理の認識結果である手書き文字列「前田元気」が認識された領域（つまり「ｂｏｘ」）の左側の部分画像であって活字認識処理の認識結果が選択された部分画像に対する認識結果を検索する。図４に示す例では、手書き文字列「前田元気」が認識された領域の左側の領域の部分画像が、近傍の第２画像に相当する。その部分画像に対する活字認識処理の認識結果は、活字文字列「氏名：」である。処理部２４は、その活字文字列「氏名：」を、手書き文字列「前田元気」に対応する項目として認識し、その項目に対応する後処理を取扱ＤＢ２８にて検索する。図６に示すように、取扱ＤＢ２８においては、項目「氏名」は、正規表現［氏［＄Ｓ］＊名＊［＄Ｓ］］に従って規定されている。処理部２４は、取扱ＤＢ２８を参照し、項目「氏名」に対応する後処理と秘匿レベルとを特定し、秘匿レベルを、手書き認識処理の認識結果である手書き文字列「前田元気」に対応付ける。また、処理部２４は、認識結果である手書き文字列「前田元気」、又は、画像３２において手書き文字列「前田元気」を表す部分に対して、項目「氏名」に対応する後処理である「Ｉｍａｇｅ」と「Ｃｏｄｅ」を実行する。

以上のように、認識処理の対象である画像３２に表されている文書が、予め登録されている定型文書ではなく非定型文書であっても、手書き文字に対応する項目を当該文書から特定し、その特定した項目に対応する後処理を当該手書き文字に対して実行することができる。

処理部２４は、他の手書き文字列についても同様に、上述した処理を実行する。例えば、各認識結果はメモリ１６に記憶される。

処理部２４は、認識結果を画像３２に重ねてもよい。例えば、認識結果が重ねられた画像３２がディスプレイに表示される。図７には、認識結果を画像３２に重ねることで生成された画像３４が示さている。画像３４には、認識処理の対象である画像３２に表されている手書き文字列自体は表されていない。処理部２４は、手書き文字列を活字に変換し、その変換後の文字列を画像３２に重ねている。例えば、手書き文字列「前田元気」は、活字に変換されて画像３４に表されている。他の手書き文字列についても同様である。

また、処理部２４は、各手書き文字列に対応付けられている秘匿レベルに応じた秘匿処理を実行する。その秘匿処理も後処理の一例である。例えば、手書き文字列「前屈体操協会」には秘匿レベルが対応付けられていないため、処理部２４は、デフォルトの赤色で文字列「前屈体操協会」をレンダリングする。手書き文字列「前田元気」の秘匿レベルは「５」であるため、処理部２４は、その秘匿レベルに対応する緑色で文字列「前田元気」をレンダリングする。緑色は、口座開設担当者向けのプライバシー情報を反映する色である。例えば、口座開設担当者は、ディスプレイに表示される口座開設の情報と画像３４とを確認して、口座開設の手続きを行う。

上述した秘匿処理は一例に過ぎない。秘匿処理は、認識処理の対象である画像３２において手書き文字が表されている部分、又は、認識結果である手書き文字を、黒塗りする処理こと、暗号化処理、又は、その他の不可視化処理であってもよい。

なお、処理部２４は、上述した第２画像及び項目を特定せずに、手書き文字に対して秘匿処理を実行してもよい。

処理部２４は、手書き文字の認識結果を破棄し、認識処理の対象である画像３２をメモリに記憶させたり、画像３２において手書き文字の認識結果が表されている部分の画像を画像３２から抽出してメモリに記憶させたりしてもよい。例えば、処理部２４は、署名等のようにグリフ自体に意味がある文字については、文字コードではなく、その文字を表す画像そのものをメモリに記憶させる。

手書き文字の認識結果と、認識処理の対象である画像と、認識結果の文字の記入者を識別するための記入者情報とが、対応付けられて類似画像ＤＢ３０に登録されてもよい。この場合、処理部２４は、認識処理の対象である画像と認識結果と記入者との組み合わせと、類似画像ＤＢ３０に登録されている情報とを突き合わせることで、記入者毎の特徴量を学習し、認識の精度を向上させてもよい。

処理部２４は、ある文字についての認識結果と、当該認識結果が得られる認識処理を示す情報である認識処理情報（例えば、認識エンジンや認識辞書を示す情報）とを対応付けて、メモリに記憶させてもよい。例えば、処理部２４は、確信度や精度等に基づいて、ある文字についての活字認識結果と手書き認識結果との中から手書き文字認識結果を選択した場合、その文字については、その文字の手書き文字認識結果と手書き文字認識処理を示す認識処理情報とを対応付けてメモリに記憶させる。処理部２４は、ある文字についての活字認識結果と手書き認識結果との中から活字認識結果を選択した場合、その文字については、その文字の活字認識結果と活字認識処理を示す認識処理情報とを対応付けてメモリに記憶させる。具体例を挙げて説明すると、処理部２４は、文字列「前田元気」については、手書き文字認識処理の結果である手書き文字認識結果を選択しているため、その手書き文字認識結果（つまり、手書き文字列「前田元気」）と、手書き文字認識処理を示す認識処理情報とを対応付けて、これらをメモリに記憶させる。また、処理部２４は、文字列「前屈体操協会」については、活字認識処理の結果である活字認識結果を選択しているため、その活字認識結果（つまり、活字文字列「前屈体操協会」）と、活字認識処理を示す認識処理情報とを対応付けて、これらをメモリに記憶させる。

処理部２４は、認識結果に対応付けられている認識処理情報が示す認識処理に対応する後処理を、認識処理の対象である画像又は認識結果に対して実行してもよい。例えば、手書き文字認識処理を示す認識処理情報が認識結果に対応付けられている場合、処理部２４は、当該認識結果に対して、手書き文字認識処理に対応する後処理（例えば秘匿処理）を実行する。このように、処理部２４は、認識結果そのものを解析せずに、認識結果に対応付けられている認識処理に対応する後処理を認識結果に対して実行してもよい。

＜実施例２＞
以下、図８を参照して、実施例２に係る処理について説明する。図８には、実施例２に係る処理の流れを示すフローチャートである。実施例２では、認識処理の対象である画像は、楽譜を表す画像である。楽譜を表す画像に対して認識処理が実行され、その認識結果に応じた後処理が実行される。

情報処理装置１０に画像が入力されると、受付部２０は、当該画像を受け付ける（Ｓ２０）。受付部２０は、受け付けた当該画像を認識部２２に出力する。

認識部２２は、受付部２０が受け付けた画像に対して認識処理を実行することで、当該画像に表されている内容を認識する（Ｓ２１）。実施例２では、認識部２２は、当該画像に対して、楽譜から文字を認識する処理と、楽譜から音符等の記号（つまり、文字以外の記号）を認識する処理とを実行し、各処理の認識結果を処理部２４に出力する。

認識部２２は、受付部２０が受け付けた画像を複数のブロックに分け（Ｓ２２）、各ブロック内に表されている文字や記号の描画方向と文字や記号の大きさ等に基づいて、各ブロックを整列する（Ｓ２３）。例えば、文字や記号の描画方向が、左から右への方向である場合、認識部２２は、文字や記号が左上から右下の方向にかけて記載されていることを認識する。つまり、認識部２２は、横書きを認識する。文字や記号の描画方向が、右から左への方向である場合、認識部２２は、文字や記号が右上から左下の方向にかけて記載されていることを認識する。つまり、認識部２２は、横書きを認識する。文字や記号の描画方向が、上から下への方向である場合、認識部２２は、文字や記号が右上から左下の方向にかけて記載されていることを認識する。つまり、認識部２２は、縦書きを認識する。

未処理のブロックがある場合（Ｓ２４，Ｙｅｓ）、認識部２２は、整列した先頭のブロック内において先頭の内容を認識する。

その内容が認識された場合（Ｓ２５，Ｙｅｓ）において、その内容が楽譜を構成する内容でない場合（Ｓ２６，Ｎｏ）、処理部２４は、その内容を読み上げる処理を後処理として実行する（Ｓ２７）。例えば、その内容が文字列である場合、処理部２４は、その文字列を読み上げる処理を後処理として実行する。

その内容が楽譜を構成する内容である場合（Ｓ２６，Ｙｅｓ）において、その内容が指示（例えばテンポ等の指示）を示す場合（Ｓ２８，Ｙｅｓ）、処理部２４は、後処理として、その楽譜の演奏のデータを設定する（Ｓ２９）。

その内容が指示を示さない場合（Ｓ２８，Ｎｏ）、処理部２４は、後処理として、その楽譜に従って演奏する（Ｓ３０）。例えば、その楽譜が音符を示す場合、処理部２４は、その音符に従って演奏する。

情報処理装置１０は、ブロック中の内容がなくなるまで、ステップＳ２６からステップＳ３０までの流れに沿って処理を実行する（Ｓ２５参照）。また、情報処理装置１０は、未処理のブロックがなくなるまで、ステップＳ２６からステップＳ３０までの流れに沿って処理を実行する（Ｓ２４参照）。また、情報処理装置１０は、ページ毎に処理を行い、未処理のページがなくなるまで処理を行う（Ｓ３１参照）。

以上のように、処理部２４は、楽譜から認識された内容が文字である場合と、その認識された内容が楽譜を構成する内容とで、異なる後処理を実行する。また、処理部２４は、その認識された内容が楽譜を構成する場合において、その内容が音符である場合と、そうでない場合とで、異なる後処理を実行する。

以下、図９及び図１０を参照して、実施例２の具体例について説明する。図９及び図１０には、認識結果の一例が示されている。図９は、楽譜の認識結果３６が画像として示されている。図１０には、楽譜の認識結果の一部が示されている。

図９に示すように、認識部２２によって、認識結果３６にブロック３８，４０，４２，４４，４６が設定される。また、ブロック４２，４４，４６内にも複数のブロックが設定される。例えば、認識部２２は、画像内の各部分を拡大させて他の部分と重ね合わせることで、内容の塊を１つのブロックとして抽出する。

例えば、認識部２２は、各ブロックの内容の包含関係から構造を推定する。図９に示す例では、ブロック３８，４０，４２，４４，４６が推定され、これらのブロック内にも複数のブロックが推定される。

ブロック３８は、楽譜の表題を示す文字列を含むブロックである。

ブロック４０は、作者を示す文字列である。

ブロック４２は、４つの部分からなる五線譜を表す領域である。具体的には、ブロック４２は、五線譜に描かれた楽譜のブロック、パート名のブロック、及び、各パートの歌詞のブロックを含む。

ブロック４４は、４つの部分からなる五線譜を表す領域である。具体的には、ブロック４４は、数字のブロック、五線譜に描かれた楽譜のブロック、及び、各パートの歌詞のブロックを含む。

ブロック４６は、４つの部分からなる五線譜を表す画像である。具体的には、ブロック４６は、数字のブロック、五線譜に描かれた楽譜のブロック、及び、各パートの歌詞のブロックを含む。

図９に示す例では、認識部２２は、楽譜を構成する部分と文字列の並びの方向が、左から右への方向であると認識し、文字及び記号の出現順が、上から下への方向、かつ、左から右への方向であると認識する。

処理部２４は、ブロック毎に、ブロックの内容に応じた後処理を実行する。例えば、ブロック３８内には、楽譜の表題を示す文字列が表されており、ブロック４０内には、作者を示す文字列が表されているため、処理部２４は、ブロック３８，４０の各々に表されている文字列を読み上げる処理を実行する。また、ブロック４２，４４，４６内には、音符等の記号が表されているため、処理部２４は、ブロック４２，４４，４６の各々に表されている記号に従って演奏処理を実行する。

＜実施例３＞
以下、実施例３について説明する。実施例３では、認識部２２は、認識処理の対象である画像に対して、第１文字認識処理と第２文字認識処理を実行し、第１文字認識処理の結果である第１認識結果と、第２文字認識処理の結果である第２認識結果を出力する。第１認識結果及び第２認識結果は、処理部２４に出力される。

第１文字認識処理は、認識処理の対象である画像に対して、当該画像が第１の言語の文字を表す画像として認識し、その認識結果として文字コードを第１認識結果として出力する処理である。

第２文字認識処理は、認識処理の対象である画像に対して、当該画像が第２の言語の文字を表す画像として認識し、その認識結果として文字コードを第２認識結果として出力する処理である。第２の言語は、第１の言語とは異なる言語である。

なお、ここでは２つの言語（つまり、第１の言語と第２の言語）を例に挙げて実施例３について説明するが、３つ以上の言語を対象として実施例３に係る処理が実行されてもよい。この場合、第３の言語に対応した第３文字認識処理や、第４の言語に対応した第４文字認識処理が実行される。

処理部２４は、第１認識結果に対して、第１文字認識処理に対応する後処理を実行し、第２認識結果に対して、第２文字認識処理に対応する後処理を実行する。

例えば、認識部２２によって同じ画像に対して第１文字認識処理と第２文字認識処理が実行されることで、それぞれの認識結果（つまり、第１認識結果と第２認識結果）が得られる。処理部２４は、ある文字を表す画像についての第１認識結果と第２認識結果との中で認識の精度の高い結果を、当該画像についての認識結果として選択する。例えば、ある文字を表す画像についての第１認識結果の精度が第２認識結果の精度よりも高い場合、処理部２４は、当該文字が、第１の言語の文字として認識し、第１認識結果を選択する。他の文字についても同様である。認識部２２によって各認識結果の確信度が算出され、処理部２４は、第１認識結果と第２認識結果との中で確信度がより高い認識結果を選択してもよい。

処理部２４は、選択した認識結果を出力した認識処理が第１文字認識処理である場合、後処理として、文字コードが示す文字グリフとして、第１の言語のグリフセットにおいて当該文字コードが示す文字グリフを描画する処理を実行する。

処理部２４は、選択した認識結果を出力した認識処理が第２文字認識処理である場合、後処理として、文字コードが示す文字グリフとして、第２の言語のグリフセットにおいて当該文字コードが示す文字グリフを描画する処理を実行する。

例えば、第１の言語は日本語である。第１文字認識処理は、認識処理の対象である画像に対して、当該画像が日本語の文字を表す画像として認識し、その認識結果として日本語の文字コードを出力する処理である。処理部２４は、後処理として、当該文字コードが示す文字グリフとして、日本語のグリフセットにおいて当該文字コードを示す文字グリフを描写する。つまり、処理部２４は、当該文字コードを日本語グリフでレンダリングする。

例えば、第２の言語は韓国語である。第２文字認識処理は、認識処理の対象である画像に対して、当該画像が韓国語の文字を表す画像として認識し、その認識結果として韓国語の文字コードを出力する処理である。処理部２４は、後処理として、当該文字コードが示す文字グリフとして、韓国語のグリフセットにおいて当該文字コードを示す文字グリフを描写する。つまり、処理部２４は、当該文字コードを韓国語グリフでレンダリングする。

また、処理部２４は、認識結果と、当該認識結果が得られる認識処理を示す情報である認識処理情報とを対応付けて、メモリに記憶させてもよい。例えば、処理部２４は、ある文字についての認識結果として第１認識結果（つまり、日本語の認識結果）を選択した場合、その第１認識結果と第１文字認識処理を示す認識処理情報とを対応付けてメモリに記憶させる。同様に、処理部２４は、ある文字についての認識結果として第２認識結果（つまり、韓国語の認識結果）を選択した場合、その第２認識結果と第２文字認識処理を示す認識処理情報とを対応付けてメモリに記憶させる。この場合、処理部２４は、認識結果に対応付けられている認識処理情報が示す認識処理に対応する後処理を、認識処理の対象である画像又は認識結果に対して実行してもよい。例えば、第１文字認識処理を示す認識処理情報が認識結果に対応付けられている場合、処理部２４は、当該認識結果に対して、第１文字認識処理に対応する後処理（例えば日本語グリフを用いたレンダリング）を実行する。

図１１には、文字グリフの一例が示されている。文字グリフ５０，５２は、「骨」を表現する文字グリフである。文字グリフ５０は、日本語の文字を表現する文字グリフであり、文字グリフ５２は、韓国語の文字を表現する文字グリフである。このように同じ意味を有する文字であっても、言語によって文字グリフが異なる。このような異字体が存在する。Ｕｎｉｃｏｄｅ及びＩＳＯ／ＩＥＣ１０６４６（ＵＳＣ）では、異字体セレクタによって異字体を区別することができる場合があるが、文字によっては区別することができない場合がある。

実施例３では、認識結果に認識処理情報が対応付けられて出力される。それ故、認識処理情報を参照することで、当該認識処理情報が対応付けられている認識結果が、どのような認識処理によって得られた結果であるのかを判別することができる。例えば、文字グリフ５０で表現される文字の認識結果に、第１文字認識処理を示す認識処理情報が対応付けられ、当該文字が、日本語用の第１文字認識処理によって認識された文字であることが判別される。同様に、文字グリフ５２で表現される文字の認識結果に、第２文字認識処理を示す認識処理情報が対応付けられ、当該文字が、韓国語用の第２文字認識処理によって認識された文字であることが判別される。このように、認識結果に認識処理情報を対応付けることで、異字体を区別することができる。

＜実施例４＞
以下、実施例４について説明する。実施例４では、認識処理の対象である画像は、古文書を表す画像である。古文書においては、古文書が作成された時代や、古文書の作成者によって、文字グリフが異なることがある。つまり、同じ意味を有する文字であっても、古文書が作成された時代や古文書の作成者によって、異なる文字グリフで表現されることがある。

実施例４では、認識部２２は、第１の時代及び第１の作成者に対応した第１文字認識処理と、第２の時代及び第２の作成者に対応した第２文字認識処理とを、認識処理の対象である同じ画像（つまり、古文書が表された画像）に対して実行する。第２の時代は、第１の時代と異なる時代である。第２の作成者は、第１の作成者とは異なる作成者である。

第１文字認識処理は、認識処理の対象である画像に対して、当該画像が第１の時代に第１の作成者によって作成された文字を表す画像として認識し、その認識結果として文字コードを第１認識結果として出力する処理である。

第２文字認識処理は、認識処理の対象である画像に対して、当該画像が第２の時代に第２の作成者によって作成された文字を表す画像として認識し、その認識結果として文字コードを第２認識結果として出力する処理である。

なお、実施例３と同様に、第３の時代及び第３の作成者に対応する第３文字認識処理や、第４の時代及び第４の作成者に対応する第４文字認識処理が、同じ画像に対して実行されてもよい。

処理部２４は、第１文字認識処理によって得られる第１認識結果と第２文字認識処理によって得られる第２認識結果との中で、精度の高い認識結果や確信度の高い認識結果を選択し、その選択した認識結果に対応する後処理を実行する。例えば、処理部２４は、第１認識結果である文字を、第１の時代用の色でレンダリングし、第２認識結果である文字を、第２の時代用の色でレンダリングする。処理部２４は、時代毎に文字をまとめてディスプレイに表示させてもよい。

また、処理部２４は、認識結果と、当該認識結果が得られる認識処理を示す情報である認識処理情報とを対応付けて、メモリに記憶させてもよい。例えば、処理部２４は、第１認識結果と第２認識結果との中から第１認識結果を選択した場合、その選択した第１認識結果と第１文字認識処理を示す認識処理情報とを対応付けてメモリに記憶させる。処理部２４は、第２認識結果を選択した場合、その選択した第２認識結果と第２文字認識処理を示す認識処理情報とを対応付けてメモリに記憶させる。

上記の情報処理装置１０の各部の機能は、一例としてハードウェアとソフトウェアとの協働により実現される。例えば、各装置のプロセッサが、各装置のメモリに記憶されているプログラムを読み出して実行することで、各装置の機能が実現される。プログラムは、ＣＤ又はＤＶＤ等の記録媒体を経由して、又は、ネットワーク等の通信経路を経由して、メモリに記憶される。

上記各実施形態において、プロセッサとは広義的なプロセッサを指し、汎用的なプロセッサ（例えばCPU： Central Processing Unit、等）や、専用のプロセッサ（例えばGPU： Graphics Processing Unit、ASIC： Application Specific Integrated Circuit、FPGA： Field Programmable Gate Array、プログラマブル論理デバイス、等）を含むものである。また上記各実施形態におけるプロセッサの動作は、１つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。また、プロセッサの各動作の順序は上記各実施形態において記載した順序のみに限定されるものではなく、適宜変更してもよい。

１０情報処理装置、１６メモリ、１８プロセッサ、２２認識部、２４処理部。

Claims

プロセッサを有し、
前記プロセッサは、
同じ画像について異なる複数の認識処理の各々が出力した認識結果をそれぞれ取得し、
前記複数の認識処理の各々が出力した前記認識結果の中から選択した前記認識結果に関連して、選択した前記認識結果を出力した前記認識処理に対応する後処理を実行する、
情報処理装置。
前記プロセッサは、
前記複数の認識処理の各々が前記認識結果に対応付けて出力した確信度を取得し、
前記確信度に基づいて選択した前記認識結果に対して前記後処理を実行する、
ことを特徴とする請求項１に記載の情報処理装置。
前記プロセッサは、
選択した前記認識結果を出力した前記認識処理が手書き文字認識処理である場合、前記後処理として、選択した前記認識結果又は前記画像に対する秘匿処理を実行する、
ことを特徴とする請求項１又は請求項２に記載の情報処理装置。
前記画像は全体画像の中の一部の領域の画像であり、
前記プロセッサは、
前記全体画像の中の領域毎に、その領域の画像に対して前記認識結果の取得及び前記後処理の実行を行い、
選択した前記認識結果を出力した前記認識処理が手書き文字認識処理である場合、前記後処理として、前記全体画像内の前記画像の近傍の第２画像であって活字文字認識処理の認識結果が選択された第２画像、についての認識結果が示す項目、に対応する処理を実行する、
ことを特徴とする請求項１から請求項３のいずれか一項に記載の情報処理装置。
前記プロセッサは、
選択した前記認識結果を出力した前記認識処理が、前記画像を第１の言語の文字を表すものとして認識し、前記認識結果として文字コードを出力する処理である場合に、前記後処理として、前記文字コードが示す文字グリフとして、前記第１の言語のグリフセットにおいてその文字コードが示す文字グリフを描画する処理を実行する、
ことを特徴とする請求項１又は請求項２に記載の情報処理装置。
コンピュータが、
同じ画像について異なる複数の認識処理の各々が出力した認識結果をそれぞれ取得し、
前記複数の認識処理の各々が出力した前記認識結果の中から選択した前記認識結果に関連して、選択した前記認識結果を出力した前記認識処理に対応する後処理を実行する、
ように動作させるためのプログラム。