JP2022148922A - 情報処理装置及びプログラム - Google Patents
情報処理装置及びプログラム Download PDFInfo
- Publication number
- JP2022148922A JP2022148922A JP2021050793A JP2021050793A JP2022148922A JP 2022148922 A JP2022148922 A JP 2022148922A JP 2021050793 A JP2021050793 A JP 2021050793A JP 2021050793 A JP2021050793 A JP 2021050793A JP 2022148922 A JP2022148922 A JP 2022148922A
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- processing
- image
- character
- recognition result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims description 35
- 238000012545 processing Methods 0.000 claims abstract description 230
- 238000000034 method Methods 0.000 claims abstract description 123
- 238000012805 post-processing Methods 0.000 claims abstract description 63
- 238000009877 rendering Methods 0.000 claims description 2
- 230000015654 memory Effects 0.000 description 32
- 238000004891 communication Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 238000012015 optical character recognition Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000005452 bending Methods 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 210000000988 bone and bone Anatomy 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/28—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
- G06V30/287—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/20—Drawing from basic elements, e.g. lines or circles
- G06T11/203—Drawing of straight lines or curves
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
- G06V30/333—Preprocessing; Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
- G06V30/36—Matching; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Character Discrimination (AREA)
Abstract
【課題】認識処理の前に画像の特徴を計算しなくても、その画像の認識結果に対してその画像の種類に応じた後処理を実行できる装置を提供することを目的とする。【解決手段】プロセッサは、同じ画像について異なる複数の認識処理の各々が出力した認識結果をそれぞれ取得し、当該複数の認識処理の各々が出力した認識結果の中から選択した認識結果に関連して、選択した認識結果を出力した認識処理に対応する後処理を実行する。【選択図】図2
Description
本発明は、情報処理装置及びプログラムに関する。
深層学習等の機械学習技術の進歩と相まって、活字文字用、手書き文字用、数字用、楽譜用など、様々な種類の対象に向けた認識エンジンや認識用辞書が開発されている。
特許文献1には、画像データ内の画素の濃淡および文字色等に基づいてヒストグラムを生成し、これに基づいて画像データを活字部からなる画像データと手書き部からなる画像データとに分離することが記載されている。また、特許文献1には、活字部は活字用OCRで認識され、手書き部は手書き用OCRで認識することが記載されている。
OCRエンジンの中には、認識結果の確信度を算出して出力するものもある。
ところで、濃淡ヒストグラム等の画像の特徴を計算し、その特徴に基づいてその画像に適用する認識方法を選択する方式は、特徴を計算するという前処理を必要とする。このため、前処理自体の処理コストや、その前処理を開発するためのコストがかかる。例えば、新たな種類の対象を認識する認識方法が開発されるのに応じて、その対象を表す画像を識別するための前処理を開発するのは大きな負担である。
本発明の目的は、認識処理の前に画像の特徴を計算しなくても、その画像の認識結果に対してその画像の種類に応じた後処理を実行できる装置を提供することにある。
請求項1に係る発明は、プロセッサを有し、前記プロセッサは、同じ画像について異なる複数の認識処理の各々が出力した認識結果をそれぞれ取得し、前記複数の認識処理の各々が出力した前記認識結果の中から選択した前記認識結果に関連して、選択した前記認識結果を出力した前記認識処理に対応する後処理を実行する、情報処理装置である。
請求項2に係る発明は、前記プロセッサは、前記複数の認識処理の各々が前記認識結果に対応付けて出力した確信度を取得し、前記確信度に基づいて選択した前記認識結果に対して前記後処理を実行する、ことを特徴とする請求項1に記載の情報処理装置である。
請求項3に係る発明は、前記プロセッサは、選択した前記認識結果を出力した前記認識処理が手書き文字認識処理である場合、前記後処理として、選択した前記認識結果又は前記画像に対する秘匿処理を実行する、ことを特徴とする請求項1又は請求項2に記載の情報処理装置である。
請求項4に係る発明は、前記画像は全体画像の中の一部の領域の画像であり、前記プロセッサは、前記全体画像の中の領域毎に、その領域の画像に対して前記認識結果の取得及び前記後処理の実行を行い、選択した前記認識結果を出力した前記認識処理が手書き文字認識処理である場合、前記後処理として、前記全体画像内の前記画像の近傍の第2画像であって活字文字認識処理の認識結果が選択された第2画像、についての認識結果が示す項目、に対応する処理を実行する、ことを特徴とする請求項1から請求項3のいずれか一項に記載の情報処理装置である。
請求項5に係る発明は、前記プロセッサは、選択した前記認識結果を出力した前記認識処理が、前記画像を第1の言語の文字を表すものとして認識し、前記認識結果として文字コードを出力する処理である場合に、前記後処理として、前記文字コードが示す文字グリフとして、前記第1の言語のグリフセットにおいてその文字コードが示す文字グリフを描画する処理を実行する、ことを特徴とする請求項1又は請求項2に記載の情報処理装置である。
請求項6に係る発明は、コンピュータが、同じ画像について異なる複数の認識処理の各々が出力した認識結果をそれぞれ取得し、前記複数の認識処理の各々が出力した前記認識結果の中から選択した前記認識結果に関連して、選択した前記認識結果を出力した前記認識処理に対応する後処理を実行する、ように動作させるためのプログラムである。
請求項1,2,5に係る発明によれば、認識処理の前に画像の特徴を計算しなくても、その画像の認識結果に対してその画像の種類に応じた後処理を実行できる装置を提供することができる。
請求項3に係る発明によれば、手書き文字が人によって認識されることを防止することができる。
請求項4に係る発明によれば、活字文字認識処理の認識結果が示す項目に対応する後処理を、手書き文字認識処理の認識結果に対して実行することができる。
図1を参照して、本実施形態に係る情報処理装置10のハードウェアの構成について説明する。図1には、情報処理装置10のハードウェアの構成の一例が示されている。情報処理装置10は、例えば、通信装置12と、UI14と、メモリ16と、プロセッサ18とを含む。
通信装置12は、通信チップや通信回路等を有する通信インターフェースであり、他の装置に情報を送信する機能、及び、他の装置から情報を受信する機能を有する。通信装置12は、無線通信機能を有してもよいし、有線通信機能を有してもよい。
UI14はユーザインターフェースであり、ディスプレイ及び操作装置の中の少なくとも1つを含む。ディスプレイは、液晶ディスプレイ又はELディスプレイ等の表示装置である。操作装置は、キーボード、入力キー又は操作パネル等である。UI14は、ディスプレイと操作装置とを兼ね備えたタッチパネル等のUIであってもよい。
メモリ16は、各種の情報を記憶する1又は複数の記憶領域を構成する装置である。メモリ16は、例えば、ハードディスクドライブ(HDD)、ソリッドステートドライブ(
SSD)、各種のメモリ(例えばRAM、DRAM又はROM等)、その他の記憶装置(例えば光ディスク等)、又は、それらの組み合わせである。1又は複数のメモリ16が情報処理装置10に含まれている。
SSD)、各種のメモリ(例えばRAM、DRAM又はROM等)、その他の記憶装置(例えば光ディスク等)、又は、それらの組み合わせである。1又は複数のメモリ16が情報処理装置10に含まれている。
プロセッサ18は、情報処理装置10の各部の動作を制御するように構成されている。プロセッサ18は、メモリを有してもよい。例えば、プロセッサ18によって、後述する各機能が実現される。
情報処理装置10は、例えば、パーソナルコンピュータ、サーバ、スキャナ、複合機(例えば、スキャナとプリンタを含む装置)、又は、スマートフォン等である。
図2を参照して、情報処理装置10の機能の構成について説明する。図2には、情報処理装置10の機能の構成の一例が示されている。
情報処理装置10は、受付部20と、認識部22と、処理部24と、出力部26と、取扱DB(取扱データベース)28と、類似画像DB(類似画像データベース)30とを含む。
受付部20は、認識処理の対象となる画像データを受け付ける。以下では、「画像データ」を「画像」と略して称することとする。受付部20によって受け付けられた画像は、認識部22に出力される。受付部20は、スキャナやカメラ等の撮像装置によって原稿を読み取ることで生成された画像を受け付けてもよいし、インターネット等の通信経路を介して送信されてきた画像を受信してもよい。
認識部22は、画像に対して認識処理を実行し、その認識処理の結果(以下、「認識結果」と称する)を処理部24に出力する。認識処理は、画像から、文字(つまり、言語に結び付いて意味を表す記号や符号)や、文字以外の記号や符号(つまり、言語に結び付かないが意味を有する記号や符号)を認識する処理である。文字の一例として、平仮名、片仮名、漢字、アルファベット、アラビア文字、及び、ラテン文字等を挙げることができる。文字以外の記号や符号の一例として、数字等の表意文字、ピクトグラム、点字、句読点、楽譜、数式、及び、音声記号等を挙げることができる。もちろん、これら以外の記号や符号が認識部22によって認識されてもよい。例えば、OCR(Optical Character Recognition)が、認識処理の一例である。具体的には、手書き用OCR、活字用OCR、数字用OCR、及び、楽譜用OCR等が、用いられる。
認識部22は、同じ画像に対して異なる複数の認識処理を実行する。認識部22は、異なる複数の認識エンジンによって構成されてもよいし、1つの認識エンジンによって構成されてもよい。複数の異なる認識エンジンの各々は、異なる認識処理を実行する。異なる複数の認識処理は、異なる複数の認識エンジンの各々が認識処理を実行することで実現されてもよいし、1つの認識エンジンが、認識辞書等のパラメータを変えて複数回認識処理を実行することで実現されてもよい。
処理部24は、同じ画像について異なる複数の認識処理の各々が出力した認識結果をそれぞれ取得する。例えば、処理部24は、複数の異なる認識エンジンの各々が出力した認識結果、又は、1つの認識エンジンがパラメータを変えて複数回認識処理を実行して出力した各認識結果を取得する。このように、処理部24は、認識部22から複数の認識結果を取得する。
また、処理部24は、取得した複数の認識結果の中から認識結果を選択し、その選択した認識結果に関連して、その選択した認識結果を出力した認識処理(例えば認識エンジンや認識辞書)に対応する後処理を実行する。処理部24は、認識結果に対して後処理を実行してもよいし、認識結果が得られる認識対象の画像に対して後処理を実行してもよい。
認識部22は、異なる複数の認識処理の各々の認識結果について確信度を算出してもよい。認識部22は、各認識結果に確信度を対応付けて処理部24に出力する。確信度は、認識結果がどれだけ信用できるかを示す情報(例えば数値)である。確信度の算出方法として公知技術を用いることができる。例えば、特開2006-244518号公報、特開2016-212812号公報、特開平5-040853号公報、特開平5-020500号公報、特開平5-290169号公報、特開平8-101880号公報、又は、特開2011-113125号公報、特開2013-069132号公報等に記載されている技術を用いて、確信度が算出されてもよい。
認識部22によって各認識結果の確信度が算出されて処理部24に出力された場合、処理部24は、各認識結果と各認識結果の確信度とを取得し、確信度に基づいて、複数の認識結果の中から認識結果を選択し、その選択した認識結果に対して後処理を実行してもよい。例えば、処理部24は、確信度が最も高い認識結果を選択してもよいし、予め定められた閾値以上の確信度を有する認識結果を選択してもよい。
別の例として、認識部22は、認識された各文字の高さのバラつきに基づいて、当該各文字が手書き文字又は活字のいずれかであるかを認識してもよい。また、楽譜が表されている画像が認識処理の対象である場合、認識部22は、五線が描かれている領域に表されている文字は、活字であると認識してもよい。
出力部26は、認識結果や、後処理によって得られた結果等を出力する。認識結果等を出力することは、例えば、認識結果等をディスプレイに表示すること、認識結果等を通信によって外部の装置に送信すること、認識結果等をメモリに記憶すること、認識結果等を用紙等の記録媒体に印刷すること、又は、認識結果等を表現する音声等の音をスピーカから発生させること等である。
上述した受付部20、認識部22、処理部24及び出力部26は、プロセッサ18によって実現される。つまり、プロセッサ18は、同じ画像について異なる複数の認識処理の各々が出力した認識結果を取得し、当該複数の認識処理の各々が出力した認識結果の中から選択した認識結果に関連して、選択した認識結果を出力した認識処理に対応する後処理を実行する。その実現のためにメモリ16が用いられてもよい。
なお、受付部20及び認識部22は情報処理装置10に含まれず、認識部22による認識処理が、情報処理装置10以外の外部装置によって実行されてもよい。この場合、情報処理装置10の処理部24は、外部装置から複数の認識結果を取得し、当該複数の認識結果の中から選択した認識結果に関連する後処理を実行する。
取扱DB28は、認識結果に対応する後処理の一例が登録されるデータベースである。
類似画像DB30は、認識処理の対象となった画像と認識結果とが登録されるデータベースである。例えば、認識処理の対象となった画像と、当該画像に対する認識処理によって得られた認識結果とが対応付けられて、類似画像DB30に登録される。なお、類似画像DB30は、情報処理装置10に含まれなくてもよい。
以下、本実施形態の各実施例について説明する。
<実施例1>
以下、図3を参照して、実施例1に係る処理について説明する。図3は、実施例1に係る処理の流れを示すフローチャートである。
以下、図3を参照して、実施例1に係る処理について説明する。図3は、実施例1に係る処理の流れを示すフローチャートである。
実施例1では、認識部22によって実行される認識処理は、活字認識処理と手書き文字認識処理である。
活字認識処理は、例えば、活字の文字パターンと活字用辞書に登録されている活字パターンとをパターンマッチング法によって比較し、類似度の高い活字パターン(例えば、類似度が最も高い活字パターンや、類似度が閾値以上の活字パターン)を認識結果として出力する処理である。
手書き文字認識処理は、例えば、画像から文字を含む領域を1文字ずつ切り出す処理や傾き補正処理等の前処理を実行し、手書き文字から抽出した特徴と手書き文字用辞書に登録されている各文字の特徴とを比較し、類似度の最も高い文字(例えば、類似度が最も高い文字や、類似度が閾値以上の文字)を認識結果として出力する処理である。
情報処理装置10に画像が入力されると、受付部20は、当該画像を受け付ける(S01)。受付部20は、受け付けた画像を認識部22に出力する。この画像が、認識処理の対象となる画像である。実施例1では一例として、認識処理の対象となる画像は、文書を表す画像である。
認識部22は、受付部20が受け付けた同じ画像に対して異なる複数の認識処理を実行する(S02)。実施例1では、認識部22は、同じ画像に対して活字認識処理と手書き文字認識処理とを実行し、活字認識処理の結果である活字認識結果と、手書き文字認識処理の結果である手書き文字認識結果とを処理部24に出力する。
また、認識部22は、認識処理の対象である画像に表されている文書が定型文書であるか否かを判定する(S03)。この判定として、公知技術を用いることができる。例えば、各種の定型文書のフォーマットがDB等に予め登録されており、認識部22は、認識処理の対象である画像に表されている文書のフォーマットとDB等に予め登録されている各種の定型文書のフォーマットとを比較することで、認識処理の対象である画像に表されている文書が定型文書であるか否かを判定する。認識処理の対象である画像に表されている文書のフォーマットと一致又は類似するフォーマットがDB等に登録されている場合、認識部22は、認識処理の対象である画像に表されている文書は定型文書であると判定する。認識処理の対象である画像に表されている文書のフォーマットと一致又は類似するフォーマットがDB等に登録されていない場合、認識部22は、認識処理の対象である画像に表されている文書は定型文書ではない文書(つまり「非定型文書」)であると判定する。別の方法として、認識処理の対象である画像に表されている文書に、当該文書の種別を識別するための2次元コード等が形成されており、認識部22は、その2次元コード等に基づいて、当該文書の種別を判定し、当該文書が定型文書であるか否かを判定してもよい。
認識処理の対象である画像に表されている文書が定型文書である場合(S04,Yes)、処理部24は、当該定型文書に対応する処理である定型処理を当該画像に対して実行する(S05)。例えば、定型文書の種別毎に定型処理が予め定められており、処理部24は、認識処理の対象である文書に表されている定型文書の種別に応じた定型処理を当該画像に対して実行する。定型処理は、例えば、認識処理の対象である画像から手書き文字と活字とを区別して認識し、これらをデータ化する処理である。
認識部22は、文書のページ毎にステップS01からステップS05の処理を実行する。文書に次のページがない場合(S06,Yes)、処理は終了する。文書に次のページがある場合(S06,No)、処理はステップS01に戻る。
認識処理の対象である画像に表されている文書が定型文書でない場合(S04,No)、つまり、当該文書が非定型文書である場合、処理部24は、当該文書の属性を取得する(S07)。ここでの文書の属性は、文書に記載されている文字の種別や文字コードである。文字の種別は、文字が手書き文字又は活字である。
例えば、認識部22によって活字認識処理と手書き文字認識処理が実行されることで、それぞれの認識結果(つまり、活字認識結果と手書き文字認識結果)が得られる。処理部24は、ある文字を表す画像についての活字認識結果と手書き文字認識結果との中で認識の精度の高い結果を、当該画像についての認識結果として選択する。例えば、ある文字を表す画像についての手書き文字認識結果の精度が活字認識結果の精度よりも高い場合、処理部24は、当該文字を手書き文字として認識し、当該文字の認識結果として手書き文字認識結果を選択する。一方、ある文字を表す画像についての活字認識結果の精度が手書き文字認識結果の精度よりも高い場合、処理部24は、当該文字を活字として認識し、当該文字の認識結果として活字認識結果を選択する。他の文字についても同様である。認識部22によって各認識結果の確信度が算出され、処理部24は、活字認識結果と手書き文字認識結果との中で確信度がより高い認識結果を選択してもよい。
認識処理の対象である画像に手書き文字が表されていない場合(S08,No)、処理部24は、当該画像に手書き文字が表されていないことを示す情報を当該画像に対応付けて、当該情報と当該画像とを認識結果としてメモリ16に記憶させる(S09)。つまり、画像に手書き文字が表されていないことを示す情報と当該画像とが対応付けられてデータ化され、そのデータが保存される。
認識処理の対象である画像に手書き文字が表されている場合(S08,Yes)、処理部24は、取扱DB28を参照し、その手書き文字に対応する後処理が取扱DB28に登録されているか否かを確認する(S10)。
認識された手書き文字に対応する後処理が取扱DB28に登録されている場合(S11,Yes)、処理部24は、認識処理の対象である画像、又は、認識結果(例えば手書き文字認識結果)に対して、個別処理の一例である当該後処理を実行する(S12)。後処理の結果は、例えば、メモリ16に記憶される。
認識された手書き文字に対応する後処理が取扱DB28に登録されていない場合(S11,No)、処理部24は、認識処理の対象である画像、又は、認識結果(例えば手書き文字認識結果)に対して、デフォルト処理を実行する(S13)。デフォルト処理の結果は、例えば、メモリ16に記憶される。
処理部24は、全ての手書き文字に対して、ステップS10からステップS13の流れに沿った処理を実行する。
以下、図4から図7を参照して、実施例1の具体例について説明する。図4には、認識処理の対象である画像32が示されている。図5には、認識結果の一例が示されている。図6には、取扱DB28の具体例が示されている。図7には、処理部24による処理によって得られた結果が示されている。
画像32は全体画像の一例であり、情報処理装置10による処理は、全体画像である画像32の中の領域毎に実行される。つまり、各領域の画像に対して、認識処理、認識結果の取得、及び、後処理が実行される。
ここでは一例として、銀行等の金融機関において法人の口座を開設するときの手続き及び処理を例に挙げて、実施例1について説明する。
例えば、金融機関にて法人の口座を開設する場合、口座開設申請書と、法人の代表者を証明するための「代表者証明書」という文書が、金融機関に提出される。例えば、口座開設申請書と代表者証明書が、スキャナによって読み取られ、これにより、口座開設申請書を表す画像と代表者証明書を表す画像が生成される。これらの画像は、認識処理の対象であり、受付部20は、これらの画像を受け付ける。
認識部22は、受付部20が受け付けた各画像を1つずつ認識する。例えば、口座開設申請書は1枚目の文書であり、定型文書である。代表者証明書は2枚目の文書であり、非定型文書である。図4に示されている画像32は、代表者証明書を表す画像である。なお、口座開設申請書を表す画像は図に示されていない。
認識部22は、1枚目の画像が表す文書を、口座開設申請書という定型文書であると認識し、口座開設申請書に対応する定型処理を、1枚目の画像に対して実行する。当該定型処理は、口座開設申請書に対応する活字認識処理と手書き文字認識処理とを含む。例えば、認識部22は、口座開設申請書を表す画像から、口座種別、口座名及び入金額等の各項目を認識し、各項目に記載された活字や手書き文字を、各項目に対応する文字として抽出し、抽出した文字をデータ化する。
認識部22は、2枚目の画像32が表す文書(つまり代表者証明書)を、口座開設申請書に添付された非定型文書であると認識し、認識結果(つまり、活字認識処理の結果である活字認識結果と手書き文字認識処理の結果である手書き文字認識結果)を処理部24に出力する。
図5には、認識結果の一例が示されている。図5中の「box」は、全体画像である画像32の中の領域である。「box」には、画像32における当該「box」の座標、当該「box」内に記載された文字列に対する認識処理(つまり活字認識処理又は手書き文字認識処理)によって認識された文字列、その認識処理の確信度、認識された文字のフォントの種類、及び、認識された文字が活字又は手書きであることを示す情報が、認識結果として対応付けられている。このように、認識部22は、領域毎に認識処理を実行することで、領域毎の認識結果を出力する。後述するように、処理部24は、領域毎に後処理を実行する。
処理部24は、手書き文字はユーザによって記入された文字であると判断する。処理部24は、認識処理が手書き文字認識処理である場合、後処理として、全体画像である画像32内の領域(つまり「box」)の近傍の部分画像であって活字認識処理の認識結果が選択された部分画像、についての認識結果が示す項目、に対応する処理を実行する。部分画像は、第2画像の一例である。以下、この処理について詳しく説明する。
処理部24は、手書き文字が有する意味を推定するために、代表者証明書において文字が記述される方向を推定する。例えば、処理部24は、文字の配列に基づいて、文字が記述される方向を推定する。図5に示す例では、文字が記述される方向は横書き方向であり、処理部24は、画像32に表されている文書において文字が記述される方向が横書き方向であると推定する。より具体的には、処理部24は、左側から右側にかけて文字が記載されることを認識する。
処理部24は、画像32において、手書き文字認識処理の認識結果である手書き文字列「前屈体操協会」が認識された領域(つまり「box」)の左側の部分画像であって活字認識処理の認識結果が選択された部分画像に対する認識結果を検索する。図4に示す例では、文字は左側から右側にかけて記載されると推定されるため、手書き文字列「前屈体操協会」が認識された領域の左側の領域の部分画像が、近傍の第2画像に相当する。その部分画像に対する活字認識処理の認識結果は、活字文字列「(法人名)」である。処理部24は、その活字文字列「(法人名)」を、手書き文字列「前屈体操協会」に対応する項目として認識し、その項目に対応する後処理を取扱DB28にて検索する。
ここで、図6を参照して、取扱DB28の具体例について説明する。図6に示すように、取扱DB28においては、例えば、項目と、優先順位と、後処理と、秘匿レベルとが対応付けられている。項目は、例えば正規表現に従って規定されている。例えば、項目「氏名」は、正規表現[氏[$S]*名*[$S]]に従って規定される。優先順位は、後処理の実行の優先順位である。
後処理として、例えば、「Image」、「Code」、「Normalize」、「Match」、「Learn」及び「Ext」が登録されている。
「Image」は、認識処理の対象である画像をメモリに記憶する処理である。「Code」は、認識結果の文字コードをメモリに記憶する処理である。「Normalize」は、認識結果を正規化(例えば、住所表記の統一化や簡略化等)する処理である。「Match」は、メモリに記憶されている画像と認識処理の対象である画像との一致度を算出し、一致度の高い画像(例えば、一致度が最も高い画像や、一致度が閾値以上の画像)の属性を抽出する処理である。「Ext」は、認識対象の画像に関連する内容の記憶期限を延長する処理である。
秘匿レベルは、認識された文字の秘匿の程度を表すレベルである。秘匿レベルが高い文字ほど、視認がより困難となる処理が施される。例えば、秘匿レベル「5」に対応する文字列は、一般的なプライバシー情報であり、例えば、金融機関の一般行員が閲覧することが許可される文字列である。秘匿レベル「10」に対応する文字列は、本人以外の人の閲覧が許可されない文字列であり、例えば、レンダリング時に黒塗り等の秘匿処理が施される文字列である。
上述した活字文字列「(法人名)」という項目は、取扱DB28に登録されていないため、処理部24は、手書き文字列「前屈体操協会」に対してデフォルト処理を実行する。
また、処理部24は、画像32において、手書き文字認識処理の認識結果である手書き文字列「前田 元気」が認識された領域(つまり「box」)の左側の部分画像であって活字認識処理の認識結果が選択された部分画像に対する認識結果を検索する。図4に示す例では、手書き文字列「前田 元気」が認識された領域の左側の領域の部分画像が、近傍の第2画像に相当する。その部分画像に対する活字認識処理の認識結果は、活字文字列「氏名:」である。処理部24は、その活字文字列「氏名:」を、手書き文字列「前田 元気」に対応する項目として認識し、その項目に対応する後処理を取扱DB28にて検索する。図6に示すように、取扱DB28においては、項目「氏名」は、正規表現[氏[$S]*名*[$S]]に従って規定されている。処理部24は、取扱DB28を参照し、項目「氏名」に対応する後処理と秘匿レベルとを特定し、秘匿レベルを、手書き認識処理の認識結果である手書き文字列「前田 元気」に対応付ける。また、処理部24は、認識結果である手書き文字列「前田 元気」、又は、画像32において手書き文字列「前田 元気」を表す部分に対して、項目「氏名」に対応する後処理である「Image」と「Code」を実行する。
以上のように、認識処理の対象である画像32に表されている文書が、予め登録されている定型文書ではなく非定型文書であっても、手書き文字に対応する項目を当該文書から特定し、その特定した項目に対応する後処理を当該手書き文字に対して実行することができる。
処理部24は、他の手書き文字列についても同様に、上述した処理を実行する。例えば、各認識結果はメモリ16に記憶される。
処理部24は、認識結果を画像32に重ねてもよい。例えば、認識結果が重ねられた画像32がディスプレイに表示される。図7には、認識結果を画像32に重ねることで生成された画像34が示さている。画像34には、認識処理の対象である画像32に表されている手書き文字列自体は表されていない。処理部24は、手書き文字列を活字に変換し、その変換後の文字列を画像32に重ねている。例えば、手書き文字列「前田 元気」は、活字に変換されて画像34に表されている。他の手書き文字列についても同様である。
また、処理部24は、各手書き文字列に対応付けられている秘匿レベルに応じた秘匿処理を実行する。その秘匿処理も後処理の一例である。例えば、手書き文字列「前屈体操協会」には秘匿レベルが対応付けられていないため、処理部24は、デフォルトの赤色で文字列「前屈体操協会」をレンダリングする。手書き文字列「前田 元気」の秘匿レベルは「5」であるため、処理部24は、その秘匿レベルに対応する緑色で文字列「前田 元気」をレンダリングする。緑色は、口座開設担当者向けのプライバシー情報を反映する色である。例えば、口座開設担当者は、ディスプレイに表示される口座開設の情報と画像34とを確認して、口座開設の手続きを行う。
上述した秘匿処理は一例に過ぎない。秘匿処理は、認識処理の対象である画像32において手書き文字が表されている部分、又は、認識結果である手書き文字を、黒塗りする処理こと、暗号化処理、又は、その他の不可視化処理であってもよい。
なお、処理部24は、上述した第2画像及び項目を特定せずに、手書き文字に対して秘匿処理を実行してもよい。
処理部24は、手書き文字の認識結果を破棄し、認識処理の対象である画像32をメモリに記憶させたり、画像32において手書き文字の認識結果が表されている部分の画像を画像32から抽出してメモリに記憶させたりしてもよい。例えば、処理部24は、署名等のようにグリフ自体に意味がある文字については、文字コードではなく、その文字を表す画像そのものをメモリに記憶させる。
手書き文字の認識結果と、認識処理の対象である画像と、認識結果の文字の記入者を識別するための記入者情報とが、対応付けられて類似画像DB30に登録されてもよい。この場合、処理部24は、認識処理の対象である画像と認識結果と記入者との組み合わせと、類似画像DB30に登録されている情報とを突き合わせることで、記入者毎の特徴量を学習し、認識の精度を向上させてもよい。
処理部24は、ある文字についての認識結果と、当該認識結果が得られる認識処理を示す情報である認識処理情報(例えば、認識エンジンや認識辞書を示す情報)とを対応付けて、メモリに記憶させてもよい。例えば、処理部24は、確信度や精度等に基づいて、ある文字についての活字認識結果と手書き認識結果との中から手書き文字認識結果を選択した場合、その文字については、その文字の手書き文字認識結果と手書き文字認識処理を示す認識処理情報とを対応付けてメモリに記憶させる。処理部24は、ある文字についての活字認識結果と手書き認識結果との中から活字認識結果を選択した場合、その文字については、その文字の活字認識結果と活字認識処理を示す認識処理情報とを対応付けてメモリに記憶させる。具体例を挙げて説明すると、処理部24は、文字列「前田 元気」については、手書き文字認識処理の結果である手書き文字認識結果を選択しているため、その手書き文字認識結果(つまり、手書き文字列「前田 元気」)と、手書き文字認識処理を示す認識処理情報とを対応付けて、これらをメモリに記憶させる。また、処理部24は、文字列「前屈体操協会」については、活字認識処理の結果である活字認識結果を選択しているため、その活字認識結果(つまり、活字文字列「前屈体操協会」)と、活字認識処理を示す認識処理情報とを対応付けて、これらをメモリに記憶させる。
処理部24は、認識結果に対応付けられている認識処理情報が示す認識処理に対応する後処理を、認識処理の対象である画像又は認識結果に対して実行してもよい。例えば、手書き文字認識処理を示す認識処理情報が認識結果に対応付けられている場合、処理部24は、当該認識結果に対して、手書き文字認識処理に対応する後処理(例えば秘匿処理)を実行する。このように、処理部24は、認識結果そのものを解析せずに、認識結果に対応付けられている認識処理に対応する後処理を認識結果に対して実行してもよい。
<実施例2>
以下、図8を参照して、実施例2に係る処理について説明する。図8には、実施例2に係る処理の流れを示すフローチャートである。実施例2では、認識処理の対象である画像は、楽譜を表す画像である。楽譜を表す画像に対して認識処理が実行され、その認識結果に応じた後処理が実行される。
以下、図8を参照して、実施例2に係る処理について説明する。図8には、実施例2に係る処理の流れを示すフローチャートである。実施例2では、認識処理の対象である画像は、楽譜を表す画像である。楽譜を表す画像に対して認識処理が実行され、その認識結果に応じた後処理が実行される。
情報処理装置10に画像が入力されると、受付部20は、当該画像を受け付ける(S20)。受付部20は、受け付けた当該画像を認識部22に出力する。
認識部22は、受付部20が受け付けた画像に対して認識処理を実行することで、当該画像に表されている内容を認識する(S21)。実施例2では、認識部22は、当該画像に対して、楽譜から文字を認識する処理と、楽譜から音符等の記号(つまり、文字以外の記号)を認識する処理とを実行し、各処理の認識結果を処理部24に出力する。
認識部22は、受付部20が受け付けた画像を複数のブロックに分け(S22)、各ブロック内に表されている文字や記号の描画方向と文字や記号の大きさ等に基づいて、各ブロックを整列する(S23)。例えば、文字や記号の描画方向が、左から右への方向である場合、認識部22は、文字や記号が左上から右下の方向にかけて記載されていることを認識する。つまり、認識部22は、横書きを認識する。文字や記号の描画方向が、右から左への方向である場合、認識部22は、文字や記号が右上から左下の方向にかけて記載されていることを認識する。つまり、認識部22は、横書きを認識する。文字や記号の描画方向が、上から下への方向である場合、認識部22は、文字や記号が右上から左下の方向にかけて記載されていることを認識する。つまり、認識部22は、縦書きを認識する。
未処理のブロックがある場合(S24,Yes)、認識部22は、整列した先頭のブロック内において先頭の内容を認識する。
その内容が認識された場合(S25,Yes)において、その内容が楽譜を構成する内容でない場合(S26,No)、処理部24は、その内容を読み上げる処理を後処理として実行する(S27)。例えば、その内容が文字列である場合、処理部24は、その文字列を読み上げる処理を後処理として実行する。
その内容が楽譜を構成する内容である場合(S26,Yes)において、その内容が指示(例えばテンポ等の指示)を示す場合(S28,Yes)、処理部24は、後処理として、その楽譜の演奏のデータを設定する(S29)。
その内容が指示を示さない場合(S28,No)、処理部24は、後処理として、その楽譜に従って演奏する(S30)。例えば、その楽譜が音符を示す場合、処理部24は、その音符に従って演奏する。
情報処理装置10は、ブロック中の内容がなくなるまで、ステップS26からステップS30までの流れに沿って処理を実行する(S25参照)。また、情報処理装置10は、未処理のブロックがなくなるまで、ステップS26からステップS30までの流れに沿って処理を実行する(S24参照)。また、情報処理装置10は、ページ毎に処理を行い、未処理のページがなくなるまで処理を行う(S31参照)。
以上のように、処理部24は、楽譜から認識された内容が文字である場合と、その認識された内容が楽譜を構成する内容とで、異なる後処理を実行する。また、処理部24は、その認識された内容が楽譜を構成する場合において、その内容が音符である場合と、そうでない場合とで、異なる後処理を実行する。
以下、図9及び図10を参照して、実施例2の具体例について説明する。図9及び図10には、認識結果の一例が示されている。図9は、楽譜の認識結果36が画像として示されている。図10には、楽譜の認識結果の一部が示されている。
図9に示すように、認識部22によって、認識結果36にブロック38,40,42,44,46が設定される。また、ブロック42,44,46内にも複数のブロックが設定される。例えば、認識部22は、画像内の各部分を拡大させて他の部分と重ね合わせることで、内容の塊を1つのブロックとして抽出する。
例えば、認識部22は、各ブロックの内容の包含関係から構造を推定する。図9に示す例では、ブロック38,40,42,44,46が推定され、これらのブロック内にも複数のブロックが推定される。
ブロック38は、楽譜の表題を示す文字列を含むブロックである。
ブロック40は、作者を示す文字列である。
ブロック42は、4つの部分からなる五線譜を表す領域である。具体的には、ブロック42は、五線譜に描かれた楽譜のブロック、パート名のブロック、及び、各パートの歌詞のブロックを含む。
ブロック44は、4つの部分からなる五線譜を表す領域である。具体的には、ブロック44は、数字のブロック、五線譜に描かれた楽譜のブロック、及び、各パートの歌詞のブロックを含む。
ブロック46は、4つの部分からなる五線譜を表す画像である。具体的には、ブロック46は、数字のブロック、五線譜に描かれた楽譜のブロック、及び、各パートの歌詞のブロックを含む。
図9に示す例では、認識部22は、楽譜を構成する部分と文字列の並びの方向が、左から右への方向であると認識し、文字及び記号の出現順が、上から下への方向、かつ、左から右への方向であると認識する。
処理部24は、ブロック毎に、ブロックの内容に応じた後処理を実行する。例えば、ブロック38内には、楽譜の表題を示す文字列が表されており、ブロック40内には、作者を示す文字列が表されているため、処理部24は、ブロック38,40の各々に表されている文字列を読み上げる処理を実行する。また、ブロック42,44,46内には、音符等の記号が表されているため、処理部24は、ブロック42,44,46の各々に表されている記号に従って演奏処理を実行する。
<実施例3>
以下、実施例3について説明する。実施例3では、認識部22は、認識処理の対象である画像に対して、第1文字認識処理と第2文字認識処理を実行し、第1文字認識処理の結果である第1認識結果と、第2文字認識処理の結果である第2認識結果を出力する。第1認識結果及び第2認識結果は、処理部24に出力される。
以下、実施例3について説明する。実施例3では、認識部22は、認識処理の対象である画像に対して、第1文字認識処理と第2文字認識処理を実行し、第1文字認識処理の結果である第1認識結果と、第2文字認識処理の結果である第2認識結果を出力する。第1認識結果及び第2認識結果は、処理部24に出力される。
第1文字認識処理は、認識処理の対象である画像に対して、当該画像が第1の言語の文字を表す画像として認識し、その認識結果として文字コードを第1認識結果として出力する処理である。
第2文字認識処理は、認識処理の対象である画像に対して、当該画像が第2の言語の文字を表す画像として認識し、その認識結果として文字コードを第2認識結果として出力する処理である。第2の言語は、第1の言語とは異なる言語である。
なお、ここでは2つの言語(つまり、第1の言語と第2の言語)を例に挙げて実施例3について説明するが、3つ以上の言語を対象として実施例3に係る処理が実行されてもよい。この場合、第3の言語に対応した第3文字認識処理や、第4の言語に対応した第4文字認識処理が実行される。
処理部24は、第1認識結果に対して、第1文字認識処理に対応する後処理を実行し、第2認識結果に対して、第2文字認識処理に対応する後処理を実行する。
例えば、認識部22によって同じ画像に対して第1文字認識処理と第2文字認識処理が実行されることで、それぞれの認識結果(つまり、第1認識結果と第2認識結果)が得られる。処理部24は、ある文字を表す画像についての第1認識結果と第2認識結果との中で認識の精度の高い結果を、当該画像についての認識結果として選択する。例えば、ある文字を表す画像についての第1認識結果の精度が第2認識結果の精度よりも高い場合、処理部24は、当該文字が、第1の言語の文字として認識し、第1認識結果を選択する。他の文字についても同様である。認識部22によって各認識結果の確信度が算出され、処理部24は、第1認識結果と第2認識結果との中で確信度がより高い認識結果を選択してもよい。
処理部24は、選択した認識結果を出力した認識処理が第1文字認識処理である場合、後処理として、文字コードが示す文字グリフとして、第1の言語のグリフセットにおいて当該文字コードが示す文字グリフを描画する処理を実行する。
処理部24は、選択した認識結果を出力した認識処理が第2文字認識処理である場合、後処理として、文字コードが示す文字グリフとして、第2の言語のグリフセットにおいて当該文字コードが示す文字グリフを描画する処理を実行する。
例えば、第1の言語は日本語である。第1文字認識処理は、認識処理の対象である画像に対して、当該画像が日本語の文字を表す画像として認識し、その認識結果として日本語の文字コードを出力する処理である。処理部24は、後処理として、当該文字コードが示す文字グリフとして、日本語のグリフセットにおいて当該文字コードを示す文字グリフを描写する。つまり、処理部24は、当該文字コードを日本語グリフでレンダリングする。
例えば、第2の言語は韓国語である。第2文字認識処理は、認識処理の対象である画像に対して、当該画像が韓国語の文字を表す画像として認識し、その認識結果として韓国語の文字コードを出力する処理である。処理部24は、後処理として、当該文字コードが示す文字グリフとして、韓国語のグリフセットにおいて当該文字コードを示す文字グリフを描写する。つまり、処理部24は、当該文字コードを韓国語グリフでレンダリングする。
また、処理部24は、認識結果と、当該認識結果が得られる認識処理を示す情報である認識処理情報とを対応付けて、メモリに記憶させてもよい。例えば、処理部24は、ある文字についての認識結果として第1認識結果(つまり、日本語の認識結果)を選択した場合、その第1認識結果と第1文字認識処理を示す認識処理情報とを対応付けてメモリに記憶させる。同様に、処理部24は、ある文字についての認識結果として第2認識結果(つまり、韓国語の認識結果)を選択した場合、その第2認識結果と第2文字認識処理を示す認識処理情報とを対応付けてメモリに記憶させる。この場合、処理部24は、認識結果に対応付けられている認識処理情報が示す認識処理に対応する後処理を、認識処理の対象である画像又は認識結果に対して実行してもよい。例えば、第1文字認識処理を示す認識処理情報が認識結果に対応付けられている場合、処理部24は、当該認識結果に対して、第1文字認識処理に対応する後処理(例えば日本語グリフを用いたレンダリング)を実行する。
図11には、文字グリフの一例が示されている。文字グリフ50,52は、「骨」を表現する文字グリフである。文字グリフ50は、日本語の文字を表現する文字グリフであり、文字グリフ52は、韓国語の文字を表現する文字グリフである。このように同じ意味を有する文字であっても、言語によって文字グリフが異なる。このような異字体が存在する。Unicode及びISO/IEC 10646(USC)では、異字体セレクタによって異字体を区別することができる場合があるが、文字によっては区別することができない場合がある。
実施例3では、認識結果に認識処理情報が対応付けられて出力される。それ故、認識処理情報を参照することで、当該認識処理情報が対応付けられている認識結果が、どのような認識処理によって得られた結果であるのかを判別することができる。例えば、文字グリフ50で表現される文字の認識結果に、第1文字認識処理を示す認識処理情報が対応付けられ、当該文字が、日本語用の第1文字認識処理によって認識された文字であることが判別される。同様に、文字グリフ52で表現される文字の認識結果に、第2文字認識処理を示す認識処理情報が対応付けられ、当該文字が、韓国語用の第2文字認識処理によって認識された文字であることが判別される。このように、認識結果に認識処理情報を対応付けることで、異字体を区別することができる。
<実施例4>
以下、実施例4について説明する。実施例4では、認識処理の対象である画像は、古文書を表す画像である。古文書においては、古文書が作成された時代や、古文書の作成者によって、文字グリフが異なることがある。つまり、同じ意味を有する文字であっても、古文書が作成された時代や古文書の作成者によって、異なる文字グリフで表現されることがある。
以下、実施例4について説明する。実施例4では、認識処理の対象である画像は、古文書を表す画像である。古文書においては、古文書が作成された時代や、古文書の作成者によって、文字グリフが異なることがある。つまり、同じ意味を有する文字であっても、古文書が作成された時代や古文書の作成者によって、異なる文字グリフで表現されることがある。
実施例4では、認識部22は、第1の時代及び第1の作成者に対応した第1文字認識処理と、第2の時代及び第2の作成者に対応した第2文字認識処理とを、認識処理の対象である同じ画像(つまり、古文書が表された画像)に対して実行する。第2の時代は、第1の時代と異なる時代である。第2の作成者は、第1の作成者とは異なる作成者である。
第1文字認識処理は、認識処理の対象である画像に対して、当該画像が第1の時代に第1の作成者によって作成された文字を表す画像として認識し、その認識結果として文字コードを第1認識結果として出力する処理である。
第2文字認識処理は、認識処理の対象である画像に対して、当該画像が第2の時代に第2の作成者によって作成された文字を表す画像として認識し、その認識結果として文字コードを第2認識結果として出力する処理である。
なお、実施例3と同様に、第3の時代及び第3の作成者に対応する第3文字認識処理や、第4の時代及び第4の作成者に対応する第4文字認識処理が、同じ画像に対して実行されてもよい。
処理部24は、第1文字認識処理によって得られる第1認識結果と第2文字認識処理によって得られる第2認識結果との中で、精度の高い認識結果や確信度の高い認識結果を選択し、その選択した認識結果に対応する後処理を実行する。例えば、処理部24は、第1認識結果である文字を、第1の時代用の色でレンダリングし、第2認識結果である文字を、第2の時代用の色でレンダリングする。処理部24は、時代毎に文字をまとめてディスプレイに表示させてもよい。
また、処理部24は、認識結果と、当該認識結果が得られる認識処理を示す情報である認識処理情報とを対応付けて、メモリに記憶させてもよい。例えば、処理部24は、第1認識結果と第2認識結果との中から第1認識結果を選択した場合、その選択した第1認識結果と第1文字認識処理を示す認識処理情報とを対応付けてメモリに記憶させる。処理部24は、第2認識結果を選択した場合、その選択した第2認識結果と第2文字認識処理を示す認識処理情報とを対応付けてメモリに記憶させる。
上記の情報処理装置10の各部の機能は、一例としてハードウェアとソフトウェアとの協働により実現される。例えば、各装置のプロセッサが、各装置のメモリに記憶されているプログラムを読み出して実行することで、各装置の機能が実現される。プログラムは、CD又はDVD等の記録媒体を経由して、又は、ネットワーク等の通信経路を経由して、メモリに記憶される。
上記各実施形態において、プロセッサとは広義的なプロセッサを指し、汎用的なプロセッサ(例えばCPU: Central Processing Unit、等)や、専用のプロセッサ(例えばGPU: Graphics Processing Unit、ASIC: Application Specific Integrated Circuit、FPGA: Field Programmable Gate Array、プログラマブル論理デバイス、等)を含むものである。また上記各実施形態におけるプロセッサの動作は、1つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。また、プロセッサの各動作の順序は上記各実施形態において記載した順序のみに限定されるものではなく、適宜変更してもよい。
10 情報処理装置、16 メモリ、18 プロセッサ、22 認識部、24 処理部。
Claims (6)
- プロセッサを有し、
前記プロセッサは、
同じ画像について異なる複数の認識処理の各々が出力した認識結果をそれぞれ取得し、
前記複数の認識処理の各々が出力した前記認識結果の中から選択した前記認識結果に関連して、選択した前記認識結果を出力した前記認識処理に対応する後処理を実行する、
情報処理装置。 - 前記プロセッサは、
前記複数の認識処理の各々が前記認識結果に対応付けて出力した確信度を取得し、
前記確信度に基づいて選択した前記認識結果に対して前記後処理を実行する、
ことを特徴とする請求項1に記載の情報処理装置。 - 前記プロセッサは、
選択した前記認識結果を出力した前記認識処理が手書き文字認識処理である場合、前記後処理として、選択した前記認識結果又は前記画像に対する秘匿処理を実行する、
ことを特徴とする請求項1又は請求項2に記載の情報処理装置。 - 前記画像は全体画像の中の一部の領域の画像であり、
前記プロセッサは、
前記全体画像の中の領域毎に、その領域の画像に対して前記認識結果の取得及び前記後処理の実行を行い、
選択した前記認識結果を出力した前記認識処理が手書き文字認識処理である場合、前記後処理として、前記全体画像内の前記画像の近傍の第2画像であって活字文字認識処理の認識結果が選択された第2画像、についての認識結果が示す項目、に対応する処理を実行する、
ことを特徴とする請求項1から請求項3のいずれか一項に記載の情報処理装置。 - 前記プロセッサは、
選択した前記認識結果を出力した前記認識処理が、前記画像を第1の言語の文字を表すものとして認識し、前記認識結果として文字コードを出力する処理である場合に、前記後処理として、前記文字コードが示す文字グリフとして、前記第1の言語のグリフセットにおいてその文字コードが示す文字グリフを描画する処理を実行する、
ことを特徴とする請求項1又は請求項2に記載の情報処理装置。 - コンピュータが、
同じ画像について異なる複数の認識処理の各々が出力した認識結果をそれぞれ取得し、
前記複数の認識処理の各々が出力した前記認識結果の中から選択した前記認識結果に関連して、選択した前記認識結果を出力した前記認識処理に対応する後処理を実行する、
ように動作させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021050793A JP2022148922A (ja) | 2021-03-24 | 2021-03-24 | 情報処理装置及びプログラム |
US17/372,495 US20220309272A1 (en) | 2021-03-24 | 2021-07-11 | Information processing apparatus and non-transitory computer readable medium storing program |
CN202111018866.1A CN115131796A (zh) | 2021-03-24 | 2021-09-01 | 信息处理装置、记录介质及信息处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021050793A JP2022148922A (ja) | 2021-03-24 | 2021-03-24 | 情報処理装置及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022148922A true JP2022148922A (ja) | 2022-10-06 |
Family
ID=83363474
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021050793A Pending JP2022148922A (ja) | 2021-03-24 | 2021-03-24 | 情報処理装置及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220309272A1 (ja) |
JP (1) | JP2022148922A (ja) |
CN (1) | CN115131796A (ja) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006065477A (ja) * | 2004-08-25 | 2006-03-09 | Fuji Xerox Co Ltd | 文字認識装置 |
JP2006092027A (ja) * | 2004-09-21 | 2006-04-06 | Fuji Xerox Co Ltd | 文字認識装置、文字認識方法および文字認識プログラム |
JP2006092346A (ja) * | 2004-09-24 | 2006-04-06 | Fuji Xerox Co Ltd | 文字認識装置、文字認識方法および文字認識プログラム |
US9552473B2 (en) * | 2014-05-14 | 2017-01-24 | Microsoft Technology Licensing, Llc | Claiming data from a virtual whiteboard |
JP7337612B2 (ja) * | 2019-09-10 | 2023-09-04 | キヤノン株式会社 | 画像処理装置、画像処理システム、画像処理方法、及びプログラム |
-
2021
- 2021-03-24 JP JP2021050793A patent/JP2022148922A/ja active Pending
- 2021-07-11 US US17/372,495 patent/US20220309272A1/en not_active Abandoned
- 2021-09-01 CN CN202111018866.1A patent/CN115131796A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
CN115131796A (zh) | 2022-09-30 |
US20220309272A1 (en) | 2022-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4461769B2 (ja) | 文書検索・閲覧手法及び文書検索・閲覧装置 | |
US10963717B1 (en) | Auto-correction of pattern defined strings | |
US20150138220A1 (en) | Systems and methods for displaying scanned images with overlaid text | |
US20240404308A1 (en) | Systems and Methods for Extracting Information from a Physical Document | |
JP5661549B2 (ja) | 帳票上の文字を認識する文字認識装置、マスク処理方法、および、マスク処理プログラム | |
JP4311365B2 (ja) | 文書処理装置およびプログラム | |
CN116822634A (zh) | 一种基于布局感知提示的文档视觉语言推理方法 | |
JP2006065477A (ja) | 文字認識装置 | |
JP5430312B2 (ja) | データ処理装置、データ名生成方法及びコンピュータプログラム | |
JP5353325B2 (ja) | 文書データ生成装置と文書データ生成方法 | |
JP7351159B2 (ja) | 情報処理装置及びプログラム | |
JP2021047693A (ja) | 情報処理装置及びプログラム | |
JP2022148922A (ja) | 情報処理装置及びプログラム | |
JP2002063197A (ja) | 検索装置、記録媒体およびプログラム | |
US10049107B2 (en) | Non-transitory computer readable medium and information processing apparatus and method | |
JP7435098B2 (ja) | くずし字認識システム、くずし字認識方法及びプログラム | |
US11206335B2 (en) | Information processing apparatus, method and non-transitory computer readable medium | |
JP7172343B2 (ja) | 文書検索用プログラム | |
US20210256294A1 (en) | System and method for whole word conversion of text in image | |
JP5531493B2 (ja) | 文字認識装置、文字認識方法、プログラム及び記録媒体 | |
US20220253638A1 (en) | Information processing apparatus and non-transitory computer readable medium storing program | |
US20230205910A1 (en) | Information processing device, confidentiality level determination program, and method | |
US20230343123A1 (en) | Using model uncertainty for contextual decision making in optical character recognition | |
JP7491022B2 (ja) | 書類識別装置、書類識別方法及びコンピュータプログラム | |
JP2024003769A (ja) | 文字認識システム、コンピュータによる文字の認識方法、および文字検索システム |