[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2006127446A - 画像処理装置、画像処理方法、プログラムおよび記録媒体 - Google Patents

画像処理装置、画像処理方法、プログラムおよび記録媒体 Download PDF

Info

Publication number
JP2006127446A
JP2006127446A JP2005014033A JP2005014033A JP2006127446A JP 2006127446 A JP2006127446 A JP 2006127446A JP 2005014033 A JP2005014033 A JP 2005014033A JP 2005014033 A JP2005014033 A JP 2005014033A JP 2006127446 A JP2006127446 A JP 2006127446A
Authority
JP
Japan
Prior art keywords
feature
image processing
feature amount
learning
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005014033A
Other languages
English (en)
Inventor
Hitoshi Ito
仁志 伊藤
Fumihiro Hasegawa
史裕 長谷川
Toshio Miyazawa
利夫 宮澤
Makoto Ishii
信 石井
Shigemasa Oba
成征 大羽
Takeshi Ogura
武 小倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2005014033A priority Critical patent/JP2006127446A/ja
Publication of JP2006127446A publication Critical patent/JP2006127446A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】文字や文字以外の画像等が混在するカラー画像あるいはグレースケールの画像を複数のクラスに高精度に判別できる画像処理装置を提供する。
【解決手段】この画像処理装置は、学習データに基づいて学習した判別器によって画像情報を判別する画像処理装置であって、画像情報から特徴量を抽出する特徴量抽出手段と、前記特徴量抽出手段により抽出された特徴量の組み合わせになる特徴を計算する特徴計算手段と、前記特徴計算手段で計算された特徴量と前記特徴量抽出手段で抽出された特徴量とにより判別器の学習を行う学習手段と、前記学習手段で学習した判別器へ教師データを適用して判別結果と外部から与えられる理想的な判別結果とを照合する照合手段と、前記照合手段における照合結果に基づき、前記特徴計算手段における特徴量の組み合わせ方法を変更する最適化手段とを有している。
【選択図】図4

Description

本発明は、画像処理装置、画像処理方法、プログラムおよび記録媒体に関し、特に、文字や写真が混在するカラーあるいはモノクロの画像を複数のクラスに判別することにより、文字判別、物体判別あるいは領域判別などに応用できる判別技術に関する。
画像処理では、従来より文字・文書画像の認識処理が行われている。この認識処理を行う際に、処理対象画像の一部に存在する文字・文書画像が占める文字領域の正しい位置情報を取得することは、高い認識精度を得るために不可欠である。
例えば、画像中の文字領域以外の領域に対して文字認識処理を行った場合、不要な処理を行うため時間がかかるだけでなく、文字の存在しない領域に無理に文字認識を実行した結果として、大量にエラーが出力されることになる。
このため、特許文献1に記載の技術では、入力された画像を縮小して黒画素の連結成分の外接矩形を得て、その外接矩形を元に、文字、表、図、その他等に分類し、その中から文字要素を取り出し統合して行を生成し、生成した行を統合して文字領域を取得する。さらにこの例では、文字領域から段組情報を抽出し、抽出段の位置を参照して過剰に統合された文字領域を修正するようにしている。
一方、近年カラープリンタなどの普及に伴い、カラー原稿をもとに文字認識を行うことが増えてきている。このようなカラー原稿をもとにした場合、カラー画像を二値画像に変換なければ上記の特許文献1の技術を適用することができない。
これを解消し、文字や写真が混在するカラー画像から文字領域を抽出する技術として、特許文献2、非特許文献1や非特許文献2がある。
特許文献2に記載の技術では、原画像から圧縮画像を生成し、同色とみなせる画素をランとして抽出し、それらの連結成分を色ごとに求め、得た連結成分を文字候補とみなして近接する連結成分同士を統合して文字行を生成し、その後抽出された文字行から、過抽出部分を排除して文字行を出力するもので、背景という概念を入れることなく文字領域の情報を取得可能としたものである。これにより、直接カラー画像の画素情報を用いることで、より精度のよい文字領域抽出を行うことを可能とし、背景色が連続的に変化している場合でも対処できるようにした。
非特許文献1では、文字は色とサイズが同じであるという事前知識のもとで、カラー空間内でのクラスタを頼りに高精度に文字列抽出を行っている。また、同様に非特許文献2でも雑誌の表紙などのカラー画像から文字領域を抽出している。
特開2000−67158号公報 特開2002−288589号公報 H.Kasuga, M.Okamoto and H.Yamamoto,「Extraction of characters from color documents」, Proceedings of the SPIE-The International Society for Optical Engineering, V 3967, pp.278-285, 2000. H.Hase, T.Shinokawa, M.Yoneda, C.Y.Suen, 「Character string extraction from color documents」, Pattern Recognition 34, pp.1349-1365, 2001.
しかしながら、特許文献2に記載の技術は、背景という概念がなく、文字だけでなく文字に似た並びをもつ文字以外の画素の塊が、背景であっても文字と重なって抽出されることがある。
また、非特許文献1では、どのクラスタが文字列であるかまでは認識しておらず、扱っている画像がポスターカードのような小さなものであり、文字と背景とがはっきり区別されているような比較的単純な画像についての領域判別であった。
非特許文献2では、文字列と文字ではない背景のノイズを十分に分類するには至っていない。
本発明は、上述した実情を考慮してなされたものであって、文字や文字以外の画像等が混在するカラー画像あるいはグレースケールの画像を複数のクラスに高精度に判別できる画像処理装置、画像処理方法、画像処理装置の機能を実行するためプログラム、およびそのプログラムを記録したコンピュータ読み取り可能な記録媒体を提供することを目的とする。
上記の課題を解決するために、請求項1に記載の発明は、学習データに基づいて学習した判別器によって画像情報を判別する画像処理装置において、画像情報から特徴量を抽出する特徴量抽出手段と、前記特徴量抽出手段により抽出された特徴量の組み合わせになる特徴を計算する特徴計算手段と、前記特徴計算手段で計算された特徴量と前記特徴量抽出手段で抽出された特徴量とにより判別器の学習を行う学習手段と、前記学習手段で学習した判別器へ教師データを適用して判別結果と外部から与えられる理想的な判別結果とを照合する照合手段と、前記照合手段における照合結果に基づき、前記特徴計算手段における特徴量の組み合わせ方法を変更する最適化手段とを有することを特徴とする。
請求項2に記載の発明は、請求項1に記載の画像処理装置において、前記最適化手段は、前記照合手段における照合結果に基づくクロスバリデーション解析によって、前記特徴計算手段における特徴量の組み合わせ方法を最適に変更することを特徴とする。
請求項3に記載の発明は、学習データに基づいて学習した判別器によって画像情報を判別する画像処理装置において、画像情報から特徴量を抽出する特徴量抽出手段と、前記特徴量抽出手段により抽出された複数の画像の特徴量から射影軸を求め、該射影軸によって該特徴量をカーネル特徴量へ変換する特徴変換手段と、前記特徴変換手段により変換されたカーネル特徴に基づいて画像情報をカテゴリに分類する分類手段と、前記分類手段により分類されたカテゴリごとに画像を判別する判別器を学習するカテゴリ別学習手段とを有することを特徴とする。
請求項4に記載の発明は、請求項1、2または3に記載の画像処理装置において、前記特徴量は、画像中の行候補から取得することを特徴とする。
請求項5に記載の発明は、請求項4に記載の画像処理装置において、前記行候補は、類似色が連続した画素を連結成分とし、該連結成分の外接矩形を統合して求めることを特徴とする。
請求項6に記載の発明は、請求項5に記載の画像処理装置において、前記連結成分に関わる特徴を前記特徴量とすることを特徴とする。
請求項7に記載の発明は、請求項4または6に記載の画像処理装置において、取得した特徴量のモーメントを前記特徴量とすることを特徴とする。
請求項8に記載の発明は、請求項5に記載の画像処理装置において、前記行候補は、前記連結成分の近傍にある他の連結成分との色の相違度が小さい場合に、両者を同じ行候補に属するとみなして統合することを特徴とする。
請求項9に記載の発明は、請求項8に記載の画像処理装置において、前記近傍にある他の連結成分を統合する場合、行方向を縦または横方向に仮定し、該行方向に存在する連結成分のみを、統合の対象とみなすようにしたことを特徴とする。
請求項10に記載の発明は、請求項8または9に記載の画像処理装置において、前記色の相違度は、連結成分を構成する画素の平均色を用いて算出することを特徴とする。
請求項11に記載の発明は、請求項4に記載の画像処理装置において、前記行候補は明度の近い連続した画素を連結成分として抽出することを特徴とする。
請求項12に記載の発明は、請求項11に記載の画像処理装置において、前記行候補は、前記連結成分の近傍にある他の連結成分の明度の差が小さい場合に、両者を同じ行候補に属するとみなして統合することを特徴とする。
請求項13に記載の発明は、請求項12に記載の画像処理装置において、前記近傍にある他の連結成分を統合する場合、行方向を縦または横方向に仮定し、該行方向に存在する連結成分のみを、統合の対象とみなすようにしたことを特徴とする。
請求項14に記載の発明は、請求項12または13に記載の画像処理装置において、前記明度の差は、連結成分を構成する画素の平均明度を用いて算出することを特徴とする。
請求項15に記載の発明は、請求項1乃至14のいずれかに記載の画像処理装置において、前記特徴量抽出手段は、解像度の低い画像を生成してから、該解像度の低い画像から特徴量を抽出するようにしたことを特徴とする。
請求項16に記載の発明は、学習データに基づいて学習した判別器によって画像情報を判別する画像処理方法において、画像情報から特徴量を抽出する特徴量抽出工程と、前記特徴量抽出工程により抽出された特徴量の組み合わせになる特徴を計算する特徴計算工程と、前記特徴計算工程で計算された特徴量と前記特徴量抽出工程で抽出された特徴量とにより判別器の学習を行う学習工程と、前記学習工程で学習した判別器へ教師データを適用して判別結果と外部から与えられる理想的な判別結果とを照合する照合工程と、前記照合工程における照合結果に基づき、前記特徴計算工程における特徴量の組み合わせ方法を変更する最適化工程とを有することを特徴とする。
請求項17に記載の発明は、学習データに基づいて学習した判別器によって画像情報を判別する画像処理方法において、画像情報から特徴量を抽出する特徴量抽出工程と、前記特徴量抽出工程により抽出された複数の画像の特徴量から射影軸を求め、該射影軸によって該特徴量をカーネル特徴量へ変換する特徴変換工程段と、前記特徴変換工程により変換されたカーネル特徴に基づいて画像情報をカテゴリに分類する分類工程と、前記分類工程により分類されたカテゴリごとに画像を判別する判別器を学習するカテゴリ別学習工程とを有することを特徴とする。
請求項18に記載の発明は、コンピュータに、請求項1乃至15のいずれかに記載の画像処理装置の機能を実行させるためのプログラムである。
請求項19に記載の発明は、請求項18に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体である。
本発明によれば、文字や文字以外の画像等が混在するカラー画像あるいはグレースケールの画像を複数のクラスに高精度に判別することができる。
以下、図面を参照して本発明の画像処理装置に係る好適な実施形態について説明する。
本発明の画像処理装置は、学習データを使って判別器の判別精度を高める学習部分と、この判別器を使って入力画像を判別する判別部分とがある。以下、これらの学習部分と判別部分を順に詳細に説明する。
<実施形態1>
本実施形態1では、判別器の学習のために、学習データおよび教師データをユーザが用意するものである。
(A)学習部分
図1は、本実施形態1における学習部分の機能構成を示すブロック図である。同図において学習部分は、特徴量抽出手段10、特徴計算手段20、学習手段30、照合手段40、最適化手段50および学習データ記憶手段11、教師データ記憶手段12、特徴量記憶手段13、判別器データ記憶手段14とから構成される。
学習データ記憶手段11および教師データ記憶手段12は、判別器の学習に用いる画像データとその判別結果の正解とを組として複数個格納しておく。
特徴量抽出手段10は、学習データ記憶手段11から1つずつ画像データを取り出し、その画像から特徴量を抽出して、画像データと対応させて特徴量記憶手段13へ記憶する。
ここで抽出される特徴量は、画像の色や大きさ、色数など一般的な画像処理で使われる特徴量を使用すれば良い。また、抽出する特徴量は複数個抽出することが望ましい。
さらに、特徴量抽出手段10は、同様に、教師データ記憶手段12から1つずつ画像データを取り出し、その画像から特徴量を抽出して、画像データと対応させて特徴量記憶手段13へ記憶する。ここで、特徴量記憶手段13に記憶される画像ごとの特徴量は、学習データと教師データとの区別もつけておく。
さらに、画像データを低解像度の画像データへ変換してから特徴量を抽出するようにすると、特徴量抽出にかかる処理時間を減らすことができ、ある色が細かい点(各色成分ドット)の集合で表現され、特徴量抽出時のノイズとなりやすい網点部分の悪影響も軽減することができる。
特徴計算手段20は、特徴量記憶手段13に記憶された学習データから抽出された特徴量を画像ごとに取り出し、例えば、各特徴量に重み付けして総和することによって組み合わせ、新しい特徴量を算出し、当該画像データに対応付けて特徴量記憶手段13へ格納する。
さらに、特徴計算手段20は、同様に、特徴量記憶手段13に記憶された教師データから抽出された特徴量を画像ごとに取り出し、例えば、各特徴量に重み付けして総和することによって組み合わせ、新しい特徴量を算出し、当該画像データに対応付けて特徴量記憶手段13へ格納する。
学習手段30は、特徴量記憶手段13に記憶された学習データから抽出された特徴量と組み合わせて作られた特徴量を画像ごとに取り出して判別器の学習を行う。この判別器には、例えば、多層ニューラルネットワークやサポートベクトルマシンなどを使う。
1つの画像に対する学習が完了すると、判別器の各種パラメータを一時的に記憶しておき、次の学習データによって学習する判別器のパラメータとして用いる。
照合手段40は、特徴量記憶手段13に記憶された教師データから抽出された特徴量と、組み合わせて作られた新しい特徴量とを画像ごとに取り出して、学習手段30で学習された判別器に適用する。その判別結果と与えられた正解とが一致するかをカウントしておき正解率を求め、組み合わせ方法、判別器の各種パラメータおよび正解率を対応付けて一時的に記憶させる。
最適化手段50は、特徴計算手段20で特徴量の組み合わせ方法を適当に変更して、照合結果の一番良いものを選ぶ。例えば、組み合わせ方法に重み付け総和を用いる場合は、重みの値をランダムに再設定し、学習データ記憶手段11から抽出した特徴量にその重みの値よる総和を求め、判別器を再度学習させ、教師データ記憶手段12を判別器に適用して正解率を出す。
最適化手段50は、この操作を所定回数繰り返し、最も高い正解率を出した組み合わせ方法(例えば、重み値を最終的な重み)とそのときの判別器を採用し、判別器データ記憶手段14へ組み合わせ方法と判別器の各種パラメータを記憶させる。
次に、本実施形態1における学習部分の処理の流れを図2のフローチャートを用いて説明する。
学習データ記憶手段11から1つずつ画像データを取り出し、その画像から特徴量を抽出して、画像データと対応させて特徴量記憶手段13へ記憶し、同様に、教師データ記憶手段12から1つずつ画像データを取り出し、その画像から特徴量を抽出して、画像データと対応させて特徴量記憶手段13へ記憶する(ステップS1)。ここで抽出される特徴量は、画像の色や大きさ、色数など一般的な画像処理で使われる特徴量を使用すれば良い。
特徴量記憶手段13に記憶された学習データおよび教師データから抽出された特徴量を画像ごとに取り出し、例えば、各特徴量に重み付けして総和することによって組み合わせ、新しい特徴量を算出し、当該画像データに対応付けて特徴量記憶手段13へ格納する(ステップS2)。
特徴量記憶手段13に記憶された学習データから抽出された特徴量と組み合わせて作られた特徴量を画像ごとに取り出して判別器の学習を行う(ステップS3)。この判別器には、例えば、多層ニューラルネットワークやサポートベクトルマシンなどを使う。
特徴量記憶手段13に記憶された教師データから抽出された特徴量と組み合わせて作られた特徴量とを画像ごとに取り出して、学習された判別器に適用し、その判別結果と正解とが一致するかをカウントし、すべての教師データに対して判別器を適用した後、正解率を求め、組み合わせ方法、判別器の各種パラメータおよび正解率を対応付けて一時的に記憶させる(ステップS4)。
判定器の学習が所定回数行われていない場合(ステップS5のNO)、特徴量の組み合わせ方法を変更して(ステップS6)、この組み合わせ方法で再度判定器を学習させるためにステップS2へ戻る。ここで、組み合わせ方法に重み付け総和を用いる場合は、重みの値をランダムに再設定するようにする。
一方、判定器の学習が所定回数行われている場合(ステップS5のYES)、照合結果の一番良いものを選び、このときの組み合わせ方法と判別器とを判別器データ記憶手段14へ記憶させて(ステップS7)、処理を終了する。ここで、組み合わせ方法に重み付け総和を用いる場合は、最も高い正解率を出した重みと判別器の各種パラメータを記憶させる。
(B)判別部分
図3は、本実施形態1における判別部分の機能構成を示すブロック図である。同図において、判別部分は、特徴量抽出手段10、特徴計算手段20、判別手段60および判別器データ記憶手段14とから構成される。図1と同じ機能については、同じ符号を付し説明を省略する。
特徴量抽出手段10は、入力された画像データから特徴量を抽出する。ここで抽出される特徴量は、前記同様に、画像の色や大きさ、色数など一般的な画像処理で使われる特徴量を使用すれば良い。また、判別器を学習させた際、低解像度へ変換してから特徴量を抽出した場合には、ここでも画像データを低解像度の画像データへ変換してから特徴量を抽出するようにする。
特徴計算手段20は、判別器データ記憶手段14に記憶されている組み合わせ方法により、特徴量を組み合わせて新しい特徴量を算出する。組み合わせ方法が特徴量の重み付け総和であれば、判別器データ記憶手段14に記憶されている重みを取り出して特徴量の総和を計算する。
判別手段60は、判別器データ記憶手段14に記憶されている判別器に、特徴量とその特徴量を組み合わした特徴量とを適用して判別結果を出力する。
以上のように実施形態1を構成することにより、特徴量を組み合わせて新たな特徴を作り、その組み合わせ方法を教師あり学習によって最適に更新することによって判別精度を向上させることができる。
<実施形態2>
本実施形態2は、上記の実施形態1をクロスバリデーションで行うようにしたものであり、画像データの集合を分割し、学習データと教師データに分け、この分割の仕方を変更して、学習を繰り返して、最適な判別器を得るようにする。
(A)学習部分
図4は、本実施形態2における学習部分の機能構成を示すブロック図である。同図において、学習部分は、特徴量抽出手段10、特徴計算手段20、学習手段30、照合手段40、最適化手段50、分割手段70および画像データ記憶手段15、分割テーブル16とから構成される。図1と同じ機能については、同じ符号を付し説明を省略する。
画像データ記憶手段15は、学習データ及び教師データとなる複数の画像データを記憶しており、データ項目(ファイルID、ファイル名、画像データ、正解値、特徴量、特徴量を組み合わせて生成される新しい特徴量)からなる(図5参照)。
分割手段70は、各グループに含まれる画像データ数はほぼ同数となるように、画像データ記憶手段15に記憶された画像データを所定の数(例えば、3グループ)のグループに分割してグループテーブル161へ記憶し、これらのグループを学習データと教師データとなるように組み合わせを生成して学習データ集合テーブル162へ記憶する。
例えば、グループ数を3とすれば、学習データへのグループの割り当ては、(グループ1)、(グループ2)、(グループ3)、(グループ1とグループ2)、(グループ1とグループ3)、(グループ2とグループ3)の6通りの組み合わせが考えられる。
グループテーブル161は、グループごとに、グループIDとこのグループに属する画像データのファイルIDのリストを記憶するテーブルである(図6参照)。
また、学習データ集合テーブル162は、各グループを学習データと教師データとに分割したときの組み合わせと学習結果を記憶するテーブルである(図7参照)。
この学習データ集合テーブル162は、組み合わせID、学習データに属するグループIDのリスト、教師データに属するグループIDのリスト、および学習結果である、特徴量の組み合わせ方法、判別器の各種パラメータおよび教師データによる正解回数と教師データ数とからなっている。
グループファイル対応テーブル161および学習データ集合テーブル162は、分割テーブル16として、メモリやハードディスク等の記憶装置へ一時的に記録される。
特徴量抽出手段10は、画像データ記憶手段15に記憶されたすべての画像データについて特徴量を抽出し、当該画像データに対応させて画像データ記憶手段15を更新する。この特徴量としては、実施形態1と同様にして、例えば、一般的な画像処理で使われる画像の色や大きさ、色数などが抽出される。また、画像データを低解像度の画像データへ変換してから特徴量を抽出するようにしてもよい。
最適化手段50は、学習データ集合テーブル162に記憶された学習データのうち処理されていない集合を探し、その集合(以下、集合Aという)に対して、特徴量の組み合わせ方法、正解回数と教師データ数を初期化する。
例えば、特徴量の組み合わせ方法を、実施形態1で説明した特徴量の重み付け総和を使用する場合には、この重み値の初期値を設定する。
特徴計算手段20は、画像データ記憶手段15に記憶されたすべての画像データについて特徴量を、集合Aに指定されている組み合わせ方法で組み合わせ、新しい特徴量として当該画像データに対応させて画像データ記憶手段15を更新する。
学習手段30は、学習データ集合テーブル162を参照して、集合Aに属する学習データのグループIDを取り出し、グループテーブル161を参照してこのグループIDに属する画像データを特定する(以下、画像データBという)。
次に、画像データ記憶手段15を参照して、画像データBに対応する特徴量と新しい特徴量を使って判別器の学習を行う。この判別器には、例えば、多層ニューラルネットワークやサポートベクトルマシンなどを使う。
1つの画像データBに対して学習が完了すると、学習した判別器の各種パラメータを集合Aに対応させて学習データ集合テーブル162へ記憶しておく。
集合Aに属する他のすべての学習データを使って、さらに判別器を学習させる。
照合手段40は、学習データ集合テーブル162を参照して、集合Aに属する教師データのグループIDを取り出し、グループテーブル161を参照してこのグループIDに属する画像データを特定する(以下、画像データCという)。
次に、画像データ記憶手段15を参照して、画像データCに対応する特徴量と新しい特徴量を、集合Aに対応する判別器に適用する。その判別結果と正解とが一致する場合には、正解数をカウントするとともに、教師データの個数を1つカウントアップする。
これらの操作が終わると、再び、最適化手段50が起動され、学習データ集合テーブル162に登録されている学習データの組み合わせをすべて処理したかを確かめる。
最適化手段50は、処理されていない組み合わせが見つかると、この見つかった組み合わせを上述の集合Aとみなして、特徴量の組み合わせ方法を適当に変更し、判別器や正解回数、教師データの個数の初期化して、判別器を新たに学習させる。例えば、組み合わせ方法に重み付け総和を用いる場合は、重みの値をランダムに再設定することによって組み合わせ方法を変更する。
また、最適化手段50は、学習データのすべての組み合わせを処理した場合には、学習データ集合テーブル162に登録されているすべてに対して、正解率=(正解回数/教師データの個数)を求め、最も高い正解率を出した組み合わせ方法とそのときの判別器を採用して、この採用された組み合わせ方法と判別器の各種パラメータを判別器データ記憶手段14へ記憶させる。
次に、本実施形態2における学習部分の処理の流れを図8のフローチャートを用いて説明する。
まず、画像データ記憶手段15に記憶された画像データを各グループに含まれる画像データ数がほぼ同数となるように、所定の数のグループに分割してグループテーブル161(図6参照)へ記憶し、これらのグループを学習データと教師データとなるように組み合わせを生成して学習データ集合テーブル162(図7参照)へ記憶する(ステップS10)。
画像データ記憶手段15に記憶されたすべての画像データについて特徴量(例えば、画像の色や大きさ、色数など)を抽出し、当該画像データに対応させて画像データ記憶手段15を更新する。
学習データ集合テーブル162に記憶された学習データのうち処理されていない集合(以下、集合Aという)を探し(ステップS12)、まだ処理されていない集合Aがある場合(ステップS13のNO)、その集合に対して、特徴量の組み合わせ方法、正解回数と教師データ数を初期化する(ステップS14)。
画像データ記憶手段15に記憶されたすべての画像データについて特徴量を、集合Aに指定されている組み合わせ方法で組み合わせ、新しい特徴量として当該画像データに対応させて画像データ記憶手段15を更新する(ステップS15)。
学習データ集合テーブル162とグループテーブル161を参照して、集合Aに属する学習データに対応する特徴量と新しい特徴量を使って判別器を学習し、学習した判別器の各種パラメータを集合Aに対応させて学習データ集合テーブル162へ記憶しておく(ステップS16)。
学習データ集合テーブル162とグループテーブル161を参照して、集合Aに属する教師データに対応する特徴量と新しい特徴量を、集合Aに対応する判別器に適用し、その判別結果と正解とが一致する場合には、正解数をカウントするとともに、教師データの個数を1つカウントアップする(ステップS17)。
これらの操作が終わると、学習データ集合テーブル162に登録されている学習データの組み合わせをすべて処理したかを確かめ、処理されていない組み合わせが見つかると(ステップS13のNO)、この見つかった組み合わせを上述の集合Aとみなして、特徴量の組み合わせ方法を適当に変更し、判別器や正解回数、教師データの個数の初期化して(ステップS14)、判別器を新たに学習させて、教師データによって正解回数を算出する(ステップS15〜S17)ことを繰り返す。
一方、学習データのすべての組み合わせを処理した場合には(ステップS13のYES)、学習データ集合テーブル162に登録されているすべてに対して、正解率=(正解回数/教師データの個数)を求め、最も高い正解率を出した組み合わせ方法とそのときの判別器を採用して、この採用された組み合わせ方法と判別器の各種パラメータを判別器データ記憶手段14へ記憶させ(ステップS18)、学習部分の処理を終了する。
(B)判別部分
本実施形態における判別部分は、実施形態1と同様に構成されるので説明を省略する。
以上のように実施形態2を構成することによって、特徴量を組み合わせて新たな特徴を作り、その組み合わせ方法を教師あり学習によって最適に更新することによって判別精度を向上させることができる。この際、学習データと教師データをクロスバリデーションによって最適な組み合わせで選択し、偏りの無い学習データを使用できるので、より判別精度を向上させることができる。
<実施形態3>
次に、本実施形態3では、画像データから抽出した文字行候補が本当に文字行か否かを精度よく判別することに上記の実施形態1および2を利用することを考える。
このためには、判別器の学習のための学習データを次の2つの方法のいずれかによって作成する。
(1)第1の方法
文字行を構成する画像データおよびそれ以外の画像データを用意する。これらの画像データには、その画像データが文字行であるかまたはそれ以外であるかの区別をつけたものとする。
実施形態1では、これらの画像データをユーザが学習データと教師データに分けて与え、また、実施形態2では、これらの画像データをそのまま与えればよい。
さらに、与えられた画像データから文字行候補抽出処理(後述)を行い、その抽出した文字行候補の画像から特徴量を抽出して各実施形態に適用する。
(2)第2の方法
1枚の画像データに複数の文字行候補がある場合には、文字行候補抽出処理を行って抽出された文字行候補領域に対してユーザが文字行であるか否かを指示し、この指示と文字行候補領域の画像データとを対として記録しておく。
この操作を複数枚の画像データに適用することによって、判別器の学習データを作成し、この学習データをユーザあるいはクロスバリデーション手法によって、学習データと教師データへ分割して各実施形態に適用する。
また、判別器を利用するときには、入力された画像データ中から文字行候補を抽出し、この文字行候補の画像に対して特徴量およびその特徴量を組み合わせた新しい特徴量を判別器へ適用して判別するようにする。
次に、文字行候補抽出処理について説明する。
文字行候補の抽出は、公知の技術(例えば、特開2003−208568号公報)を適用することができる。
例えば、水平方向に隣接する画素の色が互いに近い場合にそれらを処理単位としてまとめてランを生成し、これらのランを対象として垂直方向に接するもの同士の色を比較し、色が近ければ連結成分として統合し、この統合された文字の連結成分の外接矩形を生成する。このようにすれば、文字候補となる一かたまりの画素が一つの外接矩形として抽出できる。ここで、色が近いことを判定する方法には様々な手法を採用することができるが、例えば画素値の各色成分(RGBなど)の差の2乗和などを計算し、これを画素間の色相違度とみなして、この値が実験値等を基に予め定めておいた値よりも小さい場合に近いと判断する。
次に、隣接する外接矩形の色類似性の判定および矩形間の距離を判定することにより、隣接する外接矩形を統合する。この判定を繰り返すことにより得た統合された外接矩形を文字行候補として抽出する。
ここで、色類似性の判定では、外接矩形に含まれる画素の色の平均値あるいは代表色の差が所定の値より小さい時には類似であると判定する。これにより、文字行を構成する画素の色むらに影響されることを抑制しながら、文字行候補の統合精度を向上させることができる。
また、上記の外接矩形の統合処理では文字行の方向(縦書きの文章なのか横書きの文章なのか)による制限を設けるようにしてもよい。例えば、前処理として、画像データの全体を上記のような外接矩形の統合処理を行って文字行候補群を生成し、これらの文字行候補がどの方向へ伸びているかを多数決で決定し、決定された文字行の方向に限定して、外接矩形の統合を行うようにする。
これにより、前処理によって行方向を縦または横に限定することができるので、文字行かそれ以外かの判別精度を向上させることができる。
さらに、上記の外接矩形の統合の際、矩形内の明度による類似性によって統合するようにしてもよい。この場合には、グレースケールの画像に対しても文字行候補を有効に抽出することが可能となる。
なお、特徴量として外接矩形を用いても良い。この場合は、外接矩形の幅や高さを特徴量として直接用いたり、この特徴量から計算されたモーメントを新たな特徴量としたりしてもよい。また、行内に存在する連結成分一つ一つの幅や高さなどの特徴量を求め、行内すべての連結成分の特徴量でモーメントを計算し、新たな特徴量としてもよい。
一般に、平均μのまわりのn次モーメントM(n)は、次の式1で計算できる。
ここで、xは特徴量、nはモーメントの次数、E()は平均を表す記号、μは特徴量xの平均値である。
<実施形態4>
本実施形態4は、学習データを予めクラスタリングしておき、このクラスタごとに学習して最適な判別器を得るようにする。
(A)学習部分
図9は、本実施形態4における学習部分の機能構成を示すブロック図である。同図において学習部分は、特徴量抽出手段10、変換軸導出手段80、特徴変換手段90、分類手段100、クラスタ別学習手段110および画像データ記憶手段15、クラスタ別判別器データ記憶手段18とから構成される。図1および図4と同じ機能については、同じ符号を付し説明を省略する。
画像データ記憶手段15は、学習データとなる複数の画像データを記憶しており、データ項目(ファイルID、ファイル名、画像データ、正解値、特徴量、変換特徴量、クラス)からなる(図10参照)。
特徴量抽出手段10は、画像データ記憶手段15に記憶されたすべての画像データについて特徴量を抽出し、当該画像データに対応させて画像データ記憶手段15を更新する。この特徴量としては、上記各実施形態と同様にして、例えば、一般的な画像処理で使われる画像の色や大きさ、色数などが抽出される。また、画像データを低解像度の画像データへ変換してから特徴量を抽出することによって、処理時間と網点によるノイズを軽減することができる。
この特徴量として、実施形態3で述べたような文字行候補から抽出した特徴量を用いることによって、文字行とそれ以外の判別精度は、より向上することが見込める。
変換軸導出手段80は、画像データ記憶手段15に記憶されたすべての画像に対する、特徴量に対してカーネル主成分分析を行って、射影軸を求める。このカーネル主成分分析は、非線形写像した高次元特徴空間の主成分軸を効果的に計算する手法で、公知の技術(例えば、Bernhard Scholkopf, Alexander Smola, Klaus-Robert Muller著, 「Nonlinear Component Analysis as a Kernel Eigenvalue Problem」, Neural Computation, 10, pp.1299-1319, 1998)を用いることができる。このカーネル主成分分析に用いるカーネルとしては、多項式カーネル(Polynomial Kernel)やガウシアン・カーネル(Gaussian Kernel)やシグモイドカーネル(Sigmoid Kernel)などがある。
このカーネル主成分分析には次のようなメリットがある。
・カーネル特徴空間におけるデータの描像を可視化できる。
・カーネル関数の違い(Polynomial KernelやGaussian KernelやSigmoid Kernelなど)やパラメータの値(Polynomial Kernelの次数や、Gaussian Kernelの分散等)によって、表現力に違いがでる。
・特に、次数1のPolynomial Kernelを用いたカーネル主成分分析は、入力空間の線形主成分分析と等しい。
特徴変換手段90は、画像データ記憶手段15に記憶されているすべての画像の特徴量に対して、上記射影軸を適用してカーネル特徴量へ射影し、当該画像データに対応させて画像データ記憶手段15を更新する。
分類手段100は、画像データ記憶手段15に記憶されているすべての画像のカーネル特徴量をクラスタリングし、クラスタを当該画像データに対応させて画像データ記憶手段15を更新する。このクラスタリング手法としては、公知のk-means法やk-nearest neighbor法を用いる。
クラスタ別学習手段110は、画像データ記憶手段15に記憶されている画像データをクラスタごとに取り出して、取り出した画像の特徴量を用いてクラスタ毎に判別器を学習し、クラスタ別判別器データ記憶手段18へ記憶させる。判別器としては多層ニューラルネットワークやサポートベクトルマシンなどが有効である。
また、このクラスタ別判別器データ記憶手段18には、変換軸導出手段80で導出した射影軸も記憶させる。
次に、本実施形態4における学習部分の処理の流れを図11のフローチャートを用いて説明する。
画像データ記憶手段15に記憶されたすべての画像データについて特徴量を抽出し、当該画像データに対応させて画像データ記憶手段15を更新する(ステップS20)。
画像データ記憶手段15に記憶されたすべての画像に対する、特徴量に対してカーネル主成分分析を行って、射影軸を求める(ステップS21)。
画像データ記憶手段15に記憶されているすべての画像の特徴量に対して、上記射影軸を適用してカーネル特徴量へ射影し、当該画像データに対応させて画像データ記憶手段15を更新する(ステップS22)。
画像データ記憶手段15に記憶されているすべての画像のカーネル特徴量を公知のk-means法やk-nearest neighbor法を用いてクラスタリングし、クラスタを当該画像データに対応させて画像データ記憶手段15を更新する(ステップS23)。
画像データ記憶手段15に記憶されている画像データをクラスタごとに取り出して、クラスタ毎に、多層ニューラルネットワークやサポートベクトルマシンなどからなる判別器を学習し、クラスタ別判別器データ記憶手段18へ記憶させるとともに、導出した射影軸も記憶させる(ステップS24)。
(B)判別部分
図12は、本実施形態4における判別部分の機能構成を示すブロック図である。同図において、判別部分は、特徴量抽出手段10、特徴変換手段90、分類手段100、クラスタ別判別手段120およびクラスタ別判別器データ記憶手段18とから構成される。図9と同じ機能については、同じ符号を付し説明を省略する。
特徴量抽出手段10は、入力された画像データから特徴量を抽出する。ここで抽出される特徴量は、前記同様に、画像の色や大きさ、色数など一般的な画像処理で使われる特徴量を使用すれば良い。また、判別器を学習させた際、低解像度へ変換してから特徴量を抽出した場合には、ここでも画像データを低解像度の画像データへ変換してから特徴量を抽出するようにする。
特徴変換手段90は、クラスタ別判別器データ記憶手段18に記憶されている射影軸によって特徴量を射影して、クラスタ特徴量を算出する。
分類手段100は、例えば、公知のk-means法やk-nearest neighbor法を用いて、カーネル特徴量をクラスタリングする。例えば、k−means法を使う場合、学習部分で求めたクラスタ中心との距離を計算し、最も近いクラスタに分類する。
クラスタ別判別手段120は、クラスタ別判別器データ記憶手段18を参照して、分類手段100で分類されたクラスタに対応する判別器にこの画像の特徴量を適用して判別結果を出力する。
次に、本実施形態4における判別部分の処理の流れを図13のフローチャートを用いて説明する。
入力された画像データから特徴量(例えば、画像の色や大きさ、色数など)を抽出する(ステップS30)。
クラスタ別判別器データ記憶手段18に記憶されている射影軸によって特徴量を射影して、クラスタ特徴量を算出する(ステップS31)。
公知のk-means法やk-nearest neighbor法を用いて、カーネル特徴量を最も近いクラスタに分類する(ステップS32)。
クラスタ別判別器データ記憶手段18を参照して、分類手段100で分類されたクラスタに対応する判別器にこの画像の特徴量を適用して判別結果を出力する(ステップS33)。
以上の構成により、非線形空間へ写像した特徴量に対してクラスタリングを行い、クラスタ毎に判別器を生成することによって判別精度を向上させることができる。
<実施形態5>
次に、本実施形態5では、実施形態3で説明したように、画像データから抽出した文字行候補が本当に文字行か否かを精度よく判別することに上記の実施形態4を利用することを考える。
(1)第1の方法
文字行を構成する画像データおよびそれ以外の画像データを用意する。これらの画像データには、その画像データが文字行であるかまたはそれ以外であるかの区別をつけて、学習用の画像データを作成する。
(2)第2の方法
1枚の画像データに複数の文字行候補がある場合には、文字行候補抽出処理を行って抽出された文字行候補の画像に対してユーザが文字行であるか否かを指示し、この指示と文字行候補の画像データとを対として記録しておく。この操作を複数枚の画像データに適用することによって判別器の学習用の画像データが作成される。
実施形態4では、これら(1)または(2)の方法で作成された画像データから文字行候補抽出処理を行い、その抽出した文字行候補の画像領域から特徴量を抽出するようにして、判別器の学習を行わせる。
<実施形態6>
さらに、本発明は上述した実施形態のみに限定されたものではない。上述した実施形態の画像処理装置を構成する各機能をそれぞれプログラム化し、あらかじめCD−ROM等の記録媒体に書き込んでおき、このCD−ROMをCD−ROMドライブのような媒体駆動装置を搭載したコンピュータに装着して、これらのプログラムをコンピュータのメモリあるいは記憶装置に格納して、実行することによって、本発明の目的を達成することができる。
なお、記録媒体としては半導体媒体(例えば、ROM、不揮発性メモリカード等)、光媒体(例えば、DVD、MO、MD、CD−R等)、磁気媒体(例えば、磁気テープ、フレキシブルディスク等)のいずれであってもよい。
また、ロードしたプログラムの指示に基づき、オペレーティングシステムやアプリケーションプログラム等が実際の処理の一部または全部を行い、その処理によって上述した実施形態の機能が実現される場合も含まれる。
また、上述したプログラムをサーバコンピュータの磁気ディスク等の記憶装置に格納しておき、ネットワークで接続された利用者のコンピュータからダウンロードして頒布する場合、また、サーバコンピュータから配信して頒布する場合、このサーバコンピュータの記憶装置も本発明の記録媒体に含まれる。
このように、本発明の機能をプログラムして、記録媒体に記録し頒布することによって、コスト、可搬性、汎用性を向上させることができる。
本実施例は、上述した実施形態を用いて、文字や写真が混在するカラー文書画像から文字行を認識する実験である。
(1)特徴抽出
まず、文字行候補をカラー文書画像から網羅的に抽出する。同色の連結成分を横方向と縦方向に色成分の類似度と位置の近さをもとに次々とグループ化することで、文字行候補が得られる。ここでは文字行候補のうち真に文字行であるものをPositiveと呼び、それ以外をNegativeと呼ぶことにする。文字行候補は予め人間の目で判断しラベルをつけておいた。
また、文字行候補に次に示すような特徴量を割り当てた。
・コントラストにかかわる特微量。
・連結成分の外接矩形内でのスパースネスにかかわる特徴量。
・外接矩形数の数などを元に計算された特徴量。
(2)特徴空間
まず、特徴空間での高次元特徴量の分布を可視化するために主成分分析を行った。PositiveとNegativeからそれぞれ2000サンプルを取り出して、正規化したあと、2通りの方法で主成分分析を試した。
・Positiveのデータだけから主成分を計算し、その結果をもとにPositive,Negative両方のデータを射影する方法。
・Negativeのデータだけから主成分を計算し、その結果をもとにPositive,Negative両方のデータを射影する方法。
それぞれの方法による累積寄与率の増分変化をプロットすると図14に示すような結果となった。
その結果、Positiveデータは第4主成分までで、元の高次元特徴空間を80%程度は説明できることがわかった。その一方Negativeデータは、元の高次元特徴空間を80%程度説明するためには第6主成分まで計算しなくてはならない。これは特徴空間でPositiveデータの分布が比較的少ない主成分で説明することができることを意味しており、多次元方向へのばらつきが比較的小さいことを意味している。
そして、Positiveデータの第1主成分と第2主成分にNegativeデータを射影してみると、PositiveクラスタとNegativeクラスタの分離性を確認することができた(図15参照)。このとき累積寄与率は71.88%である。
次に、Negativeデータの第1主成分と第4主成分にPositiveデータを射影したときの散布図(図16参照)と、第1主成分と第6主成分にPositiveデータを射影したときの散布図(図17参照)を切り出した。その結果、Negativeがいくつかのクラスタを持っていることが確認できた。
このクラスタは大きく3つに分けることができる。元の特徴量のfactor loadingから、これらのクラスタは文字行候補の形(即ち、クラスタ1:横長、クラスタ2:縦長、クラスタ3:正方形)に対応していることがわかった。
高次元特徴空間においては、Positiveは多次元方向にばらつかず比較的低次元で密集するように存在し、Negativeは比較的ばらつきが大きく、そして文字行候補の形によるクラスタ構造をもって存在しているのだということが確認できた。
(3)学習
次に、主成分分析後のPositiveとNegativeのクラスタの分離性を頼りに、いくつかの教師あり学習アルゴリズムを用いて評価を行った。
学習用としてカラー文書画像を208サンプル用意し、Positiveを19588entry、Negativeを72027entry得た。また、教師用としてカラー文書画像を41サンプル用意し、Positiveを2730entry、Negativeを35495entry得た(表1参照)。
また、学習する前に、高次元特徴量はそれぞれ値域の異なる特徴量であるから、特徴の距離を正確に捉えるために、各特徴量の平均が0,分散が1になるように正規化した。
(3−1)多階層パーセプトロン(MLP)
まず、最初に入力層と出力層の他に1層の中間層がある3層パーセプトロンで学習を行った。学習データセット30000(Positive:15000,Negative:15000)に対する10 fold Cross validation法により、3層パーセプトロンのパラメータである隠れノード数は80が最適となった。
学習データセットで学習後、教師用データセットで評価をすると、出力の閾値を0.5とすれば、Positiveは90.77%で認識することができ、全文字行候補(Positive+Negative)に対しては95.60%で認識することができた。
また、閾値を変えてROC(receiver operator characteristics)カーブを描くことにより、Positiveの認識精度を上げようとすればNegativeの認識精度を下げてしまうことになることがわかった(図18参照)。Positiveの認識精度を95%にするためにMLPの出力の閾値を0.1にすると、Negativeの認識精度は87%まで減少してしまう。
(3−2)サポートベクターマシン(SVM)
次に、サポートベクターマシンで学習し、評価を行った。尚、サポートベクターマシンにはCパラメータの代わりにパラメータの値域が0<ν<1で決まるνSVC(Support Vector Classifier)を用いることにした。そしてカーネル関数には次の(式2)で示すPolynomial Kernelを用いた。
Polynomial Kerne1のパラメータdとνSVCのパラメータνは、多層パーセプトロンのとき同様に10 fold Cross validationで決め、d=8,ν=0.12を用いた。
その結果、真に文字行であるデータPositiveに対しては91.81%で認識することができ、全文字行候補(Positive+Negative)に対しては95.49%で認識することができた。
(3−3)Mixture of Experts(MoE)
クラスタ解析により、文字行候補は、横長の文字行候補と縦長の文字行候補、そして1文字しかないような正方形の文字行候補の3つに分けられることがわかった。
MLP、SVMのエラー解析をしたところ、文字行候補が横長のものは正しく認識することができるが、文字行候補が正方形のものは誤って認識してしまうことが多いことがわかった。これは、正方形のものは横長のものよりも文字列であることの事前確率が低くなってしまうために、現在の特徴量では正方形のものは文字列ではないと判断してしまう傾向があるからである。
そこで、特徴空間を分割して攻略するdivide-and-conquerアルゴリズムのひとつであるMoEモデルを採用した。MoEは入力xに対する出力を担当するExpert Networkと、入力xに対して各Expert Networkに適切な重みづけを担当するGating Network、そして各Expert Networkからの出力を結合する結合ノードの3つから構成される(図19)。
すべての学習データセットは、文字行候補の高さ(H)と幅(W)が(1−H/W)<0.1のとき正方形モデルのための学習データセットとし、H/W>1のとき縦長モデルのための学習データセットとし、それ以外であれば横長モデルのための学習データセットとする。
さらに、各文字行候補の形(横長モデル、縦長モデル、正方形モデル)に対して割り当てることのできる、新しい特徴量「外形スコア」を追加した。この「外形スコア」は、外接矩形の高さh,幅をw、文字行候補の高さをH,幅をW,文字連結数をa,外接矩形の面積をAとし、変数v,…,vを次のように定義し、
=h/H,
=h/w,
=w/h,
=w/W,
=a/A,
=A/a
重みパラメータをw,…,wとすると、文字行候補を構成する外接矩形に対して、重み付総和
S=Σv
をもって、文字行候補の特微量とした。
この重みwは、4 fold Cross Validationをしたときの認識精度が最も高くなるようにランダムに決め、各モデル(正方形、横長、縦長)に割り当てられた学習データセットをνSVCで学習した。このときも各モデルの各パラメータ(dとν)は10 fold Cross validationで決めた。
認識するときには、Gating Networkは文字行候補の画像データを文字行候補のいずれかの形(横長、縦長、正方形)に分類し、この文字行候補の形に対応したExpert Networkからの出力を最終的な出力とするようにした。その結果、真に文字列であるデータPositiveに対しては91.6%で認識することができ、全文字行候補(Positive+Negative)に対しては96.46%で認識することができた。
以上により、複雑なカラードキュメントに対して、画像処理と特徴抽出の後にSVMやMoEなどの教師あり学習の手法を用いることによって、高い精度で文字行領域を認識することができるようになった。
実施形態1における学習部分の機能構成を示すブロック図である。 実施形態1における学習部分の処理の流れを示すフローチャートである。 実施形態1における判別部分の機能構成を示すブロック図である。 実施形態2における学習部分の機能構成を示すブロック図である。 実施形態2における画像データ記憶手段のデータ構造例である。 実施形態2におけるグループテーブルのデータ構造例である。 実施形態2における学習データ集合テーブルのデータ構造例である。 実施形態2における学習部分の処理の流れを示すフローチャートである。 実施形態4における学習部分の機能構成を示すブロック図である。 実施形態4における画像データ記憶手段のデータ構造例である。 実施形態4における学習部分の処理の流れを示すフローチャートである。 実施形態4における判別部分の機能構成を示すブロック図である。 実施形態4における判別部分の処理の流れを示すフローチャートである。 2種類の主成分分析の方法別の累積寄与率の増分変化を示すグラフである。 Positiveデータの第1主成分と第2主成分にNegativeデータを射影したときの、PositiveクラスタとNegativeクラスタの分離性を示す散布図である。 Negativeデータの第1主成分と第4主成分にPositiveデータを射影したときの散布図である。 第1主成分と第6主成分にPositiveデータを射影したときの散布図である。 MLPにおいて、閾値と認識精度の関係を示すグラフである。 MoEの構成を説明するための図である。
符号の説明
10…特徴量抽出手段、20…特徴計算手段、30…学習手段、40…照合手段、50…最適化手段、60…判別手段、70…分割手段、11…学習データ記憶手段、12…教師データ記憶手段、13…特徴量記憶手段、14…判別器データ記憶手段、15…画像データ記憶手段、16…分割テーブル、161…グループテーブル、162…学習データ集合テーブル、80…変換軸導出手段、90…特徴変換手段、100…分類手段、110…クラスタ別学習手段、120…クラスタ別判別手段、18…クラスタ別判別器データ記憶手段。

Claims (19)

  1. 学習データに基づいて学習した判別器によって画像情報を判別する画像処理装置において、画像情報から特徴量を抽出する特徴量抽出手段と、前記特徴量抽出手段により抽出された特徴量の組み合わせになる特徴を計算する特徴計算手段と、前記特徴計算手段で計算された特徴量と前記特徴量抽出手段で抽出された特徴量とにより判別器の学習を行う学習手段と、前記学習手段で学習した判別器へ教師データを適用して判別結果と外部から与えられる理想的な判別結果とを照合する照合手段と、前記照合手段における照合結果に基づき、前記特徴計算手段における特徴量の組み合わせ方法を変更する最適化手段とを有することを特徴とする画像処理装置。
  2. 請求項1に記載の画像処理装置において、前記最適化手段は、前記照合手段における照合結果に基づくクロスバリデーション解析によって、前記特徴計算手段における特徴量の組み合わせ方法を最適に変更することを特徴とする画像処理装置。
  3. 学習データに基づいて学習した判別器によって画像情報を判別する画像処理装置において、画像情報から特徴量を抽出する特徴量抽出手段と、前記特徴量抽出手段により抽出された複数の画像の特徴量から射影軸を求め、該射影軸によって該特徴量をカーネル特徴量へ変換する特徴変換手段と、前記特徴変換手段により変換されたカーネル特徴に基づいて画像情報をカテゴリに分類する分類手段と、前記分類手段により分類されたカテゴリごとに画像を判別する判別器を学習するカテゴリ別学習手段とを有することを特徴とする画像処理装置。
  4. 請求項1、2または3に記載の画像処理装置において、前記特徴量は、画像中の行候補から取得することを特徴とする画像処理装置。
  5. 請求項4に記載の画像処理装置において、前記行候補は、類似色が連続した画素を連結成分とし、該連結成分の外接矩形を統合して求めることを特徴とする画像処理装置。
  6. 請求項5に記載の画像処理装置において、前記連結成分に関わる特徴を前記特徴量とすることを特徴とする画像処理装置。
  7. 請求項4または6に記載の画像処理装置において、取得した特徴量のモーメントを前記特徴量とすることを特徴とする画像処理装置。
  8. 請求項5に記載の画像処理装置において、前記行候補は、前記連結成分の近傍にある他の連結成分との色の相違度が小さい場合に、両者を同じ行候補に属するとみなして統合することを特徴とする画像処理装置。
  9. 請求項8に記載の画像処理装置において、前記近傍にある他の連結成分を統合する場合、行方向を縦または横方向に仮定し、該行方向に存在する連結成分のみを、統合の対象とみなすようにしたことを特徴とする画像処理装置。
  10. 請求項8または9に記載の画像処理装置において、前記色の相違度は、連結成分を構成する画素の平均色を用いて算出することを特徴とする画像処理装置。
  11. 請求項4に記載の画像処理装置において、前記行候補は明度の近い連続した画素を連結成分として抽出することを特徴とする画像処理装置。
  12. 請求項11に記載の画像処理装置において、前記行候補は、前記連結成分の近傍にある他の連結成分の明度の差が小さい場合に、両者を同じ行候補に属するとみなして統合することを特徴とする画像処理装置。
  13. 請求項12に記載の画像処理装置において、前記近傍にある他の連結成分を統合する場合、行方向を縦または横方向に仮定し、該行方向に存在する連結成分のみを、統合の対象とみなすようにしたことを特徴とする画像処理装置。
  14. 請求項12または13に記載の画像処理装置において、前記明度の差は、連結成分を構成する画素の平均明度を用いて算出することを特徴とする画像処理装置。
  15. 請求項1乃至14のいずれかに記載の画像処理装置において、前記特徴量抽出手段は、解像度の低い画像を生成してから、該解像度の低い画像から特徴量を抽出するようにしたことを特徴とする画像処理装置。
  16. 学習データに基づいて学習した判別器によって画像情報を判別する画像処理方法において、画像情報から特徴量を抽出する特徴量抽出工程と、前記特徴量抽出工程により抽出された特徴量の組み合わせになる特徴を計算する特徴計算工程と、前記特徴計算工程で計算された特徴量と前記特徴量抽出工程で抽出された特徴量とにより判別器の学習を行う学習工程と、前記学習工程で学習した判別器へ教師データを適用して判別結果と外部から与えられる理想的な判別結果とを照合する照合工程と、前記照合工程における照合結果に基づき、前記特徴計算工程における特徴量の組み合わせ方法を変更する最適化工程とを有することを特徴とする画像処理方法。
  17. 学習データに基づいて学習した判別器によって画像情報を判別する画像処理方法において、画像情報から特徴量を抽出する特徴量抽出工程と、前記特徴量抽出工程により抽出された複数の画像の特徴量から射影軸を求め、該射影軸によって該特徴量をカーネル特徴量へ変換する特徴変換工程段と、前記特徴変換工程により変換されたカーネル特徴に基づいて画像情報をカテゴリに分類する分類工程と、前記分類工程により分類されたカテゴリごとに画像を判別する判別器を学習するカテゴリ別学習工程とを有することを特徴とする画像処理方法。
  18. コンピュータに、請求項1乃至15のいずれかに記載の画像処理装置の機能を実現させるためのプログラム。
  19. 請求項18に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2005014033A 2004-09-29 2005-01-21 画像処理装置、画像処理方法、プログラムおよび記録媒体 Pending JP2006127446A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005014033A JP2006127446A (ja) 2004-09-29 2005-01-21 画像処理装置、画像処理方法、プログラムおよび記録媒体

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004283092 2004-09-29
JP2005014033A JP2006127446A (ja) 2004-09-29 2005-01-21 画像処理装置、画像処理方法、プログラムおよび記録媒体

Publications (1)

Publication Number Publication Date
JP2006127446A true JP2006127446A (ja) 2006-05-18

Family

ID=36722105

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005014033A Pending JP2006127446A (ja) 2004-09-29 2005-01-21 画像処理装置、画像処理方法、プログラムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP2006127446A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010002815A (ja) * 2008-06-23 2010-01-07 Ricoh Co Ltd 状態判別方法、状態判別システム及び画像形成装置
JP2011013720A (ja) * 2009-06-30 2011-01-20 Jfe Steel Corp カテゴリ判定ルールの作成方法、装置およびコンピュータプログラム
JP2011128924A (ja) * 2009-12-18 2011-06-30 Kddi Corp マンガ画像からテキストを抽出するマンガ画像解析装置、プログラム、検索装置及び方法
WO2013001893A1 (ja) 2011-06-28 2013-01-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 主観的な階層クラスタリングにおける特徴量ごとの重みを求める情報処理装置、方法、およびプログラム
US8972407B2 (en) 2007-05-30 2015-03-03 International Business Machines Corporation Information processing method for determining weight of each feature in subjective hierarchical clustering
JP2015060432A (ja) * 2013-09-19 2015-03-30 富士通株式会社 プログラム、コンピュータおよび訓練データ作成支援方法
WO2020202594A1 (en) * 2019-04-04 2020-10-08 Nec Corporation Learning system, method and program
US11430241B2 (en) 2018-01-30 2022-08-30 Mitsubishi Electric Corporation Entry field extraction device and computer readable medium
JP2022144738A (ja) * 2021-03-19 2022-10-03 京セラドキュメントソリューションズ株式会社 情報抽出システムおよび情報抽出プログラム
US12229643B2 (en) 2018-10-05 2025-02-18 Nec Corporation Teaching data extending device, teaching data extending method, and program

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8972407B2 (en) 2007-05-30 2015-03-03 International Business Machines Corporation Information processing method for determining weight of each feature in subjective hierarchical clustering
JP2010002815A (ja) * 2008-06-23 2010-01-07 Ricoh Co Ltd 状態判別方法、状態判別システム及び画像形成装置
JP2011013720A (ja) * 2009-06-30 2011-01-20 Jfe Steel Corp カテゴリ判定ルールの作成方法、装置およびコンピュータプログラム
JP2011128924A (ja) * 2009-12-18 2011-06-30 Kddi Corp マンガ画像からテキストを抽出するマンガ画像解析装置、プログラム、検索装置及び方法
WO2013001893A1 (ja) 2011-06-28 2013-01-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 主観的な階層クラスタリングにおける特徴量ごとの重みを求める情報処理装置、方法、およびプログラム
US8918396B2 (en) 2011-06-28 2014-12-23 International Business Machines Corporation Information processing apparatus, method and program for determining weight of each feature in subjective hierarchical clustering
JP2015060432A (ja) * 2013-09-19 2015-03-30 富士通株式会社 プログラム、コンピュータおよび訓練データ作成支援方法
US11430241B2 (en) 2018-01-30 2022-08-30 Mitsubishi Electric Corporation Entry field extraction device and computer readable medium
US12229643B2 (en) 2018-10-05 2025-02-18 Nec Corporation Teaching data extending device, teaching data extending method, and program
WO2020202594A1 (en) * 2019-04-04 2020-10-08 Nec Corporation Learning system, method and program
JP2022144738A (ja) * 2021-03-19 2022-10-03 京セラドキュメントソリューションズ株式会社 情報抽出システムおよび情報抽出プログラム

Similar Documents

Publication Publication Date Title
JP6781415B2 (ja) ニューラルネットワーク学習装置、方法、プログラム、およびパターン認識装置
US7945101B2 (en) Innovative OCR systems and methods that combine a template based generative model with a discriminative model
US7958070B2 (en) Parameter learning method, parameter learning apparatus, pattern classification method, and pattern classification apparatus
Rivard et al. Multi-feature extraction and selection in writer-independent off-line signature verification
US9002101B2 (en) Recognition device, recognition method, and computer program product
US9953425B2 (en) Learning image categorization using related attributes
US20160035078A1 (en) Image assessment using deep convolutional neural networks
US20150278710A1 (en) Machine learning apparatus, machine learning method, and non-transitory computer-readable recording medium
US20210133439A1 (en) Machine learning prediction and document rendering improvement based on content order
JP2011013732A (ja) 情報処理装置、情報処理方法、およびプログラム
JP4618098B2 (ja) 画像処理システム
Kirchberg et al. Genetic model optimization for Hausdorff distance-based face localization
WO2022035942A1 (en) Systems and methods for machine learning-based document classification
Puspaningrum et al. Waste classification using support vector machine with SIFT-PCA feature extraction
JP4795864B2 (ja) 特徴点検出装置および方法並びにプログラム
KR102286571B1 (ko) 영상에서 다수의 객체를 인식하는 방법
JP2009140369A (ja) 集団学習装置及び集団学習方法、対象物検出装置及び対象物検出方法、並びにコンピュータ・プログラム
Han et al. High-order statistics of microtexton for hep-2 staining pattern classification
Laha et al. Land cover classification using fuzzy rules and aggregation of contextual information through evidence theory
JP5777390B2 (ja) 情報処理方法及び装置、パターン識別方法及び装置
CN112613341A (zh) 训练方法及装置、指纹识别方法及装置、电子设备
JP2006127446A (ja) 画像処理装置、画像処理方法、プログラムおよび記録媒体
Ghadhban et al. Segments interpolation extractor for finding the best fit line in Arabic offline handwriting recognition words
JP2005309920A (ja) 多数決装置及びその学習方法と多クラス識別装置
Xu et al. 3D meta-classification: A meta-learning approach for selecting 3D point-cloud classification algorithm