JP2006127446A

JP2006127446A - 画像処理装置、画像処理方法、プログラムおよび記録媒体

Info

Publication number: JP2006127446A
Application number: JP2005014033A
Authority: JP
Inventors: Hitoshi Ito; 仁志伊藤; Fumihiro Hasegawa; 史裕長谷川; Toshio Miyazawa; 利夫宮澤; Makoto Ishii; 信石井; Shigemasa Oba; 成征大羽; Takeshi Ogura; 武小倉
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2004-09-29
Filing date: 2005-01-21
Publication date: 2006-05-18

Abstract

【課題】文字や文字以外の画像等が混在するカラー画像あるいはグレースケールの画像を複数のクラスに高精度に判別できる画像処理装置を提供する。
【解決手段】この画像処理装置は、学習データに基づいて学習した判別器によって画像情報を判別する画像処理装置であって、画像情報から特徴量を抽出する特徴量抽出手段と、前記特徴量抽出手段により抽出された特徴量の組み合わせになる特徴を計算する特徴計算手段と、前記特徴計算手段で計算された特徴量と前記特徴量抽出手段で抽出された特徴量とにより判別器の学習を行う学習手段と、前記学習手段で学習した判別器へ教師データを適用して判別結果と外部から与えられる理想的な判別結果とを照合する照合手段と、前記照合手段における照合結果に基づき、前記特徴計算手段における特徴量の組み合わせ方法を変更する最適化手段とを有している。
【選択図】図４

Description

本発明は、画像処理装置、画像処理方法、プログラムおよび記録媒体に関し、特に、文字や写真が混在するカラーあるいはモノクロの画像を複数のクラスに判別することにより、文字判別、物体判別あるいは領域判別などに応用できる判別技術に関する。

画像処理では、従来より文字・文書画像の認識処理が行われている。この認識処理を行う際に、処理対象画像の一部に存在する文字・文書画像が占める文字領域の正しい位置情報を取得することは、高い認識精度を得るために不可欠である。
例えば、画像中の文字領域以外の領域に対して文字認識処理を行った場合、不要な処理を行うため時間がかかるだけでなく、文字の存在しない領域に無理に文字認識を実行した結果として、大量にエラーが出力されることになる。

このため、特許文献１に記載の技術では、入力された画像を縮小して黒画素の連結成分の外接矩形を得て、その外接矩形を元に、文字、表、図、その他等に分類し、その中から文字要素を取り出し統合して行を生成し、生成した行を統合して文字領域を取得する。さらにこの例では、文字領域から段組情報を抽出し、抽出段の位置を参照して過剰に統合された文字領域を修正するようにしている。

一方、近年カラープリンタなどの普及に伴い、カラー原稿をもとに文字認識を行うことが増えてきている。このようなカラー原稿をもとにした場合、カラー画像を二値画像に変換なければ上記の特許文献１の技術を適用することができない。
これを解消し、文字や写真が混在するカラー画像から文字領域を抽出する技術として、特許文献２、非特許文献１や非特許文献２がある。

特許文献２に記載の技術では、原画像から圧縮画像を生成し、同色とみなせる画素をランとして抽出し、それらの連結成分を色ごとに求め、得た連結成分を文字候補とみなして近接する連結成分同士を統合して文字行を生成し、その後抽出された文字行から、過抽出部分を排除して文字行を出力するもので、背景という概念を入れることなく文字領域の情報を取得可能としたものである。これにより、直接カラー画像の画素情報を用いることで、より精度のよい文字領域抽出を行うことを可能とし、背景色が連続的に変化している場合でも対処できるようにした。

非特許文献１では、文字は色とサイズが同じであるという事前知識のもとで、カラー空間内でのクラスタを頼りに高精度に文字列抽出を行っている。また、同様に非特許文献２でも雑誌の表紙などのカラー画像から文字領域を抽出している。
特開２０００−６７１５８号公報特開２００２−２８８５８９号公報 H.Kasuga, M.Okamoto and H.Yamamoto,「Extraction of characters from color documents」, Proceedings of the SPIE-The International Society for Optical Engineering, V 3967, pp.278-285, 2000. H.Hase, T.Shinokawa, M.Yoneda, C.Y.Suen, 「Character string extraction from color documents」, Pattern Recognition 34, pp.1349-1365, 2001.

しかしながら、特許文献２に記載の技術は、背景という概念がなく、文字だけでなく文字に似た並びをもつ文字以外の画素の塊が、背景であっても文字と重なって抽出されることがある。
また、非特許文献１では、どのクラスタが文字列であるかまでは認識しておらず、扱っている画像がポスターカードのような小さなものであり、文字と背景とがはっきり区別されているような比較的単純な画像についての領域判別であった。
非特許文献２では、文字列と文字ではない背景のノイズを十分に分類するには至っていない。

本発明は、上述した実情を考慮してなされたものであって、文字や文字以外の画像等が混在するカラー画像あるいはグレースケールの画像を複数のクラスに高精度に判別できる画像処理装置、画像処理方法、画像処理装置の機能を実行するためプログラム、およびそのプログラムを記録したコンピュータ読み取り可能な記録媒体を提供することを目的とする。

上記の課題を解決するために、請求項１に記載の発明は、学習データに基づいて学習した判別器によって画像情報を判別する画像処理装置において、画像情報から特徴量を抽出する特徴量抽出手段と、前記特徴量抽出手段により抽出された特徴量の組み合わせになる特徴を計算する特徴計算手段と、前記特徴計算手段で計算された特徴量と前記特徴量抽出手段で抽出された特徴量とにより判別器の学習を行う学習手段と、前記学習手段で学習した判別器へ教師データを適用して判別結果と外部から与えられる理想的な判別結果とを照合する照合手段と、前記照合手段における照合結果に基づき、前記特徴計算手段における特徴量の組み合わせ方法を変更する最適化手段とを有することを特徴とする。
請求項２に記載の発明は、請求項１に記載の画像処理装置において、前記最適化手段は、前記照合手段における照合結果に基づくクロスバリデーション解析によって、前記特徴計算手段における特徴量の組み合わせ方法を最適に変更することを特徴とする。

請求項３に記載の発明は、学習データに基づいて学習した判別器によって画像情報を判別する画像処理装置において、画像情報から特徴量を抽出する特徴量抽出手段と、前記特徴量抽出手段により抽出された複数の画像の特徴量から射影軸を求め、該射影軸によって該特徴量をカーネル特徴量へ変換する特徴変換手段と、前記特徴変換手段により変換されたカーネル特徴に基づいて画像情報をカテゴリに分類する分類手段と、前記分類手段により分類されたカテゴリごとに画像を判別する判別器を学習するカテゴリ別学習手段とを有することを特徴とする。

請求項４に記載の発明は、請求項１、２または３に記載の画像処理装置において、前記特徴量は、画像中の行候補から取得することを特徴とする。
請求項５に記載の発明は、請求項４に記載の画像処理装置において、前記行候補は、類似色が連続した画素を連結成分とし、該連結成分の外接矩形を統合して求めることを特徴とする。
請求項６に記載の発明は、請求項５に記載の画像処理装置において、前記連結成分に関わる特徴を前記特徴量とすることを特徴とする。
請求項７に記載の発明は、請求項４または６に記載の画像処理装置において、取得した特徴量のモーメントを前記特徴量とすることを特徴とする。
請求項８に記載の発明は、請求項５に記載の画像処理装置において、前記行候補は、前記連結成分の近傍にある他の連結成分との色の相違度が小さい場合に、両者を同じ行候補に属するとみなして統合することを特徴とする。
請求項９に記載の発明は、請求項８に記載の画像処理装置において、前記近傍にある他の連結成分を統合する場合、行方向を縦または横方向に仮定し、該行方向に存在する連結成分のみを、統合の対象とみなすようにしたことを特徴とする。
請求項１０に記載の発明は、請求項８または９に記載の画像処理装置において、前記色の相違度は、連結成分を構成する画素の平均色を用いて算出することを特徴とする。

請求項１１に記載の発明は、請求項４に記載の画像処理装置において、前記行候補は明度の近い連続した画素を連結成分として抽出することを特徴とする。
請求項１２に記載の発明は、請求項１１に記載の画像処理装置において、前記行候補は、前記連結成分の近傍にある他の連結成分の明度の差が小さい場合に、両者を同じ行候補に属するとみなして統合することを特徴とする。
請求項１３に記載の発明は、請求項１２に記載の画像処理装置において、前記近傍にある他の連結成分を統合する場合、行方向を縦または横方向に仮定し、該行方向に存在する連結成分のみを、統合の対象とみなすようにしたことを特徴とする。
請求項１４に記載の発明は、請求項１２または１３に記載の画像処理装置において、前記明度の差は、連結成分を構成する画素の平均明度を用いて算出することを特徴とする。

請求項１５に記載の発明は、請求項１乃至１４のいずれかに記載の画像処理装置において、前記特徴量抽出手段は、解像度の低い画像を生成してから、該解像度の低い画像から特徴量を抽出するようにしたことを特徴とする。

請求項１６に記載の発明は、学習データに基づいて学習した判別器によって画像情報を判別する画像処理方法において、画像情報から特徴量を抽出する特徴量抽出工程と、前記特徴量抽出工程により抽出された特徴量の組み合わせになる特徴を計算する特徴計算工程と、前記特徴計算工程で計算された特徴量と前記特徴量抽出工程で抽出された特徴量とにより判別器の学習を行う学習工程と、前記学習工程で学習した判別器へ教師データを適用して判別結果と外部から与えられる理想的な判別結果とを照合する照合工程と、前記照合工程における照合結果に基づき、前記特徴計算工程における特徴量の組み合わせ方法を変更する最適化工程とを有することを特徴とする。

請求項１７に記載の発明は、学習データに基づいて学習した判別器によって画像情報を判別する画像処理方法において、画像情報から特徴量を抽出する特徴量抽出工程と、前記特徴量抽出工程により抽出された複数の画像の特徴量から射影軸を求め、該射影軸によって該特徴量をカーネル特徴量へ変換する特徴変換工程段と、前記特徴変換工程により変換されたカーネル特徴に基づいて画像情報をカテゴリに分類する分類工程と、前記分類工程により分類されたカテゴリごとに画像を判別する判別器を学習するカテゴリ別学習工程とを有することを特徴とする。

請求項１８に記載の発明は、コンピュータに、請求項１乃至１５のいずれかに記載の画像処理装置の機能を実行させるためのプログラムである。
請求項１９に記載の発明は、請求項１８に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体である。

本発明によれば、文字や文字以外の画像等が混在するカラー画像あるいはグレースケールの画像を複数のクラスに高精度に判別することができる。

以下、図面を参照して本発明の画像処理装置に係る好適な実施形態について説明する。
本発明の画像処理装置は、学習データを使って判別器の判別精度を高める学習部分と、この判別器を使って入力画像を判別する判別部分とがある。以下、これらの学習部分と判別部分を順に詳細に説明する。

＜実施形態１＞
本実施形態１では、判別器の学習のために、学習データおよび教師データをユーザが用意するものである。

（Ａ）学習部分
図１は、本実施形態１における学習部分の機能構成を示すブロック図である。同図において学習部分は、特徴量抽出手段１０、特徴計算手段２０、学習手段３０、照合手段４０、最適化手段５０および学習データ記憶手段１１、教師データ記憶手段１２、特徴量記憶手段１３、判別器データ記憶手段１４とから構成される。

学習データ記憶手段１１および教師データ記憶手段１２は、判別器の学習に用いる画像データとその判別結果の正解とを組として複数個格納しておく。
特徴量抽出手段１０は、学習データ記憶手段１１から１つずつ画像データを取り出し、その画像から特徴量を抽出して、画像データと対応させて特徴量記憶手段１３へ記憶する。
ここで抽出される特徴量は、画像の色や大きさ、色数など一般的な画像処理で使われる特徴量を使用すれば良い。また、抽出する特徴量は複数個抽出することが望ましい。
さらに、特徴量抽出手段１０は、同様に、教師データ記憶手段１２から１つずつ画像データを取り出し、その画像から特徴量を抽出して、画像データと対応させて特徴量記憶手段１３へ記憶する。ここで、特徴量記憶手段１３に記憶される画像ごとの特徴量は、学習データと教師データとの区別もつけておく。

さらに、画像データを低解像度の画像データへ変換してから特徴量を抽出するようにすると、特徴量抽出にかかる処理時間を減らすことができ、ある色が細かい点（各色成分ドット）の集合で表現され、特徴量抽出時のノイズとなりやすい網点部分の悪影響も軽減することができる。

特徴計算手段２０は、特徴量記憶手段１３に記憶された学習データから抽出された特徴量を画像ごとに取り出し、例えば、各特徴量に重み付けして総和することによって組み合わせ、新しい特徴量を算出し、当該画像データに対応付けて特徴量記憶手段１３へ格納する。
さらに、特徴計算手段２０は、同様に、特徴量記憶手段１３に記憶された教師データから抽出された特徴量を画像ごとに取り出し、例えば、各特徴量に重み付けして総和することによって組み合わせ、新しい特徴量を算出し、当該画像データに対応付けて特徴量記憶手段１３へ格納する。

学習手段３０は、特徴量記憶手段１３に記憶された学習データから抽出された特徴量と組み合わせて作られた特徴量を画像ごとに取り出して判別器の学習を行う。この判別器には、例えば、多層ニューラルネットワークやサポートベクトルマシンなどを使う。
１つの画像に対する学習が完了すると、判別器の各種パラメータを一時的に記憶しておき、次の学習データによって学習する判別器のパラメータとして用いる。

照合手段４０は、特徴量記憶手段１３に記憶された教師データから抽出された特徴量と、組み合わせて作られた新しい特徴量とを画像ごとに取り出して、学習手段３０で学習された判別器に適用する。その判別結果と与えられた正解とが一致するかをカウントしておき正解率を求め、組み合わせ方法、判別器の各種パラメータおよび正解率を対応付けて一時的に記憶させる。

最適化手段５０は、特徴計算手段２０で特徴量の組み合わせ方法を適当に変更して、照合結果の一番良いものを選ぶ。例えば、組み合わせ方法に重み付け総和を用いる場合は、重みの値をランダムに再設定し、学習データ記憶手段１１から抽出した特徴量にその重みの値よる総和を求め、判別器を再度学習させ、教師データ記憶手段１２を判別器に適用して正解率を出す。
最適化手段５０は、この操作を所定回数繰り返し、最も高い正解率を出した組み合わせ方法（例えば、重み値を最終的な重み）とそのときの判別器を採用し、判別器データ記憶手段１４へ組み合わせ方法と判別器の各種パラメータを記憶させる。

次に、本実施形態１における学習部分の処理の流れを図２のフローチャートを用いて説明する。
学習データ記憶手段１１から１つずつ画像データを取り出し、その画像から特徴量を抽出して、画像データと対応させて特徴量記憶手段１３へ記憶し、同様に、教師データ記憶手段１２から１つずつ画像データを取り出し、その画像から特徴量を抽出して、画像データと対応させて特徴量記憶手段１３へ記憶する（ステップＳ１）。ここで抽出される特徴量は、画像の色や大きさ、色数など一般的な画像処理で使われる特徴量を使用すれば良い。

特徴量記憶手段１３に記憶された学習データおよび教師データから抽出された特徴量を画像ごとに取り出し、例えば、各特徴量に重み付けして総和することによって組み合わせ、新しい特徴量を算出し、当該画像データに対応付けて特徴量記憶手段１３へ格納する（ステップＳ２）。

特徴量記憶手段１３に記憶された学習データから抽出された特徴量と組み合わせて作られた特徴量を画像ごとに取り出して判別器の学習を行う（ステップＳ３）。この判別器には、例えば、多層ニューラルネットワークやサポートベクトルマシンなどを使う。

特徴量記憶手段１３に記憶された教師データから抽出された特徴量と組み合わせて作られた特徴量とを画像ごとに取り出して、学習された判別器に適用し、その判別結果と正解とが一致するかをカウントし、すべての教師データに対して判別器を適用した後、正解率を求め、組み合わせ方法、判別器の各種パラメータおよび正解率を対応付けて一時的に記憶させる（ステップＳ４）。

判定器の学習が所定回数行われていない場合（ステップＳ５のＮＯ）、特徴量の組み合わせ方法を変更して（ステップＳ６）、この組み合わせ方法で再度判定器を学習させるためにステップＳ２へ戻る。ここで、組み合わせ方法に重み付け総和を用いる場合は、重みの値をランダムに再設定するようにする。

一方、判定器の学習が所定回数行われている場合（ステップＳ５のＹＥＳ）、照合結果の一番良いものを選び、このときの組み合わせ方法と判別器とを判別器データ記憶手段１４へ記憶させて（ステップＳ７）、処理を終了する。ここで、組み合わせ方法に重み付け総和を用いる場合は、最も高い正解率を出した重みと判別器の各種パラメータを記憶させる。

（Ｂ）判別部分
図３は、本実施形態１における判別部分の機能構成を示すブロック図である。同図において、判別部分は、特徴量抽出手段１０、特徴計算手段２０、判別手段６０および判別器データ記憶手段１４とから構成される。図１と同じ機能については、同じ符号を付し説明を省略する。

特徴量抽出手段１０は、入力された画像データから特徴量を抽出する。ここで抽出される特徴量は、前記同様に、画像の色や大きさ、色数など一般的な画像処理で使われる特徴量を使用すれば良い。また、判別器を学習させた際、低解像度へ変換してから特徴量を抽出した場合には、ここでも画像データを低解像度の画像データへ変換してから特徴量を抽出するようにする。

特徴計算手段２０は、判別器データ記憶手段１４に記憶されている組み合わせ方法により、特徴量を組み合わせて新しい特徴量を算出する。組み合わせ方法が特徴量の重み付け総和であれば、判別器データ記憶手段１４に記憶されている重みを取り出して特徴量の総和を計算する。
判別手段６０は、判別器データ記憶手段１４に記憶されている判別器に、特徴量とその特徴量を組み合わした特徴量とを適用して判別結果を出力する。

以上のように実施形態１を構成することにより、特徴量を組み合わせて新たな特徴を作り、その組み合わせ方法を教師あり学習によって最適に更新することによって判別精度を向上させることができる。

＜実施形態２＞
本実施形態２は、上記の実施形態１をクロスバリデーションで行うようにしたものであり、画像データの集合を分割し、学習データと教師データに分け、この分割の仕方を変更して、学習を繰り返して、最適な判別器を得るようにする。

（Ａ）学習部分
図４は、本実施形態２における学習部分の機能構成を示すブロック図である。同図において、学習部分は、特徴量抽出手段１０、特徴計算手段２０、学習手段３０、照合手段４０、最適化手段５０、分割手段７０および画像データ記憶手段１５、分割テーブル１６とから構成される。図１と同じ機能については、同じ符号を付し説明を省略する。

画像データ記憶手段１５は、学習データ及び教師データとなる複数の画像データを記憶しており、データ項目（ファイルＩＤ、ファイル名、画像データ、正解値、特徴量、特徴量を組み合わせて生成される新しい特徴量）からなる（図５参照）。

分割手段７０は、各グループに含まれる画像データ数はほぼ同数となるように、画像データ記憶手段１５に記憶された画像データを所定の数（例えば、３グループ）のグループに分割してグループテーブル１６１へ記憶し、これらのグループを学習データと教師データとなるように組み合わせを生成して学習データ集合テーブル１６２へ記憶する。

例えば、グループ数を３とすれば、学習データへのグループの割り当ては、（グループ１）、（グループ２）、（グループ３）、（グループ１とグループ２）、（グループ１とグループ３）、（グループ２とグループ３）の６通りの組み合わせが考えられる。

グループテーブル１６１は、グループごとに、グループＩＤとこのグループに属する画像データのファイルＩＤのリストを記憶するテーブルである（図６参照）。
また、学習データ集合テーブル１６２は、各グループを学習データと教師データとに分割したときの組み合わせと学習結果を記憶するテーブルである（図７参照）。

この学習データ集合テーブル１６２は、組み合わせＩＤ、学習データに属するグループＩＤのリスト、教師データに属するグループＩＤのリスト、および学習結果である、特徴量の組み合わせ方法、判別器の各種パラメータおよび教師データによる正解回数と教師データ数とからなっている。
グループファイル対応テーブル１６１および学習データ集合テーブル１６２は、分割テーブル１６として、メモリやハードディスク等の記憶装置へ一時的に記録される。

特徴量抽出手段１０は、画像データ記憶手段１５に記憶されたすべての画像データについて特徴量を抽出し、当該画像データに対応させて画像データ記憶手段１５を更新する。この特徴量としては、実施形態１と同様にして、例えば、一般的な画像処理で使われる画像の色や大きさ、色数などが抽出される。また、画像データを低解像度の画像データへ変換してから特徴量を抽出するようにしてもよい。

最適化手段５０は、学習データ集合テーブル１６２に記憶された学習データのうち処理されていない集合を探し、その集合（以下、集合Ａという）に対して、特徴量の組み合わせ方法、正解回数と教師データ数を初期化する。
例えば、特徴量の組み合わせ方法を、実施形態１で説明した特徴量の重み付け総和を使用する場合には、この重み値の初期値を設定する。

特徴計算手段２０は、画像データ記憶手段１５に記憶されたすべての画像データについて特徴量を、集合Ａに指定されている組み合わせ方法で組み合わせ、新しい特徴量として当該画像データに対応させて画像データ記憶手段１５を更新する。

学習手段３０は、学習データ集合テーブル１６２を参照して、集合Ａに属する学習データのグループＩＤを取り出し、グループテーブル１６１を参照してこのグループＩＤに属する画像データを特定する（以下、画像データＢという）。
次に、画像データ記憶手段１５を参照して、画像データＢに対応する特徴量と新しい特徴量を使って判別器の学習を行う。この判別器には、例えば、多層ニューラルネットワークやサポートベクトルマシンなどを使う。
１つの画像データＢに対して学習が完了すると、学習した判別器の各種パラメータを集合Ａに対応させて学習データ集合テーブル１６２へ記憶しておく。
集合Ａに属する他のすべての学習データを使って、さらに判別器を学習させる。

照合手段４０は、学習データ集合テーブル１６２を参照して、集合Ａに属する教師データのグループＩＤを取り出し、グループテーブル１６１を参照してこのグループＩＤに属する画像データを特定する（以下、画像データＣという）。
次に、画像データ記憶手段１５を参照して、画像データＣに対応する特徴量と新しい特徴量を、集合Ａに対応する判別器に適用する。その判別結果と正解とが一致する場合には、正解数をカウントするとともに、教師データの個数を１つカウントアップする。

これらの操作が終わると、再び、最適化手段５０が起動され、学習データ集合テーブル１６２に登録されている学習データの組み合わせをすべて処理したかを確かめる。
最適化手段５０は、処理されていない組み合わせが見つかると、この見つかった組み合わせを上述の集合Ａとみなして、特徴量の組み合わせ方法を適当に変更し、判別器や正解回数、教師データの個数の初期化して、判別器を新たに学習させる。例えば、組み合わせ方法に重み付け総和を用いる場合は、重みの値をランダムに再設定することによって組み合わせ方法を変更する。

また、最適化手段５０は、学習データのすべての組み合わせを処理した場合には、学習データ集合テーブル１６２に登録されているすべてに対して、正解率＝（正解回数／教師データの個数）を求め、最も高い正解率を出した組み合わせ方法とそのときの判別器を採用して、この採用された組み合わせ方法と判別器の各種パラメータを判別器データ記憶手段１４へ記憶させる。

次に、本実施形態２における学習部分の処理の流れを図８のフローチャートを用いて説明する。
まず、画像データ記憶手段１５に記憶された画像データを各グループに含まれる画像データ数がほぼ同数となるように、所定の数のグループに分割してグループテーブル１６１（図６参照）へ記憶し、これらのグループを学習データと教師データとなるように組み合わせを生成して学習データ集合テーブル１６２（図７参照）へ記憶する（ステップＳ１０）。

画像データ記憶手段１５に記憶されたすべての画像データについて特徴量（例えば、画像の色や大きさ、色数など）を抽出し、当該画像データに対応させて画像データ記憶手段１５を更新する。

学習データ集合テーブル１６２に記憶された学習データのうち処理されていない集合（以下、集合Ａという）を探し（ステップＳ１２）、まだ処理されていない集合Ａがある場合（ステップＳ１３のＮＯ）、その集合に対して、特徴量の組み合わせ方法、正解回数と教師データ数を初期化する（ステップＳ１４）。

画像データ記憶手段１５に記憶されたすべての画像データについて特徴量を、集合Ａに指定されている組み合わせ方法で組み合わせ、新しい特徴量として当該画像データに対応させて画像データ記憶手段１５を更新する（ステップＳ１５）。

学習データ集合テーブル１６２とグループテーブル１６１を参照して、集合Ａに属する学習データに対応する特徴量と新しい特徴量を使って判別器を学習し、学習した判別器の各種パラメータを集合Ａに対応させて学習データ集合テーブル１６２へ記憶しておく（ステップＳ１６）。

学習データ集合テーブル１６２とグループテーブル１６１を参照して、集合Ａに属する教師データに対応する特徴量と新しい特徴量を、集合Ａに対応する判別器に適用し、その判別結果と正解とが一致する場合には、正解数をカウントするとともに、教師データの個数を１つカウントアップする（ステップＳ１７）。

これらの操作が終わると、学習データ集合テーブル１６２に登録されている学習データの組み合わせをすべて処理したかを確かめ、処理されていない組み合わせが見つかると（ステップＳ１３のＮＯ）、この見つかった組み合わせを上述の集合Ａとみなして、特徴量の組み合わせ方法を適当に変更し、判別器や正解回数、教師データの個数の初期化して（ステップＳ１４）、判別器を新たに学習させて、教師データによって正解回数を算出する（ステップＳ１５〜Ｓ１７）ことを繰り返す。

一方、学習データのすべての組み合わせを処理した場合には（ステップＳ１３のＹＥＳ）、学習データ集合テーブル１６２に登録されているすべてに対して、正解率＝（正解回数／教師データの個数）を求め、最も高い正解率を出した組み合わせ方法とそのときの判別器を採用して、この採用された組み合わせ方法と判別器の各種パラメータを判別器データ記憶手段１４へ記憶させ（ステップＳ１８）、学習部分の処理を終了する。

（Ｂ）判別部分
本実施形態における判別部分は、実施形態１と同様に構成されるので説明を省略する。

以上のように実施形態２を構成することによって、特徴量を組み合わせて新たな特徴を作り、その組み合わせ方法を教師あり学習によって最適に更新することによって判別精度を向上させることができる。この際、学習データと教師データをクロスバリデーションによって最適な組み合わせで選択し、偏りの無い学習データを使用できるので、より判別精度を向上させることができる。

＜実施形態３＞
次に、本実施形態３では、画像データから抽出した文字行候補が本当に文字行か否かを精度よく判別することに上記の実施形態１および２を利用することを考える。
このためには、判別器の学習のための学習データを次の２つの方法のいずれかによって作成する。

（１）第１の方法
文字行を構成する画像データおよびそれ以外の画像データを用意する。これらの画像データには、その画像データが文字行であるかまたはそれ以外であるかの区別をつけたものとする。
実施形態１では、これらの画像データをユーザが学習データと教師データに分けて与え、また、実施形態２では、これらの画像データをそのまま与えればよい。
さらに、与えられた画像データから文字行候補抽出処理（後述）を行い、その抽出した文字行候補の画像から特徴量を抽出して各実施形態に適用する。

（２）第２の方法
１枚の画像データに複数の文字行候補がある場合には、文字行候補抽出処理を行って抽出された文字行候補領域に対してユーザが文字行であるか否かを指示し、この指示と文字行候補領域の画像データとを対として記録しておく。
この操作を複数枚の画像データに適用することによって、判別器の学習データを作成し、この学習データをユーザあるいはクロスバリデーション手法によって、学習データと教師データへ分割して各実施形態に適用する。

また、判別器を利用するときには、入力された画像データ中から文字行候補を抽出し、この文字行候補の画像に対して特徴量およびその特徴量を組み合わせた新しい特徴量を判別器へ適用して判別するようにする。

次に、文字行候補抽出処理について説明する。
文字行候補の抽出は、公知の技術（例えば、特開２００３−２０８５６８号公報）を適用することができる。
例えば、水平方向に隣接する画素の色が互いに近い場合にそれらを処理単位としてまとめてランを生成し、これらのランを対象として垂直方向に接するもの同士の色を比較し、色が近ければ連結成分として統合し、この統合された文字の連結成分の外接矩形を生成する。このようにすれば、文字候補となる一かたまりの画素が一つの外接矩形として抽出できる。ここで、色が近いことを判定する方法には様々な手法を採用することができるが、例えば画素値の各色成分（ＲＧＢなど）の差の２乗和などを計算し、これを画素間の色相違度とみなして、この値が実験値等を基に予め定めておいた値よりも小さい場合に近いと判断する。

次に、隣接する外接矩形の色類似性の判定および矩形間の距離を判定することにより、隣接する外接矩形を統合する。この判定を繰り返すことにより得た統合された外接矩形を文字行候補として抽出する。
ここで、色類似性の判定では、外接矩形に含まれる画素の色の平均値あるいは代表色の差が所定の値より小さい時には類似であると判定する。これにより、文字行を構成する画素の色むらに影響されることを抑制しながら、文字行候補の統合精度を向上させることができる。

また、上記の外接矩形の統合処理では文字行の方向（縦書きの文章なのか横書きの文章なのか）による制限を設けるようにしてもよい。例えば、前処理として、画像データの全体を上記のような外接矩形の統合処理を行って文字行候補群を生成し、これらの文字行候補がどの方向へ伸びているかを多数決で決定し、決定された文字行の方向に限定して、外接矩形の統合を行うようにする。
これにより、前処理によって行方向を縦または横に限定することができるので、文字行かそれ以外かの判別精度を向上させることができる。

さらに、上記の外接矩形の統合の際、矩形内の明度による類似性によって統合するようにしてもよい。この場合には、グレースケールの画像に対しても文字行候補を有効に抽出することが可能となる。

なお、特徴量として外接矩形を用いても良い。この場合は、外接矩形の幅や高さを特徴量として直接用いたり、この特徴量から計算されたモーメントを新たな特徴量としたりしてもよい。また、行内に存在する連結成分一つ一つの幅や高さなどの特徴量を求め、行内すべての連結成分の特徴量でモーメントを計算し、新たな特徴量としてもよい。

一般に、平均μのまわりのｎ次モーメントＭ（ｎ）は、次の式１で計算できる。

ここで、ｘは特徴量、ｎはモーメントの次数、Ｅ（）は平均を表す記号、μは特徴量ｘの平均値である。

＜実施形態４＞
本実施形態４は、学習データを予めクラスタリングしておき、このクラスタごとに学習して最適な判別器を得るようにする。

（Ａ）学習部分
図９は、本実施形態４における学習部分の機能構成を示すブロック図である。同図において学習部分は、特徴量抽出手段１０、変換軸導出手段８０、特徴変換手段９０、分類手段１００、クラスタ別学習手段１１０および画像データ記憶手段１５、クラスタ別判別器データ記憶手段１８とから構成される。図１および図４と同じ機能については、同じ符号を付し説明を省略する。

画像データ記憶手段１５は、学習データとなる複数の画像データを記憶しており、データ項目（ファイルＩＤ、ファイル名、画像データ、正解値、特徴量、変換特徴量、クラス）からなる（図１０参照）。

特徴量抽出手段１０は、画像データ記憶手段１５に記憶されたすべての画像データについて特徴量を抽出し、当該画像データに対応させて画像データ記憶手段１５を更新する。この特徴量としては、上記各実施形態と同様にして、例えば、一般的な画像処理で使われる画像の色や大きさ、色数などが抽出される。また、画像データを低解像度の画像データへ変換してから特徴量を抽出することによって、処理時間と網点によるノイズを軽減することができる。
この特徴量として、実施形態３で述べたような文字行候補から抽出した特徴量を用いることによって、文字行とそれ以外の判別精度は、より向上することが見込める。

変換軸導出手段８０は、画像データ記憶手段１５に記憶されたすべての画像に対する、特徴量に対してカーネル主成分分析を行って、射影軸を求める。このカーネル主成分分析は、非線形写像した高次元特徴空間の主成分軸を効果的に計算する手法で、公知の技術（例えば、Bernhard Scholkopf, Alexander Smola, Klaus-Robert Muller著, 「Nonlinear Component Analysis as a Kernel Eigenvalue Problem」, Neural Computation, 10, pp.1299-1319, 1998）を用いることができる。このカーネル主成分分析に用いるカーネルとしては、多項式カーネル（Polynomial Kernel）やガウシアン・カーネル（Gaussian Kernel）やシグモイドカーネル（Sigmoid Kernel）などがある。

このカーネル主成分分析には次のようなメリットがある。
・カーネル特徴空間におけるデータの描像を可視化できる。
・カーネル関数の違い（Polynomial KernelやGaussian KernelやSigmoid Kernelなど）やパラメータの値（Polynomial Kernelの次数や、Gaussian Kernelの分散等）によって、表現力に違いがでる。
・特に、次数１のPolynomial Kernelを用いたカーネル主成分分析は、入力空間の線形主成分分析と等しい。

特徴変換手段９０は、画像データ記憶手段１５に記憶されているすべての画像の特徴量に対して、上記射影軸を適用してカーネル特徴量へ射影し、当該画像データに対応させて画像データ記憶手段１５を更新する。

分類手段１００は、画像データ記憶手段１５に記憶されているすべての画像のカーネル特徴量をクラスタリングし、クラスタを当該画像データに対応させて画像データ記憶手段１５を更新する。このクラスタリング手法としては、公知のk-means法やｋ-nearest neighbor法を用いる。

クラスタ別学習手段１１０は、画像データ記憶手段１５に記憶されている画像データをクラスタごとに取り出して、取り出した画像の特徴量を用いてクラスタ毎に判別器を学習し、クラスタ別判別器データ記憶手段１８へ記憶させる。判別器としては多層ニューラルネットワークやサポートベクトルマシンなどが有効である。
また、このクラスタ別判別器データ記憶手段１８には、変換軸導出手段８０で導出した射影軸も記憶させる。

次に、本実施形態４における学習部分の処理の流れを図１１のフローチャートを用いて説明する。
画像データ記憶手段１５に記憶されたすべての画像データについて特徴量を抽出し、当該画像データに対応させて画像データ記憶手段１５を更新する（ステップＳ２０）。
画像データ記憶手段１５に記憶されたすべての画像に対する、特徴量に対してカーネル主成分分析を行って、射影軸を求める（ステップＳ２１）。
画像データ記憶手段１５に記憶されているすべての画像の特徴量に対して、上記射影軸を適用してカーネル特徴量へ射影し、当該画像データに対応させて画像データ記憶手段１５を更新する（ステップＳ２２）。

画像データ記憶手段１５に記憶されているすべての画像のカーネル特徴量を公知のk-means法やｋ-nearest neighbor法を用いてクラスタリングし、クラスタを当該画像データに対応させて画像データ記憶手段１５を更新する（ステップＳ２３）。
画像データ記憶手段１５に記憶されている画像データをクラスタごとに取り出して、クラスタ毎に、多層ニューラルネットワークやサポートベクトルマシンなどからなる判別器を学習し、クラスタ別判別器データ記憶手段１８へ記憶させるとともに、導出した射影軸も記憶させる（ステップＳ２４）。

（Ｂ）判別部分
図１２は、本実施形態４における判別部分の機能構成を示すブロック図である。同図において、判別部分は、特徴量抽出手段１０、特徴変換手段９０、分類手段１００、クラスタ別判別手段１２０およびクラスタ別判別器データ記憶手段１８とから構成される。図９と同じ機能については、同じ符号を付し説明を省略する。

特徴変換手段９０は、クラスタ別判別器データ記憶手段１８に記憶されている射影軸によって特徴量を射影して、クラスタ特徴量を算出する。
分類手段１００は、例えば、公知のk-means法やｋ-nearest neighbor法を用いて、カーネル特徴量をクラスタリングする。例えば、ｋ−ｍｅａｎｓ法を使う場合、学習部分で求めたクラスタ中心との距離を計算し、最も近いクラスタに分類する。
クラスタ別判別手段１２０は、クラスタ別判別器データ記憶手段１８を参照して、分類手段１００で分類されたクラスタに対応する判別器にこの画像の特徴量を適用して判別結果を出力する。

次に、本実施形態４における判別部分の処理の流れを図１３のフローチャートを用いて説明する。
入力された画像データから特徴量（例えば、画像の色や大きさ、色数など）を抽出する（ステップＳ３０）。
クラスタ別判別器データ記憶手段１８に記憶されている射影軸によって特徴量を射影して、クラスタ特徴量を算出する（ステップＳ３１）。
公知のk-means法やｋ-nearest neighbor法を用いて、カーネル特徴量を最も近いクラスタに分類する（ステップＳ３２）。
クラスタ別判別器データ記憶手段１８を参照して、分類手段１００で分類されたクラスタに対応する判別器にこの画像の特徴量を適用して判別結果を出力する（ステップＳ３３）。

以上の構成により、非線形空間へ写像した特徴量に対してクラスタリングを行い、クラスタ毎に判別器を生成することによって判別精度を向上させることができる。

＜実施形態５＞
次に、本実施形態５では、実施形態３で説明したように、画像データから抽出した文字行候補が本当に文字行か否かを精度よく判別することに上記の実施形態４を利用することを考える。

（１）第１の方法
文字行を構成する画像データおよびそれ以外の画像データを用意する。これらの画像データには、その画像データが文字行であるかまたはそれ以外であるかの区別をつけて、学習用の画像データを作成する。

（２）第２の方法
１枚の画像データに複数の文字行候補がある場合には、文字行候補抽出処理を行って抽出された文字行候補の画像に対してユーザが文字行であるか否かを指示し、この指示と文字行候補の画像データとを対として記録しておく。この操作を複数枚の画像データに適用することによって判別器の学習用の画像データが作成される。

実施形態４では、これら（１）または（２）の方法で作成された画像データから文字行候補抽出処理を行い、その抽出した文字行候補の画像領域から特徴量を抽出するようにして、判別器の学習を行わせる。

＜実施形態６＞
さらに、本発明は上述した実施形態のみに限定されたものではない。上述した実施形態の画像処理装置を構成する各機能をそれぞれプログラム化し、あらかじめＣＤ−ＲＯＭ等の記録媒体に書き込んでおき、このＣＤ−ＲＯＭをＣＤ−ＲＯＭドライブのような媒体駆動装置を搭載したコンピュータに装着して、これらのプログラムをコンピュータのメモリあるいは記憶装置に格納して、実行することによって、本発明の目的を達成することができる。

なお、記録媒体としては半導体媒体（例えば、ＲＯＭ、不揮発性メモリカード等）、光媒体（例えば、ＤＶＤ、ＭＯ、ＭＤ、ＣＤ−Ｒ等）、磁気媒体（例えば、磁気テープ、フレキシブルディスク等）のいずれであってもよい。

また、ロードしたプログラムの指示に基づき、オペレーティングシステムやアプリケーションプログラム等が実際の処理の一部または全部を行い、その処理によって上述した実施形態の機能が実現される場合も含まれる。

また、上述したプログラムをサーバコンピュータの磁気ディスク等の記憶装置に格納しておき、ネットワークで接続された利用者のコンピュータからダウンロードして頒布する場合、また、サーバコンピュータから配信して頒布する場合、このサーバコンピュータの記憶装置も本発明の記録媒体に含まれる。
このように、本発明の機能をプログラムして、記録媒体に記録し頒布することによって、コスト、可搬性、汎用性を向上させることができる。

本実施例は、上述した実施形態を用いて、文字や写真が混在するカラー文書画像から文字行を認識する実験である。

（１）特徴抽出
まず、文字行候補をカラー文書画像から網羅的に抽出する。同色の連結成分を横方向と縦方向に色成分の類似度と位置の近さをもとに次々とグループ化することで、文字行候補が得られる。ここでは文字行候補のうち真に文字行であるものをPositiveと呼び、それ以外をNegativeと呼ぶことにする。文字行候補は予め人間の目で判断しラベルをつけておいた。

また、文字行候補に次に示すような特徴量を割り当てた。
・コントラストにかかわる特微量。
・連結成分の外接矩形内でのスパースネスにかかわる特徴量。
・外接矩形数の数などを元に計算された特徴量。

（２）特徴空間
まず、特徴空間での高次元特徴量の分布を可視化するために主成分分析を行った。PositiveとNegativeからそれぞれ２０００サンプルを取り出して、正規化したあと、２通りの方法で主成分分析を試した。

・Positiveのデータだけから主成分を計算し、その結果をもとにPositive，Negative両方のデータを射影する方法。
・Negativeのデータだけから主成分を計算し、その結果をもとにPositive，Negative両方のデータを射影する方法。

それぞれの方法による累積寄与率の増分変化をプロットすると図１４に示すような結果となった。
その結果、Positiveデータは第４主成分までで、元の高次元特徴空間を８０％程度は説明できることがわかった。その一方Negativeデータは、元の高次元特徴空間を８０％程度説明するためには第６主成分まで計算しなくてはならない。これは特徴空間でPositiveデータの分布が比較的少ない主成分で説明することができることを意味しており、多次元方向へのばらつきが比較的小さいことを意味している。

そして、Positiveデータの第１主成分と第２主成分にNegativeデータを射影してみると、PositiveクラスタとNegativeクラスタの分離性を確認することができた（図１５参照）。このとき累積寄与率は７１.８８％である。

次に、Negativeデータの第１主成分と第４主成分にPositiveデータを射影したときの散布図（図１６参照）と、第１主成分と第６主成分にPositiveデータを射影したときの散布図（図１７参照）を切り出した。その結果、Negativeがいくつかのクラスタを持っていることが確認できた。

このクラスタは大きく３つに分けることができる。元の特徴量のfactor loadingから、これらのクラスタは文字行候補の形（即ち、クラスタ１：横長、クラスタ２：縦長、クラスタ３：正方形）に対応していることがわかった。

高次元特徴空間においては、Positiveは多次元方向にばらつかず比較的低次元で密集するように存在し、Negativeは比較的ばらつきが大きく、そして文字行候補の形によるクラスタ構造をもって存在しているのだということが確認できた。

（３）学習
次に、主成分分析後のPositiveとNegativeのクラスタの分離性を頼りに、いくつかの教師あり学習アルゴリズムを用いて評価を行った。
学習用としてカラー文書画像を２０８サンプル用意し、Positiveを１９５８８entry、Negativeを７２０２７entry得た。また、教師用としてカラー文書画像を４１サンプル用意し、Positiveを２７３０entry、Negativeを３５４９５entry得た（表１参照）。

また、学習する前に、高次元特徴量はそれぞれ値域の異なる特徴量であるから、特徴の距離を正確に捉えるために、各特徴量の平均が０，分散が１になるように正規化した。

（３−１）多階層パーセプトロン（ＭＬＰ）
まず、最初に入力層と出力層の他に１層の中間層がある３層パーセプトロンで学習を行った。学習データセット３００００（Positive：１５０００，Negative：１５０００）に対する１０ fold Cross validation法により、３層パーセプトロンのパラメータである隠れノード数は８０が最適となった。

学習データセットで学習後、教師用データセットで評価をすると、出力の閾値を０.５とすれば、Positiveは９０.７７％で認識することができ、全文字行候補（Positive＋Negative）に対しては９５.６０％で認識することができた。
また、閾値を変えてＲＯＣ（receiver operator characteristics）カーブを描くことにより、Positiveの認識精度を上げようとすればNegativeの認識精度を下げてしまうことになることがわかった（図１８参照）。Positiveの認識精度を９５％にするためにＭＬＰの出力の閾値を０.１にすると、Negativeの認識精度は８７％まで減少してしまう。

（３−２）サポートベクターマシン（ＳＶＭ）
次に、サポートベクターマシンで学習し、評価を行った。尚、サポートベクターマシンにはＣパラメータの代わりにパラメータの値域が0＜ν＜1で決まるνＳＶＣ(Support Vector Classifier)を用いることにした。そしてカーネル関数には次の（式２）で示すPolynomial Kernelを用いた。

Polynomial Kerne1のパラメータｄとνＳＶＣのパラメータνは、多層パーセプトロンのとき同様に１０ fold Cross validationで決め、ｄ＝８,ν＝０.１２を用いた。
その結果、真に文字行であるデータPositiveに対しては９１.８１％で認識することができ、全文字行候補（Positive＋Negative）に対しては９５.４９％で認識することができた。

（３−３）Mixture of Experts（ＭｏＥ）
クラスタ解析により、文字行候補は、横長の文字行候補と縦長の文字行候補、そして１文字しかないような正方形の文字行候補の３つに分けられることがわかった。
ＭＬＰ、ＳＶＭのエラー解析をしたところ、文字行候補が横長のものは正しく認識することができるが、文字行候補が正方形のものは誤って認識してしまうことが多いことがわかった。これは、正方形のものは横長のものよりも文字列であることの事前確率が低くなってしまうために、現在の特徴量では正方形のものは文字列ではないと判断してしまう傾向があるからである。

そこで、特徴空間を分割して攻略するdivide-and-conquerアルゴリズムのひとつであるＭｏＥモデルを採用した。ＭｏＥは入力ｘに対する出力を担当するExpert Networkと、入力ｘに対して各Expert Networkに適切な重みづけを担当するGating Network、そして各Expert Networkからの出力を結合する結合ノードの３つから構成される（図１９）。

すべての学習データセットは、文字行候補の高さ（Ｈ）と幅（Ｗ）が（１−Ｈ／Ｗ）^２＜０.１のとき正方形モデルのための学習データセットとし、Ｈ／Ｗ＞１のとき縦長モデルのための学習データセットとし、それ以外であれば横長モデルのための学習データセットとする。

さらに、各文字行候補の形（横長モデル、縦長モデル、正方形モデル）に対して割り当てることのできる、新しい特徴量「外形スコア」を追加した。この「外形スコア」は、外接矩形の高さｈ，幅をｗ、文字行候補の高さをＨ，幅をＷ，文字連結数をａ，外接矩形の面積をＡとし、変数ｖ_１，…，ｖ_６を次のように定義し、

ｖ_１＝ｈ／Ｈ,
ｖ_２＝ｈ／ｗ，
ｖ_３＝ｗ／ｈ，
ｖ_４＝ｗ／Ｗ，
ｖ_５＝ａ／Ａ，
ｖ_６＝Ａ／ａ

重みパラメータをｗ_１，…，ｗ_６とすると、文字行候補を構成する外接矩形に対して、重み付総和
Ｓ＝Σｖ_ｉｗ_ｉ
をもって、文字行候補の特微量とした。

この重みｗ_ｉは、４ fold Cross Validationをしたときの認識精度が最も高くなるようにランダムに決め、各モデル（正方形、横長、縦長）に割り当てられた学習データセットをνＳＶＣで学習した。このときも各モデルの各パラメータ（ｄとν）は１０ fold Cross validationで決めた。

認識するときには、Gating Networkは文字行候補の画像データを文字行候補のいずれかの形（横長、縦長、正方形）に分類し、この文字行候補の形に対応したExpert Networkからの出力を最終的な出力とするようにした。その結果、真に文字列であるデータPositiveに対しては９１.６％で認識することができ、全文字行候補（Positive＋Negative）に対しては９６.４６％で認識することができた。

以上により、複雑なカラードキュメントに対して、画像処理と特徴抽出の後にＳＶＭやＭｏＥなどの教師あり学習の手法を用いることによって、高い精度で文字行領域を認識することができるようになった。

実施形態１における学習部分の機能構成を示すブロック図である。実施形態１における学習部分の処理の流れを示すフローチャートである。実施形態１における判別部分の機能構成を示すブロック図である。実施形態２における学習部分の機能構成を示すブロック図である。実施形態２における画像データ記憶手段のデータ構造例である。実施形態２におけるグループテーブルのデータ構造例である。実施形態２における学習データ集合テーブルのデータ構造例である。実施形態２における学習部分の処理の流れを示すフローチャートである。実施形態４における学習部分の機能構成を示すブロック図である。実施形態４における画像データ記憶手段のデータ構造例である。実施形態４における学習部分の処理の流れを示すフローチャートである。実施形態４における判別部分の機能構成を示すブロック図である。実施形態４における判別部分の処理の流れを示すフローチャートである。２種類の主成分分析の方法別の累積寄与率の増分変化を示すグラフである。 Positiveデータの第１主成分と第２主成分にNegativeデータを射影したときの、PositiveクラスタとNegativeクラスタの分離性を示す散布図である。 Negativeデータの第１主成分と第４主成分にPositiveデータを射影したときの散布図である。第１主成分と第６主成分にPositiveデータを射影したときの散布図である。ＭＬＰにおいて、閾値と認識精度の関係を示すグラフである。ＭｏＥの構成を説明するための図である。

符号の説明

１０…特徴量抽出手段、２０…特徴計算手段、３０…学習手段、４０…照合手段、５０…最適化手段、６０…判別手段、７０…分割手段、１１…学習データ記憶手段、１２…教師データ記憶手段、１３…特徴量記憶手段、１４…判別器データ記憶手段、１５…画像データ記憶手段、１６…分割テーブル、１６１…グループテーブル、１６２…学習データ集合テーブル、８０…変換軸導出手段、９０…特徴変換手段、１００…分類手段、１１０…クラスタ別学習手段、１２０…クラスタ別判別手段、１８…クラスタ別判別器データ記憶手段。

Claims

学習データに基づいて学習した判別器によって画像情報を判別する画像処理装置において、画像情報から特徴量を抽出する特徴量抽出手段と、前記特徴量抽出手段により抽出された特徴量の組み合わせになる特徴を計算する特徴計算手段と、前記特徴計算手段で計算された特徴量と前記特徴量抽出手段で抽出された特徴量とにより判別器の学習を行う学習手段と、前記学習手段で学習した判別器へ教師データを適用して判別結果と外部から与えられる理想的な判別結果とを照合する照合手段と、前記照合手段における照合結果に基づき、前記特徴計算手段における特徴量の組み合わせ方法を変更する最適化手段とを有することを特徴とする画像処理装置。
請求項１に記載の画像処理装置において、前記最適化手段は、前記照合手段における照合結果に基づくクロスバリデーション解析によって、前記特徴計算手段における特徴量の組み合わせ方法を最適に変更することを特徴とする画像処理装置。
学習データに基づいて学習した判別器によって画像情報を判別する画像処理装置において、画像情報から特徴量を抽出する特徴量抽出手段と、前記特徴量抽出手段により抽出された複数の画像の特徴量から射影軸を求め、該射影軸によって該特徴量をカーネル特徴量へ変換する特徴変換手段と、前記特徴変換手段により変換されたカーネル特徴に基づいて画像情報をカテゴリに分類する分類手段と、前記分類手段により分類されたカテゴリごとに画像を判別する判別器を学習するカテゴリ別学習手段とを有することを特徴とする画像処理装置。
請求項１、２または３に記載の画像処理装置において、前記特徴量は、画像中の行候補から取得することを特徴とする画像処理装置。
請求項４に記載の画像処理装置において、前記行候補は、類似色が連続した画素を連結成分とし、該連結成分の外接矩形を統合して求めることを特徴とする画像処理装置。
請求項５に記載の画像処理装置において、前記連結成分に関わる特徴を前記特徴量とすることを特徴とする画像処理装置。
請求項４または６に記載の画像処理装置において、取得した特徴量のモーメントを前記特徴量とすることを特徴とする画像処理装置。
請求項５に記載の画像処理装置において、前記行候補は、前記連結成分の近傍にある他の連結成分との色の相違度が小さい場合に、両者を同じ行候補に属するとみなして統合することを特徴とする画像処理装置。
請求項８に記載の画像処理装置において、前記近傍にある他の連結成分を統合する場合、行方向を縦または横方向に仮定し、該行方向に存在する連結成分のみを、統合の対象とみなすようにしたことを特徴とする画像処理装置。
請求項８または９に記載の画像処理装置において、前記色の相違度は、連結成分を構成する画素の平均色を用いて算出することを特徴とする画像処理装置。
請求項４に記載の画像処理装置において、前記行候補は明度の近い連続した画素を連結成分として抽出することを特徴とする画像処理装置。
請求項１１に記載の画像処理装置において、前記行候補は、前記連結成分の近傍にある他の連結成分の明度の差が小さい場合に、両者を同じ行候補に属するとみなして統合することを特徴とする画像処理装置。
請求項１２に記載の画像処理装置において、前記近傍にある他の連結成分を統合する場合、行方向を縦または横方向に仮定し、該行方向に存在する連結成分のみを、統合の対象とみなすようにしたことを特徴とする画像処理装置。
請求項１２または１３に記載の画像処理装置において、前記明度の差は、連結成分を構成する画素の平均明度を用いて算出することを特徴とする画像処理装置。
請求項１乃至１４のいずれかに記載の画像処理装置において、前記特徴量抽出手段は、解像度の低い画像を生成してから、該解像度の低い画像から特徴量を抽出するようにしたことを特徴とする画像処理装置。
学習データに基づいて学習した判別器によって画像情報を判別する画像処理方法において、画像情報から特徴量を抽出する特徴量抽出工程と、前記特徴量抽出工程により抽出された特徴量の組み合わせになる特徴を計算する特徴計算工程と、前記特徴計算工程で計算された特徴量と前記特徴量抽出工程で抽出された特徴量とにより判別器の学習を行う学習工程と、前記学習工程で学習した判別器へ教師データを適用して判別結果と外部から与えられる理想的な判別結果とを照合する照合工程と、前記照合工程における照合結果に基づき、前記特徴計算工程における特徴量の組み合わせ方法を変更する最適化工程とを有することを特徴とする画像処理方法。
学習データに基づいて学習した判別器によって画像情報を判別する画像処理方法において、画像情報から特徴量を抽出する特徴量抽出工程と、前記特徴量抽出工程により抽出された複数の画像の特徴量から射影軸を求め、該射影軸によって該特徴量をカーネル特徴量へ変換する特徴変換工程段と、前記特徴変換工程により変換されたカーネル特徴に基づいて画像情報をカテゴリに分類する分類工程と、前記分類工程により分類されたカテゴリごとに画像を判別する判別器を学習するカテゴリ別学習工程とを有することを特徴とする画像処理方法。
コンピュータに、請求項１乃至１５のいずれかに記載の画像処理装置の機能を実現させるためのプログラム。
請求項１８に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。