[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2009520305A - 手書きキャラクタ認識のための異書体に基づく筆者適応 - Google Patents

手書きキャラクタ認識のための異書体に基づく筆者適応 Download PDF

Info

Publication number
JP2009520305A
JP2009520305A JP2008547437A JP2008547437A JP2009520305A JP 2009520305 A JP2009520305 A JP 2009520305A JP 2008547437 A JP2008547437 A JP 2008547437A JP 2008547437 A JP2008547437 A JP 2008547437A JP 2009520305 A JP2009520305 A JP 2009520305A
Authority
JP
Japan
Prior art keywords
allograph
data
component
classifier
handwritten character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008547437A
Other languages
English (en)
Other versions
JP5255450B2 (ja
JP2009520305A5 (ja
Inventor
エー.アブドゥルカデル アハマッド
エイチ.シェラピラ クマー
ワイ.シマード パトリス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2009520305A publication Critical patent/JP2009520305A/ja
Publication of JP2009520305A5 publication Critical patent/JP2009520305A5/ja
Application granted granted Critical
Publication of JP5255450B2 publication Critical patent/JP5255450B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/36Matching; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/0354Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of 2D relative movements between the device, or an operating part thereof, and a plane or surface, e.g. 2D mice, trackballs, pens or pucks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/7625Hierarchical techniques, i.e. dividing or merging patterns to obtain a tree-like representation; Dendograms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/142Image acquisition using hand-held instruments; Constructional details of the instruments
    • G06V30/1423Image acquisition using hand-held instruments; Constructional details of the instruments the instrument generating sequences of position coordinates corresponding to handwriting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1914Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries, e.g. user dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Character Discrimination (AREA)

Abstract

特許請求の対象は、手書きキャラクタの分析および/または認識を円滑にするシステムおよび/または方法を提供する。インターフェースコンポーネントは、少なくとも1つの手書きキャラクタを受け取ることができる。パーソナライズ化コンポーネントは、筆跡スタイルに関連した異書体に基づく分類手段を、少なくとも1つの手書きキャラクタの手書き文字認識を実現するようにトレーニングすることができる。さらに、パーソナライズ化コンポーネントは、最適化された認識を実現するために、適切などの組合せ手段も利用することができる。

Description

本発明は、手書きキャラクタ認識のための異書体に基づく筆者適応に関する。
コンピュータのハードウェア、ソフトウェア、およびネットワーク化における技術的進歩が、原則的に世界中のどこからでも互いに通信することができる、効率的な、費用効果が高いコンピューティングシステム(例えば、デスクトップコンピュータ、ラップトップ、ハンドヘルド、セル電話、サーバなど)をもたらしている。このようなシステムは、より信頼性が高く、堅牢かつユーザフレンドリーなシステムに発展し続けている。その結果、ますます多くの業界および消費者が、コンピュータを購入し、情報を交換する伝統的な紙および言語媒体に代わる実行可能な電子的代替物として使用している。多くの業界および消費者が、効率を向上させ、コストを低下させるために、コンピューティング技術を活用している。例えば、消費者は、ドキュメントをスキャンして記憶し、テキストオーバーレイを有するデジタル画像のアルバムを作成し、特定の情報(例えば、様々なタイプのデータを有するウェブページ)を検索して取得し、デジタルカメラからピクチャをアップロードし、財務諸表を閲覧し、デジタルファクシミリを送信し、かつ/または受け取り、通信文(例えば、eメール、チャットルーム、VoIPなど)をやり取りすることなどができる。
その結果、このようなコンピューティングシステムおよび/またはデバイスは、情報を入力する様々な技法および/または方法を組み込んでいる。コンピューティングシステムおよび/またはデバイスは、例えば、これらに限定されないが、キーボード、キーパッド、タッチパッド、タッチスクリーン、スピーカ、スタイラス(例えばワンド(wands))、ライティングパッドなどのデバイスを使用して情報の入力を円滑にする。しかし、ユーザの手書き(handwriting)を活用する入力デバイスは、各ユーザがデータエントリ技法(例えば、ライティング(writing))を同じように使用できないという、ユーザパーソナライゼーションの欠陥(user personalization deficiencies)を生じる。
ユーザの筆跡は、ユーザと同じく一意でよく、このような一意性は、識別目的のために利用される。様々なコンピューティングシステムおよび/またはデバイスに実装される商用の手書き文字認識システムは、複数の多様なユーザからのデータを含む大きなトレーニングデータセットの使用を通して、筆者の変動による影響力の削減を試みる。1500人ものユーザからの筆跡サンプルが利用可能な場合でも、ユーザそれぞれを一意に識別するのに十分な変動が筆跡にはある。
機械の学習の観点からは、このような変動は、コンピュータにとって手書き文字認識を困難にする。ユーザ内キャラクタ(intra-user characters)(例えば、同じユーザからのキャラクタ)は変動が小さいが、ユーザ間キャラクタ(inter-user characters)(例えば、異なるユーザからのキャラクタ)は変動が大きく、認識エラーの要因となる。その結果、1組のユーザ(数百人ものユーザ)から取得されたトレーニングデータからの学習は、未知の筆跡スタイルに十分に一般化されるモデルを必ずしも生じるわけではない。一般的な(例えば、筆者非依存の)認識器(recognizer)を使用したコンピュータの認識経験は、希少な書き方をするユーザに関して特に乏しい場合がある。貧弱な性能に関する説明としては、トレーニングされた一般的な認識器が、未知のユーザの書き方(群)を認識することを学習していないので、不完全であるということが挙げられよう。
未知の書き方に対する認識器の性能を向上する実用的な手法は、筆者適応(writer adaptation)(またはパーソナライズ化)である。パーソナライズ化は、ユーザからの追加データサンプルから収集を行い、学習することによって、認識器が、ある特定のユーザの筆跡に適応することを可能にする。明らかに、ユーザから必要とされるトレーニング用サンプルの数と、達成されるエラーレートの削減と、ユーザに対する認識される不都合との間には、トレードオフが存在する。トレーニングデータの量が多くなると、パーソナライズ化認識器が改良されるが、サンプルの入力、および/またはこのようなサンプルを使用するトレーニングに基づくユーザにとっての不都合はより大きくなる。
以下では、本明細書に記述するいくつかの態様の基本的な理解を提供するために、本革新事項(イノベーション)の簡略な要約を提示する。この要約は、特許請求の対象の包括的な概要ではない。特許請求の対象の主要または重大な要素を明らかにすることも、対象となる革新事項の範囲を詳述することも意図していない。後で提示するより詳細な説明の前置きとして、特許請求の対象のいくつかの概念を簡略な形で提示することだけを目的としている。
対象となる革新事項は、異書体(allograph)(例えば、キャラクタの形状および/またはスタイル)トレーニング分類手段(classifier)を使用して、筆跡に関連づけられたキャラクタの認識を円滑にするシステムおよび/または方法に関する。パーソナライズ化コンポーネントは、インターフェースを介して、手書きキャラクタに関連したデータを受け取ることができ、パーソナライズ化コンポーネントは、異書体データでトレーニングされた分類手段を利用することによって、手書きキャラクタの最適化された認識を実現することができる。異書体データは、例えば、自動的に生成および/または手作業で生成された、筆跡スタイルに関連したデータでよい。パーソナライズ化コンポーネントは、筆者適応を実現することができ、筆者適応は、一般的な(例えば、筆者非依存の)手書き認識手段を、特定の任意のユーザに対する正確さが向上したパーソナライズ化(例えば、筆者依存の)認識手段にコンバートするプロセスでよい。
さらに、パーソナライズ化コンポーネントは、異書体データでトレーニングされた第1の分類手段および非異書体データでトレーニングされた第2の分類手段を利用することによって、最適化された手書き文字認識を実現し、第1の分類手段および第2の分類手段の出力は組み合わせることができる。出力の組合せは、例えば、線形組合せ手段(combiner)、組合せ手段分類手段、サポートベクターマシン、線形分類手段、一連の規則などによって実装することができる。出力の組合せは、筆跡の認識および/または分析の強化を実現する。さらに、出力の組合せの利用は、ユーザの筆跡サンプルを使用することによって、最適化することができる。
特許請求の対象の一態様によると、パーソナライズ化コンポーネントは、最適化された手書き文字認識を実現するように少なくとも1つの分類手段をトレーニングするための異書体データを生成する異書体コンポーネントをさらに使用することができる。異書体コンポーネントは、自動的に、手作業で、および/またはそのどの組合せでも、異書体データを生成することができる。例えば、クラスタリングは、手書きキャラクタから異書体(例えば、キャラクタの形状および/またはスタイル)および/または異書体データを自動的に識別するように実装することができる。別の例では、異書体データは、筆跡に関連づけられたタイプおよび/またはスタイルを提供するための筆跡エキスパートを使用して、手作業で提供することができる。さらに、異書体コンポーネントは、例えば、距離尺度として動的時間伸縮(DTW:dynamic time warping)を利用する階層集積クラスタリング手法を用いて、キャラクタの書き方(例えば、異書体および/または異書体データ)を識別することができる。
特許請求の対象の別の態様によると、パーソナライズ化コンポーネントは、対象となる革新事項による少なくとも1つの分類器を利用するための分類器コンポーネントをさらに使用することができる。分類器コンポーネントは、異書体データでトレーニングすることができる第1の分類器を利用することができる。例えば、第1の分類器は、ニューラルネットワークでよい。分類器コンポーネントは、非異書体データでトレーニングすることができる第2の分類器をさらに利用することができる。第1および第2の分類器両方を利用することによって、組合せコンポーネントを使用して異質の出力を組み合わせることができる。組合せコンポーネントは、例えば線形組合せ器、組合せ器分類器、線形分類器、サポートベクターマシンなど、様々な組合せ技術を使用することができる。特許請求の対象の他の態様では、特定のユーザに関連づけられた手書きキャラクタの分析を円滑にする方法が提供される。
以下の説明および添付の図面では、特許請求の対象の特定の例示的な態様を詳細に説明する。ただし、こうした態様は、本革新事項の原理を利用することができる様々な方法のごくわずかを示すにすぎず、特許請求の対象は、このような態様およびその等価物すべてを含むことを意図している。特許請求の対象の他の目的、利点および新規の特徴は、本革新事項の以下の詳細な説明を図面と併せ読むことにより、明らかになるであろう。
図面を参照して特許請求の対象を説明するが、同じ参照番号は、全体を通して同じ要素を指すのに使用している。以下の記述では、説明の目的で、具体的な多くの詳細を、対象となる革新事項の完全な理解をもたらすために述べる。ただし、こうした具体的な詳細なしでも特許請求の対象を実施できることが明らかであろう。他の例では、対象となる革新事項を説明しやすくするために、公知の構造およびデバイスをブロック図の形で示す。
本明細書において使用する「コンポーネント」、「システム」、「インターフェース」などの用語は、コンピュータ関連のエンティティ、すなわちハードウェア、(例えば実行中の)ソフトウェア、および/またはファームウェアのいずれかを指すことを意図している。例えば、コンポーネントは、プロセッサ上で実行中のプロセス、プロセッサ、オブジェクト、実行ファイル、プログラム、および/またはコンピュータでよい。例として、サーバ上で実行されているアプリケーションおよびそのサーバが両方とも、コンポーネントとなり得る。1つのプロセス中に1つまたは複数のコンポーネントが存在してよく、コンポーネントは、1台のコンピュータに常駐することも、かつ/または2台以上のコンピュータの間に分散することもできる。
さらに、特許請求の対象は、開示する対象を実装するようにコンピュータを制御するためのソフトウェア、ファームウェア、ハードウェア、またはそのどの組合せも製作するための標準プログラミングおよび/またはエンジニアリング技法を用いる方法、機器、または製造品として実装することができる。本明細書で使用する「製造品」という用語は、どのコンピュータ可読デバイス、搬送波、または媒体からもアクセス可能なコンピュータプログラムを包含することを意図している。例えば、コンピュータ可読媒体は、磁気記憶デバイス(例えば、ハードディスク、フロッピー(登録商標)ディスク、磁気帯など)、光ディスク(例えば、コンパクトディスク(CD)、デジタル多用途ディスク(DVD)など)、スマートカード、およびフラッシュメモリデバイス(例えば、カード、スティック、キードライブなど)を含み得るが、それに限定されない。さらに、搬送波は、電子メールを送信し受信する際、またはインターネットやローカルエリアネットワーク(LAN)などのネットワークにアクセスする際に使われるような、コンピュータ可読な電子データを搬送するのに利用することができることを理解されたい。当然ながら、特許請求の対象の範囲からも精神からも逸脱することなく、この構成に対して多くの変更を加え得ることが当業者には理解されよう。さらに、「例示的」という言葉は、本明細書において、一例、事例、または例示となることを意味するために使われる。「例示的」として本明細書に記載するどの態様も設計も、必ずしも他の態様または設計よりも好まれ、または有利であることを企図するわけではない。
ここで図面に移ると、図1は、異書体トレーニング分類器を使用して、筆跡に関連づけられたキャラクタの認識を円滑にする例示的なシステム100を示す。システム100は、異書体データで分類器(図示せず)をトレーニングすることができるパーソナライズ化コンポーネント102を含むことができ、このようなトレーニングは、手書きキャラクタの認識を円滑にする。異書体データは、例えば、筆跡のスタイルに関連した、自動的に生成され、かつ/または手作業で生成されたデータでよい。パーソナライズ化コンポーネント102は、インターフェースコンポーネント104(本明細書において「インターフェース104」と呼ばれる)を介して、筆跡サンプルに関連した手書きキャラクタおよび/またはデータを受け取り、分類器のトレーニングにおける異書体データの利用に少なくとも部分的に基づいて、最適化された手書き文字認識を実現することができる。例えば、受け取ったデータは、手書きされたどのキャラクタおよび/またはユーザからの入力でもよい。例えば、様々なコンピューティングデバイスおよび/またはシステムは、タブレット、携帯情報端末(PDA)、移動通信デバイス、スタイラスペン、ワンド、タッチスクリーン能力などを有する対話型表示デバイスなどだが、それに限定されない手書き入力を使用する。
パーソナライズ化コンポーネント102は、筆者適応を実現することができ、筆者適応は、一般的な(例えば、筆者非依存の)手書き認識器を、特定の任意のユーザ向けに正確さを向上させたパーソナライズ化(例えば、筆者依存の)認識器にコンバートするプロセスになることができる。パーソナライズ化コンポーネント102は、ある特定のユーザからのいくつかのサンプルを用いて適応技法を実装することができ、一方で、従来技術では、数人の筆者および/またはユーザからの大量のデータを利用して、一般的な認識器をトレーニングする。
異書体データは、手作業で、自動的に、および/またはそのどの組合せでも生成することができる。例えば、異書体データは、適切などのクラスタリング技法(後で論じる)を利用しても、自動的に生成することができる。言い換えると、クラスタリングを通じた手書きキャラクタからの異書体(例えば、キャラクタの形状および/またはスタイル)を識別する自動的な手法を実装することができる。別の例では、異書体データは、筆跡に関連づけられたタイプおよび/またはスタイルを提供するための筆跡エキスパートを使用して手作業で提供することができる。
さらに、パーソナライズ化コンポーネント102は、異書体データで分類器をトレーニングし、このような結果を、非異書体に基づく分類器と共同で実施して、最適化された手書き文字認識を実現することができる。言い換えると、パーソナライズ化コンポーネント102は、既存の認識器(例えば、手書きキャラクタ認識器)とシームレスに統合し、ある個人からの新しいサンプルを利用して、それに等辺的(equilaterally)に改良を加えることができる。例えば、単に文字を突き合わせるのではなく、パーソナライズ化コンポーネント102は、文字および/またはキャラクタを特定のスタイルおよび/または異書体と突き合わせることができる。したがって、パーソナライズ化コンポーネント102は、ユーザの所与の書き方サンプルおよび/または例を学習可能であり得るマッピング技法および/または機能を使用することができる。パーソナライズ化コンポーネント102は、従来のおよび/または伝統的な分類器からの出力を使用して、手書き文字認識を最適化するために、各文字および/またはキャラクタの確率を与えるのにマップ関数および/または技法を適用することができる。
さらに、システム100は、適切な任意の、および/または必要なインターフェースコンポーネント104も含むことができ、このコンポーネントは、パーソナライズ化コンポーネント102をほぼどのオペレーティングおよび/またはデータベースシステム(群)にも統合するための様々なアダプタ、コネクタ、チャネル、通信経路などを提供する。さらに、インターフェースコンポーネント104は、パーソナライズ化コンポーネント102との対話、データ、手書きデータ、最適化された手書き文字認識に関連づけられたデータ、および最適化された手書き文字認識を提供する様々なアダプタ、コネクタ、チャネル、通信経路などを提供することができる。
図2は、手書きキャラクタ認識を利用するために異書体データの使用を円滑にする例示的なシステム200を示す。システム200は、異書体データを使用して分類器をトレーニングすることによって最適化された手書き文字認識を実現することができるパーソナライズ化コンポーネント202を含み得る。パーソナライズ化コンポーネント202は、インターフェース104を介して、手書きキャラクタおよび/または記号に関連したデータを受け取ることができ、パーソナライズ化コンポーネント202は、異書体でトレーニングされた分類器を利用することによって、キャラクタおよび/または記号を推測し、かつ/または認識することができる。さらに、パーソナライズ化コンポーネント202は、非異書体でトレーニングされた分類器に関連して、異書体でトレーニングされた分類器をさらに使用することができる。パーソナライズ化コンポーネント202は、図1に記載したパーソナライズ化コンポーネント102と実質的に同様でよいことを理解されたい。
パーソナライズ化コンポーネント202は、自動的に、手作業で、および/またはそのどの組合せでも異書体および/または異書体データを生成することができる異書体コンポーネント204を含み得る。クラスタリングを通じて手書きキャラクタから異書体(例えば、キャラクタの形状および/またはスタイル)を識別する自動的な手法を実装することができる。別の例では、異書体データは、筆跡に関連づけられたタイプおよび/またはスタイルを提供するための筆跡エキスパートを使用して手作業で提供することができる。
さらに、異書体コンポーネント204は、例えば、距離尺度として動的時間伸縮(DTW:Dynamic Time Warping)を利用する階層集積クラスタリング手法を用いて、キャラクタの書き方(例えば、異書体)を識別することができる。異書体コンポーネント204は、対象となる革新事項(innovation)に従って利用される適切などの異書体データおよび/または書き方も識別し、かつ/または見つけることができる。欧米式、ラテン式に基づく手書きの領域において、書き方における大きな変動が存在する。しかし、ユーザが漠然と支持し得る「異書体」と呼ぶことができる手書きキャラクタのスタイルが存在し得る。欧米式手書きスタイルのカタログを構築することが、何度か試みられてきたが、今日に至るまでカタログは存在していない。このことは、例えば、フォントおよびスタイルの擬似標準分類法が存在し得るマシン印刷フォントとは逆であるかもしれない。それにも関わらず、特定の任意の国の学校システムにおいては、一握りの筆跡スタイルが教えられており、ある特定のスタイルが所定のどの学区においても採用されている。
文字の筆跡スタイルをデータから学習するのに、階層クラスタリング技法を用いることができる。主に2つの手法が存在する。すなわち、1)大雑把なサブスタイルを検出するトップダウン手法、および2)ボトムアップクラスタリング手法である。異書体コンポーネント204は、例えば、システム200(例えば認識器)内で直接用いることができる、得られたスタイルの知識に少なくとも部分的に基づくボトムアップ手法を採用することができる。
手書き文字X={x1,x2,...,xM}のクラスタリングCは、
Figure 2009520305
となるように、K個の互いに素のセットからなるセット{c1,c2,...,cK}へのデータの分割を定義することができる。クラスタリングCは、すべての文字および/または記号に対してそれぞれ独立に計算される。階層クラスタリングアルゴリズムは、Cm-1がCmのサブセットとなるようなネストされたクラスタ[C1,C2,...,CM]からなる階層を生じる。この階層は、M個のステップで構築することができ、ステップmでのクラスタリングは、ステップm−1で生じたクラスタリングから生じることができる。ステップ1で、サンプルセットX中のすべてのメンバおよび/またはメンバの一部分は、それ自体のクラスタを表し得る。2つのクラスタの非類似度関数D(ck,ck')を使って、異書体コンポーネント204によって以下のアルゴリズムを適用することができる。すなわち、a)C1={{x1},{x2},...,{xM}}のように初期化し、ここで各サンプルは、単独でクラスタとなる。b)m=2,...,Mに関して、Cm-1の2つの最も類似したクラスタckminおよびck'minをマージすることによって、新規クラスタリングCmを取得する。最も近いクラスタは、(kmin,k’min)=arg min(k,k'),k≠k'D(ck,ck')によって定義することができる。
クラスタ非類似度関数D(ck,ck’)は、インクサンプル非類似度関数D(xk,xk')に従って定義することができる。各インクサンプルは、最初に、固定サイズの矩形内で等方的に正規化し、集中させることができる。インクサンプルk(例えば、画数Sを含む)、およびk’(例えば、画数S’を含む)に対して、
Figure 2009520305
となり、上式で、PおよびP’は、サンプルk、k’の対応する再サンプリングされた座標ベクトルであり、Nはサンプリング地点の数である。ベクトルP中の要素pは3つの座標(x,y,θ)を有し、ここでx、yは地点pの直交座標であり、θは同じ地点での傾斜の推定値である。
この定義を利用すると、異なる字画数を有するインクサンプルは、同じクラスタ中では一番最後までマージすることができない。その地点では、マージは実際にはストップしていることになる。
Figure 2009520305
∞まで異なる数の字画をもつ2つのインクサンプルの間の距離を定義するのに、平均値や最小値ではなく、最大値を使用することは、小型クラスタに好都合であることを理解されたい。
視覚化の目的のため、クラスタの代表となるインクサンプルを選択することができる。すべてのクラスタに対して選ばれる代表は、クラスタの中間地点でよい。クラスタckに対する中間地点x-kは、残りのクラスタメンバインクサンプルに関して、最小の中央値距離をもつインクサンプルとして定義することができる。
Figure 2009520305
図3を簡単に参照すると、図3は、キャラクタのクラスタリングに関連づけられた結果の可視化を円滑にする2分木300のブロック図を示す。各文字および/または記号に対するクラスタリングに関連し得る、異書体コンポーネント204からの結果は、非類似度デンドログラム(tendogram)と呼ばれる2分木300によって可視化することができる。2分木300は、文字「K」の、結果として生じたデンドログラムの例となり得る。2分木300は、字画ならびに/あるいは字画のトーンに関連づけられた暗さおよび/または明るさが起こる順序を組み込むことができることを理解されたい。
異書体コンポーネント204はさらに、異書体に関連したクラスタを自動的に生成し、利用されるクラスタの数を判定することができる。例えば、すべての文字および/または記号に対するクラスタの数は、クラスタのそれ以上のマージがそれを超えては起こり得ない閾値Dmaxを定義することによって判定することができる。言い換えると、マージがストップする時点でのアクティブなクラスタは、対応する文字のスタイルを表す。したがって、結果として生じるスタイルの数は、文字および/または記号の形状の多様性に応じて、ある文字とそれ以外の文字とでは異なり得る。
手短に図4に移ると、第1のテーブル400および第2のテーブル402は、特許請求の対象に従って使用することができる様々な筆跡スタイルに関連づけられている。第1のテーブル400は、大きな1組のインクサンプルに適用されるとき、異書体コンポーネント204によって使用される階層クラスタリングアルゴリズムの結果となり得る。第1のテーブル400は、文字q、t、Xに対する、結果として生じたスタイルおよび米国(US)の筆者における相対頻度を示す。第1のテーブル400は例であり、対象となる革新事項はそのように限定されないことを理解されたい。言い換えると、パーソナライズ化コンポーネント202は、こうしたスタイルを、米国の学校で教えられるスタイルにマップすることができる。
さらに、公知の学校の筆跡スタイル標準は、どのように文字が書かれるかを考慮せずに、最終的な形での文字の見え方を記述することを理解されたい。しかし、字画順序および字画方向(軌跡)は、異書体コンポーネント204による、上述したクラスタリングフェーズにおいて考慮することができる価値のある情報を提供し得る。
第2のテーブル402は、文字q、t、Xに対するスタイルの例および英国(UK)の筆者におけるその相対頻度を示す。USおよびUKスタイル(例えば、それぞれ第1のテーブル400および第2のテーブル402)を比較することによって、以下の主観的観察を行うことができる。すなわち、1)両方のセットにおける顕著なスタイルが、異なる頻度(例えば、文字qに対して示したUSおよびUKスタイルは、反例を示し得る。)ではあるが、文字のほとんどに対して同じであるように見える。2)一部の主流でない(fringe)(例えば、低頻度)スタイルが一方のセットには存在する場合があるが、他方には存在し得ない。3)主流でないスタイルが両方のセットに現れる場合でも、その頻度は大幅に異なり得ると思われる。
階層クラスタに適用されるときのDTW距離閾値の各選択は、図2の異書体コンポーネント204に、1組の互いに素のクラスタを生じさせることができる。距離閾値が大きいほど、得られるクラスタの数が少なくなる。例えば、100個のキャラクタ(例えば、ユーロおよびポンド符号を含む印刷可能なアスキー文字)に対して2002個の一意のクラスタを得るために、792という閾値を選ぶことができる。2002個のクラスタおよび100個のキャラクタがあると、1キャラクタにつき、キャラクタの様々な書式を表すおよそ20個の異書体があり得る。
図2に戻ると、パーソナライズ化コンポーネント202は、異書体コンポーネント204から生成された異書体データを使用してトレーニングされる少なくとも1つの分類器を利用することができる分類器コンポーネント206を含み得る。さらに、分類器コンポーネント206は、異書体データでトレーニングすることができる第1のニューラルネットワーク分類器と、非異書体データでトレーニングすることができる第2のニューラルネットワーク分類器とを使用することができ、第1および第2のニューラルネットワーク分類器の両方の出力は、組合せコンポーネント208(後で論じる)を利用することによって組み合わせることができる。分類器コンポーネント206は、非異書体データ、異書体データ、および/またはそのどの組合せも使用する、分類器のトレーニングに関連した適切などのコンポーネントおよび/またはデータも含み得ることを理解されたい。
さらに、分類器コンポーネント206は、特徴ベクトルを、少なくとも1つの分類器に対する入力として利用することができる。各手書きキャラクタは、連続した字画を表す一連の(x,y,t)セグメントとして見なすことができる。続けて書かれる1つまたは複数の字画は、キャラクタを構成し得る。例えば、各手書きキャラクタは、65個の多項特徴(polynomial features)を取得するように処理することができる。特許請求の対象に関連して、適切などの、および/または代替的な「特徴付け(featurizing)」も適用し、使用することができることを理解されたい。
キャラクタ用のインクは、キャラクタの底部にあるインクをカットすることによって、最初に様々なセグメントに分裂することができる。したがって、y座標が最小値に達し、他の方向に移動し始める所で、分裂が起こる。すると、セグメントはそれぞれ、チェビシェフ多項式の形で表すことができる。各キャラクタから、65個の特徴を含む特徴ベクトルを得ることができる。こうした特徴ベクトルは次いで、分類器コンポーネント206に関連づけられたニューラルネットワークそれぞれに入力として供給される。
分類器コンポーネント206は、異書体データおよび特徴ベクトルの少なくとも一方を使用して、少なくとも1つの分類器をさらにトレーニングすることができる。分類器コンポーネント206は、第1の認識器および第2の認識器を利用することができ、第1および第2の認識器は、特徴ベクトルを使用してトレーニングすることができることを理解されたい。ただし、対象となる革新事項は、以下の例によってそのように限定されないことも理解されたい。言い換えると、分類器コンポーネント206は、最適化された手書き文字認識を実現するように、異書体データを使用してトレーニングされた少なくとも1つの分類器を利用することができる。
図5に移ると、ニューラルネットワークおよび線形分類器をカスケード形式で含む第1の認識器500(例えば、ニューラルネットワーク異書体ニューラルネットワーク(NN))を示してある。ニューラルネットワーク500は、2002個の出力を有し、キャラクタ特徴ベクトル504をキャラクタの異書体にマップするようにトレーニングすることができる。線形組合せ器(異書体フォルダ)506は、再度2002個の異書体を100個のキャラクタクラスに折りたたむように、傾斜降下を用いてトレーニングすることができる。線形フォルダ506は、異書体NNの一部であると見なすことができる。第2の認識器502は、異書体情報を使わないニューラルネットワーク(例えば、基本NN)でよく、特徴ベクトル504を出力クラスに直接マップするようにトレーニングすることができる。両方のニューラルネットワークは、それぞれ2つの層を有する多層パーセプトロン(MLP)でよい。異書体NN500は1024個の隠れノードをもつことができ、基本NN502は、600個の隠れノードをもつことができる。エラー関数としての交差エントロピーでニューラルネットワークをトレーニングするのに、誤差逆伝搬を用いることができることを理解されたい。
図2を再度参照すると、パーソナライズ化コンポーネント202は、分類器コンポーネント206によって使用される少なくとも1つの分類器に関連づけられた出力を組み合わせるための組合せコンポーネント208を含み得る。2つのニューラルネットワーク(例えば、図5の異書体NN500および基本NN502)は、異質のアーキテクチャを有することに留意されたい。さらに、異書体NN500は、異書体データを用いてトレーニングすることができ、後者はそれができない。こうした違いにより、こうした2つの分類器によって生じるエラーは、大幅に異なることが予期できる。したがって、こうした2つの分類器を使う組合せコンポーネント208によって構築され、かつ/または利用されるどの組合せ器も、おそらく、いずれの分類器よりもエラーレートが低くなるであろう。
一例では、組合せコンポーネント208は、少なくとも2組の出力を組み合わせるのに、線形技法210を利用することができる。単純な線形分類器(例えば、線形技法210でよい線形組合せ器)は、異書体NNおよび筆者非依存の(非パーソナライズ化)認識器を含む基本NNの出力を組み合わせることができる。正確さをさらに向上するために、異書体分類器の出力は、組合せコンポーネント208に直接供給することもできる。
別の例では、組合せコンポーネント208は、少なくとも2つの分類器に関連づけられた出力を組み合わせるのに、パーソナライザ技法212を使用することができる。パーソナライザ技法212は、筆者非依存の認識器を、新しいトレーニング用サンプルを提供する現在のユーザに適応させることができる。言い換えると、パーソナライザ技法212は、2つのニューラルネットワーク(上で論じた)とのカスケード形式でよく、ニューラルネットワークからの出力がパーソナライザ技法212によって受け取られ、使用されるように、線形組合せ器(例えば、線形技法210によって具体例を示した)は、パーソナライザ技法212で置き換えることができる。
パーソナライザ技法212は、線形技法210と置き換わることができるが、データからトレーニングを行うことができる適切などの組合せ器分類器および/または技法も、線形組合せ器と置き換わるのに使用することができることを理解されたい。適切などの組合せ器分類器も、組合せコンポーネント208によって利用することができ、このような組合せ器分類器は、データからトレーニングを行うことができる(例えば、線形技法210と置き換わるとき)。少なくとも以下の理由から、パーソナライザ技法212用に、サポートベクターマシン(SVM)を選ぶことができることを理解されたい。すなわち、1)一般化:SVMは、一般化プロパティで知られている。ユーザから集められたサンプルの数(1クラス当たり)は非常に小さい(例えば、通常、例として、10または15より少ない)場合があるので、このようなわずかなサンプルで一般化を達成できることが重要である。SVMとは対照的に、非常に限られたトレーニングデータで十分に一般化するようにニューラルネットワークをトレーニングすることは、難しい場合がある。2)正則化:小さいデータセットで優れた一般化を達成する最も一般的な手法は、正則化であり得る。SVMは、自然な正則化法を実現する。容量を効果的に制御し、過剰適応の機会を削減するのに、モデル選択プロセスを用いることができる。3)マルチクラス:現時点で、マルチクラスSVMは、いくつかの2クラスSVMを用いて構築することができる。このことは、1クラス単位での正確さに対するより細かい微調整を可能にする。線形組合せ器のみをパーソナライズ化することができるので、全部の2クラスSVMが必要でなくてもよい。混同が最も高いクラスのペアに含めることに単に焦点を当てればよい。4)複雑さ:1対1の手法が用いられるとき、2クラス分類器の数は、C(n,2)に比例して増える(例えば、O(n2))。SVM内のサポートベクターは、ユーザが提供したサンプルのサブセットでよい。したがって、可能なクラスおよび分類器の数が急速に増えたとしても、サポートベクターの総数は、小さくてよいユーザサンプル数によって押さえることができる。さらに、組合せ器はパーソナライズ化することができるので、C(n,2)分類器の小さいサブセットを構築することができる。落とされる分類器はそれぞれ、非パーソナライズ認識器の出力が代わりに用いられるべきであることを示す単一ビットで表すことができる(例えば、落ちるペアに対して、SVM投票の間、票を取得するために非パーソナライズ組合せ器の出力の対応するペアを比較することができる)。
手短に図6を参照すると、対象となる革新事項による、パーソナライザサポートベクターマシンの利用を円滑にする例示的なシステム600のブロック図である。したがって、パーソナライザ(SVM)は、上述したように線形技法と置き換わることができる。
システム200は、様々なデータセットを使用して、実験に基づく結果を提供することができる。例えば、最適化された手書き文字認識(例えば、パーソナライズ化実験)を実現する際、以下のデータセットを使用することができる。1)第1のセット(例えば、非パーソナライズ化セット)は、215人のユーザからの200,000個の手書きキャラクタを含んでいた。非パーソナライズ認識器を構築するために、非パーソナライズ化データを用いることができる。2)第2のセット(例えば、パーソナライズ化セット)は、21人のユーザ(例えば、第1のセットにいる215人のユーザには含まれない)からの84,000個のサンプルを含んでいた。パーソナライズ化技法を評価するために、パーソナライズ化セットを設計することができる。
両方のセット中のデータは、以下によって与えられる100個の可能な欧米式手書きキャラクタクラスに渡って均一に分布させることができる。
Figure 2009520305
データセット両方の中のインクサンプルは、異書体コンポーネント204によって利用されるようなキャラクタを記述する特徴ベクトルを得るように特徴づけることができる(特徴ベクトルとともに上で論じた)。特徴ベクトルは、上で説明した認識器を構築するのに用いることができる。
非パーソナライズ化セットにある200,000個のインクサンプルは、上述したように、異書体コンポーネント204で階層状にクラスタリングすることができる。2002個の異書体を取得するために、例えば792という閾値を実装することができる。こうしたクラスタは、200,000個のサンプルそれぞれに対して異書体ラベルを割り当てるのに用いることができる。
一般的な認識器は、2つの分類器を含み得る。すなわち、a)異書体NN(異書体フォルダも含む)、およびb)基本NNである。非パーソナライズ化セットは、3つの部分にシャッフルし、分裂することができる。すなわち、トレーニング用に使われる160,000個のサンプル、認証用に使われる20,000個のサンプル(例えば、トレーニングをいつストップするか判定するため)、およびテスト用に使われる、残りの20,000個のサンプルである。非パーソナライズ化データセットに対する一般的な認識器の、報告された正確さは、20,000個のテストセットからのものである。図面それぞれにおいて、分類器の上に示される第1のパーセント値は、テストセットに対するエラーレートである。
異書体NN(例として、図5の500を参照)は、隠れた層の中の1024個のノードおよび2002個の出力ノード(例えば、1つの異書体につき1つ)を有する2階層の多階層パーセプトロン(例えば、双曲正接の非線形性)でよい。異書体フォルダは、異書体NN出力を100個の出力クラスにマップする単純な線形組合せ器でよい。基本NN(例として、図5の502を参照)も、600個の隠れノードおよび100個の出力(例えば、1つの出力クラスにつき1つ)を有する2階層の多階層パーセプトロン(例えば、双曲正接の非線形性)でよい。
分類器(例えば、異書体NN、異書体フォルダ、および基本NN)は、例えば、エラー測定として逆伝搬および交差エントロピーを用いて、非パーソナライズ化セットでそれぞれ独立にトレーニングすることができる。すべての重みは、例えば、[−0.05,0.05]で均一に、ランダムに初期化することができ、例えば0.001というトレーニングレートが、以下の実験において使われた。
一般的な組合せ器は、2202個の入力および100個の出力を有する単純な線形分類器でよい。一般的な組合せ器は、異書体NN(2002)、異書体フォルダ(100)および基本NN(100)の出力を含んで入力する。
パーソナライザは、最大でC(100,2)=4950個の2クラスSVMを用いる100クラスSVMでよい。一意のパーソナライザは、21人のユーザそれぞれ向けにトレーニングすることができる。パーソナライズ化データセット中の84,000個のサンプルは、21人のユーザそれぞれ向けの1キャラクタ当たり40個のサンプルを生じ得る。パーソナライザをトレーニングするのに、1キャラクタ当たり最大15個のサンプルを用いることができる。1キャラクタ当たりの残りの25個のサンプルは、純粋にテスト目的のために用いることができる。一般的なユーザは、パーソナライザのトレーニング用に、1キャラクタ当たり15個より多くのサンプルを提供することができないことを理解されたい。ただし、大きなテストセット(例えば、1キャラ当たり30個のサンプル)があると、パーソナライズ化認識器の性能の信頼できる評価法を実現することができる。
k=5、10、および15個のユーザサンプル(1クラス当たり)を使用して、各ユーザに3通りのパーソナライズザを構築することができる。こうしたk個のサンプルセットは、増加的に選択することができる(例えば、k=5セットに5個の新しいサンプルを追加することによって、例としてk=10個のセットを得ることができる)。k個のサンプルは、認識器をトレーニングするためだけでなく、それを正則化するのにも使うことができる。ceil(k/2)個のサンプルは、トレーニング用に使うことがで、floor(k/2)個のサンプルは、モデル選択用に使うことができる。RBFカーネルが、図6に示すように実装された。SVMモデル選択は、例えば、{2-5,2-4,...,214,215}のCおよび{2-10,2-9,...,25,24}のγを用いた単純なグリッド検索を利用して実施することができる。floor(k/2)個のサンプルに対する最良のエラーレートをもたらしたモデルからの(C,γ)パラメータ(例えば、SVMのトレーニング用には使われない)を、パーソナライザ用に選ぶことができる。このエラーレートは、パーソナライズ化認識器(後で論じる)のエラーレートとして報告される。
基本NN(図5の502に見える)は、非パーソナライズ化データセット(例えば、215人のユーザを含む)に対してトレーニングし、7.8%のテストエラーレートを達成することができる。パーソナライズ化データセット(215人のユーザには含まれない)中の21人のユーザからのデータに対してテストされると、エラーレートは、9.36%に増大した。これは、エラーレートにおける20%の相対的増大である。エラーレートにおけるこのような大幅な増大は、明らかに、ユーザ間変動が筆跡スタイルにおいてユーザ内変動よりもはるかに小さいことを示す。
異書体分類器は、キャラクタラベルだけでなく、キャラクタの書き方の予想も試みることができる。非パーソナライズ化データセットに対して、異書体分類器は、24.65%のエラーレートを達成することができ、これは非常に大きなエラーレートと解釈してよい。
ただし、2002個のキャラクタスタイルが、それに関連づけられた100個のキャラクタクラス(例えば、カスケード形式のシンプルフォルダを実装する)に折りたたまれると、エラーレートは、8.25%に低下する。所与のどのキャラクタに関しても、シンプルフォルダは、そのキャラクタに対応する異書体出力の和を返すことができる。
より優れたフォルダが、異なるクラスに渡る混同しやすい異書体を占め得ることを理解されたい。単純な線形フォルダ(例えば、全2002個の出力に渡る学習された重み付けされた和)が利用される(図5の500に見られる)と、非パーソナライズテストエラーレートは、5.9%に低下する。ただし、パーソナライズ化テストセットに対するエラーレートは、11.40%に劇的に増大する。エラーレートにおけるこの増大(93%)は、基本認識器に対して観察されたもの(20%)より大きく、異書体の分布が、非パーソナライズ化データセット中の215人のユーザと、パーソナライズ化データセット中の21人のユーザとの間で大幅に変化することを示す。ただし、異書体の分布が変化しても、どの新規ユーザに対しても、分類器の出力に渡る確率分布は、いくつかのサンプルに渡って実質的に同様でよい。言い換えると、エラーレートは増大するが、新規ユーザエラーは予想可能であり得る。したがって、パーソナライザは、こうしたエラーを削減するようにトレーニングすることができる。
図7は、線形組合せ器を利用する非パーソナライズ認識器の実装を円滑にする例示的なシステム700のブロック図を示す。このシステムは、手書きキャラクタおよび/または記号702、特徴704、基本NN706、異書体分類器708、異書体フォルダ710(「allogフォルダ710」とも呼ばれる)、および線形組合せ器712を含み得る。キャラクタおよび/または手書き記号702は、特徴704とともに使用することができ、特徴ベクトルを適用することができる(上述したように)。非パーソナライズ組合せ器は、異書体分類器708の2002個の出力、異書体フォルダ710の100個の出力、および基本分類器706からの100個の出力を入力としてとる線形分類器でよい。こうした入力は、100個の出力クラスにマップすることができる。非パーソナライズ組合せ器は、非パーソナライズ化データセットに対して5.8%のテストエラーレート、およびパーソナライズ化データセットに対して対応する9.51%のテストエラーレートを達成し得る。性能がわずかに向上した。
図8は、パーソナライザサポートベクターマシンを利用して手書きキャラクタの認識を円滑にする例示的なシステム800のブロック図を示す。システム800は、上で、具体的には図6で説明したパーソナライザ(SVM)と実質的に同様でよいパーソナライザ(SVM)を利用することができるパーソナライズ化認識器を示す。パーソナライズ化データセット中の21人のユーザそれぞれに対して、一意のパーソナライズ化認識器を構築することができる。パーソナライザは、平均エラーレートを9.51%から5.64%に削減することができる。40.6%を超える、エラーレートにおけるこの相対的削減は、個々のユーザそれぞれに合わせた認識器の調整において、パーソナライザが効果的であることを示す。
図9に移ると、対象となる革新事項による、グラフ化された結果である。グラフ902およびグラフ904は、15個のサンプルを用いたパーソナライズ化前後の、ユーザそれぞれに対するエラーレートを示す。図8のパーソナライザは、21人のユーザのうち20人に関して、エラーレートを削減することができる。ただし、1人のユーザ(例えば、グラフ902に関連づけられたユーザ12)に対しては、エラーの数が3.7%だけわずかに増大した(例えば、相対的増大)。
各パーソナライザのためのトレーニング時間は、300秒(例えば、5分)未満でよい。各ペアワイズSVM分類器(例えば、第1のクラスに対して8個のサンプル、および第2のクラスに対して8個のサンプルをとる)は、3.0GHzのプロセッサマシンをトレーニングするのに、約0.27ミリ秒かかり得る。4950個のペアワイズ分類器のトレーニングには、1.33秒かかり得る。ただし、これは、グリッド検索を用いるモデル選択用の255(C,γ)通りの設定それぞれに対して繰り返すことができる。より進化したモデル選択方法を用いると、1または2桁だけ削減することができる。トレーニング時間のそれ以上の削減は、混同行列中の最も大きい値に対応するペアワイズ分類器のみを構築することによって達成することができる。混同のないクラスペアは、パーソナライザから落とされ得る。使用される100個のクラス問題に対して、すべての非パーソナライズエラーレートが15%未満であると、単純な手法は、6倍を超える速度の向上を生じ得る。さらに、このような手法は、クラスの数が非常に大きいときに実装することができる。例えば、東アジア言語(例えば、日本語、中国語、韓国語など)は通常、数千のキャラクタを有する。ユーザは、最も誤認識されるキャラクタに対してのみ、わずかなサンプルを提供するものと期待することができる。さらに、ほとんどのユーザが、こうしたキャラクタのごく一部のみを使用し得る。
パーソナライズ化の間、ユーザに対して要求されるサンプルの数が大きくなると、パーソナライズ化エラーレートは低くなるが、ユーザは不快に感じるようになる。さらに、サンプル数の増加とともに、向上率が減少する。パーソナライズ化の実験は、各ユーザからの5、10、および15個のサンプル(例えば、1キャラクタ当たり)で繰り返すことができる。グラフ906は、ユーザサンプルの数に応じたパーソナライズ化エラーレートを示し得る。
パーソナライズ化エラーレートは、ユーザからの5、10、15個のサンプルで7.37%、6.06%、5.64%であった。こうした値は、それぞれ、23%、36%、41%の相対的削減に対応し得る。エラーレートの低下は、第1の5個のサンプルにおいて最も高くなり得る。エラーレートは、15個のサンプルの後、減少し続ける。ただし、向上率を考えると、ユーザから10または15個を超えるサンプルを集めると、エラーレートの後に続く削減を保証できなくなるように見えるが、このことは、ある特定のユーザの好みによって判定することができ、対象となる革新事項に関して限定されない。
別の例では、トレーニング用サンプルの数は、インクに基づく歪みを慎重に使用して拡大することができる。既存のインクサンプルから(非パーソナライズ化セットから)、単純な歪みモデルを仮定し、または構築することができる。次いで、このモデルを使うと、ユーザサンプルの10〜20倍の増大を生じ得る。歪みの使用は、画像に基づく分類器を設計する際に効果的であり得る。
図10は、異書体トレーニング分類器を使用して、筆跡に関連づけられたキャラクタの認識を円滑にするためにインテリジェンスを利用する例示的なシステム1000のブロック図を示す。システム1000は、以前の図面において記載したそれぞれのコンポーネント、データ、および認識とすべてが実質的に同様でよいパーソナライズ化コンポーネント1002、インターフェース104、データ、および最適化された手書き文字認識を含み得る。システム1000は、インテリジェントコンポーネント1004をさらに含む。インテリジェントコンポーネント1004は、パーソナライズ化コンポーネント1002によって、異書体分類器および非異書体分類器を使用して、最適化された手書きキャラクタ認識を実現するのに使用することができる。例えば、インテリジェントコンポーネント1004は、手書きキャラクタ、手書きキャラクタの変質、領域固有パッケージ、異書体との関連づけなどを推測することができる。
インテリジェントコンポーネント1004は、イベントおよび/またはデータを介して取り込まれた1組の観察結果から、システム、環境、および/またはユーザの状態についての推論を実現、すなわち推測できることを理解されたい。推測は、例えば、具体的なコンテクストまたはアクションを識別するのに利用することもでき、複数の状態に及ぶ確率分布を生成することもできる。推測は、確率的でよく、つまり、データおよびイベントの考慮に基づく、対象となっている複数の状態に及ぶ確率分布の計算でよい。推測は、1組のイベントおよび/またはデータからの上位レベルのイベントの構築に利用される技術も指し得る。このような推測の結果、イベントが近時間近接で相関付けられていてもいなくても、かつイベントおよびデータが1つのイベントおよびデータソースに由来するのか、それともいくつかのイベントおよびデータソースに由来するのかに関わらず、観察された1組のイベントおよび/または格納されたイベントデータから、新しいイベントまたはアクションが構成される。様々な分類(明示的にかつ/または暗黙的にトレーニングされた)方式および/またはシステム(例えば、サポートベクターマシン、ニューラルネットワーク、エキスパートシステム、ベイズの確信ネットワーク(Bayesian belief network)、ファジー論理、データ融合エンジンなど)を、特許請求の対象に関連して、自動および/または推測によるアクション実施と関連して利用することができる。
分類器とは、入力属性ベクトル、すなわちx=(x1、x2、x3、x4、xn)を、入力があるクラスに属す確信度にマップする関数、つまりf(x)=confidence(class)である。このような分類は、確率および/または統計に基づく分析(例えば、分析ユーティリティおよびコストへの因数分解)を利用して、ユーザが自動的に実施させたいと望むアクションを予知し、または推測することができる。サポートベクターマシン(SVM)は、利用可能な分類器の例である。SVMは、超曲面が非トリガイベントからトリガ基準を分裂させようと試みる、入力が起こり得るスペース中の超曲面を発見することによって動作する。直観的に、こうすることによって、トレーニングデータと近似しているが同一ではないテスト用データを分類によって補正する。相異なるパターンの独立を実現する、例えば単純ベイズ、ベイズのネットワーク、決定木、ニューラルネットワーク、ファジー論理モデル、および確率的分類モデルを含む他の有向および無向モデル分類手法も利用することができる。本明細書で使用する分類も、優先度のモデルを開発するのに使用される統計的回帰を含む。
表示コンポーネント1006は、ユーザと、パーソナライズ化コンポーネント1002に結合されたどのコンポーネントとの間の対話も円滑にするための様々なタイプのユーザインターフェースを提供することができる。図に示すように、表示コンポーネント1006は、パーソナライズ化コンポーネント1002とともに使うことができる別個のエンティティである。ただし、表示コンポーネント1006および/または同様のビューコンポーネントは、パーソナライズ化コンポーネント1002に組み込むこともでき、かつ/またはスタンドアロンユニットでもよいことを理解されたい。表示コンポーネント1006は、1つまたは複数のグラフィカルユーザインターフェース(GUI)、コマンドラインインターフェースなどを提供することができる。例えば、データをロードし、インポートし、読み込むなどするための領域または手段をユーザに提供するGUIをレンダリングすることができ、GUIは、このような操作の結果を提示するための領域を含み得る。こうした領域は、編集コントロール、コンボボックス、ラジオボタン、チェックボックス、プッシュボタン、および画像ボックスとして、ダイアログボックス、静的コントロール、ドロップダウンメニュー、リストボックス、ポップアップメニューを備える公知のテキストおよび/または画像領域を備え得る。さらに、ナビゲーション用の垂直および/または水平スクロールバー、ならびに領域が閲覧可能になるかどうか決定するためのツールバーボタンなどの提示を円滑にするためのユーティリティを利用することができる。例えば、ユーザは、パーソナライズ化コンポーネント1002に結合されたコンポーネントの1つまたは複数と対話することができる。
ユーザは、例えば、マウス、ローラーボール、キーパッド、キーボード、ペンおよび/またはボイスアクティベーションなど、様々なデバイスを介して情報を選択し提供するために、領域と対話することもできる。通常、プッシュボタンやキーボード上のエンターキーなどの機構を、検索を開始するために、その後の情報入力に利用することができる。ただし、特許請求の対象は、そのように限定されないことを理解されたい。例えば、チェックボックスを単に強調表示するだけで、情報の伝達を開始することができる。別の例では、コマンドラインインターフェースを利用することができる。例えば、コマンドラインインターフェースは、ユーザに、テキストメッセージを与えることにより、情報の入力を促す(例えば、ディスプレイ上のテキストメッセージおよび音声トーンを介して)ことができる。ユーザは次いで、インターフェースの入力要求や、入力要求において持ち出された質問への回答に対して提供される選択肢に対応する文字数字入力など、適切な情報を提供することができる。コマンドラインインターフェースは、GUIおよび/またはAPIと関連して利用できることを理解されたい。さらに、コマンドラインインターフェースは、画像サポートが限られた、かつ/または通信チャネルが低帯域幅のハードウェア(例えば、ビデオカード)および/またはディスプレイ(例えば、白黒、およびEGA)と関連して利用することができる。
図11〜12は、特許請求の対象による方法を示す。説明を簡単にするために、こうした方法は一連の作用として示してある。対象となる革新事項は例示した作用および/または作用の順序に限定されないことを理解されたい。例えば、作用は、様々な順序で、かつ/または並行して起こってよく、本明細書に提示も記述もしていない他の作用とともに起こり得る。さらに、例示するすべての作用が、特許請求の対象による方法の実装に必要となるわけではない。さらに、本方法は、別法として、状態図またはイベントによる相関付けられた一連の状態として表すことができることが、当業者には理解されよう。さらに、これ以降で、かつ本明細書を通して開示する方法は、このような方法のコンピュータへの移送および転送を円滑にするために、製造品上に格納することが可能であることをさらに理解されたい。本明細書で使用する製造品という用語は、どのコンピュータ可読デバイス、搬送波、または媒体からもアクセス可能なコンピュータプログラムを包含することを意図している。
図11は、手書き文字認識を実現するために、異書体データで少なくとも1つの分類器をトレーニングする方法論1100を示す。参照番号1102で、異書体データを生成することができる。異書体データは、自動的に、手作業で、かつ/またはそのどの組合せでも生成することができる。例えば、異書体データは、適切などのクラスタリング技法(後で論じる)を利用しても、自動的に生成することができる。言い換えると、クラスタリングを通じた、手書きキャラクタから異書体(例えば、キャラクタの形状および/またはスタイル)を識別する自動的な手法を実装することができる。別の例では、異書体データは、例えば、地理的領域、学区、言語、および書き方などに基づく筆跡に関連づけられたタイプおよび/またはスタイルを提供するための筆跡エキスパートを使用して、手作業で提供することができる。ユーザが漠然と支持し得る「異書体」と呼ぶことができる手書きキャラクタのスタイルが存在し得ることを理解されたい。欧米式手書きスタイルのカタログを構築することが、何度か試みられてきたが、今日に至るまでカタログは存在していない。それにも関わらず、特定の任意の国の学校システムにおいては、一握りの筆跡スタイルが教えられており、ある特定のスタイルが所与のどの学区においても採用されている。
参照番号1104で、異書体データを使用して、分類器をトレーニングすることができる。例えば、異書体ニューラルネットワーク(NN)認識器は、線形分類器とのカスケード形式でよく、NNからの出力は、キャラクタ特徴ベクトルをキャラクタ異書体データにマップすることができる。線形組合せ器(例えば、異書体フォルダ)は、異書体データを使ってトレーニングすることができる。異書体トレーニング分類器は、手書き文字認識の正確さを向上させるために、非異書体トレーニング分類器と組み合わせることができることを理解されたい。参照番号1106で、異書体データでトレーニングされた分類器を利用することによって、手書きキャラクタの最適化された手書き文字認識を実現することができる。
図12は、最適化された手書き文字認識の実現を円滑にする方法論1200を示す。参照番号1202で、手書き文字認識をそれに対して実装することができる手書きキャラクタを受け取ることができる。参照番号1204で、異書体を作成することができ、特徴ベクトルを使用することができる。異書体は、自動的に、手作業で、および/またはそのどの組合せでも作成することができる。例えば、異書体は、(例えば、上述した)クラスタリングを使用して、自動的に作成することができる。
参照番号1206で、異書体データで第1の分類器をトレーニングすることができ、非異書体データで第2の分類器をトレーニングすることができる。第1の分類器は、異書体分類器(例えば、上述した異書体NN)でよい。第2の分類器は、基本分類器(例えば、上述した基本NN)でよい。参照番号1208で、第1および第2の分類器の出力を組み合わせることができる。出力の組合せは、例えば、線形分類器(例えば、線形組合せ器)、パーソナライザ、RBFカーネル、サポートベクターマシン(SVM)などだが、それに限定されない、適切などの組合せ器によっても実装することができる。第1および第2の分類器の出力を組み合わせることによって、受け取った手書きキャラクタの、最適化された、優れた手書き文字認識を実現することができる。
特許請求の対象の様々な態様を実装する状況をさらに規定するために、図13〜14および以下の説明は、対象となる革新事項の様々な態様を実装することができる適切なコンピューティング環境の、簡潔で一般的な説明を与えることを意図している。例えば、パーソナライズ化コンポーネントは、以前の図面において記載したように、異書体データでトレーニングされた、少なくとも1つの分類器を使用して、最適化され、かつ/または強化された手書き文字認識を実現し、このような適切なコンピューティング環境において実装することができる。これまで、ローカルコンピュータおよび/またはリモートコンピュータ上で実行されるコンピュータプログラムのコンピュータ実行可能命令という一般的な状況において特許請求の対象を説明したが、対象となる革新事項は他のプログラムモジュールとの組合せでも実装できることが当業者には理解されよう。概して、プログラムモジュールは、特定のタスクを実施し、かつ/または特定の抽象データタイプを実装するルーチン、プログラム、コンポーネント、データ構造などを含む。
さらに、本発明の方法は、他のコンピュータシステム構成とともに実施できることが当業者には理解されよう。他のコンピュータシステム構成は、シングルプロセッサコンピュータシステムまたはマルチプロセッサコンピュータシステム、ミニコンピュータ、メインフレームコンピュータ、ならびにパーソナルコンピュータ、ハンドヘルドコンピューティングデバイス、マイクロプロセッサベースの家電製品および/またはプログラム可能な家電製品などを含み、こうしたシステムはそれぞれ、関連づけられた1つまたは複数のデバイスと動作可能に通信することができる。例示した特許請求の対象の態様は、通信ネットワークを介してリンクされるリモート処理デバイスによって特定のタスクが実施される分散型コンピューティング環境でも実施することができる。ただし、すべてではなくともいくつかの対象となる革新事項の態様は、スタンドアロンコンピュータにおいても実施することができる。分散型コンピューティング環境では、プログラムモジュールは、ローカルメモリ記憶デバイスまたはリモートメモリ記憶デバイス内またはその両方に配置することができる。
図13は、特許請求の対象と相互作用し得る例としてのコンピューティング環境1300の概略的なブロック図である。システム1300は、1つまたは複数のクライアント(群)1310を含む。クライアント(群)1310は、ハードウェアおよび/またはソフトウェア(例えば、スレッド、プロセス、コンピューティングデバイス)でよい。システム1300は、1つまたは複数のサーバ(群)1320も含む。サーバ(群)1320は、ハードウェアおよび/またはソフトウェア(例えば、スレッド、プロセス、コンピューティングデバイス)でよい。サーバ1320は、例えば、対象となる革新事項を利用して変換を実施するためのスレッドを収容することができる。
クライアント1310とサーバ1320の間で起こり得る1つの通信内容は、2つ以上のコンピュータプロセスの間で伝送されるように適合されたデータパケットの形をとり得る。システム1300は、クライアント(群)1310とサーバ(群)1320の間の通信を円滑にするのに利用することができる通信フレームワーク1340を含む。クライアント(群)1310は、クライアント(群)1310にローカルな情報を格納するのに利用することができる、1つまたは複数のクライアントデータストア(群)1350に動作可能に接続される。同様に、サーバ(群)1320は、サーバ1320にローカルな情報を格納するのに利用することができる、1つまたは複数のサーバデータストア(群)1330に動作可能に接続される。
図14を参照すると、特許請求の対象の様々な態様を実装する例示的な環境1400が、コンピュータ1412を含む。コンピュータ1412は、処理ユニット1414、システムメモリ1416、およびシステムバス1418を含む。システムバス1418は、システムメモリ1416を含むがそれに限定されないシステムコンポーネントを処理ユニット1414に結合する。処理ユニット1414は、市販されている様々なプロセッサのいずれでもよい。デュアルマイクロプロセッサおよび他のマルチプロセッサアーキテクチャも、処理ユニット1414として利用することができる。
システムバス1418は、市販されている様々などのバスアーキテクチャも用いるメモリバスもしくはメモリコントローラ、周辺バスもしくは外部バス、および/またはローカルバスを含むいくつかのタイプのバス構造(群)のどれでもよく、こうしたバス構造は、業界標準アーキテクチャ(ISA)、マイクロチャネルアーキテクチャ(MSA)、拡張ISA(EISA)、インテリジェントドライブエレクトロニクス(IDE)、VESAローカルバス(VLB)、周辺装置相互接続(PCI)、カードバス、ユニバーサルシリアルバス(USB)、拡張グラフィックスポート(AGP)、PCカードアダプタ(PCMCIA)、ファイアワイア(IEEE1394)、および小型コンピュータシステムインターフェース(SCSI)を含むが、それに限定されない。
システムメモリ1416は、揮発性メモリ1420および不揮発性メモリ1422を含む。例えば起動中に、コンピュータ1412内部の要素の間で情報を転送するための基本ルーチンを含む基本入出力システム(BIOS)が、不揮発性メモリ1422に格納される。限定ではなく例として、不揮発性メモリ1422は、読出し専用メモリ(ROM)、プログラム可能ROM(PROM)、電気的プログラム可能ROM(EPROM)、電気的消去可能プログラム可能ROM(EEPROM)、またはフラッシュメモリを含み得る。揮発性メモリ1420は、外部キャッシュメモリとして作用するランダムアクセスメモリ(RAM)を含む。限定ではなく例として、RAMは、スタティックRAM(SRAM)、ダイナミックRAM(DRAM)、シンクロナスDRAM(SDRAM)、ダブルデータレート方式SDRAM(DDR SDRAM)、拡張SDRAM(ESDRAM)、シンクリンクDRAM(SLDRAM)、およびランバスダイレクトRAM(RDRAM)、ダイレクトランバスダイナミックRAM(DRDRAM)、ランバスダイナミックRAM(RDRAM)など、多くの形で市販されている。
コンピュータ1412は、取外し可能/固定式、揮発性/不揮発性コンピュータ記憶媒体も含む。図14は、例えばディスク記憶装置1424を示す。ディスク記憶装置1424は、磁気ディスクドライブ、フロッピー(登録商標)ディスクドライブ、テープドライブ、Jazドライブ、Zipドライブ、LS−100ドライブ、フラッシュメモリカード、またはメモリスティックなどのデバイスを含むが、それに限定されない。さらに、ディスク記憶装置1424は、記憶媒体を別個に含むことも、コンパクトディスクROMデバイス(CD−ROM)、書込み可能CDドライブ(CD−Rドライブ)、書換え可能CDドライブ(CD−RWドライブ)、またはデジタル多目的ディスクROMドライブ(DVD−ROM)などの光ディスクドライブを含むがそれに限定されない他の記憶媒体と組み合わせて含むこともできる。システムバス1418へのディスク記憶装置1424の接続を円滑にするために、インターフェース1426などの取外し可能または固定式インターフェースが、通常は使われる。
図14は、適切な動作環境1400において述べられる、ユーザと基本的なコンピュータリソースとの間の媒介として作用するソフトウェアを示すことを理解されたい。このようなソフトウェアは、オペレーティングシステム1428を含む。オペレーティングシステム1428は、ディスク記憶装置1424に格納することができ、コンピュータシステム1412のリソースを制御し割り振るように作用する。システムアプリケーション1430は、システムメモリ1416またはディスク記憶装置1424のどちらかに格納された、プログラムモジュール1432およびプログラムデータ1434を介して、オペレーティングシステム1428によるリソース管理を活用する。特許請求の対象は、様々なオペレーティングシステム、またはオペレーティングシステムの組合せを用いて実装できることを理解されたい。
ユーザは、入力デバイス(群)1436を介して、コマンドまたは情報をコンピュータ1412に入力する。入力デバイス1436は、ポインティングデバイス、例えばマウス、トラックボール、スタイラス、タッチパッド、キーボード、マイクロホン、ジョイスティック、ゲームパッド、衛星パラボラアンテナ、スキャナ、TVチューナカード、デジタルカメラ、デジタルビデオカメラ、ウェブカメラなどを含むが、それに限定されない。こうしたおよび他の入力デバイスは、インターフェースポート(群)1438を介して、システムバス1418によって処理ユニット1414に接続される。インターフェースポート(群)1438は、例えば、シリアルポート、パラレルポート、ゲームポート、およびユニバーサルシリアルバス(USB)を含む。出力デバイス(群)1440は、入力デバイス(群)1436と同じタイプのポートの一部を使う。したがって、例えば、USBポートは、コンピュータ1412への入力を可能にし、コンピュータ1412から出力デバイス1440に情報を出力するのに用いることができる。出力アダプタ1442は、他の出力デバイス1440の中でも、専用アダプタを必要とする、モニタ、スピーカ、およびプリンタのようないくつかの出力デバイス1440があることを示すために図示してある。出力アダプタ1442は、限定ではなく例として、出力デバイス1440とシステムバス1418の間の接続手段を提供するビデオカードおよびサウンドカードを含む。リモートコンピュータ(群)1444など、他のデバイスおよび/またはデバイスからなるシステムは、入力および出力機能両方を提供することに留意されたい。
コンピュータ1412は、1つまたは複数のリモートコンピュータ、例えばリモートコンピュータ(群)1444への論理接続を使用してネットワーク接続された環境において動作することができる。リモートコンピュータ(群)1444は、パーソナルコンピュータ、サーバ、ルータ、ネットワークPC、ワークステーション、マイクロプロセッサベースの機器、ピアデバイスまたは他の共通ネットワークノードなどでよく、通常、コンピュータ1412に関連して説明した要素の多くまたはすべてを含む。簡潔にするために、メモリ記憶装置1446のみをリモートコンピュータ(群)1444とともに示してある。リモートコンピュータ(群)1444は、ネットワークインターフェース1448を介してコンピュータ1412に論理的に接続され、さらに通信接続手段1450を介して物理的に接続される。ネットワークインターフェース1448は、ローカルエリアネットワーク(LAN)およびワイドエリアネットワーク(WAN)などの有線および/または無線通信ネットワークを包含する。LAN技術は、光ファイバ分散データインターフェース(FDDI)、銅線配線データインターフェース(CDDI)、イーサネット(登録商標)、トークンリングなどを含む。WAN技術は、二地点間リンク、統合サービスデジタルネットワーク(ISDN)のような回路交換ネットワークおよびその変形、パケット交換ネットワーク、ならびにデジタル加入者線(DSL)を含むが、それに限定されない。
通信接続手段(群)1450は、ネットワークインターフェース1448をバス1418に接続するのに利用されるハードウェア/ソフトウェアを指す。通信接続手段1450は、説明をわかりやすくするためにコンピュータ1412内部に示してあるが、コンピュータ1412の外部にあってもよい。ネットワークインターフェース1448への接続に必要なハードウェア/ソフトウェアは、単なる例として、標準的な電話レベルのモデム、ケーブルモデム、およびDSLモデムを含むモデム、ISDNアダプタ、ならびにイーサネット(登録商標)カードなど、内部および外部技術を含む。
上で説明した内容は、特許請求の対象のいくつかの例を含む。当然ながら、特許請求の対象を説明するためのコンポーネントまたは方法のあらゆる組合せを説明することはできないが、対象となる革新事項のさらに多くの組合せおよび入替えが可能であることが当業者には理解されよう。したがって、特許請求の対象は、添付の請求項の精神およびその範囲内であるこのようなすべての変更形態、修正形態、および変形形態を包含することを意図したものである。
特に、上述したコンポーネント、デバイス、回路、システムなどによって実施される様々な機能に関して、このようなコンポーネントを説明するのに用いた用語(「手段」への言及も含む)は、特に示さない限り、説明した(例えば、機能的に等価な)コンポーネントの指定された機能を実施するとともに、開示した構造と構造的に等価でないとしても、本明細書において示した特許請求の対象の例示的な態様においてそうした機能を実施する、どのコンポーネントにも対応することを意図している。この点に関して、対象となる革新事項は、システムならびに特許請求の対象の様々な方法の作用および/またはイベントを実施するコンピュータ実行可能命令を有するコンピュータ可読媒体を含むことも理解されよう。
さらに、対象となる革新事項のある特定の特徴は、いくつかの実装形態のただ1つに関して開示したが、このような特徴は、所与のまたは特定のどのアプリケーションにとっても望ましく、有利であるように、他の実装形態の他の1つまたは複数の特徴と組み合わせることができる。さらに、詳細な説明または特許請求の範囲において「含む」という用語およびその変形が使われている限りでは、そうした用語は、「備える」という用語と同様に包括的であることを意図している。
異書体トレーニング分類器を使用して、筆跡に関連づけられたキャラクタの認識を円滑にする例示的なシステムを示すブロック図である。 手書きキャラクタ認識を利用するために異書体データの使用を円滑にする例示的なシステムを示すブロック図である。 キャラクタのクラスタリングに関連づけられた結果の可視化を円滑にする2分木を示すブロック図である。 特許請求の対象に従って使用することができる様々な筆跡スタイルに関連づけられたテーブルを示すブロック図である。 異書体分類器および基本分類器の使用を円滑にする例示的なシステムを示すブロック図である。 対象となる革新事項による、パーソナライザサポートベクターマシンの利用を円滑にする例示的なシステムを示すブロック図である。 線形組合せ器を利用する非パーソナライズ認識器の実装を円滑にする例示的なシステムを示すブロック図である。 パーソナライザサポートベクターマシンを利用して手書きキャラクタの認識を円滑にする例示的なシステムを示すブロック図である。 対象となる革新事項による、グラフ化された結果を示す図である。 異書体トレーニング分類器を使用して、筆跡に関連づけられたキャラクタの認識を円滑にする例示的なシステムを示すブロック図である。 手書き文字認識を実現するために、異書体データで少なくとも1つの分類器をトレーニングする例示的な方法論を示す図である。 最適化された手書き文字認識の実現を円滑にする例示的な方法論を示す図である。 特許請求の対象の新規態様を利用することができる例示的なネットワーク接続環境を示す図である。 特許請求の対象に従って利用することができる例示的な動作環境を示す図である。

Claims (20)

  1. 手書き分析を円滑にするシステムであって、
    少なくとも1つの手書きキャラクタを受け取るインターフェースコンポーネントと、
    前記少なくとも1つの手書きキャラクタの手書き文字認識を実現するように、筆跡スタイルに関連した異書体データに基づいて分類手段をトレーニングするパーソナライズ化コンポーネントと
    を備えることを特徴とするシステム。
  2. 異書体データを生成する異書体コンポーネントをさらに備えることを特徴とする請求項1に記載のシステム。
  3. 前記異書体コンポーネントは、クラスタリング技法を使用して異書体データを自動的に生成することを特徴とする請求項2に記載のシステム。
  4. 前記クラスタリング技法の結果は、2分木および非類似度デンドログラムの少なくとも一方によって可視化されることを特徴とする請求項2に記載のシステム。
  5. 前記クラスタリング技法は、距離尺度として動的時間伸縮を使用する階層集積クラスタリング手法であることを特徴とする請求項3に記載のシステム。
  6. 異書体ニューラルネットワークに入力を提供するために多項特徴技法を使用する異書体ニューラルネットワーク(異書体NN)である第1の認識手段を利用する分類手段コンポーネントをさらに備えることを特徴とする請求項1に記載のシステム。
  7. 前記異書体NNは異書体データを使用してトレーニングされることを特徴とする請求項6に記載のシステム。
  8. 前記第1の認識手段および前記異書体NNは、シンプルフォルダ、線形フォルダ、および異書体フォルダの少なくとも1つを使用することを特徴とする請求項6に記載のシステム。
  9. 前記分類手段コンポーネントは、多項特徴技法を使用する基本ニューラルネットワーク(基本NN)である第2の認識手段を、基本ニューラルネットワークに入力を与えるのに利用することを特徴とする請求項6に記載のシステム。
  10. 前記基本NNは、非異書体データを使用してトレーニングされることを特徴とする請求項9に記載のシステム。
  11. 前記第1の認識手段の出力および前記第2の認識手段の出力を組み合わせることができる組合せコンポーネントをさらに備えることを特徴とする請求項9に記載のシステム。
  12. 前記組合せコンポーネントは、線形組合せ手段および線形分類手段の少なくとも一方を利用することを特徴とする請求項11に記載のシステム。
  13. 前記組合せコンポーネントは、データから学習することができる組合せ手段分類手段を利用することを特徴とする請求項11に記載のシステム。
  14. 前記組合せ手段分類手段はサポートベクターマシンであることを特徴とする請求項13に記載のシステム。
  15. 前記サポートベクターマシンは、ユーザからの筆跡サンプルを使用して、前記第1の認識手段の出力および前記第2の認識手段の出力を最適なやり方で組み合わせることを学習することを特徴とする請求項14に記載のシステム。
  16. 前記パーソナライズ化コンポーネントは、疲労による変質を考慮に入れて、前記手書きキャラクタを推測することを特徴とする請求項1に記載のシステム。
  17. 前記異書体データは、地理的領域、学区、言語、および書き方の少なくとも1つに少なくとも部分的に基づき得ることを特徴とする請求項1に記載のシステム。
  18. 手書き文字認識の実現を円滑にするマシン実行方法であって、
    異書体データを生成するステップと、
    前記異書体データを使用して第1の分類手段をトレーニングするステップと、
    手書きキャラクタの最適化された手書き文字認識を実現するステップと
    を含むことを特徴とする方法。
  19. 手書きキャラクタを受け取るステップと、
    異書体データを自動的に作成し、第2の分類手段を非異書体データでトレーニングする特徴ベクトルを与えるステップと、
    線形組合せ手段、パーソナライザ、サポートベクターマシン(SVM)、および組合せ手段分類手段の少なくとも1つを使用して、前記第1および第2の分類手段の出力を組み合わせるステップと
    をさらに含むことを特徴とする請求項18に記載の方法。
  20. 手書き分析を円滑にするマシン実装システムであって、
    少なくとも1つの手書きキャラクタを受け取る手段と、
    筆跡スタイルに関連した異書体データに基づいて、前記少なくとも1つの手書きキャラクタの手書き文字認識を実現するように分類手段をトレーニングする手段と
    を備えることを特徴とするシステム。
JP2008547437A 2005-12-19 2006-12-18 手書きキャラクタ認識のための異書体に基づく筆者適応 Expired - Fee Related JP5255450B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/305,968 US7646913B2 (en) 2005-12-19 2005-12-19 Allograph based writer adaptation for handwritten character recognition
US11/305,968 2005-12-19
PCT/US2006/048404 WO2007075669A1 (en) 2005-12-19 2006-12-18 Allograph based writer adaptation for handwritten character recognition

Publications (3)

Publication Number Publication Date
JP2009520305A true JP2009520305A (ja) 2009-05-21
JP2009520305A5 JP2009520305A5 (ja) 2010-02-04
JP5255450B2 JP5255450B2 (ja) 2013-08-07

Family

ID=38173552

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008547437A Expired - Fee Related JP5255450B2 (ja) 2005-12-19 2006-12-18 手書きキャラクタ認識のための異書体に基づく筆者適応

Country Status (6)

Country Link
US (1) US7646913B2 (ja)
EP (1) EP1969487B1 (ja)
JP (1) JP5255450B2 (ja)
KR (1) KR101411241B1 (ja)
CN (1) CN101331476B (ja)
WO (1) WO2007075669A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009048641A (ja) * 2007-08-20 2009-03-05 Fujitsu Ltd 文字認識方法および文字認識装置
KR20170005378A (ko) * 2014-04-04 2017-01-12 마이스크립트 중첩된 필기 인식 기술을 위한 시스템 및 방법

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AUPR824401A0 (en) * 2001-10-15 2001-11-08 Silverbrook Research Pty. Ltd. Methods and systems (npw002)
US7418128B2 (en) * 2003-07-31 2008-08-26 Microsoft Corporation Elastic distortions for automatic generation of labeled data
US7646913B2 (en) * 2005-12-19 2010-01-12 Microsoft Corporation Allograph based writer adaptation for handwritten character recognition
US7886266B2 (en) * 2006-04-06 2011-02-08 Microsoft Corporation Robust personalization through biased regularization
US20080199084A1 (en) * 2007-02-19 2008-08-21 Seiko Epson Corporation Category Classification Apparatus and Category Classification Method
US8255822B2 (en) * 2007-12-21 2012-08-28 Microsoft Corporation Incorporated handwriting input experience for textboxes
US8116569B2 (en) * 2007-12-21 2012-02-14 Microsoft Corporation Inline handwriting recognition and correction
US8064702B2 (en) * 2007-12-21 2011-11-22 Microsoft Corporation Handwriting templates
US8335381B2 (en) * 2008-09-18 2012-12-18 Xerox Corporation Handwritten word spotter using synthesized typed queries
US20140363082A1 (en) * 2013-06-09 2014-12-11 Apple Inc. Integrating stroke-distribution information into spatial feature extraction for automatic handwriting recognition
US9495620B2 (en) 2013-06-09 2016-11-15 Apple Inc. Multi-script handwriting recognition using a universal recognizer
US9465985B2 (en) 2013-06-09 2016-10-11 Apple Inc. Managing real-time handwriting recognition
US9384403B2 (en) 2014-04-04 2016-07-05 Myscript System and method for superimposed handwriting recognition technology
KR20160073146A (ko) 2014-12-16 2016-06-24 주식회사 디오텍 혼동행렬을 이용한 필기인식 단어 보정 방법 및 장치
US9665769B2 (en) * 2015-08-18 2017-05-30 International Business Machines Corporation Handwriting recognition with natural user input on multitouch surfaces
KR102482850B1 (ko) * 2016-02-15 2022-12-29 삼성전자 주식회사 전자 장치 및 전자 장치의 필체 교정 기능 제공 방법
CN107239786B (zh) 2016-03-29 2022-01-11 阿里巴巴集团控股有限公司 一种字符识别方法和装置
DK179329B1 (en) 2016-06-12 2018-05-07 Apple Inc Handwriting keyboard for monitors
WO2018092957A1 (ko) * 2016-11-21 2018-05-24 주식회사 알고리고 신경망 모델에서 입력값에 대한 재학습 여부 결정 방법, 장치 및 프로그램
JP2018112839A (ja) * 2017-01-10 2018-07-19 富士通株式会社 画像処理プログラム、画像認識プログラム、画像処理装置、画像認識装置、画像認識方法、及び画像処理方法
KR102053885B1 (ko) * 2018-03-07 2019-12-09 주식회사 엘렉시 판서 분석 시스템 및 방법과 어플리케이션
KR101989960B1 (ko) * 2018-06-21 2019-06-17 가천대학교 산학협력단 복수 개의 기계학습 모델을 사용한 실시간 필기 인식 방법, 이를 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체 및 실시간 필기 인식 시스템
CN109784330B (zh) * 2019-01-03 2021-03-23 北京百度网讯科技有限公司 招牌内容识别方法、装置及设备
KR20200101481A (ko) * 2019-01-28 2020-08-28 삼성전자주식회사 전자 장치 및 그의 필체 보정 방법
KR102759947B1 (ko) * 2019-02-22 2025-02-03 삼성전자주식회사 수기에 기반한 입력을 디스플레이하기 위한 방법 및 장치
US11194467B2 (en) 2019-06-01 2021-12-07 Apple Inc. Keyboard management user interfaces
KR20220088166A (ko) * 2020-12-18 2022-06-27 삼성전자주식회사 복수의 사용자 환경에서 필기 입력 인식 방법 및 장치
EP4057182A1 (en) * 2021-03-09 2022-09-14 Société BIC Handwriting feedback
US12046061B2 (en) 2021-06-30 2024-07-23 Konica Minolta Business Solutions U.S.A., Inc. Handwriting recognition method and apparatus employing content aware and style aware data augmentation
US11914673B2 (en) 2021-10-05 2024-02-27 Prince Mohammad Bin Fahd University System to identify authorship of handwritten text based on individual alphabets
EP4379587A4 (en) 2021-11-29 2025-01-01 Samsung Electronics Co Ltd ELECTRONIC DEVICE AND METHOD FOR HIDING OR UNHIDING WRITING INFORMATION IN AN ELECTRONIC DEVICE
KR20230080120A (ko) * 2021-11-29 2023-06-07 삼성전자주식회사 전자 장치 및 전자 장치에서 필기 정보 마스킹 및 언마스킹 방법
CN117373041A (zh) * 2023-10-18 2024-01-09 浙江恒逸石化有限公司 模型训练方法、数据处理方法及相关装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04253259A (ja) * 1991-01-29 1992-09-09 Kawasaki Steel Corp ニューラルネットワークの学習方法
JPH04279965A (ja) * 1991-03-07 1992-10-06 Koizumi Sangyo Kk パターン認識装置
US5854855A (en) * 1994-09-09 1998-12-29 Motorola, Inc. Method and system using meta-classes and polynomial discriminant functions for handwriting recognition
JP2004348714A (ja) * 2003-05-21 2004-12-09 Microsoft Corp 適応的手書き文字認識のためのシステムおよび方法
JP2005115432A (ja) * 2003-10-03 2005-04-28 Nippon Telegr & Teleph Corp <Ntt> パターン認識装置、パターン認識方法、パターン認識プログラムおよびパターン認識プログラムを記録した記録媒体。
JP2005309920A (ja) * 2004-04-23 2005-11-04 Alliance Group Inc 多数決装置及びその学習方法と多クラス識別装置

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4701960A (en) * 1983-10-28 1987-10-20 Texas Instruments Incorporated Signature verification
US4972496A (en) * 1986-07-25 1990-11-20 Grid Systems Corporation Handwritten keyboardless entry computer system
FR2604004B1 (fr) * 1986-09-11 1990-05-11 Anatex Procede de reconnaissance d'ecriture manuscrite
US5369737A (en) * 1988-03-21 1994-11-29 Digital Equipment Corporation Normalization of vectors associated with a display pixels of computer generated images
JPH02263275A (ja) * 1989-04-03 1990-10-26 Kiyadeitsukusu:Kk 手書き文字の登録パターン作成方式
US5105468A (en) * 1991-04-03 1992-04-14 At&T Bell Laboratories Time delay neural network for printed and cursive handwritten character recognition
US5285506A (en) * 1991-04-30 1994-02-08 Ncr Corporation Method of recording a handwritten message
US5544257A (en) * 1992-01-08 1996-08-06 International Business Machines Corporation Continuous parameter hidden Markov model approach to automatic handwriting recognition
US5442715A (en) * 1992-04-06 1995-08-15 Eastman Kodak Company Method and apparatus for cursive script recognition
US5502774A (en) * 1992-06-09 1996-03-26 International Business Machines Corporation Automatic recognition of a consistent message using multiple complimentary sources of information
US5287417A (en) * 1992-09-10 1994-02-15 Microsoft Corporation Method and system for recognizing a graphic object's shape, line style, and fill pattern in a pen environment
US5528699A (en) * 1992-11-24 1996-06-18 Nippondenso Co., Ltd. Information medium recognition device
US5491758A (en) * 1993-01-27 1996-02-13 International Business Machines Corporation Automatic handwriting recognition using both static and dynamic parameters
US5649068A (en) * 1993-07-27 1997-07-15 Lucent Technologies Inc. Pattern recognition system using support vectors
JP2673871B2 (ja) * 1993-08-26 1997-11-05 日本アイ・ビー・エム株式会社 ニューラル・ネットワークによるパターン認識方法及び装置
EP0654755B1 (en) * 1993-11-23 2000-08-02 International Business Machines Corporation A system and method for automatic handwriting recognition with a writer-independent chirographic label alphabet
US5764797A (en) * 1995-04-25 1998-06-09 Microsoft Corporation Method and system for modeling handwriting using polynomials as a function of time
US6094506A (en) * 1995-10-25 2000-07-25 Microsoft Corporation Automatic generation of probability tables for handwriting recognition systems
US5926566A (en) * 1996-11-15 1999-07-20 Synaptics, Inc. Incremental ideographic character input method
US5884294A (en) * 1997-04-18 1999-03-16 Northrop Grumman Corporation System and method for functional recognition of emitters
US5889523A (en) * 1997-11-25 1999-03-30 Fuji Xerox Co., Ltd. Method and apparatus for dynamically grouping a plurality of graphic objects
US6320985B1 (en) * 1998-07-31 2001-11-20 International Business Machines Corporation Apparatus and method for augmenting data in handwriting recognition system
WO2002037933A2 (en) * 2000-11-08 2002-05-16 New York University System, process and software arrangement for recognizing handwritten characters
AUPR824401A0 (en) * 2001-10-15 2001-11-08 Silverbrook Research Pty. Ltd. Methods and systems (npw002)
KR20050007306A (ko) * 2002-04-19 2005-01-17 컴퓨터 어소시에이츠 싱크, 인코포레이티드 혼합형 수치 및/또는 비수치 데이터의 처리
SE0202446D0 (sv) * 2002-08-16 2002-08-16 Decuma Ab Ideon Res Park Presenting recognised handwritten symbols
WO2005024711A1 (en) * 2003-09-05 2005-03-17 Gannon Technologies Group Systems and methods for biometric identification using handwriting recognition
KR100621845B1 (ko) * 2004-04-07 2006-09-14 김계영 필기문자 자동인식을 통한 언어교육시스템 및 그 방법
US7646913B2 (en) * 2005-12-19 2010-01-12 Microsoft Corporation Allograph based writer adaptation for handwritten character recognition
US7724957B2 (en) * 2006-07-31 2010-05-25 Microsoft Corporation Two tiered text recognition

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04253259A (ja) * 1991-01-29 1992-09-09 Kawasaki Steel Corp ニューラルネットワークの学習方法
JPH04279965A (ja) * 1991-03-07 1992-10-06 Koizumi Sangyo Kk パターン認識装置
US5854855A (en) * 1994-09-09 1998-12-29 Motorola, Inc. Method and system using meta-classes and polynomial discriminant functions for handwriting recognition
JP2004348714A (ja) * 2003-05-21 2004-12-09 Microsoft Corp 適応的手書き文字認識のためのシステムおよび方法
JP2005115432A (ja) * 2003-10-03 2005-04-28 Nippon Telegr & Teleph Corp <Ntt> パターン認識装置、パターン認識方法、パターン認識プログラムおよびパターン認識プログラムを記録した記録媒体。
JP2005309920A (ja) * 2004-04-23 2005-11-04 Alliance Group Inc 多数決装置及びその学習方法と多クラス識別装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009048641A (ja) * 2007-08-20 2009-03-05 Fujitsu Ltd 文字認識方法および文字認識装置
KR20170005378A (ko) * 2014-04-04 2017-01-12 마이스크립트 중첩된 필기 인식 기술을 위한 시스템 및 방법
KR102383624B1 (ko) 2014-04-04 2022-04-05 마이스크립트 중첩된 필기 인식 기술을 위한 시스템 및 방법

Also Published As

Publication number Publication date
US7646913B2 (en) 2010-01-12
JP5255450B2 (ja) 2013-08-07
EP1969487A4 (en) 2015-08-12
EP1969487B1 (en) 2019-09-04
KR20080086449A (ko) 2008-09-25
EP1969487A1 (en) 2008-09-17
US20070140561A1 (en) 2007-06-21
WO2007075669A1 (en) 2007-07-05
KR101411241B1 (ko) 2014-06-24
CN101331476A (zh) 2008-12-24
CN101331476B (zh) 2012-07-11

Similar Documents

Publication Publication Date Title
JP5255450B2 (ja) 手書きキャラクタ認識のための異書体に基づく筆者適応
KR101312804B1 (ko) 텍스트 인식을 용이하게 하는 시스템 및 텍스트 인식 방법
US8326040B2 (en) Combiner for improving handwriting recognition
Rothacker et al. Bag-of-features representations for offline handwriting recognition applied to Arabic script
JP2009506464A (ja) 筆跡入力のスタイルを意識した使用
Joshi et al. Deep learning based Gujarati handwritten character recognition
Nyirarugira et al. Stratified gesture recognition using the normalized longest common subsequence with rough sets
Rajnoha et al. Offline handwritten text recognition using support vector machines
Ghadhban et al. Survey of offline Arabic handwriting word recognition
Prevost et al. Hybrid generative/discriminative classifier for unconstrained character recognition
JP5237110B2 (ja) 論理構造およびレイアウトに基づくオフラインの文字認識
Bashir et al. Script identification: a review
Gao et al. Multiclass boosting with hinge loss based on output coding
US8265377B2 (en) Cursive handwriting recognition with hierarchical prototype search
Chandarana et al. Indian sign language recognition with conversion to bilingual text and audio
Rothacker et al. Robust output modeling in bag-of-features HMMs for handwriting recognition
Murthy et al. Choice of Classifiers in Hierarchical Recognition of Online Handwritten Kannada and Tamil Aksharas.
CN114529927A (zh) 文字识别方法、装置及存储介质
Kale et al. Development of an Arabic Sign Language Recognition System Utilizing Deep Convolutional Neural Network
Kaur An Overview of Advanced Technologies Applied to Identified Printed and Handwritten Text in Gurmukhi Script: A Review
CN104866835A (zh) 一种手势识别方法
Singh et al. Post-processing algorithms for the formation of online handwritten Gurmukhi character/akshara
Sprinkhuizen-Kuyper et al. Reliable gesture recognition with transductive confidence machines
WO2006090404A1 (en) System, method, and apparatus for accomodating variability in chunking the sub-word units of online handwriting
JP2016110389A (ja) 検索装置、方法及びプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091208

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120507

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120817

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130322

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130419

R150 Certificate of patent or registration of utility model

Ref document number: 5255450

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160426

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees