[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP4596754B2 - 文字認識方法とそれを用いた携帯端末システム - Google Patents

文字認識方法とそれを用いた携帯端末システム Download PDF

Info

Publication number
JP4596754B2
JP4596754B2 JP2003202764A JP2003202764A JP4596754B2 JP 4596754 B2 JP4596754 B2 JP 4596754B2 JP 2003202764 A JP2003202764 A JP 2003202764A JP 2003202764 A JP2003202764 A JP 2003202764A JP 4596754 B2 JP4596754 B2 JP 4596754B2
Authority
JP
Japan
Prior art keywords
character string
image
character
portable terminal
string image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003202764A
Other languages
English (en)
Other versions
JP2005049920A5 (ja
JP2005049920A (ja
Inventor
達也 亀山
昌史 古賀
竜治 嶺
広 新庄
峰伸 関
仁 河野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2003202764A priority Critical patent/JP4596754B2/ja
Publication of JP2005049920A publication Critical patent/JP2005049920A/ja
Publication of JP2005049920A5 publication Critical patent/JP2005049920A5/ja
Application granted granted Critical
Publication of JP4596754B2 publication Critical patent/JP4596754B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、カメラなどの画像入力手段を持った携帯型端末または携帯電話等において、入力した画像中の文字列画像を選択して文字認識をする技術に関する。
【0002】
【従来の技術】
携帯型端末を用いて、画像入力手段より入力された画像の文字認識をする際には、利用者が端末本体の位置や向きを手動で調整することで、表示部に表示された入力画像の中に認識対象が収まるようにする方法がある。
例えば、特許文献1に記載されているようにカメラを用いた入力画像を用いて文字認識を行い、認識結果を用いて電話の発信、ホームページへの接続、電子メールの送信などを行う方法が提案されている。
【0003】
また、特許文献2に記載されているように、カメラ等で撮影した画像を表示画面上に表示し、同時にマーカーを表示させマーカーの近傍の文字列に対して文字認識を実行する方法が提案されている。また、認識結果をネットワークに接続された計算機に送り、認識結果に応じて処理結果を携帯端末装置に返送する方法が提案されている。
【0004】
【特許文献1】
特開2002−152696号公報
【特許文献2】
特開2003−78640号公報
【発明が解決しようとする課題】
従来の方法は、画面上に複数の文字列画像がある場合や、手ぶれや操作ミスにより認識したい文字列画像が多少ガイドよりはずれて撮影された場合、再度撮影し直す必要があった。
【0005】
また、広い範囲を撮影し、表示される文字列が小さくなる点を考慮されていなかった。また、画像中に複数の文字列種が混在していても選択できる文字種を選択することを考慮されていなかった。
【0006】
また、例えば日本語文章のように、単語間にスペースが存在しない文字から一部の文字列を選択する場合、携帯電話などの携帯型端末では内蔵するメモリが少なく、さらにプログラムの実行速度が遅いため、単語辞書の内蔵や文章を解析しながら単語を識別できない課題があった。
【0007】
また、メモリ容量が少なく実行速度の遅い携帯型端末では、文字認識の精度や、文字認識可能な文字種の制限がある課題があった。
【0008】
また、メモリが豊富で実行速度が速いサーバ装置上で文字認識を実行する場合、携帯電話などの携帯型端末から文字列を含む画像を送信すると、通信速度が遅いために結果の返信が遅い、通信料が必要であるなどの課題があった。
【0009】
本発明の目的は、再度撮影し直すことなく、またマーカーによる認識位置を指定することなく、予め認識された文字列画像を選択することにより文字を認識することにあり、かつ、画像中に複数の文字列種が混在していても、認識したい文字種のみを選択して文字認識することにあり、かつ、文字認識の対象となる文字列画像を見やすくすることにある。
また、内蔵するメモリが少なく、さらにプログラムの実行速度が遅い携帯電話などの携帯型端末でも、認識したい文字種に応じて実行するプログラムを選択することにあり、かつ、メモリが豊富で実行速度が速いサーバ装置上で文字認識を実行することにあり、かつ、携帯電話などの携帯型端末からサーバ装置に送信するデータ量を削減し、通信コストや転送速度、通信エラー発生確率を低下することにある。
【0010】
【課題を解決するための手段】
本発明は、画面上に複数の文字列画像がある場合や、手ぶれや操作ミスにより認識したい文字列画像がガイドよりはずれて撮影された場合に、再度撮影し直しを行わないために、撮影した画像から文字列が存在する位置を複数検出し、検出した文字列を移動ボタンにより選択可能にしたものである。
【0011】
本発明はまた、画像入力時に素早く文字認識を行うため、画像入力後直ちに画像中央部に最も近い文字列画像に文字認識を適用したものである。
【0012】
本発明はまた、広い範囲を撮影した場合、携帯電話などの表示画面が小さい携帯型端末で選択した文字列を見やすくするために、選択した文字列画像の一部を拡大および移動して表示するものである。
【0013】
本発明はまた、画像中に異なる文字種が混在されて表示されている場合に、認識したい文字列種のみ選択して文字認識素早く行うために、文字列画像から文字列種を検出し、指定された文字列種のみ含む文字列画像のみを選択して文字認識を行うものである。
【0014】
本発明はまた、複数の文字列が混在して選択された文字列画像から、文字認識したい文字列を取り出すために、文字列画像から1文字単位に文字画像を識別し、選択できる手段を設けたものである。
【0015】
本発明はまた、ペンによる入力手段を持つ携帯型端末において、2つの文字列画像を一つの文字列画像に合成し、または文字列画像を2つの文字列画像に分割するために、ペンのストロークを検出し、ペンの位置が2つの文字列画像の中間を示す場合は左右の文字列画像を合成し、ペンの位置が文字列画像上を示す場合は文字列画像を一文字単位の文字画像に分割し、ペン位置の左右の文字画像を境に文字列画像を分割するものである。
【0016】
本発明はまた、2つの文字列画像を一つの文字列画像に合成し、さらに文字列画像を2つの文字列画像に分割するために、文字列画像を選択することにより選択した文字列画像の前の文字列画像と合成し、選択した文字列画像を一文字単位の文字画像に分割し、分割したい点の文字画像を選択することにより選択した文字画像を境に文字列画像を分割するものである。
【0017】
本発明はまた、プログラムメモリが少ない携帯型端末において複数のプログラムを実行し、さらにプログラムの更新を素早く行うために、サーバ装置にプログラムを格納し、携帯型端末での実行に必要なプログラムのみをダウンロードして実行できるようにしたものである。
【0018】
本発明はまた、プログラムメモリが少ない携帯型端末において文字認識精度を向上させ、さらに通信料の削減や、通信エラーの確率を小さくするために、携帯型端末で画像を撮影し、文字認識を行う文字列画像を選択した後、選択された文字列画像を圧縮してサーバに送信し、サーバで文字列画像に文字認識を適用させるようにしたものである。
【0019】
本発明はまた、ネットワーク上での盗聴を防止するために、送信データに暗号化を適用するものである。
【0020】
【発明の実施の形態】
以下、本発明の第1の実施例を図1から図7を用いて詳細に説明する。図1は、本発明の第1の実施例を示すブロック図、図2は、本発明の第1の実施例を説明する表示例、図3は、本発明の第1の実施例の動作を示すフローチャート図、図4は、本発明の第1の実施例の文字列選択方法を説明する第1の表示例、図5は、本発明の第1の実施例の図4の表示例で用いるデータ構造、図6は、本発明の第1の実施例の文字列選択方法を説明する第2の表示例、図7は、本発明の第1の実施例の図6の表示例で用いるデータ構造である。
【0021】
図1において、1は、カメラなどの画像入力手段、2は、液晶パネルなどの表示手段、3は、キーボードやボタンなどのボタン入力手段、5は、全体の制御を行う制御手段、6は、入力手段1から入力された画像を記憶する画像記憶手段、7は、画像記憶手段6に記憶された画像から文字列画像の位置を検索する文字列検索手段、8は、文字列検索手段7で取得された文字列画像の画像上の場所を記憶する文字列テーブル、10は、選択された文字列画像の画像から文字を認識する文字認識手段、11は、文字列テーブル8に登録された文字列画像の画像中心からの距離を算出し中心に最も近い文字列画像を検索する中央検索手段である。
【0022】
図2において、30は、図1の画像記憶手段に記憶された画像の表示例であり、31は、選択された文字列画像を中心に拡大移動後の表示例である。表示例30において、20は図1の表示手段2に表示される表示例、21は、図1の文字列テーブルに登録された文字列画像の外周を表示する文字列枠、22は、現在選択された文字列画像の外周を強調して表示する選択文字列枠、23は、画像表示時に撮影対象の水平および中心を示すガイドマークである。表示例31において、24は、拡大表示された画像の全体からの位置を示すサブ画面である。
【0023】
画像入力手段1のカメラを起動(100)し、ボタン入力手段3によるボタン入力により画像入力手段1から入力された画像を画像記憶手段6に記憶(101)する。文字列検索手段7は、画像記憶手段6に記憶された画像から文字列画像を抽出し文字列画像の座標を文字列テーブルに記録(102)する。中央検索手段11は、文字列テーブル8に記憶された文字列画像の座標と画像中央からの距離を算出し、画像中央に最も近い文字列画像を検索、選択(103)し、表示手段2は、選択された画面上の文字列画像の外周を強調枠で強調して表示し(104)、必要に応じて選択された文字列画像を表示手段2中央に表示されるように表示位置をスクロールして画面上に拡大し文字列画像の外周を強調枠で強調して表示し、さらに選択されない文字列画像の外周を枠で表示(31)する。ユーザにより選択された文字列画像が確認されると、選択された文字列画像は、文字認識手段10により文字が認識(105)され認識結果を表示手段2に表示する。ボタン入力手段3の移動ボタンが押された場合(106)、移動ボタンが上ボタンであれば、現在選択されている文字列画像の文字列テーブル8に登録されている一つ前の文字列画像が選択(107)され、移動ボタンが下ボタンであれば、現在選択されている文字列画像の文字列テーブル8に登録されている一つ後の文字列画像が選択(108)され、表示手段2上に強調表示(104)される。
【0024】
文字列検索手段7は、例えば図4の様に、文字列画像が行単位であれば例えば表示例32、行を複数の文字列画像で分解されれば例えば表示例33のように検出し表示することができる。検出された文字列画像は、画像中の文字列画像が左上から順番に番号が振られ、文字列画像の座標が図5の文字列テーブルの例のように登録される。移動ボタンによる操作では、上ボタンでは登録順の小さい方の番号の順に選択、下ボタンでは登録順の大きい方の番号の順に選択する。最も小さい番号が選択された時に上ボタンが押された時は選択される文字を変えない、または最も大きい番号の文字列画像を選択するようにすることもできる。また、最も大きい番号が選択された時に下ボタンが押された時は選択される文字を変えない、または最も小さい番号の文字列画像を選択するようにすることもできる。
【0025】
文字列テーブル8は、図7のように文字列画像を行と列に分けて登録することもできる。行と列に分けた場合、図6のように移動ボタンを上下左右の4通り用意することも可能である。
【0026】
また、図2の拡大移動後の表示例31のように選択された文字列画像を拡大表示する場合、選択された文字列画像の上下左右の文字列画像が表示されるように拡大表示することにより、移動ボタンによる移動先の文字列画像が見えるようにすることも可能である。
【0027】
また、ペンによる入力手段を設け表示手段2上の文字列画像をペンによる画面タップにて選択することも可能である。
【0028】
本実施例によれば、画面上に複数の文字列画像がある場合や、手ぶれや操作ミスにより認識したい文字列画像が多少ガイドよりはずれて撮影されても、操作にボタン等の簡単な装置しかない携帯電話のような携帯型端末でも、移動ボタンにより容易に認識したい文字列画像に移動できるので、再度撮影し直すことたないため文字認識の時間を短縮する効果がある。さらに選択した文字列画像の外周を表示することにより次に選択可能な文字列画像を事前に知ることができ、さらに広い範囲を撮影した場合、携帯電話などの表示画面が小さい携帯型端末でも画像の拡大および移動を行うことにより、文字列選択の時間を短縮する効果がある。
【0029】
本発明の第2の実施例を図8から図12を用いて詳細に説明する。図8は、本発明の第2の実施例を示すブロック図、図9は、本発明の第2の実施例を説明する表示例、図10は、本発明の第2の実施例の動作を示すフローチャート図、図11は、本発明の第2の実施例の他の表示例、図12は、本発明の第2の実施例の他の表示例で用いるデータ構造である。
【0030】
図8において、1は、カメラなどの画像入力手段、2は、液晶パネルなどの表示手段、3は、キーボードやボタンなどのボタン入力手段、5は、全体の制御を行う制御手段、6は、入力手段1から入力された画像を記憶する画像記憶手段、7は、画像記憶手段6に記憶された画像から文字列画像の位置を検索する文字列検索手段、8は、文字列検索手段7で取得された文字列画像の画像上の場所を記憶する文字列テーブル、9は、選択された文字列画像の文字列種を調べる文字列種検出手段、10は、選択された文字列画像から文字を認識する文字認識手段、11は、文字列テーブル8に登録された文字列画像を画像中心からの距離を算出し中心に近い文字列画像であり、かつ選択された文字列画像から文字列種検出手段9により検出された文字列種が最初に設定された文字列種と一致する文字列画像を選択する中央検出手段である。
【0031】
文字列種は、例えば電話番号、URL、英単語、Eメールアドレス等、所定の表記規則に則った形式で記述されるものである。文字列種の判定には、文字列の文字を認識し、例えば正規表現によるパターンマッチングにより実現できる。文字列種を判定するためには必ずしも文字列全体について文字認識する必要はなく。例えば、電話番号であれば、文字列の一部、例えば先頭の1または複数の文字が数字であることや、数字とハイフンや括弧( )があることなどで、判断することができる。URLやEメールアドレスであれば、文字列が「http」や「@」などURLやEメールアドレス特有の表現の文字を含むことなどにより判断することができる。
【0032】
次に図8のブロック図を図10のフローチャートを用いて説明する。画像入力手段1のカメラを起動(100)し、ボタン入力手段3の操作により、検索する文字列種を設定(110)し、さらにボタン操作により画像入力手段1から入力された画像を画像記憶手段6に記憶(101)する。文字列検索手段7は、画像記憶手段6に記憶された画像から文字列画像を抽出し文字列画像の座標を文字列テーブルに記録(102)する。中央検索手段11は、文字列テーブル8に記憶された文字列画像の座標と画像中央からの距離を算出し、画像中央に近い文字列画像を検索、さらに画像中央に近い順から文字列種検索手段9により文字列画像の文字列種を調べ、当初設定された文字列種と一致する文字列画像を選択(115)する。表示手段2は、選択された文字列画像を表示手段2中央に表示されるように表示位置をスクロールすると同時に、画面上に拡大し文字列画像の外周を枠で強調して表示(104)、さらに選択されない文字列画像の外周を枠で表示する。選択された文字列画像は、文字認識手段10により文字が認識(105)され認識結果を表示手段2に表示する。ボタン入力手段3の移動ボタンが押された場合(106)、移動ボタンが上ボタンであれば、現在選択されている文字列画像の文字列テーブル8に登録されている一つ前の文字列画像を選択(107)し、文字列種検索手段9により選択された文字列画像の文字列種を識別(111)し、当初設定された文字列種と比較(113)、一致しなければ、さらに一つ前の文字列画像を選択(107)することを繰り返す。移動ボタンが下ボタンであれば、現在選択されている文字列画像の文字列テーブル8に登録されている一つ後の文字列画像を選択(108)し、文字列種検索手段9により選択された文字列画像の文字列種を識別(112)し、当初設定された文字列種と比較(114)、一致しなければ、さらに一つ後の文字列画像を選択(108)することを繰り返す。一致すれば、選択された文字列画像を表示手段2上に強調表示(104)する。一致する文字列画像がなければ表示手段2に検索終了の表示を出力することも可能である。
【0033】
図9は、例えば検索する文字列種を電話番号に設定した場合に、上下のボタンにて電話番号の文字列画像のみ強調表示された例である。携帯電話の場合、検索する文字列種が電話番号であれば、画像中から電話番号のみを順次文字認識して電話を発信することも可能である。
【0034】
本実施例では、文字列種を選択毎に文字列画像から文字列種を識別しているが、画像入力時に文字列画像を抽出する時に同時に各文字列画像から文字を認識し文字列種を識別しておくこともちろん可能である。この場合、図12のデータ構造において文字列画像の位置と文字列種を登録しておくことにより、図11のように表示手段により設定した文字列種と同じ文字列画像のみの外周の枠を表示させることも可能である。
【0035】
本実施例によれば、認識したい文字列種を指定しておくことにより、画像中に複数の文字列種が混在していても設定した文字列種の文字列画像のみを他の文字列種の文字列画像を飛び越えて選択することが可能であり選択時間の短縮に効果がある。
【0036】
本発明の第3の実施例を図13乃至図15を用いて詳細に説明する。図13は、本発明の第3の実施例を示すブロック図、図14は、本発明の第3の実施例を説明する表示例、図15は、本発明の第3の実施例の動作を示すフローチャート図である。
【0037】
図13において、1は、カメラなどの画像入力手段、2は、液晶パネルなどの表示手段、3は、キーボードやボタンなどのボタン入力手段、5は、全体の制御を行う制御手段、6は、入力手段1から入力された画像を記憶する画像記憶手段、7は、画像記憶手段6に記憶された画像から文字列画像の位置を検索する文字列検索手段、8は、文字列検索手段7で取得された文字列画像の画像上の場所を記憶する文字列テーブル、10は、選択された文字列画像から文字を認識する文字認識手段、12は、文字列画像から1文字単位の画像に分割する文字位置検出手段である。
【0038】
次に図13の各部の動作を図15のフローチャートを用いて説明する。図14の選択された文字列画像から一部の文字列画像を選択する編集例である。
【0039】
ボタン入力手段3の操作によりメニューを表示、文字選択を選択(200)し、文字位置検出手段12により選択されている文字列画像を1文字単位の画像に分割(201)する。ボタン入力手段3の左右の移動ボタンにより文字を選択(202)し、先頭文字画像を選択して選択ボタンを押す(203)、さらにボタン入力手段3の左右の移動ボタンで末尾の文字画像を選択(204)し、ボタン入力手段3の選択ボタンを押す(205)、先頭と末尾の文字画像の選択が確定したら(205)、ボタン入力手段3の選択ボタンを押し、先頭から末尾の文字画像から文字認識手段10により文字を認識(207)する。
【0040】
本実施例によれば、例えば日本語文章のように、単語間にスペースが存在しない文字のような場合でも、認識したい文字を選ぶことが可能であり、さらに携帯電話のように操作がボタン等の単純な入力装置しかない携帯型端末でもボタン操作で容易に認識したい文字を選択することができる効果がある。
【0041】
本発明の第4の実施例を図16乃至図18を用いて詳細に説明する。図16は、本発明の第4の実施例を示すブロック図、図17は、本発明の第4の実施例を説明する表示例、図18は、本発明の第4の実施例の動作を示すフローチャート図である。
【0042】
図16において、1は、カメラなどの画像入力手段、2は、液晶パネルなどの表示手段、4は、表示手段2を用いてペンを使って表示画面上の座標とペンの動きを検出するペン入力手段、5は、全体の制御を行う制御手段、6は、入力手段1から入力された画像を記憶する画像記憶手段、7は、画像記憶手段6に記憶された画像から文字列画像の位置を検索する文字列検索手段、8は、文字列検索手段7で取得された文字列画像の画像上の場所を記憶する文字列テーブル、10は、選択された文字列画像から文字を認識する文字認識手段、12は、文字列画像から1文字単位の画像に分割する文字位置検出手段、15は、2つの文字列画像を合成する合成手段、16は、文字列画像を2つの文字列画像に分割する分割手段である。
【0043】
ペンを用いて表示画面上をポインティングすることにより操作を行うペン入力型の携帯型端末において図17の選択された文字列画像の結合および分離を行う編集例について、図16のブロック図を図18のフローチャートを用いて説明する。
【0044】
画像入力手段から入力し画像記憶手段に記憶された画像から、文字列検出手段7により文字列画像を抽出し、表示手段2において抽出した文字列画像の外周を枠で表示し、ペン入力手段4がペン入力を待機している状態(210)において、ペン入力手段4が、ペンが文字列画像枠内の一点のタップを検出した場合(211)は、タップした点を含む文字列画像枠内の文字列画像の文字認識を行い(207)、ペン入力手段4は、ペンが線を書くように表示画面上の移動(213)を検出した場合、下から上へのペン移動であれば、ペンが通過した場所が、文字列画像の間(214)であれば、合成手段15によりペンが通過した左右の文字列画像を結合し一つの文字列画像とする(215)。ペンの移動が上から下であり、かつペンが文字列画像の中を通過(216)していれば、文字位置検出手段12は通過した文字列画像付近の文字間のスペースを識別(217)し、分割手段16はペンが通過した文字間で文字列画像を分割(218)する。
【0045】
本実施例によれば、ペンにより画面上の位置を示すことが可能な携帯型端末において、ペン操作によって、表示手段に表示されている文字列画像が表示されている画面を見ながら、直接ペンで結合または分離したい場所を直接指し示すことができるので文字列画像の編集時間を短縮できる効果がある。
【0046】
本発明の第5の実施例を図19乃至図21を用いて詳細に説明する。図19は、本発明の第5の実施例を示すブロック図、図20は、本発明の第5の実施例を説明する表示例、図21は、本発明の第5の実施例の動作を示すフローチャート図である。
【0047】
携帯電話などのボタン操作等の簡単な入力装置しかない携帯型端末において、図20の選択された文字列画像の結合および分離を行う編集例について図19のブロック図を図16のフローチャートを用いて説明する。
【0048】
図19において、1は、カメラなどの画像入力手段、2は、液晶パネルなどの表示手段、3は、キーボードやボタンなどのボタン入力手段、5は、全体の制御を行う制御手段、6は、入力手段1から入力された画像を記憶する画像記憶手段、7は、画像記憶手段6に記憶された画像から文字列画像の位置を検索する文字列検索手段、8は、文字列検索手段7で取得された文字列画像の画像上の場所を記憶する文字列テーブル、10は、選択された文字列画像から文字を認識する文字認識手段、12は、文字列画像から1文字単位の画像に分割する文字位置検出手段、15は、2つの文字列画像を合成する合成手段、16は、文字列画像を2つの文字列画像に分割する分割手段である。
【0049】
次に図19の各部の動作を図21のフローチャートを用いて説明する。画像入力手段から入力し画像記憶手段に記憶された画像から、文字列検出手段7により文字列画像を抽出し、表示手段2において抽出した文字列画像の外周を枠で表示した状態において、ボタン入力手段3の上下左右ボタンにより文字列画像を選択(250)し、選択している文字列画像でボタン入力手段3の選択ボタンを押した場合(251)選択された文字列画像から文字を認識する(207)。ボタン入力手段3のメニューボタンによりメニューを表示手段2に表示(253)し、メニューの中から結合を選択した場合、合成手段15は選択されている文字列画像と同一行の前にある文字列画像と結合して一つの文字列画像として再登録(254)し、結合した文字列画像を選択状態にする(255)。メニューで分割を選択した場合、文字位置検出手段12は現在選択されている文字列画像内を一文字単位の画像に分割(256)し、一文字単位にボタン入力手段3の左右ボタンで分割する文字間の後ろの一文字画像を選択(257)し、ボタン入力手段3の選択ボタンを押すことにより(258)、分割手段16は選択した一文字画像の前で文字列画像を分割し、分割した文字を再登録(259)し、現在選択している一文字画像を含む文字列画像を選択状態にする(260)。
【0050】
本実施例によれば、携帯電話などのボタン操作等の簡単な入力装置しかない携帯型端末において、誤って文字列画像とされた状態でも、再度撮影しなおすことなく、ボタンの操作で文字列画像を編集することができるため、目的とする文字列画像に対して短時間に文字認識を行うことができる効果がある。
【0051】
本発明の第6の実施例を図22乃至図24を用いて詳細に説明する。図22は、本発明の第6の実施例を示すブロック図、図23は、本発明の第6の実施例の動作を示す連携図、図24は、本発明の第6の実施例の送受信データである。
【0052】
図22において、320は、携帯電話や携帯端末などの端末装置であり、321は、端末装置320とインターネットなどネットワークを経由して接続されるサーバ装置である。
端末装置320において、300は、カメラなどの画像入力手段、301は、画像入力手段300にて入力された画像を記憶する画像記憶手段、302は、画像を2値化する2値化手段、303は、2値化手段302で2値化された画像から文字列の領域の画像を抽出する領域抽出手段、304は、領域抽出手段303により切り抜かれた文字列領域の画像を圧縮する画像圧縮手段、305は、サーバ装置321からダウンロードする前処理プログラム、306は、端末装置320を制御するためのボタン等の入力手段、307は画像を表示したり結果を表示したりする表示手段、308は、送受信するデータの暗号化復号化を行う暗号化手段、309は、携帯端末320全体の制御を行う制御手段、310は、インターネット等へネットワークに接続してサーバと通信を行う通信手段である。
【0053】
サーバ装置321において、311は、インターネット等へネットワークに接続して端末装置と通信を行う通信手段、312は、サーバ装置321の全体を制御する制御手段、313は、端末装置320で実行する前処理プログラム305を記憶するプログラム記憶手段、314は、文字列画像から文字を認識する文字認識プログラム、315は、端末装置320から送信された文字列画像の圧縮された画像を元に復元する画像伸張手段、316は、画像伸張手段より伸張された文字列画像から文字を認識する文字認識手段、317は、端末装置とサーバ装置間でデータの暗号化復号化を行う暗号化手段である。
【0054】
図24において、400は、端末装置320からサーバ装置321に送信されるデータのデータ構造の一例の端末装置320からの送信データ、410は、サーバ装置321から端末装置320に送信されるデータのデータ構造の一例の端末装置320の受信データである。
【0055】
400において、401は、データ長やデータの種類等、データ全体を識別するデータを含むヘッダ、402は、選択された文字列画像の高さ、403は、選択された文字列画像の幅、404は、文字列の種類を示す文字列種、405は、2値化された選択した文字列画像を圧縮した画像データである。
【0056】
410において、411は、データ長やデータの種類等、データ全体を識別するデータを含むヘッダ、412は、文字列の認識結果、413は、文字認識後の文字位置の座標、414は、認識結果412以外の文字候補である。
【0057】
図22の各部の動作を図23のフローチャート図を用いて詳細に説明する。端末装置320は、実行する文字認識の前処理プログラム305をサーバ装置321に要求(450)し、サーバ装置321は、前処理プログラム305を画像入力手段300に送信(453)する。端末装置320は、前処理プログラム305を起動(455)し、画像入力手段300から画像を取得(456)し、画像記憶手段301に一時保存する。画像記憶手段301に保存した画像を2値化手段302で2値画像化(457)した後、領域抽出手段303で文字列領域の画像を切り出し(458)、入力手段306による操作により、文字を認識したい文字列画像を選択(459)し、選択した文字列画像を画像圧縮手段304で圧縮(460)し、圧縮された文字列画像を暗号化手段308により暗号化(461)かした後、通信手段310を経由してサーバ装置321に送信データ400を送信(462)する。
【0058】
サーバ装置321は、端末装置320から送信された送信データ400を通信装置311で受信(463)し、暗号化手段317で復号化し、圧縮された選択された文字列画像を伸張手段315で伸張(465)し、文字認識手段316で文字列画像から文字を認識(466)した後、文字列認識結果を含む受信データ410を、通信手段311を経由して端末装置320に送信(467)する。
【0059】
端末装置320は、サーバ装置321から送信された受信データ410を通信手段310で受信(468)し、受信データ410に含まれる文字列認識結果を表示手段307により表示(469)する。
【0060】
本実施例によれば、メモリ容量が少なく実行速度の遅い端末装置でも、メモリや実行速度に影響がある文字認識処理を、メモリ量が多く実行速度が速いCPUを備えたサーバ装置で実行することにより、文字認識率の向上や、文字認識対象の文字を多くできる効果がある。さらにサーバ装置に送信する画像を、認識したい文字列の画像に限定し、2値化や画像圧縮を行うことにより通信に必要なデータ量が削減でき、送信速度の高速化や、ネットワーク上のエラーによるデータの損失の確率が低くなる効果がある。
【0061】
第1乃至第5の実施例において、画像入力手段1は、CCDやCMOS等の撮像素子で構成されるカメラ、表示手段2は、液晶や有機EL等で構成されるパネル、ボタン入力手段3は、押しボタンやタッチパネルやダイアル等、ペン入力手段4は、表示手段2に張られた感圧シートによるペン接触時の抵抗値変化検出や、超音波等を用いたセンサとペンとの距離測定などによる位置検出、画像記憶手段6は、メモリ、文字列テーブル8は、メモリに記憶、により実現される。また、制御手段5、文字列検出手段7、文字列種検出手段9、文字認識手段10、中央検出手段11、文字位置検出手段12、合成手段15、分割手段16はCPUにて実行により実現される。
第6の実施例において、画像入力手段300は、CCDやCMOS等の撮像素子で構成されるカメラ、画像記憶手段301やプログラム記憶手段313は、メモリ、入力手段306は、押しボタンやタッチパネルやペン、表示手段307は、液晶や有機EL等で構成されるパネル、前処理プログラム305と文字認識プログラム314は、メモリに記憶、により実現される。また、制御手段309、312、2値化手段302、領域抽出手段303、画像圧縮手段304、画像伸張手段315、文字認識手段316はCPUにて実行により実現される。暗号化手段308、317は、専用の論理回路又はCPUで実行により実現される。通信手段310,311は、専用の論理回路とアナログ回路により実現される。
【0062】
【発明の効果】
本発明によれば、画面上に複数の文字列画像がある場合や、手ぶれや操作ミスにより認識したい文字列画像が多少ガイドよりはずれて撮影されても、操作にボタン等の簡単な入力装置しかない携帯電話のような携帯型端末でも、移動ボタンにより容易に認識したい文字列画像に移動できるので、再度撮影し直すことたないため文字認識の時間を短縮する効果がある。さらに選択文字列画像の外周を表示することにより次に選択可能な文字列画像を事前に知ることができ、さらに広い範囲を撮影した場合、携帯電話などの表示画面が小さい携帯型端末でも画像の拡大および移動を行うことにより、文字列画像選択の時間を短縮する効果がある。
また、認識したい文字列種を指定しておくことにより、画像中に複数の文字列種が混在していても設定した文字列種の文字列画像のみを他の文字列種の文字列画像を飛び越えて選択することが可能であり選択時間の短縮に効果がある。
【0063】
本発明によれば、例えば日本語文章のように、単語間にスペースが存在しないもじのような場合でも、認識したい文字を選ぶことが可能であり、さらに携帯電話のように操作がボタン等の簡単な入力装置しかない携帯型端末でもボタン操作で容易に認識したい文字を選択することができる効果がある。
【0064】
また、ペンにより画面上の位置を示すことが可能な携帯型端末において、ペン操作によって、表示手段に表示されている文字列画像が表示されている画面を見ながら、直接ペンで結合または分離したい場所を直接指し示すことができるので文字列画像の編集時間を短縮できる効果がある。
【0065】
また、携帯電話などのボタン操作等の簡単な入力装置しかない携帯型端末において、誤って文字列画像とされた状態でも、再度撮影しなおすことなく、ボタンの操作で文字列画像を編集することができるため、目的とする文字列画像に対して短時間に文字認識を行うことができる効果がある。
【0066】
また、メモリ容量が少なく実行速度の遅い端末装置でも、メモリや実行速度に影響がある文字認識処理を、メモリ量が多く実行速度が速いCPUを備えたサーバ装置で実行することにより、文字認識率の向上や、文字認識対象の文字を多くできる効果がある。さらにサーバ装置に送信する画像を、認識したい文字列の画像に限定し、2値化や画像圧縮を行うことにより通信に必要なデータ量が削減でき、送信速度の高速化や、ネットワーク上のエラーによるデータの損失の確率が低くなる効果がある。
【図面の簡単な説明】
【図1】本発明の第1の実施例を示すブロック図である。
【図2】本発明の第1の実施例を説明する表示例である。
【図3】本発明の第1の実施例の動作を示すフローチャート図である。
【図4】本発明の第1の実施例の文字列選択方法を説明する第1の表示例である。
【図5】本発明の第1の実施例の図4の表示例で用いるデータ構造である。
【図6】本発明の第1の実施例の文字列選択方法を説明する第2の表示例である。
【図7】本発明の第1の実施例の図6の表示例で用いるデータ構造である。
【図8】本発明の第2の実施例を示すブロック図である。
【図9】本発明の第2の実施例を説明する表示例である。
【図10】本発明の第2の実施例の動作を示すフローチャート図である。
【図11】本発明の第2の実施例の他の表示例である。
【図12】本発明の第2の実施例の他の表示例で用いるデータ構造。
【図13】本発明の第3の実施例を示すブロック図である。
【図14】本発明の第3の実施例を説明する表示例である。
【図15】本発明の第3の実施例の動作を示すフローチャート図である。
【図16】本発明の第4の実施例を示すブロック図である。
【図17】本発明の第4の実施例を説明する表示例である。
【図18】本発明の第4の実施例の動作を示すフローチャート図である。
【図19】本発明の第5の実施例を示すブロック図である。
【図20】本発明の第5の実施例を説明する表示例である。
【図21】本発明の第5の実施例の動作を示すフローチャート図である。
【図22】本発明の第6の実施例を示すブロック図である。
【図23】本発明の第6の実施例の動作を示す連携図である。
【図24】本発明の第6の実施例の送受信データである。
【図25】本発明の携帯端末の一例である。
【符号の説明】
1.画像入力手段、2.表示手段、3.ボタン入力手段、4.ペン入力手段、5.制御手段、6.画像記憶手段、7.文字列検出手段、8.文字列テーブル、9.文字列種検出手段、10.文字認識手段、11.中央検索手段、12.文字位置検出手段。

Claims (12)

  1. 画像中の文字の文字認識を行うための携帯型端末であって、
    画像入力手段と、
    入力された画像を記憶する画像記憶手段と、
    記憶された画像を表示する表示手段と、
    ユーザによる操作の入力を受け付ける操作入力手段と、
    情報処理部とを有し、
    該情報処理部は、前記記憶された画像から複数の文字列画像を検出し、該検出された文字列画像の画面中の位置を示す位置情報に基づいて前記文字列画像の一つを選択し、
    前記表示手段は前記複数の文字列画像を前記選択した文字列画像を強調して表示し、
    前記情報処理部は、前記操作入力手段への入力により前記表示された複数の文字列画像中で文字列画像の再選択を可能とし、
    前記位置情報に基づいて選択された、あるいは、前記操作入力手段への入力により再選択された文字列画像を文字認識の対象とすることを特徴とする携帯型端末。
  2. 請求項1記載の携帯型端末において、前記情報処理部は、前記検出された文字列画像の位置情報を用いて前記複数の文字列画像の中で前記画像の中央部に最も近い文字列画像を選択し強調して表示することを特徴とする携帯型端末。
  3. 請求項1記載の携帯型端末において、前記表示手段は前記選択された前記文字列画像を前記表示手段の表示画面中央に拡大、移動して表示することを特徴とする携帯型端末。
  4. 請求項1記載の携帯型端末において、
    前記情報処理部は、前記文字認識結果に基づいて前記複数の文字列画像について該文字列画像に含まれる文字列種を検出し、該検出した文字列種が所定の文字列種と一致するかどうかを判定し、一致すると判定された文字列画像のみを選択および再選択可能とし、前記位置情報に基づいて選択された、あるいは、前記操作入力手段への入力により再選択された文字列画像を文字認識の対象とすることを特徴とする携帯型端末。
  5. 請求項1記載の携帯型端末において、前記情報処理部は、前記選択した前記文字列画像において、1文字単位に文字位置を検出する文字位置検出手段を有し、前記操作入力手段により選択された文字位置に基づいて文字列を選択することを特徴とする携帯型端末。
  6. 請求項1記載の携帯型端末において、前記表示手段の画面上へのペンのタッチによる入力手段と、前記ペンが示す前記表示手段上の位置を検出するペンストローク検出手段とを設け、
    前記情報処理部は、前記ペンストローク検出手段により検出された前記ペンが示す位置と前記文字列画像の位置とに基づいて、隣接する複数の文字列画像の合成または文字列画像の分割を行うことを特徴とする携帯型端末。
  7. 請求項記載の携帯型端末において、
    前記操作入力手段により、前記文字列画像を選択と文字列画像の合成または分割の指示の入力を受け、
    前記情報処理部は、文字列画像の合成の場合、選択した前記文字列画像とその前又は後の文字列画像と前記合成手段により合成し、文字列分割の場合、選択した前記文字列画像を前記文字位置検出手段により1文字単位の文字位置を識別し、分割したい前記文字位置を選択することにより選択した前記文字位置を境として前記分割手段により文字列画像を分割することを特徴とする携帯型端末。
  8. 携帯端末で入力された画像から認識された文字列情報に基づいてサーバ装置から該携帯端末へのダウンロードを行う携帯端末システムであって、
    上記携帯端末は、画像入力手段と入力された画像を記憶する画像記憶手段と、記憶された画像を表示する表示手段と、ユーザによる操作の入力を受け付ける操作入力手段と、情報処理部とを有し、該情報処理部は、前記記憶された画像から文字列を含む複数の文字列画像を検出し、該検出された文字列画像の画面中の位置に基づいて前記複数の文字列画像の一つを選択し、前記表示手段は前記複数の文字列画像を前記選択した文字列画像を強調して表示し、前記情報処理部は、前記操作入力手段への入力により前記表示された複数の文字列画像中で文字列画像の再選択を可能とすることを特徴とする携帯端末であり、
    前記サーバ装置は、前記携帯端末で実行する文字認識の前処理プログラムの記憶手段と、文字認識処理手段を備え、
    前記携帯端末は、前記サーバ装置に前記前処理プログラムを要求し、前記前処理プログラムを前記サーバ装置から前記携帯端末にダウンロードし実行することを特徴とする携帯端末システム。
  9. 請求項8記載の携帯端末システムにおいて、前記前処理プログラムは、前記画像入力手段から入力された画像を2値化する2値化手段と、前記2値化手段により2値化された画像から文字列を抽出する文字列抽出手段と、前記文字列の画像を前記サーバ装置に送信することを特徴とする携帯端末システム。
  10. 請求項8乃至9記載の携帯端末システムにおいて、前記サーバ装置に送信される前記文字列画像は、暗号化されることを特徴とする携帯端末システム。
  11. 請求項9記載の携帯端末システムにおいて、前記携帯端末は前記文字列画像を圧縮して前記サーバ装置へ送信し、前記サーバ装置が受信した前記圧縮された文字列画像を伸張し文字認識を行うことを特徴とする携帯端末システム。
  12. 請求項1記載の携帯型端末において、前記位置情報に基づいて前記複数の文字列画像の其々に順位を設け、前記操作入力手段への入力により、上記順位に従って選択され強調して表示される文字列画像が切り替わることを特徴とする携帯型端末。
JP2003202764A 2003-07-29 2003-07-29 文字認識方法とそれを用いた携帯端末システム Expired - Fee Related JP4596754B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003202764A JP4596754B2 (ja) 2003-07-29 2003-07-29 文字認識方法とそれを用いた携帯端末システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003202764A JP4596754B2 (ja) 2003-07-29 2003-07-29 文字認識方法とそれを用いた携帯端末システム

Publications (3)

Publication Number Publication Date
JP2005049920A JP2005049920A (ja) 2005-02-24
JP2005049920A5 JP2005049920A5 (ja) 2006-05-11
JP4596754B2 true JP4596754B2 (ja) 2010-12-15

Family

ID=34262347

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003202764A Expired - Fee Related JP4596754B2 (ja) 2003-07-29 2003-07-29 文字認識方法とそれを用いた携帯端末システム

Country Status (1)

Country Link
JP (1) JP4596754B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7899243B2 (en) 2000-11-06 2011-03-01 Evryx Technologies, Inc. Image capture and identification system and process
US9310892B2 (en) 2000-11-06 2016-04-12 Nant Holdings Ip, Llc Object information derived from object images
US7565008B2 (en) * 2000-11-06 2009-07-21 Evryx Technologies, Inc. Data capture and identification system and process
US7680324B2 (en) 2000-11-06 2010-03-16 Evryx Technologies, Inc. Use of image-derived information as search criteria for internet and other search engines
US8224078B2 (en) 2000-11-06 2012-07-17 Nant Holdings Ip, Llc Image capture and identification system and process
JP5963056B2 (ja) * 2013-03-22 2016-08-03 ブラザー工業株式会社 操作入力処理プログラム及び操作入力処理方法
JP6164361B2 (ja) * 2014-03-25 2017-07-19 富士通株式会社 端末装置、表示制御方法及びプログラム
EP3125087B1 (en) * 2014-03-25 2019-09-04 Fujitsu Limited Terminal device, display control method, and program
CN106104516B (zh) * 2014-03-25 2019-06-28 富士通株式会社 终端装置、显示控制方法以及程序
JP6217696B2 (ja) * 2015-06-10 2017-10-25 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
JP2005049920A (ja) 2005-02-24

Similar Documents

Publication Publication Date Title
US8786556B2 (en) Method and apparatus for selecting text information
US7190833B2 (en) Mobile device and transmission system
US9589198B2 (en) Camera based method for text input and keyword detection
US8880338B2 (en) Portable electronic device, and method for operating portable electronic device
KR101220709B1 (ko) 한글 및 한자가 혼용된 문서에 대한 전자 사전 검색 장치 및 방법
JP2013502861A (ja) 連絡先情報入力方法及びシステム
KR20140030361A (ko) 휴대단말기의 문자 인식장치 및 방법
KR20110052124A (ko) 파노라마 이미지 생성 및 조회 방법과 이를 이용한 휴대 단말기
JP4596754B2 (ja) 文字認識方法とそれを用いた携帯端末システム
JP5989479B2 (ja) 文字認識装置、文字認識装置の制御方法、制御プログラム、および制御プログラムを記録したコンピュータ読み取り可能な記録媒体
TWI294100B (en) Mobile handset and the method of the character recognition on a mobile handset
JP4668345B1 (ja) 情報処理装置、および情報処理装置の制御方法
JP5991323B2 (ja) 画像処理装置、画像処理方法、および画像処理プログラム
KR20090114759A (ko) 이동통신 단말기의 웹 뷰어 화면 갱신 처리 시스템 및 그방법
US11297242B2 (en) Imaging apparatus which generates title images for classifying a plurality of captured images and inserts the title images as separate images within the plurality of captured images
JP2006209599A (ja) 携帯端末、文字読取方法および文字読取プログラム
JP2008225676A (ja) 辞書検索装置及びその制御プログラム
US9521228B2 (en) Mobile electronic apparatus and control method of mobile electronic apparatus
CN114998102A (zh) 图像处理方法、装置及电子设备
JP4717526B2 (ja) 文字認識装置、文字認識方法、データ変換装置、データ変換方法、文字認識プログラム、データ変換プログラム、並びに文字認識プログラムおよびデータ変換プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2005055973A (ja) 携帯情報端末
CN104598545A (zh) 一种文件操作方法
JP2007206985A (ja) 文字列抽出装置、文字列抽出方法、そのプログラムおよび記録媒体
JP5999582B2 (ja) 情報出力装置及びプログラム
JP5632905B2 (ja) 情報入力装置及び入力切替制御方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060314

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060314

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060420

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090410

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090428

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090623

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090804

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100921

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131001

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131001

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees