JP4431335B2 - String reader - Google Patents
String reader Download PDFInfo
- Publication number
- JP4431335B2 JP4431335B2 JP2003206391A JP2003206391A JP4431335B2 JP 4431335 B2 JP4431335 B2 JP 4431335B2 JP 2003206391 A JP2003206391 A JP 2003206391A JP 2003206391 A JP2003206391 A JP 2003206391A JP 4431335 B2 JP4431335 B2 JP 4431335B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- image
- recognition
- character line
- line image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Character Input (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、画像入力手段、具体的にはカメラを持った携帯情報端末または携帯電話等において、撮影した画像中の文字行および文字列を抽出する技術に関する。
【0002】
【従来の技術】
従来より,紙に印刷ないし手書きされた文字を読取る装置はOCR(Optical Character Reader)として知られている。主な応用分野は,帳票処理,郵便物の区分,文書のテキスト化などである。典型的なOCRでは,以下のような手順で文字を読取る。まず紙面をスキャナを用いて光電変換して計算機に取り込み(画像入力),読取りの対象である文字行の領域を切出し(文字行切出し),文字行から個々の文字を切出し(文字切出し),個々の文字が何であるかを識別し(文字識別),言語情報などを利用して読取った文字群を文字列として解釈する(後処理)。
【0003】
文字認識における後処理の一例として,認識結果の個々の文字と言語情報辞書に登録された単語との照合処理することにより文字認識結果の誤りを訂正する機能がある。英単語を例とすると,先頭の文字が誤認識している文字認識結果“oharacter”を辞書内の単語“character”とを照合することにより,誤った文字を修正して単語として正しい認識結果を得ることができる。このような後処理の従来技術としては,非特許文献1の方式や,文字切出し,認識,照合を一体化した非特許文献2の方式が提案されている。
【0004】
後処理の対象として,単語だけでなく住所の丁目番地号部分の表記形式を照合対象とした特許文献1の方式が提案されている。特許文献1の方式では,N-NN-NN(ただし,-は区切り記号,Nは0から9の数字をあらわす)などの表記形式を辞書に格納し,文字認識結果と表記形式を照合することにより,丁目番地号部分の誤りを修正する。この技術を電話番号認識に適用した場合,「TEL」などの電話番号以外の文字が記載された行から,電話番号部分のみを抽出して認識結果を得ることができる。具体的には,0N-NNNN-NNNN(ただし,0は数字の0,Nは0〜9の数字,-は区切り記号をあらわす)などの電話番号の表記形式を辞書に格納し,文字認識結果と照合することにより,電話番号以外の文字を認識結果から削除することができる。
【0005】
一方,近年は携帯電話やPDA(personal digital assistant)などの携帯情報端末に搭載されたカメラを画像入力の手段として,文書,看板,標識などの文字を読取る試みが現われている。携帯電話にカメラを備えた従来例として,特許文献2や特許文献3が提案されている。これらの機器での認識対象は,電話番号,メールアドレス,URL,単語などである。特に,特許文献3では,認識精度向上のため,認識対象を事前に利用者が選択し,この認識対象にしたがって字種限定や後処理の方式の切り替える方式が提案されている。
【0006】
一般に,文字認識における課題の一つとして,読取り対象の文字領域を抽出することが挙げられる。帳票OCRでは,事前に読取り対象の文字が記載された領域を厳密に指定しておき,帳票全面の画像からその領域内の画像を切出して認識するという手法が一般的である。また,文書OCR等では,画面上に表示された文書に対し,認識対象の領域をマウスなどで指定するという手法もある。一方,特許文献2の携帯情報端末では,画面上に表示されたマーカに近い文字行領域を自動的に抽出して,認識するという手法が提案されている。
【0007】
【特許文献1】
特開平11−207266号公報
【特許文献2】
特開2003−78640号公報
【特許文献3】
特開2002−152696号公報
【特許文献4】
特開2002−366463号公報
【特許文献5】
特開平11−203404号公報
【非特許文献1】
丸川勝美 他,“手書き漢字住所認識のためのエラー修正アルゴリズム”、情報処理学会論文誌,Vol.35, No.6, 1994.
【非特許文献2】
O.R. Agazzi, et al., "Connected And Degraded Text Recognition using Planar Hidden Markov Models," Proceedings of International Conference on Acoustics, Speech, and Signal Processing, pp. V-113-V-116, 1993
【0008】
【発明が解決しようとする課題】
紙面上の同一行内に複数の文字列もしくは単語があり,読取り対象となるものはその一部であることがある。このような場合,応用分野に応じて予め定められた規則に従い,自動的に装置が読取り対象となる文字列を判別することが必要である。
【0009】
しかしながら,特許文献2,特許文献3,特許文献4などの携帯情報端末を用いた文字認識の従来例においては,同一行内に読取り対象となる文字列は1つだけであり,不要な文字列は画像中に存在しないという前提に基づいていた。
【0010】
一方,現実には同一行内に認識対象以外の文字列が存在する。認識対象の文字列の部分のみを画像入力できる場合は問題ない。しかし,一般にカメラからの画像入力ではピントを調整するために利用者の所望の画角が得られないため,認識対象以外の文字列も画像中に含まれてしまうことが多い。このような場合,認識結果に不要な文字列が付加されてしまうため,利用者の意図とは異なる文字認識結果が得られてしまうという問題がある。
【0011】
URLの認識を例とすると,図5(a)に示すようにURLの他に関係ない文字列がある場合,認識結果はURLと不要な文字列を一緒にした “お問合せhttp://www.xxxxx.co.jptel:012-3456-7890(ダイヤルイン)”になるため,目的のWebページに接続できない。e-mailアドレスの認識も同様である。
【0012】
英単語を認識して翻訳結果を得たい場合を例とすると,行単位でしか文字認識できない仕様であれば,一単語のみを抽出して翻訳することが困難である。例として,行内に“This is a pen.”という文が記載されており,penのみを認識したい場合について説明する。単純な認識結果は“Thisisapen.”であり,penのみを抽出できない。単語照合によりpenのみを抽出することは可能であるが,単語間の区切りが明確でない場合には,単語照合の回数が増える(apen, sapen,isapenなどと照合)ため,CPUの性能が低い携帯情報端末での実装には不向きである。さらに,文字認識を誤った場合には,単語照合でも正しい結果が得られないという問題もある。例えばaをoと誤認識し,“a pen”を“open”と認識した場合は,単語照合によりopenを認識結果としてしまう場合がある。
【0013】
上記の問題を解決するため,文字列間の空白を利用して文字列や単語を検出する手法がある。しかしながら,文字間隔と文字列間隔の空白の幅は必ずしも明確に区別できるとは限らないため,空白を利用した文字列抽出は誤りが発生する場合がある。この段階で読取り対象領域を誤って実際よりも短い文字列を選択すれば,決して正しい認識結果を得ることはできない。
【0014】
そこで、本発明では、以上のような点に鑑みてなされたもので、上記課題の一部又は全部を解決すると共に、特に、携帯情報端末または携帯電話等を用いた文字認識において、利用者の操作によって認識対象となる文字列画像を任意に選択することで、容易に対象となる文字列画像を選択できる文字列選択方法、および選択された文字列画像を認識する文字認識方法を提供することを目的としている。
【0015】
【課題を解決するための手段】
上記目的を達成するため、画像を撮影又は取得又は入力する画像入力部と、この画像入力部からの画像データを表示する表示部と、入力の操作が可能な操作部と、画像データに含まれる文字を認識する演算部と、前記各部を制御する制御部とを有する携帯情報端末において、画像入力部からの画像データのうち、前記操作部から入力された認識モードにより,読取り対象の文字列又は文字行又は単語の抽出方式を自動的に切り替え,文字列又は文字行又は単語を自動的に抽出し、前記表示部に画像データと共に抽出した画像内容を文字列又は文字行又は単語として表示し、前記操作部からの選択操作によって前記表示部に表示された特定の文字列又は文字行又は単語を認識するのに好適な携帯情報端末、又は文字認識方法を提供する。
【0016】
具体的には,文字認識の対象が電話番号,e-mailもしくはURL,英単語で行抽出の方式を切り替える。この処理は,前述の後処理で読取り対象を限定できる場合は文字行全体を認識対象とし,限定できない場合は空白などを利用して行を分割して認識対象を限定とするという方針に基づく。より具体的には,電話番号であれば文字行全体を抽出し,e-mailやURLであれば行の左端からe-mailやURLの終了までを抽出し,英単語であれば英単語のみを抽出する。上記の処理の根拠は以下の通りである。電話番号の認識においては,前述の特許文献1を用いた手法により行中から電話番号の文字のみを判別できるため,行全体を認識対象とすることができる。e-mailやURLの認識においては,単語照合により“http://”や“e-mail:”などの文字列を検出できるため,認識対象の左側は限定する必要がない。ただし,前述の通り右側に不要な文字列が存在する場合にはアドレス認識を誤るため,右側の不要な文字列を削除して認識対象とする。英単語の認識においては,左右の空白などを検出して単語のみを認識対象とする。
【0017】
【発明の実施の形態】
以下、本発明の実施形態を図1から図9を用いて説明する。
図1は、本実施形態に係る画像入力手段を持つ携帯情報端末あるいは携帯電話101(又は単に携帯端末、携帯装置とも言う)の概略を示す構成図である。
携帯情報端末101は,カメラなどの画像入力部102,演算部103,表示部104,操作部105,通信部106,記憶部107を有する。演算部103は記憶部107に格納されたプログラムで指定された手順に従い,各部を制御すると共に,文字行抽出や画像符号化などの処理を実行する。表示部104は,例えば液晶パネルなどの装置から構成されており,画像や文字などの情報を視覚的に表示する。入力部105は,例えばボタンなどの装置から構成されており,装置を操作している人間からの入力を受付ける。通信部106は,例えば無線LANのような装置から構成されており,外部との通信を行う。記憶部107は,例えばスタティックRAMのようなものであり,処理手順を格納するプログラムや,文字行抽出処理や文字認識などの画像符号化処理の過程で必要な変数値を記憶するものである。なお,PDAなどの携帯端末については,通信部106は必須ではない。
【0018】
なお、上述及び以下に説明する各部は、手段、機構、ユニットとも表現でき、基本的にソフトウェア又はハード、又はソフトウェアとハードとの結合によって処理、制御される機能である。なお、撮影、取得、入力などされた画像は、後述する文字認識に用いるように、制御部等のメモリ又は携帯情報端末に備わるメモリカードに記憶しておくような態様が望ましい。
【0019】
図2は、図1の携帯情報端末を使用した第1の実施形態の文字認識の処理手順を説明する図である。
【0020】
利用者は、ステップ200において操作部105を用いて,表示部104に表示されたメニューから文字認識対象の文字列の属性(認識モード)を選択する。認識モードの例としては,図3に示すように「電話番号」,「e-mail」,「URL」,「英単語」などがある。この他に,「住所」「氏名」など適宜認識モードを追加しても良い。
【0021】
次に,ステップ202において,携帯情報端末あるいは携帯電話100が具備するCCDやイメージセンサ等の画像入力部102を用いて、文字認識対象となる名刺や雑誌、あるいは看板などの画像を撮影し、記憶部107にディジタル画像として取込む。この時,特許文献2や図5(b)に示すように表示部104上に画像とマーカを同時に表示し,利用者がマーカの位置が認識対象の文字行上なるようにして画像を採取すれば,読取り対象の文字行の位置を利用者が携帯機器に指示することができる。なお,図5(b)におけるマーカの形状は十字型であるが,マーカの形状には制限はない。なお、文字認識対象の文字列の属性を決定するステップ200は、画像入力のステップ202の後に行ってもよい。
【0022】
次に,ステップ204において,取込んだディジタル画像に対して,マーカの位置を基準に文字行抽出,文字列抽出,単語抽出のいずれかの処理を,認識モードに応じて切り替えて実行する。ステップ204の処理の詳細については,図4を用いて後述する。この抽出結果は,ステップ206において表示部104に利用者が理解できるように表示される。
【0023】
次に,利用者が文字認識対象となる文字行を確認し終えた後、操作部105を用いて確認または認識実行の指示を入力することにより、ステップ208において,行もしくは文字列もしくは単語として抽出された領域内の1文字ごとの文字切り出しを実施し、切り出された個々の文字パターンに対して文字識別文字識別を実施する。さらに,ステップ210において,文字識別の結果として予め具備している表記辞書との照合を行い,認識結果として出力する。最後にステップ212において,文字認識結果を表示部104に表示する。
【0024】
図4は,図2のステップ204における行/文字列/単語抽出の処理手順を説明する図である。なお,図4においては,電話番号,e-mail,URL,英単語の認識モードしか記載していないが,他の認識モードを追加しても良い。追加した認識モードの後段の処理についても適宜追加してよい。
【0025】
まず,ステップ400において,認識モードにより処理を分岐する。認識モードが電話番号の場合には,ステップ402において文字行抽出を行い,処理を終了する。文字行抽出の手法としては,特許文献5や特許文献2に記載された方式を用いることが可能である。特許文献5の方式では,入力画像を2値化した後,文字の記載方向に黒画素の射影をとって生成された周辺分布から,黒画素が多く分布する範囲を抽出することにより行の領域を特定する。特許文献2の方式では,入力画像を2値化した後,黒画素の塊である連結成分を生成し,文字の記載方向に近傍の連結成分を統合することにより行の領域を特定する。
【0026】
図5は,電話番号認識モードにおける表示部104の表示例である。図5(a)は認識対象である。図5(b)は図2のステップ202において画像入力する際の表示例である。ここでは,認識対象の文字列として電話番号「012-3456-7890」を選択しているため,マーカをこの文字列上になるように調整した後,画像を入力する。図5(c)は図2のステップ204において抽出した文字行領域をステップ206で表示した例である。電話番号モードでは,前述の通り後処理で電話番号のみを抽出できるため,ステップ204において行抽出が選択されている(ステップ402)。
【0027】
次に,認識モードがURLの場合について説明する。まず,ステップ402において行抽出を行う。次に,ステップ404において行内において右側に存在する空白を検出し,ステップ408においてこの空白で文字行を分割した領域を文字列抽出結果とする。空白の検出方法としては,行内の連結成分の間隔の分布から単語中の文字間隔と単語間隔の差異を判定する方式などが考えられる。
【0028】
図6はURL認識モードにおける表示部104の表示例である。図6(a)は認識対象である。図6(b)は図2のステップ202において画像入力する際の表示例である。ここでは,認識対象の文字列としてURL「http://www.xxxxx.co.jp」を選択しているため,マーカをこの文字列上になるように調整した後,画像を入力する。図6(c)は図2のステップ204において抽出した文字列領域をステップ206で表示した例である。URLモードでは,前述の通り後処理で“http://”を抽出できるため,ステップ204において図4のステップ402−404−408の処理の流れが選択されている。e-mail認識モードも図6と同様である。
【0029】
次に,認識モードが英単語の場合について説明する。まず,ステップ402において行抽出を行う。次に,ステップ406において行内において読取り対象となる単語の両側の空白を検出し,ステップ410においてこの空白で文字行を分割した領域を単語抽出結果とする。
【0030】
図7は英単語認識モードにおける表示部104の表示例である。図7(a)は認識対象である。図7(b)は図2のステップ202において画像入力する際の表示例である。ここでは,認識対象の文字列として英単語「thousands」を選択しているため,マーカをこの単語上になるように調整した後,画像を入力している。図7(c)は図2のステップ204において抽出した単語領域をステップ206で表示した例である。英単語モードでは,ステップ204において図4のステップ402−406−410の処理の流れが選択されている。
【0031】
以上説明した第1実施形態の特徴は、利用者が認識対象を選択して画像を撮影すると、認識モードに応じて認識対象の領域を抽出する方式を自動的に選択し,それが図5(c),図6(c),図7(c)に示されるに表示部に表示されることで、利用者が認識対象の領域を確認できる。
【0032】
図8は、本発明に係る第2の実施形態の処理手順を説明する図である。なお、図8の中の符号が図2と同一のステップは、同一機能を有するものとする為ここでの説明は省略する。図8は,ステップ202において画像を入力した後に,ステップ200において認識モードを選択する。以降の処理は図2と同様である。
【0033】
なお,第1および第2の実施例において,文字認識(ステップ208)と後処理(ステップ210)は携帯機器内で行う必要は無い。例えば通信機能を用いてサーバに認識対象領域の画像を転送し,サーバで上記の処理を行うということも可能である。
【0034】
次に,図5(b),図6(b),図7(b)のマーカの表示形式について補足する。第一のマーカの表示形式は,ディスプレイなどの表示デバイス上の固定位置に表示されているものである。この場合,形態機器を動かすことにより認識対象の文字行を選択することになる。第二の表示形式は,マーカの位置は固定ではなく,操作部からの指示、または入力画像中から文字列を切り出してその文字列位置にカーソルを表示すること、などにより移動できるものである。
【0035】
図9は,本発明に係る第3の実施形態である,英単語認識モードにおいて英熟語を認識する場合の表示部104の表示例である。図9(a)は認識対象である。図9(b)は図2のステップ202において画像入力する際の表示例である。ここでは,認識対象の文字列として英熟語「thousands of」を選択する。ここで,thousands とofの間の空白にマーカ位置を調整した後,画像を入力している。図7(c)は図2のステップ204において抽出した単熟語領域をステップ206で表示した例である。この場合,ステップ204において図4のステップ402−406−410の処理の流れが選択されている。ただし,単語間の空白にマーカを置いているため,この空白をより左右の空白が区切り位置として検出されることになり,結果として2字熟語を選択することができる。
【0036】
【発明の効果】
以上に説明したように、携帯情報端末の入力部より取得した画像から,読取り対象の文字列のみを自動抽出して認識することができる。
【図面の簡単な説明】
【図1】携帯情報端末の構成図を示す。
【図2】第1の実施形態に係る文字認識方法のフロー図である。
【図3】第1の実施形態に係る認識モード選択のためのメニューを説明する図である。
【図4】第1の実施形態に係る行/文字列/単語抽出方法のフロー図である。
【図5】第1の実施形態に係る電話番号モードにおける行抽出の表示を説明する図である。
【図6】第1の実施形態に係るURLモードにおける文字列抽出の表示を説明する図である。
【図7】第1の実施形態に係る英単語モードにおける単語抽出の表示を説明する図である。
【図8】第2の実施形態に係る文字認識方法のフロー図である。
【図9】第3の実施形態に係る英単語モードにおける英熟語抽出の表示を説明する図である。[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a technique for extracting a character line and a character string in a photographed image in an image input means, specifically, a portable information terminal or a mobile phone having a camera.
[0002]
[Prior art]
Conventionally, a device that reads characters printed or handwritten on paper is known as an OCR (Optical Character Reader). The main application fields are form processing, mail classification, and text conversion of documents. In typical OCR, characters are read in the following procedure. First, the paper is photoelectrically converted into a computer using a scanner (image input), the area of the character line to be read is extracted (character line extraction), and individual characters are extracted from the character line (character extraction). Is identified (character identification), and a group of characters read using language information is interpreted as a character string (post-processing).
[0003]
As an example of post-processing in character recognition, there is a function of correcting an error in the character recognition result by collating the individual characters in the recognition result with words registered in the language information dictionary. Taking an English word as an example, the character recognition result “oharacter”, whose leading character is misrecognized, is checked against the word “character” in the dictionary to correct the incorrect character and obtain the correct recognition result as a word. Obtainable. As a conventional technique for such post-processing, the method of Non-Patent
[0004]
As a post-processing target, a method of
[0005]
On the other hand, in recent years, attempts have been made to read characters such as documents, signs, signs, etc. using a camera mounted on a portable information terminal such as a mobile phone or a PDA (personal digital assistant) as an image input means.
[0006]
In general, one of the problems in character recognition is to extract a character area to be read. In the form OCR, a method is generally known in which an area in which characters to be read are written is specified in advance, and an image in the area is cut out and recognized from the entire image of the form. In addition, in document OCR or the like, there is also a method of designating a recognition target area with a mouse or the like for a document displayed on the screen. On the other hand, in the portable information terminal of
[0007]
[Patent Document 1]
Japanese Patent Laid-Open No. 11-207266 [Patent Document 2]
JP 2003-78640 A [Patent Document 3]
JP 2002-152696 A [Patent Document 4]
JP 2002-366463 A [Patent Document 5]
Japanese Patent Laid-Open No. 11-203404 [Non-Patent Document 1]
Katsumi Marukawa et al., “Error Correction Algorithm for Handwritten Kanji Address Recognition”, Transactions of Information Processing Society of Japan, Vol.35, No.6, 1994.
[Non-Patent Document 2]
OR Agazzi, et al., "Connected And Degraded Text Recognition using Planar Hidden Markov Models," Proceedings of International Conference on Acoustics, Speech, and Signal Processing, pp. V-113-V-116, 1993
[0008]
[Problems to be solved by the invention]
There may be a plurality of character strings or words in the same line on paper, and a part to be read may be a part of them. In such a case, it is necessary to automatically discriminate the character string to be read by the device in accordance with a predetermined rule according to the application field.
[0009]
However, in conventional examples of character recognition using portable information terminals such as
[0010]
On the other hand, there are actually character strings other than the recognition target in the same line. There is no problem if only the character string portion to be recognized can be input as an image. However, in general, since an image input from a camera cannot adjust a focus to obtain a user's desired angle of view, character strings other than recognition targets are often included in the image. In such a case, since an unnecessary character string is added to the recognition result, there is a problem that a character recognition result different from the user's intention is obtained.
[0011]
Taking URL recognition as an example, as shown in Fig. 5 (a), if there is an unrelated character string in addition to the URL, the recognition result is the URL and unnecessary character string combined together. .xxxxx.co.jptel: 012-3456-7890 (dial-in) ", so the target Web page cannot be connected. The same is true for e-mail address recognition.
[0012]
For example, when it is desired to recognize an English word and obtain a translation result, it is difficult to extract and translate only one word if the specification can recognize characters only in line units. As an example, a case where a sentence “This is a pen.” Is described in a line and only the pen is to be recognized will be described. The simple recognition result is "Thisisapen." Although it is possible to extract only pen by word matching, if the delimiter between words is not clear, the number of word matching increases (matching with apen, sapen, isapen, etc.), so the mobile phone with low CPU performance It is not suitable for implementation on information terminals. In addition, if the character recognition is incorrect, there is a problem that correct results cannot be obtained even by word matching. For example, if a is misrecognized as o and “a pen” is recognized as “open”, open may be recognized as a result of word matching.
[0013]
In order to solve the above problem, there is a method for detecting a character string or a word using a space between character strings. However, since the width of the space between the character space and the character space is not always clearly distinguishable, an error may occur when extracting the character string using the space. If a character string shorter than the actual one is selected by mistake in the reading target area at this stage, a correct recognition result can never be obtained.
[0014]
Therefore, the present invention has been made in view of the above points, and solves some or all of the above problems, and particularly in character recognition using a portable information terminal or a mobile phone, etc. To provide a character string selection method by which a character string image to be recognized can be easily selected by arbitrarily selecting a character string image to be recognized by an operation, and a character recognition method for recognizing the selected character string image. It is an object.
[0015]
[Means for Solving the Problems]
In order to achieve the above object, the image data includes an image input unit that captures, acquires, or inputs an image, a display unit that displays image data from the image input unit, an operation unit that can perform an input operation, and image data. In a portable information terminal having a calculation unit for recognizing characters and a control unit for controlling the units, a character string to be read or an image data from an image input unit depending on a recognition mode input from the operation unit. Automatically switching the extraction method of character lines or words, automatically extracting character strings or character lines or words, and displaying the image content extracted together with the image data on the display unit as character strings, character lines or words, Provided is a portable information terminal or a character recognition method suitable for recognizing a specific character string, character line, or word displayed on the display unit by a selection operation from the operation unit.
[0016]
Specifically, the line extraction method is switched depending on whether the character recognition target is a phone number, e-mail or URL, or an English word. This process is based on the policy that if the reading target can be limited by the above-described post-processing, the entire character line is the recognition target, and if the reading target cannot be limited, the line is divided using a blank or the like to limit the recognition target. More specifically, if it is a phone number, the entire text line is extracted, if it is an e-mail or URL, it extracts from the left end of the line to the end of the e-mail or URL. To extract. The grounds for the above processing are as follows. In recognition of a telephone number, since only the characters of the telephone number can be determined from the line by the method using the above-mentioned
[0017]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to FIGS. 1 to 9.
FIG. 1 is a configuration diagram showing an outline of a portable information terminal or a cellular phone 101 (or simply referred to as a portable terminal or a portable device) having an image input unit according to the present embodiment.
The
[0018]
Each unit described above and below can be expressed as a means, a mechanism, and a unit, and is basically a function that is processed and controlled by software or hardware, or a combination of software and hardware. It should be noted that it is desirable that an image captured, acquired, input, etc. is stored in a memory such as a control unit or a memory card provided in a portable information terminal so as to be used for character recognition described later.
[0019]
FIG. 2 is a diagram for explaining a character recognition processing procedure according to the first embodiment using the portable information terminal of FIG.
[0020]
In
[0021]
Next, in
[0022]
Next, in
[0023]
Next, after the user has confirmed the character line to be character-recognized, it is extracted as a line, a character string, or a word in
[0024]
FIG. 4 is a diagram for explaining the processing procedure of line / character string / word extraction in
[0025]
First, in
[0026]
FIG. 5 is a display example of the
[0027]
Next, the case where the recognition mode is URL will be described. First, line extraction is performed in
[0028]
FIG. 6 is a display example of the
[0029]
Next, the case where the recognition mode is English words will be described. First, line extraction is performed in
[0030]
FIG. 7 is a display example of the
[0031]
The feature of the first embodiment described above is that when a user selects a recognition target and shoots an image, a method for extracting a recognition target region is automatically selected according to the recognition mode, which is shown in FIG. By displaying on the display unit as shown in c), FIG. 6C, and FIG. 7C, the user can confirm the recognition target area.
[0032]
FIG. 8 is a diagram for explaining the processing procedure of the second embodiment according to the present invention. 8 that have the same reference numerals as those in FIG. 2 have the same functions, description thereof is omitted here. In FIG. 8, after inputting an image in
[0033]
In the first and second embodiments, character recognition (step 208) and post-processing (step 210) need not be performed in the portable device. For example, it is possible to transfer the image of the recognition target area to the server using the communication function and perform the above-described processing on the server.
[0034]
Next, the marker display formats in FIGS. 5B, 6B, and 7B will be supplemented. The display format of the first marker is displayed at a fixed position on a display device such as a display. In this case, the character line to be recognized is selected by moving the form device. In the second display format, the marker position is not fixed, but can be moved by an instruction from the operation unit, or by cutting out a character string from the input image and displaying a cursor at the character string position.
[0035]
FIG. 9 is a display example of the
[0036]
【The invention's effect】
As described above, only the character string to be read can be automatically extracted and recognized from the image acquired from the input unit of the portable information terminal.
[Brief description of the drawings]
FIG. 1 shows a configuration diagram of a portable information terminal.
FIG. 2 is a flowchart of a character recognition method according to the first embodiment.
FIG. 3 is a diagram illustrating a menu for selecting a recognition mode according to the first embodiment.
FIG. 4 is a flowchart of a line / character string / word extraction method according to the first embodiment.
FIG. 5 is a diagram for explaining display of row extraction in the telephone number mode according to the first embodiment.
FIG. 6 is a diagram for explaining display of character string extraction in the URL mode according to the first embodiment.
FIG. 7 is a diagram for explaining display of word extraction in the English word mode according to the first embodiment.
FIG. 8 is a flowchart of a character recognition method according to a second embodiment.
FIG. 9 is a diagram for explaining display of idiom extraction in English word mode according to the third embodiment.
Claims (1)
前記操作部において受け付けた選択入力により、少なくとも単語認識モードとe-mail,U
RL認識モードの2種類の認識モードを切り替える第1のステップと、
前記認識モードに応じたアルゴリズムで、前記文字行画像から文字認識の対象となる範囲を抽出する第2のステップと、
前記表示部に前記文字認識の対象となる範囲を表示する第3のステップと、
を実行させ、
前記2種類の認識モードのためのアルゴリズムは、いずれも前記文字行画像と、前記画像中に示されるマーカと、前記文字行画像中の空白の位置関係を利用したアルゴリズムであり、前記文字行画像の一部を文字認識の対象となる範囲として抽出することを特徴とする文字列読み取りプログラムであって、
前記認識モードが単語認識モードの場合は、前記第2のステップのアルゴリズムにおいて、前記画像から抽出した文字行画像が横書きの場合、該文字行画像内において前記マーカの両側に存在する空白を検出し、該空白で挟まれた領域を抽出する処理を実行させ、
前記認識モードがe-mail,URL認識モードの場合は、前記第2のステップのアルゴリズムにおいて、前記画像から抽出した文字行画像が横書きの場合、該文字行画像内において前記マーカのすぐ右側に存在する空白を検出し、該空白で文字行を分割し、前記文字行画像の左端から前記空白の直前までの領域を抽出する処理を実行させることを特徴とする文字列読み取りプログラム。Portable information having an image input unit for inputting an image, a display unit for displaying the image, an operation unit capable of input operation, and a calculation unit for controlling each unit and extracting a character line image from the image In the calculation part of the terminal,
At least the word recognition mode and e-mail, U by the selection input received in the operation unit
A first step of switching between two types of RL recognition modes;
A second step of extracting a range for character recognition from the character line image by an algorithm according to the recognition mode;
A third step of displaying a range for character recognition on the display unit;
And execute
The algorithms for the two types of recognition modes are algorithms that use the positional relationship of the character line image, the marker shown in the image, and the blank in the character line image, and the character line image A character string reading program characterized in that a part of the character string is extracted as a range for character recognition,
When the recognition mode is the word recognition mode, in the algorithm of the second step, when the character line image extracted from the image is horizontal writing, white space existing on both sides of the marker is detected in the character line image. , Execute the process of extracting the area between the blanks,
When the recognition mode is e-mail or URL recognition mode, when the character line image extracted from the image is horizontal writing in the algorithm of the second step, the character line image exists immediately to the right of the marker. A character string reading program, comprising: detecting a blank to be detected, dividing a character line by the blank, and extracting a region from a left end of the character line image to immediately before the blank.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003206391A JP4431335B2 (en) | 2003-08-07 | 2003-08-07 | String reader |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003206391A JP4431335B2 (en) | 2003-08-07 | 2003-08-07 | String reader |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2005055991A JP2005055991A (en) | 2005-03-03 |
JP2005055991A5 JP2005055991A5 (en) | 2006-08-10 |
JP4431335B2 true JP4431335B2 (en) | 2010-03-10 |
Family
ID=34363270
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003206391A Expired - Fee Related JP4431335B2 (en) | 2003-08-07 | 2003-08-07 | String reader |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4431335B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104077593A (en) * | 2013-03-27 | 2014-10-01 | 富士通株式会社 | Image processing method and image processing device |
-
2003
- 2003-08-07 JP JP2003206391A patent/JP4431335B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005055991A (en) | 2005-03-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4995554B2 (en) | Retrieval method of personal information using knowledge base for optical character recognition correction | |
KR101291195B1 (en) | Apparatus and method for recognizing characters | |
JP5522408B2 (en) | Pattern recognition device | |
EP1683075B1 (en) | Boxed and lined input panel | |
US8768062B2 (en) | Online script independent recognition of handwritten sub-word units and words | |
KR100412317B1 (en) | Character recognizing/correcting system | |
JP2011008752A (en) | Document operation system, document operation method and program thereof | |
JP2004518198A (en) | Method, device and computer program for recognizing handwritten characters | |
KR101078086B1 (en) | Character recognition apparatus, character recognition program and character recognition method | |
US9081495B2 (en) | Apparatus and method for processing data in terminal having touch screen | |
CN110909740A (en) | Information processing apparatus and storage medium | |
CN109388935B (en) | Document verification method and device, electronic equipment and readable storage medium | |
US7697722B2 (en) | Portable terminal and character reading method using a portable terminal | |
EP3979129A1 (en) | Object recognition method and apparatus, and electronic device and storage medium | |
EP3786844A1 (en) | Image processing system, image processing method, and program | |
US20060285748A1 (en) | Document processing device | |
US11881043B2 (en) | Image processing system, image processing method, and program | |
CN114419636A (en) | Text recognition method, device, equipment and storage medium | |
JP4597644B2 (en) | Character recognition device, program and recording medium | |
JP4800144B2 (en) | Character string determination device, character string determination method, character string determination program, and computer-readable recording medium | |
JP2004152036A (en) | Cellular phone with character recognizing function, correction method of recognized character, and program | |
JP4177325B2 (en) | Image processing apparatus, image processing program, and image processing method | |
CN115131693A (en) | Text content identification method and device, computer equipment and storage medium | |
JP4431335B2 (en) | String reader | |
JP4474231B2 (en) | Document link information acquisition system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20050223 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20060511 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20060511 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060519 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060519 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060519 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090410 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090428 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090622 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090622 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090915 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091015 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091215 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091221 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121225 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131225 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |