KR101002899B1 - 문자 인식 방법 및 장치 - Google Patents
문자 인식 방법 및 장치 Download PDFInfo
- Publication number
- KR101002899B1 KR101002899B1 KR1020080122637A KR20080122637A KR101002899B1 KR 101002899 B1 KR101002899 B1 KR 101002899B1 KR 1020080122637 A KR1020080122637 A KR 1020080122637A KR 20080122637 A KR20080122637 A KR 20080122637A KR 101002899 B1 KR101002899 B1 KR 101002899B1
- Authority
- KR
- South Korea
- Prior art keywords
- recognition
- character
- image
- character recognition
- camera
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
- G06V10/235—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on user input or interaction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/268—Lexical context
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Discrimination (AREA)
Abstract
본 발명은 영상을 이용한, 문자 인식 장치 및 문자 인식 방법에 관한 것으로, 문자 인식 요청에 따라 카메라를 활성화하고, 상기 카메라를 통해 촬영되는 영상을 실시간으로 디스플레이하는 프리뷰 모드를 설정하고, 상기 카메라에 대해 오토 포커스를 제어하여, 상기 프리뷰 모드 상에서 획득되는 영상들 중 미리 정해진 선명도를 가지는 영상을 문자 인식용 영상으로 획득하고, 상기 문자 인식용 영상을 문자 인식 처리하여 인식 결과 데이터를 추출하고, 상기 인식 결과 데이터에서 문자가 아닌 데이터를 제외한 최종 인식 문자열을 도출하고, 상기 최종 인식 문자열의 문자를 포함하며, 미리 정해진 최대 문자수로 이루어진 제1단어로 조합한 후, 상기 제1단어를 이용하여 각종 언어의 사전 정보가 저장된 사전 데이터베이스를 검색하여 일치하는 단어를 사용자에게 제공한다.
문자 인식, 영상, 움직임
Description
본 발명은 문자 인식 방법 및 장치에 관한 것으로, 특히, 카메라를 이용한 문자 인식 방법 및 장치에 관한 것이다.
전자 기술의 발전에 따라 이동 통신 단말, PDA, 휴대용 게임기와 같은 휴대용 단말들은 한두 가지의 전용 기능 외에 다양한 기능을 구비한다. 예를 들어, 이동 통신 단말은 통신 기능에 필요한 장치 외에 디지털 카메라나 음원 재생 장치 등을 구비하여, 사용자에게 촬영 기능이나 음악 재생 기능을 제공한다. 그리고 이렇게 추가된 장치들은 다른 어플리케이션과 연계하여, 다양한 기능을 제공한다. 예를 들어, 카메라를 구비한 휴대용 단말들은 카메라를 통해 정지 영상이나 동영상을 생성할 뿐만 아니라, 문자 인식 어플리케이션과 연계하여 정지 영상을 이용한 문자 인식 기능을 제공할 수도 있다.
일반적으로 카메라를 구비한 휴대용 단말은 문자 인식을 위해 정지 영상 촬영을 통해 정지 영상을 생성하여 저장하고, 이 후, 문자 인식 어플리케이션이 저장된 한 장의 정지 영상을 읽어 문자 인식을 수행한다. 그리고 인식된 결과는 다른 어플리케이션에서 이용되기도 한다. 특히, 영상을 이용한 문자 인식은 사용자가 해 당 문자를 입력하기 위한 문자키 입력등의 번거로운 절차를 생략하기 위해 사용되기도 하지만, 휴대용 단말에 구비된 키로서 입력할 수 없는 문자를 입력하기 위해 또는 사용자가 모르는 언어를 입력하기 위해 사용될 수도 있다.
그런데 종래의 카메라를 이용한 문자 인식 방법은 사용자가 인식할 문자에 대해 셔터(shutter)를 눌러 사진 촬영을 하고, 촬영한 결과로 정지 영상을 획득한 후에 문자 인식 과정을 수행하기 때문에 연속된 단어를 실시간으로 빠르게 인식하지 못한다는 단점이 있다. 따라서 만일 사용자가 인식을 수행하고 싶은 문자들이 많은 경우에, 좀 더 효율적이고 빠르게 인식과정을 수행하고, 인식 결과를 제공하기 위한 방법이 요구된다.
그리고 사용자는 영상을 이용한 문자 인식 방법으로 획득한 문자를 이용해 사전 검색을 원할 수도 있다. 이때, 사전 검색을 효율적으로 할 수 있는 방법이 제공되는 것이 바람직하다.
본 발명은 카메라를 이용해 사용자가 문자인식을 할 경우에 실시간으로 빠르게 여러 문자들에 대한 인식을 수행하고 인식된 결과를 제공할 수 있는 방법 및 장치를 제공한다.
그리고 본 발명은 문자 인식 장치의 문자 인식 방법에 있어서, 문자 인식 요청에 따라 카메라를 활성화하고, 상기 카메라를 통해 촬영되는 영상을 실시간으로 디스플레이하는 프리뷰 모드를 설정하는 과정과, 상기 카메라에 대해 오토 포커스를 제어하여, 상기 프리뷰 모드 상에서 획득되는 영상들 중 미리 정해진 선명도를 가지는 영상을 문자 인식용 영상으로 획득하는 과정과, 상기 문자 인식용 영상을 문자 인식 처리하여 인식 결과 데이터를 추출하는 과정과, 상기 인식 결과 데이터에서 문자가 아닌 데이터를 제외한 최종 인식 문자열을 도출하는 과정을 포함한다.
그리고 본 발명은 문자 인식 요청에 따라 카메라를 활성화하고, 상기 카메라를 통해 촬영되는 영상을 실시간으로 디스플레이하는 프리뷰 모드를 설정하는 과정과, 문자 인식용 영상으로 획득할 수 있는 문자를 검출하는 과정과, 문자가 존재하지 않으면 최초 디스플레이하는 프리뷰 모드를 통하여 프리뷰 영상을 획득하는 과정을 수행하며, 문자가 존재하면 사용자에 의한 문자 인식장치의 움직임이 있는지를 검출하는 과정을 더 포함한다.
그리고 본 발명은 상기 문자 인식장치의 움직임이 있으면 최초 디스플레이하는 프리뷰 모드를 통하여 프리뷰 영상을 획득하는 과정을 수행하며, 움직임이 없으면 상기 카메라에 대해 오토 포커스를 제어하여, 상기 프리뷰 모드 상에서 획득되는 영상들 중 미리 정해진 선명도를 가지는 영상을 문자 인식용 영상으로 획득하는 과정을 더 포함한다.
그리고 본 발명은 상기 최종 인식 문자열의 문자를 포함하며, 미리 정해진 최대 문자수로 이루어진 제1단어로 조합한 후, 상기 제1단어를 이용하여 각종 언어의 사전 정보가 저장된 사전 데이터베이스를 검색하여 일치하는 단어를 사용자에게 제공하는 과정을 더 포함한다.
본 발명은 카메라의 프리뷰 화면에서 실시간으로 문자들을 인식함으로써, 인식 결과를 빠르고, 연속적으로 사용자에게 제공할 수 있다. 또한 인식률을 높이기 위한 오 제어 및 전처리 방법과 인식결과에 대한 사전 검색이 효과적으로 이루어 질 수 있는 후처리 방법도 나타내었다. 이러한 문자 인식 방법을 통해 기존의 촬영기반의 인식시스템에 비해 인식률이 떨어지지 않으면서 빠르게 인식을 수행할 수 있기 때문에 그 활용도 및 편리성이 매우 클 것이다. 또한 문자 인식수행방법에 있어서 사용자의 움직임정도를 검출하여 움직이는 동안의 문자인식기능이 동작되어 원하지 않는 문자를 인식하는 불필요한 시간낭비를 줄여주게 되어 빠른 문자인식 및 사전 검색을 제공할 수 있다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다. 도면에서 동일한 구성요소들에 대해서는 비록 다른 도면에 표시되더라도 가능한 한 동일한 참조번호 및 부호로 나타내고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어서, 관련된 공지기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명은 생략한다.
먼저 본 발명이 적용되는 문자 인식 장치의 구성을 도1을 참조하여 설명한다. 본 발명에 따른 문자 인식 장치는 이동 통신 단말이나 PMP와 같은 휴대용 단말에 구비될 수 있다. 도1에 도시된 바와 같이 문자 인식 장치는 인식 제어부(10), 카메라(20), 메모리(30), 사전 데이터베이스(40), 표시부(60), 메모리(30), 키입력부(50)를 포함한다.
카메라(20)는 인식 제어부(10)의 제어에 따라 대물렌즈와 파인더에 들어오는 피사체의 아날로그 영상을 고체촬상소자 등을 이용해 디지털 형태의 정보로 변환시켜 메모리(30)에 저장한다.
표시부(10)는 각종 영상과 메모리부(140)에 저장되어 있는 데이터 정보를 인식 제어부(100)의 제어에 의해 화면상에 디스플레이한다. 그리고 카메라 기능이 활성 되면, 카메라(20)가 작동되어 렌즈를 통해 촬상된 영상을 표시부(10)의 화면상에 실시간으로 디스플레이하는 프리뷰(Preview)모드가 수행되는데, 이때 사용자가 원하는 피사체가 액정화면에 표시된 상태에서 촬영 버튼을 누르면 카메라(20)의 렌즈를 통해 촬상된 영상이 캡쳐되고, 이 캡쳐된 영상이 압축되어 메모리(30)에 저장된다. 그리고 표시부(60)는 본 발명에 따른 문자 인식 결과 및 문자 인식 상태 등을 디스플레이한다.
키입력부(50)는 숫자키나 방향키 또는 문자 인식 장치의 여러 가지 기능에 대응되는 기능키들을 구비하며 사용자가 누르는 키에 대응하는 키 입력 데이터를 인식 제어부(10)에 제공한다.
사전 데이터베이스(40)는 각종 언어에 대응하는 사전(dictionary) 정보를 저장한다.
메모리(30)는 인식 제어부(10)의 처리 및 제어를 위한 프로그램, 참조 데이터, 갱신 가능한 각종 보관용 데이터 등을 저장하며, 인식 제어부(10)의 워킹 메모리(working memory)로 제공된다. 그리고 카메라(20)에 의해 생성되는 영상 데이터를 저장한다.
인식 제어부(10)는 문자 인식 장치의 각종 동작 제어 및 데이터 처리를 수행 하며, 본 발명에 따른 문자 인식을 수행하고, 인식된 문자를 이용하여 사전 데이터베이스(40)를 검색하고, 그 결과를 사용자에게 제공한다.
이러한 인식 제어부(10)의 동작 과정을 도2를 참조하여 설명한다. 도2는 본 발명의 일 실시예에 따른 인식 제어부(10)의 동작 과정을 나타낸 것이다.
도2를 참조하여, 인식 제어부(10)는 사용자로부터 문자 인식 요청이 있으면, 101단계에서 카메라(20)를 활성화하고 프리뷰 모드를 설정하여, 카메라(20)를 통해 촬상된 영상을 실시간으로 표시부(60)에 디스플레이한다. 이때, 인식 제어부(10)는 화면상에 입력 시작점을 표시한다. 입력 시작점은 문자 인식률을 높이기 위한 것으로, 인식하고자하는 문자에 대한 화면에서의 위치를 나타낸다. 사용자는 프리뷰 모드가 설정됨에 따라 표시부(60)에 영상이 디스플레이되면, 사용자는 인식하고자 하는 문자에 카메라(20)의 렌즈를 위치시키게 된다. 이때 사용자는 상기 입력 시작점에 인식하고자 하는 문자가 위치하도록 카메라(20)의 위치를 조정할 수 있다.
상기 과정에서 사용자에 의해 카메라(20)가 움직이기 때문에, 카메라(20)와 대상 문자와의 거리에 변화가 발생하여 초점이 안 맞게 되고, 이에 따라 영상에 블러(blur)가 발생할 수 있다. 상기 블러란 영상의 피사체들의 윤곽선이 흐리게 나타나는 현상을 말한다. 그런데 블러가 심한 영상은 정상적으로 문자 인식 처리를 할 수 없기 때문에 일정 정도의 선명한 영상이 획득되어야 한다. 따라서 본 발명에서 인식 제어부(10)는 103단계에서 실시간으로 입력되는 영상의 블러를 검출하여 자동으로 초점을 맞추는 오토 포커스(Auto Focus)를 제어한다.
오토 포커스 제어 과정을 도3에 나타내었다. 도3을 참조하여, 인식 제어 부(10)는 201단계에서 프리뷰 영상을 획득하면 203단계로 진행하여 블러를 검출한다. 그리고 205단계에서 블러가 존재하는지 확인하여 존재하면 209단계로 진행하여 오토 포커스를 수행하고, 존재하지 않으면 207단계에서 상기 프리뷰 영상을 인식용 영상으로 획득한다. 다시 말해, 카메라(20)로부터 입력된 영상의 영상 정보를 이용한 블러 검출 방법을 이용하여 만일 현재 영상의 피사체들의 윤곽이 미리 정해진 기준치만큼 선명하지 않다면, 블러가 발생한 것으로 판단하고, 이에 따라 현재 영상의 초점거리가 맞지 않는 영상으로 판단한다. 그리고 카메라(20)를 제어하여 오토 포커싱(Auto Focusing)을 수행하게 된다. 만일 블러 검출 결과 현재 영상에 존재하는 피사체의 윤곽이 미리 정해진 기준치 이상으로 선명하다면, 다시 말해, 기준치 이상의 선명도를 가진다면, 그 영상은 인식용 영상으로써 획득되는 것이다. 이와 같이 오토 포커스 제어를 통해 조건적으로 오토 포커스를 수행하기 때문에 인식 영상 획득 과정을 빠르게 할 수 있게 된다. 그리고 종래와 같이 사용자의 셔터키 입력등을 통한 특정 정지 영상의 저장까지 완료된 후에, 저장된 상기 정지 영상을 독출하여, 이를 인식용 정지 영상으로 이용하는 것이 아니라, 프리뷰 모드에서 획득된 프리뷰 영상 중 블러가 발생하지 않은 영상을 인식용 영상으로 바로 사용하기 때문에, 문자 인식 처리 시간이 단축될 수 있다.
도2로 돌아와서, 상기와 같은 과정으로 105단계에서 인식용 영상을 획득하면, 인식 제어부(10)는 107단계에서 문자 인식 전처리 과정을 수행한다. 문자 인식 전처리 과정에서 인식 제어부(10)는 현재 획득한 인식용 영상에서 인식률을 높일 수 있도록 영상의 밝기나 명암을 조절하거나 또는 윤곽을 선명하게 조절하는 영상 처리를 수행한다. 그리고 문자가 포함되어 있는 관심문자영역(ROI)을 추출한다.
109단계에서 인식 제어부(10)는 문자 인식 전처리가 완료된 전처리 영상을 이용하여 문자 인식을 수행하고, 111단계에서 문자 인식 후처리 과정을 수행한다. 문자 인식 후처리(character recognition post processing) 과정은 사전 검색을 위한 일종의 전처리 과정으로서 인식된 결과 중에서 오 인식 등으로 인해 발생할 수 있는 인식 결과들을 제거한다. 예를 들어, 입력된 영상이 대한민국XXX (X는 글자가 아니거나 다른 언어이거나 짤린 글자)을 인식할 경우 인식된 결과 중에서 실제 제대로 글자로 인식되었다고 판단되는 글자 코드(인식기가 영상을 인식하여 결과로 내어주는 코드, 예를 들어 아스키 코드의 나열) 들만 추출해 내는 작업이 필요하게 된다. 그리고 인식된 글자들에 있어서 각각의 언어에 특성을 고려한 후 처리를 한다. 예를 들면 영어나 한국어와 같이 단어의 형태 변형이 가능한 언어들에 있어서는 특징적인 규칙들을 적용 처리한 단어 또는 문자들을 사전에 넘겨주면 훨씬 더 빠르고 정확한 사전 검색 결과를 얻을 수 있게 된다. 특히 한국어의 경우에는 형태의 변형이 매우 복잡하기 때문에 특별히 형태소 분석이나 형태 변형에 대한 처리를 해 주지 않으면 정확한 사전 검색 결과를 얻기가 어렵다. 가령 '먹었습니다'의 경우에는 실제 사전에는 '먹다' 또는 '먹었다' 등의 단어만 있는 경우가 많기 때문에 인식기에서 '먹었습니다'를 정확히 인식을 하였다고 해도, 일반적인 사전에는 단어의 모든 형태를 가지고 있지 않기 때문에 원하는 단어 검색에 실패(예를 들어, '먹다'가 아닌 먹[墨(묵)]을 찾거나, 해당되는 단어가 없다고 판단될 경우)를 하는 경우가 발생하게 된다. 또 '보도합니다' 와 같은 경우에는 '보도' 라는 단어만 가지 고 사전 검색을 해야 빠른 결과를 얻을 수 있기 때문에 이러한 경우에 대한 규칙 적용 이 필요하게 된다. 따라서 일반적으로 인식시스템에서 중요하게 생각되는 인식기 자체의 인식률뿐만 아니라 인식된 결과를 이용하여 사용자가 원하는 정보로 변환한 결과를 잘 제공하기 위해서는 인식시스템의 사전 검색 능력(사용자가 원하는 글자를 정확하게 얻을 수 있는 능력)을 높여야 하고, 이를 위해 언어별로 가지고 있는 고유의 문법 규칙을 적용하여 사전검색을 빠르고 정확하게 할 수 있는 단어로 변경을 한다. 그리고 문자 인식 결과로 상기 전처리 영상에서 추출된 인식 결과 데이터 중 숫자나 언어로 인식될 수 없는 데이터, 즉, 무효 데이터가 있다면, 이를 제거하는 과정이다. 상기 무효 데이터의 예로는, 특수 기호, 공백 등이 있을 수 있으며, 무효 데이터의 종류나 유형은 메모리(30)에 미리 저장된다. 예를 들어, 인식된 결과가 '대한+민국' 이라고 하면 특수문자인 '+'를 제거한 '대한민국'으로 문자를 재구성한다. 이러한 과정을 통해 검색을 위한 정확한 문자들을 얻어내게 된다.
이후, 113단계에서 인식 제어부(10)는 문자 인식 후처리가 완료된 최종 인식 문자 또는 문자들의 조합을 이용해 사전 데이터베이스(40)를 검색하여, 115단계에서 사전 검색 결과를 표시부(60)에 디스플레이한다. 이에 따라, 사전에 존재하는 단어로서 인식된 문자열이 제공될 수 있다.
본 발명의 일 실시예에 따라, 인식 제어부(10)는 사전 검색시 최종 인식 문자열을 최대 문자수로 이루어진 제1단어로 조합한 후, 조합된 단어를 이용하여 사전 데이터베이스(40)를 검색한다. 이때 단어에 포함되는 문자의 배열 순서는 사용 자의 요청이 없이 변경되지 않는다. 그리고 인식 제어부(10)는 사전 데이터베이스(40) 검색 결과, 일치하는 단어가 검색되지 않으면, 제1단어에서 하나의 문자를 제외한 제2단어를 이용하여 사전 데이터베이스(40)를 검색한다. 인식 제어부(10)는 일치하는 단어가 검색될 때까지 계속해서 문자를 하나씩 제외한 단어를 이용해 사전 데이터베이스(40)를 검색한다. 또는, 일치하는 단어의 검색 유무와 상관없이, 마지막 한 문자가 남을 때 까지, 즉, 하나의 문자로 이루어진 단어를 검색할 때까지 사전 검색을 계속하고, 모든 검색 결과를 사용자에게 제공할 수도 있다. 이때, 문자의 제외 순서는 미리 정해진다. 그리고 문자의 제외 순서 또는 최대 검색 단어 문자수는 사용자에 의해 설정될 수 있다.
예를 들어, 인식한 문자의 개수가 네 개이고, 최대 검색 단어의 문자수를 네 글자로 설정하였다면 네 글자의 단어의 검색부터 수행하며, 만일 검색 결과가 없을 경우에는 하나씩 단어의 개수를 줄여 가며 검색을 수행한다. 즉 인식한 결과가 시작위치부터 'A', 'B', 'C', 'D' 이고 최대 검색수가 4글자라고 하면 ABCD, ABC, AB, A 순서로 검색을 하게 된다. 만일 이러한 검색 과정 중간에 검색 결과가 나오게 되면 검색과정을 중단할 수 있다.
도4에 도시된 바와 같이, 인식된 문자열이 “행정구역”이고, 최대 문자수가 네 개이고, 모든 검색 결과를 제공하도록 설정된 경우, 첫 검색(301)에서는 “행정구역”이 검색되고, 두 번째 검색(303)에서는 “행정구”가 검색되고, 세 번째 검색(305)에서는 “행정”이 검색되고, 네 번째 검색(307)에서는 “행”이 검색된다.
이때 인식된 단어 또는 문자 주변의 다른 단어나 문자도 이미 인식 결과에는 존재 할 수 있다. 따라서 주변의 단어 또는 문자를 재인식 과정을 거치지 않도록 하기 위해서 단어 또는 문자 기반의 좌우 키 이동이 가능하도록 하여, 현재 인식된 문자열 중 선택적으로 사전 검색이 이루어지게 할 수도 있다. 예를 들어, 상기 111과정에서 획득한 최종 인식 문자열을 표시부(60)에 디스플레이한 상태에서 사용자로부터 일부 문자열을 선택하는 키입력을 받으면 이러한 키입력에 대응하는 문자를 선택하고, 선택된 문자로 이루어진 단어를 검색할 수 있다. 예를 들어, 도5에 도시된 바와 같이, “행정구역”이 디스플레이된 상태에서, 사용자는 좌우 방향키를 입력하여, 앞의 “행정”만 선택할 수도 있고(401과정), “구역”만 선택할 수도 있다. 이에 따라, 문자 제어부(10)는 선택된 단어에 대한 사전 검색을 수행한다.
도2로 돌아가서, 117단계에서, 만일 사용자가 현재 표시된 사전 검색 결과를 좀 더 자세히 보기를 요청한다면, 문자 제어부(10)는 119단계로 진행하여 상세한 사전 정보를 제공하고, 사용자로부터 문자 재인식 요청이 있으면 상기 103단계로 진행하여 상기한 동작들을 반복 수행한다.
이상에서 설명한 본 발명의 상기 문자 인식과정은 사용자가 문자인식 장치를 인식을 원하는 문자에 위치하였을 때의 일련의 과정을 설명하였다. 하지만 사용자가 문자인식장치를 가지고 다른 문자를 인식하기 위해 이동 중일 경우에도 카메라의 오토 포커스(Auto focus) 및 문자인식과정이 수행됨으로, 사용자가 원하지 않는 결과가 표시되거나, 불필요한 카메라 오토 포커스 제어와 인식 수행이 되므로 전류 소모 및 연산량으로 인해 카메라 입력 영상의 프레임 레이트의 저하를 가져오게 되어 사용자에게는 카메라를 이동 중에 카메라 프리뷰 끊김 현상등이 발생하게 된다. 따라서 위에서 기술된 기본 동작 순서를 제어하기 위해 도 6의 다른 실시예에서와 같이, 프리뷰 영상이 획득된 상태에서(501단계) 현재 입력된 영상에 문자가 존재하는지를 판단하기 위한 문자 검출 과정을 수행하고(503단계), 그 결과에 따라 문자가 존재하는지 판단(505단계)한다. 만약, 문자가 존재한다면, 현재 입력된 영상과 이전 영상과의 비교를 통해 사용자가 카메라를 움직이고 있는지를 판단하기 위한 움직임 검출(507단계)과 움직임 존재 판단(509단계)을 동시에 하여, 움직임이 없는 경우, 즉, 사용자가 인식하고자 하는 문자에 카메라를 위치시켰을 때만 오토 포커싱 및 인식을 수행할 수 있도록 하였다(511단계, 513단계, 515단계, 515단계, 517단계, 519단계, 521단계). 만일 문자가 없거나 움직임이 있다고 판단이 되면 다음 수행을 하지 않고 다시 최초 카메라 프리뷰 영상획득과정(501 단계)을 수행하도록 한다.
상기 실시예에서는 문자 존재 확인과 움직임 검출이 모두 이루어지는 경우를 예로 들었으나, 본 발명의 실시예에 따라 문자의 존재만을 확인한 후 그 결과에 따라 오토 포커싱 및 인식 과정을 수행하거나, 움직임이 검출되지 않은 경우에만 오토 포커싱 및 인식 과정을 수행하도록 구성할 수도 있다.
도 7은 문자가 존재하는지를 판단하기 위한 구체적인 실시예를 나타낸다. 문자의 존재 여부를 판단하기 위한 경계 값은 실제 문자 인식 처리시 인식이 가능한 글자의 크기가 존재하므로 이를 근거로 한 실험값으로 선정할 수 있다. 또한 에지의 개수를 구하는 영역의 선정은 일반적으로 문자 인식을 할 경우에 사용자가 글자 포커싱(focusing)을 쉽게 할 수 있도록 하는 글자의 시작을 나타내는 표시자를 사 용하게 되는데, 이를 기준으로 선정할 수 있다. 도7을 참조하여, 인식 제어부(10)는 프리뷰 영상에서(601단계) 문자 검출 영역을 획득한 후(603단계), 에지 필터링을 수행한 다음(605단계) 에지 개수를 구한다(607단계). 그리고 에지 개수가 경계값 이상이면(609단계) 문자가 존재하는 것으로 판단한다(611단계).
좀 더 정확한 움직임 판단을 위해서는 실제 검출된 에지가 문자의 에지 인지 또는 다른 사물의 에지 인지도 판단이 필요하나, 본 발명의 실시예에서는 일단 사용자가 인식하려는 대상이 문서일 경우에는 책 주변으로 카메라를 이동하게 되므로 사용자가 카메라를 문서 주변에 위치하고 있을 경우를 가정하여 설명을 하였다.
도 8은 움직임 판단을 위한 구체적인 실시예를 나타낸다. 움직임 판단을 위해서는 현재 영상과 이전의 영상의 비교가 필요하므로 계산량 대비 적절한 성능을 고려하여 이전 영상 프레임들을 저장한다. 그리고 저장된 이전 영상 프레임과 현재 영상 프레임의 비교를 통해 움직임을 판단할 수 있는 값을 계산하고, 이에 대해 경계값을 적용하며 움직임 여부를 판단할 수 있다. 이 때 경계값의 선정은 현재 움직임을 판단하기 위한 영역에 포함된 글자의 크기가 고려된 가변 경계값을 기준으로 적절한 실험값을 반영하여 선정할 수 있다. 좀 더 정확한 움직임 판단을 위해 비교할 이전 프레임의 개수를 늘리거나 움직임 판단을 위한 값의 추이(history)를 반영할 수 있다.
이에 따라, 인식 제어부(10)는, 도8을 참조하여, 프리뷰 영상에서 문자 검출 영역을 획득하고(701단계, 703단계), 획득한 문자 검출 영역에서 에지 필터링을 수행하고(705단계), 필터링 처리된 영상을 저장한다(707단계). 여기서 에지 필터링은 상기 도7에 해당하는 과정이다. 그리고 저장된 영상중 가장 최근의 프레임과 그 이전 프레임의 처리된 영상을 비교하여 그 차이를 계산하고(709단계), 움직임 판단을 위한 움직임 판단 경계값을 계산한다(711단계). 이 후 계산된 차이값과 움직임 판단 경계값을 비교하여 차이값이 움직임 판단 경계값보다 크지 않으면 움직임이 없는 것으로 판단하여, 다음 인식 과정을 수행하고(715단계), 차이값이 움직임 판단 경계값보다 크면 움직임이 발생하는 것으로 판단한다.
도 9는 위에서 언급한 문자 영역 검출 및 움직임 검출을 테스트한 결과를 나타낸다. 움직임 차이 계산값과 움직임 판단 경계값의 비교를 통해 움직임 없는 시점을 판단 할 수 있다. 또한 움직임 판단 경계값은 현재 문자에 존재하는 에지의 개수에 비례하여 계산되도록 하여 판단을 위한 경계값이 좀 더 정밀하게 움직일 수 있음을 알 수 있다. 문자 존재 여부 판단값은 현재 영상의 문자 존재 여부를 판단하기 위해 계산된 값이며 그래프에서 0인 영역은 문자가 없는 영역, 즉 글자 주변의 공백이나 문서의 여백에 카메라가 위치하고 있을 경우를 의미한다. 이와 같이 문자 존재 및 움직임 검출을 통해 인식기 전체 흐름을 제어함으로써 프리뷰의 실시간성을 유지하면서 인식하고자 하는 시점 또는 문자에 카메라가 위치 해 있을 때 인식을 수행할 수 있게 된다.
상술한 본 발명의 설명에서는 구체적인 실시예에 관해 설명하였으나, 여러 가지 변형이 본 발명의 범위에서 벗어나지 않고 실시할 수 있다. 따라서 본 발명의 범위는 설명된 실시예에 의하여 정할 것이 아니고 특허청구범위와 특허청구범위의 균등한 것에 의해 정해 져야 한다.
도1은 본 발명의 일 실시예에 따른 문자 인식 장치의 구성을 나타낸 도면,
도2는 본 발명의 일 실시예에 따른 문자 인식 장치의 동작 과정을 나타낸 도면,
도3은 본 발명의 일 실시예에 따른 문자 인식 장치의 오토 포커스 동작 제어 과정을 나타낸 도면,
도4는 본 발명의 일 실시예에 따른 사전 검색 과정을 나타낸 도면,
도5는 본 발명의 다른 실시예에 따른 사전 검색 과정을 나타낸 도면,
도6은 본 발명의 다른 실시예에 따른 문자 인식 장치의 동작 과정을 나타낸 도면,
도7은 본 발명의 일 실시예에 따른 문자 존재 여부 판단 과정을 나타낸 도면,
도8은 본 발명의 일 실시예에 따른 움직임 존재 여부의 판단 과정을 나타낸 도면,
도9는 본 발명의 일 실시예에 다른 문자 검출 및 움직임 검출을 적용한 결과도면.
Claims (16)
- 문자 인식 장치의 문자 인식 방법에 있어서,문자 인식 요청에 따라 카메라를 활성화하고, 상기 카메라를 통해 촬영되는 영상을 실시간으로 디스플레이하는 프리뷰 모드를 설정하는 과정과,상기 카메라에 대해 오토 포커스를 제어하여, 상기 프리뷰 모드 상에서 획득되는 영상들 중 미리 정해진 선명도를 가지는 영상을 문자 인식용 영상으로 획득하는 과정과,상기 문자 인식용 영상을 문자 인식 처리하여 인식 결과 데이터를 추출하는 과정과,상기 인식 결과 데이터에서 문자가 아닌 데이터를 제외한 최종 인식 문자열을 도출하는 과정을 포함함을 특징으로 하는 문자 인식 방법.
- 제1항에 있어서, 상기 문자 인식용 영상 획득 과정은상기 프리뷰 모드 상에서 획득된 영상에 문자가 존재하는지 확인하는 단계와,상기 문자가 존재하면 상기 카메라에 대해 오토 포커스를 제어하여, 상기 프리뷰 모드 상에서 획득되는 영상들 중 미리 정해진 선명도를 가지는 영상을 문자 인식용 영상으로 획득하는 단계를 포함함을 특징으로 하는 문자 인식 방법.
- 제1항에 있어서, 상기 문자 인식용 영상 획득 과정은상기 프리뷰 모드 상에서 획득된 둘 이상의 프레임에 대한 각 영상을 비교하여 움직임의 여부를 검출하는 단계와,상기 움직임이 없는 것으로 검출되면, 상기 카메라에 대해 오토 포커스를 제어하여, 상기 프리뷰 모드 상에서 획득되는 영상들 중 미리 정해진 선명도를 가지는 영상을 문자 인식용 영상으로 획득하는 단계를 포함함을 특징으로 하는 문자 인식 방법.
- 제 2항에 있어서, 상기 문자가 존재하는지 판단하는 단계는,상기 프리뷰영상을 획득하는 단계와,상기 프리뷰 영상에서 문자 검출 영역을 획득하는 단계와,에지 필터링을 수행하여 에지 개수를 추출하는 단계와,상기 추출된 에지 개수가 경계값 이상일 때 문자가 존재하는 것으로 판단하는 단계를 포함하며,상기 추출된 에지 개수가 상기 경계값보다 작으면 상기 문자가 존재하는지 판단하는 단계를 재수행함을 특징으로 하는 문자 인식 방법.
- 제 3항에 있어서, 상기 움직임 여부를 검출하는 단계는상기 프리뷰영상을 획득하는 단계와,상기 프리뷰 영상에서 문자 검출 영역을 획득하는 단계와,상기 문자 검출 영역에 대한 에지 필터링을 통해 문자가 존재한다고 판단되면, 상기 에지 필터링된 영상 저장하는 단계와,상기 저장된 영상 중 가장 최근 프레임과 그 이전 프레임의 처리된 영상을 비교하고, 차이에 따른 계산값을 산출하는 단계와,움직임 판단을 위한 경계값보다 상기 계산값이 작으면 움직임이 없는 것으로 검출하는 단계를 포함하며,상기 움직임 판단을 위한 경계값보다 상기 계산값이 크면, 움직임이 있는 것으로 검출하여, 상기 움직임 여부를 검출하는 단계를 재수행함을 특징으로 하는 문자 인식 방법.
- 제1항에 있어서, 상기 최종 인식 문자열의 문자를 포함하며, 미리 정해진 최대 문자수로 이루어진 제1단어로 조합한 후, 상기 제1단어를 이용하여 각종 언어의 사전 정보가 저장된 사전 데이터베이스를 검색하여 일치하는 단어를 사용자에게 제공하는 과정을 더 포함함을 특징으로 하는 문자 인식 방법.
- 제6항에 있어서, 상기 제1단어에서 문자를 한 개씩 제외하여, 최소 한 문자로 이루어진 새로운 단어들을 조합하고, 상기 각 새로운 단어를 이용하여 상기 사전 데이터베이스를 검색하여 일치하는 단어를 사용자에게 제공하는 과정을 더 포함함을 특징으로 하는 문자 인식 방법.
- 제6항에 있어서, 상기 제1단어 또는 상기 최종 인식 문자열 중 사용자에 의해 선택된 문자로 이루어진 단어를 이용하여 각종 언어의 사전 정보가 저장된 사전 데이터베이스를 검색하여 일치하는 단어를 사용자에게 제공하는 과정을 더 포함함을 특징으로 하는 문자 인식 방법.
- 문자 인식 장치에 있어서,문자 인식 요청에 따라 활성화되는 카메라와,상기 카메라에서 촬영되는 영상을 디스플레이하는 표시부와,상기 문자 인식 요청에 따라 상기 카메라를 통해 촬영되는 영상을 실시간으로 디스플레이하는 프리뷰 모드를 설정하고, 상기 카메라에 대해 오토 포커스를 제어하여, 상기 프리뷰 모드 상에서 획득되는 영상들 중 미리 정해진 선명도를 가지는 영상을 문자 인식용 영상으로 획득하고, 상기 문자 인식용 영상을 문자 인식 처리하여 인식 결과 데이터를 추출하고, 상기 인식 결과 데이터에서 문자가 아닌 데이터를 제외한 최종 인식 문자열을 도출하는 인식 제어부를 포함함을 특징으로 하는 문자 인식 장치.
- 제9항에 있어서, 상기 인식 제어부는 상기 프리뷰 모드 상에서 획득되는 영상에서 문자가 존재하는지 확인하여, 상기 문자가 존재하는 경우 상기 오토 포커스 제어를 수행함을 특징으로 하는 문자 인식 장치.
- 제9항에 있어서, 상기 인식 제어부는 상기 프리뷰 모드 상에서 획득된 둘 이상의 프레임에 대한 각 영상을 비교하여 움직임의 여부를 검출하고, 상기 움직임이 검출되면 상기 오토포커스 제어를 수행함을 특징으로 하는 문자 인식 장치
- 제 10항에 있어서, 상기 인식 제어부는 상기 문자 존재를 확인하기 위해, 상기 프리뷰영상을 획득하고, 상기 프리뷰 영상에서 문자 검출 영역을 획득하고, 에지 필터링을 수행하여 에지 개수를 추출하고, 상기 추출된 에지 개수가 경계값 이상일 때 문자가 존재하는 것으로 판단하고, 상기 추출된 에지 개수가 상기 경계값보다 작으면 상기 문자가 존재하는지에 대한 판단을 다시 시작함을 특징으로 하는 문자 인식 장치.
- 제11항에 있어서, 상기 인식 제어부는 상기 움직임 여부를 검출하기 위해, 상기 프리뷰영상을 획득하고, 상기 프리뷰 영상에서 문자 검출 영역을 획득하고, 상기 문자 검출 영역에 대한 에지 필터링을 통해 문자가 존재한다고 판단되면, 상기 에지 필터링된 영상 저장하고, 상기 저장된 영상 중 가장 최근 프레임과 그 이전 프레임의 처리된 영상을 비교하고, 차이에 따른 계산값을 산출하고, 움직임 판단을 위한 경계값보다 상기 계산값이 작으면 움직임이 없는 것으로 검출하며, 상기 움직임 판단을 위한 경계값보다 상기 계산값이 크면 움직임이 있는 것으로 검출하여, 상기 움직임 여부 검출을 재수행함을 특징으로 하는 문자 인식 장치.
- 제11항에 있어서, 상기 인식 제어부는, 상기 최종 인식 문자열의 문자를 포함하며, 미리 정해진 최대 문자수로 이루어진 제1단어로 조합한 후, 상기 제1단어를 이용하여 각종 언어의 사전 정보가 저장된 사전 데이터베이스를 검색하여 일치하는 단어를 사용자에게 제공함을 특징으로 하는 문자 인식 장치.
- 제14항에 있어서, 상기 인식 제어부는, 상기 제1단어에서 문자를 한 개씩 제외하여, 최소 한 문자로 이루어진 새로운 단어들을 조합하고, 상기 각 새로운 단어를 이용하여 상기 사전 데이터베이스를 검색하여 일치하는 단어를 사용자에게 제공함을 특징으로 하는 문자 인식 장치.
- 제15항에 있어서, 상기 인식 제어부는 상기 최종 인식 문자열 또는 상기 제1단어 중 사용자에 의해 선택된 문자로 이루어진 단어를 이용하여 각종 언어의 사전 정보가 저장된 사전 데이터베이스를 검색하여 일치하는 단어를 사용자에게 제공함을 특징으로 하는 문자 인식 장치.
Priority Applications (9)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP09162392.6A EP2136317B1 (en) | 2008-06-19 | 2009-06-10 | Method and apparatus for recognizing characters |
CN2009101406740A CN101609505B (zh) | 2008-06-19 | 2009-06-12 | 识别字符的方法和装置 |
US12/487,378 US8320681B2 (en) | 2008-06-19 | 2009-06-18 | Method and apparatus for recognizing characters |
US13/658,319 US8553987B2 (en) | 2008-06-19 | 2012-10-23 | Method and apparatus for recognizing characters using autofocus of a camera |
US14/018,005 US8855429B2 (en) | 2008-06-19 | 2013-09-04 | Method and apparatus for recognizing characters |
US14/485,089 US9218547B2 (en) | 2008-06-19 | 2014-09-12 | Method and apparatus for recognizing characters |
US14/969,832 US10089557B2 (en) | 2008-06-19 | 2015-12-15 | Method and apparatus for recognizing characters |
US16/111,967 US10509989B2 (en) | 2008-06-19 | 2018-08-24 | Method and apparatus for recognizing characters |
US16/717,404 US10803367B2 (en) | 2008-06-19 | 2019-12-17 | Method and apparatus for recognizing characters |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20080058069 | 2008-06-19 | ||
KR1020080058069 | 2008-06-19 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20090132482A KR20090132482A (ko) | 2009-12-30 |
KR101002899B1 true KR101002899B1 (ko) | 2010-12-21 |
Family
ID=41483257
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020080122637A KR101002899B1 (ko) | 2008-06-19 | 2008-12-04 | 문자 인식 방법 및 장치 |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR101002899B1 (ko) |
CN (1) | CN101609505B (ko) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102013019A (zh) * | 2010-12-03 | 2011-04-13 | 深圳市乐州光电技术有限公司 | 信息图像识别系统及方法 |
CN103324460A (zh) * | 2012-03-19 | 2013-09-25 | 联想(北京)有限公司 | 数据处理方法、系统及具有该系统的设备 |
US9317764B2 (en) * | 2012-12-13 | 2016-04-19 | Qualcomm Incorporated | Text image quality based feedback for improving OCR |
CN104767926A (zh) * | 2014-01-07 | 2015-07-08 | 北京三星通信技术研究有限公司 | 自动对焦的方法及装置 |
KR101604651B1 (ko) * | 2015-07-01 | 2016-03-18 | 렉스젠(주) | 영상 감시 장치 및 그 방법 |
JP7102103B2 (ja) * | 2017-03-31 | 2022-07-19 | キヤノン株式会社 | 携帯型の情報処理装置及び当該情報処理装置を用いた方法及びプログラム |
CN107682623B (zh) * | 2017-09-11 | 2020-06-02 | 北京小米移动软件有限公司 | 拍照方法及装置 |
CN107948517B (zh) * | 2017-11-30 | 2020-05-15 | Oppo广东移动通信有限公司 | 预览画面虚化处理方法、装置及设备 |
KR102592595B1 (ko) | 2018-12-07 | 2023-10-23 | 한국전자통신연구원 | 영상 내 문자 자동번역 시스템 및 방법 |
CN110166621B (zh) * | 2019-04-17 | 2020-09-15 | 维沃移动通信有限公司 | 一种文字处理方法及终端设备 |
CN112348024B (zh) * | 2020-10-29 | 2024-07-16 | 北京信工博特智能科技有限公司 | 一种基于深度学习优化网络的图文识别方法及系统 |
CN117203682A (zh) * | 2021-04-19 | 2023-12-08 | 苹果公司 | 用于管理媒体中的视觉内容的用户界面 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101015201A (zh) * | 2004-08-31 | 2007-08-08 | Lg电子有限公司 | 用于处理照相机捕捉的文档图像的方法和装置 |
CN1333574C (zh) * | 2004-09-29 | 2007-08-22 | 致伸科技股份有限公司 | 一种数字图像中提取文本区域的方法 |
JP4457358B2 (ja) * | 2006-05-12 | 2010-04-28 | 富士フイルム株式会社 | 顔検出枠の表示方法、文字情報の表示方法及び撮像装置 |
-
2008
- 2008-12-04 KR KR1020080122637A patent/KR101002899B1/ko not_active IP Right Cessation
-
2009
- 2009-06-12 CN CN2009101406740A patent/CN101609505B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN101609505B (zh) | 2013-05-08 |
KR20090132482A (ko) | 2009-12-30 |
CN101609505A (zh) | 2009-12-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101002899B1 (ko) | 문자 인식 방법 및 장치 | |
US10803367B2 (en) | Method and apparatus for recognizing characters | |
US9317764B2 (en) | Text image quality based feedback for improving OCR | |
EP3007104A1 (en) | Object detection and recognition under out of focus conditions | |
KR102236616B1 (ko) | 정보 처리 장치, 그의 제어 방법, 및 기억 매체 | |
JP5662670B2 (ja) | 画像処理装置、画像処理方法、及びプログラム | |
KR20110076750A (ko) | 단어 인식 방법 및 단어 인식용 프로그램의 기록매체 및 정보 처리 장치 | |
CN105678242B (zh) | 手持证件模式下的对焦方法和装置 | |
US20080094496A1 (en) | Mobile communication terminal | |
CN116166843A (zh) | 基于细粒度感知的文本视频跨模态检索方法和装置 | |
JP5835035B2 (ja) | 文字認識用のプログラムおよび文字認識装置 | |
KR100746755B1 (ko) | 문자인식을 통한 전자사전 기능을 갖는 피.엠.피 및 그제어 방법 | |
CN111079777B (zh) | 一种基于书页定位的点读方法及电子设备 | |
CN107872622B (zh) | 一种近距离成像的方法及移动终端 | |
JP4487247B2 (ja) | 人物画像検索装置 | |
CN112560728B (zh) | 目标对象识别方法及装置 | |
CN111711758B (zh) | 多指定位的试题拍摄方法、装置、电子设备和存储介质 | |
CN111553356A (zh) | 字符识别方法及装置、学习设备、计算机可读存储介质 | |
CN110543238A (zh) | 基于人工智能的桌面交互方法 | |
CN116828286A (zh) | 影像撷取系统和调整对焦的方法 | |
JP2006331216A (ja) | 画像処理装置、画像処理装置における処理対象範囲指定方法、画像処理範囲指定プログラム、および画像処理範囲指定プログラムを記録する記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20131128 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20141127 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20151127 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20161129 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20171129 Year of fee payment: 8 |
|
LAPS | Lapse due to unpaid annual fee |