KR20220079786A - 상품과 관련된 이미지를 주제별로 분할하기 위한 시스템 및 그에 관한 방법 - Google Patents
상품과 관련된 이미지를 주제별로 분할하기 위한 시스템 및 그에 관한 방법 Download PDFInfo
- Publication number
- KR20220079786A KR20220079786A KR1020210005482A KR20210005482A KR20220079786A KR 20220079786 A KR20220079786 A KR 20220079786A KR 1020210005482 A KR1020210005482 A KR 1020210005482A KR 20210005482 A KR20210005482 A KR 20210005482A KR 20220079786 A KR20220079786 A KR 20220079786A
- Authority
- KR
- South Korea
- Prior art keywords
- image
- keyword
- analysis system
- image analysis
- text block
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0641—Shopping interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
일 실시 예에 따른 이미지 분석 시스템은, 이미지로부터 텍스트 블록을 추출하도록 설정된 텍스트 블록 추출 모듈, 상기 텍스트 블록에 기반하여 상기 이미지를 복수의 영역들로 분할하도록 설정된 영역 분할 모듈, 및 상기 분할된 영역들 각각의 키워드를 결정하도록 설정된 키워드 결정 모듈을 포함할 수 있다. 이 외에도 명세서를 통해 파악되는 다양한 실시 예가 가능하다.
Description
본 문서에 개시되는 실시예들은 상품과 관련된 이미지를 주제별로 분할하기 위한 기술과 관련된다.
기술의 발전에 의하여 이미지로부터 텍스트를 추출하는 기술이 이용되고 있다. 예를 들어, 광학 문자 판독 장치(optical character reader, OCR)는 빛을 이용하여 문자를 판독하는 장치로써 종이에 인쇄되거나 손으로 쓰여진 문자, 숫자, 또는 기호를 컴퓨터에 적합하게 부호화된 전기 신호로 변환할 수 있다.
온라인 쇼핑몰에서, 판매자는 상품과 관련된 이미지를 온라인 쇼핑몰에 등록할 수 있다. 이미지는 예를 들어, 상품 상세 정보, 배송 정보, 또는 이벤트 정보와 같은 다양한 주제의 정보를 나타내는 이미지들을 포함할 수 있다.
소비자는 이미지에 포함된 텍스트 만으로 이미지가 나타내고자 하는 주제를 한눈에 알아보기 어려울 수 있으며, 상품의 구매에 어려움을 겪을 수 있다. 웹 페이지의 DOM 트리(document object model tree)는 이미지에 대한 대체 텍스트를 포함하지 않으며 OCR 기술은 텍스트가 나타내는 의미와 주제를 인식할 수 없기 때문에 소비자는 이미지가 나타내는 주제를 정확히 인식하기 어려울 수 있다.
특히, 소비자가 음성 스크린 리더(screen reader)를 이용하는 시각 장애인인 경우, 소비자는 이미지 내에 포함된 텍스트를 빠르게 보는 것이 불가능하기 때문에 소비자가 이미지 내에 어떠한 내용이 있는지를 빠르게 파악하기 위해서는 이미지 내의 텍스트를 주제별로 분류할 필요가 있다.
본 문서에 개시되는 일 실시 예에 따른 이미지 분석 시스템은, 이미지로부터 텍스트 블록을 추출하도록 설정된 텍스트 블록 추출 모듈, 상기 텍스트 블록에 기반하여 상기 이미지를 복수의 영역들로 분할하도록 설정된 영역 분할 모듈, 및 상기 분할된 영역들 각각의 키워드를 결정하도록 설정된 키워드 결정 모듈을 포함할 수 있다.
본 문서에 개시되는 일 실시 예에 따른 이미지 분석 시스템의 동작 방법은, 이미지로부터 텍스트 블록을 추출하는 동작, 상기 텍스트 블록에 기반하여 상기 이미지를 복수의 영역들로 분할하는 동작, 및 상기 분할된 영역들 각각의 키워드를 결정하는 동작을 포함할 수 있다.
본 문서에 개시되는 실시 예들에 따르면, 이미지 분석 시스템은 이미지에 포함된 각 영역들의 주제(또는 키워드)를 빠르고 정확하게 인식할 수 있다.
본 문서에 개시되는 실시 예들에 따르면, 이미지 분석 시스템은 음성으로 상품 정보를 제공하는 음성 쇼핑(또는, 보이스 쇼핑) 환경에서 사용자가 원하는 정보를 빠르게 찾도록 할 수 있다.
이 외에, 본 문서를 통해 직접적 또는 간접적으로 파악되는 다양한 효과들이 제공될 수 있다.
도 1은 다양한 실시예들에 따라 상품과 관련된 정보를 나타내는 이미지를 도시한다.
도 2는 다양한 실시예들에 따른 이미지 분석 시스템의 예를 도시한다.
도 3은 다양한 실시예들에 따른 이미지 분석 시스템의 블록도를 도시한다.
도 4는 다양한 실시예들에 따라 이미지를 키워드 별로 분할하는 동작 흐름도를 도시한다.
도 5는 다양한 실시예들에 따라 라인에 기반하여 이미지를 복수의 영역들로 분할하는 동작 흐름도를 도시한다.
도 6은 다양한 실시예들에 따른 라인에 기반하여 이미지를 복수의 영역들로 분할하는 동작을 설명한다.
도 7은 다양한 실시예들에 따라 키워드에 기반하여 영역들을 분류하는 동작 흐름도를 도시한다.
도 8은 다양한 실시예들에 따라 키워드에 기반하여 영역들을 분류하는 동작을 설명한다.
도면의 설명과 관련하여, 동일 또는 유사한 구성요소에 대해서는 동일 또는 유사한 참조 부호가 사용될 수 있다.
도 2는 다양한 실시예들에 따른 이미지 분석 시스템의 예를 도시한다.
도 3은 다양한 실시예들에 따른 이미지 분석 시스템의 블록도를 도시한다.
도 4는 다양한 실시예들에 따라 이미지를 키워드 별로 분할하는 동작 흐름도를 도시한다.
도 5는 다양한 실시예들에 따라 라인에 기반하여 이미지를 복수의 영역들로 분할하는 동작 흐름도를 도시한다.
도 6은 다양한 실시예들에 따른 라인에 기반하여 이미지를 복수의 영역들로 분할하는 동작을 설명한다.
도 7은 다양한 실시예들에 따라 키워드에 기반하여 영역들을 분류하는 동작 흐름도를 도시한다.
도 8은 다양한 실시예들에 따라 키워드에 기반하여 영역들을 분류하는 동작을 설명한다.
도면의 설명과 관련하여, 동일 또는 유사한 구성요소에 대해서는 동일 또는 유사한 참조 부호가 사용될 수 있다.
이하, 본 발명의 다양한 실시 예가 첨부된 도면을 참조하여 기재된다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 실시 예의 다양한 변경(modification), 균등물(equivalent), 및/또는 대체물(alternative)을 포함하는 것으로 이해되어야 한다.
본 문서의 다양한 실시예들 및 이에 사용된 용어들은 본 문서에 기재된 기술적 특징들을 특정한 실시예들로 한정하려는 것이 아니며, 해당 실시예의 다양한 변경, 균등물, 또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 또는 관련된 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 아이템에 대응하는 명사의 단수 형은 관련된 문맥상 명백하게 다르게 지시하지 않는 한, 상기 아이템 한 개 또는 복수 개를 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및 B 중 적어도 하나", "A 또는 B 중 적어도 하나", "A, B 또는 C", "A, B 및 C 중 적어도 하나", 및 "A, B, 또는 C 중 적어도 하나"와 같은 문구들 각각은 그 문구들 중 해당하는 문구에 함께 나열된 항목들 중 어느 하나, 또는 그들의 모든 가능한 조합을 포함할 수 있다. "제 1", "제 2", 또는 "첫째" 또는 "둘째"와 같은 용어들은 단순히 해당 구성요소를 다른 해당 구성요소와 구분하기 위해 사용될 수 있으며, 해당 구성요소들을 다른 측면(예: 중요성 또는 순서)에서 한정하지 않는다. 어떤(예: 제1) 구성요소가 다른(예: 제 2) 구성요소에, "기능적으로" 또는 "통신적으로"라는 용어와 함께 또는 이런 용어 없이, "커플드" 또는 "커넥티드"라고 언급된 경우, 그것은 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로(예: 유선으로), 무선으로, 또는 제 3 구성요소를 통하여 연결될 수 있다는 것을 의미한다.
본 문서의 다양한 실시예들에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구현된 유닛을 포함할 수 있으며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로와 같은 용어와 상호 호환적으로 사용될 수 있다. 모듈은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는, 상기 부품의 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 일 실시예에 따르면, 모듈은 ASIC(application-specific integrated circuit)의 형태로 구현될 수 있다.
본 문서의 다양한 실시예들은 기기(machine) 의해 읽을 수 있는 저장 매체(storage medium)(예: 내장 메모리 또는 외장 메모리)에 저장된 하나 이상의 명령어들을 포함하는 소프트웨어(예: 프로그램)로서 구현될 수 있다. 예를 들면, 기기는, 저장 매체로부터 저장된 하나 이상의 명령어들 중 적어도 하나의 명령을 호출하고, 그것을 실행할 수 있다. 이것은 기기가 상기 호출된 적어도 하나의 명령어에 따라 적어도 하나의 기능을 수행하도록 운영되는 것을 가능하게 한다. 상기 하나 이상의 명령어들은 컴파일러에 의해 생성된 코드 또는 인터프리터에 의해 실행될 수 있는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장 매체는, 비일시적(non-transitory) 저장 매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장 매체가 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장 매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다.
일실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 소비자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory(CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어를 통해 또는 두 개의 사용자 장치들 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
다양한 실시예들에 따르면, 상기 기술한 구성요소들의 각각의 구성요소(예: 모듈 또는 프로그램)는 단수 또는 복수의 개체를 포함할 수 있으며, 복수의 개체 중 일부는 다른 구성요소에 분리 배치될 수도 있다. 다양한 실시예들에 따르면, 전술한 해당 구성요소들 중 하나 이상의 구성요소들 또는 동작들이 생략되거나, 또는 하나 이상의 다른 구성요소들 또는 동작들이 추가될 수 있다. 대체적으로 또는 추가적으로, 복수의 구성요소들(예: 모듈 또는 프로그램)은 하나의 구성요소로 통합될 수 있다. 이런 경우, 통합된 구성요소는 상기 복수의 구성요소들 각각의 구성요소의 하나 이상의 기능들을 상기 통합 이전에 상기 복수의 구성요소들 중 해당 구성요소에 의해 수행되는 것과 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따르면, 모듈, 프로그램 또는 다른 구성요소에 의해 수행되는 동작들은 순차적으로, 병렬적으로, 반복적으로, 또는 휴리스틱하게 실행되거나, 상기 동작들 중 하나 이상이 다른 순서로 실행되거나, 생략되거나, 또는 하나 이상의 다른 동작들이 추가될 수 있다.
도 1은 다양한 실시예들에 따라 상품과 관련된 정보를 나타내는 이미지를 도시한다.
도 1을 참조하면, 이미지(1)는 온라인 쇼핑몰과 같은 웹 싸이트 화면에 등록된 이미지일 수 있다. 이미지(1)는 서로 다른 주제를 가지는 복수의 상품 정보를 나타낼 수 있다. 예를 들어, 판매자는 소비자의 상품 구매를 촉진하기 위하여 배송 정보(예: 당일 발송 여부)를 이미지(1)의 제1 영역(10)에 생성하고, 이벤트 정보(예: 할인 정보)를 이미지(1)의 제2 영역(20)에 생성할 수 있다. 또한, 판매자는 상품에 관한 상세 정보(예: 상품의 개수, 원산지, 색상, 사이즈, 또는 원재료)를 소비자에게 제공해야할 의무가 있으므로, 상품 상세 정보를 이미지(1)의 제3 영역(30)에 생성할 수 있다. 이미지(1)의 영역들(10, 20, 30)에 포함된 정보는 이미지(1)로 합성된 개별적인 이미지일 수 있다. 실시예들에 따르면, 이미지 분석 시스템은 이미지(1)로부터 영역들(10, 20, 30)을 분할하고, 분할된 영역들(10, 20, 30) 각각이 나타내는 주제(예: 배송 정보, 이벤트 정보, 상품 상세 정보)를 추출할 수 있다. 추가적으로, 이미지 분석 시스템은 키워드가 동일한 영역들을 하나의 영역으로 생성함으로써 이미지(1)의 영역들(10, 20, 30)이 주제에 따라서 분할되도록 할 수 있다. 본 문서에서, 영역들 각각이 나타내는 주제는 '키워드'로도 참조될 수 있다.
도 2는 다양한 실시예들에 따른 이미지 분석 시스템의 예를 도시한다.
도 2를 참조하면, 사용자 장치(201)는 서버(203)와 네트워크(220)를 통해 유선 또는 무선으로 연결될 수 있다. 네트워크(220)는 원거리 통신 네트워크(예: 셀룰러 네트워크)뿐만 아니라 근거리 통신 네트워크(예: Wi-Fi, Bluetooth)를 포함할 수 있다.
사용자 장치(201)는 상품을 구매하려는 소비자의 장치이거나, 또는 상품을 온라인 쇼핑몰(또는 오픈 마켓)에 등록하는 판매자의 장치일 수 있다. 사용자 장치(201)는 스마트폰, 태블릿, 데스크탑 컴퓨터, 또는 랩탑 컴퓨터와 같은 컴퓨팅 장치뿐만 아니라 네트워크(220)를 통해 서버(203)와 연결될 수 있는 다양한 형태의 장치일 수 있다. 일 실시예에서, 이미지 분석 시스템은 사용자 장치(201)에 기 설치된 기본 어플리케이션이거나 다운로드 가능한 3rd 파티 어플리케이션일 수 있다. 이 경우, 사용자 장치(201)는 이미지 분석 시스템을 이용하여 서버(203)로부터 수신된 이미지(1)를 분할하고, 분할된 영역들 별로 주제를 결정할 수 있다.
서버(203)는 온라인 쇼핑몰의 서버일 수 있다. 일 실시예에서, 이미지 분석 시스템은 사용자 장치(201) 대신에 서버(203)에 설치된 소프트웨어 또는 하드웨어 모듈일 수 있다. 이 경우, 이미지 분석 시스템은 판매자가 등록한 이미지(1)를 분할하고, 분할된 영역들 별로 주제를 결정할 수 있다.
다른 실시예에서, 이미지 분석 시스템은 소비자의 장치, 판매자의 장치, 및 온라인 쇼핑몰의 서버와 다른 별도의 개체에 포함될 수 있다. 예를 들어, 사용자 장치(201)(또는 서버(203))는 이미지(1)를 이미지 분석 시스템에 전송함으로써 이미지(1)의 영역별 키워드 추출을 요청할 수 있다. 이미지 분석 시스템은 추출된 영역별 키워드를 사용자 장치(201)(또는 서버(203))에게 전달할 수 있다.
도 3은 다양한 실시예들에 따른 이미지 분석 시스템의 블록도를 도시한다.
도 3을 참조하면, 이미지 분석 시스템은 텍스트 블록 추출 모듈(310), 영역 분할 모듈(320), 키워드 결정(330), 및 결합 모듈(340)을 포함할 수 있다. 이미지 분석 시스템은 도 3에 도시된 구성들을 포함하는 하나의 명령어 집합(instruction set) 또는 프로그램(예: 애플리케이션)일 수 있다. 다른 예를 들어, 도 3에 도시된 구성들 각각은 개별적인 명령어 집합 또는 프로그램일 수 있다.
텍스트 블록 추출 모듈(310)은 이미지로부터 지정된 단위의 텍스트 블록을 추출할 수 있다. 일 실시예에서, 텍스트 블록 추출 모듈(310)은 OCR을 이용하여 이미지로부터 텍스트를 추출할 수 있다. 텍스트 블록 추출 모듈(310)은 추출된 텍스트들을 단어, 문장, 또는 문단 기준으로 블록화하도록 설정될 수 있다. 예를 들어, 텍스트 블록 추출 모듈(310)은 이미지로부터 추출된 텍스트들 간의 자간 거리 또는 텍스트들의 높이(또는 크기) 중 적어도 하나에 기반하여 텍스트들을 단어 단위로 그룹화 할 수 있다. 텍스트 블록 추출 모듈(310)은 그룹화된 텍스트들을 벡터 형태로 변환하고(임베딩), 변환된 텍스트들과 기 저장된 데이터 베이스의 텍스트들 간 코사인 유사도를 산출함으로써 텍스트들을 문장 또는 문단 단위로 블록화할 수 있다.
일 실시예에서, 텍스트 블록 추출 모듈(310)은 추출된 텍스트 블록들 중 정보로써 의미를 가지는 텍스트 블록을 선택할 수 있다. 예를 들어 도 1을 참조하면, 제1 영역(10)에 포함된 텍스트 중 '당일발송' 및 '평일 오후 3시 이전 결제건까지 당일 발송되는 상품 입니다.'는 소비자에게 배송에 관한 정보를 전달하기 위한 텍스트로써 의미를 가지는 반면에, 'Truck'은 배송에 관한 정보를 전달하기 위한 의미를 가지지 않을 수 있다. 텍스트 블록 추출 모듈(310)은 텍스트 블록들에 대한 크기, 너비, 길이, 글자 신뢰도, 또는 기울기 중 적어도 하나를 이용하여 텍스트 블록들을 라벨링(labeling)함으로써 정보의 의미를 가지는 텍스트 블록을 선택할 수 있다.
영역 분할 모듈(320)은 텍스트 블록들을 이용하여 이미지를 복수의 영역으로 분할할 수 있다. 영역 분할 모듈(320)은 라인 생성 모듈(322)과 비교 모듈(324)을 포함할 수 있다.
라인 생성 모듈(322)은 이미지 내에서 가상의 라인을 생성할 수 있다. 라인은 이미지에 포함된 텍스트의 방향에 따라서 가로선 또는 세로선일 수 있다. 일 실시예에서, 라인 생성 모듈(322)은 이미지 내에서 픽셀 단위로 라인을 생성하되, 텍스트 블록과 중첩되는 라인은 제외할 수 있다.
비교 모듈(324)은 라인을 기준으로 분리된 영역들의 픽셀 값을 비교할 수 있다. 픽셀 값은 색상 또는 밝기를 나타낼 수 있다. 예를 들어, 비교 모듈(324)은 분리된 영역들의 색상 값 차이가 임계값을 초과하면 상기 영역들이 다른 주제를 나타내는 영역들인 것으로 결정하고 영역들을 분할할 수 있다. 분리된 영역들의 색상 값 차이가 임계값 이하면 비교 모듈(324)은 상기 영역들을 하나의 영역으로 결정할 수 있다.
키워드 결정 모듈(330)은 영역 분할 모듈(320)에 의하여 분할된 영역들 각각에 대한 키워드(즉, 주제)를 결정할 수 있다. 키워드 결정 모듈(330)은 컴포넌트(component) 추출 모듈(332), 유사도 산출 모듈(334), 및 매칭 모듈(338)을 포함할 수 있다.
컴포넌트 추출 모듈(332)은 영역 내에 지정된 컴포넌트를 추출할 수 있다. 지정된 컴포넌트는 표 또는 캘린더를 나타낼 수 있다. 실시예에 따르면 컴포넌트 추출 모듈(332)은 객체 검출(object detection)을 이용하여 지정된 컴포넌트를 추출할 수 있다. 객체 검출은 컴포넌트의 특징(feature)을 추출하고, 추출된 특징들의 분포에서 경계(boundary)를 결정하는 기술로 이해될 수 있다.
유사도 산출 모듈(334)은 영역에 포함된 텍스트 블록을 데이터 베이스에 기 저장된 텍스트와 비교함으로써 텍스트 블록의 유사도를 산출할 수 있다. 데이터 베이스에 기 저장된 텍스트는 예를 들어 상품에 관한 정보에서 나타날 수 있는 주제 또는 키워드를 의미할 수 있다. 실시 예에서, 유사도 산출 모듈(334)은 유사도를 산출하기 위하여 텍스트 블록을 벡터 형태로 변환할 수 있다.
매칭 모듈(338)은 복수의 영역들과 그에 대응하는 키워드를 매칭시킬 수 있다. 예를 들어, 매칭 모듈(338)은 유사도 산출 모듈(334)에 의하여 산출된 유사도에 따라서 영역들 별로 키워드 또는 텍스트에 점수를 적용하고, 점수가 가장 높은 키워드를 해당 영역의 주제로 결정할 수 있다. 영역 내에 컴포넌트가 추출된 경우, 매칭 모듈(338)은 컴포넌트에 대응하는 키워드에 가중치를 적용할 수 있다.
결합 모듈(340)은 복수의 영역들 중 서로 인접하고 키워드가 동일한 영역들을 하나의 영역으로 결합할 수 있다.
도 4는 다양한 실시예들에 따라 이미지를 키워드 별로 분할하는 동작 흐름도를 도시한다. 이하 서술되는 동작 흐름도에 포함된 각각의 동작들은 이미지 분석 시스템에 의하여 수행되거나 이미지 분석 시스템에 포함된 각 구성요소들에 의하여 수행될 수 있다.
도 4를 참조하면, 동작 410에서, 이미지 분석 시스템은 이미지로부터 텍스트 블록을 추출할 수 있다. 실시예에서, 이미지 분석 시스템은 텍스트 블록들의 크기, 너비, 길이, 신뢰도, 또는 기울기 중 적어도 하나에 기반하여 정보로써 의미를 가지는 텍스트 블록만을 추출할 수 있다.
동작 420에서, 이미지 분석 시스템은 추출된 텍스트 블록에 기반하여 이미지를 복수의 영역으로 분할할 수 있다. 예를 들어, 이미지 분석 시스템은 이미지 내에 라인을 생성하고, 라인과 인접한 영역들 간 픽셀 값을 비교함으로써 영역들을 분할 또는 결합할 수 있다.
동작 430에서, 이미지 분석 시스템은 분할된 영역들 별로 키워드를 결정할 수 있다. 예를 들어, 이미지 분석 시스템은 영역 내에 포함된 텍스트 블록과 데이터 베이스에 기 저장된 텍스트(또는 키워드) 간 유사도에 기반하여 영역들 각각의 키워드를 결정할 수 있다. 영역 내에 컴포넌트가 존재하는 경우, 이미지 분석 시스템은 컴포넌트에 대응하는 키워드에 가중치를 적용할 수 있다.
동작 440에서, 이미지 분석 시스템은 동일한 키워드를 나타내는 영역들을 결합할 수 있다. 동일한 키워드를 나타내는 영역들이 존재하지 않는 경우, 이미지 분석 시스템은 동작 440을 생략할 수 있다.
도 5 내지 6은 다양한 실시예들에 따라 라인에 기반하여 이미지를 복수의 영역들로 분할하는 동작을 설명한다. 도 5는 이미지를 복수의 영역들로 분할하기 위한 동작 흐름도를 도시한다. 도 5의 동작 흐름도는 도 4의 동작 420의 일 실시예일 수 있다.
도 5를 참조하면, 동작 510에서, 이미지 분석 시스템은 텍스트 블록에 기반하여 이미지 내에서 라인을 생성할 수 있다. 예를 들어 도 6을 참조하면, 이미지 분석 시스템은 도 4의 동작 410을 수행함으로써 이미지(1) 내에서 텍스트 블록들(12, 14, 16, 22, 24)을 추출할 수 있다. 이 경우, 이미지 분석 시스템은 정보로써 의미를 가지지 않는 텍스트 블록(16)을 제외할 수 있다. 이미지 분석 시스템은 이미지(1) 내에서 텍스트 블록들(12, 14, 22, 24)과 중첩되지 않는 라인들(610, 620, 630)을 생성할 수 있다. 도 5에 도시된 라인들(610, 620, 630)의 개수는 예시에 지나지 않으며, 이미지 분석 시스템은 픽셀 단위로 텍스트 블록들(12, 14, 22, 24)과 중첩되지 않는 라인들을 생성할 수 있다.
동작 510에서, 이미지 분석 시스템은 복수의 라인들 중 하나를 선택할 수 있다. 동작 515에서, 이미지 분석 시스템은 선택된 라인을 기준으로 분리된 영역들 간 픽셀 값을 확인할 수 있다. 예를 들어 도 6을 참조하면, 이미지 분석 시스템은 라인들(610, 620, 630)을 기준으로 윗 영역과 아랫 영역의 픽셀 값을 확인할 수 있다.
동작 520에서, 이미지 분석 시스템은 영역들의 픽셀 값들 간 차이가 임계값을 초과하는지를 확인할 수 있다. 픽셀 값들 간 차이가 임계값을 초과하면, 동작 525에서 이미지 분석 시스템은 라인을 기준으로 영역을 분할할 수 있다. 픽셀 값들 간 차이가 임계값 이하면, 이미지 분석 시스템은 다음 라인을 기준으로 영역들의 픽셀 값을 비교하기 위하여 동작 510 내지 520을 반복적으로 수행할 수 있다. 예를 들어 도 6을 참조하면, 제1 라인(610)의 윗 영역과 아랫 영역의 배경 색상이 동일하므로, 이미지 분석 시스템은 이들 영역을 하나의 영역으로 결정할 수 있다. 반면에, 제2 라인(620)의 윗 영역과 아랫 영역의 배경 색상이 상이하면(즉, 픽셀 값의 차이가 임계값을 초과하면), 이미지 분석 시스템은 제1 영역(10)과 제2 영역(20)을 분할할 수 있다. 유사한 원리로, 이미지 분석 시스템은 픽셀 값의 차이에 기반하여 제2 영역(20)을 두 개의 영역들(20-1, 20-2)로 분할할 수 있다.
도 7 내지 8은 다양한 실시예들에 따라 키워드에 기반하여 영역들을 분류하는 동작을 설명한다. 도 7은 키워드에 기반하여 영역들을 분류하기 위한 동작 흐름도를 도시한다. 도 7의 동작 흐름도는 도 4의 동작 430 및 440의 일 실시예일 수 있다.
도 7을 참조하면, 동작 710에서, 이미지 분석 시스템은 복수의 영역들 중 하나의 영역을 선택할 수 있다. 동작 720에서, 이미지 분석 시스템은 선택된 영역 내에서 컴포넌트를 검출할 수 있다. 예를 들어 도 8을 참조하면, 이미지 분석 시스템은 객체 검출을 이용하여 이미지(1)의 제3 영역(10)에 포함된 표(table)를 검출할 수 있다. 실시예에 따르면, 이미지 분석 시스템은 데이터 처리량을 줄이기 위하여 동작 720을 생략할 수 있다. 이 경우, 이미지 분석 시스템은 표에 대응하는 키워드(예: 상품 상세 정보)에 가중치를 적용할 수 있다. 도 8에는 도시되지 않았지만, 특정 영역 내에 캘린더(calendar)가 검출되는 경우, 이미지 분석 시스템은 검출된 캘린더에 대응하는 키워드(예: 배송 정보)에 가중치를 적용할 수 있다.
동작 730에서, 이미지 분석 시스템은 영역 내 텍스트들의 유사도를 산출할 수 있다. 예를 들어, 도 8을 참조하면, 이미지 분석 시스템은 데이터 베이스에 기 저장된 키워드 중 영역들(10, 20-1, 20-2, 30)에 포함된 텍스트(또는 텍스트 블록)와 유사도가 높은 키워드를 추출할 수 있다. 일 실시예에서, 이미지 분석 시스템은 데이터 베이스에 기 저장된 키워드 중 '배송'이 제1 영역(10)에 포함된 '당일발송'과 유사도 높은 것으로 결정할 수 있다. 유사한 원리로, 이미지 분석 시스템은 데이터 베이스에 기 저장된 키워드 중 '이벤트'가 제4 영역(20-1)에 포함된 '특별할인' 또는 '할인'과 유사도가 높고, 해당 키워드가 제5 영역(20-2)에 포함된 '대박 할인'과 유사도가 높은 것으로 결정할 수 있다. 유사한 원리로, 이미지 분석 시스템은 데이터 베이스에 기 저장된 키워드 중 '상품 상세 정보'가 제3 영역(30)에 포함된 '제품명', '원산지', '제조원', '사이즈', 또는 '원재료'와 유사도가 높은 것으로 결정할 수 있다.
동작 740에서, 이미지 분석 시스템은 컴포넌트 검출 결과 및 산출된 유사도에 기반하여 선택된 영역의 키워드를 결정할 수 있다. 실시예에 따르면, 이미지 분석 시스템은 선택된 영역에서 컴포넌트에 따라서 적용된 가중치(또는 점수)와 유사도에 따른 점수를 합산하고, 합산된 점수가 가장 큰 키워드를 선택된 영역에 매칭되는 키워드로 결정할 수 있다. 예를 들어 도 8을 참조하면, 이미지 분석 시스템은 제1 영역(10)의 키워드를 '배송'으로, 제4 영역(20-1) 및 제5 영역(20-2)의 키워드를 '이벤트'로, 제3 영역(30)의 키워드를 '상품 상세 정보'로 결정할 수 있다.
동작 750에서, 이미지 분석 시스템은 동일한 키워드를 가지고 인접한 영역들을 결합할 수 있다. 예를 들어 도 8을 참조하면, 제4 영역(20-1) 및 제5 영역(20-2)이 동일한 키워드('이벤트')를 나타내고 서로 인접하므로, 이미지 분석 시스템은 제4 영역(20-1) 및 제5 영역(20-2)을 하나의 영역으로 결합할 수 있다.
Claims (8)
- 이미지 분석 시스템에 있어서,
이미지로부터 텍스트 블록을 추출하도록 설정된 텍스트 블록 추출 모듈;
상기 텍스트 블록에 기반하여 상기 이미지를 복수의 영역들로 분할하도록 설정된 영역 분할 모듈; 및
상기 분할된 영역들 각각의 키워드를 결정하도록 설정된 키워드 결정 모듈;을 포함하는, 이미지 분석 시스템. - 청구항 1에 있어서,
키워드가 동일하고 서로 인접한 영역들을 합치도록 설정된 결합 모듈;을 더 포함하는, 이미지 분석 시스템. - 청구항 1에 있어서, 상기 텍스트 블록 추출 모듈은,
상기 이미지로부터 텍스트를 추출하고,
상기 추출된 텍스트들 간 자간 거리에 기반하여 상기 추출된 텍스트를 단어 또는 문장 단위로 블록화하고, 및
상기 텍스트 블록들의 크기, 너비, 길이, 신뢰도, 또는 기울기 중 적어도 하나에 기반하여 복수의 텍스트 블록들 중 적어도 하나의 텍스트 블록을 선택하도록 설정된, 이미지 분석 시스템. - 청구항 1에 있어서, 상기 영역 분할 모듈은,
상기 텍스트 블록에 기반하여 상기 이미지 내에 적어도 하나의 라인을 생성하도록 설정된 라인 생성 모듈;
상기 적어도 하나의 라인을 기준으로 분리된 영역들 간 픽셀 값을 비교하고, 상기 비교 결과에 기반하여 상기 분리된 영역들을 분할하거나 또는 결합하도록 설정된 비교 모듈;을 포함하는 이미지 분석 시스템. - 청구항 4에 있어서, 상기 라인 생성 모듈은,
픽셀 단위로 상기 이미지 내에 복수의 라인들을 생성하고,
상기 복수의 라인들 중 상기 텍스트 블록과 중첩되지 않는 상기 적어도 하나의 라인을 선택하도록 설정된, 이미지 분석 시스템. - 청구항 1에 있어서, 상기 키워드 결정 모듈은,
상기 복수의 영역들 중 선택된 하나의 영역 내 텍스트들과 데이터 베이스에 저장된 텍스트들 간 유사도를 산출하도록 설정된 유사도 산출 모듈; 및
상기 유사도에 기반하여 상기 선택된 영역에 매칭되는 키워드를 결정하도록 설정된 매칭 모듈;을 포함하는, 이미지 분석 시스템. - 청구항 6에 있어서,
상기 키워드 결정 모듈은,
상기 선택된 영역 내 컴포넌트를 추출하도록 설정된 컴포넌트 추출 모듈;을 더 포함하고,
상기 매칭 모듈은,
상기 유사도 및 상기 추출된 컴포넌트에 기반하여 상기 키워드를 결정하도록 설정된, 이미지 분석 시스템. - 이미지 분석 시스템의 동작 방법에 있어서,
이미지로부터 텍스트 블록을 추출하는 동작;
상기 텍스트 블록에 기반하여 상기 이미지를 복수의 영역들로 분할하는 동작; 및
상기 분할된 영역들 각각의 키워드를 결정하는 동작을 포함하는, 방법.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200168839 | 2020-12-04 | ||
KR20200168839 | 2020-12-04 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20220079786A true KR20220079786A (ko) | 2022-06-14 |
Family
ID=81980078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210005482A KR20220079786A (ko) | 2020-12-04 | 2021-01-14 | 상품과 관련된 이미지를 주제별로 분할하기 위한 시스템 및 그에 관한 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20220079786A (ko) |
-
2021
- 2021-01-14 KR KR1020210005482A patent/KR20220079786A/ko unknown
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101769918B1 (ko) | 이미지로부터 텍스트 추출을 위한 딥러닝 기반 인식장치 | |
US10878232B2 (en) | Automated processing of receipts and invoices | |
JP6462970B1 (ja) | 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム | |
CN113128241B (zh) | 文本识别方法、装置及设备 | |
JP2008259156A (ja) | 情報処理装置、情報処理システム、情報処理方法、プログラムおよび記録媒体 | |
US11475688B2 (en) | Information processing apparatus and information processing method for extracting information from document image | |
CN111353488B (zh) | 识别码图像中的风险的方法、装置以及设备 | |
US10699112B1 (en) | Identification of key segments in document images | |
KR102442350B1 (ko) | 인공지능을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 방법 및 장치 | |
KR20220072668A (ko) | 문서 분류 방법 및 이를 위한 문서 관리 장치 | |
KR102243731B1 (ko) | 포스 단말기와 연동하여 고객이 구매한 상품들을 이용한 영수증 광고 추천 장치 | |
US20210342876A1 (en) | Registration system, registration method, and non-transitory storage medium | |
KR20220079786A (ko) | 상품과 관련된 이미지를 주제별로 분할하기 위한 시스템 및 그에 관한 방법 | |
KR102226864B1 (ko) | 슈퍼마켓에서 발행되는 영수증 내 상품 명칭을 표준화된 상품 명칭으로 변경하여 영수증 정보를 저장하는 영수증 정보 관리 장치 | |
JP6325407B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
KR102386162B1 (ko) | 이미지로부터 상품 정보 데이터를 생성하기 위한 시스템 및 그에 관한 방법 | |
CN113111734B (zh) | 一种水印分类模型训练方法及装置 | |
CN116052195A (zh) | 文档解析方法、装置、终端设备和计算机可读存储介质 | |
KR101997498B1 (ko) | 패키지 박스의 코드 인증을 이용한 위품 판정 장치 | |
CN113536782A (zh) | 敏感词识别方法、装置、电子设备及存储介质 | |
JP7026386B2 (ja) | 帳票画像処理システム、帳票画像処理方法、および帳票画像処理プログラム | |
CN114299509A (zh) | 一种获取信息的方法、装置、设备及介质 | |
US20190012538A1 (en) | Re-Application of Filters for Processing Receipts and Invoices | |
JP6682827B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP7083055B1 (ja) | 発行装置、認証装置、認証システム、発行方法、及び情報コード |