[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

KR20230051850A - System for providing account book service using Text Mining - Google Patents

System for providing account book service using Text Mining Download PDF

Info

Publication number
KR20230051850A
KR20230051850A KR1020210134731A KR20210134731A KR20230051850A KR 20230051850 A KR20230051850 A KR 20230051850A KR 1020210134731 A KR1020210134731 A KR 1020210134731A KR 20210134731 A KR20210134731 A KR 20210134731A KR 20230051850 A KR20230051850 A KR 20230051850A
Authority
KR
South Korea
Prior art keywords
text
account book
household account
receipt
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
KR1020210134731A
Other languages
Korean (ko)
Inventor
이정열
Original Assignee
주식회사 마켓프로
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 마켓프로 filed Critical 주식회사 마켓프로
Priority to KR1020210134731A priority Critical patent/KR20230051850A/en
Publication of KR20230051850A publication Critical patent/KR20230051850A/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/04Payment circuits
    • G06Q20/047Payment circuits using payment protocols involving electronic receipts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/08Payment architectures
    • G06Q20/20Point-of-sale [POS] network systems
    • G06Q20/209Specified transaction journal output feature, e.g. printed receipt or voice output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0207Discounts or incentives, e.g. coupons or rebates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/17Image acquisition using hand-held instruments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/224Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • Artificial Intelligence (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Finance (AREA)
  • Multimedia (AREA)
  • Human Resources & Organizations (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Software Systems (AREA)
  • Development Economics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Evolutionary Computation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 영수증 이미지를 이용한 가계부를 자동으로 정리해주는 텍스트마이닝을 이용한 가계부 서비스 제공 시스템에 관한 것으로서, 가계부 정리를 위한 스마트 가계부 애플리케이션을 실행하여 영수증을 촬영하여 영수증 이미지를 제공하고, 상기 스마트 가계부 애플리케이션을 통해 작성된 가계부 파일에 대한 열람 또는 편집 기능을 수행하는 사용자 단말; 및 상기 스마트 가계부 애플리케이션을 상기 사용자 단말에 제공하고, 상기 사용자 단말에서 제공되는 영수증 이미지를 픽셀별로 이진화 처리하여 픽셀 값이 기 설정된 임계값 이상인 텍스트 영역을 추출하고, 추출된 텍스트 영역에 텍스트마이닝 기술을 적용하여 영수증 텍스트 정보로 변환하며, 상기 영수증 텍스트 정보를 구매날짜, 구매 수단, 구매상품 리스트, 영수증 발급처, 소비 금액 정보, 포인트 적립 정보를 포함한 가계부 서식 정보에 정리하여 가계부 파일을 생성하여 상기 사용자 단말에 제공하는 가계부 관리 서버를 포함하는 시스템일 수 있다.The present invention relates to a household account book service providing system using text mining that automatically organizes a household account book using a receipt image. A user terminal that performs a reading or editing function for the household account book file created through; and providing the smart household account book application to the user terminal, binarizing a receipt image provided from the user terminal for each pixel, extracting a text area having a pixel value equal to or greater than a preset threshold, and applying text mining technology to the extracted text area. The receipt text information is converted into receipt text information, and the receipt text information is organized into household account book format information including purchase date, purchase method, purchase product list, receipt issuer, consumption amount information, and point accumulation information to create a household account book file, and the user terminal It may be a system including a household account book management server provided to .

Description

텍스트마이닝을 이용한 가계부 서비스 제공 시스템{System for providing account book service using Text Mining}System for providing account book service using text mining {System for providing account book service using Text Mining}

본 발명은 영수증 이미지를 이용한 가계부를 자동으로 정리해주는 텍스트마이닝을 이용한 가계부 서비스 제공 시스템에 관한 것이다.The present invention relates to a household account book service providing system using text mining that automatically organizes a household account book using receipt images.

이 부분에 기술된 내용은 단순히 본 발명의 일 실시예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.The information described in this section merely provides background information on an embodiment of the present invention and does not constitute prior art.

수기 가계부를 사용해서 소비 습관을 작성하는 방식은 직접 자신이 소비 내역을 작성하다 보니 소비 습관을 반성하고 소비 패턴을 고치는 과정에 큰 도움이 되고, 사용자 자신이 가장 쓰기 편리한 디자인이나 중요 지출에 대한 양식을 자신 마음대로 바꿀 수 있다는 장점이 있다. 그러나 수기 가계부는 각종 영수증을 일일이 확인해서 작성해야 하고, 소비의 상세 내역에 대한 계산을 사용자가 직접 해야 하므로 번거롭고 시간이 많이 소요되는 단점이 있다.The method of writing consumption habits using a handwritten household account book is a great help in the process of reflecting on consumption habits and correcting consumption patterns as the user writes out his or her own consumption details. It has the advantage of being able to change the . However, the handwritten household account book has disadvantages in that it is cumbersome and time-consuming because it is necessary to check and prepare various receipts one by one and to calculate the details of consumption by the user himself.

이러한 수기 가계부의 단점을 해소하기 위해, 간단한 가계부 프로그램이나 엑셀 파일로 제작된 가계부 문서를 많이 활용하였지만, 최근 스마트폰을 이용한 가계부 애플리케이션이 등장하면서, 가계부 애플리케이션을 이용하여 언제, 어느 때든 쉽고 빠르게 소비 지출을 내용을 기록하고 파악하게 되었다. In order to overcome the disadvantages of these handwritten household account books, a lot of household account book documents made with simple household account book programs or Excel files have been used. The contents were recorded and understood.

가계부 애플리케이션은 카드사나 은행사를 통해 결제시 스마트폰으로 제공되는 SMS 문자내용에 포함되는 소비내역을 추출하여 가계부 애플리케이션에 자동으로 등록되도록 하고 있다. 그러나 카드결제가 아닌 현금결제로 이루어지는 소비활동에서는 가계부 애플리케이션에 소비관련 정보를 등록할 수 없어 사용자가 별도로 스마트폰의 해당 애플리케이션을 실행하여 소비정보를 등록하여야만 한다.The household account book application extracts the consumption history included in the SMS text message provided to the smartphone when making a payment through a credit card company or bank company, and automatically registers it in the household account book application. However, in the case of consumption activities performed by cash payment rather than card payment, consumption-related information cannot be registered in the household account book application, so the user must separately execute the corresponding application on the smartphone to register the consumption information.

또한, 종래의 가계부 애플리케이션은 스마트폰의 카메라를 이용하여 영수증의 문자 인식을 통해 구매 일자, 상품 항목, 금액, 총금액 등의 문자열을 추출하여 가공할 수 있는 데이터 값으로 인식하는 기능을 제공한다.In addition, the conventional household account book application provides a function of extracting strings such as purchase date, product item, amount, and total amount through text recognition of a receipt using a camera of a smartphone and recognizing them as data values that can be processed.

영수증 인식 기능이 있는 가계부 애플리케이션은, 마트(mart)에서 발급한 영수증의 경우에 세부 지출 카테고리가 매우 다양하기 때문에 지출 카테고리를 쉽게 분류하여 유추하기는 쉽지 않고, 그로 인해 사용자가 분류가 쉽지 않은 항목들을 일일이 입력해야 하는 불편함이 있다. In the case of a household account book application with a receipt recognition function, in the case of a receipt issued by a mart, detailed expenditure categories are very diverse, so it is not easy to classify and infer the expenditure categories. It is inconvenient to have to input them one by one.

마트에서는 식재료 뿐만 아니라 다양한 소비재, 생활 가전, 스포츠 기구 등 그 품목이 매우 다양하기 때문에 세부 지출 카테고리를 정확하게 분류하여 기입하는 것은 불가능하다고 볼 수 있다. 특히, 마트에서는 많은 금액을 소비하게 되는데, 그 금액 중 식품, 소비재, 가전 등이 각각 얼마나 소비되고 있는지는 정확하게 파악하지 못하게 된다. 이와 같이, 마트의 소비 내역을 통해 세부 지출 카테고리 내지는 상품 분류를 정확하게 분류하여 가계부를 작성할 수 있는 수단이 요구되고 있다.In a mart, not only foodstuffs but also various consumer goods, household appliances, sports equipment, etc. are very diverse, so it can be seen that it is impossible to accurately classify and fill out detailed expenditure categories. In particular, a large amount of money is consumed in a mart, and it is difficult to accurately determine how much food, consumer goods, and home appliances are consumed among the amounts. In this way, there is a demand for means capable of creating a household account book by accurately classifying detailed expenditure categories or product categories through consumption details of the mart.

본 발명은 전술한 문제점을 해결하기 위하여, 본 발명의 일 실시예에 따라 영수증 이미지를 이용한 가계부를 자동으로 정리해주면서 포인트를 적립하여 영수증 관리를 손쉽게 할 수 있도록 하는 텍스트마이닝을 이용한 가계부 서비스 제공 시스템을 제공하는 것에 목적이 있다.In order to solve the above problems, the present invention provides a household account book service providing system using text mining, which automatically organizes a household account book using a receipt image and accumulates points to facilitate receipt management according to an embodiment of the present invention. It aims to provide

다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.However, the technical problem to be achieved by the present embodiment is not limited to the technical problem as described above, and other technical problems may exist.

상기한 기술적 과제를 달성하기 위한 기술적 수단으로서 본 발명의 일 실시예에 따른 텍스트마이닝을 이용한 가계부 서비스 제공 시스템은, 가계부 정리를 위한 스마트 가계부 애플리케이션을 실행하여 영수증을 촬영하여 영수증 이미지를 제공하고, 상기 스마트 가계부 애플리케이션을 통해 작성된 가계부 파일에 대한 열람 또는 편집 기능을 수행하는 사용자 단말; 및 상기 스마트 가계부 애플리케이션을 상기 사용자 단말에 제공하고, 상기 사용자 단말에서 제공되는 영수증 이미지를 픽셀별로 이진화 처리하여 픽셀 값이 기 설정된 임계값 이상인 텍스트 영역을 추출하고, 추출된 텍스트 영역에 자연어 처리 기반의 텍스트마이닝 기술을 적용하여 영수증 텍스트 정보로 변환하며, 상기 영수증 텍스트 정보를 구매날짜, 구매 수단, 구매상품 리스트, 영수증 발급처, 소비 금액 정보, 포인트 적립 정보를 포함한 가계부 서식 정보에 정리하여 가계부 파일을 생성하여 상기 사용자 단말에 제공하는 가계부 관리 서버를 포함하는 것이다.As a technical means for achieving the above technical problem, the household account book service providing system using text mining according to an embodiment of the present invention executes a smart household account book application for household account book arrangement, takes a picture of a receipt, and provides a receipt image, A user terminal that performs a reading or editing function for the household account book file created through the smart household account book application; and providing the smart household account book application to the user terminal, binarizing a receipt image provided from the user terminal for each pixel, extracting a text area having a pixel value equal to or greater than a preset threshold value, and extracting a text area based on natural language processing in the extracted text area. Text mining technology is applied to convert receipt text information, and a household account book file is created by arranging the receipt text information into household account book format information including purchase date, purchase method, purchase product list, receipt issuer, consumption amount information, and point accumulation information and a household account book management server providing the information to the user terminal.

본 발명의 일측면에 따르면, 상기 가계부 관리 서버는, 상기 영수증 이미지를 픽셀별로 이진화 처리하여 픽셀 값이 기 설정된 임계값 이상인 텍스트 영역을 추출하고, 상기 텍스트 영역에서 자연어 처리 기반의 텍스트마이닝 기술을 적용하여 텍스트를 인식하는 텍스트마이닝 모듈; 상기 텍스트마이닝 모듈에서 추출된 텍스트들을 문자열로 표현하기 위해 텍스트 포맷을 지정하여 영수증 텍스트 정보로 제공하는 텍스트 포맷팅 모듈; 상기 텍스트 포맷핑 모듈에서 제공되는 영수증 텍스트 정보에서 가계부 서식 레이어의 각 항목에 기입하기 위한 구매상품 리스트를 추출하는 텍스트 파싱 모듈; 상기 가계부 서식 레이어에 구매상품 리스트 정보를 매핑하는 가계부 서식 매핑 모듈; 및 상기 가계부 서식 매핑 모듈에서 가계부 서식 레이어에 매핑된 구매상품 리스트 정보, 수입 내역 정보, 사용자 데이터들을 포함하는 가계부 파일을 생성하는 파일 생성 모듈을 포함하는 것이다.According to one aspect of the present invention, the household account book management server binarizes the receipt image pixel by pixel to extract a text area having a pixel value equal to or greater than a preset threshold value, and applies natural language processing-based text mining technology to the text area. a text mining module that recognizes text by using; a text formatting module that designates a text format to represent the texts extracted from the text mining module as strings and provides them as receipt text information; a text parsing module extracting a purchase product list to be filled in each item of a household account book form layer from the receipt text information provided by the text formatting module; a household account book form mapping module for mapping purchased product list information to the household account book form layer; and a file generation module for generating a household account book file including purchased product list information, income details information, and user data mapped to the household account book form layer in the household account book form mapping module.

본 발명의 일측면에 따르면, 상기 텍스트마이닝 모듈은, 선행 학습된 인공지능 모델을 사용하여 인식된 텍스트를 사전에 정의된 세부 지출 카테고리로 분류하는 것이다.According to one aspect of the present invention, the text mining module classifies recognized text into predefined detailed expenditure categories using a pre-learned artificial intelligence model.

본 발명의 일측면에 따르면, 상기 사용자 단말은 스마트 가계부 애플리케이션을 통해 전자영수증의 등록 기능 및 카드사 서버 또는 은행 서버로부터 전송되는 결제 관련된 문자메시지의 등록 기능을 수행하여, 결제 관련된 문자메시지와 전자영수증을 상기 가계부 파일 상에 정리되도록 하는 것이다. According to one aspect of the present invention, the user terminal performs a function of registering an electronic receipt through a smart household account book application and a function of registering a payment-related text message transmitted from a card company server or a bank server, thereby generating payment-related text messages and electronic receipts. It is to be arranged on the household account book file.

본 발명의 일측면에 따르면, 상기 가계부 관리 서버는, 상기 스마트 가계부 애플리케이션을 통해 영수증 이미지 등록시, 기 설정된 적립 포인트를 제공하고, 상기 사용자 단말의 조회 또는 지급 요청에 따라 적립 포인트 현황을 제공하고, 이미 설정된 지급 방식에 따라 적립 포인트를 지급하는 것이다.According to one aspect of the present invention, the household account book management server, when registering a receipt image through the smart household account book application, provides a preset accumulation point, provides a current status of accumulation points according to an inquiry or payment request of the user terminal, and has already Points are awarded according to the set payment method.

본 발명의 일 실시예에 따른 텍스트마이닝을 이용한 가계부 서비스를 제공하는 가계부 관리 서버에 의해 수행되는 텍스트마이닝을 이용한 가계부 서비스 제공 방법은, a) 가계부 정리를 위한 스마트 가계부 애플리케이션을 사용자 단말에 제공하고, 상기 스마트 가계부 애플리케이션을 통해 영수증 이미지를 등록하는 단계; b) 상기 영수증 이미지를 픽셀별로 이진화 처리하여 픽셀 값이 기 설정된 임계값 이상인 텍스트 영역을 추출하고, 추출된 텍스트 영역에 자연어 처리 기반의 텍스트마이닝 기술을 적용하여 영수증 텍스트 정보로 변환한 후 문자열로 표현하기 위한 텍스트 포맷팅 및 텍스트 파싱 과정을 수행하여 영수증 텍스트 정보로 변환하는 단계; 및 c) 상기 영수증 텍스트 정보를 구매날짜, 구매 수단, 구매상품 리스트, 영수증 발급처, 소비 금액 정보, 포인트 적립 정보를 포함한 가계부 서식 정보에 정리하여 가계부 파일을 생성하여 상기 사용자 단말에 제공하는 단계를 포함하는 것이다.A method for providing a household account book service using text mining performed by a household account book management server providing a household account book service using text mining according to an embodiment of the present invention includes: a) providing a smart household account book application for organizing household account books to a user terminal; registering a receipt image through the smart household account book application; b) The receipt image is binarized for each pixel to extract a text area having a pixel value equal to or greater than a preset threshold, and converted into receipt text information by applying text mining technology based on natural language processing to the extracted text area, and expressed as a string converting receipt text information by performing a text formatting and text parsing process; and c) generating a household account book file by arranging the receipt text information into household account book format information including date of purchase, means of purchase, list of purchased products, receipt issuer, consumption amount information, and point accumulation information, and providing the information to the user terminal. is to do

본 발명의 일측면에 따르면, 상기 c) 단계는, 선행 학습된 인공지능 모델을 사용하여 상기 영수증 텍스트 정보 내 인식된 텍스트를 사전에 정의된 세부 지출 카테고리로 분류하는 것이다.According to one aspect of the present invention, step c) classifies the recognized text in the receipt text information into predefined detailed expenditure categories using a pre-learned artificial intelligence model.

전술한 본 발명의 과제 해결 수단에 의하면, 본 발명은 실물 영수증, 전자 영수증의 이미지를 이용하여 가계부를 자동으로 정리해주면서 포인트를 적립하여 영수증 관리를 손쉽게 할 수 있고, 결제 및 입출금 관련 문자메시지와 영수증을 함께 관리할 수 있고, 가계부 파일을 분석하여 지출 또는 수입 내역에 대한 다양한 컨텐츠를 사용자에게 제공할 수 있다. According to the problem solving means of the present invention described above, the present invention can easily manage receipts by accumulating points while automatically organizing a household account book using images of physical receipts and electronic receipts, and text messages and receipts related to payment and deposit and withdrawal can be managed together, and various contents about expenditure or income can be provided to the user by analyzing the household account book file.

도 1은 본 발명의 일 실시예에 따른 텍스트마이닝을 이용한 가계부 서비스 제공 시스템의 구성을 설명하는 도면이다.
도 2는 본 발명의 일 실시예에 따른 가계부 관리 서버의 구성을 나타낸 도면이다.
도 3은 본 발명의 일 실시예에 따른 텍스트마이닝을 이용한 가계부 서비스 제공 방법을 설명하는 순서도이다.
도 4는 본 발명의 일 실시예에 따른 영수증 이미지와 가계부 파일을 설명하는 예시도이다.
도 5는 본 발명의 일 실시예에 따른 영수증 이미지의 처리 내역을 설명하는 예시도이다.
도 6은 본 발명의 일 실시예에 따른 가계부 파일의 분석 결과를 설명하는 예시도이다.
도 7은 본 발명의 일 실시예에 따른 텍스트 포맷팅 과정을 설명하는 순서도이다.
도 8은 본 발명의 일 실시예에 따른 텍스트 파싱 과정을 설명하는 순서도이다.
1 is a diagram illustrating the configuration of a household account book service providing system using text mining according to an embodiment of the present invention.
2 is a diagram showing the configuration of a household account book management server according to an embodiment of the present invention.
3 is a flowchart illustrating a method of providing a household account book service using text mining according to an embodiment of the present invention.
4 is an exemplary view illustrating a receipt image and a household account book file according to an embodiment of the present invention.
5 is an exemplary view illustrating processing details of a receipt image according to an embodiment of the present invention.
6 is an exemplary view illustrating an analysis result of a household account book file according to an embodiment of the present invention.
7 is a flowchart illustrating a text formatting process according to an embodiment of the present invention.
8 is a flowchart illustrating a text parsing process according to an embodiment of the present invention.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.Hereinafter, embodiments of the present invention will be described in detail so that those skilled in the art can easily practice the present invention with reference to the accompanying drawings. However, the present invention may be embodied in many different forms and is not limited to the embodiments described herein. And in order to clearly explain the present invention in the drawings, parts irrelevant to the description are omitted, and similar reference numerals are attached to similar parts throughout the specification.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.Throughout the specification, when a part is said to be "connected" to another part, this includes not only the case where it is "directly connected" but also the case where it is "electrically connected" with another element interposed therebetween. . In addition, when a part "includes" a certain component, this means that it may further include other components, not excluding other components, unless otherwise stated, and one or more other characteristics. However, it should be understood that it does not preclude the possibility of existence or addition of numbers, steps, operations, components, parts, or combinations thereof.

본 명세서에서 ‘단말’은 휴대성 및 이동성이 보장된 무선 통신 장치일 수 있으며, 예를 들어 스마트 폰, 태블릿 PC 또는 노트북 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치일 수 있다. 또한, ‘단말’은 네트워크를 통해 다른 단말 또는 서버 등에 접속할 수 있는 PC 등의 유선 통신 장치인 것도 가능하다. 또한, 네트워크는 단말들 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 근거리 통신망(LAN: Local Area Network), 광역 통신망(WAN: Wide Area Network), 인터넷 (WWW: World Wide Web), 유무선 데이터 통신망, 전화망, 유무선 텔레비전 통신망 등을 포함한다. In this specification, a 'terminal' may be a wireless communication device with guaranteed portability and mobility, and may be, for example, any type of handheld-based wireless communication device such as a smart phone, a tablet PC, or a laptop computer. Also, the 'terminal' may be a wired communication device such as a PC capable of accessing other terminals or servers through a network. In addition, a network refers to a connection structure capable of exchanging information between nodes such as terminals and servers, such as a local area network (LAN), a wide area network (WAN), and the Internet (WWW : World Wide Web), wired and wireless data communications network, telephone network, and wired and wireless television communications network.

무선 데이터 통신망의 일례에는 3G, 4G, 5G, 3GPP(3rd Generation Partnership Project), LTE(Long Term Evolution), WIMAX(World Interoperability for Microwave Access), 와이파이(Wi-Fi), 블루투스 통신, 적외선 통신, 초음파 통신, 가시광 통신(VLC: Visible Light Communication), 라이파이(LiFi) 등이 포함되나 이에 한정되지는 않는다.Examples of wireless data communication networks include 3G, 4G, 5G, 3rd Generation Partnership Project (3GPP), Long Term Evolution (LTE), World Interoperability for Microwave Access (WIMAX), Wi-Fi, Bluetooth communication, infrared communication, ultrasonic communication, visible light communication (VLC: Visible Light Communication), LiFi, and the like, but are not limited thereto.

이하의 실시예는 본 발명의 이해를 돕기 위한 상세한 설명이며, 본 발명의 권리 범위를 제한하는 것이 아니다. 따라서 본 발명과 동일한 기능을 수행하는 동일 범위의 발명 역시 본 발명의 권리 범위에 속할 것이다.The following examples are detailed descriptions for better understanding of the present invention, and do not limit the scope of the present invention. Therefore, inventions of the same scope that perform the same functions as the present invention will also fall within the scope of the present invention.

또한, 본 발명의 각 실시예에 포함된 각 구성, 과정, 공정 또는 방법 등은 기술적으로 상호간 모순되지 않는 범위 내에서 공유될 수 있다.In addition, each configuration, process, process or method included in each embodiment of the present invention may be shared within a range that does not contradict each other technically.

이하 첨부된 도면을 참고하여 본 발명의 일 실시예를 상세히 설명하기로 한다.Hereinafter, an embodiment of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 텍스트마이닝을 이용한 가계부 서비스 제공 시스템의 구성을 설명하는 도면이다.1 is a diagram illustrating the configuration of a household account book service providing system using text mining according to an embodiment of the present invention.

도 1을 참조하면, 텍스트마이닝을 이용한 가계부 서비스 제공 시스템은 적어도 하나 이상의 사용자 단말(100)과 가계부 관리 서버(200)를 포함하지만 이에 한정되지는 않는다. Referring to FIG. 1 , a household account book service providing system using text mining includes at least one user terminal 100 and a household account book management server 200, but is not limited thereto.

사용자 단말(100)은 가계부 정리를 위한 스마트 가계부 애플리케이션을 실행하고, 실물 영수증 또는 전자 영수증을 촬영하여 영수증 이미지를 제공하며, 스마트 가계부 애플리케이션을 통해 작성된 가계부 파일에 대한 열람 또는 편집 기능을 수행한다. 사용자 단말(100)은 스마트 가계부 애플리케이션을 통해 전자영수증의 등록 기능 및 카드사 서버 또는 은행 서버로부터 전송되는 결제 관련된 문자메시지의 등록 기능을 수행할 수 있고, 그로 인해 결제 관련된 문자메시지와 전자영수증을 가계부 파일 상에 정리되도록 할 수 있다. The user terminal 100 executes the smart household account book application for organizing the household account book, photographs a real receipt or electronic receipt to provide a receipt image, and performs a function of viewing or editing the household account book file created through the smart household account book application. The user terminal 100 may perform a function of registering an electronic receipt and a function of registering a text message related to payment transmitted from a card company server or a bank server through a smart household account book application. It can be arranged on top.

가계부 관리 서버(200)는 스마트 가계부 애플리케이션을 사용자 단말(100)에 제공하고, 사용자 단말(100)에서 제공되는 영수증 이미지를 자연어 처리 기반의 텍스트마이닝를 이용하여 영수증 텍스트 정보로 변환하며, 영수증 텍스트 정보를 구매날짜, 구매 수단, 구매상품 리스트, 영수증 발급처, 소비 금액 정보, 포인트 적립 정보를 포함한 가계부 서식 정보에 정리하여 가계부 파일을 생성한 후 사용자 단말(100)에 제공한다.The household account book management server 200 provides a smart household account book application to the user terminal 100, converts a receipt image provided from the user terminal 100 into receipt text information using text mining based on natural language processing, and converts the receipt text information into A household account book file is generated by arranging the household account book form information including date of purchase, means of purchase, list of purchased products, receipt issuer, consumption amount information, and point accumulation information, and then provided to the user terminal 100 .

이러한 가계부 관리 서버(200)는 일반적인 의미의 서버용 컴퓨터 본체일 수 있고, 그 외에 서버 역할을 수행할 수 있는 다양한 형태의 장치로 구현될 수 있다. 구체적으로, 가계부 관리 서버(200)는 통신 모듈(미도시), 메모리(미도시), 프로세서(미도시) 및 데이터베이스(미도시)를 포함하는 컴퓨팅 장치에 구현될 수 있는데, 스마트폰이나 TV, PDA, 태블릿 PC, PC, 노트북 PC 및 기타 사용자 단말 장치 등으로 구현될 수 있다. The household account book management server 200 may be a computer body for a server in a general sense, and may be implemented in various types of devices capable of performing a server role. Specifically, the household account book management server 200 may be implemented in a computing device including a communication module (not shown), a memory (not shown), a processor (not shown), and a database (not shown). It may be implemented in a PDA, tablet PC, PC, notebook PC, and other user terminal devices.

도 2는 본 발명의 일 실시예에 따른 가계부 관리 서버의 구성을 나타낸 도면이다.2 is a diagram showing the configuration of a household account book management server according to an embodiment of the present invention.

도 2를 참조하면, 가계부 관리 서버(200)는 텍스트마이닝 모듈(210), 텍스트 포맷팅 모듈(220), 텍스트 파싱 모듈(230), 가계부 서식 매핑 모듈(240), 파일 생성 모듈(250) 및 데이터베이스(260)를 포함하지만 이에 한정되지는 않는다. Referring to FIG. 2, the household account book management server 200 includes a text mining module 210, a text formatting module 220, a text parsing module 230, a household account book form mapping module 240, a file creation module 250, and a database. (260), but is not limited thereto.

텍스트마이닝 모듈(210)은 영수증 이미지로부터 텍스트 영역을 추출하고, 텍스트 영역에서 텍스트를 추출한다. 이때, 텍스트마이닝 모듈(210)은 구글에서 제공해주는 인공지능 기반의 이미지 분석 API, 즉 Google Vision AI API를 사용할 수 있다. Google Vision AI API는 OCR를 이용해 50개가 넘는 언어와 다양한 파일 형식의 이미지에서 텍스트를 인식할 수 있고, 선행 학습된 인공지능 모델을 사용하여 인식된 텍스트를 사전에 정의된 가계부와 연관되는 세부 지출 카테고리로 빠르게 분류할 수 있다. 한편, 텍스트 마이닝 모듈(210)은 OCR 처리 기술을 이용하지 않더라도 영수증 이미지에 이진화 기술을 적용하고, 픽셀 값을 기반으로 임계값 이상의 픽셀을 텍스트로 판단한 하여 텍스트 영역을 추출한 후에, 텍스트 영역에 텍스트마이닝 기술을 적용함으로써 언어학, 통계학, 기계학습 등을 기반으로 한 자연어 처리 기술을 활용하여 반정형/비정형 텍스트 데이터를 정형화하고, 특징을 추출하기 위한 기술과 추출된 특징으로부터 의미있는 정보를 발견할 수 있도록 한다. The text mining module 210 extracts a text area from the receipt image and extracts text from the text area. At this time, the text mining module 210 may use an artificial intelligence-based image analysis API provided by Google, that is, the Google Vision AI API. The Google Vision AI API can use OCR to recognize text in images in over 50 languages and various file formats, and uses a pre-trained AI model to convert the recognized text into detailed spending categories associated with predefined household accounts. can be quickly classified as On the other hand, the text mining module 210 applies the binarization technology to the receipt image even without using the OCR processing technology, extracts the text area by judging the pixels above the threshold value as text based on the pixel value, and then performs text mining on the text area By applying the technology, we use natural language processing technology based on linguistics, statistics, machine learning, etc. to standardize semi-structured/unstructured text data, and to discover meaningful information from the technology for extracting features and extracted features. do.

텍스트 포맷팅 모듈(220)은 텍스트마이닝 모듈(210)에서 추출된 텍스트들을 문자열로 표현하기 위해 텍스트 포맷을 지정하여 영수증 텍스트 정보로 제공한다. The text formatting module 220 designates a text format to represent the texts extracted by the text mining module 210 as strings and provides them as receipt text information.

영수증은 POS, 키오스크 등에서 주문 사항에 대해 현금 또는 카드 결제시 출력되는데, 대부분 메뉴명(상품명, 아이템, 아이템명, 품명 등), 가격(단가, 가격 등), 수량(갯수, 개수, quantity, qty 등), 금액(금액, 합계, amount 등)의 4가지 항목이 노출된다. 이러한 영수증은 지불 결제 사업자에 따라 4가지 항목을 표현하기 위한 순서, 텍스트 등의 포맷 방식이 상이할 수 있다. Receipts are printed out when paying in cash or by card for orders at POS, kiosk, etc. , 4 items of amount (amount, total, amount, etc.) are exposed. These receipts may have different formatting methods such as order and text for expressing the four items depending on the payment settlement service provider.

따라서, 텍스트 포맷팅 모듈(220)은 다양한 영수증 포맷 처리를 위해 인공 지능을 활용한다. 즉, 텍스트 포맷팅 모듈(220)은 인공 지능 기반의 영수증 인식 모델을 학습하고, 학습된 영수증 인식 모델에 텍스트마이닝 모듈(210)에서 처리된 영수증 텍스 정보를 입력하면 영수증 텍스트 정보의 원본 영수증이 어떠한 영수증 포맷을 사용하고 있는지 예측값(영수증 포맷값)이 출력된다. Accordingly, the text formatting module 220 utilizes artificial intelligence to process various receipt formats. That is, the text formatting module 220 learns an artificial intelligence-based receipt recognition model, and inputs the receipt text information processed in the text mining module 210 to the learned receipt recognition model, which receipt is the original receipt of the receipt text information. A predicted value (receipt format value) is output to see if the format is being used.

텍스트 포맷팅 모듈(220)은 영수증 인식 모델을 학습하기 위해, 각 지불 결제 사업자마다 가지고 있는 포맷에 따라 출력된 영수증 이미지-레이블 쌍의 학습 데이터셋을 수집하고, 수집된 학습 데이터셋을 영수증 포맷에 따라 이미지 분류(Image Classification) 기술을 적용하는데 활용한다. 즉, 텍스트 포맷팅 모듈(220)은 학습 데이터셋의 영수증 이미지에 대한 전처리를 수행하고, 영수증 인식 모델은 학습 데이터셋을 이용하여 학습하게 된다. 이때, 영수증 인식 모델은 이미지 처리를 위한 대표적인 딥러닝 모델인 CNN(Convolution Neural Network)을 사용할 수 있고, CNN은 Convolution, ReLU, Pooling 과정을 통해 이미지의 공간적인 특징을 추출하고, 이를 Fully Connected Layer 를 통해 분류하게 된다. In order to learn the receipt recognition model, the text formatting module 220 collects a training dataset of output receipt image-label pairs according to a format possessed by each payment provider, and converts the collected training dataset according to the receipt format. It is used to apply Image Classification technology. That is, the text formatting module 220 performs preprocessing on the receipt image of the training dataset, and the receipt recognition model is learned using the training dataset. At this time, the receipt recognition model can use CNN (Convolution Neural Network), which is a representative deep learning model for image processing, and CNN extracts spatial features of images through convolution, ReLU, and pooling processes, and uses them to fully connect layers. classified through

이때, 텍스트 포맷팅 모듈(220)은 CNN 외에도 AlexNet, VggNet, Googlenet, ResNet 등을 이용하여 긴 시간 학습을 진행하지 않아도 높은 성능을 유지할 수 있도록 할 수 있다. At this time, the text formatting module 220 can maintain high performance even without long-time learning by using AlexNet, VggNet, Googlenet, ResNet, etc. in addition to CNN.

텍스트 파싱 모듈(230)은 영수증 텍스트 정보에서 가계부 서식 파일에 사용되는 구매상품 리스트를 추출한다. 이때, 텍스트 파싱 모듈(230)은 영수증 인식 모델을 통해 예측된 영수증 포맷에 기초하여 영수증에 노출되는 4가지 항목(메뉴명, 가격, 수량, 금액)에 따라 구매상품 리스트를 쉽게 추출할 수 있다. The text parsing module 230 extracts a purchased product list used in a household account book template from receipt text information. At this time, the text parsing module 230 can easily extract the purchase product list according to the four items (menu name, price, quantity, amount) exposed on the receipt based on the receipt format predicted through the receipt recognition model.

가계부 서식 매핑 모듈(240)은 사용자가 지정한 가계부 서식 레이어 또는 기본값으로 설정된 가계부 서식 레이어에 구매상품 리스트 정보를 매핑하고, 파일 생성 모듈(250)은 가계부 서식 레이어에 매핑된 구매상품 리스트 정보 뿐만 아니라 수입 내역, 기타 사용자 데이터들을 포함하는 가계부 파일을 생성 및 저장한다. The household account book format mapping module 240 maps purchased product list information to a household account book form layer designated by a user or a household account book form layer set as a default value, and the file generation module 250 maps the purchased product list information mapped to the household account book form layer as well as import Generates and stores a household account book file including details and other user data.

영수증 발급처 또는 상품 구매처에서 상품 구매 후에 사용자 단말(100)로 전자 영수증을 발급한 경우에, 사용자 단말(100)은 스마트 가계부 애플리케이션을 통해 전자영수증을 등록하여 가계부 파일에 전자영수증 내 지출 내역이 포함되도록 할 수 있고, 카드사 서버 또는 은행서버로부터 전송되는 문자메시지(결제 문자메시지, 입출금 승인 메시지 등)를 자동으로 등록하여 가계부 파일에 지출 및 수입 내역이 포함되도록 할 수 있다. When a receipt issuer or a product purchaser issues an electronic receipt to the user terminal 100 after purchasing a product, the user terminal 100 registers the electronic receipt through a smart household account book application to include the expenditure details in the electronic receipt in the household account book file and text messages (payment text messages, deposit/withdrawal approval messages, etc.) transmitted from the card company server or bank server can be automatically registered so that the details of expenditure and income are included in the household account book file.

또한, 데이터베이스(260)에는 영수증 이미지, 영수증 텍스트 정보, 구매상품 리스트 정보, 전자영수증, 문자메시지 등의 내용을 보관하며, 텍스트마이닝을 이용한 가계부 서비스 제공 방법을 수행하면서 누적되는 각종 데이터들을 저장한다. In addition, the database 260 stores receipt images, receipt text information, purchase product list information, electronic receipts, text messages, and the like, and stores various data accumulated while performing a method of providing a household account book service using text mining.

한편, 가계부 관리 서버(200)는 스마트 가계부 애플리케이션과 연동하여 영수증 이미지 등록시 기 설정된 적립 포인트를 제공한다. 이때, 가계부 관리 서버(200)는 영수증 이미지의 등록 횟수 또는 총합계금액에 따라 일정 포인트씩 적립되도록 한다. Meanwhile, the household account book management server 200 interworks with a smart household account book application to provide preset accumulation points when registering a receipt image. At this time, the household account book management server 200 allows certain points to be accumulated according to the number of registered receipt images or the total amount.

또한, 가계부 관리 서버(200)는 사용자 단말(100)의 조회 요청에 따라 적립 포인트현황을 제공하고, 지급 요청에 따라 기 등록된 사용자 결제계좌로 적립 포인트를 지급하거나 제휴 사이트에 접속하여 상품을 구매할 수 있도록 한다. 가계부 관리 서버(200)는 마트, 식품회사 등의 판매처, 지도정보 제공 사이트 등과 사전 제휴를 통해 영수증 내 판매처별, 마트별로 포인트를 적립하여 해당 판매처나 마트에서 적립된 포인트를 사용하도록 할 수 있다.In addition, the household account book management server 200 provides the current status of accumulated points according to the inquiry request of the user terminal 100, and pays the accumulated points to a pre-registered user payment account or purchases products by accessing an affiliate site according to the payment request. make it possible The household account book management server 200 may accumulate points for each sales outlet and each mart in the receipt through prior partnership with sales outlets such as marts and food companies, map information providing sites, etc.

또한, 가계부 관리 서버(200)는 지도정보 제공 사이트 등에서 영수증 발급처(구매처)의 지도 정보를 매핑하여, 전화번호, 구매처 상호명 등을 함께 저장하여, 즐겨찾는 매장정보 등으로 마이페이지에 등록할 수 있다. In addition, the household account book management server 200 maps the map information of the receipt issuing place (purchasing place) on a map information providing site, etc., stores the phone number, purchase name, etc. together, and registers it in My Page as favorite store information. .

상술한 모듈들은 본 발명을 설명하기 위한 일 실시예일 뿐, 이에 한정되지 않고 다양한 변형으로 구현될 수 있다. 또한, 상술한 모듈들은 가계부 관리 서버(200)의 프로세서에 의해 제어될 수 있는 컴퓨터로 판독 가능한 기록매체로서 메모리에 저장된다. 또한, 상술한 모듈들의 적어도 일부는 소프트웨어, 펌웨어, 하드웨어 또는 이들 중 적어도 둘 이상의 조합으로 구현될 수 있으며, 하나 이상의 기능을 수행하기 위한 모듈, 프로그램, 루틴, 명령어 세트 또는 프로세스를 포함할 수 있다.The above-described modules are only one embodiment for explaining the present invention, and may be implemented in various modifications without being limited thereto. In addition, the above-described modules are stored in a memory as a computer-readable recording medium that can be controlled by the processor of the household account book management server 200 . In addition, at least some of the above-described modules may be implemented as software, firmware, hardware, or a combination of at least two of them, and may include a module, program, routine, instruction set, or process for performing one or more functions.

도 3은 본 발명의 일 실시예에 따른 텍스트마이닝을 이용한 가계부 서비스 제공 방법을 설명하는 순서도이고, 도 4는 본 발명의 일 실시예에 따른 영수증 이미지와 가계부 파일을 설명하는 예시도이며, 도 5는 본 발명의 일 실시예에 따른 영수증 이미지의 처리 내역을 설명하는 예시도이고, 도 6은 본 발명의 일 실시예에 따른 가계부 파일의 분석 결과를 설명하는 예시도이다. 3 is a flowchart illustrating a method of providing a household account book service using text mining according to an embodiment of the present invention, FIG. 4 is an exemplary view illustrating a receipt image and a household account book file according to an embodiment of the present invention, and FIG. 5 is an exemplary diagram illustrating processing details of a receipt image according to an embodiment of the present invention, and FIG. 6 is an exemplary diagram illustrating an analysis result of a household account book file according to an embodiment of the present invention.

도 3 내지 도 6을 참조하면, 텍스트마이닝을 이용한 가계부 서비스 제공 방법은, 사용자 단말에서 스마트 가계부 애플리케이션을 실행한 상태에서 자신의 카메라를 이용해 영수증을 촬영하여 영수증 이미지를 저장하면, 스마트 가계부 애플리케이션은 영수증 이미지를 자동으로 등록하고, 영수증 이미지의 텍스트 인식 과정을 수행하게 된다(S10). 3 to 6, in the method of providing a household account book service using text mining, when a receipt is captured using a user's camera and a receipt image is stored in a state in which a smart household account book application is executed in a user terminal, the smart household account book application generates a receipt The image is automatically registered, and the text recognition process of the receipt image is performed (S10).

이때, 스마트 가계부 애플리케이션은 가계부 관리 서버(200)와 연동하여 자연어 처리 기반의 텍스트마이닝 텍스트 포맷팅, 텍스트 파싱, 가계부 서식 매핑 및 파일 생성 과정을 수행하게 된다. 즉, 스마트 가계부 애플리케이션은 영수증 이미지를 자연어 처리 기반의 텍스트마이닝 처리하여 영수증 이미지를 문자열로 표현하기 위한 텍스트 포맷팅을 수행하고(S20, S30), 텍스트 포맷팅된 영수증 텍스트 정보에서 텍스트 파싱을 수행한 후 파싱된 텍스트 정보를 구매상품 리스트로 분류한다(S40, S50). At this time, the smart household account book application interworks with the household account book management server 200 to perform natural language processing-based text mining text formatting, text parsing, household account book format mapping, and file creation. That is, the smart household account book application processes the receipt image through text mining based on natural language processing, performs text formatting to express the receipt image as a string (S20, S30), performs text parsing on the text formatted receipt text information, and then parses The resulting text information is classified into a purchase product list (S40, S50).

스마트 가계부 애플리케이션은 구매상품 리스트를 가계부 서식 레이어에 투영하여 가계부 파일을 생성한다(S60). 이때, 가계부 파일에는 구매날짜, 구매 수단(카드, 현금 등), 구매상품 리스트, 영수증 발급처, 소비 금액 정보, 포인트 적립 정보를 포함한다. 또한, 텍스트마이닝 모듈(210)은 선행 학습된 인공지능 모델을 사용하여 인식된 텍스트를 사전에 정의된 교통/차량, 외식, 주거/통신, 경조사비 등의 세부 지출 카테고리로 분류할 수 있다. The smart household account book application creates a household account book file by projecting the purchased product list onto the household account book form layer (S60). At this time, the household account book file includes the date of purchase, means of purchase (card, cash, etc.), list of purchased products, receipt issuer, consumption amount information, and point accumulation information. In addition, the text mining module 210 may classify the recognized text into detailed expenditure categories such as transportation/vehicle, eating out, housing/communication, and expenses for congratulations and condolences, etc., defined in advance by using the pre-learned artificial intelligence model.

따라서, 가계부 파일에는 상품에 해당하는 텍스트 정보(동산 만두, 개인택시 등)를 세부 지출 카테고리(교통/차량>대중교통비, 외식>식사 등)로 자동으로 분류하여 정리될 수 있다. Accordingly, in the household account book file, text information (movable dumplings, private taxis, etc.) corresponding to products may be automatically classified and organized into detailed expenditure categories (transportation/vehicle>public transportation expenses, eating out>meals, etc.).

예를 들어, 도 4에 도시된 바와 같이, 스마트 가계부 애플리케이션이 영수증 이미지가 등록되면, 영수증 발급처('동산 만두'), 구매날짜('2019--8-09 00:00:00'), 총금액('15000원'), 할증 정보가 추출된다. For example, as shown in FIG. 4, when a smart household account book application registers a receipt image, the receipt issuer ('Garden Dumpling'), purchase date ('2019--8-09 00:00:00'), and total amount ('15,000 won'), premium information is extracted.

스마트 가계부 애플리케이션은 도 5에 도시된 바와 같이, 데이터베이스(260)에 영수증 이미지와 함께 지출 시간정보, 등록시간정보, 처리 내역을 저장하고, 사용자 단말(100)에서 검색 요청시 해당 영수증 이미지를 데이터베이스(260)에서 불러와 디스플레이한다. As shown in FIG. 5, the smart household account book application stores spending time information, registration time information, and processing details together with receipt images in the database 260, and when a search request is made from the user terminal 100, the receipt image is stored in the database ( 260) and display it.

한편, 도 6에 도시된 바와 같이, 가계부 관리 서버(200)는 일별, 월별, 년별로 지출 내역과 수입 내역을 분석한 후 분석 결과를 카테고리별로 지출 비율 및 지출 금액에 대한 지출 현황을 그래프나 엑셀 등의 보고서 형태로 제공할 수 있다.Meanwhile, as shown in FIG. 6 , the household account book management server 200 analyzes the expenditure details and income details by day, month, and year, and then converts the analysis result into a graph or an Excel graph for the expenditure ratio and expenditure amount for each category. It can be provided in the form of a report, etc.

도 7은 본 발명의 일 실시예에 따른 텍스트 포맷팅 과정을 설명하는 순서도이다.7 is a flowchart illustrating a text formatting process according to an embodiment of the present invention.

도 7을 참조하면, 텍스트 포맷팅 과정은 텍스트마이닝 모듈(210)을 통해 텍스트마이닝 엔진에서 텍스트별 영수증 이미지 상에 어디에 위치해 있는지 좌표값을 추출할 수 있고, 띄어쓰기와 개행에 대한 공백 정보(DetectedBreak 값)를 추출할 수 있다(S31).Referring to FIG. 7 , in the text formatting process, the text mining engine can extract coordinate values of where each text is located on a receipt image through the text mining module 210, and blank information (DetectedBreak value) for spaces and newlines. can be extracted (S31).

일례로, 텍스트마이닝 모듈(210)은 전체텍스트주석(fullTextAnnotations) > 페이지(pages) > 블럭(blocks) > 문단(paragraphs) 구조로 되어 있고, fullTextAnnotaions는 영수증 이미지에서 인식된 전체 구획 정보가 들어 있고, 전체 구획 정보 내에서 구획을 나눈 것이 pages, pages에서 구획을 나눈 것이 blocks, blocks에서 구획을 나눈 것이 문단(paragraphs), 단어(words) 및 심벌(symbols)이 된다. 이때, Blocks, Paragraphs, words, symbols 내의 경계박스(boundingBox)는 해당 구획의 좌표값이 들어있으며, 구획의 최하단 단위인 symbols 내 텍스트에는 인식된 텍스트가 들어 있다. 따라서, 텍스트 포맷팅 모듈(220)은 텍스트를 추출하여 경계박스(boundingBox) 좌표값에 따라 재배열하게 된다.For example, the text mining module 210 has a structure of fullTextAnnotations>pages>blocks>paragraphs, fullTextAnnotations contains information about all sections recognized in a receipt image, Within the entire partition information, partitioning is pages, partitioning in pages is blocks, and partitioning in blocks is paragraphs, words, and symbols. At this time, the boundingBox in Blocks, Paragraphs, words, and symbols contains the coordinate values of the section, and the text in symbols, the lowest unit of the section, contains the recognized text. Accordingly, the text formatting module 220 extracts the text and rearranges it according to the coordinate values of the bounding box.

텍스트 포맷팅 모듈(220)은 좌표 정보에 기초하여 행간 좌표값 차이를 모두 계산하여, 좌표값 차이가 최소가 되는 값을 개행 기준값으로 설정한다(S32). The text formatting module 220 calculates all coordinate value differences between lines based on the coordinate information, and sets a value that minimizes the coordinate value difference as a new line reference value (S32).

텍스트 포맷팅 모듈(220)은 좌표 정보와 공백 정보에 기초하여 개별 텍스트를 텍스트 리스트 형태로 저장하고 좌표 정보의 X축과 Y축을 기준으로 분류한다(S33). The text formatting module 220 stores individual texts in the form of a text list based on the coordinate information and space information and classifies them based on the X and Y axes of the coordinate information (S33).

텍스트 포맷팅 모듈(220)은 분류된 텍스트 리스트에 개행 기준값을 적용하여 문자열 배열로 재정리하여 영수증 텍스트 정보를 저장한다(S34). 이때, 텍스트 포맷팅 모듈(220)은 텍스트 리스트의 최초 텍스트부터 다음 텍스트를 차례차례 이어 붙이는 방식으로 문자열 배열로 재정리하는데, 다음 텍스트의 Y축 좌표값이 마지막으로 이어붙인 텍스트의 Y축 좌표값과의 차이가 개행 기준값 이상이면 개행을 시킨 후에 다음 문자 배열 인덱스에 저장한다.The text formatting module 220 applies a newline reference value to the classified text list, rearranges it into a string array, and stores the receipt text information (S34). At this time, the text formatting module 220 reorganizes the text list into a string array in such a way that the first text in the text list and the next text are sequentially concatenated. If the difference is greater than the newline standard value, it is stored at the next character array index after performing a newline.

즉, 텍스트 포맷팅 모듈(220)은 빈 문자열 "text" 라는 변수를 선언한 상태에서, 텍스트마이닝 모듈(210)의 처리 결과로 제공되는 구획의 좌표값(x, y)(좌표 정보)을 기준으로 XY 좌표 평면에서 제2사분면에 해당하는 구획의 최하단(X축상) 단위 Word에서 부터 Word > Symbol > text를 1의 text 변수에 계속 이어 붙이게 된다. That is, in the state in which the text formatting module 220 declares a variable called the empty string "text", based on the coordinate values (x, y) (coordinate information) of the section provided as a result of the processing of the text mining module 210 From the lowest unit word (on the X axis) of the division corresponding to the second quadrant on the XY coordinate plane, Word > Symbol > text is continuously attached to the text variable of 1.

이때, Symbol의 Property > DetectedBreak > Type을 검사해서 "EOL_SURE_SPACE"를 제외한 나머지 타입이 발견되면 1의 text에 Symbol.text + " "를 이어 붙이게 된다. Word의 내 마지막 Symbol 요소 안에 Property > DetectedBreak > Type 에 "EOL_SURE_SPACE" 가 있으면 이 다음 Word는 새로 개행된 Word라고 가정하고, 이어 붙여진 1의 text와 이어붙여졌던 전체 text의 좌표값을 따로 임의의 배열에 저장하고, text 변수를 초기화한다. 그리고 현재 Word의 y값과 개행되는 다음 Word의 y값의 차이(제1 차이값)를 계산하게 된다. At this time, if the symbol's Property > DetectedBreak > Type is checked and the type other than "EOL_SURE_SPACE" is found, Symbol.text + " " is attached to the text of 1. If there is "EOL_SURE_SPACE" in Property > DetectedBreak > Type in my last Symbol element of Word, it is assumed that this next word is a new word, and the coordinates of the concatenated text of 1 and the entire concatenated text are stored separately in an arbitrary array. Save and initialize the text variable. Then, the difference between the y value of the current word and the y value of the next word to be newline (first difference value) is calculated.

이러한 과정을 반복 수행한 후에, 저장해 둔 text와 좌표값을 저장한 배열을 y값, x값을 기준으로 오름차순으로 정렬하고, 저장해둔 임의의 배열을 처음부터 액세스하여, 이 요소의 text를 다른 문자열 변수에 저장하는 데 현재 요소의 y값과 다음 요소의 y값의 차이가 4에서 저장한 y값 차이인 제1 차이값보다 크면 새로 저장했던 문자열 변수를 다른 문자열 배열에 저장한 후 이 문자열 변수를 초기화하고, 이 과정을 반복 수행한다. After repeating this process, sort the array storing the stored text and coordinate values in ascending order based on the y value and the x value, access the stored random array from the beginning, and convert the text of this element to another string To store in a variable, if the difference between the y value of the current element and the y value of the next element is greater than the first difference value, which is the difference between the y values stored at 4, the newly stored string variable is stored in another string array, and then this string variable is stored. Initialize and repeat this process.

텍스트 포맷팅 모듈(220)은 영수증 텍스트 정보에서 기 설정된 정리조건에 해당하는 문자열 정리하여 텍스트 파싱이 용이하도록 한다(S35). 즉, 텍스트 포맷팅 모듈(220)은 한글, 알파벳, 숫자, 기호 문자(% & * + - 등) 파싱에 필요없는 특수 문자를 제거하고, 상품명 앞에 붙은 상품 순서 번호를 제거하며, 단가와 합계 사이에 숫자 1이 인식되어야 하는데 특수문자 세로줄(|)로 인식된 부분을 1로 보완하고, 두 칸 공백을 한 칸 공백으로 변경하며, 특수 문자밖에 없거나 공백인 텍스트를 제거한다. The text formatting module 220 arranges strings corresponding to preset arrangement conditions in the receipt text information to facilitate text parsing (S35). That is, the text formatting module 220 removes special characters unnecessary for parsing Hangul, alphabets, numbers, and symbol characters (% & * + -, etc.), removes product order numbers in front of product names, and The number 1 should be recognized, but the part recognized as a special character vertical line (|) is supplemented with 1, two-space spaces are changed to one-space spaces, and text with only special characters or spaces is removed.

도 8은 본 발명의 일 실시예에 따른 텍스트 파싱 과정을 설명하는 순서도이다. 8 is a flowchart illustrating a text parsing process according to an embodiment of the present invention.

도 8에 도시된 바와 같이, 텍스트 파싱 모듈(230)은 영수증 텍스트 정보에서 정규표현식 텍스트 전처리를 수행한다. 즉, 구입 일시, 전화번호, 결제카드 정보를 날짜 정규표현식(예를 들어, 2019-09-01 등)과 전화번호 정규표현식, 카드 정보 정규표현식으로 각각 전처리를 수행한다(S41). As shown in FIG. 8 , the text parsing module 230 performs regular expression text preprocessing on receipt text information. That is, the date of purchase, phone number, and payment card information are preprocessed with a date regular expression (eg, 2019-09-01, etc.), a phone number regular expression, and a card information regular expression (S41).

텍스트 파싱 모듈(230)은 영수증 텍스트 정보의 시작 지점을 설정하여 문자열 배열 인덱스 검사를 수행한다(S42). 일반적으로, 상품 목록의 앞에 오는 텍스트인 '주문번호', '상품명', '단가', '상품코드'가 들어있는 문자열인 경우에, 해당 문자열 다음에 오는 인덱스부터가 상품 목록에 해당하므로, '주문번호', '상품명', '단가', '상품코드'를 포함한 텍스트들을 수집하여 시작 그룹으로 설정하고, 시작 그룹내 텍스트가 발견되면 해당 위치를 시작 지점으로 설정할 수 있다. The text parsing module 230 sets the starting point of the receipt text information and performs string array index check (S42). In general, in the case of a string containing 'order number', 'product name', 'unit price', and 'product code', which are the texts preceding the product list, the index following the string corresponds to the product list. Texts including 'order number', 'product name', 'unit price', and 'product code' are collected and set as a starting group, and when a text in the starting group is found, the corresponding position can be set as a starting point.

텍스트 파싱 모듈(230)은 상품 리스트 텍스트를 검사하기 위해 상품명, 상품코드, 수량, 단가, 할인, 쿠폰, 에누리를 포함한 문자열 분류한다(S43). 각 문자열(row) 중 '상품명만 있는 row', '상품명 + 단가 row', '상품코드만 있는 row', '상품코드 + 단가 row', '할인 row'로 분류한다.The text parsing module 230 classifies character strings including product name, product code, quantity, unit price, discount, coupon, and discount to check the product list text (S43). Each character string (row) is classified into 'row with product name only', 'product name + unit price row', 'product code only row', 'product code + unit price row', and 'discount row'.

즉, 문자열에 '할인', '에누리', '쿠폰', '-숫자' 형식의 텍스트가 들어있는 row는 '할인 row'로 분류한다. 할인 row가 아닌 row에 대해 공백을 기준으로 나누어 새로운 문자열 배열(string array)을 생성한 후 새롭게 생성된 문자열 배열의 길이가 4인 경우에 모든 데이터가 숫자이면 '상품코드 + 단가 row'로 분류하고, 문자열의 마지막(n번째) 텍스트, n- 1 번째 텍스트, n - 2번째 텍스트가 숫자이면 '상품명 + 단가 row'로 분류한다. 그 외에 문자열 배열의 길이가 4 이상인 경우에 '상품명 row'로 분류한다.That is, a row containing text in the form of 'discount', 'surcharge', 'coupon', or '-number' in the string is classified as a 'discount row'. After creating a new string array by dividing the rows that are not discount rows based on blanks, if the length of the newly created string array is 4 and all data are numbers, classify them as 'product code + unit price row' , If the last (nth) text of the string, the n-1st text, and the n-2nd text are numbers, it is classified as 'product name + unit price row'. In addition, if the length of the string array is 4 or more, it is classified as 'product name row'.

한편, 새롭게 생성된 문자열 배열의 길이가 3인 경우에 텍스트가 전부 숫자인 경우 '단가 row'로 분류하고, 텍스트 중 일부 문자가 포함된 경우에 '상품명 row'로 분류한다. 만일, 새롭게 생성된 문자열 배열 중 공백을 기준으로 문자열 배열의 데이터를 검사한 결과 분류되지 않은 문자열은 '상품명만 있는 row'로 분류한다. On the other hand, when the length of the newly created string array is 3, if the text is all numbers, it is classified as a 'unit price row', and if some characters are included in the text, it is classified as a 'product name row'. If, as a result of examining the data of the string array based on blanks among the newly created string arrays, unclassified strings are classified as 'rows with only product names'.

한편, 텍스트 파싱 모듈(230)은 문자 배열의 길이가 2인 경우에 첫번째 텍스트가 숫자가 아니고, 두 번째 텍스트가 숫자이면 "상품명 + 단가 row"로 분류하고, 첫번째 텍스트와 두번째 텍스트 모두 숫자이면 첫번째 텍스트가 상품코드이면 "상품코드 + 단가 row"로 분류하며, 첫번째 텍스트가 상품코드가 아니면 "단가 row"로 분류한다. 한편, 첫번 째 및 두 번째 텍스트 모두가 숫자가 아니면 "상품명 row"로 분류한다.On the other hand, if the length of the character array is 2, the text parsing module 230 classifies it as "product name + unit price row" if the first text is not a number and the second text is a number, and if both the first text and the second text are numbers, the first text is a number. If the text is a product code, it is classified as "product code + unit price row", and if the first text is not a product code, it is classified as "unit price row". On the other hand, if both the first and second texts are not numbers, it is classified as "product name row".

텍스트 파싱 모듈(230)은 문자 배열의 길이가 1인 경우에, 해당 텍스트가 상품 코드이면 "상품 코드 row", 숫자이면 "단가 row", 숫자가 아니면 "상품명 row" 로 분류한다. When the length of the character array is 1, the text parsing module 230 classifies the corresponding text into "product code row" if the text is a product code, "unit price row" if it is a number, and "product name row" if it is not a number.

텍스트 파싱 모듈(230)은 '상품명만 있는 row', '상품명 + 단가 row', '상품코드만 있는 row', '상품코드 + 단가 row', '할인 row'로 분류된 row들을 조합하여 구매상품 리스트를 구성한다. The text parsing module 230 combines rows classified as 'product name only row', 'product name + unit price row', 'product code only row', 'product code + unit price row', and 'discount row' to purchase products compose a list

텍스트 파싱 모듈(230)은 종료 지점에 해당하는 텍스트가 존재하는 경우에 상품 리스트 텍스트를 검사를 중지하고, 각 분류된 row들을 조합한 구매상품 리스트를 제공한다(S44, S45). 이때, 영수증의 최하단에 자주 사용되는 텍스트들인 '과세물품', '과세금액', '총합계금액', '주문합계' 등을 수집하여 종료 그룹으로 설정하고, 종료 그룹 내 텍스트가 발견되면, 해당 위치를 종료 지점으로 설정한다. The text parsing module 230 stops inspecting the product list text when text corresponding to the end point exists, and provides a purchased product list combining each of the classified rows (S44 and S45). At this time, frequently used texts at the bottom of the receipt, such as 'taxable goods', 'taxable amount', 'total amount', 'order total', etc. are collected and set as an end group, and when the text in the end group is found, the corresponding position set as the end point.

한편, 도 3, 도 7 및 도 8의 각 단계들은 본 발명의 구현예에 따라서 추가적인 단계들로 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계간의 순서가 변경될 수도 있다.Meanwhile, each of the steps of FIGS. 3, 7, and 8 may be divided into additional steps or combined into fewer steps according to an embodiment of the present invention. Also, some steps may be omitted if necessary, and the order of steps may be changed.

이상에서 설명한 본 발명의 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 이러한 기록 매체는 컴퓨터 판독 가능 매체를 포함하며, 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함하며, 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.The embodiments of the present invention described above may be implemented in the form of a recording medium including instructions executable by a computer, such as program modules executed by a computer. Such recording media includes computer readable media, which can be any available media that can be accessed by a computer, and includes both volatile and nonvolatile media, removable and non-removable media. Computer readable media also includes computer storage media, both volatile and nonvolatile, implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data. , including both removable and non-removable media.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.The above description of the present invention is for illustrative purposes, and those skilled in the art can understand that it can be easily modified into other specific forms without changing the technical spirit or essential features of the present invention. will be. Therefore, the embodiments described above should be understood as illustrative in all respects and not limiting. For example, each component described as a single type may be implemented in a distributed manner, and similarly, components described as distributed may be implemented in a combined form.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present invention is indicated by the following claims rather than the detailed description above, and all changes or modifications derived from the meaning and scope of the claims and equivalent concepts should be construed as being included in the scope of the present invention. do.

100 : 사용자 단말
200 : 가계부 관리 서버
210 : 텍스트마이닝 모듈
220 : 텍스트 포맷팅 모듈
230 : 텍스트 파싱 모듈
240 : 가계부 서식 매핑 모듈
250 : 파일 생성 모듈
260 : 데이터베이스
100: user terminal
200: household account book management server
210: text mining module
220: text formatting module
230: text parsing module
240: household account book form mapping module
250: file creation module
260: database

Claims (7)

텍스트마이닝을 이용한 가계부 서비스 제공 시스템에 있어서,
가계부 정리를 위한 스마트 가계부 애플리케이션을 실행하여 영수증을 촬영하여 영수증 이미지를 제공하고, 상기 스마트 가계부 애플리케이션을 통해 작성된 가계부 파일에 대한 열람 또는 편집 기능을 수행하는 사용자 단말; 및
상기 스마트 가계부 애플리케이션을 상기 사용자 단말에 제공하고, 상기 사용자 단말에서 제공되는 영수증 이미지를 픽셀별로 이진화 처리하여 픽셀 값이 기 설정된 임계값 이상인 텍스트 영역을 추출하고, 추출된 텍스트 영역에 텍스트마이닝 기술을 적용하여 영수증 텍스트 정보로 변환하며, 상기 영수증 텍스트 정보를 구매날짜, 구매 수단, 구매상품 리스트, 영수증 발급처, 소비 금액 정보, 포인트 적립 정보를 포함한 가계부 서식 정보에 정리하여 가계부 파일을 생성하여 상기 사용자 단말에 제공하는 가계부 관리 서버를 포함하는 것인, 텍스트마이닝을 이용한 가계부 서비스 제공 시스템.
In the household account book service providing system using text mining,
A user terminal that executes a smart household account book application for organizing household account book, takes a receipt and provides a receipt image, and performs a function of viewing or editing a household account book file created through the smart household account book application; and
The smart household account book application is provided to the user terminal, and a receipt image provided from the user terminal is binarized for each pixel to extract a text area having a pixel value equal to or greater than a preset threshold, and text mining technology is applied to the extracted text area and converts the receipt text information into receipt text information, and organizes the receipt text information into household account book format information including purchase date, purchase method, purchased product list, receipt issuer, consumption amount information, and point accumulation information to generate a household account book file and display the information on the user terminal. A household account book service providing system using text mining, comprising a household account book management server that provides.
제1항에 있어서,
상기 가계부 관리 서버는,
상기 영수증 이미지를 픽셀별로 이진화 처리하여 픽셀 값이 기 설정된 임계값 이상인 텍스트 영역을 추출하고, 상기 텍스트 영역에서 자연어 처리 기반의 텍스트마이닝 기술을 적용하여 텍스트를 인식하는 텍스트마이닝 모듈;
상기 텍스트마이닝 모듈에서 추출된 텍스트들을 문자열로 표현하기 위해 텍스트 포맷을 지정하여 영수증 텍스트 정보로 제공하는 텍스트 포맷팅 모듈;
상기 텍스트 포맷핑 모듈에서 제공되는 영수증 텍스트 정보에서 가계부 서식 레이어의 각 항목에 기입하기 위한 구매상품 리스트를 추출하는 텍스트 파싱 모듈;
상기 가계부 서식 레이어에 구매상품 리스트 정보를 매핑하는 가계부 서식 매핑 모듈; 및
상기 가계부 서식 매핑 모듈에서 가계부 서식 레이어에 매핑된 구매상품 리스트 정보, 수입 내역 정보, 사용자 데이터들을 포함하는 가계부 파일을 생성하는 파일 생성 모듈을 포함하는 것인, 텍스트마이닝을 이용한 가계부 서비스 제공 시스템.
According to claim 1,
The household account book management server,
a text mining module that binarizes the receipt image pixel by pixel, extracts a text area having a pixel value equal to or greater than a predetermined threshold, and recognizes text by applying a natural language processing-based text mining technology to the text area;
a text formatting module that designates a text format to represent the texts extracted from the text mining module as strings and provides them as receipt text information;
a text parsing module extracting a purchase product list to be filled in each item of a household account book form layer from the receipt text information provided by the text formatting module;
a household account book form mapping module for mapping purchased product list information to the household account book form layer; and
and a file generation module for generating a household account book file including purchased product list information, income detail information, and user data mapped to the household account book form layer in the household account book form mapping module. A household account book service providing system using text mining.
제2항에 있어서,
상기 텍스트 포맷팅 모듈은 영수증 포맷을 분류하기 위한 인공 지능 기반의 영수증 인식 모델을 학습하고, 학습된 영수증 인식 모델에 상기 텍스트마이닝 모듈에서 처리된 영수증 텍스 정보를 입력하여 상기 영수증 텍스트 정보의 원본 영수증에 해당하는 영수증 포맷의 예측값을 출력하는 것인, 텍스트마이닝을 이용한 가계부 서비스 제공 시스템.
According to claim 2,
The text formatting module learns an artificial intelligence-based receipt recognition model for classifying receipt formats, and inputs the receipt text information processed by the text mining module to the learned receipt recognition model to correspond to the original receipt of the receipt text information A household account book service providing system using text mining, which outputs a predicted value of a receipt format that
제3항에 있어서,
상기 텍스트 포맷팅 모듈은 상품명, 단가, 수량, 금액을 포함한 노출 항목을 포함한 표현하는 방식이 서로 다른 영수증 포맷을 분류하기 위해, 영수증 포맷별 영수증 이미지-레이블 쌍의 학습 데이터셋을 수집하고, 수집된 학습 데이터셋에 대한 전처리를 수행한 후 상기 영수증 인식 모델을 학습하는 것인, 텍스트마이닝을 이용한 가계부 서비스 제공 시스템.
According to claim 3,
The text formatting module collects a learning dataset of receipt image-label pairs for each receipt format in order to classify receipt formats having different expression methods including exposure items including product name, unit price, quantity, and amount, and the collected learning data. A system for providing a household account book service using text mining, wherein the receipt recognition model is learned after performing preprocessing on a dataset.
제2항에 있어서,
상기 텍스트마이닝 모듈은,
선행 학습된 인공지능 모델을 사용하여 인식된 텍스트를 사전에 정의된 세부 지출 카테고리로 분류하는 것인, 텍스트마이닝을 이용한 가계부 서비스 제공 시스템.
According to claim 2,
The text mining module,
A household account book service providing system using text mining, which classifies recognized text into predefined detailed expenditure categories using a pre-learned artificial intelligence model.
제1항에 있어서,
상기 사용자 단말은 스마트 가계부 애플리케이션을 통해 전자영수증의 등록 기능 및 카드사 서버 또는 은행 서버로부터 전송되는 결제 관련된 문자메시지의 등록 기능을 수행하여, 결제 관련된 문자메시지와 전자영수증을 상기 가계부 파일 상에 정리되도록 하는 것인, 텍스트마이닝을 이용한 가계부 서비스 제공 시스템.
According to claim 1,
The user terminal performs a registration function of electronic receipts and a registration function of text messages related to payment transmitted from a card company server or a bank server through a smart household account book application, so that payment related text messages and electronic receipts are organized on the household account book file A household account book service providing system using text mining.
제1항에 있어서,
상기 가계부 관리 서버는,
상기 스마트 가계부 애플리케이션을 통해 영수증 이미지 등록시, 기 설정된 적립 포인트를 제공하고, 상기 사용자 단말의 조회 또는 지급 요청에 따라 적립 포인트 현황을 제공하고, 이미 설정된 지급 방식에 따라 적립 포인트를 지급하는 것인, 텍스트마이닝을 이용한 가계부 서비스 제공 시스템.
According to claim 1,
The household account book management server,
When registering a receipt image through the smart household account book application, a preset accumulation point is provided, the current status of the accumulation point is provided according to the inquiry or payment request of the user terminal, and the accumulation point is paid according to a pre-set payment method. A household account book service provision system using mining.
KR1020210134731A 2021-10-12 2021-10-12 System for providing account book service using Text Mining Pending KR20230051850A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210134731A KR20230051850A (en) 2021-10-12 2021-10-12 System for providing account book service using Text Mining

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210134731A KR20230051850A (en) 2021-10-12 2021-10-12 System for providing account book service using Text Mining

Publications (1)

Publication Number Publication Date
KR20230051850A true KR20230051850A (en) 2023-04-19

Family

ID=86142368

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210134731A Pending KR20230051850A (en) 2021-10-12 2021-10-12 System for providing account book service using Text Mining

Country Status (1)

Country Link
KR (1) KR20230051850A (en)

Similar Documents

Publication Publication Date Title
CN106104570B (en) Image document component is detected and extracted to create stream document
US7798417B2 (en) Method for data interchange
US20080212845A1 (en) Automatic form generation
US10733675B2 (en) Accuracy and speed of automatically processing records in an automated environment
US9076140B2 (en) Image embedding apparatus and method
CN111783645A (en) Character recognition method, device, electronic device and computer-readable storage medium
CN104123608B (en) A kind of method and apparatus for establishing accounting records
CN111753496B (en) Industry category identification method and device, computer equipment and readable storage medium
US20140019256A1 (en) Selecting advertisement for presentation using previously stored data corresponding to identified customer
CN111027832A (en) Tax risk determination method, apparatus and storage medium
CN107066244B (en) Method and device for generating application interface of mobile terminal
US10963687B1 (en) Automatic correlation of items and adaptation of item attributes using object recognition
Kashyap et al. Management and monitoring patterns and future scope
Zhou et al. An intelligent approach to automatically discovering visual insights
KR102690777B1 (en) System for providing account book service using OCR and method thereof
CN110363206A (en) Cluster, data processing and the data identification method of data object
Pauluzzo et al. Validating the EUCS model to measure the level of satisfaction of Internet users in local banks in Italy
CN115131803A (en) Document font size identification method, device, computer equipment and storage medium
CN119416765A (en) Method, device, equipment, storage medium and program product for generating voucher template
CN108369647B (en) Image-based quality control
CN118865420A (en) Information extraction methods
KR20230051850A (en) System for providing account book service using Text Mining
US20220067361A1 (en) Form processing and analysis system
US20250061308A1 (en) Using Machine Learning to Extract Information from Electronic Communications
CN118261130A (en) Bill layout data generation method and device, computer equipment and storage medium

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20211012

PG1501 Laying open of application