[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

KR102416998B1 - Appatus for automatically collecting and classification tax related documents and method thereof - Google Patents

Appatus for automatically collecting and classification tax related documents and method thereof Download PDF

Info

Publication number
KR102416998B1
KR102416998B1 KR1020210005433A KR20210005433A KR102416998B1 KR 102416998 B1 KR102416998 B1 KR 102416998B1 KR 1020210005433 A KR1020210005433 A KR 1020210005433A KR 20210005433 A KR20210005433 A KR 20210005433A KR 102416998 B1 KR102416998 B1 KR 102416998B1
Authority
KR
South Korea
Prior art keywords
tax
document
information
classification
documents
Prior art date
Application number
KR1020210005433A
Other languages
Korean (ko)
Inventor
우진철
정대식
박광수
강도형
고정민
Original Assignee
주식회사 파이브웍스
씨닷츠 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 파이브웍스, 씨닷츠 주식회사 filed Critical 주식회사 파이브웍스
Priority to KR1020210005433A priority Critical patent/KR102416998B1/en
Application granted granted Critical
Publication of KR102416998B1 publication Critical patent/KR102416998B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/10Tax strategies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • Technology Law (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

According to the present invention, provided are an apparatus and a method for automating collection and classification of tax-related documents, wherein the method includes: a document collection step of collecting at least one tax-related document related to a client terminal from at least one web site through web crawling; a document type classification step of classifying a type of the taxed-related document; a document information classification step of recognizing meaning for each of one or more character strings included in the tax-related document; and an account title classification step of classifying account titles for the tax-related document. The document type classification step classifies a type of the tax-related document into one specific type based on an appearance frequency of characteristic information in a plurality of character strings included in the collected tax-related document by using an artificial neural network. The present invention has an effect of greatly improving work efficiency.

Description

세무 문서 수집 및 분류 자동화 장치 및 방법{APPATUS FOR AUTOMATICALLY COLLECTING AND CLASSIFICATION TAX RELATED DOCUMENTS AND METHOD THEREOF}APPATUS FOR AUTOMATICALLY COLLECTING AND CLASSIFICATION TAX RELATED DOCUMENTS AND METHOD THEREOF

본 발명은 세무 문서 수집 및 분류 자동화 장치 및 방법에 관한 것으로서, 특히 세무법인이 세무 신고를 필요로 하는 고객사의 세무 문서를 용이하게 수집 및 분류하여 전자 문서화할 수 있는, 세무 문서 수집 및 분류 자동화 장치 및 방법에 관한 것이다.The present invention relates to a tax document collection and classification automation device and method, and in particular, a tax document collection and classification automation device that enables a tax firm to easily collect and classify customer tax documents requiring tax returns and electronically document them. and methods.

사업상 독립적으로 재화 또는 용역을 공급하는 자라면 개인사업자나 법인을 불문하고 국가에 각종 세금을 납부할 의무가 있다. 예컨대, 정기적 발생 매출과 매입의 내역을 정리하여 국세청에 부가가치세를 신고해야 하고, 법인세, 지방세, 연말정산, 종합소득세 등을 국세청에 신고해야 한다. 세금을 납부하기 위한 과정을 세무 업무라고 할 때, 세무 업무는 크게 증빙 서류 등의 문서 수집, 회계 처리, 세금 신고로 이루어진다. 그런데, 이러한 절차들은 매우 복잡하고 번거롭기 때문에 대부분의 사업자들은 세무 대리인 등 외부 전문가에게 비용을 지불하고 세무 업무 대행을 의뢰하고 있다.A person who independently supplies goods or services for business is obliged to pay various taxes to the state regardless of whether he is a sole proprietor or a corporation. For example, it is necessary to organize the details of regular sales and purchases to report value-added tax to the National Tax Service, and to report corporate tax, local tax, year-end settlement, and global income tax to the National Tax Service. When the process for paying tax is called tax work, tax work is largely composed of document collection such as supporting documents, accounting, and tax return. However, since these procedures are very complicated and cumbersome, most business operators pay a fee to an external expert such as a tax agent and commission a tax service agent.

이중, 증빙 서류, 예컨대 세금 계산서 등의 영수증, 신용카드 매출 전표, 현금 영수증, 거래 명세서 등은 사업 주체가 소지하는 경우가 많기 때문에, 세무 대리인은 고객사로부터 증빙 서류를 빠짐없이 명확하게 수집하는 일이 중요하다. 하지만, 이는 단순 반복적이고 굉장히 번거로운 일이기도 하다. 예컨대, 세무 대리인은 고객사의 회계 담당자에게 이메일로 증빙 서류의 송부를 요청하고 증빙 자료를 이메일로 수신하는데, 이와 같은 수집 방식은 증빙 서류의 분실이나 누락을 가져올 수 있고 또 이러한 수집 방식은 세무 대리인에게 비효율적이다. 또한, 고객사마다 세무 대리인에게 전달되는 증빙 자료는 그 양이 방대한데, 특히, 세금 신고 기간에 고객사로부터 업무 의뢰가 몰려 들어오기 때문에, 세무 대리인은 단시간 안에 증빙 서류를 수집해야 한다.Of these, supporting documents, such as receipts such as tax invoices, credit card sales slips, cash receipts, and transaction statements, are often in the possession of business entities, so it is difficult for a tax agent to clearly collect all supporting documents from customers. It is important. However, this is simply repetitive and very cumbersome. For example, the tax agent requests the customer's accountant to send the supporting documents by e-mail and receives the supporting data by e-mail. Inefficient. In addition, the amount of evidence delivered to the tax agent for each client company is huge. In particular, the tax agent needs to collect the supporting documents within a short period of time because business requests from clients come in during the tax filing period.

그러나, 현재는 증빙 자료를 자동으로 수집하거나, 수집된 증빙 자료를 관리하는 프로그램 등 업무 툴이 없기 때문에, 담당자의 숙련도나 역량에만 의존하는 실정이다.However, since there are currently no work tools such as a program for automatically collecting evidence data or managing the collected evidence data, it is dependent only on the skill or competency of the person in charge.

뿐만 아니라, 증빙 서류를 수집한 이후에는 회계 처리를 위한 분류 작업을 수행해야 하는데, 이러한 회계 처리 업무 역시 매우 노동 집약적이며 번거롭다. 실제로 세무 신고를 위해 수행해야 하는 업무에 많은 시간과 인력이 투입되어야 하며, 현재 대부분의 세무 법인은 비 효율적인 업무 처리로 어려움을 겪고 있다.
선행기술문헌: 공개번호 10-2020-0043603호(2020년 4월 28일)
In addition, after collecting the supporting documents, it is necessary to perform a classification task for accounting, which is also very labor-intensive and cumbersome. In fact, a lot of time and manpower must be invested in the work that needs to be done for tax filing, and most tax corporations are currently suffering from inefficient business processing.
Prior art literature: Publication No. 10-2020-0043603 (April 28, 2020)

본 발명은 상술한 문제점을 해결하기 위해 창작된 것으로서, 본 발명의 목적은, 세무 법인이 고객사로부터 세금 신고를 위한 각종 세무 문서를 자동으로 수집할 수 있고, 수집된 세무 문서의 유형을 분류하고(예컨대 신용카드 전표), 해당 세무 문서에 포함된 정보를 분류(예컨대, 가맹점명, 주소, 구매금액)하며, 해당 세무 문서의 계정 과목을 분류(예컨대, 복리후생비)하는 일련의 과정을 인공 지능을 이용하여 자동적으로 수행하는 세무 문서 수집 및 분류 자동화 방법 및 장치를 제공하는 것이다.The present invention was created to solve the above problems, and an object of the present invention is to enable a tax corporation to automatically collect various tax documents for tax returns from customers, to classify the types of collected tax documents ( For example, using artificial intelligence to classify information included in the tax document (eg, merchant name, address, purchase amount), and to classify the account subject of the tax document (eg, welfare benefits) It is to provide a method and device for automatically collecting and classifying tax documents.

상술한 과제를 해결하기 위한 본 발명의 일 실시예에 따른 세무 문서 수집 및 분류 자동화 방법은, 웹 크롤링에 의해 적어도 하나의 웹 사이트로부터 클라이언트 단말에 관련된 적어도 하나의 세무 문서를 수집하는 문서 수집 단계; 상기 세무 문서의 유형을 분류하는 문서 유형 분류 단계; 상기 세무 문서에 포함된 적어도 하나의 문자열 각각에 대하여 의미를 파악하는 문서 정보 분류 단계; 및 상기 세무 문서에 대하여 계정 과목을 분류하는 계정 과목 분류 단계;를 포함하고, 상기 문서 유형 분류 단계는 인공신경망을 이용하여 상기 수집된 세무 문서에 포함된 복수의 문자열 중 특징 정보의 출현 빈도에 근거하여 해당 세무 문서의 유형을 특정한 하나의 유형으로 분류한다.A tax document collection and classification automation method according to an embodiment of the present invention for solving the above-described problems includes: a document collecting step of collecting at least one tax document related to a client terminal from at least one web site by web crawling; a document type classification step of classifying the type of the tax document; a document information classification step of identifying a meaning of each of the at least one character string included in the tax document; and an account subject classification step of classifying an account subject with respect to the tax document, wherein the document type classification step is based on an appearance frequency of characteristic information among a plurality of character strings included in the collected tax document using an artificial neural network. This classifies the type of tax document into one specific type.

또한, 상기 문서 수집 단계는, 상기 클라이언트 단말에 대하여 필요한 적어도 하나의 세무 문서의 송부를 요청하는 단계 및 상기 클라이언트 단말로부터 세무 문서를 수신하는 단계를 더 포함하고, 상기 세무 문서를 요청하는 단계는 세무법인 단말의 명령에 의해 비정기적으로 수행될 수 있다. In addition, the step of collecting the document further includes the steps of requesting the client terminal to send at least one necessary tax document and receiving the tax document from the client terminal, wherein the requesting the tax document includes: It may be performed irregularly by the command of the corporate terminal.

또한, 상기 세무 문서를 수신하는 단계 이후에, 광학 문자 인식을 통해 상기 세무 문서에 포함된 복수의 문자열을 추출하는 단계를 더 포함할 수 있다. In addition, after receiving the tax document, the method may further include extracting a plurality of character strings included in the tax document through optical character recognition.

또한, 상기 문서 유형 분류 단계 이전에, 복수의 문자열들과 상기 문자열에 대응하는 세무 문서의 유형을 설정하여 학습 데이터를 생성하는 단계; 및 상기 학습 데이터를 이용하여 인공신경망(ANN)을 학습시키는 단계;를 수행하고, 상기 학습 데이터를 생성하는 단계는 하나의 세무 문서를 다른 유형의 세무 문서와 구분할 수 있는 특징 정보들이 세무 문서 유형마다 수록된 특징 정보 세트를 미리 정의하는 단계를 포함할 수 있다.In addition, before the document type classification step, generating learning data by setting a plurality of character strings and a tax document type corresponding to the character string; and learning an artificial neural network (ANN) using the learning data; and generating the learning data includes characteristic information that can distinguish one tax document from another type of tax document for each tax document type. It may include the step of pre-defining the included feature information set.

또한, 상기 문서 정보 분류 단계는, 상기 세무 문서에 포함된 복수의 문자열 각각을 미리 정의된 세무 문서별 필수 구성항목들 중 하나로 매칭하는 단계를 포함할 수 있다. In addition, the step of classifying the document information may include matching each of the plurality of character strings included in the tax document to one of predefined essential components for each tax document.

또한, 상기 문서 정보 분류 단계는, 자연어 처리 기술을 이용하여 상기 문자열의 언어적 특성에 기초하여 해당 문자열의 의미를 상기 필수 구성항목들 중 하나로 매칭하는 단계를 포함할 수 있다. In addition, the step of classifying the document information may include matching the meaning of the text string to one of the essential constituent items based on the linguistic characteristics of the text string using natural language processing technology.

또한, 상기 문서 정보 분류 단계는, 이미지 처리 기술을 이용하여 상기 문자열의 위치적 특성에 기초하여 해당 문자열의 의미를 상기 필수 구성항목들 중 하나로 매칭하는 단계를 더 포함할 수 있다. In addition, the step of classifying the document information may further include matching the meaning of the text string to one of the essential constituent items based on the positional characteristics of the text string using image processing technology.

또한, 상기 문서 정보 분류 단계 이후에, 상기 세무 문서에 누락된 필수 구성항목이 존재하는지 여부를 판단하는 정보 누락 여부 판단 단계; 및 누락된 항목이 존재하는 경우, 상기 세무법인 단말에 대하여 정보의 입력을 요청하는 단계;를 더 포함하고, 상기 정보 누락 여부 판단 단계는, 상기 복수의 문자열 각각에 매칭된 필수 구성항목을 사전에 지정되어 있는 필수 구성항목과 비교하여 정보의 누락 여부를 확인할 수 있다. In addition, after the document information classification step, the information omission determination step of determining whether there are essential components missing in the tax document; And when there is a missing item, the step of requesting the input of information to the terminal of the tax firm; further comprising, wherein the determining whether the information is missing, essential configuration items matched to each of the plurality of character strings in advance It is possible to check whether information is omitted by comparing it with the specified required configuration items.

또한, 상기 세무 문서를 수신하는 단계 이후에, 상기 수신된 적어도 하나의 세무 문서를 상기 요청한 세무 문서와 비교하여 세무 문서의 수신 누락 여부를 판단하는 문서 누락 여부 판단 단계를 더 포함하고, 누락된 세무 문서가 존재할 경우, 상기 세무법인 단말의 지시에 의해, 상기 누락된 세무 문서의 송부 요청 메시지를 상기 세무법인 단말에 미리 설치된 메신저 프로그램을 통해 상기 클라이언트 단말에 전송할 수 있다. In addition, after the step of receiving the tax document, the method further comprises a document omission determination step of comparing the received at least one tax document with the requested tax document to determine whether the receipt of the tax document is omitted, If there is a document, the request message for sending the missing tax document may be transmitted to the client terminal through a messenger program pre-installed in the tax office terminal by the instruction of the tax office terminal.

또한, 상기 계정 과목을 분류하는 단계는, 수신된 세무 문서를 수익 또는 비용 중 하나로 목적 구분하는 단계; 및 각 세무 문서의 필수 구성항목 정보에 기초하여 수익 계정의 세무 문서는 매출액 또는 영업외수익 중 하나의 계정 과목으로 분류하고, 비용 계정의 세무 문서는 매출원가, 판관비 또는 법인세비용 중 하나의 계정 과목으로 분류하는 단계;를 포함할 수 있다. In addition, the step of classifying the account subject, the step of classifying the purpose of the received tax document into one of revenue or expense; And, based on the required component information of each tax document, the tax documents of the income account are classified into one of the accounts of sales or non-operating income, and the tax documents of the expense account are classified as one of the accounts of cost of goods sold, SG&A expenses, or corporate tax expenses. classifying; may include.

또한, 세금 계산서의 경우, 상기 목적 구분하는 단계는, 클라이언트 정보 및 세금 계산서 필수 구성항목 중 공급자 및 공급받는자 정보에 기초하여 수익 또는 비용 계정으로 구분하고, 상기 계정 과목으로 분류하는 단계는, 세금 계산서 필수 구성항목 중, 공급자 정보 또는 공급받는자 정보, 거래 일자, 거래물품명 중 적어도 하나의 정보에 기초하여 계정 과목을 분류할 수 있다. In addition, in the case of a tax invoice, the step of classifying the purpose includes dividing the income or expense accounts into revenue or expense accounts based on the client information and the supplier and recipient information among the required components of the tax invoice, and the step of classifying into the account subjects is, Account subjects may be classified based on at least one of supplier information or supplier information, transaction date, and transaction item name among the required components of the invoice.

또한, 카드 거래 내역서의 경우, 상기 목적은 비용 계정으로 구분하고, 상기 계정 과목으로 분류하는 단계는, 카드 거래 내역서의 필수 구성항목 중 거래 일시, 가맹점명 중 적어도 하나의 정보에 기초하여 계정 과목을 분류할 수 있다. In addition, in the case of the card transaction statement, the purpose is to classify the expense account, and the step of classifying the account item is based on at least one of the transaction date and time and the merchant name among the essential components of the card transaction statement. can do.

또한, 현금 영수증의 경우, 상기 계정 과목으로 분류하는 단계는, 현금 영수증의 필수 구성항목 중 거래일시, 거래 물품명, 상호 중 적어도 하나의 정보에 기초하여 계정 과목을 분류할 수 있다. In addition, in the case of the cash receipt, the step of classifying it into the account subject may include classifying the account subject based on at least one information of a transaction date and time, a transaction item name, and a trade name among essential constituent items of the cash receipt.

한편, 상술한 과제를 해결하기 위한 본 발명의 일 실시예에 따른 세무 문서 수집 및 분류 자동화 장치는, 웹 크롤링에 의해 적어도 하나의 웹 사이트로부터 클라이언트 단말에 관련된 적어도 하나의 세무 문서를 수집하는 웹 크롤링 수행부를 포함하는 세무 문서 수집부; 상기 세무 문서의 유형을 분류하는 문서 유형 분류부, 상기 세무 문서에 포함된 적어도 하나의 문자열 각각에 대하여 의미를 파악하는 문서 정보 분류부 및 상기 세무 문서에 대하여 계정 과목을 분류하는 계정 과목 분류부를 포함하는 전자 세무 문서 변환부;를 포함하고, 상기 문서 유형 분류부는 인공신경망을 이용하여 상기 수집된 세무 문서에 포함된 복수의 문자열 중 특징 정보의 출현 빈도에 근거하여 해당 세무 문서의 유형을 특정한 하나의 유형으로 분류한다.On the other hand, the tax document collection and classification automation apparatus according to an embodiment of the present invention for solving the above-described problems is a web crawling that collects at least one tax document related to a client terminal from at least one web site by web crawling. a tax document collection unit including an execution unit; A document type classification unit for classifying the type of the tax document, a document information classification unit for understanding the meaning of each of the at least one character string included in the tax document, and an account subject classification unit for classifying account subjects with respect to the tax document and an electronic tax document conversion unit, wherein the document type classification unit uses an artificial neural network to specify the type of the tax document based on the frequency of appearance of characteristic information among a plurality of character strings included in the collected tax document. classified by type.

또한, 상기 세무 문서 수집부는, 상기 클라이언트 단말에 대하여 필요한 적어도 하나의 세무 문서의 송부를 요청하고, 상기 클라이언트 단말로부터 세무 문서를 수신하는 문서 요청/수신부를 더 포함하고, 상기 문서 요청/수신부는 세무법인 단말의 명령에 의해 비정기적으로 상기 세무 문서를 요청할 수 있다.In addition, the tax document collection unit further comprises a document requesting/receiving unit for requesting the client terminal to send at least one required tax document and receiving the tax document from the client terminal, wherein the document requesting/receiving unit The tax document may be requested irregularly by the command of the corporate terminal.

또한, 상기 전자 세무 문서 변환부는, 하나의 세무 문서를 다른 유형의 세무 문서와 구분할 수 있는 특징 정보들이 세무 문서 유형마다 수록된 특징 정보 세트를 미리 정의하고, 각종 세무 관련 문서에 포함된 문자열을 입력값으로 하여 자연어 처리 모델을 학습시키는 인공지능 의사결정부를 더 포함하고, 상기 전자 세무 문서 변환부는, 하나의 세무 문서를 다른 유형의 세무 문서와 구분할 수 있는 특징 정보들이 세무 문서 유형마다 수록된 특징 정보 세트가 미리 정의된 특징 정보 저장부를 더 포함할 수 있다.In addition, the electronic tax document conversion unit pre-defines a characteristic information set in which characteristic information for distinguishing one tax document from another type of tax document is included for each tax document type, and sets a string included in various tax-related documents as an input value further comprising an artificial intelligence decision-making unit for learning a natural language processing model as It may further include a predefined characteristic information storage unit.

또한, 상기 문서 정보 분류부는 상기 세무 문서에 포함된 복수의 문자열 각각을 미리 정의된 세무 문서별 필수 구성항목들 중 하나로 매칭할 수 있다.In addition, the document information classification unit may match each of the plurality of character strings included in the tax document to one of pre-defined essential components for each tax document.

또한, 상기 문서 정보 분류부는, 자연어 처리 기술을 이용하여 상기 문자열의 언어적 특성에 기초하여 해당 문자열의 의미를 상기 필수 구성항목들 중 하나로 매칭할 수 있다.In addition, the document information classification unit may match the meaning of the character string to one of the essential constituent items based on the linguistic characteristics of the character string using natural language processing technology.

또한, 상기 문서 정보 분류부는, 이미지 처리 기술을 이용하여 상기 문자열의 위치적 특성에 기초하여 해당 문자열의 의미를 상기 필수 구성항목들 중 하나로 매칭할 수 있다.In addition, the document information classification unit may match the meaning of the character string to one of the essential constituent items based on the positional characteristic of the character string using an image processing technology.

또한, 상기 세무 문서에 누락된 필수 구성항목이 존재하는지 여부를 판단하는 정보 누락 판단부를 더 포함하고, 상기 정보 누락 판단부는, 상기 복수의 문자열 각각에 매칭된 필수 구성항목을 사전에 지정되어 있는 필수 구성항목과 비교하여 정보의 누락 여부를 확인하며, 누락된 항목이 존재하는 경우, 상기 세무법인 단말에 대하여 정보의 입력을 요청할 수 있다.In addition, the tax document further includes an information omission determination unit for determining whether essential components are missing in the tax document, wherein the information omission determination unit is configured to pre-specify essential components matched to each of the plurality of character strings. It is checked whether information is omitted by comparing it with the constituent items, and when the missing items exist, it is possible to request input of information from the terminal of the tax firm.

또한, 상기 수신된 적어도 하나의 세무 문서를 상기 요청한 세무 문서와 비교하여 세무 문서의 수신 누락 여부를 판단하는 문서 누락 판단부를 더 포함하고, 문서 누락 판단부는, 누락된 세무 문서가 존재할 경우, 상기 세무법인 단말의 지시에 의해, 상기 누락된 세무 문서의 송부 요청 메시지를 상기 세무법인 단말에 미리 설치된 메신저 프로그램을 통해 상기 클라이언트 단말에 전송할 수 있다.In addition, the method further includes a document omission determining unit that compares the received at least one tax document with the requested tax document to determine whether a tax document is received or not, wherein the document omission determining unit is configured to: According to the instruction of the corporate terminal, a message requesting transmission of the missing tax document may be transmitted to the client terminal through a messenger program pre-installed in the tax corporation terminal.

또한, 상기 계정 과목 분류부는, 수신된 세무 문서를 수익 또는 비용 중 하나로 목적 구분하고, 각 세무 문서의 필수 구성항목 정보에 기초하여 수익 계정의 세무 문서는 매출액 또는 영업외수익 중 하나의 계정 과목으로 분류하고, 비용 계정의 세무 문서는 매출원가, 판관비 또는 법인세비용 중 하나의 계정 과목으로 분류할 수 있다.In addition, the account subject classification unit divides the received tax document into one of revenue or expense, and based on the required component information of each tax document, the tax document of the income account is classified as one of the sales and non-operating income The tax documents of the expense account can be classified as one of the account items of cost of goods sold, SG&A expense, or corporate tax expense.

또한, 세금 계산서의 경우, 클라이언트 정보 및 세금 계산서 필수 구성항목 중 공급자 및 공급받는자 정보에 기초하여 수익 또는 비용 계정으로 목적 구분하고, 세금 계산서 필수 구성항목 중, 공급자 정보 또는 공급받는자 정보, 거래 일자, 거래물품명 중 적어도 하나의 정보에 기초하여 계정 과목을 분류할 수 있다.In addition, in the case of a tax invoice, the purpose is divided into revenue or expense accounts based on the supplier and recipient information among the client information and the required components of the tax invoice, and among the required components of the tax invoice, supplier information or supplier information, transaction Account subjects may be classified based on at least one of a date and a transaction item name.

또한, 카드 거래 내역서는 비용 계정으로 목적 구분하고, 카드 거래 내역서의 필수 구성항목 중 거래 일시, 가맹점명 중 적어도 하나의 정보에 기초하여 계정 과목을 분류할 수 있다. In addition, the purpose of the card transaction statement may be divided into expense accounts, and the account subject may be classified based on at least one information of a transaction date and merchant name among essential constituent items of the card transaction statement.

또한, 현금 영수증의 경우, 현금 영수증의 필수 구성항목 중 거래일시, 거래 물품명, 상호 중 적어도 하나의 정보에 기초하여 계정 과목을 분류할 수 있다.In addition, in the case of the cash receipt, the account subject may be classified based on at least one information of a transaction date and time, a transaction item name, and a trade name among essential constituent items of the cash receipt.

본 발명의 일 실시예에 따르면, 클라이언트 단말과 관련된 세금 문서를 수집하는 과정은, 웹 크롤링을 통해 정기적 수집 방법을 기본적으로 수행하고, 세무법인 단말이 세무 문서의 송부를 요청하고 그에 따라 클라이언트 단말로부터 세무 문서를 수신하여 수집하는 비정기적 수집 방법을 병행한다. 이러한 방식을 채택함으로써, 웹 크롤링의 정기적 수집을 통해 세무 문서의 수집 업무를 자동화하고, 더 나아가 정기적 수집 방식에서 수반되는 세무 문서의 누락 문제를 비정기적 수집으로 보완할 수 있다. 이에 따라 세무법인 단말로 하여금 세금 신고시 필요한 문서를 빠뜨림없이 수월하게 수집할 수 있도록 하는 이점을 제공한다.According to an embodiment of the present invention, the process of collecting tax documents related to the client terminal basically performs a regular collection method through web crawling, the tax firm terminal requests the transmission of tax documents, and accordingly, from the client terminal In parallel with the irregular collection method of receiving and collecting tax documents. By adopting this method, it is possible to automate the collection of tax documents through regular collection of web crawling, and furthermore, the problem of omission of tax documents accompanying the regular collection method can be supplemented with irregular collection. Accordingly, it provides the advantage of enabling the terminal of a tax firm to easily collect documents necessary for tax filing.

한편, 수집된 세무 문서에 대하여 문서의 유형을 분류하고, 문서에 포함된 정보를 분류하며, 문서의 계정 과목을 부여하는 일련의 과정을 인공 지능을 이용하여 자동적으로 수행함으로써, 종래에 인간의 노동으로 세무 문서를 분류하는 방식과 비교하여, 업무의 효율을 대폭적으로 향상시키는 효과가 있다.On the other hand, by using artificial intelligence to automatically perform a series of processes of classifying document types, classifying information contained in documents, and assigning account subjects to the collected tax documents using artificial intelligence, conventional human labor Compared to the method of classifying tax documents with this method, it has the effect of significantly improving work efficiency.

한편, 세무 법인 단말에서 요청한 세무 서류들과 클라이언트로부터 수신된 세무 문서를 비교하여, 수신이 누락된 서류를 세무법인 단말 상에 디스플레이 함으로써 세무법인 단말이 문서 수집 현황 파악을 용이하게 하는 장점이 있다. 또한, 누락된 서류가 존재할 경우 세무법인 단말의 명령 하에 누락된 세무 문서의 송부 요청 메시지를 세무법인 단말에 미리 설치된 메신저 프로그램을 통해 클라이언트 단말에 쉽게 전송할 수 있다. 이에 따라, 종래에 세금 신고를 위해 필요한 구비 서류들이 고객으로부터 수신되는 상황을 시시각각 파악하고, 서류 누락이 발견될 경우 이메일 등으로 고객에게 개별적으로 연락하여 문서 송부를 요청한 후, 추가로 수신된 서류에 대해서는 다시 위 일련의 작업을 반복했던 업무 방식에 따른 스트레스와 업무 부담을 대폭 줄일 수 있는 이점이 있다.On the other hand, there is an advantage of facilitating the identification of the document collection status by the tax firm terminal by comparing the tax documents requested from the tax office terminal with the tax documents received from the client and displaying the missing documents on the tax firm terminal. In addition, when there are missing documents, a message requesting transmission of the missing tax documents under the command of the tax office terminal can be easily transmitted to the client terminal through a messenger program pre-installed in the tax office terminal. Accordingly, the situation in which documents required for tax filing are received from customers in the prior art, and if documents are found missing, contact the customer individually by e-mail, etc. There is an advantage in that it can greatly reduce the stress and work load caused by the work method in which the above series of tasks are repeated again.

도 1은 본 발명의 일 실시예에 따른 세무 문서 수집 및 분류 자동화 장치를 포함하는 네트워크 구성도이다. 
도 2는 본 발명의 일 실시예에 따른 세무 문서 수집 및 분류 자동화 장치의 구성을 개략적으로 도시한 블록도이다.
도 3a는 본 발명의 일 실시예에 따른 세무 문서 수집 자동화 방법을 순차로 도시한 플로우 차트이다.
도 3b은 본 발명의 일 실시예에 따른 세무 문서 수집 자동화 방법을 도시한 흐름도이다.
도 4a는 본 발명의 일 실시예에 따른 클라이언트 단말에 세무 문서 송부의 요청에 의한 세무 문서의 비정기적 수집 방법을 도시한 흐름도이다.
도 4b는 본 발명의 또 다른 실시예에 따른 클라이언트 단말에 세무 문서 송부의 요청에 의한 세무 문서의 비정기적 수집 방법을 도시한 흐름도이다.
도 5a는 세무 문서의 일 유형으로서 영수증의 이미지를 예시적으로 나타낸 사진이다.
도 5b는 광학 문자 인식을 통해 도 5a의 영수증 이미지로부터 텍스트를 추출한 결과를 예시적으로 나타낸다.
도 6a는 세무 문서의 일 유형으로서 영수증의 문서 양식을 예시적으로 나타낸 그림이다.
도 6b는 도 5b의 텍스트를 도 6a의 문서 양식 내의 필드에 기입하여 생성한 영수증 전자 문서를 예시적으로 나타낸 그림이다.
도 6c는 세무 문서의 일 유형으로서 세금 계산서의 문서 양식을 예시적으로 나타낸 그림이다.
도 7은 문서 누락 판단부에서 누락 판단 결과가 세무법인 단말의 모니터에 시각화된 예시를 나타낸다.
1 is a network configuration diagram including a tax document collection and classification automation apparatus according to an embodiment of the present invention.
2 is a block diagram schematically illustrating the configuration of an apparatus for collecting and classifying tax documents for automation according to an embodiment of the present invention.
Figure 3a is a flow chart sequentially illustrating a tax document collection automation method according to an embodiment of the present invention.
Figure 3b is a flowchart illustrating a tax document collection automation method according to an embodiment of the present invention.
4A is a flowchart illustrating a method for irregularly collecting tax documents in response to a request for sending tax documents to a client terminal according to an embodiment of the present invention.
4B is a flowchart illustrating a method for irregularly collecting tax documents in response to a request for sending tax documents to a client terminal according to another embodiment of the present invention.
5A is a photograph illustrating an image of a receipt as one type of tax document.
5B exemplarily shows a result of extracting text from the receipt image of FIG. 5A through optical character recognition.
6A is a diagram exemplarily showing a document form of a receipt as one type of tax document.
FIG. 6B is an exemplary diagram illustrating an electronic receipt document generated by filling in the text of FIG. 5B into a field in the document form of FIG. 6A .
6C is a diagram exemplarily illustrating a document form of a tax invoice as one type of tax document.
7 shows an example in which the omission determination result in the document omission determination unit is visualized on the monitor of the tax firm terminal.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하기로 한다. 본 발명의 실시예들은 당해 기술 분야에서 통상의 지식을 가진 자에게 본 발명을 더욱 완전하게 설명하기 위하여 제공되는 것이며, 하기 실시예는 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 하기 실시예에 한정되는 것은 아니다. 오히려, 이들 실시예는 본 개시를 더욱 충실하고 완전하게 하고, 당업자에게 본 발명의 사상을 완전하게 전달하기 위하여 제공되는 것이다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. Examples of the present invention are provided to more completely explain the present invention to those of ordinary skill in the art, and the following examples may be modified in various other forms, and the scope of the present invention is as follows It is not limited to an Example. Rather, these examples are provided so that this disclosure will be more thorough and complete, and will fully convey the spirit of the invention to those skilled in the art.

또한, 이하의 도면에서 각 층의 두께나 크기는 설명의 편의 및 명확성을 위하여 과장된 것이며, 도면 상에서 동일 부호는 동일한 요소를 지칭한다. 본 명세서에서 사용된 바와 같이, 용어 "및/또는"은 해당 열거된 항목 중 어느 하나 및 하나 이상의 모든 조합을 포함한다. 또한, 본 명세서에서 "연결된다"라는 의미는 A 부재와 B 부재가 직접 연결되는 경우뿐 아니라, A 부재와 B 부재의 사이에 C 부재가 개재되어 A 부재와 B 부재가 간접 연결되는 경우도 의미한다. 본 명세서에서 사용된 용어는 특정 실시예를 설명하기 위하여 사용되며, 본 발명을 제한하기 위한 것이 아니다. 본 명세서에서 사용된 바와 같이, 단수 형태는 문맥상 다른 경우를 분명히 지적하는 것이 아니라면, 복수의 형태를 포함할 수 있다. 또한, 본 명세서에서 사용되는 경우 "포함한다(comprise, include)" 및/또는 "포함하는(comprising, including)"은 언급한 형상들, 숫자, 단계, 동작, 부재, 요소 및/또는 이들 그룹의 존재를 특정하는 것이며, 하나 이상의 다른 형상, 숫자, 동작, 부재, 요소 및/또는 그룹들의 존재 또는 부가를 배제하는 것이 아니다.In addition, in the following drawings, the thickness or size of each layer is exaggerated for convenience and clarity of description, and the same reference numerals refer to the same elements in the drawings. As used herein, the term “and/or” includes any one and all combinations of one or more of those listed items. In addition, in the present specification, "connected" means not only when member A and member B are directly connected, but also when member A and member B are indirectly connected by interposing member C between member A and member B. do. The terminology used herein is used to describe specific embodiments, not to limit the present invention. As used herein, the singular form may include the plural form unless the context clearly dictates otherwise. Also, as used herein, “comprise, include” and/or “comprising, including” refer to the referenced shapes, numbers, steps, actions, members, elements, and/or groups thereof. It specifies the presence and does not preclude the presence or addition of one or more other shapes, numbers, movements, members, elements and/or groups.

본 명세서에서 제1, 제2 등의 용어가 다양한 부재, 부품, 영역, 층들 및/또는 부분들을 설명하기 위하여 사용되지만, 이들 부재, 부품, 영역, 층들 및/또는 부분들은 이들 용어에 의해 한정되어서는 안 됨은 자명하다. 이들 용어는 하나의 부재, 부품, 영역, 층 또는 부분을 다른 영역, 층 또는 부분과 구별하기 위하여만 사용된다. 따라서, 이하 상술할 제1부재, 부품, 영역, 층 또는 부분은 본 발명의 가르침으로부터 벗어나지 않고서도 제2부재, 부품, 영역, 층 또는 부분을 지칭할 수 있다.Although the terms first, second, etc. are used herein to describe various members, parts, regions, layers and/or parts, these members, parts, regions, layers, and/or parts are limited by these terms so that they It is self-evident that These terms are used only to distinguish one member, component, region, layer or portion from another region, layer or portion. Accordingly, a first member, component, region, layer or portion discussed below may refer to a second member, component, region, layer or portion without departing from the teachings of the present invention.

"하부(beneath)", "아래(below)", "낮은(lower)", "상부(above)", "위(upper)"와 같은 공간에 관련된 용어가 도면에 도시된 한 요소 또는 특징과 다른 요소 또는 특징의 용이한 이해를 위해 이용될 수 있다. 이러한 공간에 관련된 용어는 본 발명의 다양한 공정 상태 또는 사용 상태에 따라 본 발명의 용이한 이해를 위한 것이며, 본발명을 한정하기 위한 것은 아니다. 예를 들어, 도면의 요소 또는 특징이 뒤집어지면, "하부" 또는 "아래"로 설명된 요소 또는 특징은 "상부" 또는 "위에"로 된다. 따라서, "아래"는 "상부" 또는 "아래"를 포괄하는 개념이다.Space-related terms such as “beneath”, “below”, “lower”, “above”, and “upper” refer to an element or feature shown in the drawing It may be used to facilitate understanding of other elements or features. These space-related terms are for easy understanding of the present invention according to various process conditions or usage conditions of the present invention, and are not intended to limit the present invention. For example, if an element or feature in a figure is turned over, an element or feature described as "below" or "below" becomes "above" or "above". Accordingly, "below" is a concept encompassing "above" or "below".

도 1은 본 발명의 일 실시예에 따른 세무 문서 수집 자동화 장치를 포함하는 네트워크 구성도이다.1 is a network configuration diagram including a tax document collection automation device according to an embodiment of the present invention.

세무법인 단말은 세무 신고 등을 대행하는 세무 대리인측 단말이고, 클라이언트 단말은 세금 신고 의무를 지는 개인 사업자나 법인 등의 단말을 가리킨다. 본 발명에 따른 세무 문서 수집 및 분류 자동화 장치 및 방법의 사용자는 세무법인 단말로서, 세무법인은 세무 문서 수집 및 분류 자동화 방법이 포함된 프로그램을 세무법인 단말에 설치할 수 있다. 본 발명의 장치 및 방법은 세무법인 단말에 대하여 클라이언트의 세무 문서 등을 온라인 상에서 수집, 분류, 저장, 분석 및 관리할 수 있는 작업 툴을 제공한다. 본 발명의 장치(100)는 유무선 통신망을 통해 서버와 통신한다. The terminal for a tax firm is a terminal for a tax agent acting on behalf of a tax return, and a client terminal refers to a terminal of a sole proprietor or corporation that is obligated to file a tax return. The user of the tax document collection and classification automation apparatus and method according to the present invention is a terminal for a tax firm, and the tax firm may install a program including the method for automating the collection and classification of tax documents in the tax firm terminal. The apparatus and method of the present invention provide a work tool that can collect, classify, store, analyze and manage the tax documents of the client on-line with respect to the terminal of the tax firm. The device 100 of the present invention communicates with a server through a wired/wireless communication network.

한편, 클라이언트 단말과 세무법인 단말은 유무선 통신망을 통해 연결된다. 이러한 유무선 통신망은 무선 이동통신망 또는 유선 네트워크 통신망으로 구현될 수 있다. 예를 들어, 클라이언트 단말과 세무법인 단말은 상호 간에 기지국(BTS;Base Transceiver Station) 및 이동교환국(MSC;Mobile Switching Center)으로 이루어진 3세대(3G;3Generation), 4G(4G;4Generation) 등의 무선 이동통신망을 이용하여 세무 문서 등 관련 정보들을 송수신할 수 있다. 또는 유선 네트워크 통신망으로 구현될 수 있는데 TCP/IP(Transmission Control Protocol/Internet Protocol) 등의 인터넷 프로토콜에 따라서 인터넷 통신망을 통하여 관련 정보들을 송수신할 수 있다.Meanwhile, the client terminal and the tax office terminal are connected through a wired/wireless communication network. Such a wired/wireless communication network may be implemented as a wireless mobile communication network or a wired network communication network. For example, the client terminal and the terminal of the tax firm are mutually composed of a base transceiver station (BTS) and a mobile switching center (MSC). It is possible to transmit and receive related information such as tax documents using a mobile communication network. Alternatively, it may be implemented as a wired network communication network, and related information may be transmitted/received through the Internet communication network according to an Internet protocol such as Transmission Control Protocol/Internet Protocol (TCP/IP).

한편, 세무법인 단말과 클라이언트 단말은 본 발명의 장치(100)와 별도의 메신저 프로그램, 예컨대, 카카오톡 채널을 통해 통신한다. 세무법인 단말은 메신저 프로그램을 통해 클라이언트 단말에 정보 요청 메시지를 발송하거나, 클라이언트 단말로부터 소정의 증빙 서류를 송부받을 수 있다.Meanwhile, the tax office terminal and the client terminal communicate with the device 100 of the present invention through a separate messenger program, for example, a KakaoTalk channel. The tax firm terminal may send an information request message to the client terminal through a messenger program, or may receive a predetermined documentary evidence from the client terminal.

즉, 세무법인은 본 발명의 자동화 장치 및 방법이 제공하는 서비스를 이용하여 클라이언트에 관련된 세무 문서의 수집, 분석 및 분류 등 회계 처리 업무를 수행하고, 상기 업무 수행 과정에서 클라이언트와 정보 교환이 필요한 경우에는 메신저를 이용한다. 클라이언트 단말은 본 발명의 자동화 장치 및 방법에 접근하지 않은 채 메신저를 통해 세무법인과 소통하고, 세무법인 측은 메신저로 수신한 각종 정보 및 서류 일체를 본 발명의 자동화 장치 및 자동화 방법을 이용하여 관리한다.That is, the tax firm performs accounting processing tasks such as collection, analysis, and classification of tax documents related to clients using the services provided by the automated device and method of the present invention, and when information exchange with the client is required in the process of performing the tasks uses messenger. The client terminal communicates with the tax firm through a messenger without accessing the automated device and method of the present invention, and the tax firm manages all of the various information and documents received through the messenger using the automated device and automated method of the present invention .

도 3a는 본 발명의 일 실시예에 따른 세무 문서 수집 자동화 방법을 순차로 도시한 플로우 차트이고, 도 3b는 본 발명의 일 실시예에 따른 세무 문서 수집 및 분류 자동화 방법을 도시한 흐름도이다. 또, 도 4a 및 도 4b는 본 발명의 일 실시예에 따른 세무 문서 송부의 요청에 의한 세무 문서의 비정기적 수집 방법을 도시한 흐름도이다. 이들 도면을 참조하여, 본 발명의 일 실시예에 따른 세무 문서 수집 및 분류 자동화 방법에 대하여 설명한다. 3A is a flowchart sequentially illustrating a method for automating the collection and classification of tax documents according to an embodiment of the present invention, and FIG. 3B is a flowchart illustrating a method for automating collection and classification of tax documents according to an embodiment of the present invention. In addition, FIGS. 4A and 4B are flowcharts illustrating a method for irregularly collecting tax documents in response to a request for sending tax documents according to an embodiment of the present invention. With reference to these drawings, a tax document collection and classification automation method according to an embodiment of the present invention will be described.

먼저 본 발명에 따른 세무 문서 수집 및 분류 자동화 방법은 세무 문서 수집 과정과 전자 세무 문서 변환 과정으로 나눌 수 있는데, 세무 문서 수집 과정은 클라이언트 단말에 관련된 적어도 하나의 세무 문서를 수집하는 문서 수집 단계를 포함하고, 전자 세무 문서 변환 과정은 세무 문서의 유형을 지정하는 문서 유형 분류 단계, 상기 세무 문서에 포함된 적어도 하나의 정보의 의미를 파악하는 문서 정보 분류 단계, 및 상기 세무 문서에 대하여 계정 과목을 분류하는 계정 과목 분류 단계를 포함한다. First, the tax document collection and classification automation method according to the present invention can be divided into a tax document collection process and an electronic tax document conversion process. The tax document collection process includes a document collection step of collecting at least one tax document related to a client terminal and, the electronic tax document conversion process includes a document type classification step for specifying the type of tax document, a document information classification step for understanding the meaning of at least one information included in the tax document, and classifying an account subject for the tax document It includes the step of classifying the account subject.

구체적으로, 본 발명의 일 실시예에 따른 세무 문서 수집 및 분류 자동화 방법은, 웹 크롤링에 의해 적어도 하나의 웹 사이트로부터 클라이언트 단말에 관련된 적어도 하나의 세무 문서를 수집하는 문서 수집 단계, 세무 문서의 유형을 분류하는 문서 유형 분류 단계; 세무 문서에 포함된 적어도 하나의 문자열 각각에 대하여 의미를 파악하는 문서 정보 분류 단계, 및 세무 문서에 대하여 계정 과목을 분류하는 계정 분류 단계를 포함한다.Specifically, the method for automating tax document collection and classification according to an embodiment of the present invention includes a document collection step of collecting at least one tax document related to a client terminal from at least one web site by web crawling, the type of tax document Document type classification step of classifying; and a document information classification step of identifying a meaning of each of at least one string included in the tax document, and an account classification step of classifying an account subject with respect to the tax document.

[세무 문서 수집 과정][Tax Document Collection Process]

먼저, 본 발명의 일 실시예는 클라이언트 단말에 관련된 적어도 하나의 세무 문서를 수집하는 단계(세무 문서 수집 과정)를 수행한다. 상기 세무 문서 수집 단계는 웹 크롤링을 통한 정기적 수집을 기본적으로 수행하고, 비정기적 수집을 추가적으로 포함할 수 있다. First, an embodiment of the present invention performs the step of collecting at least one tax document related to the client terminal (tax document collection process). The tax document collection step basically performs regular collection through web crawling, and may additionally include irregular collection.

가. 정기적 수집go. regular collection

세무 문서의 정기적인 수집은 세무 문서 수집부(110)의 웹 크롤링 수행부(111)(도 2 참조)에서 수행된다. 웹 크롤링 수행부(111)는 웹 크롤러에 의해 웹 사이트를 크롤링하여 해당 웹사이트로부터 클라이언트 단말과 관련된 세무 문서를 자동으로 수집하는 단계를 통해 이루어진다. 웹 크롤링 수행부(111)는 세무법인 단말에서 별도의 요청이 없어도 미리 정해진 주기에 따라 정기적으로 클라이언트 단말과 관련된 세무 문서를 자동으로 수집한다. 상기 웹 크롤링의 대상은 홈택스, 여신금융협회 등 클라이언트 단말과 관련된 세무 문서를 수집할 수 있는 모든 웹사이트를 포함할 수 있다. 웹 크롤링을 수행하기 전에 세무법인 단말은 클라이언트 단말에 대하여 특정 웹 사이트에 접근 권한 혹은 ID 및 PW를 제공해줄 것을 요청할 수 있고, 클라이언트 단말로부터 상기 웹사이트에서 제공하는 자사의 세무 정보에 접근할 수 있는 권한, 혹은 ID와 PW를 수신할 수 있다. 예컨대, 세무 법인 단말은 홈택스의 세무대리인 수임 동의를 사전에 제공받음으로써 원활하게 클라이언트 단말과 관련된 세무 문서에 접근할 수 있다. 또한, 세무 법인 단말은 클라이언트 단말에 대해 웹 크롤링 대상 웹 사이트의 사전 등록을 요청할 수 있고, 세무 법인 단말은 클라이언트 단말로부터 선택된 일부의 웹 사이트에 대해서만 웹 크롤링을 수행하도록 설정될 수도 있다. 세무 법인 단말은 상기 웹사이트로부터 예컨대, 클라이언트 단말의 (1) 전자 세금 계산서, (2) 신용카드 매출 및 매입 데이터, (3) 현금영수증 매출 및 매입 데이터 등을 수집한다. 웹 크롤링을 통해 웹 사이트로부터 획득하는 데이터는 세무 문서가 포함하는 세부적인 정보들에 대한 문자열(예컨대, 매장 이름, 거래 시간, 거래 주소 등)일 수 있다.The regular collection of tax documents is performed by the web crawling performing unit 111 (refer to FIG. 2 ) of the tax document collecting unit 110 . The web crawling performing unit 111 crawls a web site by a web crawler and automatically collects tax documents related to the client terminal from the web site. The web crawling performing unit 111 automatically collects tax documents related to the client terminal regularly according to a predetermined cycle without a separate request from the tax firm terminal. The target of the web crawling may include all websites that can collect tax documents related to client terminals, such as home tax and credit finance association. Before performing web crawling, the tax firm terminal may request the client terminal to provide access right or ID and PW to a specific website, and the client terminal may access its tax information provided by the website. You can receive authority, or ID and PW. For example, the tax office terminal can smoothly access tax documents related to the client terminal by receiving the consent of Hometax's tax agent appointment in advance. In addition, the tax office terminal may request the client terminal to pre-register the web crawling target web site, and the tax office terminal may be set to perform web crawling only on some web sites selected from the client terminal. The tax corporation terminal collects, for example, (1) electronic tax invoice, (2) credit card sales and purchase data, (3) cash receipt sales and purchase data, etc. of the client terminal from the website. Data obtained from the web site through web crawling may be a string (eg, store name, transaction time, transaction address, etc.) for detailed information included in the tax document.

나. 비정기적 수집me. Irregular Collection

한편, 본 발명의 일 실시예에 따르면, 클라이언트 단말에 대하여 필요한 적어도 하나의 세무 문서의 송부를 요청하는 단계 및 클라이언트 단말로부터 세무 문서를 수신하는 단계를 더 포함할 수 있다. 그리고, 세무 문서를 요청하는 단계는 세무법인 단말의 명령에 의해 비정기적으로 수행될 수 있다. Meanwhile, according to an embodiment of the present invention, the method may further include the steps of requesting transmission of at least one required tax document to the client terminal and receiving the tax document from the client terminal. And, the step of requesting the tax document may be performed irregularly by the command of the tax firm terminal.

세무 문서의 비정기적인 수집은 세무 문서 수신부의 세무 문서 요청/수신부(113)를 통해 수행되고, 메신저를 매개로 수행되며, 세무 법인 단말의 별도 명령 또는 요청에 의하여 비정기적으로 이루어진다. Irregular collection of tax documents is performed through the tax document request/receiver 113 of the tax document receiving unit, is performed through a messenger, and is performed irregularly according to a separate command or request from the tax corporation terminal.

먼저, 문서 수집 단계에서 세무법인 단말은 미리 결정된 세무 문서들을 송부해줄 것을 클라이언트 단말에 요청한다. 이 때, 수집이 필요한 세무 문서는 세금 신고의 종류에 따라 상이한데, 세금 신고 종류별로 필요한 세무 문서에 대한 정보는 예컨대 아래 표 1과 같이 미리 지정되어 있다. 그리고 이러한 정보는 세무 문서 정보 DB에 미리 저장되어 있을 수 있다. 세무법인 단말은 세무 문서 정보 DB로부터 세무 문서 리스트를 불러와 클라이언트 단말에 해당 리스트 상의 문서를 송부할 것을 요청한다. 세무법인 단말과 클라이언트 단말 간에는 별도의 메신저 프로그램을 통해 통신할 수 있으며, 세무법인 단말은 세무 문서 리스트를 예컨대 카카오톡 메신저를 통해 클라이언트 단말에 전송할 수 있다. 이후, 클라이언트 단말로부터 세무 문서를 수신한다.First, in the document collection step, the tax firm terminal requests the client terminal to send predetermined tax documents. At this time, the tax documents required to be collected differ depending on the type of tax return, and information on the required tax documents for each type of tax return is predetermined, for example, as shown in Table 1 below. And this information may be stored in advance in the tax document information DB. The tax firm terminal fetches a list of tax documents from the tax document information DB and requests the client terminal to send the documents on the list. Communication between the tax firm terminal and the client terminal may be performed through a separate messenger program, and the tax firm terminal may transmit a tax document list to the client terminal through, for example, KakaoTalk messenger. Thereafter, a tax document is received from the client terminal.

세금 신고 종류Type of tax return 구비 서류required documents 세무 문서(증빙 서류)Tax documents (proofing documents) 부가가치세VAT 1. 부가가치세신고서
2. 매입처별 세금계산서 합계표
3. 매출처별 세금계산서 합계표
4. 신용카드 매출전표 수집 명세서
5. 전자세금계산서 발급세액공재 신고서
6. 공제받지 못할 매입세액 명세서
7. 건물 등 감가상각 자산 취득명세서
8. 기타소득
1. VAT return
2. Total table of tax invoices by vendor
3. Total table of tax invoices by customer
4. Credit card sales slip collection statement
5. Tax deduction report for electronic tax invoice issuance
6. Statement of non-deductible input tax
7. Statement of acquisition of depreciable assets, such as buildings
8. Other Income
1. 세금계산서
2. 계산서
3. 신용카드 매출전표
4. 현금영수증
5. 수출신고필증
6. 해외쇼핑몰(페이팔 이베이 등) 매출 내역
7. 오픈마켓 매출 내역, 앱스토어 매출 내역
8. 카드매출 승인내역(결제대행사, PG사 등에서 제공하는 매출 내역), 나이스 페이 이니시스 카카오페이 등
9. 기타매출 승인내역(요기요 등 결제대행, 배달대행)
10. 홈택스 미등록 카드 내역
11. 통장 입출금내역
12. 의제매입세액공제신고서
13. 현금매출명세서
14. 동물진료용역매출명세서
15. 수출실적명세서
16. 영세율매출명세서
17. 재활용폐자원등매입공제신고서
18. 대손세액공제신고서
1. Tax Invoice
2. bill
3. Credit card sales slip
4. Cash Receipt
5. Export declaration certificate
6. Sales history of overseas shopping malls (Paypal, eBay, etc.)
7. Open Market Sales, App Store Sales
8. Credit card sales approval history (sales provided by payment agencies, PG companies, etc.), Nice Pay Inesis Kakao Pay, etc.
9. Other sales approval details (payment agency, delivery agency, etc. Yogiyo)
10. Hometax unregistered card details
11. Bankbook deposit and withdrawal details
12. Fictitious input tax credit report
13. Statement of Cash Sales
14. Animal treatment service sales statement
15. Statement of Export Performance
16. Zero-tax sales statement
17. Declaration of deduction for purchase of recycled waste resources, etc.
18. Bad debt tax credit report

한편, 도 4a 또는 도 4b를 참조하면, 세무 문서를 수신하는 단계 이후에, 수신된 적어도 하나의 세무 문서를 요청한 세무 문서와 비교하여 세무 문서의 수신 누락 여부를 판단하는 문서 누락 여부 판단 단계를 더 포함할 수 있다. 그리고, 누락된 세무 문서가 존재할 경우, 세무법인 단말의 지시에 의해, 누락된 세무 문서의 송부 요청 메시지를 세무법인 단말에 미리 설치된 메신저 프로그램을 통해 클라이언트 단말에 전송할 수 있다. Meanwhile, referring to FIG. 4A or FIG. 4B , after the step of receiving the tax document, a document omission determination step of determining whether the receipt of the tax document is omitted by comparing the received at least one tax document with the requested tax document is further performed. may include And, when there is a missing tax document, by the instruction of the tax firm terminal, a message requesting transmission of the missing tax document may be transmitted to the client terminal through a messenger program pre-installed in the tax firm terminal.

이 단계는 문서 누락 판단부(160)에서 수행되는데, 세무 법인 단말에 수신된 적어도 하나의 세무 문서를 세무 법인 단말이 요청한 세무 문서와 비교하여 누락된 문서가 존재하는지 판단한다. 이를 통해 도 4a에 도시된 바와 같이, 요청한 세무 문서를 모두 수집한 이후에 후술하는 문서 유형 분류 단계를 수행한다. This step is performed by the document omission determination unit 160 , and compares at least one tax document received in the tax office terminal with the tax document requested by the tax corporation terminal to determine whether a missing document exists. Through this, as shown in FIG. 4A , after collecting all the requested tax documents, a document type classification step to be described later is performed.

한편, 문서 누락 여부 판단 단계는 문서 유형 분류 단계 이후에 수행될 수도 있다(도 4b 참조). 구체적으로 설명하면, 수신된 세무 문서는 그 유형이 미리 특정되어 있을 수도 있고, 문서 유형이 불특정 상태로 수신될 수도 있다. 예컨대, 클라이언트 단말로부터 수신된 세무 문서의 파일명이 현금영수증.pdf, 간이영수증.pdf처럼 되어 있는 경우에는 세무 문서의 유형이 미리 특정된 사례이고, 임의의 파일명일 경우에는 유형 불특정된 사례이다. 문서의 유형을 특정할 수 있는 경우에는 세무 문서의 유형을 추가로 분류하지 않더라도 해당 세무 문서를 세무법인 단말이 요청한 세무 문서와 비교할 수 있기 때문에, 도 4a와 같이, 문서 유형 분류 단계 이전에 수행 가능하다. 하지만, 수신된 세무 문서가 임의의 파일명이어서 문서의 유형을 특정할 수 없는 경우에는 해당 세무 문서가 어떤 유형의 문서인지 파악해야 누락 여부를 판단할 수 있다. 따라서, 도 4 b에 도시된 바와 같이, 문서 누락 여부 판단 단계 이전에 문서 유형 분류 단계를 먼저 수행한다. 문서 유형 분류 방법은 후술한다. Meanwhile, the step of determining whether a document is missing may be performed after the step of classifying the document type (refer to FIG. 4B ). Specifically, the type of the received tax document may be specified in advance, or the received tax document may be received in an unspecified state. For example, if the file name of the tax document received from the client terminal is cash receipt.pdf or simplified receipt.pdf, the tax document type is specified in advance, and in the case of an arbitrary file name, the type is unspecified. If the type of document can be specified, even if the type of tax document is not further classified, the tax document can be compared with the tax document requested by the terminal of the tax firm. do. However, if the type of the tax document cannot be specified because the received tax document has an arbitrary file name, it is necessary to determine the type of the tax document to determine whether it is omitted. Accordingly, as shown in FIG. 4B , the document type classification step is first performed before the document omission determination step. The document type classification method will be described later.

위 두 가지 경우 모두에 있어서, 만일 누락된 세무 문서가 발견된 경우, 세무법인 단말의 명령에 의해, 누락된 세무 문서의 송부 요청 메시지를 세무법인 단말에 미리 설치된 메신저 프로그램을 통해 클라이언트 단말에 전송, 즉 메신저를 통해 세무 문서를 다시 요청할 수 있다.In both of the above cases, if a missing tax document is found, a message requesting sending the missing tax document is transmitted to the client terminal through a messenger program pre-installed in the tax office terminal by the command of the tax firm terminal; In other words, you can request tax documents again through messenger.

전술한 비정기적 수집 단계 이후에 문서의 누락 여부를 판단하는 단계에 관하여 예를 들어 설명한다. 도 7은 세무 법인 단말이 부가가치세 납부를 위해 필요한 서류 중 누락 문서를 클라이언트 단말에 요청한 결과를 도시한 예시이다. 좌측열의 필요한 세무 문서 LIST는 부가가치세 납부에 필요한 서류 목록으로서 이는 세무 문서 정보 DB에 미리 정의되어 있다. 세무법인 단말은 이들 서류 중 일부 또는 전부를 송부해줄 것을 클라이언트 단말에 요청한다. 가운데열의 수신된 세무 문서는 클라이언트 단말로부터 수신된 세무 문서의 목록으로서, 수신된 세무 문서는 각각 필요한 세무 문서 LIST 중 하나에 대응되어 있다. 이때 전술한 바와 같이 세무 문서의 유형 불특정 상태에서는 수신된 문서에 대하여 문서 유형 분류 단계를 먼저 수행할 수 있다. 필요 문서 LIST와 수신 문서 LIST에 관한 정보는 세무법인 단말에 테이블 형태로 디스플레이될 수 있다. 세무법인 단말의 사용자(세무법인의 직원)는 테이블을 확인함으로써 클라이언트 단말로부터 미수신된 세무 문서가 존재하는지 여부를 쉽게 확인할 수 있다. 전술한 바와 같이 세무법인 단말과 클라이언트 단말 간에는 별도의 메신저 프로그램을 통해 통신하므로, 세무법인 단말은 예컨대 도 7에서 미수신 상태인 수출신고 필증, 기타매출 승인내역 등 5개의 세무 문서 리스트를 카카오톡 메신저를 통해 클라이언트 단말에 수동으로 문자 전송하고, 해당 세무 문서를 회신할 것을 수동으로 요청할 수 있다. 한편, 본 발명의 일실시예에 따르면 본 발명의 수집 및 분류 자동화 방법(프로그램)을 통해 요청 메시지 전송을 자동화할 수 있다. 즉, 세무법인 단말의 요청에 의해, 누락된 세무 문서의 송부 요청 메시지를 세무법인 단말에 미리 설치된 메신저 프로그램을 통해 클라이언트 단말에 전송할 수 있다. 이때, 세무법인 단말은 i) 누락 세무 문서 별로, 또는 ii) 누락된 세무 문서들을 일괄 선택하여 한꺼번에 명령할 수 있다. 예컨대 세무법인 단말이 도 7에서 "수출신고 필증"란의 "요청하기" 메뉴를 클릭(명령)하면 해당 문서의 송부를 요청하는 메시지가 자동으로 생성되고, 해당 메시지가 메신저 프로그램(카카오톡) 상에 발신 메시지로 입력되어 상대방 클라이언트 단말로 메시지가 전송되는 방식이다. 이러한 구성에 따르면, 세무법인 단말은 간단한 명령을 입력함으로써 누락 문서 요청을 용이하게 수행할 수 있고, 누락 서류 요청 메시지를 메시지 창에 수동으로 타이핑하지 않아도 된다.A step of determining whether a document is omitted after the above-described irregular collection step will be described with an example. 7 is an example illustrating a result of a tax corporation   terminal requesting a missing document from among the documents required for VAT payment to the client terminal. The required tax document LIST in the left column is a list of documents required for VAT payment, which is predefined in the tax document information DB. The tax firm terminal requests the client terminal to send some or all of these documents. The received tax document in the middle column is a list of tax documents received from the client terminal, and each received tax document corresponds to one of the required tax document LISTs. In this case, as described above, in the unspecified state of the tax document, the document type classification step may be performed first with respect to the received document. Information on the required document LIST and the received document LIST may be displayed in the form of a table on the terminal of the tax firm. The user of the tax firm terminal (the employee of the tax firm) can easily check whether there is a tax document that has not been received from the client terminal by checking the table. As described above, since the tax office terminal and the client terminal communicate through a separate messenger program, the tax office terminal sends a list of five tax documents, such as the export declaration certificate and other sales approval details that are not received in FIG. You can manually send a text message to the client terminal and manually request that the tax document be returned. Meanwhile, according to an embodiment of the present invention, request message transmission can be automated through the collection and classification automation method (program) of the present invention. That is, at the request of the tax office terminal, a message requesting transmission of the missing tax document may be transmitted to the client terminal through a messenger program pre-installed in the tax office terminal. In this case, the terminal of the tax firm can command all at once by i) selecting each missing tax document or ii) missing tax documents in bulk. For example, when the tax office terminal clicks (commands) the "Request" menu in the "Export declaration certificate" column in FIG. 7, a message requesting the sending of the document is automatically generated, and the message is displayed on the messenger program (KakaoTalk). This is a method in which the message is input as an outgoing message to the client and transmitted to the counterpart client terminal. According to this configuration, the tax office terminal can easily perform a request for missing documents by entering a simple command, and it is not necessary to manually type the missing documents request message in the message window.

이상 설명한 바와 같이, 세무 문서를 정기적/비정기적으로 수집하고, 비정기적 수집시에는 문서 누락 여부 판단을 통해 필요 세무 문서를 확보할 수 있다. 이와 같은 세무 문서 수집 과정을 수행한 이후에는 전자 세무 문서 변환 과정을 수행한다. As described above, tax documents are regularly/irregularly collected, and in the case of irregular collection, necessary tax documents can be secured by determining whether documents are omitted. After performing such a tax document collection process, an electronic tax document conversion process is performed.

[전자 세무 문서 변환 과정][Electronic tax document conversion process]

전자 세무 문서 변환 과정은 세무 문서의 유형을 분류하는 문서 유형 분류 단계, 세무 문서에 포함된 적어도 하나의 문자열 각각에 대하여 의미를 파악하는 문서 정보 분류 단계, 및 세무 문서에 대하여 계정 과목을 분류하는 계정 과목 분류 단계를 포함한다. 전자 세무 문서 변환 과정은 전자 세무 문서 변환부(150)(도 2 참조)에서 수행되며, 정기적 또는 비정기적으로 수집된 모든 세무 문서는 문서 유형 분류 단계, 문서 정보 분류 단계, 계정 과목 분류 단계의 과정을 거친다. 이때, 상기 세가지 분류는 인공지능 의사결정부(157)에서 수행된다. 이하에서는 수집된 세무 문서를 전자 세무 문서로 변환하는 과정을 자세히 설명한다. The electronic tax document conversion process includes a document type classification step of classifying the types of tax documents, a document information classification step of understanding the meaning of each of at least one string included in the tax document, and an account classifying account subject for tax documents It includes the subject classification phase. The electronic tax document conversion process is performed by the electronic tax document conversion unit 150 (see Fig. 2), and all tax documents collected regularly or irregularly are processed in the document type classification stage, document information classification stage, and account subject classification stage. go through At this time, the three classifications are performed by the artificial intelligence decision-making unit 157 . Hereinafter, the process of converting the collected tax documents into electronic tax documents will be described in detail.

가. 문서 유형 분류 단계go. Document Type Classification Steps

문서 유형 분류 단계는 입력된 이미지 형태의 세무 문서를 여러가지 세무 문서 유형들 중 하나의 유형으로 분류하는 과정으로서, 인공지능 모델을 활용하여, 수집된 세무 문서에 포함된 복수의 문자열 중 특정 단어들의 출현 빈도에 근거하여 세무 문서의 유형을 각 세무 문서 별로 분류한다. 그리고, 여기에는 자연어 처리 기술 및 이미지 처리 기술을 사용한다. 여기서 세무 문서의 유형으로는 영수증, 계산서, 세금계산서, 신용카드 매출전표, 현금영수증, 통장 입출금 내역서 등 세금 신고시 증빙용으로 사용 가능한 일체의 서류가 해당될 수 있다.The document type classification step is a process of classifying the tax document in the form of an input image into one of various tax document types, and the appearance of specific words among a plurality of strings included in the collected tax documents using an artificial intelligence model Classify the types of tax documents for each tax document based on their frequency. And, natural language processing technology and image processing technology are used here. Here, the type of tax document may be any document that can be used as proof when filing a tax return, such as receipts, bills, tax invoices, credit card sales slips, cash receipts, and bankbook deposit and withdrawal statements.

문서 유형 분류 단계는 자연어처리(NLP) 모델과 심층 신경망(DNN) 모델을 이용하여 상기 수집된 세무 문서에 포함된 복수의 문자열 중 특징 정보의 출현 빈도에 근거하여 해당 세무 문서의 유형을 특정한 하나의 유형으로 분류한다. 구체적으로, 수집된 세무 문서에 포함된 복수의 문자열을 자연어처리 딥러닝 모델인 Transformer에 입력하면 각각의 문자열에 해당하는 특징 정보들이 출력되고, 특징 정보들이 심층 신경망(DNN) 모델에 입력되면 출현 빈도가 높은 특정 유형의 세무 문서가 결과로서 출력된다. 즉, 수집된 세무 문서가 특정 유형의 세무 문서가 갖는 특징 정보에 해당하는 단어를 다수 포함하고 있다면, 이에 근거하여 해당 세무 문서의 유형을 특정할 수 있다. 예컨대, 세무 문서가 공급자, 공급받는자를 포함하고 있다면, 이러한 단어들의 출현 빈도가 가장 높은 문서 유형은 세금 계산서이므로, 해당 세무 문서는 세금 계산서로 분류된다. 또 다른 예로서, 수신된 세무 문서가 가맹점, 카드 번호와 같은 단어를 포함하고 있다면, 이러한 단어들의 출현 빈도가 가장 높은 문서 유형은 신용카드 전표이므로, 해당 세무 문서는 신용카드 전표로 분류된다. 또한, 세금 계산서에는 도 6c에 도시된 바와 같이, 대부분 “세금 계산서”라는 텍스트가 직접적으로 노출되어 있으므로, “세금 계산서”라는 문자열로부터 해당 문서를 세금 계산서로 유형을 분류할 수도 있다.The document type classification step uses a natural language processing (NLP) model and a deep neural network (DNN) model to select one specific tax document type based on the frequency of appearance of characteristic information among a plurality of strings included in the collected tax documents. classified by type. Specifically, when a plurality of strings included in the collected tax documents are input into Transformer, a natural language processing deep learning model, characteristic information corresponding to each string is output, and when the characteristic information is input to a deep neural network (DNN) model, the appearance frequency Certain types of tax documents with high values are output as a result. That is, if the collected tax document includes a large number of words corresponding to characteristic information of a specific type of tax document, the type of the tax document may be specified based on this. For example, if a tax document includes a supplier and a recipient, the document type with the highest frequency of occurrence of these words is a tax invoice, so the tax document is classified as a tax invoice. As another example, if the received tax document contains words such as affiliate store and card number, the document type with the highest frequency of occurrence of these words is a credit card document, so the tax document is classified as a credit card document. In addition, as shown in FIG. 6c , the text of “tax invoice” is mostly directly exposed in the tax invoice, so the type of the document may be classified as a tax invoice from the string “tax invoice”.

이때, 크롤링을 통해 정기적으로 수집한 세무 문서가 아니라, 비정기적으로 수집한 세무 문서의 경우에는, 세무 문서를 수신하는 단계 이후에, 광학 문자 인식을 통해 세무 문서에 포함된 복수의 문자열을 추출하는 단계를 먼저 수행한다. 광학 문자 인식 기술은 사람이 쓰거나 기계로 인쇄한 문자의 이미지를 기계가 읽을 수 있는 문자로 변환하는 기술로써, 이를 이용해 세무 문서 내부의 문자열(텍스트)을 추출한다. 예컨대 도 5a의 신용카드 전표 이미지로부터 세무 문서를 발급한 사업자 번호, 사업장 주소, 업종, 거래 금액, 발급 날짜 및 시간 등의 정보들을 도 5b와 같이 기계 판독 가능한 형태로 추출할 수 있다. 광학 문자 인식의 결과는, 위치 정보(x좌표, y좌표, 높이, 폭)와 해당 위치적 공간에 존재하는 문자열(텍스트)이다. 이후, 수집된 세무 문서에서 추출된 문자열을 특징 정보 세트와 비교하여 세무 문서의 유형을 분류한다.At this time, in the case of tax documents collected irregularly rather than regularly collected through crawling, after the step of receiving the tax documents, a plurality of strings included in the tax documents are extracted through optical character recognition. Do the steps first. Optical character recognition technology is a technology that converts images of human or machine-printed characters into machine-readable characters, and uses this to extract character strings (text) inside tax documents. For example, from the credit card slip image of FIG. 5A , information such as the business number that issued the tax document, business address, industry type, transaction amount, issuance date and time, etc. may be extracted in a machine-readable form as shown in FIG. 5B . The result of optical character recognition is positional information (x-coordinate, y-coordinate, height, width) and a character string (text) existing in the corresponding positional space. Thereafter, the string extracted from the collected tax documents is compared with the feature information set to classify the tax document type.

한편, 문서 유형 분류 단계 이전에, 하나의 세무 문서를 다른 유형의 세무 문서와 구분할 수 있는 특징 정보들이 세무 문서 유형마다 수록된 특징 정보 세트를 미리 정의하는 단계; 및 각종 세무 관련 문서에 포함된 문자열을 입력값으로 하여 자연어 처리 인공지능 모델 "Transformer"를 학습시키는 단계를 수행한다. 특징 정보 세트에는 하나의 세무 문서를 다른 유형의 세무 문서와 구분할 수 있는 특정 특징 정보들이 세무 문서 유형마다 수록되어 있고, 이 특징 정보 세트는 사전에 정의된다(아래 표 2 참조). 예컨대, 모든 세금 계산서에는 공통적으로 '세금 계산서', '공급자', '공급받는 자' 등의 단어가 포함될 것이고, 이러한 단어는 다른 유형의 세무 문서에는 일반적으로 포함되지 않으므로 세금 계산서임을 특정할 수 있는 정보들이다. 따라서, “세금 계산서”, '공급자', '공급받는 자' 등을 세금 계산서가 포함하는 특징 정보로 미리 정의한다. On the other hand, prior to the document type classification step, the step of pre-defining a set of characteristic information in which characteristic information for distinguishing one tax document from another type of tax document is included for each tax document type; and learning the natural language processing artificial intelligence model "Transformer" by using the string included in various tax-related documents as input values. The characteristic information set contains specific characteristic information for each tax document type that can distinguish one tax document from another type of tax document, and this characteristic information set is predefined (see Table 2 below). For example, all tax invoices will contain the words 'tax invoice', 'supplier', 'supplier', etc. in common, and these words are not normally included in other types of tax documents, so it is possible to specify that they are tax invoices. are information. Therefore, "tax invoice", 'supplier', 'supplier', etc. are predefined as characteristic information included in the tax invoice.

세무 문서 유형Tax Document Types 특징 정보Feature information 특징 정보 예시Feature information example 세금 계산서Tax bill 특징 정보 1
특징 정보 2
특징 정보 3
특징 정보 4
Feature information 1
Feature information 2
Feature information 3
Feature information 4
세금 계산서
공급자
공급받는 자
Tax bill
producer
recipient
신용카드 전표credit card slip 특징 정보 1
특징 정보 2
특징 정보 3
특징 정보 4
Feature information 1
Feature information 2
Feature information 3
Feature information 4
카드 번호
가맹점
거래 일시
card number
franchisee
Transaction Date

한편, 본 발명에 따르면, 문서 유형 분류 시, 전술한 바와 같은 문자열의 출현 빈도로부터 문서 유형을 분류하는 방식과 별개로, 이미지 처리 기술을 활용하여 문서의 유형을 분류할 수도 있다. 그리고, 여기에는 이미지 처리 기술을 사용한다. 이미지 처리 기술은 딥러닝 모델(CNN, Convolutional Neural Network)을 활용하여 문서의 이미지를 통해 문서의 유형을 분류하는 기술이다. CNN 모델은 이미지 구별에 강점이 있는 딥러닝 모델로써 문서의 이미지 정보를 학습한다. 예컨대, 신용카드 전표의 경우 왼쪽에는 항목이 배치되고 오른쪽에 숫자 등이 배치되어 있는 특징이 있고, 세금계산서의 경우에는 도 6c에 도시된 것과 같이 격자 형식을 갖는 것을 학습한다. 딥러닝 모델(CNN)을 학습시키는 과정에서 이와 같은 이미지 특성이 학습되며 세무 문서의 이미지가 입력되면, 기계 학습을 통해 복수의 세무 문서 유형 중 입력된 세무 문서의 이미지와 가장 가까운 세무 문서의 유형을 판별하고, 이를 출력한다. 이때, 유형 분류의 결과는 확률로 제공할 수 있다. Meanwhile, according to the present invention, when classifying a document type, it is also possible to classify the document type by using an image processing technology, separately from the method of classifying the document type based on the frequency of appearance of the character string as described above. And, it uses image processing technology. Image processing technology is a technology for classifying document types through images of documents using a deep learning model (CNN, Convolutional Neural Network). The CNN model is a deep learning model with strength in image discrimination and learns image information of documents. For example, in the case of a credit card slip, items are arranged on the left and numbers are arranged on the right, and in the case of a tax invoice, learning to have a grid format as shown in FIG. 6C . In the process of training a deep learning model (CNN), such image characteristics are learned and when an image of a tax document is input, the type of tax document closest to the image of the input tax document is selected through machine learning among multiple tax document types. Determine it and print it out. In this case, the result of type classification may be provided as a probability.

한편, 본 발명에 따르면, 전술한 광학 문자 인식 및 자연어 이해 기술을 이용한 유형 분류 결과(문자열의 출현 빈도에 기반한 유형 분류라 칭함)와, 이미지 처리 기술을 이용한 유형 분류 결과(이미지에 기반한 유형 분류라 칭함)를 모두 고려하여 보다 높은 정확도의 문서 유형 판별을 가져올 수 있다. 즉, 문자열의 출현 빈도에 기반한 유형 분류의 결과와 이미지에 기반한 유형 분류의 결과가 일치하는 경우 해당 문서의 유형을 확정한다. 만일 일치하지 않는 경우에는 문서 유형 분류 프로세스를 재실행할 수 있다. 예를 들어, 텍스트 기반 유형 분류의 결과가 세금 계산서/90%이고, 이미지 기반 유형 분류의 결과가 세금 계산서/60%로 나올 경우, 해당 세무 문서는 세금 계산서로 분류한다. 만일, 텍스트 기반 유형 분류의 결과가 세금 계산서/90%이고, 이미지 기반 유형 분류의 결과가 현금영수증/90%로 나올 경우, 세무 문서의 유형 분류 프로세스를 재실행한다.Meanwhile, according to the present invention, the result of type classification using the above-described optical character recognition and natural language understanding technology (referred to as type classification based on the frequency of appearance of character strings) and the result of type classification using image processing technology (type classification based on images) ) can be taken into account, resulting in higher accuracy of document type determination. That is, when the result of the type classification based on the frequency of appearance of the character string matches the result of the type classification based on the image, the type of the document is determined. If they do not match, the document type classification process can be re-executed. For example, if the result of text-based classification is tax invoice/90%, and the result of image-based classification is tax invoice/60%, the tax document is classified as tax invoice. If the result of text-based classification is tax invoice/90% and the result of image-based classification is cash receipt/90%, the tax document classification process is re-executed.

나. 문서 정보 분류 단계me. Document Information Classification Steps

세무 문서마다 필수적으로 포함하고 있는 정보(이하, 필수 구성항목)가 존재한다. 예컨대, 신용카드 전표의 경우 필수 구성항목은 가맹점명, 사업자번호, 주소, 구매 물품, 구매 금액 등이다. 문서 정보 분류 단계는, 세무 문서에 포함된 복수의 문자열 각각을 미리 정의된 세무 문서 별 필수 구성항목들 중 하나로 매칭하는 단계를 포함한다. 세무 문서 별 필수 구성항목은 사전에 정의되어 세무 문서 정보 DB에 저장되어 있다(아래 표 3 참조). 참고로, 전술한 특징 정보는 세무 문서의 유형을 구분하기 위한 특징을 갖는 정보들로 이루어지고, 필수 구성항목은 일단 유형이 정해진 세무 문서라면 반드시 포함하여야 하는 정보를 지칭하기 때문에, 필수 구성항목은 전술한 특징 정보와 일치하지 않을 수 있다.There is information that is essential for each tax document (hereafter, essential components). For example, in the case of a credit card slip, essential constituent items are the merchant name, business number, address, purchased product, purchase amount, and the like. The document information classification step includes matching each of a plurality of character strings included in the tax document to one of predefined required components for each tax document. Required components for each tax document are defined in advance and stored in the tax document information DB (refer to Table 3 below). For reference, since the above-described characteristic information consists of information having characteristics for distinguishing the types of tax documents, and the essential components refer to information that must be included once the types of tax documents are set, the essential components are It may not coincide with the above-described characteristic information.

세무 문서 유형Types of tax documents 필수 구성항목Required items 필수 구성항목 예시Example of required configuration items 세금 계산서Tax bill 필수 구성항목 1
필수 구성항목 2
필수 구성항목 3
필수 구성항목 4
필수 구성항목 5
필수 구성항목 6
Required configuration item 1
Required configuration item 2
Required configuration item 3
Required configuration item 4
Required configuration items 5
Required configuration items 6
세금 계산서
공급자 등록 번호
공급자 상호
공급자 사업장 주소
공급받는 자 등록 번호
공급받는 자 상호
공급받는자 사업장 주소
Tax bill
Supplier registration number
Supplier name
Supplier business address
Supplier registration number
Supplier name
Supplier business address
신용카드 전표credit card slip 필수 구성항목 1
필수 구성항목 2
필수 구성항목 3
필수 구성항목 4
필수 구성항목 5
필수 구성항목 6
Required configuration item 1
Required configuration item 2
Required configuration item 3
Required configuration item 4
Required configuration items 5
Required configuration items 6
가맹점명
사업자 등록 번호
주소
구매 물품
구매 금액
합계
Store name
Company Registration Number
address
purchase
purchase amount
Sum

이 단계에서는 문자열의 언어적 특성에 기초하여 해당 문자열의 의미를 필수 구성항목들 중 하나로 매칭하는 단계를 포함한다. 예컨대, 세무 문서가 문서 유형 분류 단계에서 “신용카드 전표”로 유형 분류된 경우, 필수 구성항목은 위 표 3을 참조하면 가맹점명, 사업자번호, 주소, 구매 물품, 구매 금액의 5가지이다. 해당 세무 문서의 광학 문자 인식 결과 문자열이 “가맹점 명”인 경우 이를 “가맹점명”이라는 필수 구성항목으로 분류하고, 문자열이 “사업자 번호”인 경우 이를 “사업자 등록 번호”라는 필수 구성항목으로 분류한다.In this step, based on the linguistic characteristics of the string, the step of matching the meaning of the string to one of the essential constituent items is included. For example, if a tax document is classified as “credit card slip” in the document type classification step, referring to Table 3 above, the required components are 5 types of merchant name, business number, address, purchased item, and purchase amount. If the string as a result of optical character recognition of the tax document is “merchant name”, it is classified as a mandatory component of “merchant name”, and if the string is “business number”, it is classified as a required component of “business registration number”.

이때, 본 발명의 일 실시예에 따르면, 자연어 처리 기술을 이용할 수 있다. 구체적으로 설명하면, 문자열에 따라서 전술한 사례와 같이, 해당 문자열이 담고 있는 의미가 문자열에 노출되어 있어 별도의 의미 해석 없이 문자열로부터 곧바로 특징 정보를 파악할 수도 있는 경우도 있지만, 문자열 자체로는 의미 정보를 부여하기 어렵고 문자열의 의미를 이해한 후 비로소 그 문자열이 담는 특징 정보를 분류하는 경우도 있다. 전자의 경우, 예를 들어 설명하면, “카드 번호”, “주소”, “가맹점 명” 등의 문자열은 그 자체가 각각 카드 번호라는 특징 정보, 주소라는 특징 정보, 가맹점 이름이라는 특징 정보로 직접 분류된다. 이에 반해, 후자의 경우에는 문자열의 언어적 특성을 활용하여 정보를 분류한다. 그리고, 여기에 자연어 이해 기술이 사용된다. 자연어 이해는 컴퓨터가 자연어로 주어진 입력에 따라 동작하게 하는 기술로서, 자연어 처리의 요소 기술 중 하나이다. 자연어 처리는 인공 지능의 주요 분야로서, 기계 학습 기법, 통계적 자연어 처리 기법, 딥러닝 기법이 자연어 이해에 활용된다. 예를 들어 설명하면, 광학 문자 인식 결과, “주소”라는 문자열은 노출되어 있지 않고 단순히 “경상북도 포항시 남구 포스코대로 353번길 8 대도동”이라는 문자열만 노출되었다면, 언어적 특성에 기초하여 이 문자열의 의미를 먼저 이해한다. 즉, “경상북도 포항시 남구 포스코대로 353번길 8 대도동”이라는 문자열은 그 언어적 특성이 주소와 가깝기 때문에, 자연어 처리 기술을 적용하여 이 문자열을 “주소”라는 특징 정보로 분류하는 것이다. 한편, 세무 문서마다 동일한 정보를 다양한 다른 문자로 표현하고 있을 수 있기 때문에, 특정한 필수 구성항목(예컨대 거래 일자)를 의미하는 문자열들을 개방형(예컨대, 거래일, 거래 날짜, 거래 일시, 거래시간, 판매일, 판매 시기 등)으로 정의하는 것이 바람직하다.In this case, according to an embodiment of the present invention, natural language processing technology may be used. Specifically, depending on the character string, as in the case described above, the meaning of the character string is exposed to the character string, so that characteristic information can be grasped directly from the character string without separate interpretation of the meaning. In some cases, it is difficult to assign a character string, and the characteristic information contained in the string is classified only after understanding the meaning of the string. In the former case, for example, character strings such as “card number”, “address”, and “merchant name” are directly classified into characteristic information such as card number, characteristic information such as address, and characteristic information such as merchant name, respectively. do. In contrast, in the latter case, information is classified using the linguistic characteristics of character strings. And here, natural language understanding technology is used. Natural language understanding is a technology that makes a computer operate according to an input given in natural language, and is one of the elemental technologies of natural language processing. Natural language processing is a major field of artificial intelligence, and machine learning techniques, statistical natural language processing techniques, and deep learning techniques are used to understand natural language. For example, if, as a result of optical character recognition, the string “address” is not exposed and only the string “8 Daedo-dong, 353beon-gil, POSCO-daero, Nam-gu, Pohang-si, Gyeongsangbuk-do,” is exposed, the meaning of this string is determined based on linguistic characteristics. first understand In other words, the character string “8 Daedo-dong, 353beon-gil, POSCO-daero, Nam-gu, Pohang-si, Gyeongsangbuk-do,” is classified as “address” by applying natural language processing technology because its linguistic characteristics are close to addresses. On the other hand, since the same information may be expressed in a variety of different characters for each tax document, character strings meaning specific essential components (eg, transaction date) are opened (eg, transaction date, transaction date, transaction date, transaction time, sale date). , sales period, etc.).

이에 더하여, 본 발명의 일 실시예에 따르면, 정보 분류 단계는 이미지 처리 기술을 이용하여 해당 문자열의 의미를 필수 구성항목들 중 하나로 매칭하는 단계를 포함할 수 있다. 문서 유형에 따라 특정 정보가 특정 위치에 존재하는 형식 문서가 있고, 특정 정보의 위치가 제각각 다른 무형식 문서가 있다. 예컨대 영수증은 그 형식이 없는 무형식 문서이고, 세금 계산서는 대표적으로 공통의 형식이 정해져 있는 유형식의 세무 문서이다. 따라서, 세금 계산서로 유형 분류된 세무 문서에 대해서는 위치적 특성을 활용하여 정보 분류가 가능하다. 예를 들어, 세금 계산서에는 합계 금액이 통상적으로 세금계산서의 우측 하단에 배치되는 특성이 있다(도 6c 참조). 따라서, 이러한 위치적 특성을 통해 해당 세무 문서에 “합계 금액”을 의미하는 정보를 포함하는 것으로 판단할 수 있다.In addition, according to an embodiment of the present invention, the step of classifying the information may include the step of matching the meaning of the corresponding character string to one of the essential components using image processing technology. Depending on the document type, there is a formal document in which specific information exists in a specific location, and in an informal document in which the location of specific information is different. For example, a receipt is an informal document that has no form, and a tax invoice is typically a tangible tax document with a common format. Therefore, for tax documents classified as tax invoices, it is possible to classify information using locational characteristics. For example, in a tax invoice, the total amount is usually placed in the lower right corner of the tax invoice (see FIG. 6c ). Therefore, it can be determined that the tax document includes information meaning “total amount” through such locational characteristics.

이를 수행하기 위해, 정보와 위치적 특성 사이의 관계가 사전에 정의되어야 한다(아래 표 4 참조). 구체적으로, 광학 문자 인식의 결과 얻어진 위치적 특성(텍스트 박스)이 미리 정의된 적어도 하나의 위치적 특성(x좌표, y 좌표, 높이, 폭)에 오버랩될 경우, 해당 위치적 특성에 존재하는 문자열은 미리 정의된 특징 정보를 나타내는 것으로 판단한다. 예컨대 아래 표 4를 참조하면, 세금 계산서를 OCR한 결과 [10, 10; 40, 60]의 위치에 숫자 15,000이 추출되었다면, 해당 위치적 특성은 사전에 정의된 위치적 특성 중 하나와 오버랩되므로, OCR 결과인 15,000은 “합계 금액”이라는 특징 정보를 의미하는 것으로 예측하고 정보를 분류하는 것이다. In order to do this, the relationship between information and location characteristics must be defined in advance (see Table 4 below). Specifically, when a positional characteristic (text box) obtained as a result of optical character recognition overlaps with at least one predefined positional characteristic (x-coordinate, y-coordinate, height, width), a character string existing in the positional characteristic is determined to indicate predefined characteristic information. For example, referring to Table 4 below, the results of OCR on the tax invoice [10, 10; 40, 60], since the corresponding positional characteristic overlaps with one of the predefined positional characteristics, the OCR result of 15,000 is predicted to mean the characteristic information of “total amount” and information to classify

세무 문서 유형Types of tax documents 위치적 특성: 정보Geolocation: information 예시 example 세금 계산서Tax bill [x1, y1; height, width]: 정보 1
[x2, y2; height, width]: 정보 2
[x1, y1; height, width]: info 1
[x2, y2; height, width]: info 2
[10, 10 ; 40, 60] : “합계 금액”
[60, 10 ; 40, 60] : “사업자 이름”
[10, 10 ; 40, 60] : “total amount”
[60, 10 ; 40, 60]: “business name”

한편, 이전 단계에서 세무 문서가 하나의 유형으로 분류되었으면, 해당 세무 문서에 필수 구성항목이 모두 담겨 있는지 확인하여야 한다. 예컨대, 비정기적으로 수집한 세무 문서의 경우, 세무 문서 원본 이미지에는 필수 항목 5가지가 모두 포함되어 있지만, 광학 문자 인식에서 인식 실패하여 4가지 항목만 추출된 경우도 있고, 또는 세무 문서 원본 이미지 자체에 필수 항목 5가지 중 한가지 정보가 누락된 경우도 있을 수 있다. 이러한 점에서, 본 발명의 일 실시예에 따르면, 문서 정보 분류 단계 이후에, 세무 문서에 누락된 필수 구성항목이 존재하는지 여부를 판단하는 정보 누락 여부 판단 단계 및 누락된 항목이 존재하는 경우, 세무법인 단말에 대하여 정보의 입력을 요청하는 단계를 더 포함할 수 있다.On the other hand, if the tax documents were classified into one type in the previous step, it should be checked whether all the required components are included in the tax documents. For example, in the case of irregularly collected tax documents, the original image of the tax document contains all 5 required items, but in some cases, only 4 items were extracted due to a failure in optical character recognition, or the original image of the tax document itself There may be cases where one of the five essential items is missing. In this regard, according to an embodiment of the present invention, after the document information classification step, the information omission determination step of determining whether essential components missing in the tax document exist, and if the missing items exist, the tax It may further include the step of requesting input of information to the corporate terminal.

구체적으로, 필수 구성항목은 표 3과 같이 사전에 정의되어 세무 문서 정보 DB에 저장되어 있으므로, 이로부터 유형이 분류된 특정 세무 문서에 대하여 필수 구성항목이 모두 포함되어야 한다는 목표를 설정할 수 있다. 정보 누락 여부 판단 단계는, 복수의 문자열 각각에 매칭된 필수 구성항목들을 사전에 정의된 필수 구성항목과 비교하여 필수 구성항목의 누락 여부를 확인하는 것이다. 비교 결과, 몇몇 필수 구성항목의 누락이 존재하여 전자 세무 문서로써 부적합하다고 판단될 경우, 세무법인 단말에 대하여 정보의 입력을 요청한다. 예컨대, 누락 정보를 수동으로 입력할 수 있는 창이 노출되도록 디스플레이 할 수 있다. 세무법인 단말에 정보 수동 입력창이 팝업되어 세무사로부터 수동으로 정보를 입력 받도록 한다.Specifically, since the required constituent items are defined in advance and stored in the tax document information DB as shown in Table 3, it is possible to set a goal that all required constituent items should be included for a specific tax document classified by type. The information omission determination step is to compare essential components matched to each of the plurality of strings with pre-defined essential components to check whether essential components are missing. As a result of comparison, if it is judged that the electronic tax document is inappropriate because some essential components are omitted, information input is requested to the terminal of the tax firm. For example, a window for manually inputting missing information may be displayed to be exposed. The information manual input window pops up on the terminal of the tax firm to manually input information from the tax accountant.

다. 계정 과목 분류 단계All. Account Subject Classification Steps

문서 유형 분류 단계 및 정보 분류 단계 이후에 세무 문서에 대하여 계정 과목을 분류하는 계정 과목 분류 단계를 수행한다. 계정 과목을 분류하는 것은 해당 세무 문서의 목적을 지정하는 것이다. 그리고, 계정 목적 분류가 완료된 이후 비로서 세금 신고에 사용되는 자료가 될 수 있다. After the document type classification step and the information classification step, an account subject classification step of classifying account items for tax documents is performed. Categorizing an account subject specifies the purpose of the tax document in question. And, after the account purpose classification is completed, it may become data used for tax return.

구체적으로, 계정 과목 분류 단계는, 세무 문서에 포함된 적어도 하나의 필수 구성항목에 기초하여 해당 세무 문서의 목적을 매출액, 영업외수익(이상, 수익 계정), 매출원가, 판매비와 관리비, 영업외비용, 및 법인세 비용(이상, 비용 계정) 중 하나로 분류하는 단계를 포함한다. 이를 위해 본 발명에서는 딥러닝 심층 신경망 모델(DNN, Deep Neural Network)을 활용한다.Specifically, in the account subject classification step, the purpose of the tax document is sales, non-operating income (above, revenue account), cost of sales, sales and administrative expenses, and non-operating expenses based on at least one essential component included in the tax document. , and classifying it as one of corporate tax expenses (above, expense accounts). To this end, the present invention utilizes a deep learning deep neural network model (DNN, Deep Neural Network).

구체적으로, 계정 과목을 분류하는 단계는, 수신된 세무 문서를 수익 또는 비용 중 하나로 목적 구분하는 단계를 포함한다. 구체적으로 설명하면, 문서 수집 단계를 통해 수집되는 세무 문서는 대표적으로 세금 계산서, 현금 영수증 및 카드 거래 내역서 중 하나의 유형으로 분류될 수 있다. 그리고, 이들 유형은 수익 계정 또는 비용 계정 중 하나로 구분될 수 있다. Specifically, the step of classifying the account subject includes the step of classifying the received tax document into one of revenue or expense for purpose. Specifically, the tax documents collected through the document collection step may be typically classified into one type of a tax invoice, a cash receipt, and a card transaction statement. And, these types can be divided into either a revenue account or an expense account.

먼저, 세금 계산서는 문서에 따라 수익 계정으로 구분될 수도 있고 비용 계정으로 구분될 수도 있다. 본 단계에서는 클라이언트 정보 및 세금 계산서 필수 구성항목 중 공급자 및 공급받는자 정보에 기초하여 수익 또는 비용 계정으로 구분할 수 있다. 예컨대, 클라이언트 A로부터 수집된 세금 계산서에서, A가 필수 구성항목 중 공급자에 해당할 경우에는 해당 세금 계산서는 수익 계정으로 구분되고, 반대로 A가 공급받는자에 해당한다면 비용 계정으로 구분된다. 한편, 현금 영수증은 수익 계정으로 구분될 수도 있고 비용 계정으로 구분될 수도 있다. 웹 크롤링을 통해 수집된 현금 영수증 관련 데이터에는 현금 영수증의 목적이 매입 또는 매출 여부가 포함되어 있으므로, 본 단계에서는 웹크롤링 수집 데이터에 기초하여 목적을 구분한다. 한편, 카드 거래 내역서는 비용 계정으로 구분된다. First, depending on the document, the tax invoice may be divided into a revenue account or an expense account. In this step, it can be divided into revenue or expense accounts based on supplier and recipient information among the essential components of client information and tax invoice. For example, in a tax invoice collected from client A, if A corresponds to a supplier among the required components, the tax invoice is classified as a revenue account, and conversely, if A corresponds to a supplier, it is classified as an expense account. Meanwhile, the cash receipt may be divided into a revenue account or an expense account. Since the cash receipt-related data collected through web crawling includes whether the purpose of the cash receipt is purchase or sales, in this step, the purpose is classified based on the web crawling collected data. On the other hand, card transaction statements are divided into expense accounts.

다음, 각 세무 문서의 필수 구성항목 정보에 기초하여 수익 계정의 세무 문서는 매출액 또는 영업외수익 중 하나의 계정 과목으로 분류하고, 비용 계정의 세무 문서는 매출원가, 판관비 또는 법인세비용 중 하나의 계정 과목으로 분류한다. 예컨대, 거래 발생 지점, 거래 시간, 거래 장소, 동일 거래 빈도, 회사의 성격 중 적어도 하나의 정보에 기초하여 해당 세무 문서의 계정 과목을 분류할 수 있다. 그리고, 여기에 딥러닝 자연어 처리 모델(Transformer), 딥러닝 심층 신경망 모델(DNN, Deep Neural Network)을 활용한다. 예컨대, 상술한 거래 장소의 경우, 딥러닝 자연어 처리 모델을 활용해 거래 장소, 즉, 지출 매장 정보를 몇 가지로 분류하고, 분류된 지출 매장의 정보, 지출 시간대, 지출 장소, 지출 빈도, 회사의 성격을 딥러닝 심층 신경망 모델(DNN, Deep Neural Network)에 입력하여 해당 거래 내역에 계정 과목을 결정한다.Next, based on the required component information of each tax document, the tax documents of the income account are classified into one of the accounts of sales or non-operating income, and the tax documents of the expense account are one of the account subjects of cost of goods sold, SG&A expenses, or corporate tax expenses classified as For example, the account subject of the corresponding tax document may be classified based on information on at least one of a transaction occurrence point, transaction time, transaction location, same transaction frequency, and company characteristics. In addition, deep learning natural language processing model (Transformer) and deep learning deep neural network model (DNN, Deep Neural Network) are used here. For example, in the case of the above-mentioned transaction place, by using a deep learning natural language processing model, the transaction place, that is, the spending store information, is classified into several types, and the classified information of the spending store, the spending time period, the spending place, the spending frequency, the company's By entering the personality into a deep learning deep neural network model (DNN, Deep Neural Network), the account subject is determined in the transaction history.

세금 계산서의 경우, 세금 계산서 필수 구성항목 중, 공급자 정보 또는 공급받는자 정보, 거래 일자, 거래물품명 중 적어도 하나의 정보에 기초하여 계정 과목을 분류할 수 있다. 예컨대, 거래 일자는 수익 계정 또는 비용 계정을 구분하는데 활용되고, 거래물품은 계정 과목을 판관비로 분류하는데 활용될 수 있다. 한편, 카드 거래 내역서의 경우, 필수 구성항목 중 거래 일시, 가맹점명 중 적어도 하나의 정보에 기초하여 계정 과목을 분류할 수 있고, 현금 영수증의 경우, 필수 구성항목 중 거래일시, 거래 물품명, 상호 중 적어도 하나의 정보에 기초하여 계정 과목을 분류할 수 있다.In the case of a tax invoice, the account items may be classified based on at least one of supplier information or supplier information, a transaction date, and a transaction item name among the required components of the tax invoice. For example, a transaction date may be used to classify a revenue account or an expense account, and the transaction item may be used to classify an account item into SG&A expenses. On the other hand, in the case of a card transaction statement, account subjects can be classified based on at least one information among the transaction date and time and merchant name among the essential components. Account subjects may be classified based on one piece of information.

한편, 세무 문서 상의 거래가 정상 거래인지 이상 거래인지 여부를 구분하는 단계를 수행할 수 있다. 이상 거래는 매출 또는 매입된 거래의 진위가 의심되는 거래, 또는 업종과 연관되지 않는 매출과 매입인 경우를 의미한다. 이상 거래 판단 단계에서는 딥러닝 심층 신경망 모델(DNN, Deep Neural Network), 혹은 이상치 탐지 모델(Anomaly Detection Model)을 활용한다. 이러한 인공지능 모델이 클라이언트의 업종과 업태, 거래처의 업종과 업태, 거래 물품, 공급 가액, 거래 시간 등의 특징 정보에 기초하여 해당 거래의 이상 거래 여부를 판단한다.Meanwhile, a step of classifying whether the transaction on the tax document is a normal transaction or an abnormal transaction may be performed. Abnormal transactions refer to transactions in which the authenticity of sales or purchased transactions is questionable, or sales and purchases that are not related to the industry. In the abnormal transaction determination stage, a deep learning deep neural network model (DNN) or an anomaly detection model is used. This artificial intelligence model determines whether the transaction is abnormal based on characteristic information such as the client's business type and business type, the customer's business type and business type, transaction goods, supply price, and transaction time.

또한, 이후에는, 세무 문서 상의 거래 사항이 불공제 대상에 해당하는지 여부를 판단하는 단계를 수행할 수 있다. 즉, 해당 거래 사항이 불공제 대상은 아닌지 확인한다. 불공제 사항은 매입 거래에서만 발생하며 접대비 지출, 사적 사용, 차량 유류비 등의 항목은 불공제로 처리된다. 불공제 사항 판단은 세법에 의해 정해진 룰 기반(Rule-Based) 판단, 딥러닝 심층 신경망 모델(DNN, Deep Neural Network) 혹은 이상치 탐지 모델(Anomaly Detection Model)을 통해 이루어진다. 여기서, 룰 기반 판단은 클라이언트 단말의 업종 별로 불공정 거래에 속하는 사항들을 미리 결정하고, 해당 세무 문서의 거래 대상이 여기에 해당하는지 여부로 결정하는 방식을 의미한다. 예컨대, 클라이언트 단말(거래처)이 주유소이고 거래 물품이 유류비라면, 이 거래 사항은 불공제 사항이라고 판단할 수 있다. 또한 거래처의 업종과 업태, 거래 물품, 공급 가액, 거래 시간 등을 따져 사적 사용금액, 혹은 접대비라고 판단할 수도 있다.In addition, thereafter, the step of determining whether the transaction details on the tax document are non-deductible may be performed. In other words, it is checked whether the relevant transaction is not subject to deduction. Non-deductible items occur only in purchase transactions, and items such as entertainment expenses, private use, and vehicle fuel expenses are treated as non-deductible. Deduction of non-deductible items is made through rule-based judgment determined by the tax law, deep learning deep neural network model (DNN), or anomaly detection model (Anomaly Detection Model). Here, the rule-based determination refers to a method of determining in advance matters pertaining to unfair trade for each business type of the client terminal and determining whether a transaction target of the corresponding tax document corresponds to this. For example, if the client terminal (customer) is a gas station and the transaction item is fuel cost, it may be determined that the transaction item is non-deductible. In addition, it can be judged as the amount of private use or entertainment expenses by considering the business type and type of business of the customer, the goods to be traded, the supply price, and the transaction time.

한편, 세무 문서가 가산세 부과 대상인지 여부를 판단하는 단계를 수행할 수 있다. 여기에서는 룰 기반 판단이 사용된다. 룰 기반 판단은 세금 신고 기간을 미리 설정하고, 해당 세무 문서의 거래 일시 등이 신고 기간 내에 속하는지 여부로 가산세 부과 대상을 판단하는 단계이다. 예컨대 세금 신고 기간이 지난 이후에 처리되는 거래 내용이라면 세금 신고 기간 불이행에 따른 가산세 대상이라는 태그가 달린다.Meanwhile, a step of determining whether the tax document is subject to penalty tax may be performed. Here, rule-based judgment is used. Rule-based judgment is a step in which a tax filing period is set in advance and the subject of penalty tax is determined based on whether the transaction date and time of the relevant tax document falls within the reporting period. For example, if the transaction is processed after the tax return period has elapsed, a tag stating that it is subject to penalty for non-compliance with the tax return period is attached.

[전자 세무 문서 저장 과정][Electronic tax document storage process]

전술한 단계를 거쳐 세무 문서의 계정 과목이 분류된 이후에는, 전자 세무 문서를 전자 세무 문서 DB에 저장하는 단계를 수행할 수 있다. After the account subject of the tax document is classified through the above-described steps, the step of storing the electronic tax document in the electronic tax document DB may be performed.

구체적으로, 먼저, 세무 문서의 유형에 따른 문서 양식이 미리 저장된 세무 문서 정보 DB (도 2 참조)로부터 문서 양식을 불러온다. 세무 문서 정보 DB에는 각종 증빙 서류의 문서 양식이 저장되어 있다. 대표적으로, 도 6a에는 세무 문서의 일 유형으로서 영수증에 대한 문서 서식이 예시적으로 도시되어 있다.  다음, 문자열을 상기 문서 양식 내의 지정된 필드에 기입하여 세무 문서를 전자 세무 문서로 변환시킨다. 세무 문서 양식에는 적어도 하나의 필드가 존재한다. 도 6a의 영수증 문서 양식을 보면, 사업자 등록번호 필드, 상호 필드, 사업장 소재지 필드, 업태 필드, 종목 필드 등 공란의 필드가 복수 개 존재한다. 도 6b는 영수증의 전자 문서를 예시적으로 나타낸 것으로서, 도 5b의 텍스트들(예컨대, 사업자 번호, 사업장 주소, 업종, 거래 금액, 발급 날짜 및 시간 등)을 도 6a의 영수증 문서 양식 내의 복수의 대응하는 필드에 기입하여 하나의 전자 세무 문서를 생성한 것이다. Specifically, first, the document form is called from the tax document information DB (see FIG. 2 ) in which the document form according to the type of tax document is stored in advance. In the tax document information DB, document forms of various supporting documents are stored. Representatively, a document format for a receipt as one type of tax document is exemplarily shown in FIG. 6A . Then, the tax document is converted into an electronic tax document by filling in the string in the designated field in the document form. There is at least one field in the tax document form. Looking at the receipt document form of FIG. 6A , a plurality of blank fields such as a business registration number field, a trade name field, a business location field, a business type field, and an item field exist. 6B is an exemplary view of an electronic document of a receipt, and the texts of FIG. 5B (eg, business number, business address, industry type, transaction amount, issuance date and time, etc.) of a plurality of correspondence in the receipt document form of FIG. 6A By filling in the fields to create one electronic tax document.

다음, 위와 같이 생성된 전자 세무 문서를 전자 세무 문서 DB에 저장한다. 이 때 도 6b처럼 이미지 형태의 전자 세무 문서뿐 아니라 도 6b를 생성하기 위해 분류한 문서 유형, 문서 정보 등을 전자 문서 DB에 Table 형태 혹은 JSON 형태 등으로 함께 저장한다.Next, the electronic tax document generated as above is stored in the electronic tax document DB. At this time, as shown in Fig. 6b, not only the electronic tax document in the form of an image, but also the document type and document information classified to generate Fig. 6b are stored together in the form of Table or JSON in the electronic document DB.

이와 같이 생성된 전자 세무 문서는 세 가지 특징을 갖는다. 첫 번째, 사용자는 세무 법인(세무 대리인) 단말과 클라이언트 단말을 통해 전자 문서에 접근할 수 있다. 두 번째, 전자 세무 문서는 유형별, 목적별로 분류되어 있다. 세 번째, 전자 세무 문서에는 문서 유형별 필수 항목에 관한 정보가 포함되어 있다. 예컨대, 신용카드 매출 전표가 전자화되어 있다면, 상기 전자 세무 문서는 '신용카드 매출전표'라는 문서 유형 정보, 부가가치세 납부를 위한 매출 증빙 목적 정보, 상호명과 사업자 번호, 매출액 등 필수 항목에 관한 정보를 포함한다.The generated electronic tax document has three characteristics. First, the user can access the electronic document through the tax corporation (tax agent) terminal and the client terminal. Second, electronic tax documents are classified by type and purpose. Third, e-tax documents contain information about mandatory items for each type of document. For example, if the credit card sales slip is electronic, the electronic tax document includes information on the type of document called 'credit card sales slip', information on the purpose of proof of sales for VAT payment, and information on essential items such as business name, business number, and sales. do.

[세무 문서 수집 및 분류 자동화 장치][Tax document collection and classification automation device]

도 2는 본 발명의 일 실시예에 따른 세무 문서 수집 및 분류 자동화 장치의 구성을 개략적으로 도시한 블록도이다. 도면을 참조하면, 본 발명의 자동화 장치(100)는 세무 문서 수집부(110), 전자 세무 문서 변환부(150) 및 전자 세무 문서 저장부(180)를 포함한다.2 is a block diagram schematically illustrating the configuration of a tax document collection and classification automation apparatus according to an embodiment of the present invention. Referring to the drawings, the automated device 100 of the present invention includes a tax document collection unit 110 , an electronic tax document conversion unit 150 , and an electronic tax document storage unit 180 .

세무 문서 수집부(110)는 웹 크롤링 수행부(111)를 포함하며, 웹 크롤링 수행부(111)는 웹 크롤링에 의해 적어도 하나의 웹 사이트로부터 클라이언트 단말에 관련된 적어도 하나의 세무 문서를 수집하는 단계를 수행한다. 웹 크롤링 수행부(111)는 세무법인 단말에서 별도의 요청이 없어도 미리 정해진 주기에 따라 정기적으로 클라이언트 단말과 관련된 세무 문서를 자동으로 수집한다. 상기 웹 크롤링의 대상은 홈택스, 여신금융협회 등 클라이언트 단말과 관련된 세무 문서를 수집할 수 있는 모든 웹사이트를 포함할 수 있다. 웹 크롤링을 수행하기 전에 세무법인 단말은 클라이언트 단말에 대하여 특정 웹 사이트에 접근 권한 혹은 ID 및 PW를 제공해줄 것을 요청할 수 있고, 클라이언트 단말로부터 상기 웹사이트에서 제공하는 자사의 세무 정보에 접근할 수 있는 권한, 혹은 ID와 PW를 수신할 수 있다. 예컨대, 세무 법인 단말은 홈택스의 세무대리인 수임 동의를 사전에 제공받음으로써 원활하게 클라이언트 단말과 관련된 세무 문서에 접근할 수 있다. 또한, 세무 법인 단말은 클라이언트 단말에 대해 웹 크롤링 대상 웹 사이트의 사전 등록을 요청할 수 있고, 세무 법인 단말은 클라이언트 단말로부터 선택된 일부의 웹 사이트에 대해서만 웹 크롤링을 수행하도록 설정될 수도 있다. 세무 법인 단말은 상기 웹사이트로부터 예컨대, 클라이언트 단말의 (1) 전자 세금 계산서, (2) 신용카드 매출 및 매입 데이터, (3) 현금영수증 매출 및 매입 데이터 등을 수집한다. 웹 크롤링을 통해 웹 사이트로부터 획득하는 데이터는 세무 문서가 포함하는 세부적인 정보들에 대한 문자열(예컨대, 매장 이름, 거래 시간, 거래 주소 등)일 수 있다.The tax document collection unit 110 includes a web crawling unit 111, and the web crawling unit 111 collects at least one tax document related to the client terminal from at least one web site by web crawling. carry out The web crawling performing unit 111 automatically collects tax documents related to the client terminal regularly according to a predetermined cycle without a separate request from the tax firm terminal. The target of the web crawling may include all websites that can collect tax documents related to client terminals, such as home tax and credit finance association. Before performing web crawling, the tax firm terminal may request the client terminal to provide access right or ID and PW to a specific website, and the client terminal may access its tax information provided by the website. You can receive authority, or ID and PW. For example, the tax office terminal can smoothly access tax documents related to the client terminal by receiving the consent of Hometax's tax agent appointment in advance. In addition, the tax office terminal may request the client terminal to pre-register the web crawling target web site, and the tax corporation terminal may be set to perform web crawling only on some web sites selected from the client terminal. The tax corporation terminal collects, for example, (1) electronic tax invoice, (2) credit card sales and purchase data, (3) cash receipt sales and purchase data, etc. of the client terminal from the website. Data obtained from the web site through web crawling may be a string (eg, store name, transaction time, transaction address, etc.) for detailed information included in the tax document.

한편, 세무 문서 수집부(110)는 문서 요청/수신부(113)를 더 포함할 수 있고, 여기서는 클라이언트 단말에 대하여 필요한 적어도 하나의 세무 문서의 송부를 요청하는 단계, 클라이언트 단말로부터 세무 문서를 수신하는 단계를 수행한다. 그리고, 세무 문서를 요청하는 단계는 세무법인 단말의 명령에 의해 비정기적으로 수행될 수 있다. 먼저, 문서 요청/수신부(113)는 미리 결정된 세무 문서들을 송부해줄 것을 클라이언트 단말에 요청한다. 이 때, 세금 신고 종류별로 필요한 세무 문서에 대한 정보는 예컨대 위 표 1과 같이 미리 지정되어 있고, 이러한 정보는 세무 문서 정보 DB에 미리 저장되어 있을 수 있다. 문서 요청/수신부(113)는 세무 문서 정보 DB로부터 세무 문서 리스트를 불러와 클라이언트 단말에 해당 리스트 상의 문서를 송부할 것을 요청한다. 세무법인 단말과 클라이언트 단말 간에는 별도의 메신저 프로그램을 통해 통신할 수 있으며, 문서 요청/수신부(113)는 세무 문서 리스트를 예컨대 카카오톡 메신저를 통해 클라이언트 단말에 전송할 수 있다. 이후, 클라이언트 단말로부터 세무 문서를 수신한다.On the other hand, the tax document collecting unit 110 may further include a document requesting/receiving unit 113, wherein the step of requesting the transmission of at least one required tax document to the client terminal, receiving the tax document from the client terminal Follow the steps. And, the step of requesting the tax document may be performed irregularly by the command of the tax firm terminal. First, the document requesting/receiving unit 113 requests the client terminal to transmit predetermined tax documents. In this case, information on tax documents required for each type of tax return is predetermined, for example, as shown in Table 1 above, and this information may be stored in advance in the tax document information DB. The document requesting/receiving unit 113 retrieves a list of tax documents from the tax document information DB and requests the client terminal to transmit the documents on the list. The tax office terminal and the client terminal may communicate through a separate messenger program, and the document requesting/receiving unit 113 may transmit a tax document list to the client terminal through, for example, KakaoTalk messenger. Thereafter, the tax document is received from the client terminal.

한편, 본 발명의 일 실시예에 따른 장치(100)는, 문서 요청/수신부(113)에 의해 수신된 적어도 하나의 세무 문서를 상기 요청한 세무 문서와 비교하여 세무 문서의 수신 누락 여부를 판단하는 문서 누락 판단부(160)를 더 포함할 수 있다. 문서 누락 판단부(160)는, 누락된 세무 문서가 존재할 경우, 세무법인 단말의 지시에 의해, 누락된 세무 문서의 송부 요청 메시지를 세무법인 단말에 미리 설치된 메신저 프로그램을 통해 클라이언트 단말에 전송하도록 구성된다. On the other hand, the apparatus 100 according to an embodiment of the present invention compares at least one tax document received by the document requesting/receiving unit 113 with the requested tax document to determine whether the receipt of the tax document is omitted. The omission determination unit 160 may be further included. The document omission determination unit 160 is configured to, when there is a missing tax document, transmit a message requesting transmission of the missing tax document to the client terminal through a messenger program pre-installed in the tax firm terminal by the instruction of the tax firm terminal do.

앞서 설명한 바와 같이, 문서 누락 판단부(160)의 상술한 수신 누락 판단을 통해 요청한 세무 문서가 모두 수집된 이후에 후술하는 문서 유형 분류 단계를 수행할 수 있고(도 4a 참조), 또한, 문서 누락 판단부(160)의 수신 누락 판단은 문서 유형 분류 단계 이후에 수행될 수도 있다(도 4b 참조). 구체적으로 설명하면, 수신된 세무 문서는 그 유형이 미리 특정되어 있을 수도 있고, 문서 유형이 불특정 상태로 수신될 수도 있는데, 문서의 유형을 특정할 수 있는 경우에는 세무 문서의 유형을 추가로 분류하지 않더라도 문서 누락 판단부(160)에서 해당 세무 문서를 세무법인 단말이 요청한 세무 문서와 비교할 수 있기 때문에, 도 4a와 같이, 문서 누락 판단은 문서 유형 분류 이전에 수행 가능하다. 하지만, 문서의 유형을 특정할 수 없는 경우에는 해당 세무 문서가 어떤 유형의 문서인지 파악해야 문서 누락 여부를 판단할 수 있다. 따라서, 도 4 b에 도시된 바와 같이, 문서 누락 판단부(160)의 수신 누락 판단은 문서 유형 분류 단계 이후에 수행될 수도 있다. 위 두 가지 경우 모두에 있어서, 만일 누락된 세무 문서가 발견된 경우, 문서 누락 판단부(160)는 세무법인 단말의 명령에 의해, 누락된 세무 문서의 송부 요청 메시지를 세무법인 단말에 미리 설치된 메신저 프로그램을 통해 클라이언트 단말에 전송, 즉 메신저를 통해 세무 문서를 다시 요청할 수 있다. 문서 누락 판단부(160)에서 문서의 누락 여부를 판단하는 방법은 앞서 설명한 바와 같다. As described above, the document type classification step to be described later may be performed after all requested tax documents are collected through the above-described reception omission determination of the document omission determination unit 160 (see FIG. 4a ), and also, document omission Determination of reception omission by the determination unit 160 may be performed after the document type classification step (refer to FIG. 4B ). Specifically, the type of the received tax document may be specified in advance, or the document type may be received in an unspecified state. If the type of document can be specified, the tax document type is not further classified. Even if the document omission determination unit 160 can compare the tax document with the tax document requested by the tax firm terminal, as shown in FIG. 4A , the document omission determination can be performed prior to document type classification. However, if the type of document cannot be specified, it is necessary to determine what type of tax document the tax document is in order to determine whether the document is missing. Accordingly, as shown in FIG. 4B , the reception omission determination by the document omission determining unit 160 may be performed after the document type classification step. In both cases, if a missing tax document is found, the document omission determination unit 160 transmits a message requesting transmission of the missing tax document to the tax firm terminal by the command of the tax firm terminal in advance. The tax document can be requested again by sending it to the client terminal through the program, that is, through the messenger. A method of determining whether a document is omitted by the document omission determining unit 160 is the same as described above.

한편, 본 발명의 일 실시예에 따른 장치(100)는 전자 세무 문서 변환부(150)를 포함하며, 여기에는 세무 문서의 유형을 분류하는 문서 유형 분류부(151), 세무 문서에 포함된 적어도 하나의 문자열 각각에 대하여 의미를 파악하는 문서 정보 분류부(153) 및 세무 문서에 대하여 계정 과목을 분류하는 계정 과목 분류부(155)가 포함된다. On the other hand, the device 100 according to an embodiment of the present invention includes an electronic tax document conversion unit 150, which includes a document type classification unit 151 for classifying types of tax documents, at least included in the tax document A document information classifying unit 153 for understanding the meaning of each character string and an account subject classifying unit 155 for classifying account subjects for tax documents are included.

가. 문서 유형 분류부(151)go. Document type classification unit (151)

문서 유형 분류부(151)는 입력된 이미지 형태의 세무 문서를 여러가지 세무 문서 유형들 중 하나의 유형으로 분류하는 단계를 수행한다. 여기서 세무 문서의 유형으로는 영수증, 계산서, 세금계산서, 신용카드 매출전표, 현금영수증, 통장 입출금 내역서 등 세금 신고시 증빙용으로 사용 가능한 일체의 서류가 해당될 수 있다. The document type classification unit 151 performs a step of classifying the input tax document in the form of an image into one of various tax document types. Here, the type of tax document may be any document that can be used as proof when filing a tax return, such as receipts, bills, tax invoices, credit card sales slips, cash receipts, and bankbook deposit and withdrawal statements.

구체적으로, 문서 유형 분류부(151)는 인공신경망을 이용하여, 수집된 세무 문서에 포함된 복수의 문자열 중 특정 단어들의 출현 빈도에 근거하여 세무 문서의 유형을 각 세무 문서 별로 분류한다. 인공신경망은 후술하는 바와 같이, 복수의 문자열들과 문자열에 대응하는 세무 문서의 유형을 설정하여 학습 데이터를 생성하는 단계, 학습 데이터를 이용하여 인공신경망(ANN)을 학습시키는 단계를 통해 사전에 미리 학습된다.Specifically, the document type classification unit 151 classifies the tax document type for each tax document based on the frequency of occurrence of specific words among a plurality of character strings included in the collected tax documents using an artificial neural network. As will be described later, the artificial neural network generates learning data by setting a plurality of strings and the type of tax document corresponding to the string, and trains the artificial neural network (ANN) using the learning data in advance. is learned

한편, 문서 유형 분류부(151)는 자연어 처리 기술 및 이미지 처리 기술을 사용한다. 수집된 세무 문서의 복수의 문자열을 특징 정보 세트(표 1 참조)와 비교한 결과, 세무 문서가 특정 유형의 세무 문서가 갖는 특징 정보에 해당하는 단어를 다수 포함하고 있다면, 이에 근거하여 해당 세무 문서의 유형을 특정할 수 있다. Meanwhile, the document type classification unit 151 uses a natural language processing technology and an image processing technology. As a result of comparing the plurality of strings of the collected tax documents with the set of characteristic information (see Table 1), if the tax document contains a number of words corresponding to characteristic information of a specific type of tax document, based on this, the tax document type can be specified.

이때, 세무 문서 수집부(110)의 웹크롤링 수행부에서 크롤링을 통해 정기적으로 수집한 세무 문서가 아니라, 문서 요청/수신부(113)에서 비정기적으로 수집한 세무 문서의 경우에는, 세무 문서를 수신한 이후에, 광학 문자 인식을 통해 세무 문서에 포함된 복수의 문자열을 추출하는 과정을 먼저 수행한다. 광학 문자 인식 기술을 이용해 세무 문서 내부의 문자열(텍스트)을 추출한다(도 5a 참조). 광학 문자 인식의 결과는, 위치 정보(x좌표, y좌표, 높이, 폭)와 해당 위치적 공간에 존재하는 문자열(텍스트)이다. 이후, 수집된 세무 문서에서 추출된 문자열을 특징 정보 세트와 비교하여 세무 문서의 유형을 분류한다.At this time, in the case of tax documents irregularly collected by the document requesting/receiving unit 113 , rather than the tax documents regularly collected through crawling by the web crawling execution unit of the tax document collection unit 110 , the tax documents are received. After that, the process of extracting a plurality of strings included in the tax document through optical character recognition is performed first. Extract the character string (text) inside the tax document using optical character recognition technology (see Fig. 5a). The result of optical character recognition is positional information (x-coordinate, y-coordinate, height, width) and a character string (text) existing in the corresponding positional space. Thereafter, the string extracted from the collected tax documents is compared with the feature information set to classify the tax document type.

한편, 전자 세무 문서 변환부(150)는 인공지능 의사결정부(157)를 더 포함하며, 여기서는 하나의 세무 문서를 다른 유형의 세무 문서와 구분할 수 있는 특징 정보들이 세무 문서 유형마다 수록된 특징 정보 세트를 미리 정의하고, 각종 세무 관련 문서에 포함된 문자열을 입력값으로 하여 자연어 처리 모델 'Transformer'을 학습시키는 단계를 수행한다. 수집된 세무 문서에 포함된 복수의 문자열을 자연어처리 딥러닝 모델인 Transformer에 입력하면 각각의 문자열에 해당하는 특징 정보들이 출력된다. 그리고, 하나의 세무 문서를 다른 유형의 세무 문서와 구분할 수 있는 특징 정보들이 세무 문서 유형마다 수록된 특징 정보 세트가 미리 정의된 특징 정보 저장부를 더 포함할 수 있다. 인공지능 의사결정부(157)에서는 문서 유형 분류부(151)와 함께 학습된 인공신경망을 통해 세무 문서의 유형을 분류한다.On the other hand, the electronic tax document conversion unit 150 further includes an artificial intelligence decision-making unit 157, wherein the characteristic information for distinguishing one tax document from another type of tax document is a characteristic information set in which each tax document type is included. is defined in advance, and the natural language processing model 'Transformer' is trained using strings included in various tax-related documents as input values. When a plurality of strings included in the collected tax documents are input into Transformer, a natural language processing deep learning model, characteristic information corresponding to each string is output. In addition, a characteristic information storage unit in which a characteristic information set in which characteristic information for distinguishing one tax document from another type of tax document is included for each type of tax document is defined in advance may be further included. The artificial intelligence decision-making unit 157 classifies the tax document type through the artificial neural network learned together with the document type classification unit 151 .

한편, 본 발명에 따른 문서 유형 분류부(151)는 전술한 바와 같은 문자열의 출현 빈도로부터 문서 유형을 분류하는 방식과 별개로, 이미지 처리 기술을 활용하여 문서의 유형을 분류할 수도 있다. 그리고, 여기에는 이미지 처리 기술을 사용한다. 이미지 처리 기술은 딥러닝 모델(CNN, Convolutional Neural Network)을 활용하여 문서의 이미지를 통해 문서의 유형을 분류하는 기술이다. CNN 모델은 이미지 구별에 강점이 있는 딥러닝 모델로써 문서의 이미지 정보를 학습한다. 예컨대, 신용카드 전표의 경우 왼쪽에는 항목이 배치되고 오른쪽에 숫자 등이 배치되어 있는 특징이 있고, 세금계산서의 경우에는 도 6c에 도시된 것과 같이 격자 형식을 갖는 것을 학습한다. 딥러닝 모델(CNN)을 학습시키는 과정에서 이와 같은 이미지 특성이 학습되며 세무 문서의 이미지가 입력되면, 기계 학습을 통해 복수의 세무 문서 유형 중 입력된 세무 문서의 이미지와 가장 가까운 세무 문서의 유형을 판별하고, 이를 출력한다. 이때, 문서 유형 분류부(151)는 유형 분류의 결과를 확률로 제공할 수 있다. Meanwhile, the document type classification unit 151 according to the present invention may classify the document type by using an image processing technology, separately from the method of classifying the document type based on the frequency of occurrence of the character string as described above. And, it uses image processing technology. Image processing technology is a technology for classifying document types through images of documents using a deep learning model (CNN, Convolutional Neural Network). The CNN model is a deep learning model with strength in image discrimination and learns image information of documents. For example, in the case of a credit card slip, items are arranged on the left and numbers are arranged on the right, and in the case of a tax invoice, learning to have a grid format as shown in FIG. 6C . In the process of training a deep learning model (CNN), such image characteristics are learned and when an image of a tax document is input, the type of tax document closest to the image of the input tax document is selected through machine learning among multiple tax document types. Determine it and print it out. In this case, the document type classification unit 151 may provide the result of the type classification as a probability.

한편, 본 발명에 따른 문서 유형 분류부(151)는, 전술한 자연어 이해 기술을 이용한 유형 분류 결과(문자열의 출현 빈도에 기반한 유형 분류라 칭함)와, 이미지 처리 기술을 이용한 유형 분류 결과(이미지에 기반한 유형 분류라 칭함)를 모두 고려하여 보다 높은 정확도의 문서 유형 판별을 수행할 수 있다. 즉, 두 가지 유형 분류의 결과가 일치하는 경우 해당 문서의 유형을 확정하고, 만일 일치하지 않는 경우에는 문서 유형 분류 프로세스를 재실행할 수 있다. On the other hand, the document type classification unit 151 according to the present invention provides a type classification result using the above-described natural language understanding technology (referred to as a type classification based on the frequency of appearance of a character string) and a type classification result using an image processing technology (in images). It is possible to perform high-accuracy document type discrimination by considering all of the based type classification). That is, if the results of the two types of classification match, the document type is determined, and if they do not match, the document type classification process may be re-executed.

나. 문서 정보 분류부(153)me. Document information classification unit (153)

문서 정보 분류부(153)는 세무 문서에 포함된 복수의 문자열 각각을 미리 정의된 세무 문서별 필수 구성항목들 중 하나로 매칭한다. 세무 문서마다 필수적으로 포함하고 있는 정보(이하, 필수 구성항목)가 존재한다. 예컨대, 신용카드 전표의 경우 필수 구성항목은 가맹점명, 사업자번호, 주소, 구매 물품, 구매 금액 등이다. 세무 문서별 필수 구성항목은 사전에 정의되어 세무 문서 정보 DB에 저장되어 있다(위 표 3 참조). 참고로, 전술한 특징 정보는 세무 문서의 유형을 구분하기 위한 특징을 갖는 정보들로 이루어지고, 필수 구성항목은 일단 유형이 정해진 세무 문서라면 반드시 포함하여야 하는 정보를 지칭하기 때문에, 필수 구성항목은 전술한 특징 정보와 일치하지 않을 수 있다.The document information classifying unit 153 matches each of the plurality of character strings included in the tax document to one of predefined essential components for each tax document. There is information that is essential for each tax document (hereafter, essential components). For example, in the case of a credit card slip, essential constituent items are the merchant name, business number, address, purchased product, purchase amount, and the like. Required components for each tax document are defined in advance and stored in the tax document information DB (see Table 3 above). For reference, since the above-described characteristic information consists of information having characteristics for distinguishing the types of tax documents, and the essential components refer to information that must be included once the types of tax documents are set, the essential components are It may not coincide with the above-described characteristic information.

문서 정보 분류부(153)는, 자연어 처리 기술을 이용하여 상기 문자열의 언어적 특성에 기초하여 해당 문자열의 의미를 필수 구성항목들 중 하나로 매칭하는 단계를 수행한다. 예컨대, 세무 문서가 문서 유형 분류 단계에서 “신용카드 전표”로 유형 분류된 경우, 필수 구성항목은 위 표 3을 참조하면 가맹점명, 사업자번호, 주소, 구매 물품, 구매 금액의 5가지이다. 해당 세무 문서의 광학 문자 인식 결과 문자열이 “가맹점 명”인 경우 이를 “가맹점명”이라는 필수 구성항목으로 분류하고, 문자열이 “사업자 번호”인 경우 이를 “사업자 등록 번호”라는 필수 구성항목으로 분류한다.The document information classification unit 153 performs a step of matching the meaning of the character string to one of essential constituent items based on the linguistic characteristics of the character string using natural language processing technology. For example, if a tax document is classified as “credit card slip” in the document type classification step, referring to Table 3 above, the required components are 5 types of merchant name, business number, address, purchased item, and purchase amount. If the string as a result of optical character recognition of the tax document is “merchant name”, it is classified as a mandatory component of “merchant name”, and if the string is “business number”, it is classified as a required component of “business registration number”.

이때, 문서 정보 분류부(153)는 자연어 처리 기술을 이용할 수 있다. 구체적으로 설명하면, 문자열에 따라서 전술한 사례와 같이, 해당 문자열이 담고 있는 의미가 문자열에 노출되어 있어 별도의 의미 해석 없이 문자열로부터 곧바로 특징 정보를 파악할 수도 있는 경우도 있지만, 문자열 자체로는 의미 정보를 부여하기 어렵고 문자열의 의미를 이해한 후 비로소 그 문자열이 담는 특징 정보를 분류하는 경우도 있다. 전자의 경우, 예를 들어 설명하면, “카드 번호”, “주소”, “가맹점 명” 등의 문자열은 그 자체가 각각 카드 번호라는 특징 정보, 주소라는 특징 정보, 가맹점 이름이라는 특징 정보로 직접 분류된다. 이에 반해, 후자의 경우에는 문자열의 언어적 특성을 활용하여 정보를 분류한다. 그리고, 여기에 자연어 이해 기술이 사용되며, 자연어 처리는 인공 지능의 주요 분야로서, 기계 학습 기법, 통계적 자연어 처리 기법, 딥러닝 기법이 자연어 이해에 활용된다. 구체적인 예시로는 “주소”와 관련하여 전술한 바를 인용한다. 한편, 세무 문서마다 동일한 정보를 다양한 다른 문자로 표현하고 있을 수 있기 때문에, 특정한 필수 구성항목(예컨대 거래 일자)를 의미하는 문자열들을 개방형(예컨대, 거래일, 거래 날짜, 거래 일시, 거래시간, 판매일, 판매 시기 등)으로 정의하는 것이 바람직하다.In this case, the document information classification unit 153 may use natural language processing technology. More specifically, depending on the character string, as in the case described above, the meaning of the character string is exposed to the character string, so that characteristic information can be grasped directly from the character string without separate interpretation of the meaning. In some cases, it is difficult to assign a character string, and the characteristic information contained in the string is classified only after understanding the meaning of the string. In the former case, for example, character strings such as “card number”, “address”, and “merchant name” are directly classified into characteristic information such as card number, characteristic information such as address, and characteristic information such as merchant name, respectively. do. In contrast, in the latter case, information is classified using the linguistic characteristics of character strings. And, natural language understanding technology is used here, and natural language processing is a major field of artificial intelligence, and machine learning techniques, statistical natural language processing techniques, and deep learning techniques are used for natural language understanding. As a specific example, the foregoing in relation to “address” is cited. On the other hand, since the same information may be expressed in a variety of different characters for each tax document, character strings meaning specific essential components (eg, transaction date) are opened (eg, transaction date, transaction date, transaction date, transaction time, sale date). , sales period, etc.).

한편, 문서 정보 분류부(153)는, 이미지 처리 기술을 이용하여 문자열의 위치적 특성에 기초하여 해당 문자열의 의미를 필수 구성항목들 중 하나로 매칭하는 단계를 더 수행할 수 있다. 문서 유형에 따라 특정 정보가 특정 위치에 존재하는 형식 문서가 있고, 특정 정보의 위치가 제각각 다른 무형식 문서가 있다. 세금 계산서와 같이 공통의 형식이 정해져 있는 유형식의 세무 문서의 경우, 해당 세무 문서에 대해서는 위치적 특성을 활용하여 정보 분류가 가능하다. 예를 들어, 세금 계산서에는 합계 금액이 통상적으로 세금계산서의 우측 하단에 배치되는 특성이 있다(도 6c 참조). 따라서, 이러한 위치적 특성을 통해 해당 세무 문서에 “합계 금액”을 의미하는 정보를 포함하는 것으로 판단할 수 있다. 이를 수행하기 위해, 정보와 위치적 특성 사이의 관계가 사전에 정의되어야 하며, 구체적인 설명은 앞서 표 2와 관련하여 설명한 바와 같다. Meanwhile, the document information classification unit 153 may further perform a step of matching the meaning of the string to one of the essential constituent items based on the positional characteristics of the string using image processing technology. Depending on the document type, there is a formal document in which specific information exists in a specific location, and in an informal document in which the location of specific information is different. In the case of tangible tax documents that have a common format, such as a tax invoice, information can be classified using location characteristics for the tax documents. For example, in a tax invoice, the total amount is usually placed in the lower right corner of the tax invoice (see FIG. 6c ). Therefore, it can be determined that the tax document includes information meaning “total amount” through such locational characteristics. To do this, a relationship between information and location characteristics should be defined in advance, and a detailed description is the same as described in relation to Table 2 above.

한편, 본 발명에 따른 장치(100)는 정보 누락 판단부(170)를 더 포함한다. 이전 단계에서 세무 문서가 하나의 유형으로 분류되었으면, 해당 세무 문서에 필수 구성항목이 모두 담겨 있는지 확인하여야 한다. 예컨대, 비정기적으로 수집한 세무 문서의 경우, 세무 문서 원본 이미지에는 필수 항목 5가지가 모두 포함되어 있지만, 광학 문자 인식에서 인식 실패하여 4가지 항목만 추출된 경우도 있고, 또는 세무 문서 원본 이미지 자체에 필수 항목 5가지 중 한가지 정보가 누락된 경우도 있을 수 있다. 필수 구성항목은 위 표 3과 같이 사전에 정의되어 세무 문서 정보 DB에 저장되어 있을 수 있다. 정보 누락 판단부(170)에서는, 복수의 문자열 각각에 매칭된 필수 구성항목을 사전에 지정되어 있는 필수 구성항목과 비교하여 정보의 누락 여부를 확인한다. 비교 결과, 몇몇 필수 구성항목의 누락이 존재하여 전자 세무 문서로써 부적합하다고 판단될 경우, 세무법인 단말에 대하여 정보의 입력을 요청한다. 예컨대, 누락 정보를 수동으로 입력할 수 있는 창이 노출되도록 디스플레이 할 수 있다. 세무법인 단말에 정보 수동 입력창이 팝업되어 세무사로부터 수동으로 정보를 입력 받도록 한다.Meanwhile, the apparatus 100 according to the present invention further includes an information omission determining unit 170 . If the tax documents were classified as one type in the previous step, it should be checked whether the tax documents contain all the required components. For example, in the case of irregularly collected tax documents, the original image of the tax document contains all 5 required items, but in some cases, only 4 items were extracted due to a failure in optical character recognition, or the original image of the tax document itself There may be cases where one of the five essential items is missing. Required configuration items may be defined in advance as shown in Table 3 above and stored in the tax document information DB. The information omission determining unit 170 checks whether information is missing by comparing the essential configuration items matched to each of the plurality of character strings with the pre-designated essential configuration items. As a result of comparison, if it is judged that the electronic tax document is inappropriate due to the omission of some essential components, information input is requested to the terminal of the tax firm. For example, a window for manually inputting missing information may be displayed to be exposed. The information manual input window pops up on the terminal of the tax firm to manually input information from the tax accountant.

다. 계정 과목 분류부(155)All. Account Subject Classification Unit (155)

계정 과목 분류부(155)는 세무 문서에 대하여 계정 과목을 분류하는 계정 과목 분류 단계를 수행한다. 계정 과목을 분류하는 것은 해당 세무 문서의 목적을 지정하는 것이다. 그리고, 계정 목적 분류가 완료된 이후 비로서 세금 신고에 사용되는 자료가 될 수 있다. The account subject classification unit 155 performs an account subject classification step of classifying account subjects with respect to tax documents. Categorizing an account subject specifies the purpose of the tax document in question. And, after the account purpose classification is completed, it may become data used for tax return.

구체적으로, 계정 과목 분류부(155)는 수신된 세무 문서를 수익 또는 비용 중 하나로 목적 구분하고, 각 세무 문서의 필수 구성항목 정보에 기초하여 수익 계정의 세무 문서는 매출액 또는 영업외수익 중 하나의 계정 과목으로 분류하고, 비용 계정의 세무 문서는 매출원가, 판관비 또는 법인세비용 중 하나의 계정 과목으로 분류한다. 이를 위해 본 발명에서는 딥러닝 심층 신경망 모델(DNN, Deep Neural Network)을 활용한다.Specifically, the account subject classification unit 155 classifies the received tax document as one of revenue or expense, and based on the required component information of each tax document, the tax document of the revenue account is one of sales or non-operating income. The tax documents of the expense account are classified as one of the account items of cost of goods sold, SG&A expenses, or corporate tax expenses. To this end, the present invention utilizes a deep learning deep neural network model (DNN, Deep Neural Network).

먼저, 계정 과목 분류부(155)에서 계정 과목을 분류를 위해, 수신된 세무 문서를 수익 또는 비용 중 하나로 목적 구분하는 단계를 수행한다. 수집되는 세무 문서는 대표적으로 세금 계산서, 현금 영수증 및 카드 거래 내역서 중 하나의 유형으로 분류될 수 있고, 이들 유형은 수익 계정 또는 비용 계정 중 하나로 구분될 수 있다. 먼저, 세금 계산서는 문서에 따라 수익 계정으로 구분될 수도 있고 비용 계정으로 구분될 수도 있다. 본 단계에서는 클라이언트 정보 및 세금 계산서 필수 구성항목 중 공급자 및 공급받는자 정보에 기초하여 수익 또는 비용 계정으로 구분할 수 있다. 한편, 현금 영수증은 수익 계정으로 구분될 수도 있고 비용 계정으로 구분될 수도 있다. 웹 크롤링을 통해 수집된 현금 영수증 관련 데이터에는 현금 영수증의 목적이 매입 또는 매출 여부가 포함되어 있으므로, 본 단계에서는 웹크롤링 수집 데이터에 기초하여 목적을 구분한다. 한편, 카드 거래 내역서는 비용 계정으로 구분된다. First, in order to classify the account subject in the account subject classification unit 155, the purpose of classifying the received tax document into one of revenue or expense is performed. The collected tax documents may be typically classified into one type of tax invoices, cash receipts, and card transaction statements, and these types may be classified as either income accounts or expense accounts. First, depending on the document, the tax invoice may be divided into a revenue account or an expense account. In this step, it can be divided into revenue or expense accounts based on supplier and recipient information among the essential components of client information and tax invoice. Meanwhile, the cash receipt may be divided into a revenue account or an expense account. Since the cash receipt-related data collected through web crawling includes whether the purpose of the cash receipt is purchase or sales, in this step, the purpose is classified based on the web crawling collection data. On the other hand, card transaction statements are divided into expense accounts.

다음, 계정 과목 분류부(155)는, 각 세무 문서의 필수 구성항목 정보에 기초하여 수익 계정의 세무 문서는 매출액 또는 영업외수익 중 하나의 계정 과목으로 분류하고, 비용 계정의 세무 문서는 매출원가, 판관비 또는 법인세비용 중 하나의 계정 과목으로 분류한다. 예컨대, 거래 발생 지점, 거래 시간, 거래 장소, 동일 거래 빈도, 회사의 성격 중 적어도 하나의 정보에 기초하여 해당 세무 문서의 계정 과목을 분류할 수 있다. 그리고, 여기에 딥러닝 자연어 처리 모델(Transformer), 딥러닝 심층 신경망 모델(DNN, Deep Neural Network)을 활용한다. 예컨대, 상술한 거래 장소의 경우, 딥러닝 자연어 처리 모델을 활용해 거래 장소, 즉, 지출 매장 정보를 몇 가지로 분류하고, 분류된 지출 매장의 정보, 지출 시간대, 지출 장소, 지출 빈도, 회사의 성격을 딥러닝 심층 신경망 모델(DNN, Deep Neural Network)에 입력하여 해당 거래 내역에 계정 과목을 결정한다. 세금 계산서의 경우, 세금 계산서 필수 구성항목 중, 공급자 정보 또는 공급받는자 정보, 거래 일자, 거래물품명 중 적어도 하나의 정보에 기초하여 계정 과목을 분류할 수 있다. 한편, 카드 거래 내역서의 경우, 필수 구성항목 중 거래 일시, 가맹점명 중 적어도 하나의 정보에 기초하여 계정 과목을 분류할 수 있고, 현금 영수증의 경우, 필수 구성항목 중 거래일시, 거래 물품명, 상호 중 적어도 하나의 정보에 기초하여 계정 과목을 분류할 수 있다.Next, the account subject classification unit 155 classifies the tax document of the income account into one of the account subjects of sales or non-operating income based on the required component information of each tax document, and the tax document of the expense account is cost of sales, It is classified as one of the accounts for SG&A expenses or corporate tax expenses. For example, the account subject of the corresponding tax document may be classified based on information on at least one of a transaction occurrence point, transaction time, transaction location, same transaction frequency, and company characteristics. In addition, deep learning natural language processing model (Transformer) and deep learning deep neural network model (DNN, Deep Neural Network) are used here. For example, in the case of the above-mentioned transaction place, by using a deep learning natural language processing model, the transaction place, that is, the spending store information, is classified into several types, and the classified information of the spending store, the spending time period, the spending place, the spending frequency, the company's By entering the personality into a deep learning deep neural network model (DNN, Deep Neural Network), the account subject is determined in the transaction history. In the case of a tax invoice, the account items may be classified based on at least one of supplier information or supplier information, a transaction date, and a transaction item name among the required components of the tax invoice. On the other hand, in the case of a card transaction statement, account subjects can be classified based on at least one information among the transaction date and time and merchant name among the essential components. Account subjects may be classified based on one piece of information.

그 밖에, 계정 과목 분류부(155)는 세무 문서 상의 거래가 정상 거래인지 이상 거래인지 여부를 구분하는 단계를 수행할 수 있다. 이상 거래는 매출 또는 매입된 거래의 진위가 의심되는 거래, 또는 업종과 연관되지 않는 매출과 매입인 경우를 의미한다. 이상 거래 판단 단계에서는 딥러닝 심층 신경망 모델(DNN, Deep Neural Network), 혹은 이상치 탐지 모델(Anomaly Detection Model)을 활용한다. 이러한 인공지능 모델이 클라이언트의 업종과 업태, 거래처의 업종과 업태, 거래 물품, 공급 가액, 거래 시간 등의 특징 정보에 기초하여 해당 거래의 이상 거래 여부를 판단한다.In addition, the account subject classification unit 155 may perform a step of classifying whether the transaction on the tax document is a normal transaction or an abnormal transaction. Abnormal transactions refer to transactions in which the authenticity of sales or purchased transactions is questionable, or sales and purchases that are not related to the industry. In the abnormal transaction determination stage, a deep learning deep neural network model (DNN) or an anomaly detection model is used. This artificial intelligence model determines whether the transaction is abnormal based on characteristic information such as the client's business type and business type, the customer's business type and business type, transaction goods, supply price, and transaction time.

또한, 계정 과목 분류부(155)는 세무 문서 상의 거래 사항이 불공제 대상에 해당하는지 여부를 판단하는 단계를 수행할 수 있다. 즉, 해당 거래 사항이 불공제 대상은 아닌지 확인한다. 불공제 사항은 매입 거래에서만 발생하며 접대비 지출, 사적 사용, 차량 유류비 등의 항목은 불공제로 처리된다. 불공제 사항 판단은 세법에 의해 정해진 룰 기반(Rule-Based) 판단, 딥러닝 심층 신경망 모델(DNN, Deep Neural Network) 혹은 이상치 탐지 모델(Anomaly Detection Model)을 통해 이루어진다. 여기서, 룰 기반 판단은 클라이언트 단말의 업종 별로 불공정 거래에 속하는 사항들을 미리 결정하고, 해당 세무 문서의 거래 대상이 여기에 해당하는지 여부로 결정하는 방식을 의미한다. 예컨대, 클라이언트 단말(거래처)이 주유소이고 거래 물품이 유류비라면, 이 거래 사항은 불공제 사항이라고 판단할 수 있다. 또한 거래처의 업종과 업태, 거래 물품, 공급 가액, 거래 시간 등을 따져 사적 사용금액, 혹은 접대비라고 판단할 수도 있다.In addition, the account subject classification unit 155 may perform a step of determining whether the transaction details on the tax document are non-deductible. That is, it is checked whether the relevant transaction is not subject to deduction. Non-deductible items occur only in purchase transactions, and items such as entertainment expenses, private use, and vehicle fuel expenses are treated as non-deductible. Deduction of non-deductible items is made through rule-based judgment determined by the tax law, deep learning deep neural network model (DNN), or anomaly detection model (Anomaly Detection Model). Here, the rule-based determination refers to a method of determining in advance matters pertaining to unfair trade for each business type of the client terminal and determining whether a transaction target of the corresponding tax document corresponds to this. For example, if the client terminal (customer) is a gas station and the transaction item is fuel cost, it may be determined that the transaction item is non-deductible. In addition, it can be judged as the amount of private use or entertainment expenses by considering the business type and type of business of the customer, the goods to be traded, the supply price, and the transaction time.

한편, 계정 과목 분류부(155)는 세무 문서가 가산세 부과 대상인지 여부를 판단하는 단계를 수행할 수 있다. 여기에서는 룰 기반 판단이 사용된다. 룰 기반 판단은 세금 신고 기간을 미리 설정하고, 해당 세무 문서의 거래 일시 등이 신고 기간 내에 속하는지 여부로 가산세 부과 대상을 판단하는 단계이다. 예컨대 세금 신고 기간이 지난 이후에 처리되는 거래 내용이라면 세금 신고 기간 불이행에 따른 가산세 대상이라는 태그가 달린다.Meanwhile, the account subject classification unit 155 may perform a step of determining whether the tax document is subject to penalty tax. Here, rule-based judgment is used. Rule-based judgment is a step in which a tax filing period is set in advance, and the subject of penalty tax is determined based on whether the transaction date and time of the relevant tax document falls within the reporting period. For example, if the transaction is processed after the tax return period has elapsed, a tag stating that it is subject to penalty for non-compliance with the tax return period is attached.

한편, 본 발명의 자동화 장치(100)는 전자 세무 문서 저장부(180)를 포함한다. 전자 세무 문서 저장부(180)는 세무 문서의 정보를 전자 세무 문서화하여 전자 세무 문서 DB에 저장하는 단계를 수행한다.On the other hand, the automated device 100 of the present invention includes an electronic tax document storage unit (180). The electronic tax document storage unit 180 performs a step of storing the information of the tax document as an electronic tax document and storing the information in the electronic tax document DB.

구체적으로, 먼저, 세무 문서의 유형에 따른 문서 양식이 미리 저장된 세무 문서 정보 DB (도 2 참조)로부터 문서 양식을 불러온다. 세무 문서 정보 DB에는 각종 증빙 서류의 문서 양식이 저장되어 있다. 예시적으로, 도 6a에는 세무 문서의 일 유형으로서 영수증에 대한 문서 서식이 도시되어 있다.  다음, 문자열을 상기 문서 양식 내의 지정된 필드에 기입하여 세무 문서를 전자 세무 문서로 변환시킨다. 세무 문서 양식에는 적어도 하나의 필드가 존재한다. 도 6a의 영수증 문서 양식을 보면, 사업자 등록번호 필드, 상호 필드, 사업장 소재지 필드, 업태 필드, 종목 필드 등 공란의 필드가 복수 개 존재한다. 도 6b는 영수증의 전자 문서를 예시적으로 나타낸 것으로서, 도 5b의 텍스트들(예컨대, 사업자 번호, 사업장 주소, 업종, 거래 금액, 발급 날짜 및 시간 등)을 도 6a의 영수증 문서 양식 내의 복수의 대응하는 필드에 기입하여 하나의 전자 세무 문서를 생성한 것이다. Specifically, first, the document form is called from the tax document information DB (refer to FIG. 2 ) in which the document form according to the type of tax document is stored in advance. In the tax document information DB, document forms of various supporting documents are stored. Illustratively, FIG. 6A illustrates a document format for a receipt as one type of tax document. Then, the tax document is converted into an electronic tax document by filling in the string in the specified field in the document form. There is at least one field in the tax document form. Referring to the receipt document form of FIG. 6A , a plurality of blank fields such as a business registration number field, a trade name field, a business location field, a business status field, and an item field exist. 6B is an exemplary view of an electronic document of a receipt, and the texts of FIG. 5B (eg, business number, business address, business type, transaction amount, issuance date and time, etc.) of a plurality of correspondence in the receipt document form of FIG. 6A One electronic tax document has been created by filling in the fields to

다음, 위와 같이 생성된 전자 세무 문서를 전자 세무 문서 DB에 저장한다. 이 때 도 6b처럼 이미지 형태의 전자 세무 문서뿐 아니라 도 6b를 생성하기 위해 분류한 세무 문서의 유형, 정보 및 계정 과목을 전자 문서 DB에 Table 형태 혹은 JSON 형태 등으로 함께 저장할 수도 있다.Next, the electronic tax document generated as above is stored in the electronic tax document DB. At this time, as shown in Fig. 6b, not only the electronic tax document in the form of an image, but also the type of tax document classified to generate Fig. 6b, information, and account subjects may be stored together in the electronic document DB in the form of Table or JSON.

이상에서 설명한 바와 같이 본 발명에 따른 세무 문서 수집 및 분류 자동화 방법 및 장치에 따르면, 클라이언트 단말과 관련된 세금 문서를 수집하는 과정은, 웹 크롤링을 통해 정기적 수집 방법을 기본적으로 수행하고, 세무법인 단말이 세무 문서의 송부를 요청하고 그에 따라 클라이언트 단말로부터 세무 문서를 수신하여 수집하는 비정기적 수집 방법을 병행한다. 이러한 방식을 채택함으로써, 웹 크롤링의 정기적 수집을 통해 세무 문서의 수집 업무를 자동화하고, 더 나아가 정기적 수집 방식에서 수반되는 세무 문서의 누락 문제를 비정기적 수집으로 보완할 수 있다. 이에 따라 세무법인 단말로 하여금 세금 신고시 필요한 문서를 빠뜨림없이 수월하게 수집할 수 있도록 하는 이점을 제공한다.As described above, according to the method and apparatus for automating the collection and classification of tax documents according to the present invention, the process of collecting tax documents related to the client terminal is basically performed by a regular collection method through web crawling, and the terminal of the tax firm The occasional collection method of requesting the transmission of tax documents and receiving and collecting tax documents from the client terminal is carried out in parallel. By adopting this method, it is possible to automate the collection of tax documents through regular collection of web crawling, and furthermore, the problem of omission of tax documents accompanying the regular collection method can be supplemented with irregular collection. Accordingly, it provides the advantage of enabling the terminal of a tax firm to easily collect documents necessary for tax filing.

한편, 수집된 세무 문서에 대하여 문서의 유형을 분류하고, 문서에 포함된 정보를 분류하며, 문서의 계정 과목을 부여하는 일련의 과정을 인공 지능을 이용하여 자동적으로 수행함으로써, 종래에 인간의 노동으로 세무 문서를 분류하는 방식과 비교하여, 업무의 효율을 대폭적으로 향상시키는 효과가 있다.On the other hand, by using artificial intelligence to automatically perform a series of processes of classifying document types, classifying information contained in documents, and assigning account subjects to the collected tax documents using artificial intelligence, conventional human labor Compared to the method of classifying tax documents with this method, it has the effect of significantly improving work efficiency.

한편, 세무 법인 단말에서 요청한 세무 서류들과 클라이언트로부터 수신된 세무 문서를 비교하여, 수신이 누락된 서류를 세무법인 단말상에 디스플레이함으로써 세무법인 단말이 문서 수집 현황 파악을 용이하게 하는 장점이 있다. 또한, 누락된 서류가 존재할 경우 세무법인 단말의 명령 하에 누락된 세무 문서의 송부 요청 메시지를 세무법인 단말에 미리 설치된 메신저 프로그램을 통해 클라이언트 단말에 쉽게 전송할 수 있다. 이에 따라, 세금 신고를 위해 필요한 구비 서류들이 고객으로부터 수신되는 상황을 시시각각 파악하며, 서류 누락이 발견될 경우 이메일 등의 수단으로 고객에게 개별적으로 연락하여 문서 송부를 요청한 후, 추가로 수신된 서류에 대해서는 다시 위 일련의 작업을 반복해야 하는 종래 업무 방식에 따른 스트레스와 업무 부담을 대폭 줄일 수 있는 이점이 있다.On the other hand, there is an advantage in that the tax office terminal easily grasps the document collection status by comparing the tax documents requested by the tax corporation terminal with the tax documents received from the client and displaying the missing documents on the tax corporation terminal. In addition, when there are missing documents, a message requesting transmission of the missing tax documents under the command of the tax office terminal can be easily transmitted to the client terminal through a messenger program pre-installed in the tax office terminal. Accordingly, we monitor the situation in which the required documents for tax return are received from the customer, and if any documents are found, contact the customer individually through e-mail, etc. There is an advantage in that it can greatly reduce the stress and work load caused by the conventional work method in which the above series of tasks must be repeated again.

이상에서 설명한 것은 본 발명에 따른 세무 문서 수집 및 분류 자동화 장치 및 방법을 실시하기 위한 하나의 실시예에 불과한 것으로서, 본 발명은 상기한 실시예에 한정되지 않고, 이하의 특허청구범위에서 청구하는 바와 같이 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변경 실시가 가능한 범위까지 본 발명의 기술적 정신이 있다고 할 것이다.What has been described above is only one embodiment for implementing the tax document collection and classification automation apparatus and method according to the present invention, and the present invention is not limited to the above-described embodiment, and as claimed in the claims Likewise, without departing from the gist of the present invention, it will be said that the technical spirit of the present invention exists to the extent that various modifications can be made by anyone with ordinary knowledge in the field to which the invention pertains.

100: 세무 문서 수집 및 분류 자동화 장치 110: 세무 문서 수집부
111: 웹 크롤링 수행부 113: 문서 요청/수신부
150: 전자 세무 문서 변환부 151: 문서 유형 분류부
153: 문서 정보 분류부 155: 계정 과목 분류부
157: 인공지능 의사결정부 160: 문서 누락 판단부
170: 정보 누락 판단부 180: 전자 세무 문서 저장부
100: tax document collection and classification automation device 110: tax document collection unit
111: web crawling performing unit 113: document requesting/receiving unit
150: electronic tax document conversion unit 151: document type classification unit
153: document information classification unit 155: account subject classification unit
157: artificial intelligence decision-making unit 160: document omission determination unit
170: information omission determination unit 180: electronic tax document storage unit

Claims (25)

세무 문서 수집 및 분류 자동화 장치에 의해 수행되는 세무 문서 수집 및 분류 자동화 방법으로서,
상기 장치의 세무 문서 수집부가, 웹 크롤링에 의해 적어도 하나의 웹 사이트로부터 클라이언트 단말에 관련된 적어도 하나의 세무 문서를 수집하는 문서 수집 단계;
상기 장치의 문서 유형 분류부가 상기 세무 문서의 유형을 분류하는 문서 유형 분류 단계;
상기 장치의 문서 정보 분류부가 상기 세무 문서에 포함된 적어도 하나의 문자열 각각에 대하여 의미를 파악하는 문서 정보 분류 단계; 및
상기 장치의 계정 과목 분류부가 상기 세무 문서에 대하여 계정 과목을 분류하는 계정 과목 분류 단계;
를 포함하고,
상기 문서 유형 분류 단계는 수집된 세무 문서의 유형을 복수의 세무 문서 유형 중 한 유형으로 분류하는 단계로서, 사전에 학습된 자연어 처리 모델 및 심층 신경망 모델을 이용하여, 상기 수집된 세무 문서에 포함된 항목 명칭들을 다수 포함하는 유형의 세무 문서로 분류하는 것이며,
상기 문서 정보 분류 단계 이후에,
상기 장치의 정보 누락 판단부가 복수의 문자열 각각에 매칭된 필수 구성항목들을 사전에 정의된 필수 구성항목과 비교하여 상기 세무 문서에 누락된 필수 구성항목이 존재하는지 여부를 판단하는 정보 누락 여부 판단 단계; 및
누락된 항목이 존재하는 경우, 세무법인 단말에 대하여 정보의 입력을 요청하는 단계;
를 더 포함하고,
상기 정보 누락 여부 판단 단계는, 상기 복수의 문자열 각각에 매칭된 필수 구성항목을 사전에 지정되어 있는 필수 구성항목과 비교하여 정보의 누락 여부를 확인하는 것을 특징으로 하는,
세무 문서 수집 및 분류 자동화 방법.
A tax document collection and classification automation method performed by a tax document collection and classification automation device, the method comprising:
a document collecting step of collecting, by the tax document collecting unit of the device, at least one tax document related to the client terminal from at least one web site by web crawling;
a document type classification step in which the document type classification unit of the device classifies the type of the tax document;
a document information classification step in which the document information classification unit of the device grasps the meaning of each of the at least one character string included in the tax document; and
an account subject classification step in which the account subject classification unit of the device classifies the account subject for the tax document;
including,
The document type classification step is a step of classifying the type of the collected tax document into one of a plurality of tax document types. Classification of a type of tax document containing a number of item names,
After the document information classification step,
an information omission determination step in which the information omission determining unit of the device compares essential components matched to each of a plurality of character strings with predefined essential components to determine whether essential components missing in the tax document exist; and
If there is a missing item, requesting the input of information to the tax firm terminal;
further comprising,
The step of determining whether the information is missing is characterized in that the essential constituent items matched to each of the plurality of character strings are compared with a pre-designated essential constituent item to check whether information is missing,
How to automate the collection and classification of tax documents.
제1항에 있어서,
상기 문서 수집 단계는,
상기 클라이언트 단말에 대하여 필요한 적어도 하나의 세무 문서의 송부를 요청하는 단계 및 상기 클라이언트 단말로부터 세무 문서를 수신하는 단계를 더 포함하고,
상기 세무 문서를 요청하는 단계는 세무법인 단말의 명령에 의해 비정기적으로 수행되는 것을 특징으로 하는,
세무 문서 수집 및 분류 자동화 방법.
According to claim 1,
The document collection step includes:
Further comprising the steps of requesting the client terminal to send at least one required tax document and receiving the tax document from the client terminal,
The step of requesting the tax document is characterized in that it is performed irregularly by the command of the tax firm terminal,
How to automate the collection and classification of tax documents.
제2항에 있어서,
상기 세무 문서를 수신하는 단계 이후에, 상기 장치가 광학 문자 인식을 통해 상기 세무 문서에 포함된 복수의 문자열을 추출하는 단계를 더 포함하는 것인,
세무 문서 수집 및 분류 자동화 방법.
3. The method of claim 2,
After receiving the tax document, the method further comprising the step of extracting, by the device, a plurality of character strings included in the tax document through optical character recognition,
How to automate the collection and classification of tax documents.
제1항에 있어서,
상기 문서 유형 분류 단계 이전에,
상기 장치의 인공지능 의사결정부가, 하나의 세무 문서를 다른 유형의 세무 문서와 구분할 수 있는 특징 항목 정보들이 세무 문서 유형마다 수록된 특징 항목 정보 세트를 미리 정의하는 단계; 및 각종 세무 관련 문서에 포함된 항목 명칭을 입력값으로 하여 자연어 처리 모델을 학습시키는 단계;를 수행하는 것을 특징으로 하는,
세무 문서 수집 및 분류 자동화 방법.
According to claim 1,
Prior to the document type classification step,
predefining, by the artificial intelligence decision-making unit of the device, a feature item information set in which feature item information capable of distinguishing one tax document from another type of tax document is included for each tax document type; and learning the natural language processing model by using the item names included in various tax-related documents as input values;
How to automate the collection and classification of tax documents.
제3항에 있어서,
상기 문서 정보 분류 단계는, 상기 세무 문서에 포함된 복수의 문자열 각각을 미리 정의된 세무 문서별 필수 구성항목들 중 하나로 매칭하는 단계를 포함하는 것인,
세무 문서 수집 및 분류 자동화 방법.
4. The method of claim 3,
The document information classification step includes matching each of a plurality of character strings included in the tax document to one of the required components for each predefined tax document,
How to automate the collection and classification of tax documents.
제5항에 있어서,
상기 문서 정보 분류 단계는, 자연어 처리 기술을 이용하여 상기 문자열의 언어적 특성에 기초하여 해당 문자열의 의미를 상기 필수 구성항목들 중 하나로 매칭하는 단계를 포함하는 것인,
세무 문서 수집 및 분류 자동화 방법.
6. The method of claim 5,
The document information classification step includes matching the meaning of the string to one of the essential constituent items based on the linguistic characteristics of the string using natural language processing technology,
How to automate the collection and classification of tax documents.
제6항에 있어서,
상기 문서 정보 분류 단계는, 이미지 처리 기술을 이용하여 상기 문자열의 위치적 특성에 기초하여 해당 문자열의 의미를 상기 필수 구성항목들 중 하나로 매칭하는 단계를 더 포함하는 것인,
세무 문서 수집 및 분류 자동화 방법.
7. The method of claim 6,
The document information classification step further comprises the step of matching the meaning of the character string to one of the essential constituent items based on the positional characteristics of the character string using image processing technology,
How to automate the collection and classification of tax documents.
삭제delete 제2항에 있어서,
상기 세무 문서를 수신하는 단계 이후에, 상기 장치의 문서 누락 판단부가 상기 수신된 적어도 하나의 세무 문서를 상기 요청한 세무 문서와 비교하여 세무 문서의 수신 누락 여부를 판단하는 문서 누락 여부 판단 단계를 더 포함하고,
누락된 세무 문서가 존재할 경우, 상기 세무법인 단말의 지시에 의해, 상기 누락된 세무 문서의 송부 요청 메시지를 상기 세무법인 단말에 미리 설치된 메신저 프로그램을 통해 상기 클라이언트 단말에 전송하는 것을 특징으로 하는,
세무 문서 수집 및 분류 자동화 방법.
3. The method of claim 2,
After the step of receiving the tax document, a document omission determination step in which the document omission determining unit of the device compares the received at least one tax document with the requested tax document to determine whether the receipt of the tax document is omitted further comprising: do,
When there is a missing tax document, according to the instruction of the tax firm terminal, a message for requesting transmission of the missing tax document is transmitted to the client terminal through a messenger program pre-installed in the tax firm terminal,
How to automate the collection and classification of tax documents.
제1항에 있어서,
상기 계정 과목을 분류하는 단계는,
수신된 세무 문서를 수익 또는 비용 중 하나로 목적 구분하는 단계; 및
각 세무 문서의 필수 구성항목 정보에 기초하여 수익 계정의 세무 문서는 매출액 또는 영업외수익 중 하나의 계정 과목으로 분류하고, 비용 계정의 세무 문서는 매출원가, 판관비 또는 법인세비용 중 하나의 계정 과목으로 분류하는 단계;
를 포함하는,
세무 문서 수집 및 분류 자동화 방법.
According to claim 1,
The step of classifying the account subject is,
purpose-classifying the received tax document as either revenue or expense; and
Based on the required component information of each tax document, the tax documents of the income account are classified into one of the accounts of sales or non-operating income, and the tax documents of the expense account are classified into one of the accounts of cost of goods sold, SG&A expenses, or corporate tax expenses. to do;
containing,
How to automate the collection and classification of tax documents.
제10항에 있어서,
세금 계산서의 경우,
상기 목적 구분하는 단계는, 클라이언트 정보 및 세금 계산서 필수 구성항목 중 공급자 및 공급받는자 정보에 기초하여 수익 또는 비용 계정으로 구분하고,
상기 계정 과목으로 분류하는 단계는, 세금 계산서 필수 구성항목 중, 공급자 정보 또는 공급받는자 정보, 거래 일자, 거래물품명 중 적어도 하나의 정보에 기초하여 계정 과목을 분류하는 것인,
세무 문서 수집 및 분류 자동화 방법.
11. The method of claim 10,
For tax invoices,
In the step of classifying the purpose, based on the supplier and recipient information among the client information and the required components of the tax invoice, it is divided into revenue or expense accounts,
The step of classifying into account subjects is to classify account subjects based on at least one information of supplier information or supplier information, transaction date, and transaction item name among the essential components of the tax invoice,
How to automate the collection and classification of tax documents.
제10항에 있어서,
카드 거래 내역서의 경우, 상기 목적은 비용 계정으로 구분하고,
상기 계정 과목으로 분류하는 단계는, 카드 거래 내역서의 필수 구성항목 중 거래 일시, 가맹점명 중 적어도 하나의 정보에 기초하여 계정 과목을 분류하는 것인,
세무 문서 수집 및 분류 자동화 방법.
11. The method of claim 10,
In the case of a credit card statement, the above purpose is divided into expense accounts;
The step of classifying into account subjects is to classify the account subjects based on at least one information of the transaction date and merchant name among the essential components of the card transaction statement,
How to automate the collection and classification of tax documents.
제10항에 있어서,
현금 영수증의 경우,
상기 계정 과목으로 분류하는 단계는, 현금 영수증의 필수 구성항목 중 거래일시, 거래 물품명, 상호 중 적어도 하나의 정보에 기초하여 계정 과목을 분류하는 것인,
세무 문서 수집 및 분류 자동화 방법.
11. The method of claim 10,
For cash receipts,
The step of classifying into account subjects is to classify the account subjects based on at least one information of a transaction date and time, a transaction item name, and a trade name among essential components of a cash receipt,
How to automate the collection and classification of tax documents.
웹 크롤링에 의해 적어도 하나의 웹 사이트로부터 클라이언트 단말에 관련된 적어도 하나의 세무 문서를 수집하는 웹 크롤링 수행부를 포함하는 세무 문서 수집부;
상기 세무 문서의 유형을 분류하는 문서 유형 분류부, 상기 세무 문서에 포함된 적어도 하나의 문자열 각각에 대하여 의미를 파악하는 문서 정보 분류부 및 상기 세무 문서에 대하여 계정 과목을 분류하는 계정 과목 분류부를 포함하는 전자 세무 문서 변환부;
를 포함하고,
상기 문서 유형 분류부는 수집된 세무 문서의 유형을 복수의 세무 문서 유형 중 한 유형으로 분류하는 것으로서, 사전에 학습된 자연어 처리 모델 및 심층 신경망 모델을 이용하여, 상기 수집된 세무 문서에 포함된 항목 명칭들을 다수 포함하는 유형의 세무 문서로 분류하고,
상기 문서 정보 분류부는 상기 세무 문서에 포함된 복수의 문자열 각각을 미리 정의된 세무 문서별 필수 구성항목들 중 하나로 매칭하며,
상기 세무 문서에 누락된 필수 구성항목이 존재하는지 여부를 판단하는 정보 누락 판단부를 더 포함하고, 상기 정보 누락 판단부는, 상기 복수의 문자열 각각에 매칭된 필수 구성항목을 사전에 지정되어 있는 필수 구성항목과 비교하여 정보의 누락 여부를 확인하며, 누락된 항목이 존재하는 경우, 세무법인 단말에 대하여 정보의 입력을 요청하는 것인,
세무 문서 수집 및 분류 자동화 장치.
a tax document collecting unit including a web crawling performing unit that collects at least one tax document related to a client terminal from at least one web site by web crawling;
A document type classification unit for classifying the type of the tax document, a document information classification unit for understanding the meaning of each of the at least one character string included in the tax document, and an account subject classification unit for classifying account subjects with respect to the tax document an electronic tax document conversion unit;
including,
The document type classification unit classifies the type of the collected tax document into one of a plurality of tax document types, and uses a pre-learned natural language processing model and a deep neural network model to name items included in the collected tax documents classified as a type of tax document that includes a number of
The document information classification unit matches each of the plurality of strings included in the tax document to one of the required components for each predefined tax document,
The tax document further comprises an information omission determination unit for determining whether there is an essential component missing from the tax document, wherein the information omission determination unit sets the required component items matched to each of the plurality of character strings in advance. to check whether information is omitted by comparing with
Tax documentation collection and classification automation device.
제14항에 있어서,
상기 세무 문서 수집부는,
상기 클라이언트 단말에 대하여 필요한 적어도 하나의 세무 문서의 송부를 요청하고, 상기 클라이언트 단말로부터 세무 문서를 수신하는 문서 요청/수신부를 더 포함하고,
상기 문서 요청/수신부는 세무법인 단말의 명령에 의해 비정기적으로 상기 세무 문서를 요청하는 것인,
세무 문서 수집 및 분류 자동화 장치.
15. The method of claim 14,
The tax document collection unit,
Further comprising a document requesting/receiving unit for requesting transmission of at least one necessary tax document to the client terminal and receiving the tax document from the client terminal,
The document request/receiver unit will request the tax document irregularly by the command of the tax firm terminal,
Tax documentation collection and classification automation device.
제14항에 있어서,
상기 전자 세무 문서 변환부는, 하나의 세무 문서를 다른 유형의 세무 문서와 구분할 수 있는 특징 항목 정보들이 세무 문서 유형마다 수록된 특징 항목 정보 세트를 미리 정의하고, 각종 세무 관련 문서에 포함된 항목 명칭을 입력값으로 하여 자연어 처리 모델을 학습시키는 인공지능 의사결정부를 더 포함하고,
상기 전자 세무 문서 변환부는, 하나의 세무 문서를 다른 유형의 세무 문서와 구분할 수 있는 특징 정보들이 세무 문서 유형마다 수록된 특징 정보 세트가 미리 정의된 특징 정보 저장부를 더 포함하는 것을 특징으로 하는,
세무 문서 수집 및 분류 자동화 장치.
15. The method of claim 14,
The electronic tax document conversion unit pre-defines a feature item information set in which feature item information that can distinguish one tax document from another type of tax document is included for each tax document type, and inputs item names included in various tax documents It further includes an artificial intelligence decision-making unit that trains a natural language processing model with a value,
The electronic tax document conversion unit further comprises a characteristic information storage unit in which a characteristic information set in which characteristic information for distinguishing one tax document from another type of tax document is included for each tax document type is predefined,
Tax documentation collection and classification automation device.
삭제delete 제14항에 있어서,
상기 문서 정보 분류부는, 자연어 처리 기술을 이용하여 상기 문자열의 언어적 특성에 기초하여 해당 문자열의 의미를 상기 필수 구성항목들 중 하나로 매칭하는 것인,
세무 문서 수집 및 분류 자동화 장치.
15. The method of claim 14,
The document information classification unit matches the meaning of the character string to one of the essential components based on the linguistic characteristics of the character string using natural language processing technology,
Tax documentation collection and classification automation device.
제18항에 있어서,
상기 문서 정보 분류부는, 이미지 처리 기술을 이용하여 상기 문자열의 위치적 특성에 기초하여 해당 문자열의 의미를 상기 필수 구성항목들 중 하나로 매칭하는 것인,
세무 문서 수집 및 분류 자동화 장치.
19. The method of claim 18,
The document information classification unit matches the meaning of the character string to one of the essential components based on the positional characteristics of the character string using image processing technology,
Tax documentation collection and classification automation device.
삭제delete 제15항에 있어서,
상기 수신된 적어도 하나의 세무 문서를 상기 요청한 세무 문서와 비교하여 세무 문서의 수신 누락 여부를 판단하는 문서 누락 판단부를 더 포함하고,
문서 누락 판단부는, 누락된 세무 문서가 존재할 경우, 상기 세무법인 단말의 지시에 의해, 상기 누락된 세무 문서의 송부 요청 메시지를 상기 세무법인 단말에 미리 설치된 메신저 프로그램을 통해 상기 클라이언트 단말에 전송하는 것을 특징으로 하는,
세무 문서 수집 및 분류 자동화 장치.
16. The method of claim 15,
A document omission determination unit further comprising a document omission determining unit that compares the received at least one tax document with the requested tax document to determine whether a tax document has been received or not,
The document omission determination unit, when there is a missing tax document, transmits a message requesting transmission of the missing tax document to the client terminal through a messenger program pre-installed in the tax firm terminal by the instruction of the tax firm terminal characterized,
Tax documentation collection and classification automation device.
제14항에 있어서,
상기 계정 과목 분류부는,
수신된 세무 문서를 수익 또는 비용 중 하나로 목적 구분하고,
각 세무 문서의 필수 구성항목 정보에 기초하여 수익 계정의 세무 문서는 매출액 또는 영업외수익 중 하나의 계정 과목으로 분류하고, 비용 계정의 세무 문서는 매출원가, 판관비 또는 법인세비용 중 하나의 계정 과목으로 분류하는 것을 특징으로 하는,
세무 문서 수집 및 분류 자동화 장치.
15. The method of claim 14,
The account subject classification unit,
categorize the received tax documents as either revenue or expenses;
Based on the required component information of each tax document, the tax documents of the income account are classified into one of the accounts of sales or non-operating income, and the tax documents of the expense account are classified into one of the accounts of cost of goods sold, SG&A expenses, or corporate tax expenses. characterized in that
Tax documentation collection and classification automation device.
제22항에 있어서,
세금 계산서의 경우,
클라이언트 정보 및 세금 계산서 필수 구성항목 중 공급자 및 공급받는자 정보에 기초하여 수익 또는 비용 계정으로 목적 구분하고,
세금 계산서 필수 구성항목 중, 공급자 정보 또는 공급받는자 정보, 거래 일자, 거래물품명 중 적어도 하나의 정보에 기초하여 계정 과목을 분류하는 것을 특징으로 하는,
세무 문서 수집 및 분류 자동화 장치.
23. The method of claim 22,
For tax invoices,
Classify the purpose into revenue or expense accounts based on supplier and supplier information among the required components of client information and tax invoice;
Characterized in classifying the account subject based on at least one of supplier information or supplier information, transaction date, and transaction item name among the mandatory components of the tax invoice,
Tax documentation collection and classification automation device.
제22항에 있어서,
카드 거래 내역서는 비용 계정으로 목적 구분하고,
카드 거래 내역서의 필수 구성항목 중 거래 일시, 가맹점명 중 적어도 하나의 정보에 기초하여 계정 과목을 분류하는 것을 특징으로 하는,
세무 문서 수집 및 분류 자동화 장치.
23. The method of claim 22,
The card transaction statement is divided by purpose into expense accounts,
Characterized in classifying the account subject on the basis of at least one of the transaction date and merchant name among the essential components of the card transaction statement,
Tax documentation collection and classification automation device.
제22항에 있어서,
현금 영수증의 경우,
현금 영수증의 필수 구성항목 중 거래일시, 거래 물품명, 상호 중 적어도 하나의 정보에 기초하여 계정 과목을 분류하는 것을 특징으로 하는,
세무 문서 수집 및 분류 자동화 장치.
23. The method of claim 22,
For cash receipts,
Characterized in classifying the account subject on the basis of at least one information of the transaction date and time, the transaction item name, and the trade name among the essential components of the cash receipt,
Tax documentation collection and classification automation device.
KR1020210005433A 2021-01-14 2021-01-14 Appatus for automatically collecting and classification tax related documents and method thereof KR102416998B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210005433A KR102416998B1 (en) 2021-01-14 2021-01-14 Appatus for automatically collecting and classification tax related documents and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210005433A KR102416998B1 (en) 2021-01-14 2021-01-14 Appatus for automatically collecting and classification tax related documents and method thereof

Publications (1)

Publication Number Publication Date
KR102416998B1 true KR102416998B1 (en) 2022-07-07

Family

ID=82398376

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210005433A KR102416998B1 (en) 2021-01-14 2021-01-14 Appatus for automatically collecting and classification tax related documents and method thereof

Country Status (1)

Country Link
KR (1) KR102416998B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102536063B1 (en) * 2023-01-19 2023-05-30 주식회사 이루다컴 Method, device and system for providing sales and purchases settlement solution for business based on artificial intelligence

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018116566A (en) * 2017-01-19 2018-07-26 株式会社マネーフォワード Accounting processing system, accounting processing method and accounting processing program
KR101914620B1 (en) * 2018-05-15 2018-11-06 (주)아이퀘스트 Automatic journalizing method using big data and machine learning and implementing server
JP2019109808A (en) * 2017-12-20 2019-07-04 株式会社日本デジタル研究所 Accounting processor, accounting system, accounting method and program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018116566A (en) * 2017-01-19 2018-07-26 株式会社マネーフォワード Accounting processing system, accounting processing method and accounting processing program
JP2019109808A (en) * 2017-12-20 2019-07-04 株式会社日本デジタル研究所 Accounting processor, accounting system, accounting method and program
KR101914620B1 (en) * 2018-05-15 2018-11-06 (주)아이퀘스트 Automatic journalizing method using big data and machine learning and implementing server

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102536063B1 (en) * 2023-01-19 2023-05-30 주식회사 이루다컴 Method, device and system for providing sales and purchases settlement solution for business based on artificial intelligence

Similar Documents

Publication Publication Date Title
CN108090823B (en) Accounting data management system based on software as a service (SaaS)
US8442881B2 (en) Systems and methods of processing and classifying a financial transaction
US20230004888A1 (en) Ai-augmented auditing platform including techniques for applying a composable assurance integrity framework
US20140244490A1 (en) Bill paying systems and associated methods
US20080270293A1 (en) Accounts payable automation system with automated discount and factoring management
CN108269183B (en) Financial accounting intelligent agent service system, electronic equipment and method
CN111178219A (en) Bill identification management method and device, storage medium and electronic equipment
US11393045B2 (en) Methods and systems for efficient delivery of accounting and corporate planning services
CN103782318A (en) System and methods for producing a credit feedback loop
US20130085925A1 (en) Audit and verification system and method
US8504452B2 (en) Method and system for auditing internal controls
US20220327635A1 (en) Methods and systems for efficient delivery of accounting and corporate planning services
CN115860752A (en) Chemical material sales customer management middle platform and method based on Internet of things
KR102416998B1 (en) Appatus for automatically collecting and classification tax related documents and method thereof
CN111145031B (en) Insurance business customization method, device and system
KR102562186B1 (en) System for providing rental property management based official letter sending service
US10885500B2 (en) Systems and methods of pending transaction augmentation and automatic attachment to settled transactions
US20200193525A1 (en) System and method for automatic verification of expense note
CN115545858A (en) RPA-based automatic account checking method, device, equipment and storage medium
Oliverio et al. A hybrid model for fraud detection on purchase orders
CN109308656A (en) Automatic intelligent accounting system
CN114463107A (en) Intelligent financial working system based on artificial intelligence and method thereof
KR20210078743A (en) Method and System for Providing Automation Account
CN114331105A (en) Electronic draft processing system, method, electronic device and storage medium
Doxey The New Accounts Payable Toolkit

Legal Events

Date Code Title Description
AMND Amendment
AMND Amendment
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant