[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

KR102736311B1 - Method for artificial intelligence-based machine false listing detection - Google Patents

Method for artificial intelligence-based machine false listing detection Download PDF

Info

Publication number
KR102736311B1
KR102736311B1 KR1020240086843A KR20240086843A KR102736311B1 KR 102736311 B1 KR102736311 B1 KR 102736311B1 KR 1020240086843 A KR1020240086843 A KR 1020240086843A KR 20240086843 A KR20240086843 A KR 20240086843A KR 102736311 B1 KR102736311 B1 KR 102736311B1
Authority
KR
South Korea
Prior art keywords
machine
information
serial number
business
text
Prior art date
Application number
KR1020240086843A
Other languages
Korean (ko)
Inventor
방종호
Original Assignee
주식회사 비셀렉티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 비셀렉티드 filed Critical 주식회사 비셀렉티드
Priority to KR1020240086843A priority Critical patent/KR102736311B1/en
Application granted granted Critical
Publication of KR102736311B1 publication Critical patent/KR102736311B1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/908Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/909Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0609Buyer or seller confidence or verification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Library & Information Science (AREA)
  • Accounting & Taxation (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Primary Health Care (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Character Discrimination (AREA)

Abstract

본 발명의 일 실시예에 따른 기계 허위 매물 탐지 방법은, 기계 판매자의 사업자 정보, 상기 기계에 관한 기계매입계약서 및 상기 기계를 촬영한 기계 이미지 데이터를 획득하는 단계, 상기 사업자 정보와 상기 기계매입계약서의 텍스트를 비교하여, 사업자등록번호, 사업자명 또는 사업자 주소 일치 여부를 확인하는 소유자 정보 확인 단계, 상기 기계 이미지에서 텍스트를 추출하고, 상기 기계매입계약서의 텍스트와 비교하여, 상기 기계의 제조사, 모델명, 시리얼 번호(serial number) 또는 연식 일치 여부를 확인하는 기계 정보 확인 단계 및 상기 소유자 정보 확인 상태 및 상기 기계 정보 확인 상태에 따라, 상기 기계의 신뢰도 점수를 계산하는 단계를 포함한다.A method for detecting false machine listings according to one embodiment of the present invention comprises the steps of: obtaining business information of a machine seller, a machine purchase contract regarding the machine, and machine image data of the machine; an owner information verification step of comparing the business information and the text of the machine purchase contract to determine whether the business registration number, business name, or business address match; a machine information verification step of extracting text from the machine image and comparing it with the text of the machine purchase contract to determine whether the manufacturer, model name, serial number, or model year of the machine match; A step of calculating a reliability score of the machine is included according to the owner information verification status and the machine information verification status.

Description

인공지능 기반 기계 허위 매물 탐지 방법{METHOD FOR ARTIFICIAL INTELLIGENCE-BASED MACHINE FALSE LISTING DETECTION}{METHOD FOR ARTIFICIAL INTELLIGENCE-BASED MACHINE FALSE LISTING DETECTION}

본 발명은 기계 허위 매물 탐지 방법에 관한 것으로, 더욱 상세하게는 인공지능 기술을 활용한 기계 허위 매물 탐지 방법에 관한 것이다.The present invention relates to a method for detecting machine false listings, and more specifically, to a method for detecting machine false listings using artificial intelligence technology.

기존의 중고 기계 거래 시장에서는, 판매자가 업로드한 기계 목록을 구매자가 수동으로 검토하고 평가하여 자신의 요구사항에 부합하는 기계를 찾는 방식을 사용해왔다. 이때 구매자가 각종 기계 사양을 수동으로 검토하는 많은 시간이 소요되었고, 특히 중복 및 허위 매물을 탐지하는데 어려움이 있어 기계 구매에 많은 시간과 비용이 드는 문제가 있었다. In the existing used machinery trading market, buyers manually review and evaluate the list of machines uploaded by sellers to find machines that meet their requirements. At this time, buyers spent a lot of time manually reviewing various machine specifications, and in particular, it was difficult to detect duplicate and false listings, which caused a lot of time and cost to purchase machines.

한국등록특허공보 제10-1935177 호 (2019.01.11 등록)Korean Patent Publication No. 10-1935177 (Registered on January 11, 2019)

본 발명의 목적은, 인공지능 기술을 활용하여 기계 거래 과정에서 허위 매물을 탐지할 수 있는 방법을 제공하는 것이다. The purpose of the present invention is to provide a method for detecting false listings in a machine transaction process by utilizing artificial intelligence technology.

본 발명의 일 실시예에 따른 기계 허위 매물 탐지 방법은, 기계 판매자의 사업자 정보, 상기 기계에 관한 기계매입계약서 및 상기 기계를 촬영한 기계 이미지 데이터를 획득하는 단계, 상기 사업자 정보와 상기 기계매입계약서의 텍스트를 비교하여, 사업자등록번호, 사업자명 또는 사업자 주소 일치 여부를 확인하는 소유자 정보 확인 단계, 상기 기계 이미지에서 텍스트를 추출하고, 상기 기계매입계약서의 텍스트와 비교하여, 상기 기계의 제조사, 모델명, 시리얼 번호(serial number) 또는 연식 일치 여부를 확인하는 기계 정보 확인 단계 및 상기 소유자 정보 확인 상태 및 상기 기계 정보 확인 상태에 따라, 상기 기계의 신뢰도 점수를 계산하는 단계를 포함한다. According to one embodiment of the present invention, a method for detecting false machine listings includes: a step of acquiring business information of a machine seller, a machine purchase contract regarding the machine, and machine image data of the machine taken by photographing the machine; an owner information verification step of comparing the business information with a text of the machine purchase contract to determine whether a business registration number, a business name, or a business address match; a machine information verification step of extracting text from the machine image and comparing it with the text of the machine purchase contract to determine whether a manufacturer, model name, serial number, or model year of the machine match; and a step of calculating a reliability score of the machine based on the owner information verification status and the machine information verification status.

일 실시예에 따르면, 상기 소유자 정보 확인 단계는, 상기 사업자등록 정보에서, 사업자등록번호 1차 후보를 추출하는 단계, 상기 기계매입계약서에서 추출한 텍스트에서, 사업자등록번호 2차 후보군을 생성하는 단계, 상기 1차 후보군의 원소와 상기 2차 후보군의 원소가 동일한 것이 존재하는 경우, 상기 사업자등록번호가 일치한 것으로 판단하는 단계를 포함할 수 있다.According to one embodiment, the owner information verification step may include a step of extracting a first candidate for a business registration number from the business registration information, a step of generating a second candidate for a business registration number from a text extracted from the machine purchase contract, and a step of determining that the business registration numbers match if there is an element of the first candidate group and an element of the second candidate group that is the same.

일 실시예에 따르면, 상기 소유자 정보 확인 단계는, 상기 기계 이미지의 메타 데이터에서 위치 정보를 획득하고, 상기 위치 정보를 상기 사업자등록증 상의 주소 정보와 비교하여, 상기 위치와 상기 주소가 특정 거리 이내인지를 판단하는 단계를 더 포함할 수 있다.According to one embodiment, the owner information verification step may further include a step of obtaining location information from metadata of the machine image, comparing the location information with address information on the business registration certificate, and determining whether the location and the address are within a specific distance.

일 실시예에 따르면, 상기 기계 정보 확인 단계는, 상기 기계매입계약서에서, 시리얼 번호 1차 후보를 추출하는 단계, 상기 시리얼 번호 1차 후보를 포괄하는 정규식(regular expression)을 생성하는 단계, 상기 정규식을 통해, 상기 기계 이미지에서 추출한 텍스트에서 시리얼 번호 2차 후보군을 추출하는 단계를 포함할 수 있다. According to one embodiment, the machine information verification step may include a step of extracting a primary serial number candidate from the machine purchase contract, a step of generating a regular expression encompassing the primary serial number candidate, and a step of extracting a secondary serial number candidate group from text extracted from the machine image using the regular expression.

일 실시예에 따르면, 상기 기계 정보 확인 단계는, 상기 기계매입계약서에서, 상기 기계의 모델명을 추출하는 단계, 상기 프로세서와 연동되고, 다른 기계의 모델명 및 시리얼 번호 정보를 담고 있는 기계 정보 데이터베이스에서, 상기 모델명과 일치하는 다른 기계들의 시리얼 번호 정보를 포괄하는 정규식을 생성하는 단계 및 상기 정규식을 통해, 상기 기계 이미지에서 추출한 텍스트에서 시리얼 번호 2차 후보군을 추출하는 단계를 포함할 수 있다.According to one embodiment, the machine information verification step may include a step of extracting a model name of the machine from the machine purchase contract, a step of generating a regular expression that encompasses serial number information of other machines that match the model name from a machine information database that is linked to the processor and contains model name and serial number information of other machines, and a step of extracting a secondary serial number candidate group from text extracted from the machine image using the regular expression.

일 실시예에 따르면, 상기 신뢰도 점수는 하기의 [수학식 1]에 의해 정의될 수 있다. According to one embodiment, the reliability score can be defined by the following [Mathematical Formula 1].

[수학식 1][Mathematical formula 1]

이때, t는 신뢰도 점수, n은 상기 사업자등록번호, 상기 사업자명, 상기 사업자 주소, 상기 제조사, 상기 모델명, 상기 시리얼 번호 및 상기 연식, mn은 상기 변수(n)의 일치 여부 값, wn은 상기 변수(n)에 대한 가중치이다.Here, t is the reliability score, n is the business registration number, the business name, the business address, the manufacturer, the model name, the serial number, and the year, m n is the value of whether the variable (n) matches, and w n is the weight for the variable (n).

일 실시예에 따르면, 상기 신뢰도 점수를 계산하는 단계는, 상기 기계명판 이미지의 메타 데이터에서 상기 이미지의 촬영 시점 정보를 획득하고, 상기 촬영 시점 정보를 상기 기계매입계약서의 계약일 정보와 비교하여, 상기 촬영 시점이 상기 계약일보다 과거인지를 판단하는 단계를 더 포함할 수 있다. According to one embodiment, the step of calculating the reliability score may further include the step of obtaining information on the time of shooting of the image from metadata of the machine nameplate image, comparing the information on the time of shooting with the contract date information of the machine purchase contract, and determining whether the time of shooting is before the contract date.

본 발명의 실시예에 따르면, 기계 판매/구매와 관련된 여러 문서를 통해 기계 매물의 소유자 및 기계 정보를 검증해 매물의 신뢰도를 평가한다. 이를 통해 허위/중복 매물을 사전에 탐지하여, 거래의 신뢰성이 증대된다.According to an embodiment of the present invention, the reliability of a machine is evaluated by verifying the owner and machine information of the machine through various documents related to the sale/purchase of the machine. This allows false/duplicate products to be detected in advance, thereby increasing the reliability of the transaction.

도 1은 기계 허위 매물 탐지 방법을 나타내는 순서도이다.
도 2는 기계 허위 매물 탐지 장치를 나타내는 개념도이다.
도 3은 사업자등록증 이미지의 예시이다.
도 4는 사업자 정보가 나타난 기계매입계약서의 예시이다.
도 5는 제조사, 모델명, 시리얼 번호, 연식 정보가 나타난 기계 명판 이미지의 일 예시이다.
도 6은 기계 정보가 나타난 기계매입계약서의 일 예시이다.
도 7는 시리얼 번호 기재 여부가 불분명한 기계 명판 이미지의 일 예시이다.
도 8는 컴퓨팅 시스템에 대한 블록도이다.
Figure 1 is a flowchart showing a method for detecting machine false listings.
Figure 2 is a conceptual diagram showing a machine false listing detection device.
Figure 3 is an example of a business registration certificate image.
Figure 4 is an example of a machinery purchase contract that shows business information.
Figure 5 is an example of a machine nameplate image showing manufacturer, model name, serial number, and year information.
Figure 6 is an example of a machine purchase contract showing machine information.
Figure 7 is an example of a machine nameplate image where it is unclear whether a serial number is written or not.
Figure 8 is a block diagram of a computing system.

이하, 첨부된 도면을 참조하여 본 개시의 바람직한 실시예들을 상세히 설명한다. 본 개시의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 개시의 기술적 사상은 이하의 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 이하의 실시예들은 본 개시의 기술적 사상을 완전하도록 하고, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 본 개시의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 개시의 기술적 사상은 청구항의 범주에 의해 정의될 뿐이다.Hereinafter, preferred embodiments of the present disclosure will be described in detail with reference to the accompanying drawings. The advantages and features of the present disclosure and the methods for achieving them will become apparent with reference to the embodiments described in detail below together with the accompanying drawings. However, the technical idea of the present disclosure is not limited to the following embodiments but may be implemented in various different forms, and the following embodiments are provided only to make the technical idea of the present disclosure complete and to fully inform a person having ordinary skill in the art to which the present disclosure belongs of the scope of the present disclosure, and the technical idea of the present disclosure is defined only by the scope of the claims.

각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 개시를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 개시의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.When adding reference signs to components of each drawing, it should be noted that the same components are given the same signs as much as possible even if they are shown on different drawings. In addition, when describing the present disclosure, if it is determined that a specific description of a related known configuration or function may obscure the gist of the present disclosure, the detailed description is omitted.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 개시를 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 본 명세서에서, "또는(or)"은 및(and)/또는(or)을 의미할 수 있다.Unless otherwise defined, all terms (including technical and scientific terms) used herein can be used in a commonly understood meaning by a person of ordinary skill in the art to which this disclosure belongs. In addition, terms defined in commonly used dictionaries are not to be ideally or excessively interpreted unless explicitly specifically defined. The terminology used herein is for the purpose of describing embodiments and is not intended to limit this disclosure. In this specification, the singular also includes the plural unless specifically stated in the phrase. In this specification, "or" can mean and/or.

또한, 본 개시의 구성 요소를 설명하는 데 있어서, 제1, 제2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성요소에 직접적으로 연결되거나 또는 접속될 수 있지만, 각 구성 요소 사이에 또 다른 구성 요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.Also, in describing components of the present disclosure, terms such as first, second, A, B, (a), (b), etc. may be used. These terms are only intended to distinguish the components from other components, and the nature, order, or sequence of the components are not limited by the terms. When it is described that a component is "connected," "coupled," or "connected" to another component, it should be understood that the component may be directly connected or connected to the other component, but another component may also be "connected," "coupled," or "connected" between each component.

본 개시에서 사용되는 "포함한다 (comprises)" 및/또는 "포함하는 (comprising)"은 언급된 구성 요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성 요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.As used herein, the terms “comprises” and/or “comprising” do not exclude the presence or addition of one or more other components, steps, operations and/or elements.

어느 하나의 실시예에 포함된 구성요소와, 공통적인 기능을 포함하는 구성 요소는, 다른 실시예에서 동일한 명칭을 사용하여 설명될 수 있다. 반대되는 기재가 없는 이상, 어느 하나의 실시예에 기재된 설명은 다른 실시예에도 적용될 수 있으며, 중복되는 범위 또는 당해 기술 분야에 속한 통상의 기술자가 자명하게 이해할 수 있는 범위 내에서 구체적인 설명은 생략될 수 있다.Components included in one embodiment and components that have common functions may be described using the same names in other embodiments. Unless otherwise stated, descriptions made in one embodiment may be applied to other embodiments, and specific descriptions may be omitted within the overlapping scope or within the scope that can be clearly understood by a person skilled in the art.

이하, 본 발명의 바람직한 실시예 및 첨부한 도면을 참조하여 본 발명에 대해 상세히 설명한다.Hereinafter, the present invention will be described in detail with reference to preferred embodiments of the present invention and the attached drawings.

도 1은 기계 허위 매물 탐지 방법을 나타내는 순서도이며, 도 2는 기계 허위 매물 탐지 장치를 나타내는 개념도이다. Figure 1 is a flowchart showing a method for detecting machine false listings, and Figure 2 is a conceptual diagram showing a machine false listing detection device.

본 발명의 일 실시예에 따른 기계 허위 매물 탐지 방법은, 기계 판매자의 사업자 정보, 상기 기계에 관한 기계매입계약서 및 상기 기계를 촬영한 기계 이미지 데이터를 획득하는 단계(S100), 상기 사업자 정보와 상기 기계매입계약서의 텍스트를 비교하여, 사업자등록번호, 사업자명 또는 사업자 주소 일치 여부를 확인하는 소유자 정보 확인 단계(S200), 상기 기계 이미지에서 텍스트를 추출하고, 상기 기계매입계약서의 텍스트와 비교하여, 상기 기계의 제조사, 모델명, 시리얼 번호(serial number) 또는 연식 일치 여부를 확인하는 기계 정보 확인 단계(S300) 및 상기 소유자 정보 확인 상태 및 상기 기계 정보 확인 상태에 따라, 상기 기계의 신뢰도 점수를 계산하는 단계(S400)를 포함한다.According to one embodiment of the present invention, a method for detecting false machine listings includes a step (S100) of acquiring business information of a machine seller, a machine purchase contract regarding the machine, and machine image data of the machine taken by photographing the machine, an owner information verification step (S200) of comparing the business information with the text of the machine purchase contract to determine whether a business registration number, a business name, or a business address match, a machine information verification step (S300) of extracting text from the machine image and comparing it with the text of the machine purchase contract to determine whether a manufacturer, model name, serial number, or model year of the machine match, and a step (S400) of calculating a reliability score of the machine based on the owner information verification status and the machine information verification status.

상기 기계 허위 매물 탐지 방법은 적어도 하나의 프로세서를 포함하는 기계 허위 매물 탐지 장치(10)에 의해 수행될 수 있다. The above-described machine false listing detection method can be performed by a machine false listing detection device (10) including at least one processor.

본 발명의 일 실시예에 따른 기계 허위 매물 탐지 장치(10)는, 기계 판매자의 사업자 정보, 상기 기계에 관한 기계매입계약서 및 상기 기계를 촬영한 기계 이미지 데이터를 획득하는 데이터 획득부(100), 상기 사업자 정보와 상기 기계매입계약서의 텍스트를 비교하여, 사업자등록번호, 사업자명 또는 사업자 주소 일치 여부를 확인하는 소유자 정보 확인부(200), 상기 기계 이미지에서 텍스트를 추출하고, 상기 기계매입계약서의 텍스트와 비교하여, 상기 기계의 제조사, 모델명, 시리얼 번호(serial number) 또는 연식 일치 여부를 확인하는 기계 정보 확인부(300) 및 상기 소유자 정보 확인 상태 및 상기 기계 정보 확인 상태에 따라, 상기 기계에 신뢰도 점수를 계산하는 신뢰도 점수 계산부(400)를 포함한다.A machine false listing detection device (10) according to one embodiment of the present invention includes a data acquisition unit (100) that acquires business information of a machine seller, a machine purchase contract regarding the machine, and machine image data photographing the machine, an owner information verification unit (200) that compares the business information with the text of the machine purchase contract to confirm whether the business registration number, business name, or business address match, a machine information verification unit (300) that extracts text from the machine image and compares it with the text of the machine purchase contract to confirm whether the manufacturer, model name, serial number, or model year of the machine match, and a reliability score calculation unit (400) that calculates a reliability score for the machine according to the owner information verification status and the machine information verification status.

기계 허위 매물 탐지 장치(10)는 서버(server)의 역할을 수행할 수 있다. 장치(10)는 후술할 기계 판매자 또는 기계 수요자(구매자)가 사용하는 단말 기기 또는 클라이언트(client) 기기에서 데이터를 획득할 수 있다. 장치(10)는 본 발명의 실시예와 같은 기계 허위 매물 탐지 방법을 수행한 뒤, 적절한 데이터를 단말 또는 클라이언트에 송신할 수 있다. The machine false listing detection device (10) can perform the role of a server. The device (10) can obtain data from a terminal device or client device used by a machine seller or a machine demander (buyer) to be described later. After performing a machine false listing detection method such as an embodiment of the present invention, the device (10) can transmit appropriate data to a terminal or client.

우선, 기계 판매자의 사업자등록증, 상기 기계에 관한 기계매입계약서 및 상기 기계를 촬영한 기계 이미지 데이터를 획득하는 단계(S100)가 수행된다. 상기 단계(S100)는 데이터 획득부(100)에 의해 수행될 수 있다. First, a step (S100) of acquiring a business registration certificate of a machine seller, a machine purchase contract for the machine, and machine image data taken of the machine is performed. The step (S100) can be performed by a data acquisition unit (100).

판매자가 판매하려는 기계는, 자신이 과거에 다른 곳에서 구입하여 사용한 '중고'기계일 수 있다. 기계 판매자는 클라이언트 단말을 통해, 장치(10) 또는 서버(server)에 자신이 판매하려는 기계에 관한 정보 및 자신의 사업자 정보를 송신할 수 있다.The machine that the seller is trying to sell may be a 'used' machine that he or she purchased and used somewhere else in the past. The machine seller can send information about the machine that he or she is trying to sell and his or her business information to the device (10) or server through the client terminal.

사업자 정보는, 판매자의 사업자등록번호, 사업자명, 사업자 주소, 개업연월일, 사업의 종류 등 데이터를 포함할 수 있다. 사업자 정보는 사업자등록증 이미지 또는 파일(file) 데이터를 포함할 수 있다.Business information may include data such as the seller's business registration number, business name, business address, opening date, and type of business. Business information may include a business registration certificate image or file data.

기계매입계약서는, 판매자가 과거에 기계를 구입하던 시점에 기계 매입 조건을 명시한 계약서일 수 있다. 기계매입계약서는, 문서의 명칭이'계약서'인 것인 것뿐만 아니라 견적서, 감정서, 명세서, 영수증 등 기계를 거래하였을 때 오가던 문서를 의미할 수 있다.A machine purchase contract may be a contract that states the terms of the machine purchase at the time the seller purchased the machine in the past. A machine purchase contract may refer to documents that were exchanged when trading machines, such as estimates, appraisals, specifications, and receipts, in addition to the document titled 'contract'.

기계매입계약서는 기계의 종류, 제조사, 연식, 시리얼 번호, 모델명, 용량, 전압, 주파수, 소비 전력, 중량, 크기, 정밀도, 최대 속도, RPM, 출력, 압력, 온도 범위, 재질, 색상, 사용 전원, 소음 수준, 사용 전원, 소음 수준, 연료 유형, 제어 방식, 설치 환경(예: 실내, 실외), 유지 보수 요구 사항, 인증(예: CE, ISO), 보증 기간, 작동 시간, 냉각 방식, 작동 온도, 적재 용량, 호환 부품 목록, 보관 방법, 진동 수준, 내부 메모리 용량 (기계 데이터 기록용), 네트워크 연결성, 최대 허용 하중, 비상 정지 기능, 안전 장치, 주변 온도 허용 범위, 기계 인도 조건, 포장 방식, 배송 방법, 가격 등 해당 기계의 사양, 설치 상태 또는 현재 성능 상태 등 다양한 데이터를 포함할 수 있다. 기계매입계약서는 이미지 또는 파일(file)의 형식을 가질 수 있다. The machine purchase contract may include various data such as the machine type, manufacturer, year, serial number, model name, capacity, voltage, frequency, power consumption, weight, size, precision, maximum speed, RPM, output, pressure, temperature range, material, color, power usage, noise level, power usage, noise level, fuel type, control method, installation environment (e.g. indoor, outdoor), maintenance requirements, certification (e.g. CE, ISO), warranty period, operating hours, cooling method, operating temperature, load capacity, list of compatible parts, storage method, vibration level, internal memory capacity (for recording machine data), network connectivity, maximum allowable load, emergency stop function, safety device, ambient temperature tolerance, machine delivery conditions, packaging method, shipping method, price, and the specifications, installation status or current performance status of the machine. The machine purchase contract may be in the form of an image or file.

기계 이미지 데이터는 기계의 실물을 촬영한 이미지일 수 있다. 기계 이미지 데이터는 특히 기계의 명판(nameplate) 부분을 촬영한 이미지를 포함할 수 있다. 기계 이미지 데이터는 기계의 작동 상태, 수리 상태 등을 표현하기 위해 기계를 촬영한 이미지를 포함할 수 있다.Machine image data may be an image taken of the actual machine. Machine image data may include an image taken of the nameplate portion of the machine in particular. Machine image data may include an image taken of the machine to express the operating status, repair status, etc. of the machine.

판매자는 클라이언트 단말을 통해 자신의 사업자 정보 및 기계 정보를 업로드하면, 장치(10)는 데이터를 수신받아, 텍스트 파싱(parsing) 등을 통해 필요한 사업자 정보, 기계 사양 등을 추출할 수 있다. When a seller uploads his/her business information and machine information through a client terminal, the device (10) receives the data and can extract necessary business information, machine specifications, etc. through text parsing, etc.

이후, 사업자 정보와 기계매입계약서의 텍스트를 비교하여, 사업자 번호, 사업자명 또는 사업자 주소 일치 여부를 확인하는 소유자 정보 확인 단계(S200)가 수행된다. 상기 단계(S200)는 소유자 정보 확인부(200)에 의해 수행될 수 있다. Afterwards, an owner information verification step (S200) is performed to compare the business information with the text of the machine purchase contract to check whether the business number, business name, or business address matches. The above step (S200) can be performed by the owner information verification unit (200).

본 발명의 일 실시예에서는, 판매자가 업로드한 기계가 허위 매물 또는 중복 매물인지 검사하기 위해 각종 문서를 비교한다. 예컨대 일 실시예에서는 사업자등록증과 기계매입계약서를 비교해, 업로드한 기계 매물이 실제로 판매자의 소유인지를 판단한다.In one embodiment of the present invention, various documents are compared to check whether the machine uploaded by the seller is a false listing or a duplicate listing. For example, in one embodiment, a business registration certificate and a machine purchase contract are compared to determine whether the uploaded machine listing is actually owned by the seller.

소유자 정보 확인부(200)는, 사업자 정보에서 사업자번호(사업자등록번호) 텍스트를 추출할 수 있다.The owner information verification unit (200) can extract the business number (business registration number) text from the business information.

도 3은 사업자등록증 이미지의 예시이다. 도 3의 R31 영역을 광학 문자 인식(OCR) 기술을 통해 분석하면, '등록번호: 000-00-00000'과 같은 텍스트가 추출된다. 일 실시예에서는 "/([0-9]{3})-?([0-9]{2})-?([0-9]{5})/"와 같은 정규식(regular expression)을 통해 기계매입계약서에서 사업자등록번호로 추측되는 텍스트를 추출한다. 상기 정규식은 xxx-xx-xxxxx 형식의 텍스트(x는 숫자)를 추출하기 위한 예시일뿐 정규식이 이에 제한되는 것은 아니다.FIG. 3 is an example of a business registration certificate image. When the R31 area of FIG. 3 is analyzed using optical character recognition (OCR) technology, text such as 'Registration Number: 000-00-00000' is extracted. In one embodiment, text presumed to be the business registration number is extracted from the machine purchase contract using a regular expression such as "/([0-9]{3})-?([0-9]{2})-?([0-9]{5})/". The regular expression above is only an example for extracting text in the format of xxx-xx-xxxxx (x is a number), and regular expressions are not limited thereto.

도 3의 이미지를 OCR을 통해 획득한 전체 텍스트에서 상기 정규식과 일치하는 텍스트를 찾으면, '000-00-00000'이 추출된다. When the text matching the above regular expression is found in the entire text acquired through OCR of the image in Fig. 3, '000-00-00000' is extracted.

대한민국 사업자등록증의 경우 형식이 일정하게 정하여져 있다. 따라서 전체 텍스트가 올바르게 추출된 경우라면, 상기 정규식으로 '사업자등록번호 1차 후보'는 단 1개 추출될 수 있다. 그러나, 문서의 촬영 또는 스캔 상태에 따라, 텍스트 인식에 오류가 있을 수도 있다. 이에, 상기 정규식으로 추출한 텍스트는 아직 정확한 사업자등록번호로 확정된 것은 아닐 수 있다. 따라서 정규식 등으로 추출한 텍스트를 '사업자등록번호 1차 후보' 또는 '1차 후보'라고 칭하기로 한다. 이렇게 사업자등록증에서 추출한 1차 후보는, 기계매입계약서에서 추출한 텍스트에 의하여 검증될 수 있다. In the case of a business registration certificate in the Republic of Korea, the format is fixed. Therefore, if the entire text is extracted correctly, only one 'business registration number 1st candidate' can be extracted with the above regular expression. However, depending on the state of the document being photographed or scanned, there may be an error in text recognition. Accordingly, the text extracted with the above regular expression may not yet be confirmed as the correct business registration number. Therefore, the text extracted with the regular expression, etc. is referred to as 'business registration number 1st candidate' or '1st candidate'. The 1st candidate extracted from the business registration certificate in this way can be verified by the text extracted from the machine purchase contract.

소유자 정보 확인부(200)는, 기계매입계약서에서 사업자등록번호 2차 후보군을 추출할 수 있다. The owner information verification unit (200) can extract the second group of candidates for business registration numbers from the machine purchase contract.

도 4는 사업자 정보가 나타난 기계매입계약서의 예시이다. 개인정보보호를 위하여 계약서의 일부는 회색으로 처리하였다. 도 4의 오른쪽 하단을 참조하면, "을"의 경우 주소, 사업자번호, 상호, 대표에 맞추어서 서명한 것이 아니라 기업의 명판을 찍은 것을 확인할 수 있다. 이 계약서 중 서명 영역(R41)의 OCR 결과는 아래 표 1과 같다. 아래 텍스트에서, 일부 숫자는 개인정보보호를 위해 일부 텍스트는 x으로, 숫자는 0으로 대체하였다. Figure 4 is an example of a machine purchase contract that shows business information. Some parts of the contract are grayed out to protect personal information. Referring to the bottom right of Figure 4, in the case of "乙", you can see that the company's nameplate was printed instead of signing according to the address, business registration number, business name, and representative. The OCR results of the signature area (R41) in this contract are as shown in Table 1 below. In the text below, some numbers were replaced with x and some texts were replaced with 0 to protect personal information.

"갑" 주 소: 서울시 영등포구 도림로 xxx(대림동) 사업자번호: 118-00-03063 상 호: (주) xxx 대표: 유 xx "을" 주 소: 314-00-88777 신xxx 박xxx 대전광역시 xxxxx"Gap" Address: Seoul Yeongdeungpo-gu Dorim-ro xxx (Daerim-dong) Business registration number: 118-00-03063 Company name : (주) xxx Representative: Yu xx "Eul" Address: 314-00-88777 Shin xxx Park xxx Daejeon Metropolitan City xxxxx

위의 텍스트 추출 결과에서 보듯, 명판 날인에 의해 '주소'텍스트 옆에 사업자번호 형식의 텍스트가 추출되었다. 이처럼, 계약서 서명/날인 방식에 따라"사업자번호", "주소" 등 란에 다른 내용이 잘못 기재되지 않는 상황이 발생할 가능성이 있다. 따라서, 사업자(등록)번호라는 문자열과의 단어간 거리를 기준으로 사업자등록번호를 추출하는 경우 오류가 발생할 수 있다. 따라서 본 발명의 일 실시예에서는 실제 사업자(등록)번호 주위의 텍스트와 무관하게 정규식으로 사업자등록번호 후보군을 추출한다. 계약서의 경우 2인 이상이 서명을 진행하게 되는바, 상술한 정규식을 통해 텍스트를 추출하는 경우, ['118-00-03063', '314-00-88777']과 같이 두 개의 사업자등록번호가 추출된다. As seen in the text extraction result above, a text in the format of a business registration number was extracted next to the 'Address' text by the nameplate stamp. In this way, depending on the method of signing/stamping the contract, there is a possibility that other content may not be incorrectly entered in the "Business Registration Number", "Address", etc. fields. Accordingly, an error may occur when extracting a business registration number based on the distance between words with the string called a business (registration) number. Therefore, in one embodiment of the present invention, a group of business registration number candidates is extracted using a regular expression regardless of the text surrounding the actual business (registration) number. In the case of a contract, since two or more people sign, when extracting text using the regular expression described above, two business registration numbers are extracted, such as ['118-00-03063', '314-00-88777'].

이하 계약서에서 추출한 복수 개의 사업자등록번호를 '사업자등록번호 2차 후보군'또는 '2차 후보군'이라고 칭한다.The multiple business registration numbers extracted from the contract below are referred to as the ‘secondary candidate group of business registration numbers’ or ‘secondary candidate group’.

이후, 소유자 정보 확인부(200)는, 2차 후보군에서 1차 후보와 유사도가 일정 값 이상인 원소가 있는 경우, 사업자등록번호가 일치한 것으로 판단할 수 있다. Thereafter, the owner information verification unit (200) can determine that the business registration numbers match if there is an element in the second candidate group whose similarity to the first candidate is greater than a certain value.

예컨대 사업자등록증에서 추출한 사업자등록번호 1차 후보가 '314-00-66777'이고, 계약서에서 추출한 사업자등록번호 2차 후보군이 ['100-00-03063', '314-00-88777']이라고 가정하자. 계약서 이미지에서 추출한 두번째 후보는 실제 텍스트인 '66'이 아닌 '88'로 '잘못' 추출된 상황이다. For example, let's assume that the first candidate for the business registration number extracted from the business registration certificate is '314-00- 66 777', and the second candidate for the business registration number extracted from the contract is ['100-00-03063', '314-00- 88 777']. The second candidate extracted from the contract image is '88', not the actual text '66', which is 'incorrectly' extracted.

소유자 정보 확인부(200)는, 2차 후보군에서 1차 후보와 유사도가 일정 값 이상인 사업자등록번호를 찾을 수 있다. 예컨대 Python의 difflib 내장 모듈을 이용해 문자열 유사도를 계산하면, '314-00-66777'과 ['100-00-03063', '314-00-88777']의 유사도는 각각 0.36, 0.64이다. 일정 값(threshold)을 0.6으로 설정한 경우, 소유자 정보 확인부(200)는 '314-00-66777'과 '314-00-88777'이 서로 '일치'한 것으로 판단할 수 있다. 소유자 정보 확인부(200)는 1차 후보인 '314-00-66777'을 최종 사업자등록번호로 확정할 수 있다. 상기 일정 값이 0.6에 제한되지 않음은 물론이다. 유사도가 일정 값 이상인 것이 여러 개 있는 경우, 소유자 정보 확인부(200)는 유사도가 가장 높은 것을 최종 사업자등록번호로 확정할 수 있다.The owner information verification unit (200) can find a business registration number from the second candidate group whose similarity with the first candidate is greater than a certain value. For example, when calculating string similarity using Python's difflib built-in module, the similarities of '314-00-66777' and ['100-00-03063', '314-00- 88 777'] are 0.36 and 0.64, respectively. When the threshold is set to 0.6, the owner information verification unit (200) can determine that '314-00- 66 777' and '314-00- 88 777''match' each other. The owner information verification unit (200) can confirm the first candidate, '314-00- 66 777', as the final business registration number. It goes without saying that the above schedule value is not limited to 0.6. If there are multiple items with a similarity level higher than a certain value, the owner information verification unit (200) can confirm the item with the highest similarity level as the final business registration number.

이와 비슷하게, 소유자 정보 확인부(200)는 사업자 정보와 상기 기계매입계약서의 텍스트를 비교하여 사업자명 또는 사업자 주소 일치 여부를 확인할 수 있다. 예컨대 소유자 정보 확인부(200)는 사업자등록증에서 법인명 ,상호, 주소 또는 소재지 정보를 우선 추출할 수 있다. 이후, 소유자 정보 확인부(200)는 추출한 법인명, 상호, 주소와 유사도가 특정 값 이상인 텍스트를 기계매입계약서 텍스트에서 찾을 수 있다. 만약에 유사도가 특정 값 이상인 텍스트가 발견된 경우, 소유자 정보 확인부(200)는 법인명, 상호, 주소 또는 소재지가 일치하는 것으로 판단할 수 있다.Similarly, the owner information verification unit (200) can compare the business information with the text of the machine purchase contract to check whether the business name or address matches. For example, the owner information verification unit (200) can first extract the corporate name, business name, address, or location information from the business registration certificate. Then, the owner information verification unit (200) can find text in the machine purchase contract that has a similarity level higher than a certain value with the extracted corporate name, business name, or address. If a text with a similarity level higher than a certain value is found, the owner information verification unit (200) can determine that the corporate name, business name, address, or location matches.

한편, 일 실시예에서는 기계 이미지 데이터를 통해 추가로 소유자 정보의 신뢰성을 판단할 수 있다.Meanwhile, in one embodiment, the reliability of owner information can be additionally determined through machine image data.

일 실시예에 따르면, 소유자 정보 확인 단계(S200)는, 상기 기계 이미지의 메타 데이터에서 위치 정보를 획득하고, 상기 위치 정보를 상기 사업자등록증 상의 주소 정보와 비교하여, 상기 위치와 상기 주소가 특정 거리 이내인지를 판단하는 단계를 더 포함할 수 있다. According to one embodiment, the owner information verification step (S200) may further include a step of obtaining location information from metadata of the machine image, comparing the location information with address information on the business registration certificate, and determining whether the location and the address are within a specific distance.

특히 스마트폰을 이용해 촬영한 이미지의 경우, 이미지의 메타 데이터에 GPS 정보, 즉 사진을 촬영한 곳의 위치 정보가 포함되어 있을 수 있다. 일 실시예에서는, 이미지 데이터에 GPS 정보가 포함된 경우, 사업자등록증에 나타난 주소를 GPS 좌표로 변환한 후, 이미지 데이터의 좌표와 사업자등록증 주소 좌표 간의 거리를 계산할 수 있다. 상기 거리가 특정 값 이하인 경우, 소유자 정보 확인부(200)는 주소 정보가 일치하는 것으로 판단할 수 있다. 예컨대 상기 특정 값은 100m, 1km 등으로 설정될 수 있으나 본 발명이 이에 제한되는 것은 아니다.In particular, in the case of images taken using a smartphone, GPS information, i.e., location information of the place where the photo was taken, may be included in the metadata of the image. In one embodiment, if the image data includes GPS information, the address shown in the business registration certificate may be converted into GPS coordinates, and then the distance between the coordinates of the image data and the address coordinates of the business registration certificate may be calculated. If the distance is less than a specific value, the owner information verification unit (200) may determine that the address information matches. For example, the specific value may be set to 100 m, 1 km, etc., but the present invention is not limited thereto.

주소 정보 변환시에는, 좌표변환(geocoder) 알고리즘 및 외부 API 등을 활용할 수 있다.When converting address information, you can use coordinate conversion (geocoder) algorithms and external APIs.

상술한 소유자 정보 확인부(200)는 인공지능 모듈을 통해 사업자등록번호, 사업자명, 또는 사업자 주소 일치 여부를 확인할 수 있다. 인공지능 모듈은 언어 모델(LLM)을 통해 전체 텍스트에서 '사업자등록번호','사업자명', '주소'일 가능성이 높은 텍스트를 추출할 수 있다. 이때, 일 실시예에서는 언어 모델(LLM)에 정규식에 관한 정보를 입력 또는 학습스킬 수 있다. 인공지능 모듈은 추출한 key:value를 비교하여 사업자 정보와 기계매입계약서 간 소유자 정보가 일치하는지를 판단할 수 있다.The owner information verification unit (200) described above can verify whether the business registration number, business name, or business address match through the artificial intelligence module. The artificial intelligence module can extract texts that are likely to be 'business registration number', 'business name', or 'address' from the entire text through the language model (LLM). At this time, in one embodiment, information on regular expressions can be input or learned into the language model (LLM). The artificial intelligence module can compare the extracted key:value to determine whether the business information and the owner information in the machine purchase contract match.

한편, 장치(10)는 추출된 사업자등록번호를 외부의 데이터베이스를 통해 검증할 수 있다. 일 실시예에 따르면, 장치(10)는 사업자등록 정보 확인부(미도시)를 포함할 수 있다. 사업자 등록 정보 확인부는, 국세청 등 사업자등록번호 및 영업 활동 여부를 조회할 수 있는 웹사이트에 접속할 수 있다. 사업자 등록 정보 확인부는 추출한 사업자등록번호를 통해, 사업자 정보를 조회할 수 있다. 사업자 등록 정보 확인부는 조회 결과를 통해, 추출한 사업자등록번호가 실제 존재하는 사업자등록번호인지를 확인할 수 있다. 또한, 해당 사업자등록번호를 통해 사업자명, 주소 등의 상세 내용을 확인할 수 있다.Meanwhile, the device (10) can verify the extracted business registration number through an external database. According to one embodiment, the device (10) can include a business registration information verification unit (not shown). The business registration information verification unit can access a website such as the National Tax Service that can search for business registration numbers and whether business activities are in progress. The business registration information verification unit can search for business information through the extracted business registration number. The business registration information verification unit can check whether the extracted business registration number is an actual business registration number through the search result. In addition, detailed information such as the business name and address can be confirmed through the corresponding business registration number.

이후, 상기 기계 이미지에서 텍스트를 추출하고, 상기 기계매입계약서의 텍스트와 비교하여, 상기 기계의 제조사, 모델명, 시리얼 번호(serial number) 또는 연식 정보 일치 여부를 확인하는 기계 정보 확인 단계(S300)가 수행된다. 상기 단계(S300)는 기계 정보 확인부(300)에 의해 수행될 수 있다.Thereafter, a machine information verification step (S300) is performed to extract text from the machine image, compare it with the text of the machine purchase contract, and check whether the manufacturer, model name, serial number, or model year information of the machine matches. The step (S300) can be performed by a machine information verification unit (300).

기계 정보 확인부(300)는, 연동된 OCR 모듈을 통해 기계 이미지 데이터에서 텍스트 데이터를 추출할 수 있다. 기계 정보 확인부(300)는 예컨대 기계의 명판을 촬영한 이미지에서 텍스트를 추출한 후, 제조사, 모델명, 시리얼 번호, 연식(year) 등의 데이터를 획득할 수 있다. The machine information verification unit (300) can extract text data from machine image data through a linked OCR module. For example, the machine information verification unit (300) can extract text from an image of a machine nameplate and then obtain data such as the manufacturer, model name, serial number, and year.

기계 정보 확인부(300)는 인공지능 모듈과 연동될 수 있다. 인공지능 모듈은 기계 이미지에서 추출한 전체 텍스트에서 제조사, 모델명, 시리얼 번호, 연식 정보일 가능성이 높은 텍스트를 추출할 수 있다.The machine information verification unit (300) can be linked with an artificial intelligence module. The artificial intelligence module can extract text that is likely to be manufacturer, model name, serial number, and model year information from the entire text extracted from the machine image.

제조사는 추출된 텍스트 상에서 예컨대 '제조업체', '제작자', 'Manufacturer'등으로 표현될 수 있다.The manufacturer can be expressed in the extracted text as, for example, 'manufacturer', 'producer', etc.

모델명은 예컨대 'Model number' ,'Model No.', 'Model', 등으로 표현될 수 있다. The model name can be expressed as, for example, 'Model number', 'Model No.', 'Model', etc.

시리얼 번호는 예컨대'Serial number', 'Serial No.', 'Item No.', 'Item Id'등으로 표현될 수 있다. The serial number can be expressed as, for example, 'Serial number', 'Serial No.', 'Item No.', 'Item Id', etc.

연식은 예컨대 '제조연월', '제조년월일' 등으로 표현될 수 있다.The year can be expressed as, for example, 'manufacturing year and month' or 'manufacturing year, month, and day'.

기계 정보 확인부(300)는, 우선 위와 같은 키(key)에 해당하는 동의/유사어를 먼저 추출하고, 추출된 텍스트 주위(neighborhood)에 있는 텍스트에서 해당 키(key)의 값(value)을 추출할 수 있다. 예컨대, 기계 정보 확인부(300)는 추출된 키(key) 텍스트와의 거리가 '단어'를 기준으로 2개 이내인 텍스트를 해당 키(key)의 값(value)으로 추출할 수 있다.The machine information verification unit (300) first extracts synonyms/similar words corresponding to the key as above, and can extract the value of the key from the text in the neighborhood of the extracted text. For example, the machine information verification unit (300) can extract text that is within 2 'words' from the extracted key text as the value of the key.

도 5는 제조사, 모델명, 시리얼 번호, 연식 정보가 나타난 기계 명판 이미지의 일 예시이다. 예컨대 시리얼 번호의 경우, 기계 정보 확인부(300)는 시리얼 번호와 동의/유사어인 'Serial number', 'Serial No.', 'Item No.'등의 텍스트를 먼저 추출할 수 있다. 도 5의 예시에서는 'SERIAL NO'이라는 텍스트가 키(key)로 먼저 추출되고, 이와 거리가 1인 '0039-006535'라는 텍스트가 값(key)으로 추출될 수 있다. 이를 통해 기계 정보 확인부(300)는 '0039-006535'를 시리얼 번호로 최종 추출할 수 있다.Fig. 5 is an example of a machine nameplate image showing manufacturer, model name, serial number, and year information. For example, in the case of a serial number, the machine information verification unit (300) can first extract texts such as 'Serial number', 'Serial No.', and 'Item No.', which are synonyms/similar words to the serial number. In the example of Fig. 5, the text 'SERIAL NO' is first extracted as a key, and the text '0039-006535', which is a distance of 1 from it, can be extracted as a value (key). Through this, the machine information verification unit (300) can finally extract '0039-006535' as the serial number.

도 5의 예시에서는, 모델명 및 시리얼 번호, 연식(제조일자) 정보가 키(key): 값(value) 구조로 명확하게 표시되어 있다. 그러나 이러한 키(key)에 대한 정보 없이 값(value)만을 가지는 경우가 있을 수 있다. 예컨대, 도 5에는 '산인프라코어'라는 텍스트가 포함되어 있다. '인프라코어'는 기계 제조업체의 이름이다. 이때, 도 5의 기계 명판에는 명시적으로 '제조사'라고 기재되어 있지 않다. 따라서, 장치(10)는 '인프라코어'가 제조사 이름인지에 대해 추출한 텍스트 자체만으로는 판단할 수 없다. In the example of Fig. 5, the model name, serial number, and year (manufacturing date) information are clearly displayed in a key: value structure. However, there may be cases where only the value is present without information about the key. For example, Fig. 5 includes the text 'San Infracore'. 'Infracore' is the name of the machine manufacturer. In this case, the machine nameplate of Fig. 5 does not explicitly state 'manufacturer'. Therefore, the device (10) cannot determine whether 'Infracore' is the manufacturer name based solely on the extracted text itself.

이처럼 추출해야 하는 변수의 키(key)가 명시적으로 기재되어 있지 않은 경우, 장치(10)는 기계 정보 데이터베이스를 활용할 수 있다.In cases where the key of the variable to be extracted is not explicitly described, the device (10) can utilize the machine information database.

일 실시예에 따르면, 장치(10)는 기계 이미지에서 추출한 텍스트와 기계 정보 데이터베이스를 비교해 제조사 일치 여부를 확인할 수 있다. 장치(10)는 여러 기계 장비 기업들의 이름을 저장한 데이터베이스 또는 파일과 연동되어 있을 수 있다.In one embodiment, the device (10) can compare text extracted from a machine image with a machine information database to determine whether the manufacturer matches. The device (10) may be linked to a database or file storing the names of various machine equipment companies.

기계 정보 확인부(300)는 기계 정보 데이터베이스와의 비교를 통해 전체 텍스트 중 어떤 텍스트가 '제조사'에 해당하는지 판단할 수 있다. '제조사'에 관한 기계 정보 데이터베이스는 '인프라코어' 등 여러 제조사 이름을 포함할 수 있다. 기계 정보 확인부(300)는 제조사 이름을 전부 대조하여, 일치하는 텍스트가 있는지 판단할 수 있다. 이에 따라 기계 정보 확인부(300)는 '인프라코어'가 '제조사'라는 변수(key)의 값(value)임을 확인할 수 있다.The machine information verification unit (300) can determine which text among the entire text corresponds to the 'manufacturer' through comparison with the machine information database. The machine information database regarding the 'manufacturer' can include several manufacturer names such as 'Infracore'. The machine information verification unit (300) can compare all manufacturer names to determine whether there is a matching text. Accordingly, the machine information verification unit (300) can determine that 'Infracore' is the value of the variable (key) called 'manufacturer'.

이와 비슷하게, 장치(10)는 기계 이미지에서 추출한 텍스트와 기계 정보 데이터베이스를 비교해 모델명 일치 여부를 확인할 수 있다. 기계 분야에서 '모델명'은 '상품 이름'에 해당하는바, 장치(10)는 제조사의 홈페이지 등에 접속해 여러 모델명의 데이터베이스를 구축할 수 있다. 만약 기계 명판 이미지에는 명시적으로 '모델명' 또는 'Model' 등으로 기재되어 있지 않더라도, 기계 정보 확인부(300)는 모델명 데이터베이스와의 비교를 통해 추출한 텍스트 중 어떤 부분이 '모델명' 정보에 해당하는지 판단할 수 있다.Similarly, the device (10) can compare the text extracted from the machine image with the machine information database to check whether the model name matches. In the machine field, the 'model name' corresponds to the 'product name', and the device (10) can access the manufacturer's homepage, etc., to build a database of various model names. Even if the machine nameplate image does not explicitly state 'model name' or 'Model', the machine information verification unit (300) can determine which part of the extracted text corresponds to the 'model name' information through comparison with the model name database.

한편, 제조사 또는 모델명과는 달리, 기계의 시리얼 번호(serial number)는 기계마다 유일하게 부여되는 값인바, 데이터베이스로 만들기가 어려운 경우가 많다. 이때, 만약 '시리얼 번호', 'Serial No'등의 텍스트가 기계 명판 이미지에 나와 있지 않은 경우라면, 어떤 텍스트가 '시리얼 번호'인지 판단하기 어려울 수 있다.On the other hand, unlike the manufacturer or model name, the serial number of the machine is a unique value assigned to each machine, so it is often difficult to create a database. In this case, if the text 'Serial Number' or 'Serial No' is not shown in the machine nameplate image, it can be difficult to determine which text is the 'Serial Number'.

본 발명의 일 실시예에서는 '계약서'에서 추출한 정보를 통해 시리얼 번호의 정규식을 생성하여 시리얼 번호 정보를 확정한다. In one embodiment of the present invention, a regular expression of a serial number is generated using information extracted from a ‘contract’ to confirm serial number information.

일 실시예에 따르면, 기계 정보 확인 단계(S300)는, 기계매입계약서에서, 시리얼 번호 1차 후보를 추출하는 단계, 상기 시리얼 번호 1차 후보를 포괄하는 정규식(regular expression)을 생성하는 단계 및 상기 정규식을 통해, 상기 기계 이미지에서 시리얼 번호 2차 후보군을 추출하는 단계를 포함한다.According to one embodiment, the machine information verification step (S300) includes a step of extracting a primary candidate for a serial number from a machine purchase contract, a step of generating a regular expression encompassing the primary candidate for the serial number, and a step of extracting a secondary candidate for the serial number from the machine image through the regular expression.

도 6은 기계 정보가 나타난 기계매입계약서의 일 예시이다. Figure 6 is an example of a machine purchase contract showing machine information.

기계매입계약서의 경우, 매입 대상물을 특정하기 위하여 모델명, 시리얼 번호를 나타내는 문구가 명확하게 기재되어 있는 경우가 대부분이다. 실제로, 도 6의 이미지에서 R61 영역을 OCR하는 경우 "Model : SDPO-7500 Serial No : 180276'이라는 텍스트를 추출할 수 있다. 이처럼 기계매입계약서를 활용하는 경우, 상술한 바와 같이 'Serial No'라는 키(key) 텍스트를 기준으로, 단어의 거리를 통해 값(value)을 추출할 수 있다. 이를 통해, 기계 정보 확인부(300)는 시리얼 번호의 1차 후보 텍스트를 추출할 수 있다.In the case of a machine purchase contract, in most cases, phrases indicating the model name and serial number are clearly written to specify the purchase target. In fact, when OCRing the R61 area in the image of Fig. 6, the text "Model: SDPO-7500 Serial No : 180276 " can be extracted. In this way, when utilizing a machine purchase contract, as described above, a value can be extracted through the distance of words based on the key text called 'Serial No'. Through this, the machine information verification unit (300) can extract the primary candidate text of the serial number.

이후, 기계 정보 확인부(300)는 시리얼 번호 1차 후보를 포괄하는 정규식(regular expression)을 생성할 수 있다.Thereafter, the machine information verification unit (300) can generate a regular expression that encompasses the first serial number candidate.

예컨대, 도 6의 텍스트에서 시리얼 번호는 '180276'으로 추출되었다. 기계 정보 확인부(300)는 시리얼번호가 6자리 숫자임을 인식하고, 시리얼번호와 관련된 정규식을 '/\b\d{6}\b/g'와 같이 생성할 수 있다.For example, in the text of Fig. 6, the serial number was extracted as '180276'. The machine information verification unit (300) recognizes that the serial number is a 6-digit number and can generate a regular expression related to the serial number as '/\b\d{6}\b/g'.

한편, 도 6의 R62 영역에서 시리얼 번호는 '180800001C'로 추출되었다. 이때 기계 정보 확인부(300)는 시리얼 번호가 9자리 숫자+1자리 알파벳임을 인식하고, 시리얼번호와 관련된 정규식을 '/\b\d{9}[A-Za-z]\b/g'와 같이 생성할 수 있다. 상술한 정규식은 도 6에 나타난 시리얼 번호를 표현하는 식일뿐 본 발명을 제한하는 것이 아님은 물론이다. 일 실시예에서는, 기계 정보 확인부(300)와 연동된 인공지능 모듈이 정규식(regular expression)을 생성할 수 있다.Meanwhile, in the R62 area of Fig. 6, the serial number was extracted as '180800001C'. At this time, the machine information verification unit (300) recognizes that the serial number is a 9-digit number + 1 alphabet digit, and can generate a regular expression related to the serial number as '/\b\d{9}[A-Za-z]\b/g'. It goes without saying that the above-described regular expression is only an expression expressing the serial number shown in Fig. 6, and does not limit the present invention. In one embodiment, an artificial intelligence module linked with the machine information verification unit (300) can generate a regular expression.

이후, 상기 정규식을 통해, 상기 기계 이미지에서 추출한 텍스트에서 시리얼 번호 2차 후보군을 추출하는 단계가 수행된다.Thereafter, a step of extracting a secondary candidate serial number from the text extracted from the machine image is performed using the above regular expression.

도 7는 시리얼 번호 기재 여부가 불분명한 기계 명판 이미지의 일 예시이다. R71 영역이 시리얼 번호로 추측되나, 명판 이미지에 'Serial No' 등의 단어가 없으므로, R71 영역의 텍스트가 시리얼 번호를 의미하는 것인지 확신할 수는 없는 상황이다. 또한, 명판의 색이 바래 추출된 숫자 텍스트가 정확한지도 명확하게 확인할 수 없는 상황이다. Figure 7 is an example of a machine nameplate image where it is unclear whether a serial number is written. The R71 area is assumed to be the serial number, but since there is no word such as 'Serial No' in the nameplate image, it is not certain whether the text in the R71 area means the serial number. In addition, since the color of the nameplate has faded, it is not clear whether the extracted numeric text is accurate.

이때, 만약 기계매입계약서에서 추출한 시리얼번호 1차 후보를 통해 '/^\d{4}-\d{2}-\d{3}-\d{1}$/g'라는 정규식을 생성하였다면, 도 7의 이미지를 OCR한 전체 텍스트에서 '1620-80-502-1' 텍스트를 추출할 수 있다. 정규식에 따라 2차 후보군의 개수는 0개, 1개, 또는 복수 개일 수 있다. 이렇게 추출된 텍스트를 시리얼 번호 2차 후보군이라고 칭한다. At this time, if a regular expression called '/^\d{4}-\d{2}-\d{3}-\d{1}$/g' is created through the first candidate for the serial number extracted from the machine purchase contract, the text '16 2 0-80-502-1' can be extracted from the entire text obtained by OCRing the image in Fig. 7. Depending on the regular expression, the number of second candidates can be 0, 1, or multiple. The text extracted in this way is called the second candidate for the serial number.

2차 후보군의 개수가 0개라는 것은, 생성된 정규식과 일치하는 텍스트가 발견되지 않았음을 의미한다. 이때 기계 정보 확인부(300)는 시리얼 번호 일치 여부 판단을 보류하고, 정규식을 업데이트할 수 있다. The number of secondary candidates being 0 means that no text matching the generated regular expression was found. At this time, the machine information verification unit (300) can postpone the determination of whether the serial number matches and update the regular expression.

2차 후보군의 개수가 1개 이상이고, 시리얼번호 1차 후보와 2차 후보군의 원소 사이의 텍스트 유사도가 일정 값(threshold) 이상인 것이 존재하는 경우, 기계 정보 확인부(300)는 시리얼 번호가 일치한 것으로 판단할 수 있다. 예컨대 도 7의 경우, 실제 명판의 시리얼 번호는 '1680-80-502-1'이고, OCR 및 정규식을 통해 추출한 2차 후보군은'1620-80-502-1' 이다. 텍스트 유사도가 일정 값 이상이므로, 기계 정보 확인부(300)는 시리얼 번호가 일치한 것으로 판단할 수 있다. If the number of secondary candidates is 1 or more, and there is a text similarity between the elements of the primary serial number candidate and the secondary serial number candidate that is higher than a certain value (threshold), the machine information verification unit (300) can determine that the serial numbers match. For example, in the case of Fig. 7, the serial number of the actual nameplate is '16 8 0-80-502-1', and the secondary candidate extracted through OCR and regular expression is '16 2 0-80-502-1'. Since the text similarity is higher than a certain value, the machine information verification unit (300) can determine that the serial numbers match.

이하에서는, 모델명 및 시리얼 번호 데이터베이스를 통해 정규식을 생성해 시리얼 번호를 확정하는 실시예에 관해 설명한다. Below, an embodiment of determining a serial number by generating a regular expression using a model name and serial number database is described.

일 실시예에서, 기계 정보 확인 단계(S300)는, 상기 기계매입계약서에서 상기 기계의 모델명을 추출하는 단계, 상기 프로세서와 연동되고, 다른 기계의 모델명 및 시리얼 번호 정보를 담고 있는 기계 정보 데이터베이스에서, 상기 모델명과 일치하는 다른 기계들의 시리얼 번호 정보를 포괄하는 정규식을 생성하는 단계 및 상기 정규식을 통해, 상기 기계 이미지에서 추출한 텍스트에서 시리얼 번호 2차 후보군을 추출하는 단계를 포함할 수 있다.In one embodiment, the machine information verification step (S300) may include a step of extracting the model name of the machine from the machine purchase contract, a step of generating a regular expression that includes serial number information of other machines that match the model name in a machine information database that is linked to the processor and contains model name and serial number information of other machines, and a step of extracting a secondary serial number candidate group from text extracted from the machine image through the regular expression.

우선, 기계매입계약서에서 기계의 모델명을 추출하는 단계가 수행된다. 상술한 것처럼, 기계매입계약서의 경우 모델명을 나타내는 문구가 명확하게 기재되어 있는 경우가 대부분이다. 실제로, 도 6의 이미지에서 R61 영역을 OCR하는 경우 "Model : SDPO-7500 Serial No : 180276'이라는 텍스트를 추출할 수 있다. 이 경우, 'Model'라는 키(key) 텍스트를 기준으로, 단어의 거리를 통해 값(value)을 추출할 수 있다. 이를 통해, 기계 정보 확인부(300)는 모델명의 1차 후보(텍스트)를 추출할 수 있다. First, a step of extracting the model name of the machine from the machine purchase contract is performed. As described above, in most cases, the machine purchase contract clearly states the phrase indicating the model name. In fact, when OCRing the R61 area in the image of Fig. 6, the text " Model: SDPO-7500 Serial No: 180276" can be extracted. In this case, the value can be extracted through the distance of the word based on the key text called 'Model'. Through this, the machine information verification unit (300) can extract the first candidate (text) of the model name.

기계 정보 확인부(300)는 모델명 1차 후보와, '모델명' 정보를 포함하는 기계 정보 데이터베이스를 비교해, 모델명이 일치하는 데이터가 있는지를 확인할 수 있다. 이후, 데이터베이스에서 모델명이 일치하는 다른 기계들의 시리얼 번호 정보를 포괄하는 정규식을 생성하는 단계가 수행된다. The machine information verification unit (300) can compare the model name primary candidate with the machine information database containing the 'model name' information to check whether there is data with a matching model name. Afterwards, a step of generating a regular expression that includes serial number information of other machines with matching model names in the database is performed.

예컨대, 하기 [표 2]와 같은 기계 정보 데이터베이스가 있다고 가정하자. For example, let us assume that there is a machine information database as shown in [Table 2] below.

번호number 모델명model name 시리얼 번호Serial number 11 SDPO-6500SDPO-6500 180124-A180124-A 22 SDPO-6500SDPO-6500 180207-B180207-B 33 SDPO-7500SDPO-7500 180276180276 44 SDPO-7500SDPO-7500 18027611802761

이 중, 도 6의 계약서에서 추출한 모델명('SDPO-7500')과 일치하는 기계 번호는 3, 4번이다. 두 기계의 시리얼 번호는 각각 '180276', '1802761'이다. 기계 정보 확인부(300)는 두 시리얼 번호를 포괄할 수 있는 정규식을 생성한다. 예컨대 기계 정보 확인부(300)는 시리얼 번호가 6 또는 7자리 숫자라는 점을 인식하여 "/\b\d{6,7}\b/g"와 같은 정규식을 생성할 수 있다. 데이터베이스에 같은 모델명을 가진 기계가 많을수록, 각 시리얼 번호의 공통점과 차이점을 발견할 수 있게 되는바 정규식의 패턴은 정교해질 수 있다.이후, 상기 생성한 정규식을 통해, 기계 이미지에서 추출한 텍스트에서 시리얼 번호 2차 후보군을 추출하는 단계가 수행된다. Among these, the machine numbers that match the model name ('SDPO-7500') extracted from the contract of Fig. 6 are 3 and 4. The serial numbers of the two machines are '180276' and '1802761', respectively. The machine information verification unit (300) generates a regular expression that can encompass the two serial numbers. For example, the machine information verification unit (300) can recognize that the serial number is a 6 or 7-digit number and generate a regular expression such as "/\b\d{6,7}\b/g". As the number of machines with the same model name in the database increases, the commonalities and differences of each serial number can be discovered, and thus the pattern of the regular expression can become more sophisticated. Thereafter, a step of extracting a secondary candidate serial number from the text extracted from the machine image is performed using the generated regular expression.

기계 명판을 OCR한 텍스트 데이터에서 상기 정규식과 일치하는 시리얼 번호가 발견되는 경우, 해당 텍스트는 시리얼 번호 2차 후보군에 속한다. 계약서에서 추출한 시리얼번호 1차 후보 및 기계 이미지에서 추출한 시리얼 번호 2차 후보군의 원소에서 텍스트 유사도가 일정 값 이상인 것이 있는 경우, 기계 정보 확인부(300)는 시리얼 번호가 일치한 것으로 판단할 수 있다.If a serial number matching the above regular expression is found in the text data obtained by OCRing the machine nameplate, the text belongs to the second candidate group of serial numbers. If there is an element of the first candidate serial number extracted from the contract and the second candidate serial number extracted from the machine image whose text similarity is above a certain value, the machine information verification unit (300) can determine that the serial numbers match.

이와 비슷하게, 기계의 연식(year) 등의 정보 역시 기계 정보 확인부(300)에 의해 확인될 수 있다. 예컨대 기계의 연식을 확인하기 위한 정규식이 '/\b\d{4}([-./])?(0?[1-9]|1[0-2])?([-./])?(0?[1-9]|[12][0-9]|3[01])?\b/g' 인 경우, 상기 정규식으로는 '2011', '2011.3', 2011-03-08' 등의 연/월/일과 관련된 텍스트를 추출할 수 있다. 기계 정보 확인부(300)는 기계매입계약서와 기계 (명판) 이미지에서, 상기 정규식을 통해 각각 얻은 텍스트를 비교해 연식 일치 여부를 확인 할 수 있다.Similarly, information such as the year of the machine can also be verified by the machine information verification unit (300). For example, if the regular expression for verifying the year of the machine is '/\b\d{4}([-./])?(0?[1-9]|1[0-2])?([-./])?(0?[1-9]|[12][0-9]|3[01])?\b/g', the regular expression can extract texts related to year/month/day such as '2011', '2011.3', and 2011-03-08'. The machine information verification unit (300) can compare the texts obtained through the regular expression in the machine purchase contract and the machine (nameplate) image to verify whether the years match.

이후, 소유자 정보 확인 상태 및 기계 정보 확인 상태에 따라, 상기 기계에 신뢰도 점수를 계산하는 단계(S400)가 수행된다. 상기 단계(S400)는 신뢰도 점수 계산부(400)에 의해 수행될 수 있다.Thereafter, a step (S400) of calculating a reliability score for the machine is performed according to the owner information verification status and the machine information verification status. The step (S400) can be performed by a reliability score calculation unit (400).

신뢰도 점수 계산부(400)는, 적어도 2개의 다른 문서에서 각각 추출한 사업자등록번호, 사업자명, 주소, 제조사, 모델명, 시리얼 번호, 연식 등의 일치 여부에 따라 신뢰도 점수를 계산/부여한다. 뿐만 아니라, 신뢰도 점수 계산부(400)는 다른 값 또는 데이터를 통해 신뢰도 점수를 계산/수정할 수 있다.The reliability score calculation unit (400) calculates/assigns a reliability score based on whether the business registration number, business name, address, manufacturer, model name, serial number, model year, etc. extracted from at least two different documents match. In addition, the reliability score calculation unit (400) can calculate/modify the reliability score using other values or data.

예컨대 사업자등록번호 등 어떤 변수가 일치하는 경우, 신뢰도 점수 계산부(400)는 일치 여부 값에 '1'이라는 값을 부여할 수 있다. 만약 일치하지 않는 경우, '0'이라는 값을 부여할 수 있다. 문서가 없거나 변수가 발견되지 않아 일치 여부를 확정할 수 없는 경우, '0.5' 등과 같은 기정된 값을 부여할 수 있다.For example, if a variable such as a business registration number matches, the reliability score calculation unit (400) can assign a value of '1' to the match value. If they do not match, a value of '0' can be assigned. If a match cannot be determined because there is no document or the variable is not found, a preset value such as '0.5' can be assigned.

신뢰도 점수 계산부(400)는 각 변수마다 중요도를 판단해 가중치를 다르게 부여할 수 있다.The reliability score calculation unit (400) can determine the importance of each variable and assign different weights to it.

예컨대 사업자등록번호 및 시리얼 번호는 각 사업자 및 기계마다 '고유'한 값이므로, 해당 정보가 일치하는 경우 정보의 신뢰성이 매우 높다고 판단할 수 있다. 예컨대 신뢰도 점수 계산부(400)는 사업자등록번호 및 시리얼 번호에 '10'이라는 가중치를 부여할 수 있다.For example, since the business registration number and serial number are 'unique' values for each business and machine, if the information matches, it can be determined that the reliability of the information is very high. For example, the reliability score calculation unit (400) can assign a weight of '10' to the business registration number and serial number.

예컨대 사업자명 및 사업자 주소는, 회사명 변경, 주소지 이전 등으로 바뀔 수 있는 값이다. 이 경우에는, 해당 정보가 일치하더라도 사업자등록번호보다는 신뢰성이 작을 수 있다. 예컨대 예컨대 신뢰도 점수 계산부(400)는 사업자등록번호 및 시리얼 번호에 '5'라는 가중치를 부여할 수 있다.For example, the business name and business address are values that can change due to changes in the company name, address transfer, etc. In this case, even if the information matches, the reliability may be lower than that of the business registration number. For example, the reliability score calculation unit (400) may assign a weight of '5' to the business registration number and serial number.

예컨대 기계의 제조사, 모델명의 경우 텍스트를 추출하는 문서의 성질/종류에 따라 '다른' 제조사/모델명이 추출될 수도 있다. 또한, '연식'의 경우에는 '제조연월'과 관련 없는 다른 날짜 정보가 추출될 수도 있다. 따라서, 해당 정보가 불일치하더라도 페널티(penalty)는 다른 변수들보다 더 작게 책정될 수 있다. 예컨대 신뢰도 점수 계산부(400)는 제조사, 모델명 및 시리얼 번호에 '1'이라는 가중치를 부여할 수 있다.For example, in the case of the manufacturer and model name of a machine, depending on the nature/type of the document from which the text is extracted, a 'different' manufacturer/model name may be extracted. Also, in the case of the 'year of manufacture', other date information unrelated to the 'month and year of manufacture' may be extracted. Accordingly, even if the information is inconsistent, the penalty may be set smaller than other variables. For example, the reliability score calculation unit (400) may assign a weight of '1' to the manufacturer, model name, and serial number.

즉 신뢰도 점수는 하기의 [수학식 1]과 같이 계산될 수 있다. That is, the reliability score can be calculated as shown in [Mathematical Formula 1] below.

이때, t는 신뢰도 점수, n은 상기 사업자등록번호, 상기 사업자명, 상기 사업자 주소, 상기 제조사, 상기 모델명, 상기 시리얼 번호 및 상기 연식, mn은 상기 변수(n)의 일치 여부 값, wn은 상기 변수(n)에 대한 가중치이다. 상술한 신뢰도 점수 계산 방법은 예시적인 것일뿐 본 발명을 제한하는 것이 아님은 물론이다. Here, t is the reliability score, n is the business registration number, the business name, the business address, the manufacturer, the model name, the serial number, and the year, m n is the value of whether the variable (n) matches, and w n is the weight for the variable (n). It should be understood that the above-described reliability score calculation method is exemplary and does not limit the present invention.

한편, 일 실시예에서는 기계 이미지의 메타 데이터를 통해 추가로 기계 정보의 신뢰성을 판단할 수 있다.Meanwhile, in one embodiment, the reliability of machine information can be additionally determined through metadata of the machine image.

일 실시예에 따르면, 신뢰도 점수를 계산하는 단계(S400)는, 상기 기계명판 이미지의 메타 데이터에서 상기 이미지의 촬영 시점 정보를 획득하고, 상기 촬영 시점 정보를 상기 기계매입계약서의 계약일 정보와 비교하여, 상기 촬영 시점이 상기 계약일보다 과거인지를 판단하는 단계를 더 포함할 수 있다.According to one embodiment, the step of calculating a reliability score (S400) may further include the step of obtaining information on the time at which the image was taken from metadata of the machine nameplate image, comparing the information on the time at which the image was taken with the contract date information of the machine purchase contract, and determining whether the time at which the image was taken is before the contract date.

이미지의 메타 데이터는 사진을 촬영할 때의 시점 정보가 포함되어 있을 수 있다. 이 경우, 신뢰도 점수 계산부(400)는 기계 정보 확인부(300)가 추출한 계약서 체결일과 해당 촬영 시점 정보를 비교할 수 있다. 판매자는 자신이 쓴 중고기계 판매를 위해 기계의 사진을 촬영하였을 것인바, 사진 촬영 시점은 기계의 제조연월(year) 및 처음 기계를 구입한 날, 즉 기계매입계약서가 작성된 시점보다 이후일 가능성이 높다. 따라서, 촬영 시점이 계약일보다 과거인 경우, 논리적으로 맞지 않는 상황이므로 신뢰도 점수 계산부(400)는 전체 신뢰도 점수를 낮출 수 있다.The metadata of the image may include information on the time when the photo was taken. In this case, the reliability score calculation unit (400) may compare the contract conclusion date extracted by the machine information verification unit (300) with the corresponding photographing time information. The seller may have taken a photo of the machine to sell the used machine he or she used, and the time when the photo was taken is likely to be after the manufacturing year of the machine and the date when the machine was first purchased, that is, after the time when the machine purchase contract was written. Accordingly, if the time of the photo was taken before the contract date, the reliability score calculation unit (400) may lower the overall reliability score because it is a situation that is not logically correct.

일 실시예에 따르면, 신뢰도 점수 계산부(400)는 상기 기계가 '중복' 매물인지 여부를 판단하고, 중복 매물로 판단된 경우 신뢰도 점수를 낮출 수 있다.According to one embodiment, the reliability score calculation unit (400) can determine whether the machine is a 'duplicate' listing and, if determined to be a duplicate listing, can lower the reliability score.

장치(10)는 판매/구매가 종료된 기계의 시리얼 번호를 포함하는 데이터베이스와 연동되어 있을 수 있다. 만약 판매자가 매물로 업로드한 기계의 시리얼 번호가 판매/구매가 종료된 기계의 시리얼 번호 데이터베이스에 들어 있는 경우, 신뢰도 점수 계산부(400)는 해당 기계를 '중복' 매물로 판단하고 신뢰도 점수를 낮출 수 있다. The device (10) may be linked to a database containing serial numbers of machines whose sales/purchases have ended. If the serial number of a machine uploaded by a seller as an item for sale is included in the serial number database of machines whose sales/purchases have ended, the reliability score calculation unit (400) may determine the machine as a 'duplicate' item and lower the reliability score.

장치(10)는 이러한 신뢰도 점수를 구매자의 단말에 전송할 수 있다. 예컨대 신뢰도 점수가 특정 값 이상인 경우, 판매자 또는 구매자의 클라이언트에서는 '소유자 인증', '실물 기계 인증'등과 같은 마크(mark) 등이 디스플레이될 수 있다. 장치(10)는 판매자 또는 구매자 단말에, 어떤 정보가 불일치하는 것으로 판단되었는지에 관한 정보 및 메시지를 전송하고, 특히 판매자 단말에는 사업자등록증, 계약서, 기계 이미지 등의 업데이트를 요청할 수 있다. The device (10) can transmit this reliability score to the buyer's terminal. For example, if the reliability score is higher than a certain value, marks such as 'owner authentication', 'real machine authentication', etc. can be displayed on the seller's or buyer's client. The device (10) can transmit information and a message regarding which information is judged to be inconsistent to the seller's or buyer's terminal, and in particular, can request the seller's terminal to update business registration certificate, contract, machine image, etc.

한편, 일 실시예에서는 기계 이미지의 분석을 통해 추가로 기계 정보의 신뢰성을 판단할 수 있다.Meanwhile, in one embodiment, the reliability of machine information can be additionally determined through analysis of machine images.

예컨대 장치(10)는 기계 이미지에서 색상 정보를 분석할 수 있다. 만일 '단색'의 기계인데, 이미지 분석 결과 색상 값이 특정 값(threshold) 이상 차이가 있는 부분이 있는 경우, 장치(10)는 해당 기계가 '수리'가 된 것으로 판단할 수 있다. 이때 판매자가 업로드한 데이터 또는 기계 정보 데이터에서 '수리 사실 없음' 등의 데이터가 있는 경우, 신뢰도 점수 계산부(400)는 상기 기계의 신뢰도 점수를 낮출 수 있다.For example, the device (10) can analyze color information in a machine image. If the machine is a 'monochromatic' machine, and the image analysis result shows a part where the color value differs by a certain value (threshold) or more, the device (10) can determine that the machine has been 'repaired'. In this case, if there is data such as 'no repair fact' in the data uploaded by the seller or the machine information data, the reliability score calculation unit (400) can lower the reliability score of the machine.

본 발명의 실시예에 따르면, 기계 판매/구매와 관련된 여러 문서를 통해 기계 매물의 소유자 및 기계 정보를 검증해 매물의 신뢰도를 평가한다. 이를 통해 허위/중복 매물을 사전에 탐지하여, 거래의 신뢰성이 증대된다.According to an embodiment of the present invention, the reliability of a machine is evaluated by verifying the owner and machine information of the machine through various documents related to the sale/purchase of the machine. This allows false/duplicate products to be detected in advance, thereby increasing the reliability of the transaction.

도 8은 본 개시의 예시적 실시예에 따른 컴퓨팅 시스템을 나타내는 블록도이다.FIG. 8 is a block diagram illustrating a computing system according to an exemplary embodiment of the present disclosure.

도 5를 참조하면, 컴퓨팅 시스템(1000)은 장치(10) 또는 사용자 단말(20)를 구성할 수 있고, 프로세서(1100), 메모리 장치(1200), 스토리지 장치(1300), 파워 서플라이(1400) 및 디스플레이 장치(1500)를 포함할 수 있다. 한편, 도 5에는 도시되지 않았지만, 컴퓨팅 시스템(1000)은 비디오 카드, 사운드 카드, 메모리 카드, USB 장치 등과 통신하거나, 또는 다른 전자 기기들과 통신할 수 있는 포트(port)들을 더 포함할 수 있다.Referring to FIG. 5, the computing system (1000) may configure a device (10) or a user terminal (20), and may include a processor (1100), a memory device (1200), a storage device (1300), a power supply (1400), and a display device (1500). Meanwhile, although not shown in FIG. 5, the computing system (1000) may further include ports that may communicate with a video card, a sound card, a memory card, a USB device, etc., or communicate with other electronic devices.

이와 같이, 컴퓨팅 시스템(1000)에 포함된 프로세서(1100), 메모리 장치(1200), 스토리지 장치(1300), 파워 서플라이(1400) 및 디스플레이 장치(1500)는, 본 발명의 기술적 사상에 의한 실시예들에 따른 시스템(1000) 중 어느 하나를 구성하여 인공지능 기반 기계 허위 매물 탐지 방법을 수행할 수 있다. 구체적으로, 프로세서(1100)는 메모리 장치(1200), 스토리지 장치(1300), 파워 서플라이(1400) 및 디스플레이 장치(1500)를 제어함으로써 도 1 내지 도 7에서 상술한 인공지능 기반 기계 허위 매물 탐지 방법 을 수행할 수 있다. In this way, the processor (1100), the memory device (1200), the storage device (1300), the power supply (1400), and the display device (1500) included in the computing system (1000) can perform the artificial intelligence-based machine false listing detection method by configuring any one of the systems (1000) according to the embodiments of the technical idea of the present invention. Specifically, the processor (1100) can perform the artificial intelligence-based machine false listing detection method described above with reference to FIGS. 1 to 7 by controlling the memory device (1200), the storage device (1300), the power supply (1400), and the display device (1500).

프로세서(1100)는 특정 계산들 또는 태스크(task)들을 수행할 수 있다. 실시예에 따라, 프로세서(1100)는 마이크로프로세서(micro-processor), 중앙 처리 장치(Central Processing Unit; CPU)일 수 있다. 프로세서(1100)는 어드레스 버스(address bus), 제어 버스(control bus) 및 데이터 버스(data bus) 등과 같은 버스(1600)를 통하여 메모리 장치(1200), 스토리지 장치(1300) 및 디스플레이 장치(1500)와 통신을 수행할 수 있다. 실시예에 따라, 프로세서(1100)는 주변 구성요소 상호연결(Peripheral Component Interconnect; PCI) 버스와 같은 확장 버스에도 연결될 수 있다.The processor (1100) can perform specific calculations or tasks. According to an embodiment, the processor (1100) can be a microprocessor, a central processing unit (CPU). The processor (1100) can communicate with a memory device (1200), a storage device (1300), and a display device (1500) through a bus (1600), such as an address bus, a control bus, and a data bus. According to an embodiment, the processor (1100) can also be connected to an expansion bus, such as a Peripheral Component Interconnect (PCI) bus.

메모리 장치(1200)는 컴퓨팅 시스템(1000)의 동작에 필요한 데이터를 저장할 수 있다. 예를 들어, 메모리 장치(1200)는 디램(DRAM), 모바일 디램, 에스램(SRAM), 피램(PRAM), 에프램(FRAM), 알램(RRAM) 및/또는 엠램(MRAM)으로 구현될 수 있다. 스토리지 장치(1300)는 솔리드 스테이트 드라이브(solid state drive), 하드 디스크 드라이브(hard disk drive), 씨디롬(CD-ROM) 등을 포함할 수 있다. 스토리지 장치(1300)는 도 1 내지 도 7에서 상술한 인공지능 기반 기계 허위 매물 탐지 방법에 관한 프로그램, 응용 프로그램 데이터, 시스템 데이터, 운영 체제 데이터 등을 저장할 수 있다.The memory device (1200) can store data required for the operation of the computing system (1000). For example, the memory device (1200) can be implemented as DRAM, mobile DRAM, SRAM, PRAM, FRAM, RRAM, and/or MRAM. The storage device (1300) can include a solid state drive, a hard disk drive, a CD-ROM, etc. The storage device (1300) can store a program, application data, system data, operating system data, etc. related to the artificial intelligence-based machine false listing detection method described above with reference to FIGS. 1 to 7.

디스플레이 장치(1500)는 사용자에 대한 알림을 수행하는 출력 수단으로서 인공지능 기반 기계 허위 매물 탐지 방법에 대한 정보를 사용자 등에게 표시하여 알릴 수 있다. 전원 장치(1400)는 컴퓨팅 시스템(1000)의 동작에 필요한 동작 전압을 공급할 수 있다.The display device (1500) can be used as an output means for notifying a user, and can display information on an artificial intelligence-based machine false listing detection method to the user, etc. The power supply device (1400) can supply an operating voltage necessary for the operation of the computing system (1000).

이상에서와 같이 도면과 명세서에서 예시적인 실시예들이 개시되었다. 본 명세서에서 특정한 용어를 사용하여 실시예들을 설명되었으나, 이는 단지 본 개시의 기술적 사상을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 청구범위에 기재된 본 개시의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 개시의 진정한 기술적 보호범위는 첨부된 청구범위의 기술적 사상에 의해 정해져야 할 것이다.As described above, exemplary embodiments have been disclosed in the drawings and the specification. Although specific terms have been used in the specification to describe the embodiments, these have been used only for the purpose of explaining the technical idea of the present disclosure and have not been used to limit the meaning or the scope of the present disclosure described in the claims. Therefore, those skilled in the art will understand that various modifications and equivalent other embodiments are possible from this. Accordingly, the true technical protection scope of the present disclosure should be determined by the technical idea of the appended claims.

Claims (15)

적어도 하나의 프로세서에 의해 수행되는, 기계 허위 매물 탐지 방법에 있어서,
기계 판매자의 사업자 정보, 상기 기계에 관한 기계 매입 계약서 및 상기 기계를 촬영한 기계 이미지 데이터를 획득하는 단계;
상기 사업자 정보와 상기 기계매입계약서의 텍스트를 비교하여, 사업자등록번호, 사업자명 또는 사업자 주소 일치 여부를 확인하는 소유자 정보 확인 단계;
상기 기계 이미지에서 텍스트를 추출하고, 상기 기계 매입 계약서의 텍스트와 비교하여, 상기 기계의 제조사, 모델 명, 시리얼 번호(serial number) 또는 연식 일치 여부를 확인하는 기계 정보 확인 단계; 및
상기 소유자 정보 확인 상태 및 상기 기계 정보 확인 상태에 따라, 상기 기계의 신뢰도 점수를 계산하는 단계;를 포함하고,
상기 기계 정보 확인 단계는,
상기 기계 매입 계약서에서, 상기 모델 명에 대응하는 키 텍스트를 기준으로 단어의 거리를 통해 상기 기계의 모델 명을 추출하는 단계;
상기 기계 매입 계약서에서, 상기 시리얼 번호에 대응하는 키 텍스트를 기준으로 단어의 거리를 통해 상기 기계의 시리얼 번호에 대한 1차 후보군을 추출하는 단계;
상기 프로세서와 연동되고, 다른 기계의 모델 명 및 시리얼 번호 정보를 담고 있는 기계 정보 데이터베이스에서, 추출한 상기 모델 명이 일치하는 데이터가 있는지 여부를 확인하는 단계;
상기 모델 명이 일치하는 데이터가 있는 경우, 상기 모델 명에 대응하는 복수의 시리얼 번호를 포괄하는 정규식을 생성하는 단계;
상기 정규식을 통해, 상기 기계 이미지에서 추출한 텍스트에서 시리얼 번호 2차 후보군을 추출하는 단계;
상기 2차 후보군이 0개인 경우 상기 시리얼 번호의 일치 여부 판단을 보류하고, 상기 기계 매입 계약서 및 상기 기계 정보 데이터베이스를 활용하여 상기 정규식을 업데이트하는 단계;
상기 2차 후보군이 1개 이상이고, 상기 1차 후보군과 상기 2차 후보군의 원소 사이의 텍스트 유사도가 일정 값 이상인 경우 상기 기계의 시리얼 번호가 일치하는 것으로 판단하는 단계;
상기 기계의 연식을 확인하기 위한 정규식을 결정하는 단계;
상기 결정된 정규식을 활용하여 상기 기계 매입 계약서 및 기계 명판 이미지에서 획득한 텍스트를 비교하여 연식 일치 여부를 확인하는 단계;및
상기 시리얼 번호 일치 여부 및 상기 연식 일치 여부를 상기 신뢰도 점수에 반영하는 단계;를 포함하고,
상기 신뢰도 점수를 계산하는 단계는,
상기 기계 이미지의 메타 데이터에서 상기 이미지의 촬영 시점 정보를 획득하고, 상기 촬영 시점 정보를 상기 기계매입계약서의 계약일 정보와 비교하여, 상기 촬영 시점이 상기 계약일보다 과거인지를 판단하는 단계를 더 포함하는, 기계 허위 매물 탐지 방법.
A method for detecting machine false listings, performed by at least one processor,
A step of obtaining business information of a machine seller, a machine purchase contract regarding the machine, and machine image data taken of the machine;
Owner information verification step of comparing the above business information and the text of the above machinery purchase contract to confirm whether the business registration number, business name or business address matches;
A machine information verification step of extracting text from the machine image and comparing it with the text of the machine purchase contract to check whether the manufacturer, model name, serial number, or year of the machine match; and
A step of calculating a reliability score of the machine according to the owner information verification status and the machine information verification status;
The above machine information verification step is:
In the above machine purchase contract, a step of extracting the model name of the machine through the distance of words based on the key text corresponding to the model name;
In the above machine purchase contract, a step of extracting a primary candidate group for the serial number of the machine through the distance of words based on the key text corresponding to the serial number;
A step of checking whether there is data matching the extracted model name in a machine information database that is linked to the above processor and contains model name and serial number information of other machines;
A step of generating a regular expression encompassing multiple serial numbers corresponding to the model name, if there is data matching the above model name;
A step of extracting a second set of serial number candidates from the text extracted from the machine image using the above regular expression;
If the number of the above secondary candidates is 0, the step of postponing the determination of whether the above serial numbers match and updating the regular expression by utilizing the above machine purchase contract and the above machine information database;
A step of determining that the serial numbers of the machine match when there is at least one of the above secondary candidates and the text similarity between the elements of the above primary candidates and the above secondary candidates is greater than a certain value;
A step of determining a regular expression for checking the model year of the above machine;
A step of comparing texts obtained from the machine purchase contract and the machine nameplate image using the above-determined regular expression to check whether the model year matches; and
A step of reflecting whether the serial number matches and whether the model year matches in the reliability score;
The steps for calculating the above reliability score are:
A method for detecting false machine listings, further comprising the step of obtaining information on the shooting time of the image from metadata of the machine image, comparing the shooting time information with the contract date information of the machine purchase contract, and determining whether the shooting time is before the contract date.
제1항에 있어서,
상기 소유자 정보 확인 단계는,
상기 사업자 정보에서, 사업자등록번호 1차 후보를 추출하는 단계;
상기 기계매입계약서에서 추출한 텍스트에서, 사업자등록번호 2차 후보군을 생성하는 단계;
상기 1차 후보군의 원소와 상기 2차 후보군의 원소가 동일한 것이 존재하는 경우, 상기 사업자등록번호가 일치한 것으로 판단하는 단계;를 포함하는, 기계 허위 매물 탐지 방법.
In the first paragraph,
The above owner information verification steps are:
Step of extracting the first candidate for business registration number from the above business information;
Step of generating a second group of candidates for business registration numbers from the text extracted from the above machinery purchase contract;
A method for detecting false machine listings, comprising: a step of determining that the business registration numbers match when there is an element of the first candidate group that is the same as an element of the second candidate group;
제1항에 있어서,
상기 소유자 정보 확인 단계는,
상기 기계 이미지의 메타 데이터에서 위치 정보를 획득하고, 상기 위치 정보를 상기 사업자 주소 정보와 비교하여, 상기 위치와 상기 주소가 특정 거리 이내인지를 판단하는 단계를 더 포함하는, 기계 허위 매물 탐지 방법.
In the first paragraph,
The above owner information verification steps are:
A method for detecting machine false listings, further comprising the step of obtaining location information from metadata of the machine image, comparing the location information with the business address information, and determining whether the location and the address are within a specific distance.
제1항에 있어서,
상기 기계 정보 확인 단계는,
상기 기계매입계약서에서, 시리얼 번호 1차 후보를 추출하는 단계;
상기 시리얼 번호 1차 후보를 포괄하는 정규식(regular expression)을 생성하는 단계;
상기 정규식을 통해, 상기 기계 이미지에서 추출한 텍스트에서 시리얼 번호 2차 후보군을 추출하는 단계;를 포함하는, 기계 허위 매물 탐지 방법.
In the first paragraph,
The above machine information verification step is:
In the above machine purchase contract, a step of extracting the first candidate for the serial number;
A step of generating a regular expression encompassing the first candidate for the above serial number;
A method for detecting machine false listings, comprising: a step of extracting a second candidate serial number from text extracted from the machine image using the above regular expression;
제1항에 있어서,
상기 기계 정보 확인 단계는,
상기 기계매입계약서에서, 상기 기계의 모델명을 추출하는 단계;
상기 프로세서와 연동되고, 다른 기계의 모델명 및 시리얼 번호 정보를 담고 있는 기계 정보 데이터베이스에서, 상기 모델명과 일치하는 다른 기계들의 시리얼 번호 정보를 포괄하는 정규식을 생성하는 단계; 및
상기 정규식을 통해, 상기 기계 이미지에서 추출한 텍스트에서 시리얼 번호 2차 후보군을 추출하는 단계;를 포함하는, 기계 허위 매물 탐지 방법.
In the first paragraph,
The above machine information verification step is:
In the above machine purchase contract, a step of extracting the model name of the machine;
A step of generating a regular expression that includes serial number information of other machines that matches the model name in a machine information database that is linked to the above processor and contains model name and serial number information of other machines; and
A method for detecting machine false listings, comprising: a step of extracting a second candidate serial number from text extracted from the machine image using the above regular expression;
제1항에 있어서,
상기 신뢰도 점수는 하기의 [수학식 1]에 의해 정의되는, 기계 허위 매물 탐지 방법.
[수학식 1]

(이때, t는 신뢰도 점수, n은 상기 사업자등록번호, 상기 사업자명, 상기 사업자 주소, 상기 제조사, 상기 모델 명, 상기 시리얼 번호 및 상기 연식, mn은 상기 변수(n)의 일치 여부 값, wn은 상기 변수(n)에 대한 가중치이다.)
In the first paragraph,
The above reliability score is defined by the following [Mathematical Formula 1], a method for detecting machine false listings.
[Mathematical formula 1]

(Here, t is the reliability score, n is the business registration number, the business name, the business address, the manufacturer, the model name, the serial number, and the year, m n is the value of whether the variable (n) matches, and w n is the weight for the variable (n).)
삭제delete 적어도 하나의 프로세서를 포함하는 기계 허위 매물 탐지 시스템에 있어서,
기계 판매자의 사업자 정보, 상기 기계에 관한 기계 매입 계약서 및 상기 기계를 촬영한 기계 이미지 데이터를 획득하는 데이터 획득부;
상기 사업자 정보와 상기 기계 매입 계약서의 텍스트를 비교하여, 사업자등록번호, 사업자명 또는 사업자 주소 일치 여부를 확인하는 소유자 정보 확인부;
상기 기계 이미지에서 텍스트를 추출하고, 상기 기계매입계약서의 텍스트와 비교하여, 상기 기계의 제조사, 모델명, 시리얼 번호(serial number) 또는 연식 일치 여부를 확인하는 기계 정보 확인부; 및
상기 소유자 정보 확인 상태 및 상기 기계 정보 확인 상태에 따라, 상기 기계의 신뢰도 점수를 계산하는 신뢰도 점수 계산부;를 포함하고,
상기 기계 정보 확인부는,
상기 기계 매입 계약서에서, 상기 모델 명에 대응하는 키 텍스트를 기준으로 단어의 거리를 통해 상기 기계의 모델 명을 추출하고,
상기 기계 매입 계약서에서, 상기 시리얼 번호에 대응하는 키 텍스트를 기준으로 단어의 거리를 통해 상기 기계의 시리얼 번호에 대한 1차 후보군을 추출하고,
상기 프로세서와 연동되고, 다른 기계의 모델 명 및 시리얼 번호 정보를 담고 있는 기계 정보 데이터베이스에서, 추출한 상기 모델 명이 일치하는 데이터가 있는지 여부를 확인하고,
상기 모델 명이 일치하는 데이터가 있는 경우, 상기 모델 명에 대응하는 복수의 시리얼 번호를 포괄하는 정규식을 생성하고,
상기 정규식을 통해, 상기 기계 이미지에서 추출한 텍스트에서 시리얼 번호 2차 후보군을 추출하고,
상기 2차 후보군이 0개인 경우 상기 시리얼 번호의 일치 여부 판단을 보류하고, 상기 기계 매입 계약서 및 상기 기계 정보 데이터베이스를 활용하여 상기 정규식을 업데이트하고,
상기 2차 후보군이 1개 이상이고, 상기 1차 후보군과 상기 2차 후보군의 원소 사이의 텍스트 유사도가 일정 값 이상인 경우 상기 기계의 시리얼 번호가 일치하는 것으로 판단하고,
상기 기계의 연식을 확인하기 위한 정규식을 결정하고,
상기 결정된 정규식을 활용하여 상기 기계 매입 계약서 및 기계 명판 이미지에서 획득한 텍스트를 비교하여 연식 일치 여부를 확인하고,
상기 시리얼 번호 일치 여부 및 상기 연식 일치 여부를 상기 신뢰도 점수에 반영하고,
상기 신뢰도 점수 계산부는 상기 기계 이미지의 메타 데이터에서 상기 이미지의 촬영 시점 정보를 획득하고, 상기 촬영 시점 정보를 상기 기계매입계약서의 계약일 정보와 비교하여, 상기 촬영 시점이 상기 계약일보다 과거인지를 판단하는 것을 특징으로 하는, 기계 허위 매물 탐지 시스템.
In a machine counterfeit product detection system comprising at least one processor,
A data acquisition unit that acquires business information of a machine seller, a machine purchase contract regarding the machine, and machine image data taken of the machine;
Owner information verification unit that compares the above business information with the text of the above machine purchase contract to check whether the business registration number, business name, or business address matches;
A machine information verification unit that extracts text from the machine image and compares it with the text of the machine purchase contract to check whether the manufacturer, model name, serial number, or year of the machine match; and
A reliability score calculation unit for calculating a reliability score of the machine according to the owner information verification status and the machine information verification status;
The above machine information verification section,
In the above machine purchase contract, the model name of the machine is extracted through the distance of words based on the key text corresponding to the model name,
In the above machine purchase contract, the first candidate group for the serial number of the machine is extracted through the distance of words based on the key text corresponding to the serial number,
In the machine information database that is linked to the above processor and contains information on the model name and serial number of other machines, it is checked whether there is data matching the extracted model name.
If there is data matching the above model name, a regular expression is created that covers multiple serial numbers corresponding to the above model name,
Through the above regular expression, the second candidate serial number is extracted from the text extracted from the machine image,
If the number of the above secondary candidates is 0, the determination of whether the above serial numbers match is suspended, and the above regular expression is updated using the above machine purchase contract and the above machine information database.
If there is one or more of the above second candidate groups, and the text similarity between the elements of the above first candidate group and the above second candidate group is greater than a certain value, it is determined that the serial numbers of the above machines match,
Determine a regular expression to determine the year of the above machine,
Using the above-determined regular expression, compare the text obtained from the machine purchase contract and the machine nameplate image to check whether the model year matches.
Whether the above serial number matches or not and whether the above year matches are reflected in the above reliability score,
A machine false listing detection system characterized in that the reliability score calculation unit obtains information on the shooting time of the image from the metadata of the machine image, compares the shooting time information with the contract date information of the machine purchase contract, and determines whether the shooting time is before the contract date.
제8항에 있어서,
상기 소유자 정보 확인부는,
상기 사업자 정보에서, 사업자등록번호 1차 후보를 추출하고,
상기 기계매입계약서에서 추출한 텍스트에서, 사업자등록번호 2차 후보군을 생성하고,
상기 1차 후보군의 원소와 상기 2차 후보군의 원소가 동일한 것이 존재하는 경우, 상기 사업자등록번호가 일치한 것으로 판단하는 것을 특징으로 하는, 기계 허위 매물 탐지 시스템.
In Article 8,
The above owner information verification section is,
From the above business information, extract the first candidate for business registration number,
From the text extracted from the above machine purchase contract, a second group of candidates for business registration numbers is created,
A machine false listing detection system characterized in that if there is an element of the first candidate group that is the same as an element of the second candidate group, the business registration number is determined to match.
제8항에 있어서,
상기 소유자 정보 확인부는,
상기 기계 이미지의 메타 데이터에서 위치 정보를 획득하고, 상기 위치 정보를 상기 사업자 주소 정보와 비교하여, 상기 위치와 상기 주소가 특정 거리 이내인지를 판단하는 것을 특징으로 하는, 기계 허위 매물 탐지 시스템.
In Article 8,
The above owner information verification section is,
A machine false listing detection system characterized by obtaining location information from metadata of the machine image, comparing the location information with the business address information, and determining whether the location and the address are within a specific distance.
제8항에 있어서,
상기 기계 정보 확인부는,
상기 기계매입계약서에서, 시리얼 번호 1차 후보를 추출하고,
상기 시리얼 번호 1차 후보를 포괄하는 정규식(regular expression)을 생성하고,
상기 정규식을 통해, 상기 기계 이미지에서 추출한 텍스트에서 시리얼 번호 2차 후보군을 추출하는 것을 특징으로 하는, 기계 허위 매물 탐지 시스템.
In Article 8,
The above machine information verification section,
In the above machine purchase contract, extract the first candidate for serial number,
Generate a regular expression that encompasses the first candidate for the above serial number,
A machine fake listing detection system characterized by extracting a second set of serial number candidates from text extracted from the machine image using the above regular expression.
제8항에 있어서,
상기 기계 정보 확인부는,
상기 기계매입계약서에서, 상기 기계의 모델명을 추출하고,
상기 프로세서와 연동되고, 다른 기계의 모델명 및 시리얼 번호 정보를 담고 있는 기계 정보 데이터베이스에서, 상기 모델명과 일치하는 다른 기계들의 시리얼 번호 정보를 포괄하는 정규식을 생성하고,
상기 정규식을 통해, 상기 기계 이미지에서 추출한 텍스트에서 시리얼 번호 2차 후보군을 추출하는 것을 특징으로 하는, 기계 허위 매물 탐지 시스템.
In Article 8,
The above machine information verification section,
From the above machine purchase contract, extract the model name of the machine,
In a machine information database that is linked to the above processor and contains model name and serial number information of other machines, a regular expression is created that includes serial number information of other machines that match the above model name,
A machine fake listing detection system characterized by extracting a second set of serial number candidates from text extracted from the machine image using the above regular expression.
제8항에 있어서,
상기 신뢰도 점수는 하기의 [수학식 1]에 의해 정의되는, 기계 허위 매물 탐지 시스템.
[수학식 1]

(이때, t는 신뢰도 점수, n은 상기 사업자등록번호, 상기 사업자명, 상기 사업자 주소, 상기 제조사, 상기 모델명, 상기 시리얼 번호 및 상기 연식, mn은 상기 변수(n)의 일치 여부 값, wn은 상기 변수(n)에 대한 가중치이다.)
In Article 8,
The above reliability score is defined by the following [Mathematical Formula 1], a machine false listing detection system.
[Mathematical formula 1]

(Here, t is the reliability score, n is the business registration number, the business name, the business address, the manufacturer, the model name, the serial number, and the year, m n is the value of whether the variable (n) matches, and w n is the weight for the variable (n).)
삭제delete 기계 허위 매물 탐지 방법을 저장하는 스토리지 장치에 있어서,
상기 기계 허위 매물 탐지 방법은,
기계 판매자의 사업자 정보, 상기 기계에 관한 기계 매입 계약서 및 상기 기계를 촬영한 기계 이미지 데이터를 획득하는 단계;
상기 사업자 정보와 상기 기계 매입 계약서의 텍스트를 비교하여, 사업자등록번호, 사업자명 또는 사업자 주소 일치 여부를 확인하는 소유자 정보 확인 단계;
상기 기계 이미지에서 텍스트를 추출하고, 상기 기계매입계약서의 텍스트와 비교하여, 상기 기계의 제조사, 모델명, 시리얼 번호(serial number) 또는 연식 일치 여부를 확인하는 기계 정보 확인 단계; 및
상기 소유자 정보 확인 상태 및 상기 기계 정보 확인 상태에 따라, 상기 기계의 신뢰도 점수를 계산하는 단계;를 포함하고,
상기 기계 정보 확인 단계는,
상기 기계 매입 계약서에서, 상기 모델 명에 대응하는 키 텍스트를 기준으로 단어의 거리를 통해 상기 기계의 모델 명을 추출하는 단계;
상기 기계 매입 계약서에서, 상기 시리얼 번호에 대응하는 키 텍스트를 기준으로 단어의 거리를 통해 상기 기계의 시리얼 번호에 대한 1차 후보군을 추출하는 단계;
프로세서와 연동되고, 다른 기계의 모델 명 및 시리얼 번호 정보를 담고 있는 기계 정보 데이터베이스에서, 추출한 상기 모델 명이 일치하는 데이터가 있는지 여부를 확인하는 단계;
상기 모델 명이 일치하는 데이터가 있는 경우, 상기 모델 명에 대응하는 복수의 시리얼 번호를 포괄하는 정규식을 생성하는 단계;
상기 정규식을 통해, 상기 기계 이미지에서 추출한 텍스트에서 시리얼 번호 2차 후보군을 추출하는 단계;
상기 2차 후보군이 0개인 경우 상기 시리얼 넘버의 일치 여부 판단을 보류하고, 상기 기계 매입 계약서 및 상기 기계 정보 데이터베이스를 활용하여 상기 정규식을 업데이트하는 단계;
상기 2차 후보군이 1개 이상이고, 상기 1차 후보군과 상기 2차 후보군의 원소 사이의 텍스트 유사도가 일정 값 이상인 경우 상기 기계의 시리얼 번호가 일치하는 것으로 판단하는 단계;
상기 기계의 연식을 확인하기 위한 정규식을 결정하는 단계;
상기 결정된 정규식을 활용하여 상기 기계 매입 계약서 및 기계 명판 이미지에서 획득한 텍스트를 비교하여 연식 일치 여부를 확인하는 단계;및
상기 시리얼 번호 일치 여부 및 상기 연식 일치 여부를 상기 신뢰도 점수에 반영하는 단계;를 포함하고,
상기 신뢰도 점수를 계산하는 단계는,
상기 기계 이미지의 메타 데이터에서 상기 이미지의 촬영 시점 정보를 획득하고, 상기 촬영 시점 정보를 상기 기계매입계약서의 계약일 정보와 비교하여, 상기 촬영 시점이 상기 계약일보다 과거인지를 판단하는 단계를 더 포함하는, 스토리지 장치.


In a storage device storing a method for detecting machine false listings,
The above method of detecting false machine listings is as follows:
A step of obtaining business information of a machine seller, a machine purchase contract regarding the machine, and machine image data taken of the machine;
Owner information verification step of comparing the above business information with the text of the above machine purchase contract to check whether the business registration number, business name, or business address match;
A machine information verification step of extracting text from the machine image and comparing it with the text of the machine purchase contract to check whether the manufacturer, model name, serial number, or year of the machine match; and
A step of calculating a reliability score of the machine according to the owner information verification status and the machine information verification status;
The above machine information verification step is:
In the above machine purchase contract, a step of extracting the model name of the machine through the distance of words based on the key text corresponding to the model name;
In the above machine purchase contract, a step of extracting a primary candidate group for the serial number of the machine through the distance of words based on the key text corresponding to the serial number;
A step of checking whether there is data matching the extracted model name in a machine information database that is linked to the processor and contains model name and serial number information of other machines;
A step of generating a regular expression encompassing multiple serial numbers corresponding to the model name, if there is data matching the above model name;
A step of extracting a second set of serial number candidates from the text extracted from the machine image using the above regular expression;
If the number of the above secondary candidates is 0, the step of postponing the determination of whether the above serial numbers match and updating the regular expression by utilizing the above machine purchase contract and the above machine information database;
A step of determining that the serial numbers of the machine match when there is at least one of the above secondary candidates and the text similarity between the elements of the above primary candidates and the above secondary candidates is greater than a certain value;
A step of determining a regular expression for checking the model year of the above machine;
A step of comparing texts obtained from the machine purchase contract and the machine nameplate image using the above-determined regular expression to check whether the model year matches; and
A step of reflecting whether the serial number matches and whether the model year matches in the reliability score;
The steps for calculating the above reliability score are:
A storage device further comprising a step of obtaining shooting time information of the image from metadata of the machine image, comparing the shooting time information with the contract date information of the machine purchase contract, and determining whether the shooting time is before the contract date.


KR1020240086843A 2024-07-02 2024-07-02 Method for artificial intelligence-based machine false listing detection KR102736311B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020240086843A KR102736311B1 (en) 2024-07-02 2024-07-02 Method for artificial intelligence-based machine false listing detection

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020240086843A KR102736311B1 (en) 2024-07-02 2024-07-02 Method for artificial intelligence-based machine false listing detection

Publications (1)

Publication Number Publication Date
KR102736311B1 true KR102736311B1 (en) 2024-11-29

Family

ID=93705623

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020240086843A KR102736311B1 (en) 2024-07-02 2024-07-02 Method for artificial intelligence-based machine false listing detection

Country Status (1)

Country Link
KR (1) KR102736311B1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140153787A1 (en) * 2009-02-10 2014-06-05 Kofax, Inc. Systems, methods and computer program products for determining document validity
KR20180038196A (en) * 2016-10-06 2018-04-16 주식회사 라이브원 Method for providing reliability by verification of target object image and server for the same
KR101935177B1 (en) 2017-12-27 2019-01-17 배석호 Apparatus and method for trading a heavy equipment
JP2021071991A (en) * 2019-10-31 2021-05-06 株式会社日本デジタル研究所 Voucher determination device, accounting processing device, voucher determination program, voucher determination system, and voucher determination method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140153787A1 (en) * 2009-02-10 2014-06-05 Kofax, Inc. Systems, methods and computer program products for determining document validity
KR20180038196A (en) * 2016-10-06 2018-04-16 주식회사 라이브원 Method for providing reliability by verification of target object image and server for the same
KR101935177B1 (en) 2017-12-27 2019-01-17 배석호 Apparatus and method for trading a heavy equipment
JP2021071991A (en) * 2019-10-31 2021-05-06 株式会社日本デジタル研究所 Voucher determination device, accounting processing device, voucher determination program, voucher determination system, and voucher determination method

Similar Documents

Publication Publication Date Title
US11978064B2 (en) Identifying false positive geolocation-based fraud alerts
KR102134792B1 (en) Method for providing used goods trade service using fraud detection and appraisal based on blockchain with safe transaction
US8712856B2 (en) Systems and/or methods for determining item serial number structure and intelligence
US10915748B2 (en) Automatic document source identification systems
CN108922012B (en) Invoice checking method without leakage of original information based on block chain technology
US20190188732A1 (en) System and method for ensuring credibility of items in a supply chain management
CN112529575B (en) Risk early warning method, equipment, storage medium and device
JP2024091981A (en) Information processing device, information processing method, and program
US11782972B2 (en) Information processing system, information code generating system, information processing method, and information code generating method
KR101771524B1 (en) Method for extracting price information from a receipt and method for providing price information
CN112966504A (en) Name identification and association recommendation method and device, computer equipment and storage medium
CN110472707A (en) Product certification system and product certification method
KR102736311B1 (en) Method for artificial intelligence-based machine false listing detection
KR20200078434A (en) System and method for automatic online registration of product advertisement information
CN110570207A (en) commodity tracing method and device
US20120079608A1 (en) Systems and methods to provide a software benefit when a consumer object is recognized in an image
CN115760438A (en) Digital dynamic underwriting system, method, equipment and storage medium
US20200320491A1 (en) System and method for populating a database with a set of information related to an item owned by a first owner that is transferred to a second owner
CN113935802A (en) Information processing method, apparatus, equipment and storage medium
JP2008225895A (en) Ocr system
KR102736308B1 (en) Method for ai-based machine listing recommendation
US12165425B2 (en) Systems and methods for identifying a presence of a completed document
JP6224669B2 (en) Payment application system, payment application method, and program
CN113807870B (en) Vehicle information authentication method, device, computer equipment and storage medium
US20220230185A1 (en) Determination system, determination device and determination method

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20240702

PA0201 Request for examination

Patent event code: PA02011R01I

Patent event date: 20240702

Comment text: Patent Application

PA0302 Request for accelerated examination

Patent event date: 20240704

Patent event code: PA03022R01D

Comment text: Request for Accelerated Examination

PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20240920

Patent event code: PE09021S01D

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20241125

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20241126

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20241126

End annual number: 3

Start annual number: 1

PG1601 Publication of registration