KR20240131875A - 첨부파일 데이터 추출을 포함하는 데이터 매칭 시스템 및 이의 실행 방법 - Google Patents
첨부파일 데이터 추출을 포함하는 데이터 매칭 시스템 및 이의 실행 방법 Download PDFInfo
- Publication number
- KR20240131875A KR20240131875A KR1020230163612A KR20230163612A KR20240131875A KR 20240131875 A KR20240131875 A KR 20240131875A KR 1020230163612 A KR1020230163612 A KR 1020230163612A KR 20230163612 A KR20230163612 A KR 20230163612A KR 20240131875 A KR20240131875 A KR 20240131875A
- Authority
- KR
- South Korea
- Prior art keywords
- data
- business
- information
- tokens
- announcement
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 22
- 238000013075 data extraction Methods 0.000 claims abstract description 83
- 239000000284 extract Substances 0.000 claims abstract description 38
- 238000012545 processing Methods 0.000 claims abstract description 13
- 230000000877 morphologic effect Effects 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 abstract description 6
- 238000012552 review Methods 0.000 abstract description 4
- 238000004891 communication Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000013523 data management Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012797 qualification Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- General Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Bioethics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Primary Health Care (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명은 정부 및 공공기관의 정책 추진을 위해 제공하는 다수의 지원사업에 효율적으로 신청하고 요건에 부합하는 신청 신뢰도를 높이기 위한 것으로, 일 실시예에 따른 첨부파일 데이터 추출을 포함하는 데이터 매칭 시스템은 사업 지원자 단말로부터 기업의 신청을 받을 사업 공고에 대한 정보를 수신하여 등록하는 사업 신청 처리부, 상기 사업 신청 데이터를 이용하여 기업 정보를 생성하여 저장하는 기업 정보 생성부, 정부 지원 사업 공고문의 첨부파일 데이터를 추출하여 상기 기업 정보와 매칭하여 적합도를 산출하여 매칭하는 데이터 매칭부, 상기 매칭 결과에 따라 데이터 접근 시간 및 심사 담당자의 위치 정보를 이용하여 열람 시간을 제한하는 데이터 암호화를 실행한 후 해당 정부 지원 사업을 신청하는 사업 신청 처리부를 포함한다.
본 발명에 의하면, 첨부파일의 데이터를 추출하여 신청 기업의 데이터와 매칭하는 기능을 포함하여 자동 모니터링을 수행하고, 사업자 등록 번호의 정보 및 첨부파일 정보를 비교하여 신청 적합도를 확인하여 자동으로 신청 관리 정보를 제공할 수 있어 자동 모니터링을 수행함으로써 신청 적합도 확인 및 신청을 손쉽게 수행할 수 있다.
본 발명에 의하면, 첨부파일의 데이터를 추출하여 신청 기업의 데이터와 매칭하는 기능을 포함하여 자동 모니터링을 수행하고, 사업자 등록 번호의 정보 및 첨부파일 정보를 비교하여 신청 적합도를 확인하여 자동으로 신청 관리 정보를 제공할 수 있어 자동 모니터링을 수행함으로써 신청 적합도 확인 및 신청을 손쉽게 수행할 수 있다.
Description
본 발명은 첨부파일 데이터 추출을 포함하는 데이터 매칭 시스템에 관한 것으로, 좀 더 구체적으로 정부 및 공공기관의 정책 추진을 위해 제공하는 다수의 지원사업에 효율적으로 신청하고 요건에 부합하는 신청 신뢰도를 높이기 위해 첨부파일 형태로 제공되는 공고문의 데이터를 추출하여 키워드를 매칭하는 시스템에 관한 것이다.
정부 및 공공기관에서 추진하는 정책에 맞추어 발생하는 다양한 분야의 지원 사업은 해당 지원사업을 수행하는 각 단체의 홈페이지에 게시되는 경우가 대부분이고, 지원사업이 공고되는 일자 역시 수행 기관의 계획된 일정에 따라 공고되는 경우가 많다.
이에 따라, 지원사원의 직간접적인 혜택을 제공받기 위한 기업 및 단체는 항상 다양한 경로로 지원사업 공고를 모니터링해야 하므로 내용 확인을 위한 인적, 물적 소요 비용의 지출이 적지 않다. 또한 지원사업의 요건 및 절차가 개별적으로 정의되어 있어 해당 지원사업의 신청여부 가능성을 파악하는 것도 상당한 소요시간이 발생하게 된다.
여기서, 이런 정보들을 포함하는 공고문은 첨부파일 형태로 제공되어 일반 웹브라우저의 검색으로 파악하는 것이 불가능하여, 기존에 제시된 형태의 정부지원 사업을 매칭해주는 사이트의 신뢰도가 낮은 단점이 있다.
이와 같은 문제를 해결하여 사업지원 프로그램의 신뢰도를 높일 수 있도록 첨부파일 데이터를 매칭할 수 있는 시스템이 요구된다.
본 발명은 첨부파일의 데이터를 추출하여 신청 기업의 데이터와 매칭하는 기능을 포함하여 자동 모니터링을 수행함으로써 신청 적합도 확인 및 신청을 손쉽게 수행할 수 있도록 하는 첨부파일 데이터 추출을 포함하는 데이터 매칭 시스템 및 이의 실행 방법을 제공하는 것을 목적으로 한다.
또한, 본 발명은 사업자 등록 번호의 정보 및 첨부파일 정보를 비교하여 신청 적합도를 확인하여 자동으로 신청 관리 정보를 제공할 수 있어 자동 모니터링을 수행함으로써 신청 적합도 확인 및 신청을 손쉽게 수행할 수 있도록 하는 첨부파일 데이터 추출을 포함하는 데이터 매칭 시스템 및 이의 실행 방법을 제공하는 것을 목적으로 한다.
이러한 목적을 달성하기 위한 첨부파일 데이터 추출을 포함하는 데이터 매칭 시스템은 사업 지원자 단말로부터 기업의 신청을 받을 사업 공고에 대한 정보를 수신하여 등록하는 사업 신청 처리부, 상기 사업 신청 데이터를 이용하여 기업 정보를 생성하여 저장하는 기업 정보 생성부, 정부 지원 사업 공고문의 첨부파일 데이터를 추출하여 상기 기업 정보와 매칭하여 적합도를 산출하여 매칭하는 데이터 매칭부, 상기 매칭 결과에 따라 데이터 접근 시간 및 심사 담당자의 위치 정보를 이용하여 열람 시간을 제한하는 데이터 암호화를 실행한 후 해당 정부 지원 사업을 신청하는 사업 신청 처리부를 포함한다.
일 실시예에서, 상기 데이터 매칭부는 상기 첨부파일 데이터에 있는 텍스트를 공백 기준으로 단어를 추출하고, 미리 생성된 단어 별 빈도 수 데이터베이스를 기초로 단어의 빈도 수를 측정하고, 단어 각각에 대한 형태소 분석을 실행하여 단어 및 형태소 값이 쌍으로 이루어지고, 빈도 수를 지시하는 레이블이 할당된 토큰을 생성한 후 상기 토큰을 벡터화한 후 학습시켜 학습 모델을 생성할 수 있다.
일 실시예에서, 상기 데이터 매칭부는 상기 첨부파일 데이터을 이용하여 생성된 토큰을 상기 학습 모델에 입력하여 상기 학습 모델에서 공고문의 첨부파일 데이터의 토큰과 매칭되는 토큰을 추출하고, 토큰에 미리 할당된 가중치 및 미리 할당된 레이블이 지시하는 빈도 수를 기초로 상기 토큰을 정렬한 후 정렬된 토큰을 키워드로 결정할 수 있다.
일 실시예에서, 상기 데이터 매칭부는 상기 공고문의 첨부파일 데이터에 포함된 오브젝트의 특징 정보를 추출하고, 오브젝트의 특징 정보를 벡터값으로 표현하여 오브젝트의 특징 정보를 생성하고, 오브젝트의 특징 정보에 따라 키워드를 결정할 수 있다.
일 실시예에서, 상기 데이터 매칭부는 상기 키워드와 매칭되는 기업 정보를 추출하여 제공할 수 있다.
또한 이러한 목적을 달성하기 위한 첨부파일 데이터 추출을 포함하는 데이터 매칭 시스템에서 실행되는 기업 맞춤형 지원 사업 정보 제공 방법은 사업 지원자 단말로부터 기업의 신청을 받을 사업 공고에 대한 정보를 수신하여 등록하는 단계, 상기 사업 신청 데이터를 이용하여 기업 정보를 생성하여 저장하는 단계, 상기 사업 공고에 대한 공고문의 첨부파일 데이터를 추출한 후 상기 기업 정보와 매칭하여 적합도를 산출하는 단계 및 상기 매칭 결과에 따라 데이터 접근 시간 및 심사 담당자의 위치 정보를 이용하여 열람 시간을 제한하는 데이터 암호화를 실행한 후 해당 정부 지원 사업을 신청하는 단계를 포함한다.
일 실시예에서, 상기 사업 공고에 대한 공고문의 첨부파일 데이터를 추출한 후 상기 기업 정보와 매칭하여 적합도를 산출하는 단계는 상기 첨부파일 데이터에 있는 텍스트를 공백 기준으로 단어를 추출하고, 미리 생성된 단어 별 빈도 수 데이터베이스를 기초로 단어의 빈도 수를 측정하는 단계, 단어 각각에 대한 형태소 분석을 실행하여 단어 및 형태소 값이 쌍으로 이루어지는 단계 및 빈도 수를 지시하는 레이블이 할당된 토큰을 생성한 후 상기 토큰을 벡터화한 후 학습시켜 학습 모델을 생성하는 단계를 포함할 수 있다.
일 실시예에서, 상기 사업 공고에 대한 공고문의 첨부파일 데이터를 추출한 후 상기 기업 정보와 매칭하여 적합도를 산출하는 단계는 상기 첨부파일 데이터을 이용하여 생성된 토큰을 상기 학습 모델에 입력하여 상기 학습 모델에서 공고문의 첨부파일 데이터의 토큰과 매칭되는 토큰을 추출하는 단계 및 토큰에 미리 할당된 가중치 및 미리 할당된 레이블이 지시하는 빈도 수를 기초로 상기 토큰을 정렬한 후 정렬된 토큰을 키워드로 결정하는 단계를 포함할 수 있다.
일 실시예에서, 상기 사업 공고에 대한 공고문의 첨부파일 데이터를 추출한 후 상기 기업 정보와 매칭하여 적합도를 산출하는 단계는 상기 공고문의 첨부파일 데이터에 포함된 오브젝트의 특징 정보를 추출하고, 오브젝트의 특징 정보를 벡터값으로 표현하여 오브젝트의 특징 정보를 생성하고, 오브젝트의 특징 정보에 따라 키워드를 결정하는 단계를 포함할 수 있다.
일 실시예에서, 상기 사업 공고에 대한 공고문의 첨부파일 데이터를 추출한 후 상기 기업 정보와 매칭하여 적합도를 산출하는 단계는 상기 키워드와 매칭되는 기업 정보를 추출하여 제공하는 단계를 포함할 수 있다.
전술한 바와 같이 본 발명에 의하면, 첨부파일의 데이터를 추출하여 신청 기업의 데이터와 매칭하는 기능을 포함하여 자동 모니터링을 수행함으로써 신청 적합도 확인 및 신청을 손쉽게 수행할 수 있다는 장점이 있다.
또한 본 발명에 의하면, 사업자 등록 번호의 정보 및 첨부파일 정보를 비교하여 신청 적합도를 확인하여 자동으로 신청 관리 정보를 제공할 수 있어 자동 모니터링을 수행함으로써 신청 적합도 확인 및 신청을 손쉽게 수행할 수 있다는 장점이 있다.
도 1은 본 발명의 일 실시예에 따른 지원사업 신청 데이터의 열람 보안강화 시스템 내부 구조를 설명하기 위한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 지원사업 신청 데이터의 열람 보안강화 시스템을 설명하기 위한 네트워크 구성도이다.
도 3는 본 발명의 다른 일 실시예에 따른 지원사업 신청 데이터의 열람 보안강화 시스템을 설명하기 위한 네트워크 구성도이다.
도 4는 본 발명의 일 실시예에 따른 맞춤형 지원 사업 신청 관리 방법의 일 실시예를 설명하기 위한 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 지원사업 신청 데이터의 열람 보안강화 시스템을 설명하기 위한 네트워크 구성도이다.
도 3는 본 발명의 다른 일 실시예에 따른 지원사업 신청 데이터의 열람 보안강화 시스템을 설명하기 위한 네트워크 구성도이다.
도 4는 본 발명의 일 실시예에 따른 맞춤형 지원 사업 신청 관리 방법의 일 실시예를 설명하기 위한 흐름도이다.
전술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술되며, 이에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 상세한 설명을 생략한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하기로 한다. 도면에서 동일한 참조부호는 동일 또는 유사한 구성요소를 가리키는 것으로 사용된다.
도 1은 본 발명의 일 실시예에 따른 첨부파일 데이터 추출을 포함하는 데이터 매칭 시스템의 내부 구조를 설명하기 위한 블록도이다.
도 1을 참조하면, 첨부파일 데이터 추출을 포함하는 데이터 매칭 시스템은 사업 신청 데이터 관리부(110), 기업 정보 생성부(120), 데이터 매칭부(130), 사업 신청 처리부(140) 및 데이터베이스(150)를 포함한다.
사업 신청 데이터 관리부(110)는 지원 사업에 관한 사업 공고를 등록한다. 이를 위해, 사업 신청 데이터 관리부(110)는 사업 지원자 단말(300)로부터 기업의 신청을 받을 사업 공고에 대한 정보를 수신하여 등록할 수 있다.
그 후, 사업 신청 데이터 관리부(110)는 사업 지원자 단말(300)로부터 사업 신청 데이터를 수신하면, 사업 신청 데이터 중 일부 정보에 대한 암호화를 실행한 후 암호화된 사업 신청 데이터를 저장한다. 이때, 사업 신청 데이터는 사업자등록번호 및 추가 정보(예를 들어, 대표자 연령, 성별 등)을 포함할 수 있다.
기업 정보 생성부(120)는 사업 신청 데이터를 이용하여 기업 정보를 생성하여 저장한다. 따라서, 데이터 매칭부(130)는 공고문의 첨부파일 데이터를 분석하여 키워드를 추출하고, 키워드와 매칭되는 기업 정보를 추출할 수 있다.
데이터 매칭부(130)는 정부 및 공공기관의 정책 추진을 위해 제공하는 지원사업에 효율적으로 신청할 수 있도록 공고문의 첨부파일 데이터를 분석하여 키워드를 추출하고, 키워드와 매칭되는 기업정보를 추출하여 해당 기업 단말에 제공한다.
일 실시예에서, 데이터 매칭부(130)는 첨부파일 데이터에 있는 텍스트를 공백 기준으로 단어를 추출하고, 미리 생성된 단어 별 빈도 수 데이터베이스를 기초로 단어의 빈도 수를 측정한다.
그런 다음, 데이터 매칭부(130)는 단어 각각에 대한 형태소 분석을 실행하여 단어 및 형태소 값이 쌍으로 이루어지고, 빈도 수를 지시하는 레이블이 할당된 토큰을 생성한다.
예를 들어, 데이터 매칭부(130)는 텍스트를 분석하여 (빈도 수: 1000번, (단어, 형태소 값)), (빈도 수: 234번, (단어, 형태소)), (빈도수: 2541번, (단어, 형태소)), (빈도수: 2516번, (단어, 형태소)) 등의 토큰을 생성할 수 있다.
상기와 같이 토큰이 생성된 후, 데이터 매칭부(130)는 토큰 각각에 대해서 해당 토큰의 단어 및 토큰의 레이블에 따라 토큰 각각에 서로 다른 가중치를 부여한다.
일 실시예에서, 데이터 매칭부(130)는 토큰 각각에 대해서 해당 토큰의 단어를 구현하는 언어 종류(즉, 영어, 중국어, 한국어 등), 단어가 임상 시험 타이틀에서 존재하는 위치 및 토큰에 할당된 레이블의 빈도 수에 따라 서로 다른 가중치를 부여한다.
그런 다음, 데이터 매칭부(130)는 토큰을 벡터화한 후 학습시켜 토큰에 해당하는 키워드를 출력하는 학습 모델을 생성한다. 이러한 학습 모델은 추후에 공고문의 첨부파일 데이터를 수신한 경우 공고문의 첨부파일 데이터에서 키워드를 추출할 수 있도록 하는 모델이다.
이하에서는, 학습 모델을 이용하여 공고문의 첨부파일 데이터에서 키워드를 추출하는 과정을 설명하기로 한다.
먼저, 데이터 매칭부(130)는 공고문의 첨부파일 데이터의 텍스트를 공백을 기준으로 단어를 추출한다. 그 후, 데이터 매칭부(130)는 단어 각각에 대한 형태소 분석을 실행하여 단어 및 형태소 값이 쌍으로 형성된 토큰을 생성하고, 토큰을 미리 학습된 학습 모델에 입력한다.
상기와 같이, 데이터 매칭부(130)는 토큰을 미리 학습된 학습 모델에 입력하고, 상기 학습 모델에서 공고문의 첨부파일 데이터의 토큰과 매칭되는 토큰을 추출하고, 토큰에 미리 할당된 가중치 및 미리 할당된 레이블이 지시하는 빈도 수를 기초로 상기 토큰을 정렬한 후 정렬된 토큰을 키워드로 결정할 수 있다.
또한, 데이터 매칭부(130)는 공고문의 첨부파일 데이터에 포함된 오브젝트의 특징 정보를 추출하고, 오브젝트의 특징 정보를 벡터값으로 표현하여 오브젝트의 특징 정보를 생성하고, 오브젝트의 특징 정보에 따라 키워드를 결정한다.
보다 구체적으로, 데이터 매칭부(130)는 오브젝트의 특징 영역을 탐지(Interest Point Detection)할 수 있다. 여기에서, 특징 영역이란, 오브젝트들 사이의 동일 유사 여부를 판단하기 위한 오브젝트의 특징에 대한 기술자, 즉 특징 기술자(Feature Descriptor)를 추출하는 주요 영역을 말한다.
본 발명의 실시예에 따르면 이러한 특징 영역은 오브젝트가 포함하고 있는 윤곽선, 윤곽선 중에서도 코너 등의 모퉁이, 주변 영역과 구분되는 블롭(blob), 오브젝트의 변형에 따라 불변하거나 공변하는 영역, 또는 주변 밝기보다 어둡거나 밝은 특징이 있는 극점일 수 있으며 오브젝트의 패치(조각) 또는 오브젝트 전체를 대상으로 할 수 있다.
다른 일 실시예에서, 데이터 매칭부(130)는 동영상 조각의 특징 영역에서 특징 기술자를 추출(Descriptor Extraction)하고, 특징 기술자에 따라 오브젝트 특징 정보를 추출할 수 있다. 특징 기술자는 오브젝트의 특징들을 벡터 값으로 표현한 것이다.
상기의 이러한 특징 기술자는 오브젝트에 대한 특징 영역의 위치, 또는 특징 영역의 밝기, 색상, 선명도, 그라디언트, 스케일 또는 패턴 정보를 이용하여 계산할 수 있다. 예를 들어 특징 기술자는 특징 영역의 밝기 값, 밝기의 변화 값 또는 분포 값 등을 벡터로 변환하여 계산할 수도 있다.
한편, 본 발명의 실시예에 따르면 오브젝트에 대한 특징 기술자는 위와 같이 특징 영역에 기반한 지역 기술자(Local Descriptor) 뿐 아니라, 전역 기술자(Global descriptor), 빈도 기술자(Frequency Descriptor), 바이너리 기술자(Binary Descriptor) 또는 신경망 기술자(Neural Network descriptor)로 표현될 수 있다.
보다 구체적으로, 특징 기술자는 오브젝트의 전체 또는 오브젝트를 임의의 기준으로 분할한 구역 각각, 또는 특징 영역 각각의 밝기, 색상, 선명도, 그라디언트, 스케일, 패턴 정보 등을 벡터값으로 변환하여 추출하는 전역 기술자(Global descriptor)를 포함할 수 있다.
예를 들어, 특징 기술자는 미리 구분한 특정 기술자들이 오브젝트에 포함되는 횟수, 종래 정의된 색상표와 같은 전역적 특징의 포함 횟수 등을 벡터값으로 변환하여 추출하는 빈도 기술자 (Frequency Descriptor), 각 기술자들의 포함 여부 또는 기술자를 구성하는 각 요소 값들의 크기가 특정값 보다 크거나 작은지 여부를 비트 단위로 추출한 뒤 이를 정수형으로 변환하여 사용하는 바이너리 기술자 (Binary descriptor), 신경망(Neural Network)의 레이어에서 학습 또는 분류를 위해 사용되는 영상 정보를 추출하는 신경망 기술자(Neural Network descriptor)를 포함할 수 있다.
그 후, 데이터 매칭부(130)는 오브젝트 특징 정보의 형태소 값과 매칭되는 키워드를 추출하여 키워드를 결정할 수 있다.
상기와 같이, 데이터 매칭부(130)가 첨부파일 데이터를 기초로 키워드를 생성함으로써 데이터 매칭부(130)는 키워드 및 기업 정보를 매칭시켜 해당 기업 단말에 첨부파일 데이터를 제공할 수 있다.
사업 신청 처리부(140)는 외부 서버(400)로부터 사업 신청 데이터에 대한 공유 요청을 수신하면, 외부 서버(400)의 접근 허가 여부를 확인한다.
데이터베이스(150)는 사업 공고자 단말(200), 사업 지원자 단말(300) 및 외부 서버(400)와 송수신한 데이터의 내용, 내역 등을 모두 저장할 수 있다. 데이터베이스(150)에 저장된 데이터는 미리 지정된 주기에 따라 일정하게 업데이트될 수 있고, 각 외부 장치를 통한 새로운 데이터 입력이 있는 경우에 수시로 업데이트될 수 있다.
도 2은 본 발명의 일 실시예에 따른 첨부파일 데이터 추출을 포함하는 데이터 매칭 시스템을 설명하기 위한 네트워크 구성도이다.
도 2을 참조하면, 첨부파일 데이터 추출을 포함하는 데이터 매칭 시스템은 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100), 사업 공고자 단말(200), 사업 지원자 단말(300) 및 외부 서버(400)를 포함한다.
첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 기업 정보에 기반하여 기업에 맞춤하는 지원 사업에 대한 사업 신청 데이터를 제공하는 서비스를 운영하는 장치를 의미할 수 있다.
상기의 사업 신청 데이터는 사업을 신청하는 기업(사용자)이 사업 공고자가 등록한 사업 공고에서 요구하는 사항을 기재하여 제출한 사업 신청 서류에 관한 데이터를 의미할 수 있다.
예를 들어, 사업 신청 데이터는 기업의 명칭, 업종, 위치, 주요 구성원 프로필, 종업원 수 및 매출을 포함하는 규모, 재무제표 등 기업의 개인정보 데이터를 포함할 수 있다. 또한, 사업 신청 데이터는 사업 공고에 부합하는 지원 대상 사업, 지원 규모, 지원비용 운영 계획, 활용 기간 등 기업의 사업 계획 데이터를 포함할 수 있다.
첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 사업 신청 데이터를 이용하여 기업 정보를 생성하여 저장한다. 따라서, 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 공고문의 첨부파일 데이터를 분석하여 키워드를 추출하고, 키워드와 매칭되는 기업 정보를 추출할 수 있다.
먼저, 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 정부 및 공공기관의 정책 추진을 위해 제공하는 지원사업에 효율적으로 신청할 수 있도록 공고문의 첨부파일 데이터를 분석하여 키워드를 추출하고, 키워드와 매칭되는 기업정보를 추출하여 해당 기업 단말에 제공한다.
일 실시예에서, 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 첨부파일 데이터에 있는 텍스트를 공백 기준으로 단어를 추출하고, 미리 생성된 단어 별 빈도 수 데이터베이스를 기초로 단어의 빈도 수를 측정한다.
그런 다음, 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 단어 각각에 대한 형태소 분석을 실행하여 단어 및 형태소 값이 쌍으로 이루어지고, 빈도 수를 지시하는 레이블이 할당된 토큰을 생성한다.
예를 들어, 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 텍스트를 분석하여 (빈도 수: 1000번, (단어, 형태소 값)), (빈도 수: 234번, (단어, 형태소)), (빈도수: 2541번, (단어, 형태소)), (빈도수: 2516번, (단어, 형태소)) 등의 토큰을 생성할 수 있다.
상기와 같이 토큰이 생성된 후, 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 토큰 각각에 대해서 해당 토큰의 단어 및 토큰의 레이블에 따라 토큰 각각에 서로 다른 가중치를 부여한다.
일 실시예에서, 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 토큰 각각에 대해서 해당 토큰의 단어를 구현하는 언어 종류(즉, 영어, 중국어, 한국어 등), 단어가 임상 시험 타이틀에서 존재하는 위치 및 토큰에 할당된 레이블의 빈도 수에 따라 서로 다른 가중치를 부여한다.
그런 다음, 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 토큰을 벡터화한 후 학습시켜 토큰에 해당하는 키워드를 출력하는 학습 모델을 생성한다. 이러한 학습 모델은 추후에 공고문의 첨부파일 데이터를 수신한 경우 공고문의 첨부파일 데이터에서 키워드를 추출할 수 있도록 하는 모델이다.
이하에서는, 학습 모델을 이용하여 공고문의 첨부파일 데이터에서 키워드를 추출하는 과정을 설명하기로 한다.
먼저, 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 공고문의 첨부파일 데이터의 텍스트를 공백을 기준으로 단어를 추출한다. 그 후, 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 단어 각각에 대한 형태소 분석을 실행하여 단어 및 형태소 값이 쌍으로 형성된 토큰을 생성하고, 토큰을 미리 학습된 학습 모델에 입력하여 학습 모델에서 키워드를 추출한다.
또한, 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 공고문의 첨부파일 데이터에 포함된 오브젝트의 특징 정보를 추출하고, 오브젝트의 특징 정보를 벡터값으로 표현하여 오브젝트의 특징 정보를 생성하고, 오브젝트의 특징 정보에 따라 키워드를 결정한다.
보다 구체적으로, 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 오브젝트의 특징 영역을 탐지(Interest Point Detection)할 수 있다. 여기에서, 특징 영역이란, 오브젝트들 사이의 동일 유사 여부를 판단하기 위한 오브젝트의 특징에 대한 기술자, 즉 특징 기술자(Feature Descriptor)를 추출하는 주요 영역을 말한다.
본 발명의 실시예에 따르면 이러한 특징 영역은 오브젝트가 포함하고 있는 윤곽선, 윤곽선 중에서도 코너 등의 모퉁이, 주변 영역과 구분되는 블롭(blob), 오브젝트의 변형에 따라 불변하거나 공변하는 영역, 또는 주변 밝기보다 어둡거나 밝은 특징이 있는 극점일 수 있으며 오브젝트의 패치(조각) 또는 오브젝트 전체를 대상으로 할 수 있다.
다른 일 실시예에서, 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 동영상 조각의 특징 영역에서 특징 기술자를 추출(Descriptor Extraction)하고, 특징 기술자에 따라 오브젝트 특징 정보를 추출할 수 있다. 특징 기술자는 오브젝트의 특징들을 벡터 값으로 표현한 것이다.
상기의 이러한 특징 기술자는 오브젝트에 대한 특징 영역의 위치, 또는 특징 영역의 밝기, 색상, 선명도, 그라디언트, 스케일 또는 패턴 정보를 이용하여 계산할 수 있다. 예를 들어 특징 기술자는 특징 영역의 밝기 값, 밝기의 변화 값 또는 분포 값 등을 벡터로 변환하여 계산할 수도 있다.
한편, 본 발명의 실시예에 따르면 오브젝트에 대한 특징 기술자는 위와 같이 특징 영역에 기반한 지역 기술자(Local Descriptor) 뿐 아니라, 전역 기술자(Global descriptor), 빈도 기술자(Frequency Descriptor), 바이너리 기술자(Binary Descriptor) 또는 신경망 기술자(Neural Network descriptor)로 표현될 수 있다.
보다 구체적으로, 특징 기술자는 오브젝트의 전체 또는 오브젝트를 임의의 기준으로 분할한 구역 각각, 또는 특징 영역 각각의 밝기, 색상, 선명도, 그라디언트, 스케일, 패턴 정보 등을 벡터값으로 변환하여 추출하는 전역 기술자(Global descriptor)를 포함할 수 있다.
예를 들어, 특징 기술자는 미리 구분한 특정 기술자들이 오브젝트에 포함되는 횟수, 종래 정의된 색상표와 같은 전역적 특징의 포함 횟수 등을 벡터값으로 변환하여 추출하는 빈도 기술자 (Frequency Descriptor), 각 기술자들의 포함 여부 또는 기술자를 구성하는 각 요소 값들의 크기가 특정값 보다 크거나 작은지 여부를 비트 단위로 추출한 뒤 이를 정수형으로 변환하여 사용하는 바이너리 기술자 (Binary descriptor), 신경망(Neural Network)의 레이어에서 학습 또는 분류를 위해 사용되는 영상 정보를 추출하는 신경망 기술자(Neural Network descriptor)를 포함할 수 있다.
그 후, 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 오브젝트 특징 정보의 형태소 값과 매칭되는 키워드를 추출하여 키워드를 결정할 수 있다.
상기와 같이, 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 첨부파일 데이터를 기초로 생성된 키워드 및 기업 정보를 매칭시켜 해당 기업 단말에 첨부파일 데이터를 제공할 수 있다.
또한, 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 사업 공고에 대해 기업이 제출하는 사업 신청 데이터에 포함된 데이터에 관하여 암호화를 통해 보안 기능을 제공할 수 있다.
이때, 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)가 제공하는 보안 기능은 기업이 인터넷을 통해 사업 신청을 수행할 때 동작하는 웹 또는 앱 기반의 서비스일 수 있다. 따라서, 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 서버의 형태로 구현될 수 있다. 여기서, 서버란 데이터를 처리하는 처리 장치(processing unit) 및 메모리(memory)를 포함하는 장치를 의미할 수 있다.
일 실시예에서, 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 사업 지원자 단말(300)로부터 수신된 사업 신청 데이터를 암호화할 수 있고, 암호화된 데이터를 저장할 수 있다.
사업 신청 데이터 보안 기능 제공 장치(100)가 사업 신청 데이터를 암호화하는 방식은 다양할 수 있고, 대칭 암호화 방식(Symmetric Encryption) 또는 비대칭 암호화 방식(Asymmetric Encryption) 중에서 어느 하나를 선택하여 암호화를 수행할 수 있다.
첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 지원 사업에 관한 사업 공고를 등록한다. 이를 위해, 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 사업 지원자 단말(300)로부터 기업의 신청을 받을 사업 공고에 대한 정보를 수신하여 등록할 수 있다.
그 후, 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 사업 지원 요건을 기업 DB의 기업 정보가 만족하는 만족 요건과 기업 DB의 기업 정보가 불만족하는 불만족 요건으로 분류할 수 있다. 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 불만족 요건을 만족 요건으로 변경하기 위한 필요 조건을 계산할 수 있다. 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 불만족 요건, 불만족 요건에 대응하는 기업 DB의 기업 정보, 필요 조건 및 제2 사업 공고를 제공할 수 있다.
일 실시예에서, 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 필요 조건 제공 시 기업 DB의 정보 변경이 필요한지 여부를 입력받을 수 있다. 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 정보 변경이 필요하다고 입력된 경우, 변경하고자 하는 제3 기업 정보를 입력 받을 수 있다.
그리고, 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 기업 DB를 제3 기업 정보로 업데이트할 수 있다. 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 검출된 사업 공고의 사업 지원 요건과 제3 기업 정보로 업데이트 된 기업 DB를 재비교하여 제2 사업 공고를 제공할 수 있다.
일 실시예에서, 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 정보 변경이 필요하다고 입력된 경우, 변경하고자 하는 제3 기업 정보를 입력받을 수 있다. 그리고, 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 기업 DB를 제3 기업 정보로 업데이트할 수 있다. 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 검출된 사업 공고의 사업 지원 요건과 제3 기업 정보로 업데이트 된 기업 DB를 재비교하여 제2 사업 공고를 제공할 수 있다.
첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 기업 DB를 업데이트할 수 있다 .
구체적으로, 일 실시예에 따루면 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 외부 서버(400)로부터 대상 기업에 대한 제2 기업 정보를 수집할 수 있다. 그리고, 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 제2 기업 정보의 생성 일자와 기업 DB에 저장된 제1 기업 정보의 제2 생성 일자를 비교할 수 있다. 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 제2 기업 정보의 생성 일자가 제1 기업 정보의 생성 일자보다 늦으면, 기업 DB에 저장된 제1 기업 정보를 제2 기업 정보로 업데이트할 수 있다.
또 다른 일 실시예에 따르면, 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 외부 서버(400)로부터 대상 기업에 대한 제2 기업 정보를 수집할 수 있다. 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 제2 기업 정보의 신뢰도를 평가할 수 있다. 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 신뢰도가 제1 임계 범위에 포함되면, 제2 기업 정보를 폐기할 수 있다.
이하에서는 도면을 참조하여 본 발명의 실시예에 따른 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 이용한 지원 사업 정보 제공 방법을 상세히 살펴보도록 한다.
그 후, 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 사업 지원자 단말(300)로부터 사업 신청 데이터를 수신하면, 사업 신청 데이터 중 일부 정보에 대한 암호화를 실행한 후 암호화된 사업 신청 데이터를 저장한다. 이때, 사업 신청 데이터는 사업자등록번호 및 추가 정보(예를 들어, 대표자 연령, 성별 등)을 포함할 수 있다.
사업 공고자 단말(200)은 지원 사업에 관한 사업 공고를 등록하는 사업 공고자가 사용하는 서버를 의미할 수 있다. 즉, 사업 공고자는 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)을 이용하여 기업의 신청을 받을 사업 공고에 관한 정보를 등록할 수 있다. 사업 공고자 단말(200)은 PC(Personal Computer), 스마트폰 등 서비스 이용을 위한 다양한 형태의 장치로 구현될 수 있다.
사업 공고자는 기업의 사업 신청이 있는 경우 제출된 사업 신청 서류를 열람 및 이용할 자격을 가질 수 있다. 다만, 사업 공고자에 해당하는 기관 내에서도 서로 다른 내부 인력의 자격 조건에 따라 열람 및 이용 자격이 상이하게 주어질 수 있다.
이에, 본 명세서에서는 이해의 편의를 위해 사업 공고자와 사업 공고자의 내부 인력를 포함하여 사업 신청 서류에 대한 접근 요청을 하는 모든 주체를 '요청자'로 지칭하고, 요청자가 사용하는 서버를 후술하는 도 2에 도시된 외부 서버(400)로 지칭하기로 한다.
즉, 사업 공고자가 사업 공고를 하기 위해 사용하는 서버는 사업 공고자 단말(200)로, 기업의 사업 신청 서류에 접근하기 위해 사용하는 서버는 외부 서버(400)로 구별될 수 있다.
사업 공고자 단말(200)은 사업 공고를 등록하기 위하여 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)와 통신 연결될 수 있다. 사업 공고자 단말(200)은 다양한 통신 방법을 이용하여 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)와 통신 연결될 수 있다.
일 실시예에 따르면, 사업 공고자 단말(200)은 WiFi, LTE, 3G와 같은 무선 통신을 이용하여 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)와 통신 연결될 수 있다. 또한, 사업 공고자 서버(300)는 LAN과 같은 유선 통신을 이용하여 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)와 통신 연결될 수도 있다.
이하, 하나의 사업 공고에 대하여 하나의 기업이 사업 신청 서류를 제출하는 경우에 본 발명의 실시예에 따라 사업 신청 데이터 보안 기능이 제공되는 방법을 예시적으로 설명한다. 이와 같은 방법은 하나의 사업 공고에 대하여 복수의 기업이 사업 신청 서류를 제출하는 경우에도 동일하게 적용될 수 있고, 복수의 사업 공고에 대하여 복수의 기업이 사업 신청 서류를 제출하는 경우에도 동일하게 적용될 수 있다.
사업 지원자 단말(300)은 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)에서 제공하는 서비스를 이용하는 기업이 사용하는 서버를 의미할 수 있다. 사용자, 즉, 기업은 사업 지원자 단말(300)을 이용하여 사업 공고 정보를 제공받고 사업 신청 서류를 제출할 수 있다. 사업 지원자 단말(300)은 PC(Personal Computer), 스마트폰 등 서비스 이용을 위한 다양한 형태의 장치로 구현될 수 있다.
복수의 사용자는 사업 공고 기관 등 사업 공고자가 사업 공고를 등록하는 경우 각각의 사업 지원자 단말(300)을 통해 사업 공고 정보를 확인할 수 있다.
적어도 하나의 사용자는 각각의 사업 지원자 단말(300)을 통해 기업의 개인정보, 사업 계획 정보 등을 포함한 사업 신청 서류를 작성하여 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)에 제공할 수 있다. 각 사용자가 제공한 사업 신청 서류는 암호화를 통해 보안 기능이 수행될 수 있다.
사업 지원자 단말(300)은 위의 서비스를 이용하기 위하여 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)와 통신 연결될 수 있다. 사업 지원자 단말(300)은 다양한 통신 방법을 이용하여 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)와 통신 연결될 수 있다.
일 실시예에서, 사업 지원자 단말(300)은 WiFi, LTE, 3G와 같은 무선 통신을 이용하여 사업 신청 데이터 보안 기능 제공 장치(100)와 통신 연결될 수 있다. 또한, 사업 지원자 단말(300)은 LAN과 같은 유선 통신을 이용하여 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)와 통신 연결될 수도 있다.
이하, 하나의 사업 공고에 대하여 하나의 기업이 사업 신청 서류를 제출하는 경우에 본 발명의 실시예에 따라 사업 신청 데이터 보안 기능이 제공되는 방법을 예시적으로 설명한다. 이와 같은 방법은 하나의 사업 공고에 대하여 복수의 기업이 사업 신청 서류를 제출하는 경우에도 동일하게 적용될 수 있고, 복수의 사업 공고에 대하여 복수의 기업이 사업 신청 서류를 제출하는 경우에도 동일하게 적용될 수 있다
도 3는 본 발명의 다른 일 실시예에 따른 첨부파일 데이터 추출을 포함하는 데이터 매칭 시스템을 설명하기 위한 네트워크 구성도이다.
도 3를 참조하면, 첨부파일 데이터 추출을 포함하는 데이터 매칭 시스템은 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100), 사업 공고자 단말(200), 사업 지원자 단말(300) 및 외부 서버(400)를 포함한다.
도 3에 도시된 사업 지원자 단말(300)은 도 2에 도시된 본 발명의 실시예에 따른 첨부파일 데이터 추출을 포함하는 데이터 매칭 시스템에서, 사업 지원자 단말(300) 중 어느 하나의 사업 지원자 단말(300)을 예시적으로 포함한 것이다.
외부 서버(400)는 제출된 사업 신청 서류에 관한 공유를 요청하는 주체(이하, 요청자)가 사용하는 서버를 의미할 수 있다. 즉, 요청자는 외부 서버(400)를 이용하여 기업이 제출한 적어도 하나의 사업 신청 서류에 대한 열람, 복사 등 공유를 받기 위한 접근을 요청할 수 있다. 또한, 요청자는 외부 서버(400)를 통해 요청한 사업 신청 서류 또는 이를 열람할 수 있는 링크를 제공받을 수 있다. 외부 서버(400)는 PC(Personal Computer), 스마트폰 등 서비스 이용을 위한 다양한 형태의 장치로 구현될 수 있다.
여기서, 외부 서버(400)는 사업 공고 기관이 사용하는 서버 및 사업 공고 기관의 담당자를 포함한 인력이 사용하는 서버를 포함할 수 있다. 즉, 사업 공고 기관이 직접 본인이 등록한 사업 공고에 관한 기업들의 사업 신청 서류를 열람하고자 하는 경우에도 보안된 서류에 대한 접근이 제한될 수 있다.
본 발명의 일 실시예에 따르면, 사업 공고 기관은 외부 서버(400)를 통해 본인의 사업 신청 서류에 대한 접근 허가를 인증 받은 이후에 해당 서류를 공유 받을 수 있다.
외부 서버(400)는 사업 신청 서류를 제출한 기업 및 기업 내 담당자를 포함한 인력이 사용하는 서버를 포함할 수 있다. 즉, 사업 신청 서류를 제출한 기업 본인이 제출한 서류를 열람하거나 수정, 보완하려는 경우에도 서류에 대한 접근이 제한될 수 있다. 본 발명의 일 실시예에 따르면, 기업은 외부 서버(400)를 통해 본인의 사업 신청 서류에 대한 접근 허가를 인증 받은 이후에 해당 서류를 공유 받을 수 있고, 수정 및 보완을 수행할 수 있다.
외부 서버(400)는 사업 신청 서류의 공유를 요청하고 이를 제공받기 위해 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)와 통신 연결될 수 있다. 외부 서버(400)는 다양한 통신 방법을 이용하여 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)와 통신 연결될 수 있다.
일 실시예에 따르면, 외부 서버(400)는 WiFi, LTE, 3G와 같은 무선 통신을 이용하여 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)와 통신 연결될 수 있다. 또한, 외부 서버(400)는 LAN과 같은 유선 통신을 이용하여 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)와 통신 연결될 수도 있다.
도 4는 본 발명에 따른 첨부파일 데이터 추출을 포함하는 데이터 매칭 방법의 일 실시예를 설명하기 위한 흐름도이다.
도 4를 참조하면, 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 사업 지원자 단말로부터 기업의 신청을 받을 사업 공고에 대한 정보를 수신하여 등록한다(단계 S410).
첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 사업 신청 데이터를 이용하여 기업 정보를 생성하여 저장한다(단계 S420).
첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 상기 사업 공고에 대한 공고문의 첨부파일 데이터를 추출한 후 상기 기업 정보와 매칭하여 적합도를 산출한다(단계 S430).
단계 S430에 대한 일 실시예에서, 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 첨부파일 데이터에 있는 텍스트를 공백 기준으로 단어를 추출하고, 미리 생성된 단어 별 빈도 수 데이터베이스를 기초로 단어의 빈도 수를 측정하고, 단어 각각에 대한 형태소 분석을 실행하여 단어 및 형태소 값이 쌍으로 이루어지고, 빈도 수를 지시하는 레이블이 할당된 토큰을 생성한 후 상기 토큰을 벡터화한 후 학습시켜 학습 모델을 생성할 수 있다.
상기의 실시예에서, 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 첨부파일 데이터을 이용하여 생성된 토큰을 상기 학습 모델에 입력하여 상기 학습 모델에서 공고문의 첨부파일 데이터의 토큰과 매칭되는 토큰을 추출하고, 토큰에 미리 할당된 가중치 및 미리 할당된 레이블이 지시하는 빈도 수를 기초로 상기 토큰을 정렬한 후 정렬된 토큰을 키워드로 결정할 수 있다.
단계 S430에 대한 다른 일 실시예에서, 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 공고문의 첨부파일 데이터에 포함된 오브젝트의 특징 정보를 추출하고, 오브젝트의 특징 정보를 벡터값으로 표현하여 오브젝트의 특징 정보를 생성하고, 오브젝트의 특징 정보에 따라 키워드를 결정할 수 있다.
상기와 같이, 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 키워드와 매칭되는 기업 정보를 추출하여 제공할 수 있다.
첨부파일 데이터 추출을 포함하는 데이터 매칭 장치(100)는 매칭 결과에 따라 데이터 접근 시간 및 심사 담당자의 위치 정보를 이용하여 열람 시간을 제한하는 데이터 암호화를 실행한 후 해당 정부 지원 사업을 신청한다(단계 S440).
한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.
100: 첨부파일 데이터 추출을 포함하는 데이터 매칭 장치,
110: 사업 신청 데이터 관리부,
120: 기업 정보 생성부,
130: 데이터 매칭부,
140: 사업 신청 처리부,
150: 데이터 매칭부,
160: 데이터베이스,
200: 사업 공고자 단말,
300: 사업 지원자 단말,
400: 외부 서버,
110: 사업 신청 데이터 관리부,
120: 기업 정보 생성부,
130: 데이터 매칭부,
140: 사업 신청 처리부,
150: 데이터 매칭부,
160: 데이터베이스,
200: 사업 공고자 단말,
300: 사업 지원자 단말,
400: 외부 서버,
Claims (2)
- 사업 지원자 단말로부터 기업의 신청을 받을 사업 공고에 대한 정보를 수신하여 등록하는 사업 신청 처리부;
상기 사업 신청 데이터를 이용하여 기업 정보를 생성하여 저장하는 기업 정보 생성부;
정부 지원 사업 공고문의 첨부파일 데이터를 추출하여 상기 기업 정보와 매칭하여 적합도를 산출하여 매칭하는 데이터 매칭부;
상기 매칭 결과에 따라 데이터 접근 시간 및 심사 담당자의 위치 정보를 이용하여 열람 시간을 제한하는 데이터 암호화를 실행한 후 해당 정부 지원 사업을 신청하는 사업 신청 처리부를 포함하며,
상기 데이터 매칭부는
상기 첨부파일 데이터에 있는 텍스트를 공백 기준으로 단어를 추출하고, 미리 생성된 단어 별 빈도 수 데이터베이스를 기초로 단어의 빈도 수를 측정하고, 단어 각각에 대한 형태소 분석을 실행하여 단어 및 형태소 값이 쌍으로 이루어지고, 빈도 수를 지시하는 레이블이 할당된 토큰을 생성한 후 상기 토큰을 벡터화한 후 학습시켜 학습 모델을 생성하고,
상기 데이터 매칭부는
상기 첨부파일 데이터을 이용하여 생성된 토큰을 상기 학습 모델에 입력하여 상기 학습 모델에서 공고문의 첨부파일 데이터의 토큰과 매칭되는 토큰을 추출하고, 토큰에 미리 할당된 가중치 및 미리 할당된 레이블이 지시하는 빈도 수를 기초로 상기 토큰을 정렬한 후 정렬된 토큰을 키워드로 결정하는 것을 특징으로 하는 첨부파일 데이터 추출을 포함하는 데이터 매칭 시스템.
- 첨부파일 데이터 추출을 포함하는 데이터 매칭 시스템에서 실행되는 기업 맞춤형 지원 사업 정보 제공 방법에 있어서,
사업 지원자 단말로부터 기업의 신청을 받을 사업 공고에 대한 정보를 수신하여 등록하는 단계;
상기 사업 신청 데이터를 이용하여 기업 정보를 생성하여 저장하는 단계;
상기 사업 공고에 대한 공고문의 첨부파일 데이터를 추출한 후 상기 기업 정보와 매칭하여 적합도를 산출하는 단계; 및
상기 매칭 결과에 따라 데이터 접근 시간 및 심사 담당자의 위치 정보를 이용하여 열람 시간을 제한하는 데이터 암호화를 실행한 후 해당 정부 지원 사업을 신청하는 단계를 포함하며,
상기 사업 공고에 대한 공고문의 첨부파일 데이터를 추출한 후 상기 기업 정보와 매칭하여 적합도를 산출하는 단계는
상기 첨부파일 데이터에 있는 텍스트를 공백 기준으로 단어를 추출하고, 미리 생성된 단어 별 빈도 수 데이터베이스를 기초로 단어의 빈도 수를 측정하는 단계;
단어 각각에 대한 형태소 분석을 실행하여 단어 및 형태소 값이 쌍으로 이루어지는 단계;
빈도 수를 지시하는 레이블이 할당된 토큰을 생성한 후 상기 토큰을 벡터화한 후 학습시켜 학습 모델을 생성하는 단계를 포함하는 것을 특징으로 하는
기업 맞춤형 지원 사업 정보 제공 방법.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020230024976 | 2023-02-24 | ||
KR20230024976 | 2023-02-24 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20240131875A true KR20240131875A (ko) | 2024-09-02 |
Family
ID=92757615
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020230163612A KR20240131875A (ko) | 2023-02-24 | 2023-11-22 | 첨부파일 데이터 추출을 포함하는 데이터 매칭 시스템 및 이의 실행 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20240131875A (ko) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102220027B1 (ko) | 2020-08-03 | 2021-02-24 | 이효배 | 사업장 안전관리수준 평가 시스템 |
JP2022068101A (ja) | 2020-10-21 | 2022-05-09 | ネイバー コーポレーション | 検索クエリの意図を反映した検索結果提供の方法及びシステム |
-
2023
- 2023-11-22 KR KR1020230163612A patent/KR20240131875A/ko unknown
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102220027B1 (ko) | 2020-08-03 | 2021-02-24 | 이효배 | 사업장 안전관리수준 평가 시스템 |
JP2022068101A (ja) | 2020-10-21 | 2022-05-09 | ネイバー コーポレーション | 検索クエリの意図を反映した検索結果提供の方法及びシステム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11475143B2 (en) | Sensitive data classification | |
Pena et al. | Bias in multimodal AI: Testbed for fair automatic recruitment | |
US11681817B2 (en) | System and method for implementing attribute classification for PII data | |
Chang et al. | Automated and personalized privacy policy extraction under GDPR consideration | |
Khan et al. | An efficient framework for real-time tweet classification | |
Tabak et al. | Comparison of emotion lexicons | |
Hecking et al. | Can topic models be used in research evaluations? Reproducibility, validity, and reliability when compared with semantic maps | |
Silva et al. | Using natural language processing to detect privacy violations in online contracts | |
Li et al. | A method for trust quantification in cloud computing environments | |
Trieu et al. | Document sensitivity classification for data leakage prevention with twitter-based document embedding and query expansion | |
Patel et al. | Sentiment analysis on movie review using deep learning RNN method | |
Clapham et al. | Policy making in the financial industry: a framework for regulatory impact analysis using textual analysis | |
Wang et al. | An explainable sentiment prediction model based on the portraits of users sharing representative opinions in social sensors | |
Kour et al. | Lexicon-based sentiment analysis | |
Yoon et al. | Fine‐grained mobile application clustering model using retrofitted document embedding | |
KR20240131875A (ko) | 첨부파일 데이터 추출을 포함하는 데이터 매칭 시스템 및 이의 실행 방법 | |
Sharma et al. | Sentiment analysis of indian language | |
US20200410129A1 (en) | Mitigating governance impact on machine learning | |
Donaldson et al. | Trustworthy Digital Repository Certification: A Longitudinal Study | |
Durán-Vaca et al. | Sentiment analysis on twitter to measure the perception of taxation in Colombia | |
Jamalpur et al. | Opinion mining on restaurant rating based on aspects | |
Siddikk et al. | FakeTouch: machine learning based framework for detecting fake news | |
Nasiri et al. | Detect and predict melanoma utilizing tcbr and classification of skin lesions in a learning assistant system | |
Sungsri et al. | The analysis and summarizing system of thai hotel reviews using opinion mining technique | |
Bau et al. | Sentiment Analysis of E-Wallet Companies: Exploring Customer Ratings and Perceptions |